Подкорпусы

Национальный корпус калмыцкого языка необходимо развивать по нескольким направлениям (подкорпусы расположены по приоритетности разработки):

1)   основной корпус;

2)    газетный подкорпус;

3)    устный подкорпус;

4)    обучающий подкорпус;

5)    параллельный подкорпус;

6)    диалектный подкорпус;

7)    фольклорный подкорпус;

8)    корпус ранних текстов;

9)    морфемный подкорпус;

10)  поэтический подкорпус;

11)  синтаксический подкорпус;

12)  подкорпус названий.

Создание каждого подкорпуса требует реализации множества предварительных шагов, компилирования словарных материалов, подготовки текстов, разработки концепции каждого подкорпуса, аннотации и разметки.

 

Первый подкорпус по традиции носит название основной и будет состоять из прозаических художественных, научных и официально-деловых текстов, которых, надо заметить, не так много, как хотелось бы. По статистике базы данных MetaKT, прозаических произведений немного. Преимущественно в калмыцкой художественной литературе преобладают тексты поэтического характера, которые являются небольшими по своему объему, этот факт обуславливает большой крен в их сторону в плане балансировки текстового материала в создаваемом корпусе. Как известно, в поэтических произведениях язык носит метафорический характер, и слово здесь как таковое переосмыслено автором, что иногда или в большинстве случаев создает трудности для описания его лексического значения. Поэтические произведения идеально подходят для изучения идиолекта того или иного автора, а также ритмико-мелодического устройства языка.

Что касается текстов других стилей (научный и официально-деловой), то их не так много, и они составляют небольшую часть имеющихся текстов (менее 1 % от всего массива). Терминология в научной сфере разработана достаточно подробно, о чем свидетельствуют терминологические словари калмыцкого языка [Краткий словарь… 1968; Очир-Гаряев 1990; 1995; 1996; Корсункиев 1992; Бардаев 2007; Манджикова 2007]. Однако эти термины не находят должного применения на практике, поскольку вся коммуникация в данных сферах осуществляется на русском языке.

В основном подкорпусе тексты получат морфологическую и семантическую разметки. Ниже приведена система помет для морфологического аннотировании, разработанная с опорой на разработки: [Овсянникова 2009: 866–871].

При создании основного подкорпуса использовались материалы издательского дома «Герел», который любезно предоставил электронные копии сверстанных книг. Этот хоть и небольшой по объему материал стал первым заделом в создании корпуса калмыцкого языка. Однако в электронных копиях мы столкнулись с проблемами кодировки как исконно калмыцких букв, так и всего массива кириллических букв. По устранению этой проблемы была создана программа Replacer[1], основной целью которой является приведение кодировок калмыцких букв к стандартам UNICODE. Кроме этого, программа используется для транслитерации с латиницы на кириллицу и наоборот (например, при разработке Словарного модуля в корпусе).

Другой проблемой, с которой столкнулись лингвисты, является так называемая орфографическая унификация (характерна для всех типов текстов на калмыцком языке, созданных с 1924 г.). Как известно, за этот период сменилось несколько графических систем и орфографических правил, что привело к вариативности написания того или иного слова. Было принято решение сохранять оригинальную орфографию и пунктуацию текста, поскольку это в перспективе также может стать объектом для исследования, ведь становление и развитие норм в калмыцком языке, узус еще не были предметом специального изучения. Такое решение влечет за собой создание словаря вариативных написаний.

Газетный подкорпусИздательство (редакция) национальной газеты «Хальмг Үнн» («Калмыцкая правда») любезно передало нам архив за 10 лет (2002–2012), материал больших объемов и разных жанров внутри публицистического стиля. По этой причине было принято решение создавать отдельный модуль на основе газетных текстов.

Общественно-политическая газета «Хальмг үнн» основана в 1920 г., под названием «Улан Хальмг» («Красный Калмык»), в 1926 г. переименована в «Таңһчин зәңг» («Областные известия»), название неоднократно менялось. В связи с депортацией калмыков (1943–1956) газета не издавалась, печать возобновилась в 1957 г. В развитии публицистического стиля можно выделить несколько этапов: 1) этап становления (додепортационный) — с 1920 по 1943 гг.; 2) постдепортационный этап — с 1957 г. до 1990-х гг., в котором можно выделить два периода (конец 1950–1970-х гг. и 1980-е гг.); 3) переходный период с 1990-х по 2000-е гг.

Наибольший интерес для газетного подкорпуса калмыцкого языка представляют публикации, появившиеся после 1957 г., т. е. после возвращения калмыков из Сибири, в этот период подавляющая часть населения свободно владела калмыцким языком, а на русском говорили единицы. С 1957 г. до начала 1990-х гг. материалы газеты полностью печатались на калмыцком языке, в ней публиковалось очень много переводных статей, был распространен жанр очерка. Кроме этого, в газете печатались тексты литературных жанров, среди которых нас интересуют только неопубликованные материалы. Надо признать, что в публикациях советского периода преобладает много советизмов, которые перешли в разряд устаревших слов как в русском, так и в калмыцком языке. Но начиная с 1990-х гг. появилась тенденция уменьшения количества текстов на калмыцком языке. Характерной чертой последнего периода стало чрезмерное употребление интернационализмов, появившихся в калмыцком языке через посредство русского языка. Другой чертой текущего периода стало издание текстов на религиозную тематику, что ранее было запрещено.

В жанровую классификацию газетных текстов на калмыцком языке входят статья, очерк, интервью, поздравления-йорялы и др. По предварительным расчетам объем газетного подкорпуса, в который войдут материалы с 1957 г., составит более 15 млн словоупотреблений. Первоначально обрабатываются электронные копии газеты, исправляется кодировка букв калмыцкого языка. Заметим, что многие шрифты исчезли и быстро восстановить первоначальный вид текста достаточно сложно и трудоемко, поскольку некоторые буквы имеют кодировку, соответствующую другому символу. Например, за кодом пробела закреплена одна из калмыцких букв, а поскольку шрифт уже утерян, получается, что текст требует дополнительных усилий по его выверке с оригиналом.

Все этапы реформирования калмыцкой орфографии отразились на газете «Хальмг үнн», что вносит дополнительные трудности при их оцифровке. В связи с этим нами разрабатывается словарь вариативных написаний слов калмыцкого языка.

Газетные статьи, с одной стороны, представляют собой чисто лингвистический объект исследования, но, с другой стороны, оцифрованные копии газетных статей — это страницы истории, которые отражают общественно-политическую жизнь республики.

Устный подкорпусОдной из главных целей создания устного подкорпуса калмыцкого языка — документация живого калмыцкого языка во всем его многообразии. Поскольку язык находится на грани исчезновения, то, конечно, первым делом необходимо его зафиксировать в том виде, в каком он звучит — это большая кропотливая работа по записи новых текстов и по оцифровке имеющегося материала. Например, в архивах республиканского телевидения[2] и радио[3] хранится большое количество звучащего материала, представленного в основном в аналоговой записи. Только в последнее десятилетие радио и телевидение перешло на цифровое вещание, и соответственно архив стал также носить цифровой характер. Требуется заключить с ними договоры на представление материалов для конвертирования (из аналогового в цифровой). Звуковой файл должен иметь формат WAVE, поскольку он не нарушает частоту звукового материала и сохраняет его характеристики. Подобные звуковые файлы можно использовать даже для изучения фонетических особенностей речи, не говоря о том, что он может выступать в качестве материала и для исследования остальных уровней системы.

Создание устного подкорпуса — одна из главных задач лингвистов, поскольку количество носителей калмыцкого языка неумолимо уменьшается и того объема материала принципиально недостаточно, а также он не пригоден для изучения языка на фонетическом уровне. Если структуру языка можно восстановить из письменных текстов, то произношение, артикуляцию и так называемые «живые» процессы устной речи невозможно реконструировать по письменным текстам.

Имеющийся записанный материал можно классифицировать на несколько групп:

 

публичная речь, которую можно подразделить на подготовленную и неподготовленную:

непубличная речь, речь в том виде, в которой она реально функционирует в обществе:

беседа, встреча с читателями, встреча со слушателями, дискуссия, доклад, интервью, комментарий (напр. спортивный), конференция, круглый стол, лекция, пересказ, пресс-конференция, рассказ, репортаж, речь

монолог; беседа; микродиалог: в библиотеке, домашний; разговор: деловой, воспоминание, телефонный; пересказ: разговора, телепередачи; рассказ; спор и пр.

Если первый блок (публичной речи) в той или иной мере существует (необработанный, нерасшифрованный, но он есть), то второй блок отсутствует: нет записей, предназначенных для лингвистического исследования с соблюдением требования разнообразия коммуникативных ситуаций и коммуникативных сценариев[4], балансировки материала по социальным признакам информантов. С учетом того, что с каждым днем количество говорящих уменьшается, то, как нам кажется, необходимо направить все усилия на создание второго блока, при этом проблема балансировки материала по социальным критериям, а именно по возрасту, существует, и тем или иным способом решить ее пока невозможно, однако процентное соотношение групп по возрастному признаку отражает реальную языковую ситуацию, сложившуюся в Республике Калмыкия. Записывать речь старшего поколения калмыков, которое в совершенстве владеет калмыцким языком, следует и по другой причине: скоро их сменит поколение, не владеющее языком в той степени, в которой знает его предыдущее поколение.

При каталогизации записей устной речи требуется учитывать и тематический аспект, характеристику коммуникантов, если таковые имеются, описание звукового файла с указанием качества записи и возможности быстрой расшифровки, а сама структура метаописания должна повторять основные принципы метаразметки художественных текстов: социальные характеристики информанта. Тематический критерий нужен для быстрого поиска необходимых материалов и его отбора и др.

Устный подкорпус калмыцкого языка можно будет использовать в преподавании разных лингвистических дисциплин как для школьников, так и для студентов-филологов. Данный подкорпус — это реализация живой калмыцкой речи, демонстрирующей разные речевые процессы.

Обучающий подкорпусНа базе обучающего корпуса русского языка [Добрушина 2005; 2009; Савчук, Сичинава 2009; Образовательный портал Национального корпуса русского языка] предлагается создание обучающего подкорпуса калмыцкого языка со снятой омонимией, разметка которого будет ориентирована на школьную программу калмыцкого языка, т. е. грамматическая информация будет соответствовать, современной школьной программе (например, будут использованы традиционные лингвистические термины). Предполагается, что, помимо текстов со стандартной грамматической разметкой, обучающий подкорпус калмыцкого языка представит возможность создания упражнений по темам школьной программы и для организации самостоятельной работы школьников и студентов (склонение существительных, спряжение глаголов, образование причастий и деепричастий и др.).

В обучающий подкорпус войдут только те произведения, которые проходят в школе, предполагается, что часть литературных и фольклорных произведений будет доступна и для чтения в свободном доступе. Другим критерием для отбора произведений будет выступать степень их кодифицированности, поскольку в школе преподавание ориентировано на литературный язык. В меньшей степени будут представлены диалектные тексты, которые познакомят тех, кто изучает калмыцкий язык, с диалектными особенностями языка. К тому же тексты следует подбирать по разным тематикам для того, чтобы было представлено все лексическое многообразие калмыцкого языка, а это, как известно, самое сложное в обучении иностранному языку, каковым сейчас является калмыцкий язык для детей. Следовательно, в обучающем подкорпусе должны быть представлены упражнения на базе предложений не только грамматического, но и лексического характеров, направленных на закрепление материала, пройденного самостоятельно или с учителем.

Первоначально в обучающий подкорпус калмыцкого языка будут включены несложные упражнения, например: найти в тексте причастие, определить главные и второстепенные члены и т. д. В подкорпус войдут инструкции для учителей по составлению упражнений, а также будут проведены специальные обучающие семинары.

Параллельный подкорпус. Этот подкорпус имеет большое значение для возрождения языка в обществе: жители республики сначала овладевают русским языком, который становится первичным языком. В процессе изучения языка школьники и студенты опираются на знания первичного языка и смотрят на калмыцкий язык сквозь призму русского языка, который относится к другому типу языков — флективному, со свободным порядком слов в предложении. Важно создать ресурс, который поможет сопоставить два разноструктурных языка и вывести соответствия на лексико-грамматическом уровне.

Структура параллельного подкорпуса как самостоятельного модуля в корпусе предварительно будет следующей: русский → калмыцкий, калмыцкий → русский, калмыцкий → английский, монгольский → калмыцкий, калмыцкий → монгольский. Текстов, переведенных с бурятского или на бурятский, пока еще не было обнаружено.

Все тексты требуется отсканировать и распознавать, что несколько задерживает работу. В случае с первым модулем русский → калмыцкий гораздо легче, так как требуется распознать только калмыцкие тексты, тексты же на русском языке доступны из Интернета. В остальных модулях нужно все сканировать и распознавать и с той, и с другой стороны. В корпусе переводов с монгольского на калмыцкий пока не найдены оригиналы в республиканских библиотеках. Видимо, тексты нужно искать за пределами России. Электронных копий переводных текстов крайне мало. Например, некоторые из них были представлены Р. М. Ханиновой, за что мы ей выражаем огромную благодарность.

Диалектный подкорпус. Диалектная система калмыцкого языка представляет собой совокупность трех территориально-языковых разновидностей: дербетского, бузавского и торгутского говоров [Кичиков 1963; Бардаев 1985; Убушаев 2006 и др.]. Создание диалектного подкорпуса в Национальном корпусе калмыцкого языка даст возможность сравнивать диалекты с литературным калмыцким языком, в частности, позволит выяснить соотношение частотности диалектных явлений, а также изучать их грамматические свойства и т. д.

Проанализировав исследования по созданию и развитию диалектных корпусов [Летучий 2005; 2009; Крючкова, Гольдин 2008; 2011; Некрасова 2009; Юрина 2011], можно выделить два вида диалектных корпусов: 1) информационно-справочная система, где целью аннотирования является выделение ненормированных языковых фактов в текстах; 2) информационно-справочная система, содержащая диалектные тексты, которые представлены в виде фонетической записи. Первый тип не интересен диалектологам, поскольку в данном случае перед нами материал, в котором тот или иной лингвист уже констатировал наличие диалектных явлений. Второй, напротив, является материалом, который еще не изучен ни в каких-либо аспектах и который является источником для исследования уже известных фактов и выявления новых диалектных явлений, характерных для той или иной территориальной разновидности языка.

Было решено, что в основном подкорпусе будут помечаться особенности диалектной системы, поскольку пока в нашем распоряжении находятся только письменные тексты, в которых можно найти большое количество примеров отступлений от нормы: важно обозначить эти некодифицированные элементы калмыцкого языка, чтобы исследователь видел проявление нормы и узуса. Конечно, мы тем самым сузим поле для исследователей, прежде всего для диалектологов. Если в диалектном подкорпусе Национального корпуса русского языка выбирается морфологически ориентированная стратегия: «отмечаются только те отличия от литературного языка, которые имеют отношения к грамматике или отражаются на грамматических особенностях» [Летучий 2005: 217], то в калмыцком языке невозможно избрать только данную стратегию, поскольку большинство диалектных различий приходятся на фонетику и лексику. Морфологических особенностей не так много, хотя они имеются. Например, при выделении словоизменительных классов помечались диалектные варианты словоизменений (см. подробнее [Куканова 2012а]). Так, плюральный аффикс -дуд/дүд, который является составным по своему составу (-д + -уд/үд), встречается в торгутском диалекте и образует множественное число у существительных на неустойчивый -н, когда в литературном языке у таких слов исчезает -н и присоединяется аффикс -д [Убушаев 2006: 7]. Были выделены три типа диалектных особенностей в калмыцком языке:

1) dialfon — особенности на фонетическом уровне, отражающиеся в письменной форме;

2) diallex — особенности на лексическом уровне;

3) dialmorf — особенности на морфологическом уровне.

Для каждого говора введен индекс: Т — торгутский, D — дербетский, B — бузавский. Пометы dialfon и dialmorf конкретизируются: указывается, в чем состоит диалектная особенность. Подробнее см. примеры разметки в: [Куканова, Очирова 2012].

В перспективе отдельно будет создаваться диалектный подкорпус, основанный на фонетических расшифровках. Расшифровка будет представлена по правилам Международного фонетического фонда, что, следовательно, сделает доступными диалектные тексты как для отечественных, так и зарубежных исследователей. В архивах Калмыцкого института гуманитарных исследований РАН содержится большое количество аудиозаписей, однако они не расшифрованы в нужном для диалектологов виде. Требуется разработка инструкции по расшифровке звукового материала и программа записи текстов. Видимо, следует записывать тексты на заданные темы, чтение текстов не является достоверным материалом для исследования диалектной системы языка, поскольку письменный текст оказывает большое влияние на читающего. В текстах-монологах на заданную тему можно получить относительно чистый материал для изучения диалектных черт, поскольку говорящий чувствует определенную свободу в порождении текста, а одна и та же тема позволит сравнивать одинаковые элементы в речи носителей.

Фольклорный подкорпусДанный подкорпус будет состоять из прецедентных текстов — фольклорных произведений, являющихся неотъемлемой составляющей духовного наследия калмыцкого народа. В них отражены древнее мировоззрение и мироощущение народа, наивная картина мира во всех своих категориях, универсалиях и специфических чертах, например понятия времени и локации, персональности и движения и многое другое. Фольклор во всем своем многообразии жанров являет собой яркий образец метафоричности языка и содержит элементы архаики, по этой причине (и не только), как нам кажется, необходимо включить фольклорные произведения в Национальный корпус калмыцкого языка.

Создана структура базы данных, в которой отражено метаописание фольклорных текстов [Куканова 2012б]. Эта база данных носит не собственно лингвистический характер, а направлена прежде всего на сохранение фольклорного наследия калмыцкого этноса, поэтому специально рассматривать этот подкорпус в данной статье мы не будем.

Корпус «ранних» текстов. Этот модуль является одним из самых трудновыполнимых по нескольким причинам: в первую очередь отсутствуют тексты на «тодо бичиг», из которых можно было бы получить объемный словарь грамматических форм; отсутствует юникодовая кодировка всех графем, пишущихся в середине и в конце слова; отсутствует распознающая программа, которая бы облегчила подготовку текстов на «тодо бичиг»; отсутствует поддержка вертикального письма в текстовых редакторах [см. подробно Бембеев 2012а; 2012б].

Тем не менее было принято решение транслитерировать тексты на латиницу, кроме этого, ведется работа по созданию грамматического словаря старокалмыцкого языка: сейчас сформирован словник, состоящий из материалов двух словарей [см. подробно Мулаева 2012; Очирова 2012]. Работа по созданию корпуса «ранних» текстов интересная и перспективная, так как этот период старокалмыцкой письменности не исследован системно и глубоко, изучены лишь отдельные факты и жанры текстов (в частности [Сусеева 2003; Гедеева 2004]).

Д. А. Павлов выделяет три этапа в становлении современного калмыцкого языка. Второй этап делится на два: конец XIV и до первой половины XVII вв. и вторая половина XVII в. до 1917 г. [Павлов 2000]. В архивах содержатся памятники XVII в. и начала XX в. Период достаточно большой, что привело нас к разграничению его на составляющие: материал собирается по каждому веку отдельно. По жанровой представленности говорить пока еще рано, но предварительно очевидно, что это письма, историко-литературные памятники, религиозные произведения разных жанров (притчи, хождения, трактаты и т. д.).

Синтаксический подкорпус. Существует два вида синтаксического корпуса: 1) корпус, разметка в котором основана на выделении синтаксических ролей и характеристике словосочетания, клаузы, предложения с различных точек зрения (см., например, корпус ХАНКО [Копотев, Мустойоки 2003]); 2) синтаксически и семантически аннотированный корпус (основан на теории Смысл ↔ Текст, разработанной И. А. Мельчуком [1999]). В последнем представлено дерево зависимостей [Апресян и др. 2005].

На наш взгляд, было бы интересно приложить к нашему проекту теорию Смысл ↔ Текст и разработать синтаксически и семантически аннотированный корпус. Корпус будет, видимо, небольшим по своему объему, так как это один из самых сложных и трудновыполнимых проектов.

Морфемный подкорпус. Это один из наиболее интересных проектов для изучения морфемного состава калмыцкого слова. Данный подкорпус позволит глубоко и системно исследовать структуру агглютинативного слова на основе корпусного подхода и создать описание значений морфем, начиная с частотных и заканчивая нечастотными элементами. Поскольку калмыцкий язык относится к монгольской группе языков, то гипотетически будет несложно технически реализовать эту задачу. В связи с задачей необходимо будет создать словарь морфем и словарь слов с морфемным членением. В качестве исходного материала будет выступать словник из грамматического словаря, основанный в свою очередь на словнике Калмыцко-русского словаря под ред. Б. Д. Муниева [1977].

Оговоримся сразу, аффиксы залога также будут рассматриваться в морфемном словаре, поскольку данные форманты обладают словообразовательной функцией. Помимо этого, нужно также создать свод морфонологических правил, которые действуют на стыке аффиксов и которые регулирует соединение морфемных элементов в слове.

Таким образом, создание и разработка морфемного подкорпуса имеет большое значение, поскольку традиционно считается, что агглютинативные языки рассматриваются как языки с традиционно бедной морфонологией [Грунтов 2006: 148]. Исследования С. А. Крылова на примере халха-монгольского языка доказали, что агглютинативные языки обладают богатыми морфонологическими процессами, начиная с различных видов фузии и заканчивая явлениями супплетивизма [Крылов 2004]. Поскольку халха-монгольский и калмыцкий языки родственные, то можно предположить, что различные морфонологические процессы на стыке морфем характерны и для калмыцкого языка. К тому же «…морфонология, являющаяся <…> связующим звеном между фонетикой и морфологией, призвана благодаря такому своему положению в системе грамматического описания дать всеобъемлющую характеристику каждого языка. Возможно, что при установлении языковых типов с морфонологических позиций как раз и откроется возможность для создания рациональной типологической классификации языков земного шара» [Трубецкой 1967: 119].

Поэтический подкорпус. Поэтические тексты, наравне с прозаическими, диалектными, фольклорными и другими текстами, являются весьма важными источниками изучения калмыцкого языка. Поэтический подкорпус Национального корпуса калмыцкого языка будет обладать специальной метатекстовой разметкой, в которой отразятся основные жанровые и формальные параметры поэтического текста.

Поэтический подкорпус калмыцкого языка во многом ориентирован на разработки, предложенные в работе [Гришина и др. 2009]. Создатели Национального корпуса русского языка отмечали важность присутствия в нем представительного электронного массива поэтических текстов. Сложность разметки этих текстов была причиной того, что работа над поэтическим корпусом началась не сразу, а лишь после того, как основной корпус (прозаические художественные и нехудожественные тексты), достиг более ста миллионов словоупотреблений и основные принципы метатекстовой и морфологической разметки стали более ясны [Гришина и др. 2009: 72].

Данный подкорпус важен для изучения ритмико-мелодической системы языка, его потенциала, тем не менее необходимо сначала изучить ритмику и мелодику стихотворной речи на калмыцком, по этой причине данный подкорпус по приоритетности стоит на последнем месте. Помимо морфологической и семантической разметки, тексты будут сопровождены и специальной разметкой, отражающей особенности ритмико-тонической организации стихотворения.

На данный период можно выявить только особенности структурной организации строфы и рифмы. В первом случае классификация опирается на классические литературоведческие работы по стихосложению: [Гаспаров 2001]. Рифмовка в калмыцком поэтическом произведении оригинальна, поскольку строки рифмуются не только по концу строки, но и по началу строки.

В рамках работы над проектом будут размечены поэтические произведения калмыцких авторов по трем периодам: 1) 1920–1940-е гг., ранняя советская поэзия; 2) 1957–1980-е гг. и 3) 1990–2000-е гг., современная поэзия. Обращение к творчеству поэтов разных периодов позволит литературоведам, специалистам, работающим с литературными поэтическими текстами, существенно уточнить ряд особенностей литературы рассматриваемых периодов.

Подкорпус названий. Заголовки — «это тексты второго порядка: метатекст по отношению к основному тексту и одновременно просто текст как таковой и небольшого объема» [Гришина 2005: 246]. Однако под названиями мы понимаем только заголовки текстов в отличие от Е. А. Гришиной, которая включает следующие объекты:

1)    названия артефактов: заголовки текстов и ярлыки (названия учреждений, объектов культуры и т. д.);

2)    названия природных объектов [Гришина 2005: 244].

Всевозможные онимы в корпусе получат свою разметку при семантическом аннотировании, система которой разрабатывается в настоящий момент. Материалом послужит созданная база данных MetaKT, объем которой уже репрезентативен для проведения исследований по заголовкам текстов, написанных на калмыцком языке, при этом она постоянно пополняется новыми материалами. Метаописание для данного подкорпуса строится на тех же самых принципах и, более того, содержится в той же самой базе данных. Перспективы использования данного проекта достаточно широки, и его можно реализовывать параллельно с другими модулями, поскольку текстовый материал и метаразметка уже готовы.

Национальный корпус калмыцкого языка на данный момент состоит из нескольких модулей - основного, параллельного, диалектного подкорпусов, которые удалось разработать за три года выполнения проекта. Однако не стоит забывать и том, что настоятельно требуется разработать  устный и обучающий подкорпусы. Понятно, что их создание требует гораздо больше усилий и затрат, чем те проекты, которые сейчас реализованы в той или иной степени. 

 


[1] Программа создана А. Ю. Каджиевым.

[2] В 1967 г. было завершено строительство телецентра в Элисте, первый пробный эфир состоялся 5 ноября 1967 г., а регулярное телевещание началось с 7 ноября [История ТВ Калмыкии].

[3] Радио Калмыкии начало свое вещание в 1935 г. На этом этапе Калмыцкое радио активно сотрудничало с поэтами Х. Сян-Белгиным, С. Каляевым и др., которые выступали с чтением своих стихов, звучали песни в исполнении артистов. Сегодня в архивных фондах радио хранятся многочисленные записи тех лет [История радио Калмыкии].

[4] Под коммуникативным сценарием понимается модель, описывающая нормальную последовательность событий в частном контексте [Shank, Abelson 1977: 248].