О проекте
Научные открытия в области вычислительной техники и ее последующее развитие способствовали появлению корпусной лингвистики как приоритетного направления современного языкознания. Первые корпусы появились практически одновременно с внедрением компьютерных технологий в гуманитарные исследования.
Структура и функционирование естественного языка всегда изучались на материале письменных или устных источников, но только в последние несколько десятилетий корпусные исследования, направленные на разработку и создание коллекций текстов на разных языках, с применением интегрированной информационной среды, оформились в самостоятельную отрасль языковедческой науки. Массовым появлением корпусных исследований на материале английского, итальянского, финского и ряда других языков (преимущественно, европейских) отмечен период конца 1980‑х – середины 1990‑х гг. Сегодня текстовые корпусы – это мощные информационные ресурсы, которые могут быть использованы в различных исследованиях, прежде всего в лексикографии[i].
У термина корпус имеются два общепринятых значения, которые все же дифференцируются, в особенности в прикладной лингвистике. Различают «корпус первого порядка», под которым понимают всего лишь коллекцию текстов на некотором языке, и «лингвистический корпус» (языковой). Последнее – более объемное и системное понятие, называющее ряд признаков-критериев, которыми должна обладать та или коллекция текстов. Это «…большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач»[ii]. Таким образом, коллекция текстов может быть названа корпусом, если она обладает репрезентативным объемом, представлена в электронном аннотированном виде как определенная система.
Текстовые корпусы на том или ином языке необходимо создавать по нескольким причинам: во-первых, поиск материала для исследования происходит в реальном времени и доступен каждому, у кого компьютер имеет выход в Интернет; во-вторых, существует возможность многократного использования в различных аспектах всего того, что обработано компетентным лингвистом всего лишь раз; в-третьих, поиск необходимых единиц происходит в считанные секунды.
Лингвистическое аннотирование — это анализ элементов текста, его составляющих, в зависимости от конкретной лингвистической задачи (анализ морфологии, синтаксиса или семантики). Каждый элемент в тексте помещен в так называемые тэги, в которых содержится характеристика слова применительно к контексту его употребления.
На современном этапе развития корпусной лингвистики существует значительное число корпусов европейских языков, однако весьма незначительно пока количество исследований и попыток создания корпусов для вымирающих или находящихся на грани исчезновения языков, в частности калмыцкого. Кроме того, следует подчеркнуть, что вопросы создания корпуса были поставлены и разрабатывались преимущественно на материале флективных языков. Поэтому привлечение данных восточных языков, в частности монгольских, как языков иного типа, представляется актуальным для расширения и углубления фактической базы при рассмотрении проблемы в общелингвистическом плане.
Принципиально новый — корпусный — подход к изучаемым явлениям неизбежно ведет к определенной корректировке или даже пересмотру ряда положений традиционной грамматики. Многие теоретические положения, выдвинутые в калмыцком языкознании, остаются до сих пор не доказанными, а предложенные решения некоторых проблем представляются весьма неоднозначными, целый ряд вопросов излагается в общем виде и нуждается в проверке на конкретном языковом материале, который, как правило, не представителен по своему объему.
Наличие основного корпуса текстов, представляющего литературный язык на определенном этапе его существования, во всем многообразии жанров и стилей, — абсолютно необходимая предпосылка для создания новой академической грамматики и академического словаря калмыцкого языка на основе интегрального описания языка, предполагающего единство грамматики и лексики. Данные работы послужат базой для разработки практической, учебной грамматики и словарей разных типов, в том числе школьных, а также учебных пособий и справочников. Поэтому крайне важно приложение идей и методов корпусной лингвистики к материалу калмыцкого языка.
Такого рода проекты могут, во-первых, усилить интерес к изучению этих языков, во-вторых, облегчить работу лингвистов, уже занимающихся их исследованием, в-третьих, служить материалом для обучения языку детей. При помощи Национального корпуса калмыцкого языка (НККЯ) можно составлять различные упражнения, начиная с орфографических и пунктуационных и заканчивая упражнениями, связанными с расширением вокабулярия учащихся и его закрепления на практическом материале. Однако для достижения этой прикладной цели нужны «идеальные» тексты калмыцкого литературного языка, со снятой омонимией, орфографически и пунктуационно выверенные, не имеющие погрешностей в лексическом и грамматическом плане. Можно впоследствии также добавить модуль, отвечающий за произношение списка наиболее частотных слов, для удобства запоминания и правильного восприятия тех или иных единиц.
Калмыцкий язык, как известно, по своей структуре является агглютинативным, принадлежит к монгольской группе алтайской семьи языков. Калмыки вошли в состав Российского государства со своей письменностью «тодо бичг» ‘ясное письмо’, использовавшейся вплоть до 1924 г. Затем начинается достаточно трудный этап в сфере графики: несколько раз меняли систему письма (кириллица → латиница → кириллица). Все эти события самым пагубным образом отразились на закреплении орфографических норм в калмыцком литературном языке. Калмыцкий язык представлен тремя диалектами: дербетским, легшим в основу формирования литературного языка, торгутским и бузавским, между которыми имеются различия на фонетическом, лексическом и морфологическом уровнях.
В конце 2010 г. лингвисты Калмыцкого института гуманитарных исследований (КИГИ) РАН приступили к осуществлению пилотного проекта по созданию НККЯ, а именно сбалансированной коллекции как устных, так и письменных источников, что имеет очень важное социолингвистическое значение, так как создание соответствующих ресурсов фиксирует находящийся под угрозой исчезновения миноритарный язык одного из субъектов Российской Федерации и повышает его валидность, жизнеспособность.
Необходимость реализации этого фундаментального проекта очевидна, так как в Республике Калмыкия сложилась ситуация постепенной утраты калмыцкого языка, а вместе с ним – особого, специфичного, видения мира, что ведет к потере этнической идентичности личности, т. е. ее национальной принадлежности. В условиях ассимиляции калмыков русским населением, инокультурного окружения и, шире, глобализации калмыцкий язык оказывается еще в большей опасности: практически на грани исчезновения.
Переломным моментом в языковой ситуации была депортация калмыков в Сибирь (1943‑1957 гг.), что и явилось началом утраты национального языка, а через него – и этнической идентичности. По данным переписи 2002 г., калмыков в России насчитывалось около 156 тыс., из них количество реальных носителей калмыцкого языка не превышает и 10 %, т. е. не более 15 тыс.[iii]. В настоящее время основная часть носителей калмыцкого языка — это билингвы с доминирующим русским языком. Калмыков, свободно говорящих и осуществляющих всю коммуникацию на родном языке, единицы, и проживают они исключительно в поселках, удаленных от столицы и райцентров.
В ближайшем будущем может сложиться ситуация, когда записать устную речь носителей калмыцкого языка станет уже невозможным. Что касается письменных текстов, то число авторов, пишущих на калмыцком языке, неуклонно сокращается. Несмотря на многочисленные попытки государственных структур остановить процесс утраты языка, он все же продолжается.
Источником получения текстов для корпуса калмыцкого языка являются сканированные копии, PDF-файлы, файлы верстки (QXD, INDD и др.). Материалов на калмыцком языке, размещенных в сети Интернет, ничтожно мало. Все файлы были преобразованы в формат RTF. Были выработаны следующие правила подготовки текстов для корпуса:
1) удаление текста, не являющегося авторским (номера страниц, колонтитулы, титульная страница, оборот титула, выходные данные, содержание, аннотация);
2) удаление нетекстового материала (изображения, схемы, формулы и т. д.);
3) удаление переводных комментариев (как авторских, так и редакторских);
4) упрощенное форматирование (шрифтовое выделение заголовка);
5) удаление так называемого «мусора» (двойных пробелов, двойных абзацев, табуляций и т. д.);
6) исправление явных опечаток (две точки вместо одной или две точки вместо трех и т. д.).
Специально для этого был разработан ресурс для проверки текстов на калмыцком и русском (переводы) языках.
Примечания
[i] См. подробно: Крылов С. А. Стратегии применения интегрированной информационной среды StarLing в корпусной лингвистике и в компьютерной лексикографии // Orientalia et classica. Труды Института восточных культур и античности. Вып. XIX. Аспекты компаративистики / Смирнов И. С. (ред.). М., 2008. С. 649–668.
[ii] Захаров В. П. Корпусная лингвистика: Учебно-метод. пособие. СПб., 2005. С. 4.
[iii] Итоги Всероссийской переписи населения 2002 года по Республике Калмыкия. Элиста, 2004. С. 49.