Параллельный

Параллельный подкорпус калмыцкого языка является неотъемлемой частью Национального корпуса калмыцкого языка и представляет собой собрание текстов оригиналов и переводов, которые выровнены по предложениям. В рамках проекта подпрограммы «Создание и развитие корпусных ресурсов по языкам народов России» Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика» написана программа ParallelText (программист А.Ю. Каджиев), которая производит процедуру выравнивания текста-оригинала и текста-перевода. Текст, который отобран для апробирования программы и ее отладки, оцифрован также при поддержке Программы фундаментальных исследований Президиума РАН.

Для калмыцкого языка параллельные тексты имеют большое значение в аспекте сохранения языка. В процессе изучения калмыцкого языка школьники, студенты и просто желающие изучать язык опираются прежде всего на знания первичного языка — русского языка, который относится к совершенно другому типу языков (флективный, свободный порядок слов в предложении). Подкорпус параллельных текстов позволит исследователям сопоставить два разноструктурных языка и вывести соответствия на лексико-грамматическом уровне.

В настоящий момент на сайте Национального корпуса калмыцкого языка размещен пока один параллельно выровненный текст оригинала и перевода повести А.С. Пушкина «Капитанская дочка», но оцифровка текстов для параллельного подкорпуса продолжается и будет пополняться новыми текстовыми источниками.

При финансовой поддержке Российского гуманитарного научного фонда оцифрованы и распознаны следующие тексты:

– русский → калмыцкий: Айматов Ч. “Прощай, Гульсары!”, Амур-Санан А. “Мудрешкин сын”, Гоголь Н. “Рассказы”, Горький М. “Рассказы”, Ляшенко М.,  Лермонтов М. “Стихи и поэмы”, Пушкин А. “Повести Белкина” Толстой Л. “Рассказы”, Тургенев И. “Рассказы”, Чехов П. “Рассказы”;

– калмыцкий → русский: Бадмаев А. “Зултрһн — теегин ноһан”, Бадмаев А. “Му көвүн”, Балакаев А. “Арвн һурвн җил арвн һурвн өдр”, Бембеев Т. “Көк теңгсин көвәһәр”, Инджиев Л. “Дочь Ольды”, Хонинов М. “Чи медхмч, Смоленскин һазр”.

При финансовой поддержке Фонда фундаментальных лингвистических исследований проведена работа по созданию базы выровненных предложений по данным текстам. За отчетный период 2014-2015 гг. работу по проекту «Выравнивание параллельных текстов на калмыцком языке и их включение в Национальный корпус калмыцкого языка» можно условно поделить на два направления. Во-первых, программа Parallel, разработанная в рамках проекта Программы фундаментальных исследований Президиума РАН, была усовершенствована с использованием подхода создания функционально эквивалентных соответствий, уникальных фрагментов (пунктуационных знаков, арабских цифр и др. ). Алгоритм работы программы состоит в том, что, во-первых, текст оригинала и перевода делится на предложения. Если же разница объемов оригинальных и переводных предложений внутри параллельного блока превышает данный коэффициент, то такой блок выделяется цветной заливкой, на которую исследователь позже обратит внимание в процессе проверки правильности выделения параллельных блоков. Присутствует возможность механического редактирования параллельных блоков — их объединения или разделения на части.

В 2014 году алгоритм был доработан. Во-первых, если же длина блоков текста-оригинала и текста-перевода выходит за пределы данного диапазона и если длина параллельного сегмента и следующего фрагмента не превышает суммарную длину сегмента текста-оригинала, то два соседних фрагмента объединяются в один. Во-вторых,  параллельно с выравниванием по длине проводится проверка наличия «уникальных» элементов в выровненных блоках. В качестве «уникальных» элементов рассматриваются пунктуационные знаки и арабские цифры. Если применяются все цифры, то к пунктуационным символам, которые используются при проверке на правильность выравнивания, относятся восклицательный и вопросительный знаки, многоточие, а также их сочетания. Остальные знаки не рассматриваются, поскольку правила расстановки запятых сильно отличаются в русском и калмыцком языках. Что касается арабских цифр, то они полностью выступают в качестве «уникальных» фрагментов, которые стабильно повторяются в тексте-оригинала и тексте-перевода. Если же автоматически выровненные по длине фрагменты, не содержат «уникальные», то блок выделяется заливкой (желтым цветом). В-третьих, происходит проверка на последний пунктуационный символ в блоке. В случае его несовпадения программа также выделяет цветом. Уже после этого формируется промежуточный вариант выравнивания параллельного текста для ручного редактирования и проведения анализа наличия функционально эквивалентных соответствий. Вручную запускается анализ частотности токенов, на основе которого уже формируется словарь соответствий. Существует два варианта создания словаря во вкладке Частотные данные и непосредственно в таблице выровненных предложений. Далее вручную запускается  анализ по эквивалентам. В случае отсутствия соответствия в двух верхних и двух нижних блоках перевода программа добавляет пустую строку (пустые строки), на которую уже впоследствии обратит внимание проверяющий. Данной функции мы не стали придавать статус проводимой по умолчанию, поскольку, как показало ручное редактирование,  не во всех случаях является правильным решением. Тексты оригинала и перевода на русском и калмыцком языке демонстрируют высокую степень правильности выравнивания, а параллельные тексты на калмыцком и русском языках – низкую и эквивалентный анализ практически бесполезен, поскольку большая их часть содержит сокращения по предложениям, иногда и целым абзацам.

По второму направлению создавалась электронная база данных параллельных текстов. Отобранные для анализа тексты были оцифрованы и частично проверены на предмет опечаток в рамках проекта РГНФ «Национальный корпус калмыцкого языка: создание и разработка» (объем финансирования 500 тыс. руб.). По данному проекту была проведена работа по поиску источников на русском языке в Интернет, к сожалению, не удалось найти Ляшенко М., Мусатов Л.  «Бережки». Поэтому мы заменили данный источник текстом Островского Н.А. «Как закалялась сталь» и его переводом. Ниже приведен список параллельных текстов, из которых состоит база данных.

РУССКИЙ → КАЛМЫЦКИЙ

Айматов Ч. “Прощай, Гульсары!” (пер. А.Бадмаев)

Амур-Санан А. “Мудрешкин сын” («Муудран көвүн», пер. Л. Инджиев)

Гоголь Н. В.

«Повесть о том, как поссорился Иван Иванович с Иваном Никифоровичем» (“”, пер. С. Васяркиев С.)

Горький М. “Рассказы”

«Песня о буревестнике» («Буревестник шовуна туск дун», пер. Л. Сангаев)

 «Старуха Изергиль» («Изергиль эмгн», пер. Д. Босхомджиев)

 «Песня о соколе» («Харцх шовуна туск дун», пер. Л. Сангаев)

«Свадьба» («Хүрм», пер. Н. Бурулов, Л. Сангаев) 

Островский «Как закалялась сталь» (пер. А. Балакаев)

Лермонтов М. “Стихи и поэмы”

“А.О. Смирновой” («А.О.Смирновад», пер. Б. Доржиев)

«Бородино» («Бородино», пер. Б. Доржиев)

«Завещание» («Герәсн», пер. Б. Доржиев)

 «Песня» («Дун», пер. Б. Доржиев)

«Парус» («Җилк», пер.М. Нармаев)

«Молитва» («Зальврлһн», пер. Б. Доржиев)

«Спор» («Зүткән», пер. Б. Доржиев)

«Сон» («Зүүдн», пер. Б. Доржиев)

 «На Кавказе» («Кавказд», пер. Л. Инджиев)

 «Осень» («Намр», пер. Б. Доржиев)

«Солнце» («Нарн», пер. Л. Инджиев)

«Три пальма» («Һурвн пальм», пер. Л. Инджиев)

«Нищий» («Һуульһанч», пер. Б. Доржиев)

«Звезда» («Одн», пер. Б. Доржиев)

«Беглец» («Орһдул», пер. М. Нармаев)

«Ветка Палестины» («Палестинә ац», пер. Б. Доржиев)

«Романс» («Романс», пер. Б. Доржиев)

«Дума» («Санан», пер. Л. Инджиев)

«Тамара» («Тамара», пер. Б. Доржиев)

 «Нет, я не Байрон» («Уга, би Байрон бишв», пер. Б. Доржиев)

«Узник» («»Түүрмин күн”, пер. )

«Утес» («Уул», пер. М. Нармаев)

 «Тучи» («Үүлн», пер. М. Нармаев)

«Весна» («Хавр», пер. Б. Доржиев)

«Листья» («Хамтхасн», пер. Е. Буджалов)

 «Эпиграмма» («Эпиграммс», пер. Л. Инджиев)

Пушкин А. “Повести Белкина”

«Выстрел» («Халһн», пер. Э.Ильджиринова)

«Метель» («Шуурһн», пер. Э.Ильджиринова)

«Гробовщик» («Үксн күүнд яршг кеһәч», пер. Э.Ильджиринова)

«Станционный смотритель» («Станц хәләдг күн», пер. Э.Ильджиринова)

«Барышня-крестьянка» («Крестьянк гиҗгтә күүкн», пер. Э.Ильджиринова)

 

Толстой Л. “Рассказы”

«Акула («Акул», пер. И. Бадмаев)

«Лев и мышь» («Арслн болн хулһн», пер.Б.  Болдырев)

 «Зайцы» («Туулас», пер. И. Бадмаев)

«Зайцы и лягушки»  («Туулас болн мекләс», пер.Б.  Болдырев)

 «Бедные люди» («Угатя улс» пер. К.Эрендженов)

 «Метель» («Шуурһн», пер. А. Кичиков)

Тургенев И. “Рассказы”

Муму (“Муму”, пер. Н.Букаев)

Час (“Час”, пер. А. Джимбиев)

Пунин и Бабурин (“Пунин Бабурин хойр”, пер. А. Джимбиев)

Два помещика («Хойр помещик», пер. А. Джимбиев)

Чехов П. “Рассказы”

Человек в футляре (“Дугтата күн”, пер. С. Дордҗиев)

Крыжовник (“Үкр бөөлҗрһн”, пер. С. Дорджиев)

КАЛМЫЦКИЙ → РУССКИЙ

Бадмаев А. “Зултрһн — теегин ноһан” («Зулутурган – трава степная», пер. Н. Родичев)

Бадмаев А. “Му көвүн” («Мукубен», пер. О. Мирошниченко)

Балакаев А. “Арвн һурвн җил арвн һурвн өдр” («13 лет 13 дней», пер. А. Мустафин, Ц. Балакаева)

Бембеев Т. “Көк теңгсин көвәһәр” («У синь-моря», пер. Т. Бембеев)

Инджиев Л. “Ольдан күүкн” («Дочь Ольды», пер. А. Николаев)

Хонинов М. “Чи медхмч, Смоленскин һазр” («Ты помнишь, земля Смоленская», пер. Ю. Карасев)

 

Модули базы данных — русский → калмыцкий и калмыцкий → русский —загружены на сайт Национального корпуса калмыцкого языка (http://kalmcorpora.ru/parallel) в базу данных MySQL, и, следовательно,  пользователи имеют возможность использовать данный ресурс в исследовательских и образовательных целях.