Выпускница бакалавриата Института интеллектуальной робототехники НГУ разработала алгоритм машинного перевода с русского языка на бурятский

Фото: ru.freepik.com

Следующий этап этой работы – внедрение его в цифровое пространство.

Пресс-служба Новосибирского государственного университета рассказала, что выпускница бакалавриата Института интеллектуальной робототехники НГУ Дари Батурова в ходе выполнения выпускной квалификационной работы создала русско-бурятский и русско-монгольский параллельный корпус.

«Обученная Дари Батуровой нейросетевая модель превзошла существующие аналоги русско-бурятского перевода. В ближайшее время она будет доступна на сайте Hugging Face», — говорится в сообщении, в котором даётся также объяснение словосочетанию «параллельный корпус». Это — собрание текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках — оригинал и перевод. Помимо этого, параллельный корпус может состоять из пар отдельных предложений.

Исследовательница также обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для этой задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.

По словам Дари Батуровой, в ходе работы возникло немало сложностей. В частности, основная трудность состояла в том, что бурятский язык является малоресурсным. То есть, в онлайн-переводчиках он не представлен. «В интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодёжь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит всё реже», — сетует исследовательница. На самом деле, согласно переписи населения России, в 2002 году 79 процентов бурят указали, что владеют бурятским языком, в 2020 же году – 63 процента.

«А между тем, — говорит Дари, — бурятский язык внесён в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения».

По её мнению, для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство.

Добавьте нас в источники на Яндекс.Новостях

Поделиться:
Если вы хотите, чтобы ЧС-ИНФО написал о вашей проблеме, сообщайте нам на SLOVO@SIBSLOVO.RU или через мессенджеры +7 913 464 7039 (Вотсапп и Телеграмм) и социальные сети: Вконтакте и Одноклассники

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *