Статус: Не поддержана

Создание корпусных данных для дагестанских языков

Конкурс Конкурс грантов Главы РД 2024 - ФЛ
Грантовое направление Межнациональное и межконфессиональное согласие, сохранение и развитие культурного и этнического многообразия в Республике Дагестан
Номер заявки 2024-2-000455
Дата подачи 17.11.2024
341 379 ₽
Запрашиваемая сумма 341 379,00 ₽
Софинансирование 0,00 ₽
Общая сумма расходов на реализацию проекта 341 379,00 ₽
Сроки реализации 01.02.2025 - 31.10.2025
Организация Организация

Краткое описание

На данный момент ни один из имеющихся машинных переводчиков (Google Translate, Яндекс Переводчик и прочие) не поддерживает дагестанские языки, что сильно усложняет ознакомление всех туристов, лингвистов и просто интересующихся людей с непереведенными материалами, а также изучение родного языка. Если вдобавок учесть сложность изучения многих д. я. (например, табасаранский язык имеет 46 падежей, даргинский - 19) , становится очевидной необходимость в некоем инструменте, решающем эту проблему.

Цель

Создать параллельные корпусы текстов в объеме, достаточном для эффективного машинного перевода с русского языка на дагестанский и наоборот.

Задачи

1. Собрать и подготовить имеющиеся материалы и переводы энтузиастов для обучения модели

2. Cоздать синтетические данные техникой обратного машинного перевода (back-translation, tagged back-translation
3. Создать нейросетевую модель на основе родственных связей между дагестанскими языками.

Обоснование социальной значимости

На данный момент ни один из имеющихся машинных переводчиков (Google Translate, Яндекс Переводчик и прочие) не поддерживает дагестанские языки, что сильно усложняет ознакомление всех туристов, лингвистов и просто интересующихся людей с непереведенными материалами.
Проблемой является и то, что для создания машинного переводчика необходимы большие объемы параллельных корпусов текстов, которые невозможно обеспечить имеющимися переведенными материалами и словарями. Необходим механизм увеличения их объема за счет синтетических данных- данных, полученных программным путем специальными техниками, например алгоритмом обратного машинного перевода.

География проекта

Республика Дагестан