Статус: Не поддержана
Создание корпусных данных для дагестанских языков
Конкурс
Конкурс грантов Главы РД 2024 - ФЛ
Грантовое направление
Межнациональное и межконфессиональное согласие, сохранение и развитие культурного и этнического многообразия в Республике Дагестан
Номер заявки
2024-2-000455
Дата подачи
17.11.2024
341 379 ₽
Запрашиваемая сумма
341 379,00 ₽
Софинансирование
0,00 ₽
Общая сумма расходов на реализацию проекта
341 379,00 ₽
Сроки реализации
01.02.2025 - 31.10.2025
Организация
Организация
Краткое описание
На данный момент ни один из имеющихся машинных переводчиков (Google Translate, Яндекс Переводчик и прочие) не поддерживает дагестанские языки, что сильно усложняет ознакомление всех туристов, лингвистов и просто интересующихся людей с непереведенными материалами, а также изучение родного языка. Если вдобавок учесть сложность изучения многих д. я. (например, табасаранский язык имеет 46 падежей, даргинский - 19) , становится очевидной необходимость в некоем инструменте, решающем эту проблему.
Цель
Создать параллельные корпусы текстов в объеме, достаточном для эффективного машинного перевода с русского языка на дагестанский и наоборот.
Задачи
1. Собрать и подготовить имеющиеся материалы и переводы энтузиастов для обучения модели
2. Cоздать синтетические данные техникой обратного машинного перевода (back-translation, tagged back-translation
3. Создать нейросетевую модель на основе родственных связей между дагестанскими языками.
2. Cоздать синтетические данные техникой обратного машинного перевода (back-translation, tagged back-translation
3. Создать нейросетевую модель на основе родственных связей между дагестанскими языками.
Обоснование социальной значимости
На данный момент ни один из имеющихся машинных переводчиков (Google Translate, Яндекс Переводчик и прочие) не поддерживает дагестанские языки, что сильно усложняет ознакомление всех туристов, лингвистов и просто интересующихся людей с непереведенными материалами.
Проблемой является и то, что для создания машинного переводчика необходимы большие объемы параллельных корпусов текстов, которые невозможно обеспечить имеющимися переведенными материалами и словарями. Необходим механизм увеличения их объема за счет синтетических данных- данных, полученных программным путем специальными техниками, например алгоритмом обратного машинного перевода.
Проблемой является и то, что для создания машинного переводчика необходимы большие объемы параллельных корпусов текстов, которые невозможно обеспечить имеющимися переведенными материалами и словарями. Необходим механизм увеличения их объема за счет синтетических данных- данных, полученных программным путем специальными техниками, например алгоритмом обратного машинного перевода.
География проекта
Республика Дагестан