Статус проекта: проект не получил поддержки
Создание корпусных данных для дагестанских языков
- Конкурс Конкурс грантов Главы РД 2024 - ФЛ
- Грантовое направление Межнациональное и межконфессиональное согласие, сохранение и развитие культурного и этнического многообразия в Республике Дагестан
- Номер заявки 2024-2-000455
- Сроки реализации 01.02.2025 - 31.10.2025
- Организация
- ИНН
- ОГРН
Краткое описание
На данный момент ни один из имеющихся машинных переводчиков (Google Translate, Яндекс Переводчик и прочие) не поддерживает дагестанские языки, что сильно усложняет ознакомление всех туристов, лингвистов и просто интересующихся людей с непереведенными материалами, а также изучение родного языка. Если вдобавок учесть сложность изучения многих д. я. (например, табасаранский язык имеет 46 падежей, даргинский - 19) , становится очевидной необходимость в некоем инструменте, решающем эту проблему.Цель
- Создать параллельные корпусы текстов в объеме, достаточном для эффективного машинного перевода с русского языка на дагестанский и наоборот.
Задачи
- Собрать и подготовить имеющиеся материалы и переводы энтузиастов для обучения модели
- Cоздать синтетические данные техникой обратного машинного перевода (back-translation, tagged back-translation
- Создать нейросетевую модель на основе родственных связей между дагестанскими языками.
Обоснование социальной значимости
На данный момент ни один из имеющихся машинных переводчиков (Google Translate, Яндекс Переводчик и прочие) не поддерживает дагестанские языки, что сильно усложняет ознакомление всех туристов, лингвистов и просто интересующихся людей с непереведенными материалами.Проблемой является и то, что для создания машинного переводчика необходимы большие объемы параллельных корпусов текстов, которые невозможно обеспечить имеющимися переведенными материалами и словарями. Необходим механизм увеличения их объема за счет синтетических данных- данных, полученных программным путем специальными техниками, например алгоритмом обратного машинного перевода.
География проекта
Республика ДагестанЦелевые группы
- Все возрастные группы любителей родного языка, заинтересованных в его изучении и сохранении.
Контактная информация
{"address":null,"yandexApiKey":"b1758ed1-6f6a-4001-8391-061c30d864bb"}