http://www.w3.org/1999/xlink http://www.w3.org/1999/xlink

Статус проекта: проект не получил поддержки

Создание корпусных данных для дагестанских языков

  • Конкурс Конкурс грантов Главы РД 2024 - ФЛ
  • Грантовое направление Межнациональное и межконфессиональное согласие, сохранение и развитие культурного и этнического многообразия в Республике Дагестан
  • Номер заявки 2024-2-000455
  • Запрашиваемая сумма 341 379,00
  • Cофинансирование 0,00
  • Общая сумма расходов на реализацию проекта  341 379,00
  • Сроки реализации 01.02.2025 - 31.10.2025
  • Организация
  • ИНН
  • ОГРН

Краткое описание

На данный момент ни один из имеющихся машинных переводчиков (Google Translate, Яндекс Переводчик и прочие) не поддерживает дагестанские языки, что сильно усложняет ознакомление всех туристов, лингвистов и просто интересующихся людей с непереведенными материалами, а также изучение родного языка. Если вдобавок учесть сложность изучения многих д. я. (например, табасаранский язык имеет 46 падежей, даргинский - 19) , становится очевидной необходимость в некоем инструменте, решающем эту проблему.

Цель

  1. Создать параллельные корпусы текстов в объеме, достаточном для эффективного машинного перевода с русского языка на дагестанский и наоборот.

Задачи

  1. Собрать и подготовить имеющиеся материалы и переводы энтузиастов для обучения модели
  2. Cоздать синтетические данные техникой обратного машинного перевода (back-translation, tagged back-translation
  3. Создать нейросетевую модель на основе родственных связей между дагестанскими языками.

Обоснование социальной значимости

На данный момент ни один из имеющихся машинных переводчиков (Google Translate, Яндекс Переводчик и прочие) не поддерживает дагестанские языки, что сильно усложняет ознакомление всех туристов, лингвистов и просто интересующихся людей с непереведенными материалами.
Проблемой является и то, что для создания машинного переводчика необходимы большие объемы параллельных корпусов текстов, которые невозможно обеспечить имеющимися переведенными материалами и словарями. Необходим механизм увеличения их объема за счет синтетических данных- данных, полученных программным путем специальными техниками, например алгоритмом обратного машинного перевода.

География проекта

Республика Дагестан

Целевые группы

  1. Все возрастные группы любителей родного языка, заинтересованных в его изучении и сохранении.

Контактная информация