Компания Mozilla в рамках проекта Bergamot приступила к созданию системы машинного перевода, работающей на стороне браузера. Проект позволит интегрировать в Firefox самодостаточный движок перевода страниц, не обращающийся к внешним облачным сервисам и обрабатывающий данные исключительно на системе пользователя. Главной целью разработки является обеспечение конфиденциальности и защита данных пользователя от возможных утечек при переводе содержимого открываемых в браузере страниц.
Разработка Bergamot ведётся в берлинском офисе Mozilla при участии исследователей из کئی университетов Великобритании, Эстонии и Чехии. Разработку финансирует Евросоюз в рамках гранта, полученного по программе افق 2020. Размер гранта составляет три миллиона евро. Проект рассчитан на три года. В Mozilla کھلاخالی جگہ специалиста по системам машинного обучения для участия в разработке движка для перевода с одного языка на другой.
Из смежных разработок, имеющих отношение к проекту Bergamot, ذکر کیا:
Развиваемый в Эдинбургском университете фреймворк машинного перевода مریم, построенный на базе рекуррентной нейронной сети. Фреймворк написан на языке C++, может задействовать GPU для ускорения обучения и перевода, и فراہم کی MIT لائسنس کے تحت.
Созданный в Пражском университете инструментарий Neural Monkey для обработки информации на естественном языке с использованием методов последовательного машинного обучения. Проект применяет фреймворк TensorFlow и может использоваться для быстрого создания прототипов систем машинного перевода и классификации информации на естественном языке. Код доступен под лицензией BSD.
Подготовленный в Шеффилдском университете проект QuEst++, применяемый для оценки и прогнозирования качества систем машинного перевода.
Финансируемый Евросоюзом проект ParaCrawl, накапливающий базу синхронных переводов различных фраз на разных языках, которую можно использовать для тренировки систем машинного обучения. Основой проекта является бот bitextor, который индексирует многоязычные web-сайты и автоматически находит одинаковые тексты, представленные на нескольких языках. База примеров параллельных переводов формируется для 24 языков, в том числе для русского (БД для русского языка занимает 637MB в сжатом виде и включает более 12 млн примеров перевода).
Разработка Bergamot началась в январе этого года, но наработки проекта пока دستیاب نہیں для публичного тестирования. Тем не менее, несколько дней назад разработчики شائع ہوا видео с демонстрацией начального прототипа.
Напомним, что в Firefox уже دستیاب ہے۔ встроенный механизм для перевода страниц, но он завязан на использовании внешних облачных сервисов (поддерживаются Google, Yandex и Bing) и не активирован по умолчанию (для включения в about:config следует изменить настройки «browser.translation»). Механизм перевода в том числе поддерживает автоматическое определение языка при открытии страницы на неизвестном языке и выводит специальный индикатор с предложением осуществить перевод страницы. Развиваемый в рамках проекта Bergamot прототип системы перевода использует этот же интерфейс для взаимодействия с пользователем, но вместо обращения к внешним сервисам запускается встроенный обработчик.