Facebook опублікував модель для машинного перекладу, яка підтримує 200 мов

Компанія Facebook (заборонена в РФ) опублікувала напрацювання проекту NLLB (No Language Left Behind), орієнтованого на створення універсальної моделі машинного навчання для прямого перекладу тексту з однієї мови на іншу, минаючи проміжний переклад англійською мовою. Запропонована модель охоплює понад 200 мов, включаючи рідкісні мови африканських та австралійських народів. Кінцевою метою проекту є надання коштів для спілкування будь-яких людей, незалежно від мови якою вони говорять.

Модель доступна під ліцензією Creative Commons BY-NC 4.0, що дозволяє копіювання, розповсюдження, задіяння у своїх проектах та створення похідних робіт, але за умови вказівки авторства, збереження ліцензії та використання лише для некомерційних цілей. Інструментарій для роботи з моделями постачається під ліцензією MIT. Для стимулювання розробок із використанням моделі NLLB вирішено виділити 200 тисяч доларів на надання грантів дослідникам.

Для спрощення створення проектів, що використовують запропоновану модель, додатково відкритий код додатків, що використовуються для тестування та оцінки якості моделей (FLORES-200, NLLB-MD, Toxicity-200), код для тренування моделей та кодувальники на базі бібліотеки LASER3 (Language-Agnostic SEntence) Representation). Фінальна модель запропонована у двох варіантах – повному та скороченому. Скорочений варіант вимагає менше ресурсів і підходить для тестування та використання у дослідницьких проектах.

На відміну від інших систем перекладу на базі систем машинного навчання, рішення від Facebook примітне тим, що для всіх 200 мов запропонована одна загальна модель, що охоплює всі мови та не вимагає використання окремих моделей для кожної мови. Переклад здійснюється безпосередньо з вихідного до цільової мови, без проміжного перекладу англійською мовою. Для створення універсальних систем перекладу додатково запропоновано LID-модель (Language IDentification), що дозволяє визначити мову, що використовується. Тобто. система може автоматично розпізнати якою мовою надана інформація та перекласти на мову користувача.

Підтримується переклад у будь-якому напрямку, між будь-якими з 200 мов, що підтримуються. Для підтвердження якості перекладу між будь-якими мовами підготовлено еталонний перевірочний набір FLORES-200, який показав, що модель NLLB-200 за рівнем якості перекладу в середньому на 44% перевершує раніше запропоновані дослідницькі системи на основі машинного навчання при використанні метриків BLEU, що порівнюють машинний переклад еталонним людським перекладом. Для рідкісних африканських мов і індійських діалектів перевага досягає 70%. Наочно якість перекладу можна оцінити на спеціально підготовленому демонстраційному сайті.

Джерело: opennet.ru

Додати коментар або відгук