Facebook апублікаваў мадэль для машыннага перакладу, якая падтрымлівае 200 моў

Кампанія Facebook (забаронена ў РФ) апублікавала напрацоўкі праекта NLLB (No Language Left Behind), накіраванага на стварэнне ўніверсальнай мадэлі машыннага навучання для прамога перакладу тэксту з адной мовы на іншую, абыходзячы прамежкавы пераклад на ангельскую мову. Прапанаваная мадэль ахоплівае больш за 200 моў, у тым ліку рэдкія мовы афрыканскіх і аўстралійскіх народаў. Канчатковай мэтай праекта з'яўляецца прадастаўленне сродкаў для зносін любых людзей, незалежна ад мовы на якой яны гавораць.

Мадэль даступная пад ліцэнзіяй Creative Commons BY-NC 4.0, якая дазваляе капіраванне, распаўсюджванне, задзейнічанне ў сваіх праектах і стварэнне вытворных работ, але пры ўмове ўказання аўтарства, захавання ліцэнзіі і выкарыстання толькі для некамерцыйных мэтаў. Інструментарый для працы з мадэлямі пастаўляецца пад ліцэнзіяй MIT. Для стымулявання распрацовак з выкарыстаннем мадэлі NLLB вырашана выдзеліць 200 тысяч долараў на прадастаўленне грантаў даследчыкам.

Для спрашчэння стварэння праектаў, якія выкарыстоўваюць прапанаваную мадэль, дадаткова адкрыты код прыкладанняў, якія выкарыстоўваліся для тэсціравання і ацэнкі якасці мадэляў (FLORES-200, NLLB-MD, Toxicity-200), код для трэніроўкі мадэляў і кадавальнікі на базе бібліятэкі LASER3 (Language-Agnostic SEntence Representation). Фінальная мадэль прапанавана ў двух варыянтах – поўным і скарочаным. Скарочаны варыянт патрабуе менш рэсурсаў і падыходзіць для тэсціравання і выкарыстання ў даследчых праектах.

У адрозненне ад іншых сістэм перакладу на базе сістэм машыннага навучання, рашэнне ад Facebook характэрна тым, што для ўсіх 200 моў прапанавана адна агульная мадэль, якая ахоплівае ўсе мовы і не патрабуе выкарыстання асобных мадэляў для кожнай мовы. Пераклад ажыццяўляецца непасрэдна з зыходнага ў мэтавую мову, без прамежкавага перакладу на англійскую мову. Для стварэння ўніверсальных сістэм перакладу дадаткова прапанавана LID-мадэль (Language IDentification), якая дазваляе вызначыць выкарыстоўваную мову. Г.зн. сістэма можа аўтаматычна распазнаць на якой мове прадстаўлена інфармацыя і перавесці на мову карыстальніка.

Падтрымліваецца пераклад у любым кірунку, паміж любой з 200 моў, якія падтрымліваюцца. Для пацверджання якасці перакладу паміж любымі мовамі падрыхтаваны эталонны праверачны набор FLORES-200, які паказаў, што мадэль NLLB-200 па ўзроўні якасці перакладу ў сярэднім на 44% пераўзыходзіць раней прапанаваныя даследчыя сістэмы на аснове машыннага навучання пры выкарыстанні метрык BLEU, якія параўноўваюць машынны пераклад. эталонным чалавечым перакладам. Для рэдкіх афрыканскіх моў і індыйскіх дыялектаў перавага ў якасці дасягае 70%. Наглядна якасць перакладу модна ацаніць на спецыяльна падрыхтаваным дэманстрацыйным сайце.

Крыніца: opennet.ru

Дадаць каментар