Facebook vydáva model strojového prekladu, ktorý podporuje 200 jazykov

Facebook (zakázaný v Ruskej federácii) zverejnil vývoj projektu NLLB (No Language Left Behind), ktorého cieľom je vytvoriť univerzálny model strojového učenia na priamy preklad textu z jedného jazyka do druhého, pričom sa obíde stredný preklad do angličtiny. Navrhovaný model pokrýva viac ako 200 jazykov vrátane zriedkavých jazykov afrických a austrálskych národov. Konečným cieľom projektu je poskytnúť prostriedky na komunikáciu pre všetkých ľudí bez ohľadu na jazyk, ktorým hovoria.

Model je licencovaný na základe licencie Creative Commons BY-NC 4.0, ktorá povoľuje kopírovanie, redistribúciu, prispôsobenie a odvodené diela za predpokladu, že uvediete autorstvo, zachováte licenciu a použijete ho len na nekomerčné účely. Nástroje na prácu s modelmi sú poskytované pod licenciou MIT. Na stimuláciu vývoja pomocou modelu NLLB sa rozhodlo vyčleniť 200 tisíc dolárov na poskytnutie grantov výskumníkom.

Pre zjednodušenie tvorby projektov s využitím navrhovaného modelu bol vytvorený kód aplikácií používaných na testovanie a hodnotenie kvality modelov (FLORES-200, NLLB-MD, Toxicity-200), kód pre tréningové modely a kódovače založené na knižnici LASER3 ( Language-Agnostic Sentence) sú navyše open source. Finálny model je ponúkaný v dvoch verziách – plnej a skrátenej. Skrátená verzia vyžaduje menej zdrojov a je vhodná na testovanie a použitie vo výskumných projektoch.

Na rozdiel od iných prekladateľských systémov založených na systémoch strojového učenia je riešenie Facebooku pozoruhodné tým, že ponúka jeden všeobecný model pre všetkých 200 jazykov, pokrývajúci všetky jazyky a nevyžaduje použitie samostatných modelov pre každý jazyk. Preklad sa vykonáva priamo zo zdrojového jazyka do cieľového jazyka, bez prechodného prekladu do angličtiny. Na vytvorenie univerzálnych prekladových systémov je dodatočne navrhnutý LID model (Language IDentification), ktorý umožňuje určiť použitý jazyk. Tie. systém dokáže automaticky rozpoznať, v akom jazyku sú informácie poskytnuté, a preložiť ich do jazyka používateľa.

Preklad je podporovaný v akomkoľvek smere, medzi ktorýmkoľvek z 200 podporovaných jazykov. Na potvrdenie kvality prekladu medzi akýmikoľvek jazykmi bola pripravená referenčná testovacia sada FLORES-200, ktorá ukázala, že model NLLB-200 je z hľadiska kvality prekladu v priemere o 44 % lepší ako predtým navrhované výskumné systémy založené na strojovom učení pri použití BLEU metriky porovnávajúce strojový preklad so štandardným ľudským prekladom. Pre vzácne africké jazyky a indické dialekty dosahuje kvalitatívna prevaha 70%. Kvalitu prekladu je možné vizuálne zhodnotiť na špeciálne pripravenej demo stránke.

Zdroj: opennet.ru

Pridať komentár