Facebook vydává model strojového překladu, který podporuje 200 jazyků

Facebook (zakázaný v Ruské federaci) zveřejnil vývoj projektu NLLB (No Language Left Behind), jehož cílem je vytvoření univerzálního modelu strojového učení pro přímý překlad textu z jednoho jazyka do druhého, přičemž se obejdou středně pokročilé překlady do angličtiny. Navrhovaný model pokrývá více než 200 jazyků, včetně vzácných jazyků afrických a australských národů. Konečným cílem projektu je poskytnout prostředky pro komunikaci všem lidem bez ohledu na jazyk, kterým mluví.

Model je licencován pod licencí Creative Commons BY-NC 4.0, která umožňuje kopírování, redistribuci, přizpůsobení a odvozená díla za předpokladu, že uvedete původ, budete udržovat licenci a budete ji používat pouze pro nekomerční účely. Nástroje pro práci s modely jsou poskytovány pod licencí MIT. Pro stimulaci vývoje pomocí modelu NLLB bylo rozhodnuto vyčlenit 200 tisíc dolarů na poskytnutí grantů výzkumníkům.

Pro zjednodušení tvorby projektů s využitím navrženého modelu byl použit kód aplikací používaných pro testování a hodnocení kvality modelů (FLORES-200, NLLB-MD, Toxicity-200), kód pro trénovací modely a kodéry založené na knihovně LASER3 ( Language-Agnostic SEntence) jsou navíc open source. Finální model je nabízen ve dvou verzích – plné a zkrácené. Zkrácená verze vyžaduje méně zdrojů a je vhodná pro testování a použití ve výzkumných projektech.

Na rozdíl od jiných překladatelských systémů založených na systémech strojového učení je řešení Facebooku pozoruhodné tím, že nabízí jeden obecný model pro všech 200 jazyků, pokrývající všechny jazyky a nevyžaduje použití samostatných modelů pro každý jazyk. Překlad se provádí přímo ze zdrojového jazyka do cílového jazyka, bez přechodného překladu do angličtiny. Pro vytvoření univerzálních překladatelských systémů je dodatečně navržen LID model (Language IDentification), který umožňuje určit použitý jazyk. Tito. systém dokáže automaticky rozpoznat, v jakém jazyce jsou informace poskytovány, a přeložit je do jazyka uživatele.

Překlad je podporován v jakémkoli směru, mezi kterýmkoli z 200 podporovaných jazyků. Pro potvrzení kvality překladu mezi libovolnými jazyky byla připravena referenční testovací sada FLORES-200, která ukázala, že model NLLB-200 je z hlediska kvality překladu v průměru o 44 % lepší než dříve navrhované výzkumné systémy založené na strojovém učení při použití Metriky BLEU porovnávající strojový překlad se standardním lidským překladem. U vzácných afrických jazyků a indických dialektů dosahuje kvalitativní převaha 70%. Kvalitu překladu je možné vizuálně zhodnotit na speciálně připraveném demo webu.

Zdroj: opennet.ru

Přidat komentář