„Facebook“ skelbia mašininio vertimo modelį, kuris palaiko 200 kalbų

„Facebook“ (uždraustas Rusijos Federacijoje) paskelbė NLLB (No Language Left Behind) projekto plėtrą, kuria siekiama sukurti universalų mašininio mokymosi modelį, skirtą tiesioginiam teksto vertimui iš vienos kalbos į kitą, apeinant tarpinį vertimą į anglų kalbą. Siūlomas modelis apima daugiau nei 200 kalbų, įskaitant retas Afrikos ir Australijos tautų kalbas. Galutinis projekto tikslas – suteikti bendravimo priemonę visiems žmonėms, nepriklausomai nuo to, kokia kalba jie kalba.

Modelis licencijuotas pagal Creative Commons BY-NC 4.0 licenciją, kuri leidžia kopijuoti, platinti, bendradarbiauti ir išvestinius darbus, jei nurodote priskyrimą, išlaikote licenciją ir naudojate ją tik nekomerciniais tikslais. Įrankiai darbui su modeliais pateikiami pagal MIT licenciją. Siekiant paskatinti plėtrą naudojant NLLB modelį, buvo nuspręsta skirti 200 tūkst.

Siekiant supaprastinti projektų kūrimą naudojant siūlomą modelį, modelių testavimui ir kokybei įvertinti naudojamų programų kodą (FLORES-200, NLLB-MD, Toxicity-200), mokymo modelių ir kodavimo įrenginių, pagrįstų LASER3 biblioteka, kodą ( Kalbos-agnostinės SEtencijos vaizdavimas). Galutinis modelis siūlomas dviem versijomis – pilna ir sutrumpinta. Sutrumpinta versija reikalauja mažiau išteklių ir tinkama testavimui bei naudojimui tyrimų projektuose.

Skirtingai nuo kitų vertimo sistemų, pagrįstų mašininio mokymosi sistemomis, „Facebook“ sprendimas išsiskiria tuo, kad siūlo vieną bendrą modelį visoms 200 kalbų, apimantį visas kalbas ir nereikalaujantis naudoti atskirų modelių kiekvienai kalbai. Vertimas atliekamas tiesiogiai iš pirminės kalbos į tikslinę kalbą, be tarpinio vertimo į anglų kalbą. Universalioms vertimo sistemoms sukurti papildomai siūlomas LID modelis (Language Identification), kuris leidžia nustatyti vartojamą kalbą. Tie. sistema gali automatiškai atpažinti, kokia kalba pateikiama informacija, ir išversti ją į vartotojo kalbą.

Vertimas palaikomas bet kuria kryptimi, tarp bet kurios iš 200 palaikomų kalbų. Vertimo tarp bet kurių kalbų kokybei patvirtinti buvo parengtas FLORES-200 etaloninis testų rinkinys, kuris parodė, kad NLLB-200 modelis vertimo kokybe yra vidutiniškai 44% pranašesnis už anksčiau pasiūlytas mašininiu mokymusi pagrįstas tyrimų sistemas naudojant. BLEU metrika, lyginanti mašininį vertimą su standartiniu žmogaus vertimu. Retų Afrikos kalbų ir Indijos tarmių kokybės pranašumas siekia 70%. Vertimo kokybę vizualiai įvertinti galima specialiai paruoštoje demonstracinėje svetainėje.

Šaltinis: opennet.ru

Добавить комментарий