Facebook objavlja model strojnega prevajanja, ki podpira 200 jezikov

Facebook (prepovedan v Ruski federaciji) je objavil razvoj projekta NLLB (No Language Left Behind), katerega namen je ustvariti univerzalni model strojnega učenja za neposredno prevajanje besedila iz enega jezika v drugega, mimo vmesnega prevoda v angleščino. Predlagani model pokriva več kot 200 jezikov, vključno z redkimi jeziki afriških in avstralskih ljudstev. Končni cilj projekta je zagotoviti sredstvo za komunikacijo za vse ljudi, ne glede na jezik, ki ga govorijo.

Model je licenciran pod licenco Creative Commons BY-NC 4.0, ki dovoljuje kopiranje, redistribucijo, prilagajanje in izpeljana dela, pod pogojem, da navedete avtorstvo, vzdržujete licenco in jo uporabljate samo v nekomercialne namene. Orodja za delo z modeli so na voljo pod licenco MIT. Za spodbujanje razvoja z uporabo modela NLLB je bilo odločeno, da se dodeli 200 tisoč dolarjev za nepovratna sredstva raziskovalcem.

Za poenostavitev ustvarjanja projektov z uporabo predlaganega modela je bila uporabljena koda aplikacij za testiranje in ocenjevanje kakovosti modelov (FLORES-200, NLLB-MD, Toxicity-200), koda za modele za usposabljanje in kodirniki na osnovi knjižnice LASER3 ( Language-Agnostic SEntence) so poleg tega odprtokodni. Representation). Končni model je na voljo v dveh različicah - polni in skrajšani. Skrajšana različica zahteva manj sredstev in je primerna za testiranje in uporabo v raziskovalnih projektih.

Za razliko od drugih prevajalskih sistemov, ki temeljijo na sistemih strojnega učenja, je Facebookova rešitev opazna po tem, da ponuja en splošni model za vseh 200 jezikov, ki pokriva vse jezike in ne zahteva uporabe ločenih modelov za vsak jezik. Prevajanje poteka neposredno iz izvornega v ciljni jezik, brez vmesnega prevoda v angleščino. Za ustvarjanje univerzalnih prevajalskih sistemov je dodatno predlagan LID model (Language IDentification), ki omogoča določitev uporabljenega jezika. Tisti. sistem lahko samodejno prepozna, v katerem jeziku so podane informacije, in jih prevede v jezik uporabnika.

Prevajanje je podprto v katero koli smer, med katerim koli od 200 podprtih jezikov. Za potrditev kakovosti prevoda med katerim koli jezikom je bil pripravljen referenčni testni niz FLORES-200, ki je pokazal, da je model NLLB-200 glede kakovosti prevoda v povprečju za 44 % boljši od predhodno predlaganih raziskovalnih sistemov, ki temeljijo na strojnem učenju, pri uporabi Meritve BLEU, ki primerjajo strojno prevajanje s standardnim človeškim prevajanjem. Za redke afriške jezike in indijska narečja superiornost kakovosti doseže 70%. Kakovost prevoda je mogoče vizualno oceniti na posebej pripravljenem demo mestu.

Vir: opennet.ru

Dodaj komentar