Facebook je objavio model za mašinsko prevođenje koji podržava 200 jezika

Facebook (zabranjen u Ruskoj Federaciji) objavio je razvoj projekta NLLB (No Language Left Behind), čiji je cilj stvaranje univerzalnog modela mašinskog učenja za direktno prevođenje teksta s jednog jezika na drugi, zaobilazeći srednji prijevod na engleski. Predloženi model pokriva više od 200 jezika, uključujući rijetke afričke i australske jezike. Krajnji cilj projekta je osigurati sredstvo komunikacije za sve ljude, bez obzira na jezik kojim govore.

Model je dostupan pod licencom Creative Commons BY-NC 4.0, koja omogućava kopiranje, distribuciju, uključivanje u vaše projekte i kreiranje izvedenih djela, ali podliježe atribuciji, zadržavanju licence i korištenju samo u nekomercijalne svrhe. Alat za modeliranje je licenciran pod MIT licencom. Kako bi se stimulirao razvoj korištenjem NLLB modela, odlučeno je da se izdvoji 200 hiljada dolara za dodjelu grantova istraživačima.

Za pojednostavljenje kreiranja projekata pomoću predloženog modela, kod aplikacija koji se koristi za testiranje i evaluaciju kvaliteta modela (FLORES-200, NLLB-MD, Toxicity-200), kod za obuku modela i kodera baziran na LASER3 biblioteci (Jezičko-agnostička reprezentacija rečenice). Konačni model se nudi u dvije verzije - punoj i smanjenoj. Smanjena verzija zahtijeva manje resursa i pogodna je za testiranje i korištenje u istraživačkim projektima.

Za razliku od drugih sistema prevođenja zasnovanih na mašinskom učenju, Facebookovo rešenje je značajno po tome što nudi jedan zajednički model za svih 200 jezika, koji pokriva sve jezike i ne zahteva posebne modele za svaki jezik. Prevođenje se vrši direktno sa izvornog na ciljni jezik, bez prijevoda na engleski jezik. Za kreiranje univerzalnih sistema prevođenja predlaže se dodatni LID-model (Identifikacija jezika) koji omogućava određivanje jezika koji se koristi. One. sistem može automatski prepoznati jezik na kojem su informacije date i prevesti ih na jezik korisnika.

Prevođenje je podržano u bilo kojem smjeru, između bilo kojeg od podržanih 200 jezika. Da bi se potvrdio kvalitet prijevoda između bilo kojeg jezika, pripremljen je referentni testni set FLORES-200, koji je pokazao da je model NLLB-200, u smislu kvaliteta prijevoda, u prosjeku 44% superiorniji od prethodno predloženih istraživačkih sistema zasnovanih na mašinskom učenju. kada koristite BLEU metriku koja upoređuje mašinsko prevođenje sa standardnim ljudskim prevođenjem. Za rijetke afričke jezike i indijske dijalekte, superiornost u kvaliteti doseže 70%. Moderno je vizualno procijeniti kvalitet prijevoda na posebno pripremljenoj demo stranici.

izvor: opennet.ru

Dodajte komentar