Facebook objavljuje model strojnog prevođenja koji podržava 200 jezika

Facebook (zabranjen u Ruskoj Federaciji) objavio je razvoj projekta NLLB (No Language Left Behind), čiji je cilj stvaranje univerzalnog modela strojnog učenja za izravno prevođenje teksta s jednog jezika na drugi, zaobilazeći srednje prevođenje na engleski. Predloženi model pokriva više od 200 jezika, uključujući rijetke jezike afričkih i australskih naroda. Konačni cilj projekta je osigurati sredstvo komunikacije za sve ljude, bez obzira kojim jezikom govore.

Model je licenciran pod licencom Creative Commons BY-NC 4.0, koja dopušta kopiranje, redistribuciju, prilagodbu i izvedene radove, pod uvjetom da navedete autorstvo, održavate licencu i koristite je samo u nekomercijalne svrhe. Alati za rad s modelima dostupni su pod licencom MIT-a. Kako bi se potaknuo razvoj pomoću NLLB modela, odlučeno je izdvojiti 200 tisuća dolara za dodjelu bespovratnih sredstava istraživačima.

Kako bi se pojednostavila izrada projekata pomoću predloženog modela, kod aplikacija koji se koriste za testiranje i ocjenu kvalitete modela (FLORES-200, NLLB-MD, Toxicity-200), kod za modele za obuku i kodere temeljene na biblioteci LASER3 ( Language-Agnostic SEntence) dodatno su otvorenog koda.Representation). Konačni model nudi se u dvije verzije - punoj i skraćenoj. Skraćena verzija zahtijeva manje resursa i prikladna je za testiranje i korištenje u istraživačkim projektima.

Za razliku od drugih sustava prevođenja koji se temelje na sustavima strojnog učenja, Facebookovo rješenje je značajno po tome što nudi jedan opći model za svih 200 jezika, pokriva sve jezike i ne zahtijeva upotrebu zasebnih modela za svaki jezik. Prijevod se izvodi izravno s izvornog jezika na ciljni jezik, bez posrednog prijevoda na engleski. Za stvaranje univerzalnih prevoditeljskih sustava dodatno se predlaže LID model (Language IDentification) koji omogućuje određivanje korištenog jezika. Oni. sustav može automatski prepoznati na kojem se jeziku informacije pružaju i prevesti ih na jezik korisnika.

Prijevod je podržan u bilo kojem smjeru, između bilo kojeg od 200 podržanih jezika. Kako bi se potvrdila kvaliteta prijevoda između bilo kojeg jezika, pripremljen je FLORES-200 referentni set testova, koji je pokazao da je model NLLB-200 u smislu kvalitete prijevoda u prosjeku 44% bolji od prethodno predloženih istraživačkih sustava temeljenih na strojnom učenju kada se koriste BLEU metrika koja uspoređuje strojno prevođenje sa standardnim ljudskim prevođenjem. Za rijetke afričke jezike i indijske dijalekte, superiornost kvalitete doseže 70%. Kvalitetu prijevoda moguće je vizualno procijeniti na posebno pripremljenoj demo stranici.

Izvor: opennet.ru

Dodajte komentar