Facebook publicē mašīntulkošanas modeli, kas atbalsta 200 valodas

Facebook (Krievijas Federācijā aizliegts) publicējis NLLB (No Language Left Behind) projekta izstrādnes, kuru mērķis ir izveidot universālu mašīnmācīšanās modeli teksta tiešai tulkošanai no vienas valodas uz otru, apejot starpposma tulkojumu angļu valodā. Piedāvātais modelis aptver vairāk nekā 200 valodas, tostarp retas Āfrikas un Austrālijas tautu valodas. Projekta galvenais mērķis ir nodrošināt saziņas līdzekli jebkurai personai neatkarīgi no valodas, kurā viņi runā.

Modelis ir licencēts saskaņā ar Creative Commons BY-NC 4.0 licenci, kas ļauj kopēt, izplatīt, pielāgot un atvasinātos darbus, ja jūs piešķirat attiecinājumu, saglabājat licenci un izmantojat to tikai nekomerciāliem nolūkiem. Rīki darbam ar modeļiem tiek nodrošināti saskaņā ar MIT licenci. Lai stimulētu attīstību, izmantojot LNB modeli, tika nolemts piešķirt $ 200 tūkstošus, lai nodrošinātu dotācijas pētniekiem.

Lai vienkāršotu projektu izveidi, izmantojot piedāvāto modeli, modeļu testēšanai un kvalitātes novērtēšanai izmantoto lietojumprogrammu kodu (FLORES-200, NLLB-MD, Toxicity-200), apmācību modeļu un kodētāju kodu, pamatojoties uz LASER3 bibliotēku ( Language-Agnostic SEtentence) ir papildus atvērtā koda. Pārstāvība). Galīgais modelis tiek piedāvāts divās versijās – pilnajā un saīsinātajā. Saīsinātā versija prasa mazāk resursu un ir piemērota testēšanai un izmantošanai pētniecības projektos.

Atšķirībā no citām tulkošanas sistēmām, kuru pamatā ir mašīnmācīšanās sistēmas, Facebook risinājums ir ievērojams ar to, ka piedāvā vienu vispārīgu modeli visām 200 valodām, kas aptver visas valodas un neprasa katrai valodai atsevišķu modeļu izmantošanu. Tulkošana tiek veikta tieši no avota valodas uz mērķa valodu, bez starptulkojuma angļu valodā. Lai izveidotu universālas tulkošanas sistēmas, papildus tiek piedāvāts LID modelis (Language IDentification), kas ļauj noteikt izmantoto valodu. Tie. sistēma var automātiski atpazīt, kurā valodā informācija tiek sniegta, un pārtulkot to lietotāja valodā.

Tulkošana tiek atbalstīta jebkurā virzienā, starp jebkuru no 200 atbalstītajām valodām. Lai apstiprinātu tulkošanas kvalitāti starp jebkurām valodām, tika sagatavots FLORES-200 atsauces testu komplekts, kas parādīja, ka NLLB-200 modelis tulkojuma kvalitātes ziņā ir vidēji par 44% pārāks par iepriekš piedāvātajām uz mašīnmācīšanos balstītām pētniecības sistēmām, ja to lieto. BLEU metrika, kas salīdzina mašīntulkošanu ar standarta cilvēka tulkojumu. Retām Āfrikas valodām un Indijas dialektiem kvalitātes pārākums sasniedz 70%. Vizuāli ir iespējams novērtēt tulkojuma kvalitāti speciāli sagatavotā demonstrācijas vietnē.

Avots: opennet.ru

Pievieno komentāru