Facebook avaldab masintõlkemudeli, mis toetab 200 keelt

Facebook (Vene Föderatsioonis keelatud) avaldas projekti NLLB (No Language Left Behind) arendused, mille eesmärk on luua universaalne masinõppemudel teksti vahetuks tõlkimiseks ühest keelest teise, jättes kõrvale vahepealse tõlke inglise keelde. Kavandatud mudel hõlmab enam kui 200 keelt, sealhulgas Aafrika ja Austraalia rahvaste haruldasi keeli. Projekti lõppeesmärk on pakkuda suhtlusvahendit kõigile inimestele, olenemata sellest, millist keelt nad räägivad.

Mudel on litsentsitud Creative Commons BY-NC 4.0 litsentsi alusel, mis lubab kopeerida, levitada, kohandada ja tuletatud teoseid eeldusel, et annate omistamise, säilitate litsentsi ja kasutate seda ainult mitteärilistel eesmärkidel. Tööriistad mudelitega töötamiseks on saadaval MIT-i litsentsi alusel. Arengu stimuleerimiseks NLLB mudeli abil otsustati eraldada 200 tuhat dollarit teadlastele toetuste andmiseks.

Projektide loomise lihtsustamiseks, kasutades pakutud mudelit, kasutatakse mudelite testimiseks ja kvaliteedi hindamiseks kasutatavate rakenduste koodi (FLORES-200, NLLB-MD, Toxicity-200), koolitusmudelite koodi ja LASER3 teegil põhinevaid kodeerijaid ( Language-Agnostic SEtence) on lisaks avatud lähtekoodiga. Esindus). Lõplikku mudelit pakutakse kahes versioonis - täis- ja lühendatud versioonis. Lühendatud versioon nõuab vähem ressursse ning sobib testimiseks ja uurimisprojektides kasutamiseks.

Erinevalt teistest masinõppesüsteemidel põhinevatest tõlkesüsteemidest on Facebooki lahendus tähelepanuväärne selle poolest, et see pakub ühte üldmudelit kõigi 200 keele jaoks, mis hõlmab kõiki keeli ega nõua iga keele jaoks eraldi mudelite kasutamist. Tõlge tehakse otse lähtekeelest sihtkeelde, ilma vahepealse tõlketa inglise keelde. Universaalsete tõlkesüsteemide loomiseks on lisaks välja pakutud LID-mudel (Language IDentification), mis võimaldab määrata kasutatavat keelt. Need. süsteem suudab automaatselt tuvastada, mis keeles teave on esitatud, ja tõlkida selle kasutaja keelde.

Tõlkimist toetatakse igas suunas, mis tahes 200 toetatud keele vahel. Mis tahes keeltevahelise tõlke kvaliteedi kinnitamiseks koostati FLORES-200 võrdlustestide komplekt, mis näitas, et NLLB-200 mudel on tõlkekvaliteedi osas keskmiselt 44% parem kui varem pakutud masinõppel põhinevad uurimissüsteemid, kui seda kasutada. BLEU mõõdikud, mis võrdlevad masintõlget standardse inimtõlkega. Haruldaste Aafrika keelte ja India murrete puhul ulatub kvaliteedi paremus 70% -ni. Tõlke kvaliteeti on võimalik visuaalselt hinnata spetsiaalselt ettevalmistatud demo saidil.

Allikas: opennet.ru

Lisa kommentaar