Facebookek 200 hizkuntza onartzen dituen itzulpen automatikoko eredua argitaratu du

Facebookek (Errusiar Federazioan debekatua) NLLB (No Language Left Behind) proiektuaren garapenak argitaratu ditu, makina ikaskuntza eredu unibertsala sortzea helburu duena, testua hizkuntza batetik bestera zuzenean itzultzeko, ingelesera bitarteko itzulpena saihestuz. Proposatutako ereduak 200 hizkuntza baino gehiago hartzen ditu, Afrikako eta Australiako herrietako hizkuntza arraroak barne. Proiektuaren azken helburua edozein pertsonari komunikaziorako bide bat eskaintzea da, hitz egiten duten hizkuntza edozein dela ere.

Ereduaren lizentzia Creative Commons BY-NC 4.0 lizentziapean dago, eta obrak kopiatzea, birbanatzea, pertsonalizatzea eta eratorriak ahalbidetzen ditu, baldin eta atribuzioa ematen baduzu, lizentzia mantentzen baduzu eta helburu ez-komertzialetarako soilik erabiltzen baduzu. Modeloekin lan egiteko tresnak MIT lizentziapean eskaintzen dira. NLLB eredua erabiliz garapena sustatzeko, 200 mila dolar bideratzea erabaki zen ikertzaileei diru-laguntzak emateko.

Proposatutako eredua erabiliz proiektuak sortzea errazteko, ereduen kalitatea probatzeko eta ebaluatzeko erabiltzen diren aplikazioen kodea (FLORES-200, NLLB-MD, Toxicity-200), trebatzeko ereduen kodea eta LASER3 liburutegian oinarritutako kodetzaileak ( Hizkuntza-Agnostic Sentence) gainera kode irekikoak dira. Irudikapena). Azken eredua bi bertsiotan eskaintzen da: osoa eta laburtua. Bertsio laburtuak baliabide gutxiago behar ditu eta ikerketa-proiektuetan probatzeko eta erabiltzeko egokia da.

Ikaskuntza automatikoko sistemetan oinarritutako beste itzulpen-sistema batzuetan ez bezala, Facebook-en irtenbidea nabarmena da 200 hizkuntza guztietarako eredu orokor bat eskaintzen duelako, hizkuntza guztiak hartzen dituena eta hizkuntza bakoitzerako eredu bereiziak erabiltzea eskatzen ez duelako. Itzulpena sorburu-hizkuntzatik xede-hizkuntzara zuzenean egiten da, ingelesera bitarteko itzulpenik gabe. Itzulpen-sistema unibertsalak sortzeko, LID eredua (Language IDentification) ere proposatzen da, zeinak erabilitako hizkuntza zehaztea ahalbidetzen duena. Horiek. sistemak automatikoki ezagutu dezake informazioa zein hizkuntzatan ematen den eta erabiltzailearen hizkuntzara itzuli.

Itzulpena edozein norabidetan onartzen da, onartzen diren 200 hizkuntzetako edozeinen artean. Edozein hizkuntzen arteko itzulpenaren kalitatea baieztatzeko, FLORES-200 erreferentzia-test multzoa prestatu zen, eta bertan frogatu zuen NLLB-200 eredua itzulpen-kalitateari dagokionez, batez beste, % 44 handiagoa dela aurretik proposatutako ikaskuntza automatikoko ikerketa-sistemetan baino. Itzulpen automatikoa giza itzulpen estandarrarekin alderatzen duten BLEU neurketak. Afrikako hizkuntza arraroentzat eta Indiako dialektoentzat, kalitatearen nagusitasuna% 70era iristen da. Itzulpenaren kalitatea bisualki ebaluatu daiteke berariaz prestatutako demo gune batean.

Iturria: opennet.ru

Gehitu iruzkin berria