Facebook publizéiert Maschinn Iwwersetzung Modell datt ënnerstëtzt 200 Sproochen

Facebook (verbueden an der russescher Federatioun) huet d'Entwécklungen vum NLLB (No Language Left Behind) Projet publizéiert, fir en universellen Maschinnléieremodell ze kreéieren fir direkt Text vun enger Sprooch an déi aner ze iwwersetzen, déi Zwëscheniwwersetzung op Englesch ëmgoen. De proposéierte Modell deckt méi wéi 200 Sproochen, dorënner selten Sprooche vun afrikaneschen an australesche Vëlker. D'ultimativ Zil vum Projet ass et fir all Mënsch e Kommunikatiounsmëttel ze bidden, onofhängeg vun der Sprooch déi se schwätzen.

De Modell ass ënner enger Creative Commons BY-NC 4.0 Lizenz lizenzéiert, déi Kopie, Ëmverdeelung, Personnalisatioun an ofgeleet Wierker erlaabt, virausgesat datt Dir Attributioun gitt, d'Lizenz behält a se nëmme fir net-kommerziell Zwecker benotzt. Tools fir mat Modeller ze schaffen ginn ënner der MIT Lizenz geliwwert. Fir d'Entwécklung mam NLLB Modell ze stimuléieren, gouf decidéiert $ 200 Tausend ze verdeelen fir Stipendien un d'Fuerscher ze ginn.

Fir d'Schafung vu Projete mat dem proposéierte Modell ze vereinfachen, ass de Code vun Uwendungen benotzt fir d'Qualitéit vun de Modeller ze testen an ze bewäerten (FLORES-200, NLLB-MD, Toxicity-200), Code fir Trainingsmodeller an Encoder baséiert op der LASER3 Bibliothéik ( Language-Agnostic SEntence) sinn zousätzlech Open Source. Representatioun). De finalen Modell gëtt an zwou Versiounen ugebueden - voll a verkierzt. Déi verkierzte Versioun erfuerdert manner Ressourcen an ass gëeegent fir ze testen an a Fuerschungsprojeten ze benotzen.

Am Géigesaz zu anere Iwwersetzungssystemer baséiert op Maschinnléiersystemer, ass d'Léisung vu Facebook bemierkenswäert datt et een allgemenge Modell fir all 200 Sproochen ubitt, déi all Sproochen ofdeckt an net d'Benotzung vu separaten Modeller fir all Sprooch erfuerdert. D'Iwwersetzung gëtt direkt vun der Quellsprooch an d'Zilsprooch duerchgefouert, ouni Zwëschen Iwwersetzung op Englesch. Fir universell Iwwersetzungssystemer ze kreéieren gëtt zousätzlech e LID-Modell (Language IDentification) proposéiert, deen et erlaabt, d'Sprooch ze bestëmmen. Déi. de System kann automatesch erkennen a wéi enger Sprooch d'Informatioun geliwwert gëtt an se an d'Sprooch vum Benotzer iwwersetzen.

Iwwersetzung gëtt an all Richtung ënnerstëtzt, tëscht all vun den 200 ënnerstëtzte Sproochen. Fir d'Qualitéit vun der Iwwersetzung tëscht verschiddene Sproochen ze bestätegen, gouf de FLORES-200 Referenztest-Set virbereet, wat gewisen huet datt den NLLB-200 Modell wat d'Iwwersetzungsqualitéit ugeet am Duerchschnëtt 44% besser ass wéi virdru proposéiert Maschinnléiere-baséiert Fuerschungssystemer wann Dir benotzt BLEU Metriken déi Maschinn Iwwersetzung mat Standard mënschlech Iwwersetzung vergläichen. Fir selten afrikanesch Sproochen an indesch Dialekter erreecht d'Qualitéit Iwwerleeënheet 70%. Et ass méiglech visuell d'Qualitéit vun der Iwwersetzung op engem speziell preparéierten Demo Site ze bewäerten.

Source: opennet.ru

Setzt e Commentaire