Mamoaka maodely fandikan-teny milina mahazaka fiteny 200 ny Facebook

Facebook (voarara ao amin'ny Federasiona Rosiana) dia namoaka ny fivoaran'ny tetikasa NLLB (No Language Left Behind), mikendry ny hamorona maodely fianarana milina manerantany ho an'ny fandikana mivantana ny lahatsoratra avy amin'ny fiteny iray mankany amin'ny iray hafa, handalo ny fandikan-teny manelanelana amin'ny teny anglisy. Mandrakotra fiteny 200 mahery ny modely natolotra, anisan'izany ny fiteny tsy fahita firy amin'ny vahoaka Afrikana sy Aostraliana. Ny tanjona faratampony amin'ny tetikasa dia ny hanome fitaovana hifandraisana ho an'ny olona rehetra, na inona na inona fiteny ampiasainy.

Ny maodely dia nahazo alalana tamin'ny alΓ lan'ny lisansa Creative Commons BY-NC 4.0, izay manome alalana ny fanaovana kopia, fizarana indray, fanamboarana, ary asa derivative, raha toa ka omenao anarana, fitazonana ny fahazoan-dΓ lana ary hampiasaina ho an'ny tanjona tsy ara-barotra ihany. Ny fitaovana miasa amin'ny modely dia omena eo ambanin'ny fahazoan-dΓ lana MIT. Mba hamporisihana ny fampandrosoana amin'ny fampiasana ny maodely NLLB, dia nanapa-kevitra ny hanome vola 200 arivo dolara ho an'ny mpikaroka.

Mba hanatsorana ny famoronana tetikasa mampiasa ny modely natolotra, ny fehezan-dalΓ na fampiharana ampiasaina amin'ny fitiliana sy fanombanana ny kalitaon'ny modely (FLORES-200, NLLB-MD, Toxicity-200), kaody ho an'ny fanofanana modely sy encoders mifototra amin'ny LASER3 tranomboky ( Language-Agnostic SEntence) dia loharano misokatra koa. Representation). Ny modely farany dia atolotra amin'ny dikan-teny roa - feno sy fohy. Ny dikan-teny nohafohezina dia mitaky loharano vitsy kokoa ary mety amin'ny fitiliana sy fampiasana amin'ny tetikasa fikarohana.

Tsy toy ny rafitra fandikan-teny hafa mifototra amin'ny rafitra fianarana milina, ny vahaolana an'ny Facebook dia miavaka amin'ny fanolorana modely ankapobeny ho an'ny fiteny 200 rehetra, mandrakotra ny fiteny rehetra ary tsy mitaky ny fampiasana modely samihafa ho an'ny fiteny tsirairay. Ny fandikana dia atao mivantana avy amin'ny fiteny loharano mankany amin'ny fiteny kendrena, tsy misy fandikan-teny manelanelana amin'ny teny anglisy. Mba hamoronana rafitra fandikan-teny manerantany, dia aroso koa ny modely LID (Language IDentification), izay ahafahana mamaritra ny fiteny ampiasaina. Ireo. ny rafitra dia afaka mamantatra ho azy amin'ny fiteny inona ny fampahalalana omena ary mandika izany amin'ny fitenin'ny mpampiasa.

Ny fandikan-teny dia tohana amin'ny lafiny rehetra, eo anelanelan'ireo fiteny 200 tohana. Mba hanamafisana ny kalitaon'ny fandikan-teny eo amin'ny fiteny rehetra, dia nomanina ny FLORES-200 reference test set, izay naneho fa ny modely NLLB-200 amin'ny lafiny kalitaon'ny fandikan-teny dia eo ho eo amin'ny 44% ambony noho ny rafitra fikarohana mifototra amin'ny milina naroso teo aloha rehefa mampiasa. Metrika BLEU mampitaha ny fandikan-teny amin'ny milina amin'ny fandikan-teny mahazatra. Ho an'ny fiteny afrikanina tsy fahita firy sy ny fitenim-paritra indiana dia mahatratra 70% ny fahambonian'ny kalitao. Azo atao ny manombatombana an-tsary ny kalitaon'ny fandikan-teny amin'ny tranokala demo voaomana manokana.

Source: opennet.ru

Add a comment