Facebook pibliye modèl tradiksyon machin ki sipòte 200 lang

Facebook (entèdi nan Federasyon Larisi la) te pibliye devlopman nan pwojè NLLB (Pa gen Lang Kite Dèyè), ki vize a kreye yon modèl aprantisaj machin inivèsèl pou dirèkteman tradui tèks soti nan yon lang nan yon lòt, iyore tradiksyon entèmedyè nan lang angle. Modèl yo pwopoze a kouvri plis pase 200 lang, ki gen ladan lang ki ra nan pèp Afriken ak Ostralyen. Objektif final la nan pwojè a se bay yon mwayen pou kominikasyon pou nenpòt moun, kèlkeswa lang yo pale.

Modèl la gen lisans anba yon lisans Creative Commons BY-NC 4.0, ki pèmèt kopi, redistribisyon, personnalisation, ak travay derive, depi ou bay atribisyon, kenbe lisans lan, epi sèvi ak li pou rezon ki pa komèsyal sèlman. Zouti pou travay ak modèl yo bay lisans MIT. Pou ankouraje devlopman lè l sèvi avèk modèl NLLB la, li te deside asiyen $200 mil pou bay chèchè yo sibvansyon.

Pou senplifye kreyasyon pwojè yo lè l sèvi avèk modèl yo pwopoze a, kòd aplikasyon yo itilize pou teste ak evalye kalite modèl (FLORES-200, NLLB-MD, Toxicity-200), kòd pou modèl fòmasyon ak ankode ki baze sou bibliyotèk LASER3 ( Lang-Agnostic fraz) yo anplis louvri sous. Reprezantan). Modèl final la ofri nan de vèsyon - plen ak pi kout. Vèsyon ki pi kout la mande mwens resous epi li apwopriye pou tès ak itilizasyon nan pwojè rechèch.

Kontrèman ak lòt sistèm tradiksyon ki baze sou sistèm aprantisaj machin, solisyon Facebook a remakab paske li ofri yon modèl jeneral pou tout 200 lang, ki kouvri tout lang epi ki pa egzije itilizasyon modèl separe pou chak lang. Tradiksyon fèt dirèkteman nan lang sous la nan lang sib la, san tradiksyon entèmedyè nan lang angle. Pou kreye sistèm tradiksyon inivèsèl, yon modèl LID (Language IDentification) yo pwopoze anplis, ki fè li posib detèmine lang yo itilize. Moun sa yo. sistèm nan ka otomatikman rekonèt nan ki lang yo bay enfòmasyon an epi tradui li nan lang itilizatè a.

Tradiksyon sipòte nan nenpòt direksyon, ant nenpòt nan 200 lang yo sipòte. Pou konfime kalite tradiksyon ant nenpòt lang, yo te prepare seri tès referans FLORES-200, ki montre ke modèl NLLB-200 an tèm de bon jan kalite tradiksyon an mwayèn 44% siperyè ak sistèm rechèch ki baze sou aprantisaj machin yo te pwopoze deja lè w ap itilize. Paramèt BLEU ki konpare tradiksyon machin ak tradiksyon imen estanda. Pou lang Afriken ki ra ak dyalèk Endyen, siperyorite bon jan kalite a rive nan 70%. Li posib pou evalye vizyèlman kalite tradiksyon an sou yon sit Demo ki prepare espesyalman.

Sous: opennet.ru

Add nouvo kòmantè