Facebook ha publicat un model de traducció automàtica que admet 200 idiomes

Facebook (prohibit a la Federació Russa) ha publicat els desenvolupaments del projecte NLLB (No Language Left Behind), amb l'objectiu de crear un model universal d'aprenentatge automàtic per a la traducció directa de text d'un idioma a un altre, sense passar per la traducció intermèdia a l'anglès. El model proposat cobreix més de 200 idiomes, incloses les rares llengües africanes i australianes. L'objectiu final del projecte és oferir un mitjà de comunicació per a totes les persones, independentment de la llengua que parlin.

El model està disponible sota una llicència Creative Commons BY-NC 4.0, que permet la còpia, la distribució, la inclusió en els vostres projectes i la creació d'obres derivades, però subjecte a atribució, retenció de llicència i ús només amb finalitats no comercials. L'eina de modelatge té la llicència MIT. Per estimular el desenvolupament mitjançant el model NLLB, es va decidir destinar 200 mil dòlars per oferir subvencions als investigadors.

Per simplificar la creació de projectes utilitzant el model proposat, el codi d'aplicacions utilitzat per provar i avaluar la qualitat dels models (FLORES-200, NLLB-MD, Toxicity-200), el codi per a models d'entrenament i codificadors basats en la biblioteca LASER3 (Representació de la frase agnòstica del llenguatge). El model final s'ofereix en dues versions: completa i reduïda. La versió reduïda requereix menys recursos i és adequada per a proves i ús en projectes de recerca.

A diferència d'altres sistemes de traducció basats en l'aprenentatge automàtic, la solució de Facebook destaca per oferir un model comú per als 200 idiomes, que cobreix tots els idiomes i no requereix models separats per a cada idioma. La traducció es realitza directament de l'idioma d'origen a l'idioma de destinació, sense traducció intermèdia a l'anglès. Per crear sistemes de traducció universals, es proposa un model LID addicional (Language IDentification), que permet determinar la llengua utilitzada. Aquells. el sistema pot reconèixer automàticament l'idioma en què es proporciona la informació i traduir-la a l'idioma de l'usuari.

La traducció és compatible en qualsevol direcció, entre qualsevol dels 200 idiomes admesos. Per confirmar la qualitat de la traducció entre qualsevol idioma, es va preparar el conjunt de proves de referència FLORES-200, que va demostrar que el model NLLB-200, pel que fa a la qualitat de la traducció, és de mitjana un 44% superior als sistemes de recerca proposats anteriorment basats en l'aprenentatge automàtic. quan s'utilitzen mètriques BLEU que comparen la traducció automàtica amb la traducció humana estàndard. Per a les llengües africanes rares i els dialectes indis, la superioritat en qualitat arriba al 70%. Està de moda avaluar visualment la qualitat de la traducció en un lloc de demostració especialment preparat.

Font: opennet.ru

Afegeix comentari