Facebook hà publicatu un mudellu per a traduzzione automatica chì sustene 200 lingue

Facebook (proibitu in a Federazione Russa) hà publicatu i sviluppi di u prughjettu NLLB (No Language Left Behind), destinatu à creà un mudellu universale d'apprendimentu automaticu per a traduzzione diretta di testu da una lingua à l'altru, sguassendu a traduzzione intermedia in inglese. U mudellu prupostu copre più di 200 lingue, cumprese lingue rare africane è australiane. U scopu ultimu di u prugettu hè di furnisce un mezu di cumunicazione per tutti i persone, indipendendu a lingua ch’elli parlanu.

U mudellu hè dispunibule sottu una licenza Creative Commons BY-NC 4.0, chì permette a copia, a distribuzione, l'inclusione in i vostri prughjetti è a creazione d'opere derivate, ma sottumessu à l'attribuzione, a retenzione di licenza è l'usu solu per scopi non cummirciali. U Strumentu di Modellazione hè licenziatu sottu a licenza MIT. Per stimulà u sviluppu cù u mudellu NLLB, hè statu decisu d'assignà 200 mila dollari per furnisce cuncessioni à i circadori.

Per simplificà a creazione di prughjetti cù u mudellu prupostu, u codice di l'applicazioni utilizatu per pruvà è valutà a qualità di mudelli (FLORES-200, NLLB-MD, Toxicity-200), u codice per i mudelli di furmazione è i codificatori basatu nantu à a biblioteca LASER3. (Rappresentazione di a frase agnostica in lingua). U mudellu finali hè prupostu in dui versioni - piena è ridutta. A versione ridotta richiede menu risorse è hè adattata per a prova è l'usu in prughjetti di ricerca.

A cuntrariu di l'altri sistemi di traduzzione basati nantu à l'apprendimentu automaticu, a suluzione di Facebook hè nota per offre un mudellu cumunu per tutte e 200 lingue, chì copre tutte e lingue è ùn esige micca mudelli separati per ogni lingua. A traduzzione hè fatta direttamente da a fonte à a lingua di destinazione, senza traduzzione intermedia in inglese. Per creà sistemi di traduzzione universale, hè prupostu un mudellu LID (Language IDentification) supplementu, chì permette di determinà a lingua utilizata. Quelli. u sistema pò ricunnosce automaticamente a lingua in quale l'infurmazione hè furnita è traduce in a lingua di l'utilizatore.

A traduzzione hè supportata in ogni direzzione, trà qualsiasi di e 200 lingue supportate. Per cunfirmà a qualità di a traduzzione trà ogni lingua, hè statu preparatu u set di teste di riferimentu FLORES-200, chì hà dimustratu chì u mudellu NLLB-200, in quantu à a qualità di a traduzzione, hè in media 44% superiore à i sistemi di ricerca pruposti prima basati nantu à l'apprendimentu machine. quandu si usa metrica BLEU chì compara a traduzzione automatica cù a traduzzione umana standard. Per lingui africani rari è dialetti indiani, a superiorità in a qualità righjunghji u 70%. Hè di moda per evaluà visualmente a qualità di a traduzzione in un situ demo preparatu apposta.

Source: opennet.ru

Add a comment