Facebook pubblica un modello di traduzione automatica che supporta 200 lingue

Facebook (vietato nella Federazione Russa) ha pubblicato gli sviluppi del progetto NLLB (No Language Left Behind), volto a creare un modello universale di machine learning per tradurre direttamente il testo da una lingua all'altra, bypassando la traduzione intermedia in inglese. Il modello proposto copre più di 200 lingue, comprese le lingue rare dei popoli africani e australiani. L'obiettivo finale del progetto è fornire un mezzo di comunicazione per qualsiasi persona, indipendentemente dalla lingua che parla.

Il modello è concesso in licenza con una licenza Creative Commons BY-NC 4.0, che consente la copia, la ridistribuzione, la personalizzazione e le opere derivate, a condizione che si fornisca l'attribuzione, si mantenga la licenza e la si utilizzi solo per scopi non commerciali. Gli strumenti per lavorare con i modelli sono forniti con la licenza MIT. Per stimolare lo sviluppo utilizzando il modello NLLB, è stato deciso di stanziare 200mila dollari per fornire sovvenzioni ai ricercatori.

Per semplificare la creazione di progetti utilizzando il modello proposto, il codice delle applicazioni utilizzate per testare e valutare la qualità dei modelli (FLORES-200, NLLB-MD, Toxicity-200), codice per l'addestramento di modelli e codificatori basati sulla libreria LASER3 ( SEntence Language-Agnostic) sono inoltre open source (Rappresentazione). Il modello finale è offerto in due versioni: completa e accorciata. La versione abbreviata richiede meno risorse ed è adatta per test e utilizzo in progetti di ricerca.

A differenza di altri sistemi di traduzione basati su sistemi di apprendimento automatico, la soluzione di Facebook è notevole in quanto offre un modello generale per tutte le 200 lingue, coprendo tutte le lingue e non richiedendo l'uso di modelli separati per ciascuna lingua. La traduzione viene effettuata direttamente dalla lingua di partenza alla lingua di destinazione, senza traduzione intermedia in inglese. Per creare sistemi di traduzione universali viene inoltre proposto un modello LID (Language IDentification) che consente di determinare la lingua utilizzata. Quelli. il sistema è in grado di riconoscere automaticamente in quale lingua vengono fornite le informazioni e di tradurle nella lingua dell’utente.

La traduzione è supportata in qualsiasi direzione, tra una qualsiasi delle 200 lingue supportate. Per confermare la qualità della traduzione tra qualsiasi lingua, è stato preparato il set di test di riferimento FLORES-200, che ha dimostrato che il modello NLLB-200 in termini di qualità della traduzione è in media del 44% superiore ai sistemi di ricerca basati sull'apprendimento automatico proposti in precedenza quando si utilizza Metriche BLEU che confrontano la traduzione automatica con la traduzione umana standard. Per le rare lingue africane e i dialetti indiani la superiorità qualitativa raggiunge il 70%. È possibile valutare visivamente la qualità della traduzione su un sito demo appositamente preparato.

Fonte: opennet.ru

Aggiungi un commento