Facebook publie un modèle de traduction automatique prenant en charge 200 langues

Facebook (interdit en Fédération de Russie) a publié les développements du projet NLLB (No Language Left Behind), visant à créer un modèle universel d'apprentissage automatique pour traduire directement un texte d'une langue à une autre, en contournant la traduction intermédiaire vers l'anglais. Le modèle proposé couvre plus de 200 langues, dont les langues rares des peuples africains et australiens. Le but ultime du projet est de fournir un moyen de communication à tous, quelle que soit la langue qu'ils parlent.

Le modèle est sous licence Creative Commons BY-NC 4.0, qui autorise la copie, la redistribution, la personnalisation et les œuvres dérivées, à condition que vous en attribuiez l'attribution, que vous conserviez la licence et que vous l'utilisiez à des fins non commerciales uniquement. Les outils permettant de travailler avec des modèles sont fournis sous licence MIT. Pour stimuler le développement selon le modèle NLLB, il a été décidé d'allouer 200 XNUMX dollars pour accorder des subventions aux chercheurs.

Pour simplifier la création de projets utilisant le modèle proposé, le code des applications utilisées pour tester et évaluer la qualité des modèles (FLORES-200, NLLB-MD, Toxicity-200), le code de formation des modèles et des encodeurs basés sur la bibliothèque LASER3 ( Language-Agnostic SEntence) sont également open source. Le modèle final est proposé en deux versions – complète et raccourcie. La version abrégée nécessite moins de ressources et convient aux tests et à l'utilisation dans des projets de recherche.

Contrairement à d'autres systèmes de traduction basés sur des systèmes d'apprentissage automatique, la solution de Facebook se distingue par le fait qu'elle propose un modèle général pour les 200 langues, couvrant toutes les langues et ne nécessitant pas l'utilisation de modèles distincts pour chaque langue. La traduction s'effectue directement de la langue source vers la langue cible, sans traduction intermédiaire vers l'anglais. Pour créer des systèmes de traduction universels, un modèle LID (Language IDentification) est en outre proposé, qui permet de déterminer la langue utilisée. Ceux. le système peut reconnaître automatiquement dans quelle langue les informations sont fournies et les traduire dans la langue de l’utilisateur.

La traduction est prise en charge dans toutes les directions, entre l'une des 200 langues prises en charge. Pour confirmer la qualité de la traduction entre toutes les langues, l'ensemble de tests de référence FLORES-200 a été préparé, qui a montré que le modèle NLLB-200 en termes de qualité de traduction est en moyenne 44 % supérieur aux systèmes de recherche basés sur l'apprentissage automatique proposés précédemment lors de l'utilisation Métriques BLEU comparant la traduction automatique à la traduction humaine standard. Pour les langues africaines rares et les dialectes indiens, la supériorité qualitative atteint 70 %. Il est possible d'évaluer visuellement la qualité de la traduction sur un site de démonstration spécialement préparé.

Source: opennet.ru

Ajouter un commentaire