Facebook publica un modelo de tradución automática que admite 200 idiomas

Facebook (prohibido na Federación Rusa) publicou os desenvolvementos do proxecto NLLB (No Language Left Behind), destinado a crear un modelo universal de aprendizaxe automática para traducir directamente texto dun idioma a outro, evitando a tradución intermedia ao inglés. O modelo proposto abrangue máis de 200 linguas, incluíndo linguas raras dos pobos africanos e australianos. O obxectivo final do proxecto é proporcionar un medio de comunicación para calquera xente, independentemente da lingua que fale.

O modelo está licenciado baixo unha licenza Creative Commons BY-NC 4.0, que permite a copia, a redistribución, a personalización e os traballos derivados, sempre que dea atribución, manteña a licenza e a utilice só para fins non comerciais. As ferramentas para traballar con modelos ofrécense baixo a licenza MIT. Para estimular o desenvolvemento mediante o modelo NLLB, decidiuse destinar 200 mil dólares para proporcionar subvencións aos investigadores.

Para simplificar a creación de proxectos utilizando o modelo proposto, o código de aplicacións utilizados para probar e avaliar a calidade dos modelos (FLORES-200, NLLB-MD, Toxicity-200), o código para a formación de modelos e os codificadores baseados na biblioteca LASER3 ( Oración agnóstica da linguaxe) son ademais de código aberto. Representación). O modelo final ofrécese en dúas versións: completa e acurtada. A versión abreviada require menos recursos e é adecuada para probar e usar en proxectos de investigación.

A diferenza doutros sistemas de tradución baseados en sistemas de aprendizaxe automática, a solución de Facebook destaca porque ofrece un modelo xeral para os 200 idiomas, que abarca todos os idiomas e non require o uso de modelos separados para cada idioma. A tradución realízase directamente desde a lingua de orixe á lingua de destino, sen tradución intermedia ao inglés. Para crear sistemas de tradución universais, proponse ademais un modelo LID (Language IDentification) que permite determinar a lingua empregada. Eses. o sistema pode recoñecer automaticamente en que idioma se proporciona a información e traducila ao idioma do usuario.

A tradución é compatible en calquera dirección, entre calquera das 200 linguas admitidas. Para confirmar a calidade da tradución entre calquera lingua, elaborouse o conxunto de probas de referencia FLORES-200, que demostrou que o modelo NLLB-200 en termos de calidade da tradución é, de media, un 44% superior aos sistemas de investigación baseados na aprendizaxe automática propostos anteriormente cando se utilizan Métricas BLEU que comparan a tradución automática coa tradución humana estándar. Para as linguas africanas raras e os dialectos indios, a superioridade de calidade alcanza o 70%. É posible avaliar visualmente a calidade da tradución nun sitio de demostración especialmente preparado.

Fonte: opennet.ru

Engadir un comentario