Facebook publica un modelo de traducción automática que admite 200 idiomas

Facebook (prohibido en la Federación Rusa) ha publicado los desarrollos del proyecto NLLB (No Language Left Behind), cuyo objetivo es crear un modelo universal de aprendizaje automático para traducir directamente texto de un idioma a otro, evitando la traducción intermedia al inglés. El modelo propuesto cubre más de 200 lenguas, incluidas lenguas raras de los pueblos africanos y australianos. El objetivo final del proyecto es proporcionar un medio de comunicación para cualquier pueblo, independientemente del idioma que hable.

El modelo tiene una licencia Creative Commons BY-NC 4.0, que permite la copia, redistribución, personalización y trabajos derivados, siempre que usted dé la atribución, mantenga la licencia y la utilice únicamente con fines no comerciales. Las herramientas para trabajar con modelos se proporcionan bajo licencia MIT. Para estimular el desarrollo utilizando el modelo NLLB, se decidió asignar 200 mil dólares para otorgar subvenciones a los investigadores.

Para simplificar la creación de proyectos utilizando el modelo propuesto, el código de las aplicaciones utilizadas para probar y evaluar la calidad de los modelos (FLORES-200, NLLB-MD, Toxicity-200), código para entrenar modelos y codificadores basados ​​en la biblioteca LASER3 ( Las frases independientes del lenguaje) también son de código abierto. El modelo final se ofrece en dos versiones: completa y reducida. La versión abreviada requiere menos recursos y es adecuada para pruebas y uso en proyectos de investigación.

A diferencia de otros sistemas de traducción basados ​​en sistemas de aprendizaje automático, la solución de Facebook se destaca porque ofrece un modelo general para los 200 idiomas, que cubre todos los idiomas y no requiere el uso de modelos separados para cada idioma. La traducción se realiza directamente del idioma de origen al de destino, sin traducción intermedia al inglés. Para crear sistemas de traducción universales, se propone adicionalmente un modelo LID (Language IDentification), que permite determinar el idioma utilizado. Aquellos. el sistema puede reconocer automáticamente en qué idioma se proporciona la información y traducirla al idioma del usuario.

Se admite la traducción en cualquier dirección, entre cualquiera de los 200 idiomas admitidos. Para confirmar la calidad de la traducción entre cualquier idioma, se preparó el conjunto de pruebas de referencia FLORES-200, que demostró que el modelo NLLB-200 en términos de calidad de traducción es en promedio un 44% superior a los sistemas de investigación basados ​​en aprendizaje automático propuestos anteriormente cuando se utiliza. Métricas BLEU que comparan la traducción automática con la traducción humana estándar. Para las lenguas africanas raras y los dialectos indios, la superioridad de calidad alcanza el 70%. Es posible evaluar visualmente la calidad de la traducción en un sitio de demostración especialmente preparado.

Fuente: opennet.ru

Añadir un comentario