Lanzamiento del sistema de traducción automática OpenNMT 2.28.0

Se ha publicado el lanzamiento del sistema de traducción automática OpenNMT 0.28.0 (Open Neural Machine Translation), que utiliza métodos de aprendizaje automático. Para construir una red neuronal, el proyecto utiliza las capacidades de la biblioteca de aprendizaje automático profundo TensorFlow. El código de los módulos desarrollados por el proyecto OpenNMT está escrito en Python y distribuido bajo licencia MIT. Los modelos listos para usar están preparados para los idiomas inglés, alemán y catalán; para otros idiomas, puede crear de forma independiente un modelo basado en un conjunto de datos del proyecto OPUS (para la capacitación, se transfieren dos archivos al sistema, uno con oraciones en el lengua de origen, y la segunda con una traducción de alta calidad de estas frases a la lengua de destino).

El proyecto se desarrolla con la participación de SYSTRAN, una empresa especializada en la creación de herramientas de traducción automática, y un grupo de investigadores de Harvard que desarrollan modelos de lenguaje humano para sistemas de aprendizaje automático. La interfaz de usuario está lo más simplificada posible y solo requiere especificar un archivo de entrada con texto y un archivo para guardar el resultado de la traducción. El sistema de extensión permite implementar funciones adicionales basadas en OpenNMT, por ejemplo, resumen automático, clasificación de texto y generación de subtítulos.

El uso de TensorFlow permite utilizar las capacidades de la GPU (para acelerar el proceso de entrenamiento de una red neuronal). Para simplificar la distribución del producto, el proyecto también está desarrollando una versión autosuficiente del traductor en C++ - CTranslate2 , que utiliza modelos previamente entrenados sin referencia a dependencias adicionales.

La nueva versión agrega el parámetro initial_learning_rate e implementa varios argumentos nuevos (mha_bias y output_layer_bias) para configurar el generador de modelos Transformer. El resto está marcado por correcciones de errores.

Fuente: opennet.ru

Añadir un comentario