Se ha abierto el código del sistema de traducción y reconocimiento de voz Whisper

El proyecto OpenAI, que desarrolla proyectos públicos en el campo de la inteligencia artificial, ha publicado novedades relacionadas con el sistema de reconocimiento de voz Whisper. Se afirma que para el habla en inglés, el sistema proporciona niveles de confiabilidad y precisión de reconocimiento automático cercanos al reconocimiento humano. Se ha abierto el código para la implementación de referencia basada en el framework PyTorch y un conjunto de modelos ya entrenados, listos para usar. El código está abierto bajo la licencia MIT.

Para entrenar el modelo se utilizaron 680 mil horas de datos de voz, recopilados de varias colecciones que cubren diferentes idiomas y áreas temáticas. Aproximadamente 1/3 de los datos del habla involucrados en el entrenamiento están en idiomas distintos del inglés. El sistema propuesto maneja correctamente situaciones como la pronunciación acentuada, el ruido de fondo y el uso de jerga técnica. Además de transcribir voz en texto, el sistema también puede traducir voz de cualquier idioma al inglés y detectar la aparición de voz en el flujo de audio.

Los modelos se forman en dos representaciones: un modelo para el idioma inglés y un modelo multilingüe, que también admite los idiomas ruso, ucraniano y bielorruso. A su vez, cada representación se divide en 5 opciones, diferenciándose en tamaño y número de parámetros cubiertos en el modelo. Cuanto mayor sea el tamaño, mayor será la precisión y la calidad del reconocimiento, pero también mayores serán los requisitos de tamaño de la memoria de vídeo de la GPU y menor el rendimiento. Por ejemplo, la opción mínima incluye 39 millones de parámetros y requiere 1 GB de memoria de video, y la máxima incluye 1550 millones de parámetros y requiere 10 GB de memoria de video. La opción mínima es 32 veces más rápida que la máxima.

Se ha abierto el código del sistema de traducción y reconocimiento de voz Whisper

El sistema utiliza la arquitectura de red neuronal Transformer, que incluye un codificador y un decodificador que interactúan entre sí. El audio se divide en fragmentos de 30 segundos, que se convierten en un espectrograma log-Mel y se envían al codificador. La salida del codificador se envía al decodificador, que predice una representación de texto mezclada con tokens especiales que permiten, en un modelo general, resolver problemas como la detección del idioma, la contabilidad de la cronología de la pronunciación de frases, la transcripción del habla en diferentes idiomas y traducción al inglés.

Fuente: opennet.ru

Añadir un comentario