Abriuse o código para o sistema de recoñecemento e tradución de voz Whisper

O proxecto OpenAI, que desenvolve proxectos públicos no ámbito da intelixencia artificial, publicou novidades relacionadas co sistema de recoñecemento de voz Whisper. Afirma que para a fala en inglés o sistema proporciona niveis de fiabilidade e precisión de recoñecemento automático próximos ao recoñecemento humano. Abriuse o código para a implementación de referencia baseada no framework PyTorch e un conxunto de modelos xa adestrados, listos para o seu uso. O código está aberto baixo a licenza MIT.

Para adestrar o modelo utilizáronse 680 mil horas de datos de fala, recollidos de varias coleccións que abarcan diferentes idiomas e áreas temáticas. Aproximadamente 1/3 dos datos de fala implicados na formación están en idiomas distintos do inglés. O sistema proposto manexa correctamente situacións como a pronuncia acentuada, o ruído de fondo e o uso da xerga técnica. Ademais de transcribir o discurso a texto, o sistema tamén pode traducir o discurso de calquera idioma ao inglés e detectar a aparición da fala no fluxo de audio.

Os modelos están formados en dúas representacións: un modelo para a lingua inglesa e un modelo multilingüe, que tamén admite as linguas rusa, ucraína e bielorrusa. Á súa vez, cada representación divídese en 5 opcións, que difiren en tamaño e número de parámetros cubertos no modelo. Canto maior sexa o tamaño, maior será a precisión e a calidade do recoñecemento, pero tamén máis altos serán os requisitos para o tamaño da memoria de vídeo da GPU e menor será o rendemento. Por exemplo, a opción mínima inclúe 39 millóns de parámetros e require 1 GB de memoria de vídeo, e a máxima inclúe 1550 millóns de parámetros e require 10 GB de memoria de vídeo. A opción mínima é 32 veces máis rápida que a máxima.

Abriuse o código para o sistema de recoñecemento e tradución de voz Whisper

O sistema usa a arquitectura de rede neuronal Transformer, que inclúe un codificador e un decodificador que interactúan entre si. O audio divídese en anacos de 30 segundos, que se converten nun espectrograma log-Mel e se envían ao codificador. A saída do codificador envíase ao decodificador, que predice unha representación de texto mesturada con tokens especiais que permiten, nun modelo xeral, resolver problemas como a detección da linguaxe, a contabilización da cronoloxía da pronuncia de frases, a transcrición do discurso en diferentes idiomas e tradución ao inglés.

Fonte: opennet.ru

Engadir un comentario