Mozilla presentó el motor de reconocimiento de voz DeepSpeech 0.6

Presentado por lanzamiento del motor de reconocimiento de voz desarrollado por Mozilla Habla profunda 0.6, que implementa la arquitectura de reconocimiento de voz del mismo nombre, propuesto por investigadores de Baidu. La implementación está escrita en Python utilizando la plataforma de aprendizaje automático TensorFlow y distribuido por bajo la licencia gratuita MPL 2.0. Admite trabajo en Linux, Android, macOS y Windows. El rendimiento es suficiente para utilizar el motor en placas LePotato, Raspberry Pi 3 y Raspberry Pi 4.

También incluido en el set. Ofrecido modelos entrenados, ejemplos archivos de sonido y herramientas de reconocimiento desde la línea de comando. Para integrar la función de reconocimiento de voz en sus programas, se ofrecen módulos listos para usar para Python, NodeJS, C++ y .NET (los desarrolladores externos han preparado módulos por separado para Herrumbre и Go). El modelo terminado se suministra sólo en inglés, pero para otros idiomas por adjunto instrucciones Puedes entrenar el sistema tú mismo usando datos de voz, recogido por el proyecto Voz Común.

DeepSpeech es mucho más simple que los sistemas tradicionales y al mismo tiempo proporciona un reconocimiento de mayor calidad en presencia de ruidos extraños. Pasa por alto los modelos acústicos tradicionales y el concepto de fonemas, y en su lugar utiliza un sistema de aprendizaje automático basado en redes neuronales altamente optimizado que elimina la necesidad de desarrollar componentes separados para modelar diversas anomalías como el ruido, el eco y las características del habla.

La desventaja de este enfoque es que para obtener un reconocimiento y entrenamiento de alta calidad de una red neuronal, el motor DeepSpeech requiere una gran cantidad de datos heterogéneos, dictados en condiciones reales por diferentes voces y en presencia de ruido natural.
Un proyecto creado en Mozilla recopila dichos datos. Voz común, proporcionando un conjunto de datos verificado con 780 horas de idioma ingles, 325 en alemán, 173 en francés y 27 horas en ruso.

El objetivo final del proyecto Common Voice es acumular 10 mil horas de grabaciones de diversas pronunciaciones de frases típicas del habla humana, lo que permitirá alcanzar un nivel aceptable de errores en el reconocimiento. En su forma actual, los participantes del proyecto ya han dictado un total de 4.3 mil horas, de las cuales 3.5 mil han sido probadas. Al entrenar el modelo final de idioma inglés para DeepSpeech, se utilizaron 3816 horas de habla, además de Common Voice que cubre datos de los proyectos LibriSpeech, Fisher y Switchboard, y también incluye alrededor de 1700 horas de grabaciones transcritas de programas de radio.

Cuando se utiliza el modelo de idioma inglés ya preparado que se ofrece para descargar, la tasa de error de reconocimiento en DeepSpeech es del 7.5% cuando se evalúa con un conjunto de prueba. LibriDiscurso. A modo de comparación, la tasa de error para el reconocimiento humano. estimado en 5.83%.

DeepSpeech consta de dos subsistemas: un modelo acústico y un decodificador. El modelo acústico utiliza métodos profundos de aprendizaje automático para calcular la probabilidad de que ciertos caracteres estén presentes en el sonido de entrada. El decodificador utiliza un algoritmo de búsqueda de rayos para convertir datos de probabilidad de caracteres en una representación de texto.

El principal innovaciones DeepSpeech 0.6 (la rama 0.6 no es compatible con versiones anteriores y requiere actualizaciones de código y modelo):

  • Se propone un nuevo decodificador de streaming que proporciona una mayor capacidad de respuesta y es independiente del tamaño de los datos de audio procesados. Como resultado, la nueva versión de DeepSpeech logró reducir la latencia de reconocimiento a 260 ms, que es un 73% más rápido que antes, y permite utilizar DeepSpeech en soluciones de reconocimiento de voz sobre la marcha.
  • Se han realizado cambios en la API y se ha trabajado para unificar los nombres de las funciones. Se han agregado funciones para obtener metadatos adicionales sobre la sincronización, lo que le permite no solo recibir una representación de texto como salida, sino también rastrear la vinculación de caracteres y oraciones individuales a una posición en la secuencia de audio.
  • Se ha agregado soporte para el uso de la biblioteca al conjunto de herramientas para los módulos de capacitación. CuDNN para optimizar el trabajo con redes neuronales recurrentes (RNN), lo que permitió lograr un aumento significativo (aproximadamente el doble) en el rendimiento del entrenamiento del modelo, pero requirió cambios en el código que violaron la compatibilidad con modelos preparados previamente.
  • Los requisitos mínimos de la versión de TensorFlow se elevaron de 1.13.1 a 1.14.0. Se agregó soporte para la edición liviana de TensorFlow Lite, que reduce el tamaño del paquete DeepSpeech de 98 MB a 3.7 MB. Para su uso en dispositivos integrados y móviles, el tamaño del archivo empaquetado con el modelo también se ha reducido de 188 MB a 47 MB ​​(el método de cuantificación se utiliza para la compresión después de entrenar el modelo).
  • El modelo de lenguaje se ha traducido a un formato de estructura de datos diferente que permite asignar archivos a la memoria cuando se cargan. Se ha interrumpido la compatibilidad con el formato antiguo.
  • Se ha cambiado el modo de cargar un archivo con un modelo de lenguaje, lo que ha reducido el consumo de memoria y los retrasos al procesar la primera solicitud después de crear el modelo. Durante el funcionamiento, DeepSpeech ahora consume 22 veces menos memoria y se inicia 500 veces más rápido.

    Mozilla presentó el motor de reconocimiento de voz DeepSpeech 0.6

  • Se filtraron palabras raras en el modelo de lenguaje. El número total de palabras se redujo a 500 mil de las palabras más populares encontradas en el texto utilizado para entrenar el modelo. La limpieza permitió reducir el tamaño del modelo de lenguaje de 1800 MB a 900 MB, prácticamente sin efecto en la tasa de error de reconocimiento.
  • Se agregó soporte para varios tecnico crear variaciones adicionales (aumento) de los datos de audio utilizados en el entrenamiento (por ejemplo, agregar distorsión o ruido a un conjunto de opciones).
  • Se agregó una biblioteca con enlaces para la integración con aplicaciones basadas en la plataforma .NET.
  • La documentación ha sido reelaborada y ahora está recopilada en un sitio web independiente. deepspeech.readthedocs.io.

Fuente: opennet.ru

Añadir un comentario