Mozilla presenta o motor de recoñecemento de voz DeepSpeech 0.6

Presentado liberación do motor de recoñecemento de voz desenvolvido por Mozilla DeepSpeech 0.6, que implementa a arquitectura de recoñecemento de voz do mesmo nome, proposto por investigadores de Baidu. A implementación está escrita en Python usando a plataforma de aprendizaxe automática TensorFlow e distribuído por baixo a licenza gratuíta MPL 2.0. Admite o traballo en Linux, Android, macOS e Windows. O rendemento é suficiente para usar o motor en placas LePotato, Raspberry Pi 3 e Raspberry Pi 4.

Tamén incluído no conxunto ofrecido modelos adestrados, exemplos ficheiros de son e ferramentas de recoñecemento desde a liña de comandos. Para integrar a función de recoñecemento de voz nos seus programas, ofrécense módulos listos para usar para Python, NodeJS, C++ e .NET (os desenvolvedores de terceiros prepararon módulos por separado para Ferrugem и Go). O modelo acabado ofrécese só para inglés, pero para outros idiomas por conectada instrucións podes adestrar o sistema usando datos de voz, recollido polo proxecto Common Voice.

DeepSpeech é moito máis sinxelo que os sistemas tradicionais e, ao mesmo tempo, proporciona un recoñecemento de maior calidade en presenza de ruídos estraños. Evita os modelos acústicos tradicionais e o concepto de fonemas, en lugar de utilizar un sistema de aprendizaxe automática baseado en redes neuronais altamente optimizado que elimina a necesidade de desenvolver compoñentes separados para modelar varias anomalías como o ruído, o eco e as funcións de fala.

A desvantaxe deste enfoque é que para obter un recoñecemento e un adestramento de alta calidade dunha rede neuronal, o motor DeepSpeech require unha gran cantidade de datos heteroxéneos, ditados en condicións reais por diferentes voces e en presenza de ruído natural.
Un proxecto creado en Mozilla recolle tales datos. voz común, proporcionando un conxunto de datos verificado con 780 horas de Idioma inglés, 325 en alemán, 173 en francés e 27 horas en ruso.

O obxectivo final do proxecto Common Voice é acumular 10 mil horas de gravacións de diversas pronuncias de frases típicas da fala humana, o que permitirá acadar un nivel aceptable de erros no recoñecemento. Na súa forma actual, os participantes no proxecto xa ditaron un total de 4.3 mil horas, das cales 3.5 mil foron probadas. Ao adestrar o modelo final de lingua inglesa para DeepSpeech, utilizáronse 3816 horas de fala, ademais de Common Voice que cubriu os datos dos proxectos LibriSpeech, Fisher e Switchboard, e tamén incluíu unhas 1700 horas de gravacións de programas de radio transcritos.

Cando se utiliza o modelo de inglés listo para descargar, a taxa de erro de recoñecemento en DeepSpeech é do 7.5 % cando se avalía cun conxunto de probas. LibriSpeech. Para comparación, a taxa de erro para o recoñecemento humano estimado nun 5.83%.

DeepSpeech consta de dous subsistemas: un modelo acústico e un decodificador. O modelo acústico usa métodos profundos de aprendizaxe automática para calcular a probabilidade de que determinados caracteres estean presentes no son de entrada. O decodificador usa un algoritmo de busca de raios para converter os datos de probabilidade de caracteres nunha representación de texto.

O principal innovacións DeepSpeech 0.6 (a rama 0.6 non é compatible con versións anteriores e require actualizacións de código e modelo):

  • Proponse un novo descodificador de transmisión que proporciona unha maior capacidade de resposta e é independente do tamaño dos datos de audio procesados. Como resultado, a nova versión de DeepSpeech conseguiu reducir a latencia de recoñecemento a 260 ms, o que é un 73 % máis rápido que antes, e permite que DeepSpeech se utilice en solucións de recoñecemento de voz sobre a marcha.
  • Realizáronse cambios na API e traballouse para unificar os nomes das funcións. Engadíronse funcións para obter metadatos adicionais sobre a sincronización, o que lle permite non só recibir unha representación de texto como saída, senón tamén rastrexar a vinculación de caracteres e frases individuais a unha posición do fluxo de audio.
  • Engadiuse soporte para o uso da biblioteca ao conxunto de ferramentas para módulos de formación CuDNN optimizar o traballo con redes neuronais recorrentes (RNN), o que permitiu conseguir un aumento significativo (aproximadamente o dobre) no rendemento do adestramento do modelo, pero requiriu cambios no código que violaban a compatibilidade cos modelos preparados previamente.
  • Os requisitos mínimos da versión de TensorFlow eleváronse de 1.13.1 a 1.14.0. Engadiuse compatibilidade coa edición lixeira de TensorFlow Lite, que reduce o tamaño do paquete DeepSpeech de 98 MB a 3.7 MB. Para o seu uso en dispositivos móbiles e integrados, o tamaño do ficheiro empaquetado co modelo tamén se reduciu de 188 MB a 47 MB ​​(o método de cuantificación úsase para a compresión despois de adestrar o modelo).
  • O modelo de linguaxe traduciuse a un formato de estrutura de datos diferente que permite mapear ficheiros na memoria cando se cargan. O soporte para o formato antigo foi descontinuado.
  • Cambiouse o modo de carga dun ficheiro cun modelo de linguaxe, o que permitiu reducir o consumo de memoria e reducir os atrasos ao procesar a primeira solicitude despois de crear o modelo. Durante o funcionamento, DeepSpeech consume 22 veces menos memoria e comeza 500 veces máis rápido.

    Mozilla presenta o motor de recoñecemento de voz DeepSpeech 0.6

  • Filtráronse as palabras raras no modelo lingüístico. O número total de palabras reduciuse a 500 mil das palabras máis populares atopadas no texto utilizado para adestrar o modelo. A limpeza permitiu reducir o tamaño do modelo de idioma de 1800 MB a 900 MB, sen que practicamente afecte a taxa de erro de recoñecemento.
  • Engadido soporte para varios técnico creando variacións adicionais (aumento) dos datos de audio utilizados no adestramento (por exemplo, engadindo distorsión ou ruído a un conxunto de opcións).
  • Engadida unha biblioteca con enlaces para a integración con aplicacións baseadas na plataforma .NET.
  • A documentación foi reelaborada e agora está recollida nun sitio web separado. deepspeech.readthedocs.io.

Fonte: opennet.ru

Engadir un comentario