Mozilla apresentou o mecanismo de reconhecimento de fala DeepSpeech 0.6

Introduzido lançamento do mecanismo de reconhecimento de fala desenvolvido pela Mozilla Fala Profunda 0.6, que implementa a arquitetura de reconhecimento de fala de mesmo nome, proposto por pesquisadores do Baidu. A implementação é escrita em Python usando a plataforma de aprendizado de máquina TensorFlow e distribuído por sob a licença gratuita MPL 2.0. Suporta trabalho em Linux, Android, macOS e Windows. O desempenho é suficiente para usar o motor nas placas LePotato, Raspberry Pi 3 e Raspberry Pi 4.

Também incluído no conjunto são oferecidos modelos treinados, exemplos arquivos de som e ferramentas de reconhecimento na linha de comando. Para integrar a função de reconhecimento de fala em seus programas, são oferecidos módulos prontos para uso para Python, NodeJS, C++ e .NET (desenvolvedores terceirizados prepararam módulos separadamente para Ferrugem и Go). O modelo finalizado é fornecido apenas para inglês, mas para outros idiomas por apegado instruções você mesmo pode treinar o sistema usando dados de voz, coletado pelo projeto Common Voice.

O DeepSpeech é muito mais simples que os sistemas tradicionais e ao mesmo tempo oferece reconhecimento de maior qualidade na presença de ruídos estranhos. Ele ignora os modelos acústicos tradicionais e o conceito de fonemas, em vez disso, usa um sistema de aprendizado de máquina baseado em rede neural altamente otimizado que elimina a necessidade de desenvolver componentes separados para modelar várias anomalias, como ruído, eco e recursos de fala.

A desvantagem desta abordagem é que, para obter reconhecimento e treinamento de alta qualidade de uma rede neural, o mecanismo DeepSpeech requer uma grande quantidade de dados heterogêneos, ditados em condições reais por diferentes vozes e na presença de ruído natural.
Um projeto criado no Mozilla coleta esses dados. Voz comum, fornecendo um conjunto de dados verificado com 780 horas de Inglês, 325 em alemão, 173 em francês e 27 horas em russo.

O objetivo final do projeto Common Voice é acumular 10 mil horas de gravações de diversas pronúncias de frases típicas da fala humana, o que permitirá atingir um nível aceitável de erros de reconhecimento. Na sua forma atual, os participantes do projeto já ditaram um total de 4.3 mil horas, das quais 3.5 mil foram testadas. No treinamento do modelo final de língua inglesa para DeepSpeech, foram utilizadas 3816 horas de fala, além do Common Voice abrangendo dados dos projetos LibriSpeech, Fisher e Switchboard, e incluindo também cerca de 1700 horas de gravações transcritas de programas de rádio.

Ao usar o modelo pronto em inglês oferecido para download, a taxa de erro de reconhecimento no DeepSpeech é de 7.5% quando avaliada com um conjunto de teste LibriSpeech. Para efeito de comparação, a taxa de erro para reconhecimento humano estimado em 5.83%.

DeepSpeech consiste em dois subsistemas - um modelo acústico e um decodificador. O modelo acústico usa métodos profundos de aprendizado de máquina para calcular a probabilidade de certos caracteres estarem presentes no som de entrada. O decodificador usa um algoritmo de busca de raios para converter dados de probabilidade de caracteres em uma representação de texto.

O principal inovações DeepSpeech 0.6 (ramificação 0.6 não é compatível com versões anteriores e requer atualizações de código e modelo):

  • É proposto um novo decodificador de streaming que fornece maior capacidade de resposta e é independente do tamanho dos dados de áudio processados. Como resultado, a nova versão do DeepSpeech conseguiu reduzir a latência de reconhecimento para 260 ms, que é 73% mais rápida do que antes, e permite que o DeepSpeech seja usado em soluções de reconhecimento de voz em tempo real.
  • Foram feitas alterações na API e foi feito trabalho para unificar os nomes das funções. Funções foram adicionadas para obter metadados adicionais sobre sincronização, permitindo não apenas receber uma representação de texto como saída, mas também rastrear a ligação de caracteres e frases individuais a uma posição no fluxo de áudio.
  • O suporte para uso da biblioteca foi adicionado ao kit de ferramentas para módulos de treinamento CuDNN otimizar o trabalho com redes neurais recorrentes (RNN), o que possibilitou um aumento significativo (aproximadamente o dobro) no desempenho do treinamento de modelos, mas exigiu alterações no código que violavam a compatibilidade com modelos previamente preparados.
  • Os requisitos mínimos da versão do TensorFlow foram aumentados de 1.13.1 para 1.14.0. Adicionado suporte para a edição leve do TensorFlow Lite, que reduz o tamanho do pacote DeepSpeech de 98 MB para 3.7 MB. Para uso em dispositivos embarcados e móveis, o tamanho do arquivo compactado com o modelo também foi reduzido de 188 MB para 47 MB ​​​​(o método de quantização é usado para compactação após o treinamento do modelo).
  • O modelo de linguagem foi traduzido para um formato de estrutura de dados diferente que permite que os arquivos sejam mapeados na memória quando carregados. O suporte para o formato antigo foi descontinuado.
  • Foi alterado o modo de carregamento de um arquivo com modelo de linguagem, o que reduziu o consumo de memória e reduziu atrasos no processamento da primeira solicitação após a criação do modelo. Durante a operação, o DeepSpeech agora consome 22 vezes menos memória e inicia 500 vezes mais rápido.

    Mozilla apresentou o mecanismo de reconhecimento de fala DeepSpeech 0.6

  • Palavras raras foram filtradas no modelo de linguagem. O número total de palavras foi reduzido para 500 mil das palavras mais populares encontradas no texto utilizado para treinar o modelo. A limpeza permitiu reduzir o tamanho do modelo de linguagem de 1800 MB para 900 MB, praticamente sem efeito na taxa de erros de reconhecimento.
  • Adicionado suporte para vários técnico criar variações adicionais (aumento) dos dados de áudio usados ​​no treinamento (por exemplo, adicionar distorção ou ruído a um conjunto de opções).
  • Adicionada biblioteca com vinculações para integração com aplicações baseadas na plataforma .NET.
  • A documentação foi reformulada e agora está coletada em um site separado. deepspeech.readthedocs.io.

Fonte: opennet.ru

Adicionar um comentário