Novos modelos para reconhecimento de fala russa na biblioteca Vosk

Os desenvolvedores da biblioteca Vosk publicaram novos modelos para reconhecimento de fala russa: servidor vosk-model-ru-0.22 e móvel Vosk-model-small-ru-0.22. Os modelos usam novos dados de fala, bem como uma nova arquitetura de rede neural, que aumentou a precisão do reconhecimento em 10 a 20%. O código e os dados são distribuídos sob a licença Apache 2.0.

Mudanças importantes:

  • Novos dados coletados em alto-falantes melhoram significativamente o reconhecimento de comandos de fala falados à distância.
  • O novo esquema de extração de áudio melhorou significativamente a precisão do reconhecimento para gravações em banda larga. Ao mesmo tempo, a precisão do reconhecimento telefônico também melhorou.
  • O pacote de extensão de dicionário permite personalizar o reconhecimento de registros técnicos complexos.

Para melhor precisão, é recomendado atualizar a versão Wax para 0.3.32. Você também pode estar interessado nos novos recursos do Vosk - integração com Unity, Nativescript, Jigasi. Modelos para reconhecimento das línguas cazaque e ucraniana. O modelo de servidor requer um processador moderno e 8 GB de memória para funcionar. O modelo móvel pode ser usado em telefones e RaspberryPi 3+.

Fonte: opennet.ru

Adicionar um comentário