Os desenvolvedores da biblioteca Vosk publicaram novos modelos para reconhecimento de fala russa: servidor vosk-model-ru-0.22 e móvel Vosk-model-small-ru-0.22. Os modelos usam novos dados de fala, bem como uma nova arquitetura de rede neural, que aumentou a precisão do reconhecimento em 10 a 20%. O código e os dados são distribuídos sob a licença Apache 2.0.
Mudanças importantes:
- Novos dados coletados em alto-falantes melhoram significativamente o reconhecimento de comandos de fala falados à distância.
- O novo esquema de extração de áudio melhorou significativamente a precisão do reconhecimento para gravações em banda larga. Ao mesmo tempo, a precisão do reconhecimento telefônico também melhorou.
- O pacote de extensão de dicionário permite personalizar o reconhecimento de registros técnicos complexos.
Para melhor precisão, é recomendado atualizar a versão Wax para 0.3.32. Você também pode estar interessado nos novos recursos do Vosk - integração com Unity, Nativescript, Jigasi. Modelos para reconhecimento das línguas cazaque e ucraniana. O modelo de servidor requer um processador moderno e 8 GB de memória para funcionar. O modelo móvel pode ser usado em telefones e RaspberryPi 3+.
Fonte: opennet.ru