Nouveaux modèles de reconnaissance vocale russe dans la bibliothèque Vosk

Les développeurs de la bibliothèque Vosk ont ​​publié de nouveaux modèles pour la reconnaissance vocale russe : serveur vosk-model-ru-0.22 et mobile Vosk-model-small-ru-0.22. Les modèles utilisent de nouvelles données vocales, ainsi qu'une nouvelle architecture de réseau neuronal, qui a augmenté la précision de la reconnaissance de 10 à 20 %. Le code et les données sont distribués sous la licence Apache 2.0.

Changements importants :

  • Les nouvelles données collectées dans les haut-parleurs améliorent considérablement la reconnaissance des commandes vocales prononcées à distance.
  • Le nouveau système d'extraction audio a considérablement amélioré la précision de la reconnaissance pour les enregistrements à large bande. Dans le même temps, la précision de la reconnaissance téléphonique s’est également améliorée.
  • Le package d'extension de dictionnaire vous permet de personnaliser la reconnaissance d'enregistrements techniques complexes.

Pour une meilleure précision, il est recommandé de mettre à jour la version Wax vers la version 0.3.32. Vous pourriez également être intéressé par les nouvelles fonctionnalités de Vosk - intégration avec Unity, Nativescript, Jigasi. Modèles de reconnaissance des langues kazakhe et ukrainienne. Le modèle serveur nécessite un processeur moderne et 8 Go de mémoire pour fonctionner. Le modèle mobile peut être utilisé dans les téléphones et RaspberryPi 3+.

Source: opennet.ru

Ajouter un commentaire