Nuevos modelos para el reconocimiento de voz en ruso en la biblioteca Vosk

Los desarrolladores de la biblioteca Vosk han publicado nuevos modelos para el reconocimiento de voz en ruso: vosk-model-ru-0.22 del lado del servidor y Vosk-model-small-ru-0.22 móvil. Los modelos utilizan nuevos datos de voz, así como una nueva arquitectura de red neuronal, lo que hizo posible aumentar la precisión del reconocimiento en un 10-20 %. El código y los datos se distribuyen bajo la licencia Apache 2.0.

Cambios importantes:

  • Los nuevos datos recopilados en las columnas de voz mejoran significativamente el reconocimiento de los comandos de voz pronunciados a distancia.
  • El nuevo esquema de extracción de sonido ha mejorado significativamente la precisión del reconocimiento para grabaciones de banda ancha. Al mismo tiempo, también ha mejorado la precisión del reconocimiento telefónico.
  • El paquete adicional de diccionario le permite personalizar el reconocimiento de entradas técnicas complejas.

Para una mayor precisión, se recomienda actualizar también la versión de Wax a 0.3.32. También puede estar interesado en las nuevas funciones de Wax: integración con Unity, Nativescript, Jigasi. Modelos para el reconocimiento de los idiomas kazajo y ucraniano. El modelo de servidor necesita un procesador moderno y 8 GB de memoria para funcionar. El modelo móvil se puede utilizar en teléfonos y RaspberryPi 3+.

Fuente: opennet.ru

Añadir un comentario