Novos modelos para o recoñecemento da fala rusa na biblioteca Vosk

Os desenvolvedores da biblioteca Vosk publicaron novos modelos para o recoñecemento de voz en ruso: servidor vosk-model-ru-0.22 e Vosk-model-small-ru-0.22 para móbiles. Os modelos usan novos datos de voz, así como unha nova arquitectura de rede neuronal, que aumentou a precisión do recoñecemento nun 10-20%. O código e os datos distribúense baixo a licenza Apache 2.0.

Cambios importantes:

  • Os novos datos recollidos nos altofalantes de voz melloran significativamente o recoñecemento dos comandos de voz pronunciados desde a distancia.
  • O novo esquema de extracción de audio mellorou significativamente a precisión do recoñecemento para as gravacións de banda ancha. Ao mesmo tempo, tamén mellorou a precisión do recoñecemento de telefonía.
  • O paquete de extensións de dicionario permítelle personalizar o recoñecemento de rexistros técnicos complexos.

Para obter a mellor precisión, recoméndase actualizar a versión de Wax á 0.3.32. Tamén pode estar interesado nas novas funcións de Vosk: integración con Unity, Nativescript, Jigasi. Modelos para o recoñecemento das linguas kazakh e ucraína. O modelo de servidor require un procesador moderno e 8 GB de memoria para funcionar. O modelo móbil pódese usar en teléfonos e RaspberryPi 3+.

Fonte: opennet.ru

Engadir un comentario