Nous models per al reconeixement de la parla russa a la biblioteca Vosk

Els desenvolupadors de la biblioteca Vosk han publicat nous models per al reconeixement de la parla russa: Vosk-model-ru-0.22 del costat del servidor i Vosk-model-small-ru-0.22 mòbil. Els models utilitzen noves dades de parla, així com una nova arquitectura de xarxa neuronal, que va permetre augmentar la precisió del reconeixement en un 10-20%. El codi i les dades es distribueixen sota la llicència Apache 2.0.

Canvis importants:

  • Les noves dades recollides a les columnes de veu milloren significativament el reconeixement de les ordres de parla pronunciades des de la distància.
  • El nou esquema d'extracció de so ha millorat significativament la precisió de reconeixement per a enregistraments de banda ampla. Al mateix temps, també ha millorat la precisió del reconeixement de la telefonia.
  • El paquet de complements de diccionari us permet personalitzar el reconeixement d'entrades tècniques complexes.

Per obtenir la millor precisió, es recomana actualitzar també la versió de Wax a la 0.3.32. També us poden interessar les noves funcions de Wax: integració amb Unity, Nativescript, Jigasi. Models de reconeixement de les llengües kazakh i ucraïnès. El model de servidor necessita un processador modern i 8 GB de memòria per funcionar. El model mòbil es pot utilitzar en telèfons i RaspberryPi 3+.

Font: opennet.ru

Afegeix comentari