Nuovi modelli per il riconoscimento vocale russo nella libreria Vosk

Gli sviluppatori della libreria Vosk hanno pubblicato nuovi modelli per il riconoscimento vocale russo: server vosk-model-ru-0.22 e mobile Vosk-model-small-ru-0.22. I modelli utilizzano nuovi dati vocali, nonché una nuova architettura di rete neurale, che ha aumentato la precisione del riconoscimento del 10-20%. Il codice e i dati sono distribuiti sotto la licenza Apache 2.0.

Cambiamenti importanti:

  • I nuovi dati raccolti negli altoparlanti migliorano significativamente il riconoscimento dei comandi vocali pronunciati a distanza.
  • Il nuovo schema di estrazione audio ha migliorato significativamente la precisione del riconoscimento per le registrazioni a banda larga. Allo stesso tempo è migliorata anche la precisione del riconoscimento telefonico.
  • Il pacchetto di estensione del dizionario consente di personalizzare il riconoscimento di record tecnici complessi.

Per la massima precisione, si consiglia di aggiornare la versione Wax alla 0.3.32. Potresti anche essere interessato alle nuove funzionalità di Vosk: integrazione con Unity, Nativescript, Jigasi. Modelli per il riconoscimento delle lingue kazaka e ucraina. Il modello server richiede un processore moderno e 8 GB di memoria per funzionare. Il modello mobile può essere utilizzato nei telefoni e nel RaspberryPi 3+.

Fonte: opennet.ru

Aggiungi un commento