Noi modele pentru recunoașterea vorbirii rusești în biblioteca Vosk

Dezvoltatorii bibliotecii Vosk au publicat noi modele pentru recunoașterea vorbirii rusești: server vosk-model-ru-0.22 și mobil Vosk-model-small-ru-0.22. Modelele folosesc date noi de vorbire, precum și o nouă arhitectură de rețea neuronală, care a crescut acuratețea recunoașterii cu 10-20%. Codul și datele sunt distribuite sub licența Apache 2.0.

Modificări importante:

  • Noile date colectate în difuzoarele vocale îmbunătățesc semnificativ recunoașterea comenzilor vocale rostite de la distanță.
  • Noua schemă de extracție audio a îmbunătățit semnificativ acuratețea recunoașterii pentru înregistrările în bandă largă. În același timp, s-a îmbunătățit și precizia recunoașterii telefoniei.
  • Pachetul de extensie a dicționarului vă permite să personalizați recunoașterea înregistrărilor tehnice complexe.

Pentru cea mai bună acuratețe, se recomandă să actualizați versiunea Wax la 0.3.32. S-ar putea să fiți interesat și de noile caracteristici ale Vosk - integrarea cu Unity, Nativescript, Jigasi. Modele pentru recunoașterea limbilor kazah și ucraineană. Modelul de server necesită un procesor modern și 8 GB de memorie pentru a funcționa. Modelul mobil poate fi folosit în telefoane și RaspberryPi 3+.

Sursa: opennet.ru

Adauga un comentariu