Dezvoltatorii bibliotecii Vosk au publicat noi modele pentru recunoașterea vorbirii rusești: server vosk-model-ru-0.22 și mobil Vosk-model-small-ru-0.22. Modelele folosesc date noi de vorbire, precum și o nouă arhitectură de rețea neuronală, care a crescut acuratețea recunoașterii cu 10-20%. Codul și datele sunt distribuite sub licența Apache 2.0.
Modificări importante:
- Noile date colectate în difuzoarele vocale îmbunătățesc semnificativ recunoașterea comenzilor vocale rostite de la distanță.
- Noua schemă de extracție audio a îmbunătățit semnificativ acuratețea recunoașterii pentru înregistrările în bandă largă. În același timp, s-a îmbunătățit și precizia recunoașterii telefoniei.
- Pachetul de extensie a dicționarului vă permite să personalizați recunoașterea înregistrărilor tehnice complexe.
Pentru cea mai bună acuratețe, se recomandă să actualizați versiunea Wax la 0.3.32. S-ar putea să fiți interesat și de noile caracteristici ale Vosk - integrarea cu Unity, Nativescript, Jigasi. Modele pentru recunoașterea limbilor kazah și ucraineană. Modelul de server necesită un procesor modern și 8 GB de memorie pentru a funcționa. Modelul mobil poate fi folosit în telefoane și RaspberryPi 3+.
Sursa: opennet.ru