Pamekar perpustakaan Vosk geus diterbitkeun model anyar pikeun pangakuan ucapan Rusia: server vosk-model-ru-0.22 jeung mobile Vosk-model-small-ru-0.22. Model ngagunakeun data ucapan anyar, kitu ogé arsitektur jaringan neural anyar, nu geus ngaronjat akurasi pangakuan ku 10-20%. Kode sareng data disebarkeun dina lisénsi Apache 2.0.
Parobahan penting:
- Data anyar dikumpulkeun dina speaker sora nyata ngaronjatkeun pangakuan paréntah ucapan diucapkeun ti kajauhan.
- Skéma ékstraksi audio anyar parantos ningkat sacara signifikan akurasi pangakuan pikeun rekaman pita lebar. Dina waktos anu sami, akurasi pangenalan teleponi ogé parantos ningkat.
- Paket ekstensi kamus ngamungkinkeun anjeun pikeun ngaluyukeun pangakuan rékaman téknis anu rumit.
Pikeun akurasi pangalusna, disarankeun pikeun ngapdet versi Wax ka 0.3.32. Anjeun ogé tiasa resep kana fitur anyar Vosk - integrasi sareng Unity, Nativescript, Jigasi. Model pikeun mikawanoh basa Kazakh sareng Ukrania. Model server merlukeun prosésor modern jeung 8GB memori pikeun beroperasi. Modél sélulér tiasa dianggo dina telepon sareng RaspberryPi 3+.
sumber: opennet.ru