Model anyar pikeun pangakuan ucapan Rusia di perpustakaan Vosk

Pamekar perpustakaan Vosk geus diterbitkeun model anyar pikeun pangakuan ucapan Rusia: server vosk-model-ru-0.22 jeung mobile Vosk-model-small-ru-0.22. Model ngagunakeun data ucapan anyar, kitu ogé arsitektur jaringan neural anyar, nu geus ngaronjat akurasi pangakuan ku 10-20%. Kode sareng data disebarkeun dina lisénsi Apache 2.0.

Parobahan penting:

  • Data anyar dikumpulkeun dina speaker sora nyata ngaronjatkeun pangakuan paréntah ucapan diucapkeun ti kajauhan.
  • Skéma ékstraksi audio anyar parantos ningkat sacara signifikan akurasi pangakuan pikeun rekaman pita lebar. Dina waktos anu sami, akurasi pangenalan teleponi ogé parantos ningkat.
  • Paket ekstensi kamus ngamungkinkeun anjeun pikeun ngaluyukeun pangakuan rékaman téknis anu rumit.

Pikeun akurasi pangalusna, disarankeun pikeun ngapdet versi Wax ka 0.3.32. Anjeun ogé tiasa resep kana fitur anyar Vosk - integrasi sareng Unity, Nativescript, Jigasi. Model pikeun mikawanoh basa Kazakh sareng Ukrania. Model server merlukeun prosésor modern jeung 8GB memori pikeun beroperasi. Modél sélulér tiasa dianggo dina telepon sareng RaspberryPi 3+.

sumber: opennet.ru

Tambahkeun komentar