Pengembang perpustakaan Vosk telah menerbitkan model baru untuk pengenalan suara Rusia: server vosk-model-ru-0.22 dan ponsel Vosk-model-small-ru-0.22. Model tersebut menggunakan data ucapan baru, serta arsitektur jaringan saraf baru, yang telah meningkatkan akurasi pengenalan sebesar 10-20%. Kode dan data didistribusikan di bawah lisensi Apache 2.0.
Perubahan penting:
- Data baru yang dikumpulkan di speaker suara secara signifikan meningkatkan pengenalan perintah ucapan yang diucapkan dari jarak jauh.
- Skema ekstraksi audio baru telah meningkatkan akurasi pengenalan secara signifikan untuk rekaman pita lebar. Pada saat yang sama, keakuratan pengenalan telepon juga meningkat.
- Paket ekstensi kamus memungkinkan Anda menyesuaikan pengenalan catatan teknis yang kompleks.
Untuk akurasi terbaik, disarankan untuk memperbarui versi Wax ke 0.3.32. Anda mungkin juga tertarik dengan fitur baru Vosk - integrasi dengan Unity, Nativescript, Jigasi. Model untuk mengenali bahasa Kazakh dan Ukraina. Model server memerlukan prosesor modern dan memori 8 GB untuk beroperasi. Model seluler dapat digunakan di ponsel dan RaspberryPi 3+.
Sumber: opennet.ru