Model baru untuk pengenalan ucapan bahasa Rusia di perpustakaan Vosk

Pengembang perpustakaan Vosk telah menerbitkan model baru untuk pengenalan suara Rusia: server vosk-model-ru-0.22 dan ponsel Vosk-model-small-ru-0.22. Model tersebut menggunakan data ucapan baru, serta arsitektur jaringan saraf baru, yang telah meningkatkan akurasi pengenalan sebesar 10-20%. Kode dan data didistribusikan di bawah lisensi Apache 2.0.

Perubahan penting:

  • Data baru yang dikumpulkan di speaker suara secara signifikan meningkatkan pengenalan perintah ucapan yang diucapkan dari jarak jauh.
  • Skema ekstraksi audio baru telah meningkatkan akurasi pengenalan secara signifikan untuk rekaman pita lebar. Pada saat yang sama, keakuratan pengenalan telepon juga meningkat.
  • Paket ekstensi kamus memungkinkan Anda menyesuaikan pengenalan catatan teknis yang kompleks.

Untuk akurasi terbaik, disarankan untuk memperbarui versi Wax ke 0.3.32. Anda mungkin juga tertarik dengan fitur baru Vosk - integrasi dengan Unity, Nativescript, Jigasi. Model untuk mengenali bahasa Kazakh dan Ukraina. Model server memerlukan prosesor modern dan memori 8 GB untuk beroperasi. Model seluler dapat digunakan di ponsel dan RaspberryPi 3+.

Sumber: opennet.ru

Tambah komentar