Mga bagong modelo para sa Russian speech recognition sa Vosk library

Ang mga developer ng Vosk library ay nag-publish ng mga bagong modelo para sa Russian speech recognition: server vosk-model-ru-0.22 at mobile Vosk-model-small-ru-0.22. Gumagamit ang mga modelo ng bagong data ng pagsasalita, pati na rin ang isang bagong arkitektura ng neural network, na nagpapataas ng katumpakan ng pagkilala ng 10-20%. Ang code at data ay ipinamamahagi sa ilalim ng lisensya ng Apache 2.0.

Mahahalagang pagbabago:

  • Ang bagong data na nakolekta sa mga voice speaker ay makabuluhang nagpapabuti sa pagkilala sa mga utos ng pagsasalita na sinasalita mula sa malayo.
  • Ang bagong pamamaraan ng pagkuha ng audio ay makabuluhang pinahusay ang katumpakan ng pagkilala para sa mga pag-record ng wideband. Kasabay nito, napabuti din ang katumpakan ng pagkilala sa telepono.
  • Binibigyang-daan ka ng package ng extension ng diksyunaryo na i-customize ang pagkilala sa mga kumplikadong teknikal na talaan.

Para sa pinakamahusay na katumpakan, inirerekomendang i-update ang bersyon ng Wax sa 0.3.32. Maaari ka ring maging interesado sa mga bagong tampok ng Vosk - pagsasama sa Unity, Nativescript, Jigasi. Mga modelo para sa pagkilala sa mga wikang Kazakh at Ukrainian. Ang modelo ng server ay nangangailangan ng modernong processor at 8GB ng memorya upang gumana. Ang mobile na modelo ay maaaring gamitin sa mga telepono at RaspberryPi 3+.

Pinagmulan: opennet.ru

Magdagdag ng komento