Nye modeller for russisk talegjenkjenning i Vosk-biblioteket

Utviklerne av Vosk-biblioteket har publisert nye modeller for russisk talegjenkjenning: server vosk-model-ru-0.22 og mobil Vosk-model-small-ru-0.22. Modellene bruker nye taledata, samt en ny nevrale nettverksarkitektur, som har økt gjenkjenningsnøyaktigheten med 10-20 %. Koden og dataene distribueres under Apache 2.0-lisensen.

Viktige endringer:

  • Nye data samlet inn i talehøyttalere forbedrer gjenkjenningen av talekommandoer som snakkes på avstand betydelig.
  • Den nye lydutvinningsordningen har forbedret gjenkjenningsnøyaktigheten betydelig for bredbåndsopptak. Samtidig er nøyaktigheten av telefonigjenkjenning også forbedret.
  • Ordbokutvidelsespakken lar deg tilpasse gjenkjennelsen av komplekse tekniske poster.

For best nøyaktighet anbefales det å oppdatere Wax-versjonen til 0.3.32. Du kan også være interessert i de nye funksjonene til Vosk - integrasjon med Unity, Nativescript, Jigasi. Modeller for å gjenkjenne kasakhiske og ukrainske språk. Servermodellen krever en moderne prosessor og 8 GB minne for å fungere. Mobilmodellen kan brukes i telefoner og RaspberryPi 3+.

Kilde: opennet.ru

Legg til en kommentar