Udviklerne af Vosk-biblioteket har udgivet nye modeller til russisk talegenkendelse: server-side vosk-model-ru-0.22 og mobile Vosk-model-small-ru-0.22. Modellerne bruger nye taledata, samt en ny neural netværksarkitektur, som gjorde det muligt at øge genkendelsesnøjagtigheden med 10-20%. Koden og dataene distribueres under Apache 2.0-licensen.
Vigtige ændringer:
- De nye data indsamlet i stemmekolonnerne forbedrer væsentligt genkendelsen af talekommandoer, der tales på afstand.
- Den nye lydudvindingsordning har forbedret genkendelsesnøjagtigheden væsentligt for bredbåndsoptagelser. Samtidig er nøjagtigheden af telefonigenkendelse også blevet forbedret.
- Ordbogstillægspakken giver dig mulighed for at tilpasse genkendelsen af komplekse tekniske poster.
For den bedste nøjagtighed anbefales det også at opdatere Wax-versionen til 0.3.32. Du kan også være interesseret i de nye Wax-funktioner - integration med Unity, Nativescript, Jigasi. Modeller til anerkendelse af kasakhiske og ukrainske sprog. Servermodellen har brug for en moderne processor og 8 GB hukommelse for at fungere. Mobilmodellen kan bruges i telefoner og RaspberryPi 3+.
Kilde: opennet.ru