Nye modeller til russisk talegenkendelse i Vosk-biblioteket

Udviklerne af Vosk-biblioteket har udgivet nye modeller til russisk talegenkendelse: server-side vosk-model-ru-0.22 og mobile Vosk-model-small-ru-0.22. Modellerne bruger nye taledata, samt en ny neural netværksarkitektur, som gjorde det muligt at øge genkendelsesnøjagtigheden med 10-20%. Koden og dataene distribueres under Apache 2.0-licensen.

Vigtige ændringer:

  • De nye data indsamlet i stemmekolonnerne forbedrer væsentligt genkendelsen af ​​talekommandoer, der tales på afstand.
  • Den nye lydudvindingsordning har forbedret genkendelsesnøjagtigheden væsentligt for bredbåndsoptagelser. Samtidig er nøjagtigheden af ​​telefonigenkendelse også blevet forbedret.
  • Ordbogstillægspakken giver dig mulighed for at tilpasse genkendelsen af ​​komplekse tekniske poster.

For den bedste nøjagtighed anbefales det også at opdatere Wax-versionen til 0.3.32. Du kan også være interesseret i de nye Wax-funktioner - integration med Unity, Nativescript, Jigasi. Modeller til anerkendelse af kasakhiske og ukrainske sprog. Servermodellen har brug for en moderne processor og 8 GB hukommelse for at fungere. Mobilmodellen kan bruges i telefoner og RaspberryPi 3+.

Kilde: opennet.ru

Tilføj en kommentar