Új modellek az orosz beszédfelismeréshez a Vosk könyvtárban

A Vosk könyvtár fejlesztői új modelleket tettek közzé az orosz beszédfelismeréshez: a vosk-model-ru-0.22 szerver és a mobil Vosk-model-small-ru-0.22. A modellek új beszédadatokat, valamint új neurális hálózati architektúrát használnak, amely 10-20%-kal növelte a felismerési pontosságot. A kód és az adatok az Apache 2.0 licenc alatt kerülnek terjesztésre.

Fontos változások:

  • A hangszórókban gyűjtött új adatok jelentősen javítják a távolról kimondott beszédparancsok felismerését.
  • Az új hangkivonási séma jelentősen javította a szélessávú felvételek felismerési pontosságát. Ezzel párhuzamosan a telefonfelismerés pontossága is javult.
  • A szótárbővítő csomag lehetővé teszi az összetett technikai rekordok felismerésének testreszabását.

A legjobb pontosság érdekében javasoljuk a Wax verzió frissítését 0.3.32-re. Érdekelhetik a Vosk új funkciói is – a Unity, Nativescript, Jigasi integráció. Modellek a kazah és ukrán nyelvek felismerésére. A szervermodell működéséhez modern processzorra és 8 GB memóriára van szükség. A mobil modell telefonokban és RaspberryPi 3+-ban is használható.

Forrás: opennet.ru

Hozzászólás