Nya modeller för rysk taligenkänning i Vosk-biblioteket

Utvecklarna av Vosk-biblioteket har publicerat nya modeller för rysk taligenkänning: server vosk-model-ru-0.22 och mobil Vosk-model-small-ru-0.22. Modellerna använder ny taldata, samt en ny neural nätverksarkitektur, som har ökat igenkänningsnoggrannheten med 10-20%. Koden och data distribueras under Apache 2.0-licensen.

Viktiga ändringar:

  • Ny data som samlas in i rösthögtalare förbättrar avsevärt igenkänningen av talkommandon som talas på avstånd.
  • Det nya ljudextraktionsschemat har avsevärt förbättrat igenkänningsnoggrannheten för bredbandsinspelningar. Samtidigt har noggrannheten i telefonigenkänningen också förbättrats.
  • Ordboksförlängningspaketet låter dig anpassa igenkänningen av komplexa tekniska poster.

För bästa noggrannhet rekommenderas att uppdatera Wax-versionen till 0.3.32. Du kanske också är intresserad av de nya funktionerna i Vosk - integration med Unity, Nativescript, Jigasi. Modeller för att känna igen kazakiska och ukrainska språk. Servermodellen kräver en modern processor och 8 GB minne för att fungera. Mobilmodellen kan användas i telefoner och RaspberryPi 3+.

Källa: opennet.ru

Lägg en kommentar