Nové modely pro rozpoznávání ruské řeči v knihovně Vosk

Vývojáři knihovny Vosk zveřejnili nové modely pro rozpoznávání ruské řeči: server-side vosk-model-ru-0.22 a mobilní Vosk-model-small-ru-0.22. Modely využívají nová data řeči a také novou architekturu neuronové sítě, která umožnila zvýšit přesnost rozpoznávání o 10–20 %. Kód a data jsou distribuovány pod licencí Apache 2.0.

Důležité změny:

  • Nová data shromážděná v hlasových sloupcích výrazně zlepšují rozpoznávání hlasových příkazů vyslovených na dálku.
  • Nové schéma extrakce zvuku výrazně zlepšilo přesnost rozpoznávání pro širokopásmové nahrávky. Současně se také zlepšila přesnost rozpoznávání telefonování.
  • Doplňkový balíček slovníku umožňuje přizpůsobit rozpoznávání složitých technických záznamů.

Pro nejlepší přesnost se doporučuje aktualizovat také verzi Wax na 0.3.32. Také by vás mohly zajímat nové funkce Wax – integrace s Unity, Nativescript, Jigasi. Modely pro rozpoznávání kazašského a ukrajinského jazyka. Serverový model potřebuje ke svému fungování moderní procesor a 8 GB paměti. Mobilní model lze použít v telefonech a RaspberryPi 3+.

Zdroj: opennet.ru

Přidat komentář