„Vosk“ bibliotekos kūrėjai paskelbė naujus rusų kalbos atpažinimo modelius: serveris „vosk-model-ru-0.22“ ir mobilusis „Vosk-model-small-ru-0.22“. Modeliuose naudojami nauji kalbos duomenys, taip pat nauja neuroninio tinklo architektūra, kuri padidino atpažinimo tikslumą 10-20%. Kodas ir duomenys platinami pagal Apache 2.0 licenciją.
Svarbūs pakeitimai:
- Nauji balso garsiakalbiuose surinkti duomenys žymiai pagerina per atstumą tariamų kalbos komandų atpažinimą.
- Naujoji garso ištraukimo schema žymiai pagerino plačiajuosčio ryšio įrašų atpažinimo tikslumą. Kartu pagerėjo ir telefonijos atpažinimo tikslumas.
- Žodyno plėtinio paketas leidžia tinkinti sudėtingų techninių įrašų atpažinimą.
Siekiant didžiausio tikslumo, rekomenduojama atnaujinti „Vosk“ iki 0.3.32 versijos. Jus taip pat gali sudominti naujos „Vosk“ funkcijos, pvz., integracijos su „Unity“, „NativeScript“ ir „Jigasi“. Modeliai, skirti atpažinti kazachų ir ukrainiečių kalbas. Serverio modeliui reikalingas modernus procesorius ir 8 GB atminties. Mobilųjį modelį galima naudoti telefonuose ir „Raspberry Pi 3+“.
Šaltinis: opennet.ru
