„Vosk“ bibliotekos kūrėjai paskelbė naujus rusų kalbos atpažinimo modelius: serveris „vosk-model-ru-0.22“ ir mobilusis „Vosk-model-small-ru-0.22“. Modeliuose naudojami nauji kalbos duomenys, taip pat nauja neuroninio tinklo architektūra, kuri padidino atpažinimo tikslumą 10-20%. Kodas ir duomenys platinami pagal Apache 2.0 licenciją.
Svarbūs pakeitimai:
- Nauji balso garsiakalbiuose surinkti duomenys žymiai pagerina per atstumą tariamų kalbos komandų atpažinimą.
- Naujoji garso ištraukimo schema žymiai pagerino plačiajuosčio ryšio įrašų atpažinimo tikslumą. Kartu pagerėjo ir telefonijos atpažinimo tikslumas.
- Žodyno plėtinio paketas leidžia tinkinti sudėtingų techninių įrašų atpažinimą.
Siekiant geriausio tikslumo, rekomenduojama atnaujinti Wax versiją į 0.3.32. Galbūt jus taip pat domina naujos „Vosk“ funkcijos – integracija su „Unity“, „Nativescript“, „Jigasi“. Kazachų ir ukrainiečių kalbų atpažinimo modeliai. Serverio modeliui veikti reikalingas modernus procesorius ir 8 GB atminties. Mobilusis modelis gali būti naudojamas telefonuose ir RaspberryPi 3+.
Šaltinis: opennet.ru