Vosk లైబ్రరీలో రష్యన్ ప్రసంగ గుర్తింపు కోసం కొత్త నమూనాలు

Vosk లైబ్రరీ యొక్క డెవలపర్లు రష్యన్ ప్రసంగ గుర్తింపు కోసం కొత్త నమూనాలను ప్రచురించారు: సర్వర్ vosk-model-ru-0.22 మరియు మొబైల్ Vosk-model-small-ru-0.22. మోడల్‌లు కొత్త స్పీచ్ డేటాను అలాగే కొత్త న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్‌ను ఉపయోగిస్తాయి, ఇది గుర్తింపు ఖచ్చితత్వాన్ని 10-20% పెంచింది. కోడ్ మరియు డేటా Apache 2.0 లైసెన్స్ క్రింద పంపిణీ చేయబడతాయి.

ముఖ్యమైన మార్పులు:

  • వాయిస్ స్పీకర్లలో సేకరించిన కొత్త డేటా దూరం నుండి మాట్లాడే స్పీచ్ కమాండ్‌ల గుర్తింపును గణనీయంగా మెరుగుపరుస్తుంది.
  • కొత్త ఆడియో వెలికితీత పథకం వైడ్‌బ్యాండ్ రికార్డింగ్‌ల కోసం గుర్తింపు ఖచ్చితత్వాన్ని గణనీయంగా మెరుగుపరిచింది. అదే సమయంలో, టెలిఫోనీ గుర్తింపు యొక్క ఖచ్చితత్వం కూడా మెరుగుపడింది.
  • డిక్షనరీ పొడిగింపు ప్యాకేజీ సంక్లిష్ట సాంకేతిక రికార్డుల గుర్తింపును అనుకూలీకరించడానికి మిమ్మల్ని అనుమతిస్తుంది.

ఉత్తమ ఖచ్చితత్వం కోసం, వాక్స్ వెర్షన్‌ను 0.3.32కి అప్‌డేట్ చేయాలని సిఫార్సు చేయబడింది. మీరు Vosk యొక్క కొత్త ఫీచర్లపై కూడా ఆసక్తి కలిగి ఉండవచ్చు - యూనిటీ, నేటివ్‌స్క్రిప్ట్, జిగాసితో ఏకీకరణ. కజఖ్ మరియు ఉక్రేనియన్ భాషలను గుర్తించే నమూనాలు. సర్వర్ మోడల్ ఆపరేట్ చేయడానికి ఆధునిక ప్రాసెసర్ మరియు 8GB మెమరీ అవసరం. మొబైల్ మోడల్‌ను ఫోన్‌లు మరియు RaspberryPi 3+లో ఉపయోగించవచ్చు.

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి