Mozilla DeepSpeech 0.6 స్పీచ్ రికగ్నిషన్ ఇంజిన్‌ను ఆవిష్కరించింది

సమర్పించిన వారు మొజిల్లా అభివృద్ధి చేసిన స్పీచ్ రికగ్నిషన్ ఇంజిన్ విడుదల డీప్‌స్పీచ్ 0.6, ఇది అదే పేరుతో స్పీచ్ రికగ్నిషన్ ఆర్కిటెక్చర్‌ను అమలు చేస్తుంది, ప్రతిపాదించారు బైడు నుండి పరిశోధకులచే. TensorFlow మెషిన్ లెర్నింగ్ ప్లాట్‌ఫారమ్‌ని ఉపయోగించి అమలు పైథాన్‌లో వ్రాయబడింది మరియు ద్వారా పంపిణీ చేయబడింది ఉచిత MPL 2.0 లైసెన్స్ క్రింద. Linux, Android, macOS మరియు Windowsలో పని చేయడానికి మద్దతు ఇస్తుంది. LePotato, Raspberry Pi 3 మరియు Raspberry Pi 4 బోర్డులపై ఇంజిన్‌ను ఉపయోగించడానికి పనితీరు సరిపోతుంది.

సెట్‌లో కూడా చేర్చారు ఇచ్చింది శిక్షణ పొందిన నమూనాలు, ఉదాహరణలు కమాండ్ లైన్ నుండి సౌండ్ ఫైల్స్ మరియు రికగ్నిషన్ టూల్స్. మీ ప్రోగ్రామ్‌లలో స్పీచ్ రికగ్నిషన్ ఫంక్షన్‌ని ఇంటిగ్రేట్ చేయడానికి, పైథాన్, నోడ్‌జెఎస్, సి++ మరియు .నెట్ కోసం సిద్ధంగా-ఉపయోగించే మాడ్యూల్స్ అందించబడతాయి (మూడవ పక్ష డెవలపర్‌లు విడిగా మాడ్యూల్‌లను సిద్ధం చేశారు రస్ట్ и Go) పూర్తయిన మోడల్ ఇంగ్లీష్ కోసం మాత్రమే సరఫరా చేయబడుతుంది, కానీ ఇతర భాషల కోసం జోడించబడింది సూచనలను మీరు ఉపయోగించి సిస్టమ్‌కు మీరే శిక్షణ ఇవ్వవచ్చు వాయిస్ డేటా, కామన్ వాయిస్ ప్రాజెక్ట్ ద్వారా సేకరించబడింది.

డీప్‌స్పీచ్ సాంప్రదాయ వ్యవస్థల కంటే చాలా సరళమైనది మరియు అదే సమయంలో అదనపు శబ్దం సమక్షంలో అధిక నాణ్యత గుర్తింపును అందిస్తుంది. ఇది శబ్దం, ప్రతిధ్వని మరియు ప్రసంగ లక్షణాల వంటి వివిధ క్రమరాహిత్యాలను మోడల్ చేయడానికి ప్రత్యేక భాగాలను అభివృద్ధి చేయవలసిన అవసరాన్ని తొలగించే అత్యంత ఆప్టిమైజ్ చేయబడిన న్యూరల్ నెట్‌వర్క్-ఆధారిత మెషీన్ లెర్నింగ్ సిస్టమ్‌ను ఉపయోగించే బదులుగా సాంప్రదాయ ధ్వని నమూనాలు మరియు ఫోన్‌మేస్ భావనను దాటవేస్తుంది.

ఈ విధానం యొక్క ప్రతికూలత ఏమిటంటే, నాడీ నెట్‌వర్క్ యొక్క అధిక-నాణ్యత గుర్తింపు మరియు శిక్షణను పొందడానికి, డీప్‌స్పీచ్ ఇంజిన్‌కు పెద్ద మొత్తంలో భిన్నమైన డేటా అవసరం, వాస్తవ పరిస్థితులలో విభిన్న స్వరాలతో మరియు సహజ శబ్దం సమక్షంలో నిర్దేశించబడుతుంది.
మొజిల్లాలో సృష్టించబడిన ప్రాజెక్ట్ అటువంటి డేటాను సేకరిస్తుంది. సాధారణ స్వరం, 780 గంటలతో ధృవీకరించబడిన డేటాసెట్‌ను అందిస్తోంది ఆంగ్ల భాష, జర్మన్‌లో 325, ఫ్రెంచ్‌లో 173 మరియు రష్యన్‌లో 27 గంటలు.

కామన్ వాయిస్ ప్రాజెక్ట్ యొక్క అంతిమ లక్ష్యం మానవ ప్రసంగం యొక్క సాధారణ పదబంధాల యొక్క వివిధ ఉచ్చారణల యొక్క 10 వేల గంటల రికార్డింగ్‌లను కూడబెట్టడం, ఇది గుర్తింపులో ఆమోదయోగ్యమైన లోపాలను సాధించడానికి అనుమతిస్తుంది. దాని ప్రస్తుత రూపంలో, ప్రాజెక్ట్ పాల్గొనేవారు ఇప్పటికే మొత్తం 4.3 వేల గంటలు నిర్దేశించారు, అందులో 3.5 వేల మంది పరీక్షించబడ్డారు. DeepSpeech కోసం చివరి ఆంగ్ల భాషా నమూనాకు శిక్షణ ఇచ్చేటప్పుడు, LibriSpeech, Fisher మరియు Switchboard ప్రాజెక్ట్‌ల నుండి కామన్ వాయిస్ కవరింగ్ డేటాతో పాటు 3816 గంటల ప్రసంగం ఉపయోగించబడింది మరియు దాదాపు 1700 గంటల లిప్యంతరీకరణ రేడియో షో రికార్డింగ్‌లు కూడా ఉన్నాయి.

డౌన్‌లోడ్ కోసం అందించబడిన రెడీమేడ్ ఇంగ్లీష్ లాంగ్వేజ్ మోడల్‌ను ఉపయోగిస్తున్నప్పుడు, డీప్‌స్పీచ్‌లో రికగ్నిషన్ ఎర్రర్ రేట్ పరీక్ష సెట్‌తో అంచనా వేసినప్పుడు 7.5% ఉంటుంది. లిబ్రిస్పీచ్. పోలిక కోసం, మానవ గుర్తింపు కోసం లోపం రేటు అంచనా వేయబడింది 5.83% వద్ద.

డీప్‌స్పీచ్ రెండు ఉపవ్యవస్థలను కలిగి ఉంటుంది - శబ్ద నమూనా మరియు డీకోడర్. ఇన్‌పుట్ సౌండ్‌లో కొన్ని అక్షరాలు ఉండే సంభావ్యతను గణించడానికి ధ్వని నమూనా లోతైన యంత్ర అభ్యాస పద్ధతులను ఉపయోగిస్తుంది. అక్షర సంభావ్యత డేటాను టెక్స్ట్ ప్రాతినిధ్యంగా మార్చడానికి డీకోడర్ రే శోధన అల్గారిథమ్‌ను ఉపయోగిస్తుంది.

ప్రధాన ఆవిష్కరణలు DeepSpeech 0.6 (0.6 బ్రాంచ్ మునుపటి విడుదలలకు అనుకూలంగా లేదు మరియు కోడ్ మరియు మోడల్ అప్‌డేట్‌లు అవసరం):

  • కొత్త స్ట్రీమింగ్ డీకోడర్ ప్రతిపాదించబడింది, ఇది అధిక ప్రతిస్పందనను అందిస్తుంది మరియు ప్రాసెస్ చేయబడిన ఆడియో డేటా పరిమాణంతో సంబంధం లేకుండా ఉంటుంది. ఫలితంగా, డీప్‌స్పీచ్ యొక్క కొత్త వెర్షన్ గుర్తింపు కోసం జాప్యాన్ని 260 ఎంఎస్‌లకు తగ్గించగలిగింది, ఇది మునుపటి కంటే 73% వేగవంతమైనది మరియు ఫ్లైలో స్పీచ్ రికగ్నిషన్ సొల్యూషన్స్‌లో డీప్‌స్పీచ్‌ని ఉపయోగించడానికి అనుమతిస్తుంది.
  • APIకి మార్పులు చేయబడ్డాయి మరియు ఫంక్షన్ పేర్లను ఏకీకృతం చేయడానికి పని జరిగింది. సమకాలీకరణ గురించి అదనపు మెటాడేటాను పొందేందుకు విధులు జోడించబడ్డాయి, మీరు టెక్స్ట్ ప్రాతినిధ్యాన్ని అవుట్‌పుట్‌గా స్వీకరించడానికి మాత్రమే కాకుండా, ఆడియో స్ట్రీమ్‌లోని స్థానానికి వ్యక్తిగత అక్షరాలు మరియు వాక్యాల బైండింగ్‌ను ట్రాక్ చేయడానికి కూడా అనుమతిస్తుంది.
  • శిక్షణ మాడ్యూల్స్ కోసం టూల్‌కిట్‌కు లైబ్రరీని ఉపయోగించడం కోసం మద్దతు జోడించబడింది CuDNN పునరావృత న్యూరల్ నెట్‌వర్క్‌లతో (RNN) పనిని ఆప్టిమైజ్ చేయడానికి, ఇది మోడల్ శిక్షణ పనితీరులో గణనీయమైన (సుమారు రెండింతలు) పెరుగుదలను సాధించడం సాధ్యం చేసింది, అయితే గతంలో తయారుచేసిన మోడల్‌లతో అనుకూలతను ఉల్లంఘించిన కోడ్‌లో మార్పులు అవసరం.
  • కనీస TensorFlow వెర్షన్ అవసరాలు 1.13.1 నుండి 1.14.0కి పెంచబడ్డాయి. TensorFlow Lite యొక్క తేలికపాటి ఎడిషన్‌కు మద్దతు జోడించబడింది, ఇది DeepSpeech ప్యాకేజీ పరిమాణాన్ని 98 MB నుండి 3.7 MBకి తగ్గిస్తుంది. పొందుపరిచిన మరియు మొబైల్ పరికరాలలో ఉపయోగం కోసం, మోడల్‌తో ప్యాక్ చేయబడిన ఫైల్ పరిమాణం కూడా 188 MB నుండి 47 MBకి తగ్గించబడింది (మోడల్ శిక్షణ పొందిన తర్వాత కంప్రెషన్ కోసం పరిమాణీకరణ పద్ధతి ఉపయోగించబడుతుంది).
  • భాషా నమూనా వేరొక డేటా నిర్మాణ ఆకృతికి అనువదించబడింది, ఇది ఫైల్‌లను లోడ్ చేసినప్పుడు మెమరీలోకి మ్యాప్ చేయడానికి అనుమతిస్తుంది. పాత ఫార్మాట్‌కు మద్దతు నిలిపివేయబడింది.
  • భాషా నమూనాతో ఫైల్‌ను లోడ్ చేసే మోడ్ మార్చబడింది, ఇది మెమరీ వినియోగాన్ని తగ్గించింది మరియు మోడల్‌ను సృష్టించిన తర్వాత మొదటి అభ్యర్థనను ప్రాసెస్ చేస్తున్నప్పుడు ఆలస్యాన్ని తగ్గిస్తుంది. ఆపరేషన్ సమయంలో, DeepSpeech ఇప్పుడు 22 రెట్లు తక్కువ మెమరీని వినియోగిస్తుంది మరియు 500 రెట్లు వేగంగా ప్రారంభమవుతుంది.

    Mozilla DeepSpeech 0.6 స్పీచ్ రికగ్నిషన్ ఇంజిన్‌ను ఆవిష్కరించింది

  • భాషా నమూనాలో అరుదైన పదాలు ఫిల్టర్ చేయబడ్డాయి. మోడల్‌కు శిక్షణ ఇవ్వడానికి ఉపయోగించే టెక్స్ట్‌లో కనిపించే అత్యంత ప్రజాదరణ పొందిన పదాలలో మొత్తం పదాల సంఖ్య 500 వేలకు తగ్గించబడింది. క్లీనింగ్ లాంగ్వేజ్ మోడల్ పరిమాణాన్ని 1800MB నుండి 900MBకి తగ్గించడం సాధ్యం చేసింది, గుర్తింపు లోపం రేటుపై వాస్తవంగా ఎలాంటి ప్రభావం ఉండదు.
  • వివిధ కోసం మద్దతు జోడించబడింది టెక్నీషియన్ శిక్షణలో ఉపయోగించిన ఆడియో డేటా యొక్క అదనపు వైవిధ్యాలను (అగ్మెంటేషన్) సృష్టించడం (ఉదాహరణకు, ఎంపికల సమితికి వక్రీకరణ లేదా శబ్దాన్ని జోడించడం).
  • .NET ప్లాట్‌ఫారమ్ ఆధారంగా అప్లికేషన్‌లతో ఏకీకరణ కోసం బైండింగ్‌లతో కూడిన లైబ్రరీ జోడించబడింది.
  • డాక్యుమెంటేషన్ పునర్నిర్మించబడింది మరియు ఇప్పుడు ప్రత్యేక వెబ్‌సైట్‌లో సేకరించబడింది. deepspeech.readthedocs.io.

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి