విస్పర్ స్పీచ్ రికగ్నిషన్ మరియు ట్రాన్స్‌లేషన్ సిస్టమ్ కోసం కోడ్ తెరవబడింది

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ రంగంలో పబ్లిక్ ప్రాజెక్ట్‌లను అభివృద్ధి చేసే OpenAI ప్రాజెక్ట్, విస్పర్ స్పీచ్ రికగ్నిషన్ సిస్టమ్‌కు సంబంధించిన పరిణామాలను ప్రచురించింది. ఇంగ్లీషులో ప్రసంగం కోసం సిస్టమ్ మానవ గుర్తింపుకు దగ్గరగా ఉన్న ఆటోమేటిక్ రికగ్నిషన్ యొక్క విశ్వసనీయత మరియు ఖచ్చితత్వం స్థాయిలను అందిస్తుంది. PyTorch ఫ్రేమ్‌వర్క్ ఆధారంగా సూచన అమలు కోసం కోడ్ మరియు ఉపయోగం కోసం సిద్ధంగా ఉన్న ఇప్పటికే శిక్షణ పొందిన మోడల్‌ల సెట్ తెరవబడింది. కోడ్ MIT లైసెన్స్ క్రింద తెరవబడింది.

మోడల్‌కు శిక్షణ ఇవ్వడానికి, 680 వేల గంటల ప్రసంగ డేటా ఉపయోగించబడింది, వివిధ భాషలు మరియు సబ్జెక్ట్ ప్రాంతాలను కవర్ చేసే అనేక సేకరణల నుండి సేకరించబడింది. శిక్షణలో పాల్గొన్న ప్రసంగ డేటాలో 1/3 వంతు ఇంగ్లీష్ కాకుండా ఇతర భాషలలో ఉంది. ప్రతిపాదిత వ్యవస్థ ఉచ్ఛారణ ఉచ్చారణ, నేపథ్య శబ్దం మరియు సాంకేతిక పరిభాషను ఉపయోగించడం వంటి పరిస్థితులను సరిగ్గా నిర్వహిస్తుంది. ప్రసంగాన్ని టెక్స్ట్‌లోకి లిప్యంతరీకరించడంతో పాటు, సిస్టమ్ ఏదైనా భాష నుండి ఆంగ్లంలోకి ప్రసంగాన్ని అనువదించగలదు మరియు ఆడియో స్ట్రీమ్‌లో ప్రసంగం యొక్క రూపాన్ని గుర్తించగలదు.

మోడల్‌లు రెండు ప్రాతినిధ్యాలలో రూపొందించబడ్డాయి: ఆంగ్ల భాష మరియు బహుభాషా మోడల్, ఇది రష్యన్, ఉక్రేనియన్ మరియు బెలారసియన్ భాషలకు కూడా మద్దతు ఇస్తుంది. ప్రతిగా, ప్రతి ప్రాతినిధ్యం 5 ఎంపికలుగా విభజించబడింది, మోడల్‌లో కవర్ చేయబడిన పారామితుల పరిమాణం మరియు సంఖ్యలో విభిన్నంగా ఉంటుంది. పెద్ద పరిమాణం, ఎక్కువ ఖచ్చితత్వం మరియు గుర్తింపు నాణ్యత, కానీ GPU వీడియో మెమరీ పరిమాణం మరియు తక్కువ పనితీరు కోసం అధిక అవసరాలు. ఉదాహరణకు, కనీస ఎంపికలో 39 మిలియన్ పారామీటర్‌లు ఉంటాయి మరియు 1 GB వీడియో మెమరీ అవసరం మరియు గరిష్టంగా 1550 మిలియన్ పారామీటర్‌లను కలిగి ఉంటుంది మరియు 10 GB వీడియో మెమరీ అవసరం. కనిష్ట ఎంపిక గరిష్టం కంటే 32 రెట్లు వేగంగా ఉంటుంది.

విస్పర్ స్పీచ్ రికగ్నిషన్ మరియు ట్రాన్స్‌లేషన్ సిస్టమ్ కోసం కోడ్ తెరవబడింది

సిస్టమ్ ట్రాన్స్‌ఫార్మర్ న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్‌ను ఉపయోగిస్తుంది, ఇందులో ఒకదానితో ఒకటి పరస్పర చర్య చేసే ఎన్‌కోడర్ మరియు డీకోడర్ ఉంటాయి. ఆడియో 30-సెకన్ల భాగాలుగా విభజించబడింది, ఇది లాగ్-మెల్ స్పెక్ట్రోగ్రామ్‌గా మార్చబడుతుంది మరియు ఎన్‌కోడర్‌కు పంపబడుతుంది. ఎన్‌కోడర్ యొక్క అవుట్‌పుట్ డీకోడర్‌కు పంపబడుతుంది, ఇది ప్రత్యేక టోకెన్‌లతో కలిపిన టెక్స్ట్ ప్రాతినిధ్యాన్ని అంచనా వేస్తుంది, ఇది ఒక సాధారణ మోడల్‌లో, భాషని గుర్తించడం, పదబంధాల ఉచ్చారణ యొక్క కాలక్రమాన్ని లెక్కించడం, లో ప్రసంగం యొక్క లిప్యంతరీకరణ వంటి సమస్యలను పరిష్కరించడానికి అనుమతిస్తుంది. వివిధ భాషలు, మరియు ఆంగ్లంలోకి అనువాదం.

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి