ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ రంగంలో పబ్లిక్ ప్రాజెక్ట్లను అభివృద్ధి చేసే OpenAI ప్రాజెక్ట్, విస్పర్ స్పీచ్ రికగ్నిషన్ సిస్టమ్కు సంబంధించిన పరిణామాలను ప్రచురించింది. ఇంగ్లీషులో ప్రసంగం కోసం సిస్టమ్ మానవ గుర్తింపుకు దగ్గరగా ఉన్న ఆటోమేటిక్ రికగ్నిషన్ యొక్క విశ్వసనీయత మరియు ఖచ్చితత్వం స్థాయిలను అందిస్తుంది. PyTorch ఫ్రేమ్వర్క్ ఆధారంగా సూచన అమలు కోసం కోడ్ మరియు ఉపయోగం కోసం సిద్ధంగా ఉన్న ఇప్పటికే శిక్షణ పొందిన మోడల్ల సెట్ తెరవబడింది. కోడ్ MIT లైసెన్స్ క్రింద తెరవబడింది.
మోడల్కు శిక్షణ ఇవ్వడానికి, 680 వేల గంటల ప్రసంగ డేటా ఉపయోగించబడింది, వివిధ భాషలు మరియు సబ్జెక్ట్ ప్రాంతాలను కవర్ చేసే అనేక సేకరణల నుండి సేకరించబడింది. శిక్షణలో పాల్గొన్న ప్రసంగ డేటాలో 1/3 వంతు ఇంగ్లీష్ కాకుండా ఇతర భాషలలో ఉంది. ప్రతిపాదిత వ్యవస్థ ఉచ్ఛారణ ఉచ్చారణ, నేపథ్య శబ్దం మరియు సాంకేతిక పరిభాషను ఉపయోగించడం వంటి పరిస్థితులను సరిగ్గా నిర్వహిస్తుంది. ప్రసంగాన్ని టెక్స్ట్లోకి లిప్యంతరీకరించడంతో పాటు, సిస్టమ్ ఏదైనా భాష నుండి ఆంగ్లంలోకి ప్రసంగాన్ని అనువదించగలదు మరియు ఆడియో స్ట్రీమ్లో ప్రసంగం యొక్క రూపాన్ని గుర్తించగలదు.
మోడల్లు రెండు ప్రాతినిధ్యాలలో రూపొందించబడ్డాయి: ఆంగ్ల భాష మరియు బహుభాషా మోడల్, ఇది రష్యన్, ఉక్రేనియన్ మరియు బెలారసియన్ భాషలకు కూడా మద్దతు ఇస్తుంది. ప్రతిగా, ప్రతి ప్రాతినిధ్యం 5 ఎంపికలుగా విభజించబడింది, మోడల్లో కవర్ చేయబడిన పారామితుల పరిమాణం మరియు సంఖ్యలో విభిన్నంగా ఉంటుంది. పెద్ద పరిమాణం, ఎక్కువ ఖచ్చితత్వం మరియు గుర్తింపు నాణ్యత, కానీ GPU వీడియో మెమరీ పరిమాణం మరియు తక్కువ పనితీరు కోసం అధిక అవసరాలు. ఉదాహరణకు, కనీస ఎంపికలో 39 మిలియన్ పారామీటర్లు ఉంటాయి మరియు 1 GB వీడియో మెమరీ అవసరం మరియు గరిష్టంగా 1550 మిలియన్ పారామీటర్లను కలిగి ఉంటుంది మరియు 10 GB వీడియో మెమరీ అవసరం. కనిష్ట ఎంపిక గరిష్టం కంటే 32 రెట్లు వేగంగా ఉంటుంది.
సిస్టమ్ ట్రాన్స్ఫార్మర్ న్యూరల్ నెట్వర్క్ ఆర్కిటెక్చర్ను ఉపయోగిస్తుంది, ఇందులో ఒకదానితో ఒకటి పరస్పర చర్య చేసే ఎన్కోడర్ మరియు డీకోడర్ ఉంటాయి. ఆడియో 30-సెకన్ల భాగాలుగా విభజించబడింది, ఇది లాగ్-మెల్ స్పెక్ట్రోగ్రామ్గా మార్చబడుతుంది మరియు ఎన్కోడర్కు పంపబడుతుంది. ఎన్కోడర్ యొక్క అవుట్పుట్ డీకోడర్కు పంపబడుతుంది, ఇది ప్రత్యేక టోకెన్లతో కలిపిన టెక్స్ట్ ప్రాతినిధ్యాన్ని అంచనా వేస్తుంది, ఇది ఒక సాధారణ మోడల్లో, భాషని గుర్తించడం, పదబంధాల ఉచ్చారణ యొక్క కాలక్రమాన్ని లెక్కించడం, లో ప్రసంగం యొక్క లిప్యంతరీకరణ వంటి సమస్యలను పరిష్కరించడానికి అనుమతిస్తుంది. వివిధ భాషలు, మరియు ఆంగ్లంలోకి అనువాదం.
మూలం: opennet.ru