Google Lyra V2 ఓపెన్ సోర్స్ ఆడియో కోడెక్‌ను విడుదల చేసింది

Google Lyra V2 ఆడియో కోడెక్‌ను పరిచయం చేసింది, ఇది చాలా నెమ్మదిగా ఉండే కమ్యూనికేషన్ ఛానెల్‌లలో గరిష్ట వాయిస్ నాణ్యతను సాధించడానికి మెషిన్ లెర్నింగ్ టెక్నిక్‌లను ఉపయోగిస్తుంది. కొత్త వెర్షన్ కొత్త న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్‌కు పరివర్తన, అదనపు ప్లాట్‌ఫారమ్‌లకు మద్దతు, మెరుగైన బిట్‌రేట్ నియంత్రణ, పనితీరు మెరుగుదలలు మరియు అధిక ఆడియో నాణ్యతను కలిగి ఉంది. రిఫరెన్స్ కోడ్ అమలు C++లో వ్రాయబడింది మరియు Apache 2.0 లైసెన్స్ క్రింద పంపిణీ చేయబడింది.

తక్కువ వేగంతో ప్రసారం చేయబడిన వాయిస్ డేటా నాణ్యత పరంగా, డిజిటల్ సిగ్నల్ ప్రాసెసింగ్ పద్ధతులను ఉపయోగించే సాంప్రదాయ కోడెక్‌ల కంటే లైరా చాలా గొప్పది. పరిమిత మొత్తంలో ప్రసారం చేయబడిన సమాచారం యొక్క పరిస్థితులలో అధిక నాణ్యత గల వాయిస్ ప్రసారాన్ని సాధించడానికి, ఆడియో కంప్రెషన్ మరియు సిగ్నల్ మార్పిడి యొక్క సాధారణ పద్ధతులతో పాటు, లైరా తప్పిపోయిన సమాచారాన్ని పునఃసృష్టి చేయడానికి మిమ్మల్ని అనుమతించే మెషీన్ లెర్నింగ్ సిస్టమ్ ఆధారంగా స్పీచ్ మోడల్‌ను ఉపయోగిస్తుంది. సాధారణ ప్రసంగ లక్షణాల ఆధారంగా.

కోడెక్‌లో ఎన్‌కోడర్ మరియు డీకోడర్ ఉన్నాయి. ప్రతి 20 మిల్లీసెకన్లకు వాయిస్ డేటా పారామితులను సంగ్రహించడం, వాటిని కుదించడం మరియు 3.2kbps నుండి 9.2kbps వరకు బిట్ రేటుతో నెట్‌వర్క్ ద్వారా స్వీకర్తకు బదిలీ చేయడం ఎన్‌కోడర్ యొక్క అల్గారిథమ్. రిసీవర్ వైపు, డీకోడర్ ప్రసారం చేయబడిన ఆడియో పారామితుల ఆధారంగా అసలైన స్పీచ్ సిగ్నల్‌ను పునఃసృష్టి చేయడానికి ఒక ఉత్పాదక నమూనాను ఉపయోగిస్తుంది, ఇందులో లాగరిథమిక్ సుద్ద స్పెక్ట్రోగ్రామ్‌లు ఉన్నాయి, ఇవి వివిధ ఫ్రీక్వెన్సీ పరిధులలోని ప్రసంగ శక్తి లక్షణాలను పరిగణనలోకి తీసుకుంటాయి మరియు మానవ శ్రవణ అవగాహనను పరిగణనలోకి తీసుకుంటాయి. మోడల్.

లైరా V2 సౌండ్‌స్ట్రీమ్ కన్వల్యూషనల్ న్యూరల్ నెట్‌వర్క్ ఆధారంగా కొత్త ఉత్పాదక నమూనాను ఉపయోగిస్తుంది, ఇది కంప్యూటింగ్ వనరులలో తక్కువ అవసరాలు కలిగి ఉంటుంది, ఇది తక్కువ-శక్తి వ్యవస్థలపై కూడా నిజ-సమయ డీకోడింగ్‌ను అనుమతిస్తుంది. ధ్వనిని రూపొందించడానికి ఉపయోగించే మోడల్ 90కి పైగా భాషల్లో అనేక వేల గంటల వాయిస్ రికార్డింగ్‌లను ఉపయోగించి శిక్షణ పొందింది. మోడల్‌ను అమలు చేయడానికి టెన్సర్‌ఫ్లో లైట్ ఉపయోగించబడుతుంది. ప్రతిపాదిత అమలు యొక్క పనితీరు తక్కువ ధర పరిధిలోని స్మార్ట్‌ఫోన్‌లలో ఎన్‌కోడింగ్ మరియు డీకోడింగ్ ప్రసంగం కోసం సరిపోతుంది.

వేరొక ఉత్పాదక నమూనాను ఉపయోగించడంతో పాటు, కొత్త వెర్షన్ కోడెక్ ఆర్కిటెక్చర్‌లో RVQ (అవశేష వెక్టర్ క్వాంటిజర్) క్వాంటిజర్‌తో లింక్‌లను చేర్చడం ద్వారా కూడా గుర్తించదగినది, ఇది డేటా ట్రాన్స్‌మిషన్‌కు ముందు పంపినవారి వైపు మరియు గ్రహీత వైపు ప్రదర్శించబడుతుంది. డేటా రిసెప్షన్ తర్వాత. క్వాంటిజర్ కోడెక్ అందించిన పారామితులను ప్యాకెట్ల సెట్‌లుగా మారుస్తుంది, ఎంచుకున్న బిట్‌రేట్‌కు సంబంధించి సమాచారాన్ని ఎన్‌కోడింగ్ చేస్తుంది. వివిధ స్థాయిల నాణ్యతను నిర్ధారించడానికి, క్వాంటిజర్‌లు మూడు బిట్ రేట్లకు (3.2 kps, 6 kbps మరియు 9.2 kbps) అందించబడతాయి, ఎక్కువ బిట్ రేట్, మెరుగైన నాణ్యత, కానీ బ్యాండ్‌విడ్త్ అవసరాలు ఎక్కువ.

Google Lyra V2 ఓపెన్ సోర్స్ ఆడియో కోడెక్‌ను విడుదల చేసింది

కొత్త ఆర్కిటెక్చర్ సిగ్నల్ ట్రాన్స్మిషన్ ఆలస్యాన్ని 100 నుండి 20 మిల్లీసెకన్లకు తగ్గించింది. పోలిక కోసం, WebRTC కోసం ఓపస్ కోడెక్ పరీక్షించిన బిట్‌రేట్‌లలో 26.5ms, 46.5ms మరియు 66.5ms ఆలస్యాన్ని చూపింది. ఎన్‌కోడర్ మరియు డీకోడర్ యొక్క పనితీరు కూడా గణనీయంగా పెరిగింది - మునుపటి సంస్కరణతో పోలిస్తే, 5 రెట్లు వరకు త్వరణం ఉంది. ఉదాహరణకు, Pixel 6 Pro స్మార్ట్‌ఫోన్‌లో, కొత్త కోడెక్ 20-ms నమూనాను 0.57 msలో ఎన్‌కోడ్ చేస్తుంది మరియు డీకోడ్ చేస్తుంది, ఇది నిజ-సమయ ప్రసారానికి అవసరమైన దానికంటే 35 రెట్లు వేగంగా ఉంటుంది.

పనితీరుతో పాటు, మేము ధ్వని పునరుద్ధరణ నాణ్యతను కూడా మెరుగుపరచగలిగాము - MUSHRA స్కేల్ ప్రకారం, Lyra V3.2 కోడెక్‌ను ఉపయోగిస్తున్నప్పుడు 6 kbps, 9.2 kbps మరియు 2 kbps బిట్ రేట్లలో ప్రసంగ నాణ్యత 10 బిట్ రేట్లకు అనుగుణంగా ఉంటుంది. ఓపస్ కోడెక్‌ని ఉపయోగిస్తున్నప్పుడు kbps, 13 kbps మరియు 14 kbps.

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి