Google Lyra V2 ఓపెన్ సోర్స్ ఆడియో కోడెక్‌ను విడుదల చేసింది

Google Lyra V2 ఆడియో కోడెక్‌ను పరిచయం చేసింది, ఇది చాలా నెమ్మదిగా ఉండే కమ్యూనికేషన్ ఛానెల్‌లలో గరిష్ట వాయిస్ నాణ్యతను సాధించడానికి మెషిన్ లెర్నింగ్ టెక్నిక్‌లను ఉపయోగిస్తుంది. కొత్త వెర్షన్ కొత్త న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్‌కు పరివర్తన, అదనపు ప్లాట్‌ఫారమ్‌లకు మద్దతు, మెరుగైన బిట్‌రేట్ నియంత్రణ, పనితీరు మెరుగుదలలు మరియు అధిక ఆడియో నాణ్యతను కలిగి ఉంది. రిఫరెన్స్ కోడ్ అమలు C++లో వ్రాయబడింది మరియు Apache 2.0 లైసెన్స్ క్రింద పంపిణీ చేయబడింది.

తక్కువ వేగంతో ప్రసారం చేయబడిన వాయిస్ డేటా నాణ్యత పరంగా, డిజిటల్ సిగ్నల్ ప్రాసెసింగ్ పద్ధతులను ఉపయోగించే సాంప్రదాయ కోడెక్‌ల కంటే లైరా చాలా గొప్పది. పరిమిత మొత్తంలో ప్రసారం చేయబడిన సమాచారం యొక్క పరిస్థితులలో అధిక నాణ్యత గల వాయిస్ ప్రసారాన్ని సాధించడానికి, ఆడియో కంప్రెషన్ మరియు సిగ్నల్ మార్పిడి యొక్క సాధారణ పద్ధతులతో పాటు, లైరా తప్పిపోయిన సమాచారాన్ని పునఃసృష్టి చేయడానికి మిమ్మల్ని అనుమతించే మెషీన్ లెర్నింగ్ సిస్టమ్ ఆధారంగా స్పీచ్ మోడల్‌ను ఉపయోగిస్తుంది. సాధారణ ప్రసంగ లక్షణాల ఆధారంగా.

కోడెక్‌లో ఎన్‌కోడర్ మరియు డీకోడర్ ఉన్నాయి. ప్రతి 20 మిల్లీసెకన్లకు వాయిస్ డేటా పారామితులను సంగ్రహించడం, వాటిని కుదించడం మరియు 3.2kbps నుండి 9.2kbps వరకు బిట్ రేటుతో నెట్‌వర్క్ ద్వారా స్వీకర్తకు బదిలీ చేయడం ఎన్‌కోడర్ యొక్క అల్గారిథమ్. రిసీవర్ వైపు, డీకోడర్ ప్రసారం చేయబడిన ఆడియో పారామితుల ఆధారంగా అసలైన స్పీచ్ సిగ్నల్‌ను పునఃసృష్టి చేయడానికి ఒక ఉత్పాదక నమూనాను ఉపయోగిస్తుంది, ఇందులో లాగరిథమిక్ సుద్ద స్పెక్ట్రోగ్రామ్‌లు ఉన్నాయి, ఇవి వివిధ ఫ్రీక్వెన్సీ పరిధులలోని ప్రసంగ శక్తి లక్షణాలను పరిగణనలోకి తీసుకుంటాయి మరియు మానవ శ్రవణ అవగాహనను పరిగణనలోకి తీసుకుంటాయి. మోడల్.

లైరా V2 సౌండ్‌స్ట్రీమ్ కన్వల్యూషనల్ న్యూరల్ నెట్‌వర్క్ ఆధారంగా కొత్త ఉత్పాదక నమూనాను ఉపయోగిస్తుంది, ఇది కంప్యూటింగ్ వనరులలో తక్కువ అవసరాలు కలిగి ఉంటుంది, ఇది తక్కువ-శక్తి వ్యవస్థలపై కూడా నిజ-సమయ డీకోడింగ్‌ను అనుమతిస్తుంది. ధ్వనిని రూపొందించడానికి ఉపయోగించే మోడల్ 90కి పైగా భాషల్లో అనేక వేల గంటల వాయిస్ రికార్డింగ్‌లను ఉపయోగించి శిక్షణ పొందింది. మోడల్‌ను అమలు చేయడానికి టెన్సర్‌ఫ్లో లైట్ ఉపయోగించబడుతుంది. ప్రతిపాదిత అమలు యొక్క పనితీరు తక్కువ ధర పరిధిలోని స్మార్ట్‌ఫోన్‌లలో ఎన్‌కోడింగ్ మరియు డీకోడింగ్ ప్రసంగం కోసం సరిపోతుంది.

వేరొక ఉత్పాదక నమూనాను ఉపయోగించడంతో పాటు, కొత్త వెర్షన్ కోడెక్ ఆర్కిటెక్చర్‌లో RVQ (అవశేష వెక్టర్ క్వాంటిజర్) క్వాంటిజర్‌తో లింక్‌లను చేర్చడం ద్వారా కూడా గుర్తించదగినది, ఇది డేటా ట్రాన్స్‌మిషన్‌కు ముందు పంపినవారి వైపు మరియు గ్రహీత వైపు ప్రదర్శించబడుతుంది. డేటా రిసెప్షన్ తర్వాత. క్వాంటిజర్ కోడెక్ అందించిన పారామితులను ప్యాకెట్ల సెట్‌లుగా మారుస్తుంది, ఎంచుకున్న బిట్‌రేట్‌కు సంబంధించి సమాచారాన్ని ఎన్‌కోడింగ్ చేస్తుంది. వివిధ స్థాయిల నాణ్యతను నిర్ధారించడానికి, క్వాంటిజర్‌లు మూడు బిట్ రేట్లకు (3.2 kps, 6 kbps మరియు 9.2 kbps) అందించబడతాయి, ఎక్కువ బిట్ రేట్, మెరుగైన నాణ్యత, కానీ బ్యాండ్‌విడ్త్ అవసరాలు ఎక్కువ.

Google Lyra V2 ఓపెన్ సోర్స్ ఆడియో కోడెక్‌ను విడుదల చేసింది

కొత్త ఆర్కిటెక్చర్ సిగ్నల్ ట్రాన్స్మిషన్ ఆలస్యాన్ని 100 నుండి 20 మిల్లీసెకన్లకు తగ్గించింది. పోలిక కోసం, WebRTC కోసం ఓపస్ కోడెక్ పరీక్షించిన బిట్‌రేట్‌లలో 26.5ms, 46.5ms మరియు 66.5ms ఆలస్యాన్ని చూపింది. ఎన్‌కోడర్ మరియు డీకోడర్ యొక్క పనితీరు కూడా గణనీయంగా పెరిగింది - మునుపటి సంస్కరణతో పోలిస్తే, 5 రెట్లు వరకు త్వరణం ఉంది. ఉదాహరణకు, Pixel 6 Pro స్మార్ట్‌ఫోన్‌లో, కొత్త కోడెక్ 20-ms నమూనాను 0.57 msలో ఎన్‌కోడ్ చేస్తుంది మరియు డీకోడ్ చేస్తుంది, ఇది నిజ-సమయ ప్రసారానికి అవసరమైన దానికంటే 35 రెట్లు వేగంగా ఉంటుంది.

పనితీరుతో పాటు, మేము ధ్వని పునరుద్ధరణ నాణ్యతను కూడా మెరుగుపరచగలిగాము - MUSHRA స్కేల్ ప్రకారం, Lyra V3.2 కోడెక్‌ను ఉపయోగిస్తున్నప్పుడు 6 kbps, 9.2 kbps మరియు 2 kbps బిట్ రేట్లలో ప్రసంగ నాణ్యత 10 బిట్ రేట్లకు అనుగుణంగా ఉంటుంది. ఓపస్ కోడెక్‌ని ఉపయోగిస్తున్నప్పుడు kbps, 13 kbps మరియు 14 kbps.

మూలం: opennet.ru

DDoS రక్షణ, VPS VDS సర్వర్‌లతో సైట్‌ల కోసం నమ్మకమైన హోస్టింగ్‌ను కొనుగోలు చేయండి 🔥 DDoS రక్షణతో కూడిన నమ్మకమైన వెబ్‌సైట్ హోస్టింగ్, VPS VDS సర్వర్‌లను కొనండి | ProHoster