Google Lyra V2 ఆడియో కోడెక్ను పరిచయం చేసింది, ఇది చాలా నెమ్మదిగా ఉండే కమ్యూనికేషన్ ఛానెల్లలో గరిష్ట వాయిస్ నాణ్యతను సాధించడానికి మెషిన్ లెర్నింగ్ టెక్నిక్లను ఉపయోగిస్తుంది. కొత్త వెర్షన్ కొత్త న్యూరల్ నెట్వర్క్ ఆర్కిటెక్చర్కు పరివర్తన, అదనపు ప్లాట్ఫారమ్లకు మద్దతు, మెరుగైన బిట్రేట్ నియంత్రణ, పనితీరు మెరుగుదలలు మరియు అధిక ఆడియో నాణ్యతను కలిగి ఉంది. రిఫరెన్స్ కోడ్ అమలు C++లో వ్రాయబడింది మరియు Apache 2.0 లైసెన్స్ క్రింద పంపిణీ చేయబడింది.
తక్కువ వేగంతో ప్రసారం చేయబడిన వాయిస్ డేటా నాణ్యత పరంగా, డిజిటల్ సిగ్నల్ ప్రాసెసింగ్ పద్ధతులను ఉపయోగించే సాంప్రదాయ కోడెక్ల కంటే లైరా చాలా గొప్పది. పరిమిత మొత్తంలో ప్రసారం చేయబడిన సమాచారం యొక్క పరిస్థితులలో అధిక నాణ్యత గల వాయిస్ ప్రసారాన్ని సాధించడానికి, ఆడియో కంప్రెషన్ మరియు సిగ్నల్ మార్పిడి యొక్క సాధారణ పద్ధతులతో పాటు, లైరా తప్పిపోయిన సమాచారాన్ని పునఃసృష్టి చేయడానికి మిమ్మల్ని అనుమతించే మెషీన్ లెర్నింగ్ సిస్టమ్ ఆధారంగా స్పీచ్ మోడల్ను ఉపయోగిస్తుంది. సాధారణ ప్రసంగ లక్షణాల ఆధారంగా.
కోడెక్లో ఎన్కోడర్ మరియు డీకోడర్ ఉన్నాయి. ప్రతి 20 మిల్లీసెకన్లకు వాయిస్ డేటా పారామితులను సంగ్రహించడం, వాటిని కుదించడం మరియు 3.2kbps నుండి 9.2kbps వరకు బిట్ రేటుతో నెట్వర్క్ ద్వారా స్వీకర్తకు బదిలీ చేయడం ఎన్కోడర్ యొక్క అల్గారిథమ్. రిసీవర్ వైపు, డీకోడర్ ప్రసారం చేయబడిన ఆడియో పారామితుల ఆధారంగా అసలైన స్పీచ్ సిగ్నల్ను పునఃసృష్టి చేయడానికి ఒక ఉత్పాదక నమూనాను ఉపయోగిస్తుంది, ఇందులో లాగరిథమిక్ సుద్ద స్పెక్ట్రోగ్రామ్లు ఉన్నాయి, ఇవి వివిధ ఫ్రీక్వెన్సీ పరిధులలోని ప్రసంగ శక్తి లక్షణాలను పరిగణనలోకి తీసుకుంటాయి మరియు మానవ శ్రవణ అవగాహనను పరిగణనలోకి తీసుకుంటాయి. మోడల్.
లైరా V2 సౌండ్స్ట్రీమ్ కన్వల్యూషనల్ న్యూరల్ నెట్వర్క్ ఆధారంగా కొత్త ఉత్పాదక నమూనాను ఉపయోగిస్తుంది, ఇది కంప్యూటింగ్ వనరులలో తక్కువ అవసరాలు కలిగి ఉంటుంది, ఇది తక్కువ-శక్తి వ్యవస్థలపై కూడా నిజ-సమయ డీకోడింగ్ను అనుమతిస్తుంది. ధ్వనిని రూపొందించడానికి ఉపయోగించే మోడల్ 90కి పైగా భాషల్లో అనేక వేల గంటల వాయిస్ రికార్డింగ్లను ఉపయోగించి శిక్షణ పొందింది. మోడల్ను అమలు చేయడానికి టెన్సర్ఫ్లో లైట్ ఉపయోగించబడుతుంది. ప్రతిపాదిత అమలు యొక్క పనితీరు తక్కువ ధర పరిధిలోని స్మార్ట్ఫోన్లలో ఎన్కోడింగ్ మరియు డీకోడింగ్ ప్రసంగం కోసం సరిపోతుంది.
వేరొక ఉత్పాదక నమూనాను ఉపయోగించడంతో పాటు, కొత్త వెర్షన్ కోడెక్ ఆర్కిటెక్చర్లో RVQ (అవశేష వెక్టర్ క్వాంటిజర్) క్వాంటిజర్తో లింక్లను చేర్చడం ద్వారా కూడా గుర్తించదగినది, ఇది డేటా ట్రాన్స్మిషన్కు ముందు పంపినవారి వైపు మరియు గ్రహీత వైపు ప్రదర్శించబడుతుంది. డేటా రిసెప్షన్ తర్వాత. క్వాంటిజర్ కోడెక్ అందించిన పారామితులను ప్యాకెట్ల సెట్లుగా మారుస్తుంది, ఎంచుకున్న బిట్రేట్కు సంబంధించి సమాచారాన్ని ఎన్కోడింగ్ చేస్తుంది. వివిధ స్థాయిల నాణ్యతను నిర్ధారించడానికి, క్వాంటిజర్లు మూడు బిట్ రేట్లకు (3.2 kps, 6 kbps మరియు 9.2 kbps) అందించబడతాయి, ఎక్కువ బిట్ రేట్, మెరుగైన నాణ్యత, కానీ బ్యాండ్విడ్త్ అవసరాలు ఎక్కువ.
కొత్త ఆర్కిటెక్చర్ సిగ్నల్ ట్రాన్స్మిషన్ ఆలస్యాన్ని 100 నుండి 20 మిల్లీసెకన్లకు తగ్గించింది. పోలిక కోసం, WebRTC కోసం ఓపస్ కోడెక్ పరీక్షించిన బిట్రేట్లలో 26.5ms, 46.5ms మరియు 66.5ms ఆలస్యాన్ని చూపింది. ఎన్కోడర్ మరియు డీకోడర్ యొక్క పనితీరు కూడా గణనీయంగా పెరిగింది - మునుపటి సంస్కరణతో పోలిస్తే, 5 రెట్లు వరకు త్వరణం ఉంది. ఉదాహరణకు, Pixel 6 Pro స్మార్ట్ఫోన్లో, కొత్త కోడెక్ 20-ms నమూనాను 0.57 msలో ఎన్కోడ్ చేస్తుంది మరియు డీకోడ్ చేస్తుంది, ఇది నిజ-సమయ ప్రసారానికి అవసరమైన దానికంటే 35 రెట్లు వేగంగా ఉంటుంది.
పనితీరుతో పాటు, మేము ధ్వని పునరుద్ధరణ నాణ్యతను కూడా మెరుగుపరచగలిగాము - MUSHRA స్కేల్ ప్రకారం, Lyra V3.2 కోడెక్ను ఉపయోగిస్తున్నప్పుడు 6 kbps, 9.2 kbps మరియు 2 kbps బిట్ రేట్లలో ప్రసంగ నాణ్యత 10 బిట్ రేట్లకు అనుగుణంగా ఉంటుంది. ఓపస్ కోడెక్ని ఉపయోగిస్తున్నప్పుడు kbps, 13 kbps మరియు 14 kbps.
మూలం: opennet.ru