Facebook మెషీన్ లెర్నింగ్ ఉపయోగించి ఎన్‌కోడెక్ ఆడియో కోడెక్‌ను ప్రచురిస్తుంది

Meta/Facebook (రష్యన్ ఫెడరేషన్‌లో నిషేధించబడింది) ఒక కొత్త ఆడియో కోడెక్, ఎన్‌కోడెక్‌ను పరిచయం చేసింది, ఇది నాణ్యతను కోల్పోకుండా కంప్రెషన్ నిష్పత్తిని పెంచడానికి మెషిన్ లెర్నింగ్ పద్ధతులను ఉపయోగిస్తుంది. నిజ సమయంలో ఆడియోను ప్రసారం చేయడానికి మరియు ఫైల్‌లలో తర్వాత సేవ్ చేయడానికి ఎన్‌కోడింగ్ కోసం కోడెక్‌ని ఉపయోగించవచ్చు. ఎన్‌కోడెక్ రిఫరెన్స్ ఇంప్లిమెంటేషన్ పైటోర్చ్ ఫ్రేమ్‌వర్క్‌ని ఉపయోగించి పైథాన్‌లో వ్రాయబడింది మరియు వాణిజ్యేతర ఉపయోగం కోసం మాత్రమే CC BY-NC 4.0 (క్రియేటివ్ కామన్స్ అట్రిబ్యూషన్-కామర్షియల్) లైసెన్స్ కింద లైసెన్స్ పొందింది.

డౌన్‌లోడ్ కోసం రెండు రెడీమేడ్ మోడల్‌లు అందించబడ్డాయి:

  • 24 kHz నమూనా రేటును ఉపయోగించే ఒక కారణ నమూనా, మోనోఫోనిక్ ఆడియోకు మాత్రమే మద్దతు ఇస్తుంది మరియు విభిన్న ఆడియో డేటాపై శిక్షణ పొందింది (స్పీచ్ కోడింగ్‌కు తగినది). 1.5, 3, 6, 12 మరియు 24 kbps బిట్ రేట్ల వద్ద ప్రసారం కోసం ఆడియో డేటాను ప్యాకేజీ చేయడానికి మోడల్‌ను ఉపయోగించవచ్చు.
  • 48 kHz నమూనా రేటును ఉపయోగించే నాన్-కాజల్ మోడల్, స్టీరియో ఆడియోకు మద్దతు ఇస్తుంది మరియు సంగీతంపై మాత్రమే శిక్షణ పొందింది. మోడల్ 3, 6, 12 మరియు 24 kbps బిట్రేట్‌లకు మద్దతు ఇస్తుంది.

ప్రతి మోడల్ కోసం, అదనపు భాషా నమూనా తయారు చేయబడింది, ఇది నాణ్యతను కోల్పోకుండా కుదింపు నిష్పత్తిలో (40% వరకు) గణనీయమైన పెరుగుదలను సాధించడానికి మిమ్మల్ని అనుమతిస్తుంది. ఆడియో కంప్రెషన్ కోసం మెషిన్ లెర్నింగ్ పద్ధతులను ఉపయోగించి గతంలో అభివృద్ధి చేసిన ప్రాజెక్ట్‌ల వలె కాకుండా, ఎన్‌కోడెక్ స్పీచ్ ప్యాకేజింగ్ కోసం మాత్రమే కాకుండా, ఆడియో CDల స్థాయికి అనుగుణంగా 48 kHz నమూనా రేటుతో సంగీత కుదింపు కోసం కూడా ఉపయోగించవచ్చు. కొత్త కోడెక్ డెవలపర్ల ప్రకారం, MP64 ఫార్మాట్‌తో పోలిస్తే 3 kbps బిట్‌రేట్‌తో ప్రసారం చేస్తున్నప్పుడు, వారు అదే స్థాయి నాణ్యతను కొనసాగిస్తూ ఆడియో కంప్రెషన్ స్థాయిని సుమారు పది రెట్లు పెంచగలిగారు (ఉదాహరణకు, ఉపయోగిస్తున్నప్పుడు MP3, 64 kbps బ్యాండ్‌విడ్త్ అవసరం, దానితో ప్రసారం చేయడానికి ఎన్‌కోడెక్‌లో అదే నాణ్యత 6 kbps సరిపోతుంది).

కోడెక్ ఆర్కిటెక్చర్ "ట్రాన్స్‌ఫార్మర్" ఆర్కిటెక్చర్‌తో న్యూరల్ నెట్‌వర్క్‌లో నిర్మించబడింది మరియు ఇది నాలుగు లింక్‌లపై ఆధారపడి ఉంటుంది: ఎన్‌కోడర్, క్వాంటిజర్, డీకోడర్ మరియు డిస్క్రిమినేటర్. ఎన్‌కోడర్ వాయిస్ డేటా యొక్క పారామితులను సంగ్రహిస్తుంది మరియు తక్కువ ఫ్రేమ్ రేట్‌లో ప్యాక్ చేయబడిన స్ట్రీమ్‌గా మారుస్తుంది. క్వాంటిజర్ (RVQ, అవశేష వెక్టర్ క్వాంటిజర్) ఎన్‌కోడర్ ద్వారా స్ట్రీమ్ అవుట్‌పుట్‌ను ప్యాకెట్‌ల సెట్‌లుగా మారుస్తుంది, ఎంచుకున్న బిట్‌రేట్ ఆధారంగా సమాచారాన్ని కుదిస్తుంది. క్వాంటిజర్ యొక్క అవుట్‌పుట్ అనేది డేటా యొక్క సంపీడన ప్రాతినిధ్యం, ఇది నెట్‌వర్క్ ద్వారా ప్రసారం చేయడానికి లేదా డిస్క్‌లో సేవ్ చేయడానికి అనుకూలంగా ఉంటుంది.

డీకోడర్ డేటా యొక్క సంపీడన ప్రాతినిధ్యాన్ని డీకోడ్ చేస్తుంది మరియు అసలు ధ్వని తరంగాన్ని పునర్నిర్మిస్తుంది. వివక్షత మానవ శ్రవణ అవగాహన యొక్క నమూనాను పరిగణనలోకి తీసుకుని, ఉత్పత్తి చేయబడిన నమూనాల నాణ్యతను మెరుగుపరుస్తుంది. నాణ్యత మరియు బిట్‌రేట్ స్థాయితో సంబంధం లేకుండా, ఎన్‌కోడింగ్ మరియు డీకోడింగ్ కోసం ఉపయోగించే మోడల్‌లు నిరాడంబరమైన వనరుల అవసరాలతో విభిన్నంగా ఉంటాయి (నిజ సమయ ఆపరేషన్‌కు అవసరమైన లెక్కలు ఒకే CPU కోర్‌లో నిర్వహించబడతాయి).

Facebook మెషీన్ లెర్నింగ్ ఉపయోగించి ఎన్‌కోడెక్ ఆడియో కోడెక్‌ను ప్రచురిస్తుంది


మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి