Facebook شايع ڪري ٿو EnCodec آڊيو ڪوڊيڪ مشين لرننگ استعمال ڪندي

Meta/Facebook (روسي فيڊريشن ۾ پابندي مڙهيل) هڪ نئون آڊيو ڪوڊيڪ متعارف ڪرايو، EnCodec، جيڪو معيار کي وڃائڻ کان سواءِ ڪمپريشن تناسب وڌائڻ لاءِ مشين لرننگ جا طريقا استعمال ڪري ٿو. ڪوڊيڪ ٻئي استعمال ڪري سگھجن ٿا حقيقي وقت ۾ آڊيو اسٽريمنگ لاءِ ۽ بعد ۾ فائلن ۾ محفوظ ڪرڻ لاءِ انڪوڊنگ لاءِ. EnCodec ريفرنس لاڳو ڪرڻ Python ۾ PyTorch فريم ورڪ استعمال ڪندي لکيو ويو آهي ۽ صرف غير تجارتي استعمال لاءِ CC BY-NC 4.0 (Creative Commons Attribution-Non Commercial) لائسنس تحت لائسنس يافته آهي.

ڊائون لوڊ لاءِ ٻه تيار ٿيل ماڊل پيش ڪيا ويا آهن:

  • 24 kHz نموني جي شرح استعمال ڪندي هڪ ڪارڻ ماڊل، صرف مونوفونڪ آڊيو کي سپورٽ ڪندي، ۽ متنوع آڊيو ڊيٽا تي تربيت ڏني وئي (اسپيچ ڪوڊنگ لاءِ مناسب). ماڊل 1.5، 3، 6، 12 ۽ 24 kbps جي بٽ ريٽ تي ٽرانسميشن لاءِ آڊيو ڊيٽا کي پيڪ ڪرڻ لاءِ استعمال ڪري سگھجي ٿو.
  • هڪ غير سبب ماڊل 48 kHz جي نموني جي شرح استعمال ڪندي، اسٽيريو آڊيو کي سپورٽ ڪندي ۽ صرف ميوزڪ تي تربيت ڏني وئي. ماڊل 3، 6، 12 ۽ 24 kbps جي بٽريٽس کي سپورٽ ڪري ٿو.

هر ماڊل لاء، هڪ اضافي ٻولي ماڊل تيار ڪئي وئي آهي، جيڪا توهان کي معيار جي نقصان کان سواء کمپريشن تناسب (40٪ تائين) ۾ اهم اضافو حاصل ڪرڻ جي اجازت ڏئي ٿي. آڊيو ڪمپريشن لاءِ مشين لرننگ جا طريقا استعمال ڪندي اڳوڻي ترقي يافته منصوبن جي برعڪس، EnCodec استعمال ڪري سگهجي ٿو نه رڳو اسپيچ پيڪنگنگ لاءِ، پر ميوزڪ ڪمپريشن لاءِ پڻ 48 kHz جي نموني جي شرح سان، آڊيو سي ڊي جي سطح جي مطابق. نئين ڪوڊيڪ جي ڊولپرز جي مطابق، جڏهن ايم پي 64 فارميٽ جي مقابلي ۾ 3 kbps جي بٽريٽ سان منتقلي ڪئي وئي، اهي ساڳئي سطح جي معيار کي برقرار رکڻ دوران تقريبا ڏهه ڀيرا آڊيو ڪمپريشن جي درجي کي وڌائڻ جي قابل هئا (مثال طور، جڏهن استعمال ڪندي. MP3، 64 kbps جي هڪ بينڊوڊٿ جي ضرورت آهي، انهي سان ٽرانسميشن لاءِ EnCodec ۾ ساڳيو معيار ڪافي 6 kbps آهي).

ڪوڊيڪ آرڪيٽيڪچر نيورل نيٽ ورڪ تي ”ٽرانسفارمر“ آرڪيٽيڪچر سان ٺهيل آهي ۽ چار لنڪس تي ٻڌل آهي: انڪوڊر، ڪوانٽيزر، ڊيڪوڊر ۽ ڊسڪريمنٽر. انڪوڊر آواز ڊيٽا جي پيٽرولر کي ڪڍي ٿو ۽ ڀريل وهڪرو کي گهٽ فريم جي شرح ۾ تبديل ڪري ٿو. quantizer (RVQ، Residual Vector Quantizer) انڪوڊر ذريعي اسٽريم آئوٽ کي تبديل ڪري ٿو پيڪٽس جي سيٽن ۾، معلومات کي ڪمپريس ڪندي چونڊيل بٽريٽ جي بنياد تي. quantizer جي ٻاھر ڊيٽا جي ھڪڙي ٺھيل نمائندگي آھي، ھڪڙي نيٽ ورڪ تي منتقل ڪرڻ يا ڊسڪ کي محفوظ ڪرڻ لاء مناسب.

ڊيڪوڊر ڊيٽا جي ٺهيل نمائندگي کي ڊيڪوڊ ڪري ٿو ۽ اصل آواز جي لهر کي ٻيهر ٺاهي ٿو. تبعيض ڪندڙ ٺاهيل نمونن جي معيار کي بهتر بڻائي ٿو، انساني ٻڌڻ جي تصور جي ماڊل کي مدنظر رکندي. معيار ۽ بٽريٽ جي سطح جي لحاظ کان، انڪوڊنگ ۽ ڊيڪوڊنگ لاءِ استعمال ٿيل ماڊلز کي معياري وسيلن جي ضرورتن کان الڳ ڪيو ويو آهي (حقيقي وقت جي آپريشن لاءِ ضروري حساب هڪ واحد سي پي يو ڪور تي ڪيو ويندو آهي).

Facebook شايع ڪري ٿو EnCodec آڊيو ڪوڊيڪ مشين لرننگ استعمال ڪندي


جو ذريعو: opennet.ru

تبصرو شامل ڪريو