فیسبوک د ماشین زده کړې په کارولو سره د EnCodec آډیو کوډیک خپروي

میټا/فیسبوک (په روسیه کې منع شوی) یو نوی آډیو کوډیک معرفي کړ، EnCodec، کوم چې د کیفیت له لاسه ورکولو پرته د کمپریشن تناسب زیاتولو لپاره د ماشین زده کړې میتودونه کاروي. کوډیک دواړه په ریښتیني وخت کې د آډیو سټینګ کولو او وروسته په فایلونو کې د خوندي کولو لپاره کوډ کولو لپاره کارول کیدی شي. د EnCodec حوالې پلي کول د PyTorch چوکاټ په کارولو سره په Python کې لیکل شوي او یوازې د غیر تجارتي کارونې لپاره د CC BY-NC 4.0 (Creative Commons Attribution-Non Commercial) جواز لاندې جواز لري.

دوه چمتو شوي ماډلونه د ډاونلوډ لپاره وړاندیز شوي:

  • یو لامل ماډل چې د 24 kHz نمونې اخیستنې نرخ کاروي ، یوازې د مونوفونیک آډیو ملاتړ کوي ، او په متنوع آډیو ډیټا کې روزل کیږي (د وینا کوډ کولو لپاره مناسب). ماډل د 1.5، 3، 6، 12 او 24 kbps بټ نرخونو کې د لیږد لپاره د آډیو ډیټا بسته کولو لپاره کارول کیدی شي.
  • یو غیر علت ماډل د 48 kHz نمونې نرخ کاروي ، د سټیریو آډیو ملاتړ کوي او یوازې په میوزیک کې روزل شوي. ماډل د 3، 6، 12 او 24 kbps بټریټ ملاتړ کوي.

د هر ماډل لپاره، د اضافي ژبې ماډل چمتو شوی، کوم چې تاسو ته اجازه درکوي د کیفیت له لاسه ورکولو پرته د کمپریشن تناسب (تر 40٪ پورې) کې د پام وړ زیاتوالی ترلاسه کړئ. د پخوانیو پرمختللو پروژو برخلاف چې د آډیو کمپریشن لپاره د ماشین زده کړې میتودونو په کارولو سره ، EnCodec نه یوازې د وینا بسته کولو لپاره کارول کیدی شي ، بلکه د 48 kHz نمونې نرخ سره د میوزیک کمپریشن لپاره هم کارول کیدی شي ، د آډیو CDs کچې سره مطابقت لري. د نوي کوډیک پراختیا کونکو په وینا ، کله چې د MP64 ب formatې په پرتله د 3 kbps بټریټ سره لیږد کول ، دوی وکولی شول د ورته کیفیت کیفیت ساتلو سره د آډیو کمپریشن کچه شاوخوا لس ځله لوړه کړي (د مثال په توګه ، کله چې کارول کیږي) MP3، د 64 kbps بینډ ویت ته اړتیا ده، د دې سره د لیږد لپاره په EnCodec کې ورته کیفیت 6 kbps کافی دی).

د کوډیک جوړښت په عصبي شبکه کې د "ټرانسفارمر" معمارۍ سره جوړ شوی او د څلورو لینکونو پراساس دی: کوډونکی ، کوانټایزر ، کوډ کونکی او امتیاز کونکی. کوډ کونکی د غږ ډیټا پیرامیټونه استخراجوي او بسته شوي جریان په ټیټ فریم نرخ بدلوي. کوانټایزر (RVQ، Residual Vector Quantizer) د انکوډر لخوا د جریان محصول د پاکټونو په سیټونو کې بدلوي، د ټاکل شوي بټریټ پراساس معلومات فشاروي. د کوانټایزر محصول د ډیټا کمپریس شوی نمایش دی چې په شبکه کې د لیږد یا ډیسک ته خوندي کولو لپاره مناسب دی.

ډیکوډر د ډیټا فشار شوي نمایش ډیکوډ کوي او اصلي غږ څپې بیا رغوي. تبعیض کونکی د تولید شوي نمونو کیفیت ښه کوي ، د انسان د اوریدونکي ادراک ماډل په پام کې نیولو سره. د کیفیت او بټریټ کچې ته په پام سره، د کوډ کولو او کوډ کولو لپاره کارول شوي ماډلونه د لږو سرچینو اړتیاو سره توپیر لري (د ریښتیني وخت عملیاتو لپاره اړین محاسبې په یو واحد CPU کور کې ترسره کیږي).

فیسبوک د ماشین زده کړې په کارولو سره د EnCodec آډیو کوډیک خپروي


سرچینه: opennet.ru

Add a comment