Facebook သည် စက်သင်ယူမှုကို အသုံးပြု၍ EnCodec အသံကုဒ်ဒက်ကို ထုတ်ဝေသည်။

Meta/Facebook (ရုရှားဖက်ဒရေးရှင်းတွင်တားမြစ်ထားသည်) သည် အရည်အသွေးမဆုံးရှုံးဘဲ compression အချိုးကိုတိုးမြှင့်ရန် စက်သင်ယူမှုနည်းလမ်းများကိုအသုံးပြုသည့် EnCodec အသစ်ကိုမိတ်ဆက်ပေးခဲ့သည်။ ကုဒ်ဒက်ကို အချိန်နှင့်တပြေးညီ အသံလွှင့်ခြင်းအတွက် နှင့် ဖိုင်များကို နောက်ပိုင်းတွင် သိမ်းဆည်းရန်အတွက် ကုဒ်ပြောင်းခြင်းအတွက် နှစ်မျိုးလုံးအသုံးပြုနိုင်ပါသည်။ EnCodec ရည်ညွှန်းအကောင်အထည်ဖော်မှုကို PyTorch မူဘောင်ကိုအသုံးပြု၍ Python ဖြင့်ရေးသားထားပြီး စီးပွားဖြစ်မဟုတ်သောအသုံးပြုမှုအတွက် CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) လိုင်စင်အောက်တွင် လိုင်စင်ရထားသည်။

အဆင်သင့်လုပ်ထားသော မော်ဒယ်နှစ်ခုကို ဒေါင်းလုဒ်လုပ်ရန် ကမ်းလှမ်းသည်-

  • monophonic အသံကိုသာ ပံ့ပိုးပေးသည့် 24 kHz နမူနာနှုန်းကို အသုံးပြု၍ အကြောင်းရင်း မော်ဒယ်တစ်ခု၊ မတူကွဲပြားသော အသံဒေတာကို လေ့ကျင့်သင်ကြားပေးသည် (စကားပြောကုဒ်အတွက် သင့်လျော်သည်)။ မော်ဒယ်ကို 1.5၊ 3၊ 6၊ 12 နှင့် 24 kbps ဘစ်နှုန်းများဖြင့် ထုတ်လွှင့်ရန်အတွက် အသံဒေတာကို ထုပ်ပိုးရန်အတွက် အသုံးပြုနိုင်သည်။
  • အကြောင်းရင်းမဟုတ်သော မော်ဒယ်တစ်ခုသည် နမူနာနှုန်း 48 kHz ကို အသုံးပြု၍ စတီရီယိုအသံကို ပံ့ပိုးပေးပြီး ဂီတတွင်သာ လေ့ကျင့်ထားသည်။ မော်ဒယ်သည် 3၊ 6၊ 12 နှင့် 24 kbps တို့၏ ဘစ်နှုန်းများကို ပံ့ပိုးပေးသည်။

မော်ဒယ်တစ်ခုစီအတွက်၊ အရည်အသွေးမဆုံးရှုံးဘဲ ဖိသိပ်မှုအချိုး (40%) အထိ သိသာထင်ရှားစွာ တိုးမြင့်နိုင်စေမည့် နောက်ထပ်ဘာသာစကားမော်ဒယ်တစ်ခုကို ပြင်ဆင်ထားပါသည်။ အသံချုံ့ခြင်းအတွက် စက်သင်ယူမှုနည်းလမ်းများကို အသုံးပြုထားသော ယခင်တီထွင်ထားသည့် ပရောဂျက်များနှင့်မတူဘဲ၊ EnCodec အား စကားစုထုပ်ပိုးခြင်းအတွက်သာမက အသံ CD များအဆင့်နှင့် သက်ဆိုင်သည့် နမူနာနှုန်း 48 kHz ဖြင့် တေးဂီတချုံ့ရန်အတွက်လည်း အသုံးပြုနိုင်ပါသည်။ codec အသစ်၏ developer များအဆိုအရ၊ MP64 ဖော်မတ်နှင့် နှိုင်းယှဉ်ပါက bitrate 3 kbps ဖြင့် ထုတ်လွှင့်သောအခါတွင် ၎င်းတို့သည် အရည်အသွေးတူညီသောအဆင့်ကို ထိန်းသိမ်းထားစဉ်တွင် အသံဖိုင်ချုံ့မှုဒီဂရီကို ဆယ်ဆခန့်တိုးနိုင်သည် (ဥပမာ၊ အသုံးပြုသည့်အခါ၊ MP3၊ လှိုင်းနှုန်း 64 kbps လိုအပ်သည်၊ EnCodec တွင် တူညီသော အရည်အသွေးဖြင့် ထုတ်လွှင့်မှုအတွက် 6 kbps လုံလောက်သည်)။

ကုဒ်ဒက်ဗိသုကာကို “အသွင်ပြောင်းသူ” ဗိသုကာဖြင့် အာရုံကြောကွန်ရက်ပေါ်တွင် တည်ဆောက်ထားပြီး ကုဒ်ဒါ၊ ကုဒ်ဒါ၊ ကုဒ်ဒါနှင့် ခွဲခြားဆက်ဆံသည့် လင့်လေးခုအပေါ် အခြေခံထားသည်။ ကုဒ်ပြောင်းကိရိယာသည် အသံဒေတာ၏ ကန့်သတ်ချက်များကို ထုတ်ယူပြီး ထုပ်ပိုးထားသော စီးကြောင်းကို နိမ့်သော ဖရိမ်နှုန်းအဖြစ်သို့ ပြောင်းလဲသည်။ quantizer (RVQ၊ Residual Vector Quantizer) သည် ကုဒ်ကုဒ်ဒါမှ stream output ကို အစုံလိုက်များအဖြစ်သို့ ပြောင်းလဲကာ ရွေးချယ်ထားသော ဘစ်နှုန်းအပေါ် အခြေခံ၍ အချက်အလက်များကို ချုံ့သည်။ quantizer ၏ output သည် ကွန်ရက်တစ်ခုမှ ထုတ်လွှင့်ခြင်း သို့မဟုတ် disk သို့ သိမ်းဆည်းရန်အတွက် သင့်လျော်သော ဒေတာကို ချုံ့ထားသော ကိုယ်စားပြုမှုဖြစ်သည်။

ဒီကုဒ်ဒါသည် ဒေတာ၏ ဖိသိပ်ထားသော ကိုယ်စားပြုမှုကို ကုဒ်လုပ်ပြီး မူရင်းအသံလှိုင်းကို ပြန်လည်တည်ဆောက်သည်။ ခွဲခြားဆက်ဆံသူသည် လူသား၏ နားအကြားအာရုံခံယူမှုပုံစံကို ထည့်သွင်းစဉ်းစား၍ ထုတ်လုပ်ထားသော နမူနာများ၏ အရည်အသွေးကို မြှင့်တင်ပေးသည်။ အရည်အသွေးနှင့် ဘစ်နှုန်းအဆင့် မည်သို့ပင်ရှိစေကာမူ၊ ကုဒ်နှင့် ကုဒ်ရေးခြင်းအတွက် အသုံးပြုသည့် မော်ဒယ်များကို ကျိုးနွံသော အရင်းအမြစ်လိုအပ်ချက်များဖြင့် ခွဲခြားထားပါသည် (အချိန်နှင့်တပြေးညီ လုပ်ဆောင်မှုအတွက် လိုအပ်သော တွက်ချက်မှုများကို CPU core တစ်ခုတည်းတွင် လုပ်ဆောင်သည်)။

Facebook သည် စက်သင်ယူမှုကို အသုံးပြု၍ EnCodec အသံကုဒ်ဒက်ကို ထုတ်ဝေသည်။


source: opennet.ru

မှတ်ချက် Add