Google သည် Lyra V2 open source audio codec ကို ထုတ်ပြန်ခဲ့သည်။

Google သည် အလွန်နှေးကွေးသော ဆက်သွယ်ရေးလမ်းကြောင်းများထက် အမြင့်ဆုံး အသံအရည်အသွေးကို ရရှိရန် စက်သင်ယူမှုနည်းပညာများကို အသုံးပြုသည့် Lyra V2 အသံကုဒ်ဒက်ကို မိတ်ဆက်ခဲ့သည်။ ဗားရှင်းအသစ်တွင် အာရုံကြောကွန်ရက်ဗိသုကာအသစ်၊ အပိုပလပ်ဖောင်းများအတွက် ပံ့ပိုးမှု၊ တိုးချဲ့ဘစ်နှုန်းထိန်းချုပ်နိုင်မှု၊ စွမ်းဆောင်ရည်မြှင့်တင်မှုနှင့် ပိုမိုမြင့်မားသော အသံအရည်အသွေးတို့ ပါဝင်သည်။ ရည်ညွှန်းကုဒ်အကောင်အထည်ဖော်မှုကို C++ ဖြင့်ရေးသားထားပြီး Apache 2.0 လိုင်စင်အောက်တွင် ဖြန့်ဝေထားသည်။

နိမ့်သောအမြန်နှုန်းဖြင့် ထုတ်လွှင့်သော အသံဒေတာများ၏ အရည်အသွေးနှင့် ပတ်သက်၍ Lyra သည် ဒစ်ဂျစ်တယ်အချက်ပြလုပ်ဆောင်ခြင်းနည်းလမ်းများကို အသုံးပြုသည့် ရိုးရာကုဒ်ဒစ်များထက် သိသိသာသာသာလွန်သည်။ အကန့်အသတ်ရှိသော အချက်အလက်ပမာဏရှိသော အခြေအနေများတွင် အရည်အသွေးမြင့် အသံထုတ်လွှင့်မှုရရှိစေရန်၊ သမားရိုးကျ အသံချုံ့ခြင်းနှင့် အချက်ပြပြောင်းလဲခြင်းနည်းလမ်းများအပြင်၊ Lyra သည် ပျောက်ဆုံးနေသော အချက်အလက်များကို အခြေခံ၍ ပျောက်ဆုံးနေသော အချက်အလက်များကို ပြန်လည်ဖန်တီးနိုင်စေမည့် စက်သင်ယူမှုစနစ်အပေါ် အခြေခံသည့် စကားပြောပုံစံကို အသုံးပြုထားသည်။ ပုံမှန် စကားပြော လက္ခဏာများ။

ကုဒ်ဒက်တွင် ကုဒ်ဒါတစ်ခုနှင့် ဒီကုဒ်ဒါတစ်ခု ပါဝင်သည်။ ကုဒ်ပြောင်းကိရိယာ၏ အယ်လဂိုရီသမ်သည် 20 မီလီစက္ကန့်တိုင်း အသံဒေတာဘောင်များကို ထုတ်ယူကာ ၎င်းတို့ကို ချုံ့ကာ 3.2kbps မှ 9.2kbps အထိ ဘစ်နှုန်းဖြင့် ကွန်ရက်တစ်ခုမှ လက်ခံသူထံ ပို့လွှတ်ခြင်းအထိ အကျုံးဝင်ပါသည်။ လက်ခံသူအဆုံးတွင်၊ ဒီကုဒ်ဒါသည် ထုတ်လွှင့်သော အသံဘောင်ဘောင်များကို အခြေခံ၍ မူရင်းစကားပြောအချက်ပြမှုကို ပြန်လည်တည်ဆောက်ရန် မျိုးဆက်သစ်ပုံစံကို အသုံးပြုသည်၊ ၎င်းသည် မတူညီသောကြိမ်နှုန်းအပိုင်းအခြားများရှိ စကားပြော၏စွမ်းအင်ဝိသေသလက္ခဏာများကိုထည့်သွင်းစဉ်းစားသည့် logarithmic chalk spectrograms များပါ၀င်သည်။ လူသား၏ အကြားအာရုံ ခံယူချက်။

Lyra V2 သည် SoundStream convolutional neural network ကို အခြေခံ၍ မျိုးဆက်သစ် မော်ဒယ်ကို အသုံးပြုထားပြီး၊ ပါဝါနည်းသော စနစ်များတွင်ပင် အချိန်နှင့်တပြေးညီ ကုဒ်လုပ်ခြင်းအား နည်းပါးသော တွက်ချက်မှုဆိုင်ရာ လိုအပ်ချက်များပါရှိသည်။ အသံကို ထုတ်လုပ်ရန် အသုံးပြုသည့် မော်ဒယ်သည် ဘာသာစကား 90 ကျော်ဖြင့် နာရီပေါင်း ရာထောင်ပေါင်းများစွာ အသံသွင်းခြင်းကို အသုံးပြု၍ လေ့ကျင့်ထားသည်။ မော်ဒယ်ကို လုပ်ဆောင်ရန် TensorFlow Lite ကို အသုံးပြုသည်။ အဆိုပြုထားသည့် အကောင်အထည်ဖော်မှု၏ စွမ်းဆောင်ရည်သည် စျေးနှုန်းနိမ့်သော စမတ်ဖုန်းများတွင် စကားပြောကုဒ်သွင်းခြင်းနှင့် စကားဝှက်ခြင်းအတွက် လုံလောက်ပါသည်။

မတူညီသော မျိုးဆက်သစ်မော်ဒယ်ကို အသုံးပြုခြင်းအပြင်၊ ဗားရှင်းအသစ်သည် ဒေတာမပို့မီနှင့် လက်ခံသူဘက်ခြမ်းတွင် လုပ်ဆောင်သည့် RVQ (Residual Vector Quantizer) quantizer နှင့် လင့်ခ်များ၏ codec ဗိသုကာတွင် ပါ၀င်ခြင်းအတွက် မှတ်သားဖွယ်ကောင်းပါသည်။ ဒေတာလက်ခံပြီးနောက်။ quantizer သည် codec မှထုတ်လုပ်သော parameters များကို packets အစုံများအဖြစ်သို့ ပြောင်းပြီး ရွေးချယ်ထားသော bitrate နှင့် ဆက်စပ်၍ အချက်အလက်များကို ကုဒ်လုပ်ပါသည်။ ကွဲပြားခြားနားသောအရည်အသွေးအဆင့်များကိုပေးဆောင်ရန်၊ ဘစ်နှုန်းသုံးမျိုး (3.2 kps၊ 6 kbps နှင့် 9.2 kbps) အတွက် quantizer များကို ဘစ်နှုန်းမြင့်လေ၊ အရည်အသွေးပိုကောင်းသော်လည်း bandwidth လိုအပ်ချက်များ ပိုများလေဖြစ်သည်။

Google သည် Lyra V2 open source audio codec ကို ထုတ်ပြန်ခဲ့သည်။

ဗိသုကာအသစ်သည် အချက်ပြထုတ်လွှင့်မှုနှောင့်နှေးမှုကို 100 မှ 20 မီလီစက္ကန့်သို့ လျှော့ချထားသည်။ နှိုင်းယှဉ်ရန်အတွက်၊ WebRTC အတွက် Opus codec သည် စမ်းသပ်ထားသော ဘစ်နှုန်းများတွင် 26.5ms၊ 46.5ms နှင့် 66.5ms ရှိသော latencies ကို သရုပ်ပြခဲ့သည်။ ကုဒ်ဒါနှင့် ဒီကုဒ်ဒါ၏ စွမ်းဆောင်ရည်သည်လည်း ယခင်ဗားရှင်းနှင့် နှိုင်းယှဉ်ပါက 5 ဆအထိ သိသိသာသာ တိုးတက်လာပါသည်။ ဥပမာအားဖြင့်၊ Pixel 6 Pro စမတ်ဖုန်းတွင်၊ ကုဒ်ဒစ်အသစ်သည် 20 ms တွင် 0.57-ms နမူနာကို ကုဒ်လုပ်ကာ အချိန်နှင့်တပြေးညီ ထုတ်လွှင့်မှုအတွက် လိုအပ်သည်ထက် 35 ဆ ပိုမြန်သည်။

စွမ်းဆောင်ရည်အပြင်၊ MUSHRA စကေးအရ၊ Lyra V3.2 ကုဒ်ဒက်ကို အသုံးပြုသည့်အခါ ဘစ်နှုန်း 6 kbps၊ 9.2 kbps နှင့် 2 kbps တို့တွင် စကားပြောအရည်အသွေး 10 kbps နှင့် 13 kbps တို့သည် အသံပြန်လည်ထူထောင်မှုအရည်အသွေးကို မြှင့်တင်နိုင်သည် Opus codec ကိုသုံးသောအခါ kbps နှင့် 14 kbps ။

source: opennet.ru

မှတ်ချက် Add