Google သည် ချိတ်ဆက်မှုအရည်အသွေးညံ့ဖျင်းသော စကားပြောသံထုတ်လွှင့်မှုအတွက် Lyra အသံကုဒ်ဒက်ကို ထုတ်ဝေခဲ့သည်။

Google သည် အလွန်နှေးကွေးသော ဆက်သွယ်ရေးလမ်းကြောင်းများကို အသုံးပြုနေသော်လည်း အမြင့်ဆုံးအသံအရည်အသွေးကို ရရှိစေရန် အကောင်းဆုံးပြုလုပ်ထားသော အသံကုဒ်ဒက်အသစ် Lyra ကို မိတ်ဆက်ပေးခဲ့သည်။ Lyra အကောင်အထည်ဖော်မှုကုဒ်ကို C++ ဖြင့်ရေးသားထားပြီး Apache 2.0 လိုင်စင်အောက်တွင် ဖွင့်ထားသော်လည်း လည်ပတ်မှုအတွက် လိုအပ်သောမှီခိုမှုများကြားတွင် သင်္ချာတွက်ချက်မှုများအတွက် kernel အကောင်အထည်ဖော်မှုနှင့်အတူ မူပိုင်စာကြည့်တိုက်တစ်ခုရှိနေသည်။ မူပိုင်စာကြည့်တိုက်သည် ယာယီဖြစ်ကြောင်း မှတ်သားထားပါသည် - အနာဂတ်တွင် Google သည် ပွင့်လင်းသော အစားထိုးမှုကို တီထွင်ပြီး အမျိုးမျိုးသော ပလက်ဖောင်းများအတွက် ပံ့ပိုးမှုပေးမည်ဟု ကတိပြုပါသည်။

နိမ့်သောအမြန်နှုန်းဖြင့် ထုတ်လွှင့်သော အသံဒေတာများ၏ အရည်အသွေးနှင့် ပတ်သက်၍ Lyra သည် ဒစ်ဂျစ်တယ်အချက်ပြလုပ်ဆောင်ခြင်းနည်းလမ်းများကို အသုံးပြုသည့် ရိုးရာကုဒ်ဒစ်များထက် သိသိသာသာသာလွန်သည်။ အကန့်အသတ်ရှိသော အချက်အလက်ပမာဏရှိသော အခြေအနေများတွင် အရည်အသွေးမြင့် အသံထုတ်လွှင့်မှုရရှိစေရန်၊ သမားရိုးကျ အသံချုံ့ခြင်းနှင့် အချက်ပြပြောင်းလဲခြင်းနည်းလမ်းများအပြင်၊ Lyra သည် ပျောက်ဆုံးနေသော အချက်အလက်များကို အခြေခံ၍ ပျောက်ဆုံးနေသော အချက်အလက်များကို ပြန်လည်ဖန်တီးနိုင်စေမည့် စက်သင်ယူမှုစနစ်အပေါ် အခြေခံသည့် စကားပြောပုံစံကို အသုံးပြုထားသည်။ ပုံမှန် စကားပြော လက္ခဏာများ။ အသံကိုထုတ်လုပ်ရန်အသုံးပြုသည့်ပုံစံသည် ဘာသာစကားပေါင်း 70 ကျော်ဖြင့် နာရီပေါင်းထောင်ပေါင်းများစွာကြာ အသံသွင်းခြင်းများကိုအသုံးပြု၍ လေ့ကျင့်ပေးခဲ့ပါသည်။

Google သည် ချိတ်ဆက်မှုအရည်အသွေးညံ့ဖျင်းသော စကားပြောသံထုတ်လွှင့်မှုအတွက် Lyra အသံကုဒ်ဒက်ကို ထုတ်ဝေခဲ့သည်။

ကုဒ်ဒက်တွင် ကုဒ်ဒါတစ်ခုနှင့် ဒီကုဒ်ဒါတစ်ခု ပါဝင်သည်။ ကုဒ်ပြောင်းကိရိယာ၏ အယ်လဂိုရီသမ်သည် 40 မီလီစက္ကန့်တိုင်း အသံဒေတာဘောင်များကို ထုတ်ယူကာ ၎င်းတို့ကို ချုံ့ကာ ကွန်ရက်မှတစ်ဆင့် လက်ခံသူထံ ပို့လွှတ်ခြင်းအထိ အကျုံးဝင်သည်။ တစ်စက္ကန့်လျှင် 3 ကီလိုဘစ် အမြန်နှုန်းရှိသော ဆက်သွယ်ရေးချန်နယ်တစ်ခုသည် ဒေတာပေးပို့မှုအတွက် လုံလောက်ပါသည်။ ထုတ်ယူထားသော အသံဆိုင်ရာ ကန့်သတ်ချက်များတွင် မတူညီသော ကြိမ်နှုန်းအကွာအဝေးရှိ စကားပြောများ၏ စွမ်းအင်ဝိသေသလက္ခဏာများကို ထည့်သွင်းစဉ်းစားကာ လူသား၏ နားအကြားအာရုံခံယူမှုပုံစံကို ထည့်သွင်းစဉ်းစားရန် ပြင်ဆင်ထားသည့် လော့ဂရစ်သမ်မဲလ် ရောင်စထရိုဂရမ်များ ပါဝင်သည်။

Google သည် ချိတ်ဆက်မှုအရည်အသွေးညံ့ဖျင်းသော စကားပြောသံထုတ်လွှင့်မှုအတွက် Lyra အသံကုဒ်ဒက်ကို ထုတ်ဝေခဲ့သည်။

ဒီကုဒ်ကိရိယာသည် ထုတ်လွှင့်သော အသံဆိုင်ရာ ကန့်သတ်ချက်များကို အခြေခံ၍ စကားပြောအချက်ပြမှုကို ပြန်လည်ဖန်တီးပေးသည့် မျိုးဆက်သစ်ပုံစံကို အသုံးပြုသည်။ တွက်ချက်မှုများ၏ ရှုပ်ထွေးမှုကို လျှော့ချရန်အတွက်၊ ထပ်တလဲလဲ အာရုံကြောကွန်ရက်ကို အခြေခံ၍ ပေါ့ပါးသော မော်ဒယ်ကို WaveRNN စကားပြောပေါင်းစပ်မှုပုံစံ၏ မူကွဲဖြစ်သော၊ နိမ့်သောနမူနာအကြိမ်နှုန်းကို အသုံးပြုသော်လည်း မတူညီသော ကြိမ်နှုန်းအပိုင်းအခြားများတွင် အပြိုင်အချက်ပြမှုများကို ထုတ်ပေးပါသည်။ ထို့နောက် သတ်မှတ်ထားသော နမူနာနှုန်းနှင့် ကိုက်ညီသော တစ်ခုတည်းသော အထွက်အချက်ပြလှိုင်းများကို ထုတ်လုပ်ရန် ထွက်ပေါ်လာသော အချက်ပြမှုများကို ပေါင်းစပ်ထားသည်။

64-bit ARM ပရိုဆက်ဆာများတွင် ရရှိနိုင်သော အထူးပြုပရိုဆက်ဆာညွှန်ကြားချက်များကို အရှိန်မြှင့်ရန်အတွက်လည်း အသုံးပြုပါသည်။ ရလဒ်အနေဖြင့် စက်သင်ယူမှုကို အသုံးပြုသော်လည်း၊ Lyra ကုဒ်ဒက်ကို အလယ်အလတ်တန်းစားစမတ်ဖုန်းများပေါ်တွင် အချိန်နှင့်တပြေးညီ စကားကုဒ်ဝှက်ခြင်းနှင့် အသံဝှက်ခြင်းအတွက် အသုံးပြုနိုင်ပြီး အချက်ပြထုတ်လွှင့်မှုကြာချိန် 90 မီလီစက္ကန့်ကို ပြသထားသည်။

source: opennet.ru

မှတ်ချက် Add