တိတ်တိတ်စကား မှတ်သားမှုနှင့် ဘာသာပြန်စနစ်အတွက် ကုဒ်ကို ဖွင့်လိုက်ပါပြီ။

ဉာဏ်ရည်တုနယ်ပယ်တွင် အများသူငှာ ပရောဂျက်များကို ဖော်ဆောင်ပေးသည့် OpenAI ပရောဂျက်သည် တိတ်တိတ်စကား မှတ်သားမှုစနစ်နှင့် ပတ်သက်သည့် တိုးတက်မှုများကို ထုတ်ဝေခဲ့သည်။ အင်္ဂလိပ်လို ပြောဆိုမှုအတွက် စနစ်သည် လူသားအသိအမှတ်ပြုမှုနှင့် နီးစပ်သော အလိုအလျောက် အသိအမှတ်ပြုမှု၏ တိကျမှုနှင့် ယုံကြည်စိတ်ချရမှု အဆင့်များကို ပေးဆောင်သည်ဟု အခိုင်အမာဆိုထားသည်။ PyTorch မူဘောင်အပေါ် အခြေခံ၍ ရည်ညွှန်းအကောင်အထည်ဖော်မှုအတွက် ကုဒ်နှင့် လေ့ကျင့်ပြီးသား မော်ဒယ်များ အစုံလိုက်၊ အသုံးပြုရန် အသင့်ဖြစ်နေပြီကို ဖွင့်လှစ်လိုက်ပါပြီ။ ကုဒ်ကို MIT လိုင်စင်အောက်တွင် ဖွင့်ထားသည်။

မော်ဒယ်ကိုလေ့ကျင့်ရန်၊ မတူညီသောဘာသာစကားများနှင့် ဘာသာရပ်နယ်ပယ်များပါဝင်သော စုစည်းမှုအများအပြားမှ စုဆောင်းထားသော စကားပြောဒေတာ နာရီပေါင်း 680 ကို အသုံးပြုခဲ့သည်။ လေ့ကျင့်ရေးတွင်ပါဝင်သော စကားပြောဒေတာ၏ 1/3 ခန့်သည် အင်္ဂလိပ်မဟုတ်သော အခြားဘာသာစကားများဖြစ်သည်။ အဆိုပြုထားသောစနစ်သည် accented အသံထွက်ခြင်း၊ နောက်ခံဆူညံသံနှင့် နည်းပညာဆိုင်ရာ ဗန်းစကားအသုံးပြုခြင်းကဲ့သို့သော အခြေအနေများကို မှန်ကန်စွာ ကိုင်တွယ်ပေးပါသည်။ စကားသံကို စာသားအဖြစ် ကူးယူဖော်ပြခြင်းအပြင်၊ စနစ်သည် မည်သည့်ဘာသာစကားမှ နှုတ်ထွက်စကားကို အင်္ဂလိပ်သို့ ဘာသာပြန်ဆိုနိုင်ပြီး အော်ဒီယိုစီးကြောင်းတွင် စကားပြော၏အသွင်အပြင်ကို သိရှိနိုင်သည်။

မော်ဒယ်များကို ကိုယ်စားပြုမှုနှစ်ခုဖြင့် ဖွဲ့စည်းထားသည်- အင်္ဂလိပ်ဘာသာစကားအတွက် စံနမူနာတစ်ခုနှင့် ရုရှား၊ ယူကရိန်းနှင့် ဘီလာရုဘာသာစကားများကို ပံ့ပိုးပေးသည့် ဘာသာစကားပေါင်းစုံ မော်ဒယ်တစ်ခု။ တစ်ဖန်၊ ကိုယ်စားပြုမှုတစ်ခုစီကို မော်ဒယ်တွင်ပါရှိသော အရွယ်အစားနှင့် ကန့်သတ်ချက်များ အရေအတွက် ကွဲပြားသည်။ အရွယ်အစားပိုကြီးလေ၊ အသိအမှတ်ပြုမှုအရည်အသွေး ကြီးမားလေ၊ GPU ဗီဒီယိုမှတ်ဉာဏ်၏ အရွယ်အစားအတွက် လိုအပ်ချက်များ မြင့်မားလေဖြစ်ပြီး စွမ်းဆောင်ရည် နိမ့်လေဖြစ်သည်။ ဥပမာအားဖြင့်၊ အနိမ့်ဆုံးရွေးချယ်မှုတွင် ကန့်သတ်ဘောင် ၃၉ သန်းပါဝင်ပြီး ဗီဒီယိုမှတ်ဉာဏ် 5 GB လိုအပ်ပြီး အမြင့်ဆုံးတွင် ကန့်သတ်ဘောင်ပေါင်း 39 သန်းပါဝင်ပြီး ဗီဒီယိုမှတ်ဉာဏ် 1 GB လိုအပ်သည်။ အနိမ့်ဆုံးရွေးချယ်မှုသည် အမြင့်ဆုံးထက် ၃၂ ​​ဆ ပိုမြန်သည်။

တိတ်တိတ်စကား မှတ်သားမှုနှင့် ဘာသာပြန်စနစ်အတွက် ကုဒ်ကို ဖွင့်လိုက်ပါပြီ။

စနစ်သည် တစ်ခုနှင့်တစ်ခုအပြန်အလှန်အပြန်အလှန်အပြန်အလှန်အကျိုးသက်ရောက်သည့်ကုဒ်ဒါနှင့်ဒီကုဒ်ဒါပါဝင်သည့် Transformer neural network architecture ကိုအသုံးပြုသည်။ အသံကို စက္ကန့် 30 အပိုင်းပိုင်းများအဖြစ် ပိုင်းဖြတ်ပြီး log-Mel spectrogram အဖြစ်ပြောင်းလဲကာ ကုဒ်ဒါသို့ ပေးပို့သည်။ ကုဒ်ပြောင်းကိရိယာ၏ အထွက်အားသည် ဘာသာစကားရှာဖွေတွေ့ရှိမှု၊ စကားစုများ၏ အသံထွက်၏အချိန်ဇယားကို စာရင်းပြုစုခြင်း၊ စကားစုများ၏ စာသားမှတ်တမ်းများကဲ့သို့သော ယေဘူယျမော်ဒယ်တစ်ခုတွင်၊ ယေဘုယျပုံစံတစ်ခုတွင် စာသားကိုယ်စားပြုမှုကို ရောနှောထားသော စာသားကိုယ်စားပြုမှုကို ခန့်မှန်းပေးသည့် ဒီကုဒ်ဒါသို့ ပေးပို့သည်။ ဘာသာစကားအမျိုးမျိုးနှင့် အင်္ဂလိပ်ဘာသာသို့ ဘာသာပြန်ခြင်း။

source: opennet.ru

မှတ်ချက် Add