Facebook သည် ဘာသာစကား 200 ကို အသုံးပြုနိုင်သော စက်ဘာသာပြန်ဆိုမှုပုံစံကို ဖြန့်ချိခဲ့သည်။

Facebook (ရုရှားတွင် တားမြစ်ပိတ်ပင်ထားသော) သည် အလယ်အလတ်ဘာသာပြန်ခြင်းကို ရှောင်လွှဲ၍ အလယ်အလတ်ဘာသာပြန်ဆိုခြင်းကို ရှောင်လွှဲနိုင်သော universal machine learning model ကိုဖန်တီးရန် ရည်ရွယ်သည့် NLLB (No Language Left Behind) ပရောဂျက်၏ တိုးတက်မှုများကို ထုတ်ဝေလိုက်ပါသည်။ အဆိုပြုထားသော မော်ဒယ်သည် အာဖရိကန်နှင့် သြစတြေးလျလူမျိုးများ၏ ရှားပါးဘာသာစကားများ အပါအဝင် ဘာသာစကား 200 ကျော် ပါဝင်ပါသည်။ ပရောဂျက်၏ အဆုံးစွန်သော ရည်မှန်းချက်မှာ မည်သည့်လူမျိုးအတွက်မဆို သူတို့ပြောဆိုသည့်ဘာသာစကားကို မည်သို့ပင်ဆိုစေကာမူ ဆက်သွယ်ရေးနည်းလမ်းများ ပံ့ပိုးပေးရန်ဖြစ်သည်။

မော်ဒယ်သည် ကူးယူခြင်း၊ ပြန်လည်ဖြန့်ဖြူးခြင်း၊ စိတ်ကြိုက်ပြုလုပ်ခြင်းနှင့် ဆင်းသက်ခြင်းလုပ်ငန်းများကို ခွင့်ပြုပေးသည့် Creative Commons BY-NC 4.0 လိုင်စင်အောက်တွင် လိုင်စင်ရထားပြီး၊ သင်ထည့်သွင်းတွက်ချက်ခြင်း၊ လိုင်စင်ကို ထိန်းသိမ်းထားပြီး ၎င်းကို စီးပွားဖြစ်မဟုတ်သောရည်ရွယ်ချက်များအတွက်သာ အသုံးပြုပါသည်။ မော်ဒယ်များနှင့် အလုပ်လုပ်ရန် ကိရိယာများကို MIT လိုင်စင်အောက်တွင် ပေးထားသည်။ NLLB မော်ဒယ်ကို အသုံးပြု၍ ဖွံ့ဖြိုးတိုးတက်မှုကို လှုံ့ဆော်ရန်၊ သုတေသီများအား ထောက်ပံ့ကြေးများပေးရန် ဒေါ်လာ ၂၀၀,ဝဝဝ ခွဲဝေပေးရန် ဆုံးဖြတ်ခဲ့သည်။

အဆိုပြုထားသော မော်ဒယ်ကို အသုံးပြု၍ ပရောဂျက်များ ဖန်တီးခြင်းကို ရိုးရှင်းစေရန်၊ စမ်းသပ်ခြင်းနှင့် အကဲဖြတ်ခြင်းအတွက် အသုံးပြုသည့် မော်ဒယ်များ၏ အရည်အသွေး (FLORES-200၊ NLLB-MD၊ Toxicity-200)၊ လေ့ကျင့်ရေးမော်ဒယ်များနှင့် ကုဒ်နံပါတ်များအတွက် LASER3 စာကြည့်တိုက်ကို အခြေခံထားခြင်း ( Language-Agnostic SEntence) သည် ထပ်လောင်းဖွင့်ထားသောရင်းမြစ်ဖြစ်သည်။ ကိုယ်စားပြုမှု)။ နောက်ဆုံးမော်ဒယ်ကို ဗားရှင်းနှစ်မျိုးဖြင့် ကမ်းလှမ်းသည် - အပြည့်အစုံနှင့် အတိုချုံး။ အတိုချုံးထားသောဗားရှင်းသည် အရင်းအမြစ်အနည်းငယ်လိုအပ်ပြီး သုတေသနပရောဂျက်များတွင် စမ်းသပ်အသုံးပြုရန် သင့်လျော်ပါသည်။

စက်သင်ယူမှုစနစ်များကိုအခြေခံသည့် အခြားဘာသာပြန်စနစ်များနှင့်မတူဘဲ Facebook ၏ဖြေရှင်းချက်သည် ဘာသာစကား 200 လုံးအတွက် ယေဘူယျစံနမူနာတစ်ခုကို ပေးဆောင်ထားပြီး ဘာသာစကားအားလုံးကို လွှမ်းခြုံကာ ဘာသာစကားတစ်ခုစီအတွက် သီးခြားမော်ဒယ်များအသုံးပြုရန်မလိုအပ်သည့်အတွက် မှတ်သားဖွယ်ကောင်းသည်။ ဘာသာပြန်ဆိုခြင်းကို အင်္ဂလိပ်ဘာသာသို့ အလယ်အလတ်ဘာသာပြန်ခြင်းမရှိဘဲ မူရင်းဘာသာစကားမှ ပစ်မှတ်ဘာသာစကားသို့ တိုက်ရိုက်လုပ်ဆောင်ပါသည်။ ကမ္ဘာလုံးဆိုင်ရာဘာသာပြန်စနစ်များဖန်တီးရန်အတွက် LID မော်ဒယ် (Language IDentification) ကို ထပ်မံအဆိုပြုထားသောကြောင့် အသုံးပြုသည့်ဘာသာစကားကို ဆုံးဖြတ်နိုင်စေပါသည်။ အဲဒါတွေ။ အချက်အလက်ကို မည်သည့်ဘာသာစကားဖြင့် ပံ့ပိုးပေးသည်ကို စနစ်က အလိုအလျောက် အသိအမှတ်ပြုနိုင်ပြီး ၎င်းကို အသုံးပြုသူ၏ ဘာသာစကားသို့ ဘာသာပြန်ဆိုနိုင်ပါသည်။

ဘာသာပြန်ဆိုခြင်းကို ပံ့ပိုးထားသော ဘာသာစကား 200 အနက်မှ မည်သည့်လမ်းကြောင်းတွင်မဆို ပံ့ပိုးပေးပါသည်။ မည်သည့်ဘာသာစကားများကြားမှ ဘာသာပြန်ခြင်းအရည်အသွေးကို အတည်ပြုရန်၊ FLORES-200 ရည်ညွှန်းစမ်းသပ်မှုအစုံကို ပြင်ဆင်ထားပြီး၊ ၎င်းကို အသုံးပြုသည့်အခါတွင် ဘာသာပြန်အရည်အသွေးဆိုင်ရာ သတ်မှတ်ချက်များတွင် NLLB-200 မော်ဒယ်သည် ပျမ်းမျှအားဖြင့် 44% သာလွန်ကြောင်းပြသခဲ့သည်။ စက်ဘာသာပြန်ဆိုခြင်းကို စံလူသားဘာသာပြန်ဆိုခြင်းနှင့် နှိုင်းယှဉ်ခြင်း BLEU မက်ထရစ်များ။ ရှားပါးသော အာဖရိကဘာသာစကားများနှင့် အိန္ဒိယဘာသာစကားများအတွက်၊ အရည်အသွေး သာလွန်မှုသည် 70% ရှိသည်။ အထူးပြင်ဆင်ထားသော သရုပ်ပြဆိုက်တွင် ဘာသာပြန်ခြင်း၏ အရည်အသွေးကို အမြင်အာရုံဖြင့် အကဲဖြတ်ရန် ဖြစ်နိုင်သည်။

source: opennet.ru

မှတ်ချက် Add