GitHub သည် ကုဒ်ရှာဖွေမှုနှင့် ခွဲခြမ်းစိတ်ဖြာမှုများအတွက် စက်သင်ယူမှုအသုံးပြုမှုတွင် တိုးတက်မှုများကို ဖွင့်လှစ်ထားသည်။

GitHub မိတ်ဆက်ပေးခဲ့သည် စီမံကိန်း၏ CodeSearchNetပရိုဂရမ်းမင်းဘာသာစကားအမျိုးမျိုးဖြင့် ကုဒ်များကို ပိုင်းခြားခြင်း၊ ခွဲခြားခြင်းနှင့် ခွဲခြမ်းစိတ်ဖြာခြင်းအတွက် လိုအပ်သော စက်သင်ယူမှုမော်ဒယ်များနှင့် ဒေတာအစုံများကို ပြင်ဆင်ပေးပါသည်။ CodeSearchNet နှင့် ဆင်တူသည်။ IMAGEnet၊ ကုဒ်လုပ်သည်ကို တရားဝင်ဖြစ်စေမည့် မှတ်စာများပါသည့် ကုဒ်အတိုအထွာများ အစုအဝေးကြီးတစ်ခု ပါဝင်သည်။ လေ့ကျင့်ရေးမော်ဒယ်များနှင့် CodeSearchNet အသုံးပြုခြင်းဆိုင်ရာ နမူနာများအတွက် အစိတ်အပိုင်းများကို Tensorflow မူဘောင်ကို အသုံးပြု၍ Python တွင် ရေးသားထားသည်။ ဖြန့်ဝေသည် MIT လိုင်စင်အောက်တွင်။

CodeSearchNet ကို ဖန်တီးသောအခါ၊ သဘာဝဘာသာစကား စာသားခွဲခြမ်းစိတ်ဖြာမှုနည်းပညာများကို အသုံးပြုခဲ့ပြီး စက်သင်ယူမှုစနစ်များသည် ပေါင်းစပ်အင်္ဂါရပ်များသာမက ကုဒ်ဖြင့်လုပ်ဆောင်သည့် လုပ်ဆောင်ချက်များ၏ အဓိပ္ပါယ်ကိုလည်း ထည့်သွင်းစဉ်းစားနိုင်စေပါသည်။ GitHub စနစ် လျှောက်ထားခဲ့သည် queries on ကို အသုံးပြု၍ semantic ကုဒ်ရှာဖွေမှု စုစည်းမှုဆိုင်ရာ လက်တွေ့စမ်းသပ်မှုများတွင် သဘာဝဘာသာစကား (ဥပမာ၊ "စာကြောင်းများစာရင်းကို စီရန်" ကိုတောင်းဆိုသောအခါ၊ သက်ဆိုင်ရာ algorithms ၏အကောင်အထည်ဖော်မှုနှင့်အတူ ကုဒ်ကိုပြသသည်)။

အဆိုပြုထားသောဒေတာအတွဲတွင် လက်ရှိဖွင့်ထားသောစာကြည့်တိုက်များ၏ရင်းမြစ်စာသားများကိုအခြေခံ၍ပြင်ဆင်ထားသည့်ကုဒ်မှတ်ချက်လင့်ခ်ပေါင်း 2 သန်းကျော်ပါဝင်သည်။ ကုဒ်သည် တစ်ဦးချင်းစီ လုပ်ဆောင်ချက် သို့မဟုတ် နည်းလမ်းများ၏ အရင်းအမြစ်စာသားကို ဖုံးအုပ်ထားပြီး မှတ်ချက်တွင် လုပ်ဆောင်ချက်များက လုပ်ဆောင်ချက်များကို ဖော်ပြသည် (အသေးစိတ်စာရွက်စာတမ်းများကို ပေးဆောင်ထားသည်)။ လက်ရှိတွင် ဒေတာအတွဲများကို Python၊ JavaScript၊ Ruby၊ Go၊ Java နှင့် PHP အတွက် ပြင်ဆင်ထားပါသည်။ ဥပမာများ အပါအဝင် အာရုံကြောကွန်ရက် အမျိုးအစား အမျိုးမျိုးကို လေ့ကျင့်ရန်အတွက် အဆိုပြုထားသော ဒေတာအတွဲများကို အသုံးပြုခြင်း၏ ဥပမာများကို ပေးထားပါသည်။ Neural-Bag-Of-Words, RNN, မိမိကိုယ်ကို အာရုံစိုက်ပါ။ (BERT) နှင့် 1D-CNN+Self-Attention Hybrid.

သဘာဝဘာသာစကားရှာဖွေမှု ယန္တရားများ ဖွံ့ဖြိုးတိုးတက်စေရန်၊ CodeSearchNet Challenge အစုံအလင် အပါအဝင် ထပ်မံပြင်ဆင်ထားပါသည်။
99 ပုံမှန် နည်းလမ်းများနှင့် လုပ်ဆောင်ချက်များပေါင်း 4 သန်းခန့်ကို CodeSearchNet Corpus ဒေတာအတွဲတွင် ဖြစ်နိုင်ခြေအရှိဆုံး ကုဒ်နှောင်ကြိုးများကို ဖော်ပြသည့် ကျွမ်းကျင်သူ မှတ်ချက်ပေါင်း 6 ခန့်ပါသော မေးခွန်းများ (အရွယ်အစားသတ်မှတ် 20 GB ခန့်)။ CodeSearchNet Challenge သည် သဘာဝဘာသာစကားကုဒ်ကို ရှာဖွေခြင်းအတွက် အချို့သောနည်းလမ်းများ၏ ထိရောက်မှုကို အကဲဖြတ်ရန်အတွက် စံညွှန်းတစ်ခုအဖြစ် ဆောင်ရွက်နိုင်ပါသည်။ ကိရိယာများအသုံးပြုခြင်း။ ကွမ်းခြံကုန်း ပြင်ဆင်သည်
နမူနာ ကုဒ်ရှာဖွေရေးအင်ဂျင်။

source: opennet.ru

မှတ်ချက် Add