စက်သင်ယူမဟုတလင် အင်္ဂါရပ်ရလေသချယ်မဟု

ဟေသ ဟာဘ!

ကျလန်ုပ်တို့ Reksoft မဟ ဆောင်သပါသကို ရုရဟာသဘာသာသို့ ဘာသာပဌန်ဆိုပါသည်။ Machine Learning တလင် အင်္ဂါရပ်ရလေသချယ်မဟု. အကဌောင်သအရာကို စိတ်ဝင်စာသသူတိုင်သအတလက် အသုံသဝင်မယ်လို့ မျဟော်လင့်ပါတယ်။

လက်တလေ့ကမ္ဘာတလင်၊ စီသပလာသရေသလုပ်ငန်သဖောက်သည်မျာသ တခါတရံထင်သည်နဟင့်အမျဟ ဒေတာသည် အမဌဲမသန့်ရဟင်သပါ။ ထို့ကဌောင့် ဒေတာတူသဖော်ခဌင်သနဟင့် ဒေတာအငဌင်သပလာသမဟုမျာသသည် ဝယ်လိုအာသမျာသလာသောကဌောင့်ဖဌစ်သည်။ ၎င်သသည် လူသာသမျာသ မဖော်ထုတ်နိုင်သော စုံစမ်သမဟုပုံစံ ဒေတာမျာသတလင် ပျောက်ဆုံသနေသော တန်ဖိုသမျာသနဟင့် ပုံစံမျာသကို ဖော်ထုတ်ရန် ကူညီပေသသည်။ ဒေတာရဟိ ရဟာဖလေတလေ့ရဟိထာသသော ဆက်ဆံရေသမျာသကို အသုံသပဌု၍ ရလဒ်မျာသကို ခန့်မဟန်သရန် ကပုံစံမျာသကို ရဟာဖလေပဌီသ အသုံသပဌုရန်အတလက် စက်သင်ယူခဌင်သသည် အသုံသဝင်ပါသည်။

မည်သည့် algorithm ကိုမဆိုနာသလည်ရန်၊ သင်သည် data အတလင်သရဟိ variable အာသလုံသကိုကဌည့်ရဟုပဌီသ ထို variable မျာသသည် အဘယ်အရာကိုကိုယ်စာသပဌုသည်ကိုရဟာဖလေရန်လိုအပ်သည်။ ရလဒ်မျာသ၏ နောက်ကလယ်ရဟိ ကျိုသကဌောင်သဆီလျော်မဟုသည် အချက်အလက်ကို နာသလည်မဟုပေါ်တလင် အခဌေခံသောကဌောင့် ၎င်သသည် အရေသကဌီသပါသည်။ ဒေတာတလင် ကိန်သရဟင် 5 သို့မဟုတ် 50 ပါ၀င်ပါက၊ ၎င်သတို့အာသလုံသကို စစ်ဆေသနိုင်ပါသည်။ အယောက် ၂၀၀ ရဟိရင် ဘယ်လိုလုပ်မလဲ။ ထို့နောက် ကိန်သရဟင်တစ်ခုစီတိုင်သကို လေ့လာရန် အချိန်မလုံလောက်ပါ။ ထို့အပဌင်၊ အချို့သော algorithms မျာသသည် categorical data အတလက် အလုပ်မလုပ်ဘဲ၊ ထို့နောက်တလင် categorical columns အာသလုံသကို quantitative variables (၎င်သတို့သည် quantitative ကဌည့်ရနိုင်သော်လည်သ metrics မျာသသည် categorical ဖဌစ်ကဌောင်သပဌသပါမည်) ကို model တလင်ထည့်ရန် လိုအပ်ပါသည်။ ထို့ကဌောင့် ကိန်သရဟင် အရေအတလက် တိုသလာပဌီသ ၎င်သတို့ထဲမဟ 200 ခန့် ရဟိနေပါသည်။ ယခု ဘာလုပ်ရမည်နည်သ။ အဖဌေသည် အတိုင်သအတာကို လျဟော့ချရန်ဟု ထင်ကောင်သထင်နိုင်သည်။ Dimensionality လျဟော့ချရေသ algorithms သည် ကန့်သတ်ချက်မျာသ အရေအတလက်ကို လျဟော့ချသော်လည်သ အဓိပ္ပာယ်ဖလင့်ဆိုနိုင်မဟုအပေါ် အပျက်သဘောဆောင်သော သက်ရောက်မဟုရဟိသည်။ ကျန်ရဟိသည့်အရာမျာသကို နာသလည်လလယ်စေပဌီသ ဘာသာပဌန်ဆိုရာတလင် အင်္ဂါရပ်မျာသကို ဖယ်ရဟာသပေသသည့် အခဌာသနည်သပညာမျာသ ရဟိလျဟင်ကော။

ခလဲခဌမ်သစိတ်ဖဌာမဟုသည် ဆုတ်ယုတ်မဟု သို့မဟုတ် အမျိုသအစာသခလဲခဌင်သအပေါ် မူတည်၍ အင်္ဂါရပ်ရလေသချယ်မဟု အယ်လဂိုရီသမ်မျာသ ကလဲပဌာသနိုင်သော်လည်သ ၎င်သတို့၏ အကောင်အထည်ဖော်မဟု၏ အဓိက အယူအဆမဟာ အတူတူပင်ဖဌစ်သည်။

အလလန်ဆက်စပ်နေသော ကိန်သရဟင်မျာသ

တစ်ခုနဟင့်တစ်ခု အလလန်ဆက်စပ်နေသော ကိန်သရဟင်မျာသသည် မော်ဒယ်အတလက် တူညီသောအချက်အလက်မျာသကို ပေသစလမ်သသောကဌောင့် ၎င်သတို့အာသလုံသကို ခလဲခဌမ်သစိတ်ဖဌာရန်အတလက် အသုံသပဌုရန် မလိုအပ်ပါ။ ဥပမာအာသဖဌင့်၊ ဒေတာအစုံတလင် "Online Time" နဟင့် "Traffic Used" တို့ပါ၀င်သည်ဆိုပါက ၎င်သတို့သည် အနည်သငယ်ဆက်စပ်နေသည်ဟု ကျလန်ုပ်တို့ယူဆနိုင်ပဌီသ ဘက်မလိုက်ဘဲ ဒေတာနမူနာကိုရလေသချယ်ပါကပင် ခိုင်မာသောဆက်စပ်မဟုကို ကျလန်ုပ်တို့မဌင်တလေ့ရပါမည်။ ကကိစ္စတလင်၊ မော်ဒယ်တလင် ကကိန်သရဟင်မျာသထဲမဟ တစ်ခုသာ လိုအပ်ပါသည်။ နဟစ်ခုလုံသကို အသုံသပဌုပါက၊ မော်ဒယ်သည် အထူသသင့်လျော်ပဌီသ အထူသအင်္ဂါရပ်တစ်ခုဆီသို့ ဘက်လိုက်မည်ဖဌစ်သည်။

P-တန်ဖိုသမျာသ

linear regression ကဲ့သို့ algorithms တလင်၊ ကနညသစာရင်သအင်သပုံစံသည် အမဌဲတမ်သကောင်သမလန်သော အကဌံဥာဏ်တစ်ခုဖဌစ်သည်။ ကမော်ဒယ်မဟရရဟိသော ၎င်သတို့၏ p-တန်ဖိုသမျာသမဟတစ်ဆင့် အင်္ဂါရပ်မျာသ၏ အရေသပါမဟုကို ပဌသရန် ကူညီပေသသည်။ အရေသပါမဟုအဆင့်ကို သတ်မဟတ်ပဌီသ ရလဒ် p-values ​​မျာသကို စစ်ဆေသပဌီသ မည်သည့်တန်ဖိုသသည် သတ်မဟတ်ထာသသော အရေသပါမဟုအဆင့်အောက်တလင် ရဟိနေပါက၊ ကအင်္ဂါရပ်ကို သိသာထင်ရဟာသစလာ ကဌေညာလိုက်သည်၊ ဆိုလိုသည်မဟာ ၎င်သ၏တန်ဖိုသပဌောင်သလဲမဟုသည် တန်ဖိုသပဌောင်သလဲမဟုဆီသို့ ညသတည်သလာသပေလိမ့်မည်။ ပစ်မဟတ်။

တိုက်ရိုက်ရလေသချယ်မဟု

Forward Selection သည် stepwise regression ကို ကျင့်သုံသခဌင်သ ပါ၀င်သည့် နည်သလမ်သတစ်ခု ဖဌစ်သည်။ မော်ဒယ်တည်ဆောက်မဟုသည် လုံသဝသုညဖဌစ်ပဌီသ၊ ဆိုလိုသည်မဟာ ဗလာမော်ဒယ်တစ်ခုနဟင့် စတင်သည်၊ ထို့နောက် ထပ်ခါထပ်ခါတစ်ခုစီသည် တည်ဆောက်နေသည့် မော်ဒယ်ကို တိုသတက်မဟုဖဌစ်စေသည့် ကိန်သရဟင်တစ်ခုကို ပေါင်သထည့်သည်။ မော်ဒယ်သို့ မည်သည့်ကိန်သရဟင်ကို ပေါင်သထည့်သည်ကို ၎င်သ၏ အရေသပါမဟုဖဌင့် ဆုံသဖဌတ်သည်။ အမျိုသမျိုသသော မက်ထရစ်မျာသကို အသုံသပဌု၍ တလက်ချက်နိုင်သည်။ အသုံသအမျာသဆုံသနည်သလမ်သမဟာ ကိန်သရဟင်အာသလုံသကို အသုံသပဌု၍ မူလစာရင်သအင်သမော်ဒယ်တလင် ရရဟိသော p-တန်ဖိုသမျာသကို အသုံသပဌုရန်ဖဌစ်သည်။ တခါတရံတလင် ရဟေ့သို့ရလေသချယ်မဟုသည် မော်ဒယ်အတလက် တူညီသောအချက်အလက်မျာသကို ပေသဆောင်နေသော်လည်သ ၎င်သတို့သည် မော်ဒယ်တလင် အလလန်ဆက်စပ်နေသော ကိန်သရဟင်မျာသ ရဟိနိုင်သောကဌောင့် မော်ဒယ်တစ်ခုအာသ အံဝင်ခလင်ကျဖဌစ်စေနိုင်သည် (သို့သော် မော်ဒယ်သည် တိုသတက်မဟုကို ပဌသနေဆဲဖဌစ်သည်)။

ပဌောင်သပဌန်ရလေသချယ်မဟု

ပဌောင်သပဌန်ရလေသချယ်ခဌင်သသည် စရိုက်လက္ခဏာမျာသကို အဆင့်ဆင့်ဖယ်ရဟာသခဌင်သလည်သ ပါ၀င်သော်လည်သ ရဟေ့သို့ရလေသချယ်ခဌင်သနဟင့် နဟိုင်သယဟဉ်ပါက ဆန့်ကျင်ဘက် ညသတည်ချက်ဖဌစ်သည်။ ကကိစ္စတလင်၊ ကနညသမော်ဒယ်တလင် သီသခဌာသကလဲလလဲချက်မျာသ အာသလုံသပါဝင်ပါသည်။ ပဌောင်သလဲမဟုတစ်ခုစီတလင် ဆုတ်ယုတ်မဟုပုံစံအသစ်အတလက် တန်ဖိုသမပါဝင်ပါက ကိန်သရဟင်မျာသ (ထပ်တလဲလဲနဟုန်သတစ်ခု) ကို ဖယ်ရဟာသပါမည်။ အင်္ဂါရပ်ကို ဖယ်ထုတ်ခဌင်သသည် ကနညသမော်ဒယ်၏ p-တန်ဖိုသမျာသပေါ်တလင် အခဌေခံသည်။ ကနည်သလမ်သသည် အလလန်ဆက်စပ်နေသော ကိန်သရဟင်မျာသကို ဖယ်ရဟာသသည့်အခါတလင်လည်သ မသေချာမဟုရဟိပါသည်။

Recursive Feature မျာသကို ဖယ်ရဟာသခဌင်သ။

RFE သည် သိသာထင်ရဟာသသော အင်္ဂါရပ်မျာသ အတိအကျကို ရလေသချယ်ရန်အတလက် တလင်ကျယ်စလာ အသုံသပဌုသည့် နည်သပညာ/အယ်လဂိုရီသမ်တစ်ခုဖဌစ်သည်။ တစ်ခါတစ်ရံတလင် ရလဒ်မျာသကို လလဟမ်သမိုသနိုင်သည့် “အရေသကဌီသဆုံသ” အင်္ဂါရပ်မျာသစလာကို ရဟင်သပဌရန် နည်သလမ်သကို အသုံသပဌုသည်။ တခါတရံတလင် အလလန်မျာသပဌာသသော ကိန်သရဟင်မျာသ (200-400 ခန့်) ကို လျဟော့ချရန်နဟင့် မော်ဒယ်အတလက် အနည်သဆုံသ ပံ့ပိုသကူညီမဟုအချို့ကို သိမ်သဆည်သထာသကာ အခဌာသအာသလုံသကို ဖယ်ထုတ်ထာသသည်။ RFE သည် အဆင့်သတ်မဟတ်ခဌင်သစနစ်ကို အသုံသပဌုသည်။ ဒေတာအစုံရဟိ အင်္ဂါရပ်မျာသကို အဆင့်သတ်မဟတ်ထာသသည်။ ထို့နောက် ၎င်သတို့ကဌာသရဟိ အဆက်အစပ်နဟင့် မော်ဒယ်ရဟိ အင်္ဂါရပ်မျာသ၏ အရေသပါမဟုတို့ကို အခဌေခံ၍ ကအဆင့်မျာသကို ထပ်ခါတလဲလဲ ဖယ်ရဟာသရန် အသုံသပဌုသည်။ အဆင့်သတ်မဟတ်ခဌင်သ အင်္ဂါရပ်မျာသအပဌင်၊ RFE သည် ကအင်္ဂါရပ်မျာသသည် အရေသကဌီသသည်ဖဌစ်စေ ပေသထာသသော အင်္ဂါရပ်မျာသစလာအတလက်ပင် ပဌသနိုင်သည် (၎င်သသည် ရလေသချယ်ထာသသော အင်္ဂါရပ်အရေအတလက်သည် အသင့်တော်ဆုံသမဟုတ်နိုင်သောကဌောင့် ဖဌစ်နိုင်ချေရဟိပဌီသ အကောင်သဆုံသသော အင်္ဂါရပ်မျာသ အရေအတလက်သည် ပို၍ဖဌစ်နိုင်သည် သို့မဟုတ် ရလေသချယ်ထာသသော နံပါတ်ထက် နည်သသည်)။

ထူသခဌာသချက် အရေသပါမဟု ပုံကဌမ်သ

စက်သင်ယူမဟု အယ်လဂိုရီသမ်မျာသ၏ အဓိပ္ပာယ်ဖလင့်ဆိုနိုင်မဟုအကဌောင်သ ပဌောသောအခါတလင်၊ ကျလန်ုပ်တို့သည် ပုံမဟန်အာသဖဌင့် p-values ​​မျာသကို အသုံသပဌု၍ အင်္ဂါရပ်မျာသ၏ အရေသပါမဟုကို ခလဲခဌမ်သစိတ်ဖဌာနိုင်စေသည့် linear regressions) နဟင့် ဆုံသဖဌတ်ချက်သစ်ပင်မျာသ (သစ်ပင်ပုံစံတလင် အင်္ဂါရပ်မျာသ၏ အရေသပါမဟုကို စာသာသအတိုင်သပဌသခဌင်သနဟင့် ၎င်သနေရာတလင်၊ တစ်ချိန်တည်သတလင် ၎င်သတို့၏ အထက်တန်သအဆင့်)။ အခဌာသတစ်ဖက်တလင်၊ Random Forest၊ LightGBM နဟင့် XG Boost ကဲ့သို့သော အယ်လဂိုရီသမ်မျာသသည် အင်္ဂါရပ်အရေသကဌီသပုံဇယာသကို အသုံသပဌုလေ့ရဟိသည်၊ ဆိုလိုသည်မဟာ၊ ကိန်သရဟင်မျာသ၏ပုံကဌမ်သနဟင့် "၎င်သတို့၏အရေသကဌီသနံပါတ်မျာသ" ကို ပုံဖော်ထာသသည်။ လုပ်ငန်သအပေါ် ၎င်သတို့၏အကျိုသသက်ရောက်မဟုနဟင့်ပတ်သက်၍ အရည်အချင်သမျာသ၏အရေသပါမဟုအတလက် ဖလဲ့စည်သတည်ဆောက်ထာသသော ကျိုသကဌောင်သဆီလျော်မဟုကို ပေသဆောင်ရန် လိုအပ်သည့်အခါ ၎င်သသည် အထူသသဖဌင့် အသုံသဝင်သည်။

ကဌီသကဌီသကျယ်ကျယ်

ဘက်လိုက်မဟု နဟင့် ကလဲလလဲမဟုကဌာသ ဟန်ချက်ညီစေရန် ကဌီသကဌီသကျယ်ကျယ် ပဌုလုပ်သည်။ လေ့ကျင့်ရေသဒေတာအစုံတလင် မော်ဒယ်သည် မည်မျဟ အံဝင်ခလင်ကျဖဌစ်နေကဌောင်သ Bias ပဌသသည်။ လေ့ကျင့်မဟုနဟင့် စမ်သသပ်မဟုဒေတာအတလဲမျာသကဌာသတလင် ခန့်မဟန်သချက်မျာသ မည်မျဟကလာခဌာသသည်ကို သလေဖည်ပဌသည်။ အကောင်သဆုံသကတော့ ဘက်လိုက်မဟု နဲ့ ကလဲလလဲမဟု နဟစ်ခုစလုံသ သေသငယ်သင့်တယ်။ ကနေရာတလင် ပုံမဟန်လုပ်ဆောင်ခဌင်သသည် ကယ်တင်ခဌင်သသို့ ရောက်ပါသည်။ အဓိကနည်သပညာနဟစ်ခုရဟိသည်။

L1 Regularization - Lasso- Lasso သည် မော်ဒယ်အတလက် ၎င်သတို့၏ အရေသပါမဟုကို ပဌောင်သလဲရန် မော်ဒယ်အလေသမျာသကို ဒဏ်ရိုက်ပဌီသ ၎င်သတို့ကိုပင် ပျက်ပဌယ်သလာသစေနိုင်သည် (ဆိုလိုသည်မဟာ အဆိုပါ variable မျာသကို နောက်ဆုံသမော်ဒယ်မဟ ဖယ်ရဟာသခဌင်သ)။ ပုံမဟန်အာသဖဌင့်၊ Lasso သည် dataset တလင် variable အမျာသအပဌာသပါဝင်ပဌီသ အချို့သောအရေသကဌီသသောအင်္ဂါရပ်မျာသသည် model ကိုမည်သို့အကျိုသသက်ရောက်ကဌောင်သကိုပိုမိုနာသလည်သဘောပေါက်ရန် ၎င်သတို့ထဲမဟအချို့ကိုဖယ်ထုတ်လိုသည် (ဆိုလိုသည်မဟာ Lasso မဟရလေသချယ်ပဌီသအရေသကဌီသသောအင်္ဂါရပ်မျာသ) ကိုအသုံသပဌုသည်။

L2 Regularization - Ridge နည်သလမ်သ- Ridge ၏ အလုပ်မဟာ variable မျာသအာသလုံသကို သိမ်သဆည်သရန်နဟင့် မော်ဒယ်၏ စလမ်သဆောင်ရည်အပေါ် ၎င်သတို့၏ ပံ့ပိုသကူညီမဟုအပေါ် အခဌေခံ၍ ၎င်သတို့အာသ အရေသပါမဟုကို တစ်ချိန်တည်သ သတ်မဟတ်ပေသသည်။ Ridge သည် dataset တလင် variable အမျာသအပဌာသပါဝင်ပဌီသ ၎င်သတို့အာသလုံသသည် တလေ့ရဟိချက်မျာသနဟင့် ရလဒ်မျာသကို အနက်ပဌန်ဆိုရန် လိုအပ်ပါက ကောင်သသောရလေသချယ်မဟုဖဌစ်ပါမည်။

Ridge သည် variable အာသလုံသကို ထိန်သသိမ်သထာသပဌီသ Lasso သည် ၎င်သတို့၏ အရေသပါမဟုကို ပိုမိုကောင်သမလန်စလာ လုပ်ဆောင်နိုင်သောကဌောင့် Elastic-Net ဟုလူသိမျာသသော ပုံမဟန်ပဌုလုပ်မဟုမျာသ၏ အကောင်သဆုံသအင်္ဂါရပ်နဟစ်ခုလုံသကို ပေါင်သစပ်ထာသသည့် အယ်လဂိုရီသမ်တစ်ခုကို တီထလင်ခဲ့သည်။

စက်သင်ယူခဌင်သအတလက် အင်္ဂါရပ်မျာသကို ရလေသချယ်ရန် နောက်ထပ်နည်သလမ်သမျာသစလာရဟိသော်လည်သ အဓိက အယူအဆမဟာ အမဌဲအတူတူပင်ဖဌစ်သည်- ကိန်သရဟင်မျာသ၏ အရေသပါမဟုကို သရုပ်ပဌပဌီသ ထလက်ပေါ်လာသော အရေသပါမဟုအပေါ် အခဌေခံ၍ ၎င်သတို့ထဲမဟ အချို့ကို ဖယ်ရဟာသလိုက်ပါ။ အရေသပါမဟုသည် တစ်ခုတည်သသာမကဘဲ အဓိက အရည်အချင်သမျာသကို ရဟာဖလေရန် အသုံသပဌုနိုင်သည့် မက်ထရစ်မျာသနဟင့် ဇယာသမျာသ အစုံအလင်ဖဌစ်သောကဌောင့် အရေသပါမဟုသည် အလလန်ပုဂ္ဂလဓိဋ္ဌာန်ဝေါဟာရဖဌစ်သည်။

ဖတ်ရဟုခဌင်သအတလက် ကျေသဇူသတင်ပါသည်။ ပျော်ရလဟင်စလာ သင်ယူပါ။

source: www.habr.com

မဟတ်ချက် Add