Machine Learning | တွင် 🥇Feature ရွေးချယ်မှု ProHoster

ဟေး ဟာဘ!

ကျွန်ုပ်တို့ Reksoft မှ ဆောင်းပါးကို ရုရှားဘာသာသို့ ဘာသာပြန်ဆိုပါသည်။ Machine Learning တွင် အင်္ဂါရပ်ရွေးချယ်မှု. အကြောင်းအရာကို စိတ်ဝင်စားသူတိုင်းအတွက် အသုံးဝင်မယ်လို့ မျှော်လင့်ပါတယ်။

လက်တွေ့ကမ္ဘာတွင်၊ စီးပွားရေးလုပ်ငန်းဖောက်သည်များ တခါတရံထင်သည်နှင့်အမျှ ဒေတာသည် အမြဲမသန့်ရှင်းပါ။ ထို့ကြောင့် ဒေတာတူးဖော်ခြင်းနှင့် ဒေတာအငြင်းပွားမှုများသည် ဝယ်လိုအားများလာသောကြောင့်ဖြစ်သည်။ ၎င်းသည် လူသားများ မဖော်ထုတ်နိုင်သော စုံစမ်းမှုပုံစံ ဒေတာများတွင် ပျောက်ဆုံးနေသော တန်ဖိုးများနှင့် ပုံစံများကို ဖော်ထုတ်ရန် ကူညီပေးသည်။ ဒေတာရှိ ရှာဖွေတွေ့ရှိထားသော ဆက်ဆံရေးများကို အသုံးပြု၍ ရလဒ်များကို ခန့်မှန်းရန် ဤပုံစံများကို ရှာဖွေပြီး အသုံးပြုရန်အတွက် စက်သင်ယူခြင်းသည် အသုံးဝင်ပါသည်။

မည်သည့် algorithm ကိုမဆိုနားလည်ရန်၊ သင်သည် data အတွင်းရှိ variable အားလုံးကိုကြည့်ရှုပြီး ထို variable များသည် အဘယ်အရာကိုကိုယ်စားပြုသည်ကိုရှာဖွေရန်လိုအပ်သည်။ ရလဒ်များ၏ နောက်ကွယ်ရှိ ကျိုးကြောင်းဆီလျော်မှုသည် အချက်အလက်ကို နားလည်မှုပေါ်တွင် အခြေခံသောကြောင့် ၎င်းသည် အရေးကြီးပါသည်။ ဒေတာတွင် ကိန်းရှင် 5 သို့မဟုတ် 50 ပါ၀င်ပါက၊ ၎င်းတို့အားလုံးကို စစ်ဆေးနိုင်ပါသည်။ အယောက် ၂၀၀ ရှိရင် ဘယ်လိုလုပ်မလဲ။ ထို့နောက် ကိန်းရှင်တစ်ခုစီတိုင်းကို လေ့လာရန် အချိန်မလုံလောက်ပါ။ ထို့အပြင်၊ အချို့သော algorithms များသည် categorical data အတွက် အလုပ်မလုပ်ဘဲ၊ ထို့နောက်တွင် categorical columns အားလုံးကို quantitative variables (၎င်းတို့သည် quantitative ကြည့်ရနိုင်သော်လည်း metrics များသည် categorical ဖြစ်ကြောင်းပြသပါမည်) ကို model တွင်ထည့်ရန် လိုအပ်ပါသည်။ ထို့ကြောင့် ကိန်းရှင် အရေအတွက် တိုးလာပြီး ၎င်းတို့ထဲမှ 200 ခန့် ရှိနေပါသည်။ ယခု ဘာလုပ်ရမည်နည်း။ အဖြေသည် အတိုင်းအတာကို လျှော့ချရန်ဟု ထင်ကောင်းထင်နိုင်သည်။ Dimensionality လျှော့ချရေး algorithms သည် ကန့်သတ်ချက်များ အရေအတွက်ကို လျှော့ချသော်လည်း အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်မှုအပေါ် အပျက်သဘောဆောင်သော သက်ရောက်မှုရှိသည်။ ကျန်ရှိသည့်အရာများကို နားလည်လွယ်စေပြီး ဘာသာပြန်ဆိုရာတွင် အင်္ဂါရပ်များကို ဖယ်ရှားပေးသည့် အခြားနည်းပညာများ ရှိလျှင်ကော။

ခွဲခြမ်းစိတ်ဖြာမှုသည် ဆုတ်ယုတ်မှု သို့မဟုတ် အမျိုးအစားခွဲခြင်းအပေါ် မူတည်၍ အင်္ဂါရပ်ရွေးချယ်မှု အယ်လဂိုရီသမ်များ ကွဲပြားနိုင်သော်လည်း ၎င်းတို့၏ အကောင်အထည်ဖော်မှု၏ အဓိက အယူအဆမှာ အတူတူပင်ဖြစ်သည်။

အလွန်ဆက်စပ်နေသော ကိန်းရှင်များ

တစ်ခုနှင့်တစ်ခု အလွန်ဆက်စပ်နေသော ကိန်းရှင်များသည် မော်ဒယ်အတွက် တူညီသောအချက်အလက်များကို ပေးစွမ်းသောကြောင့် ၎င်းတို့အားလုံးကို ခွဲခြမ်းစိတ်ဖြာရန်အတွက် အသုံးပြုရန် မလိုအပ်ပါ။ ဥပမာအားဖြင့်၊ ဒေတာအစုံတွင် "Online Time" နှင့် "Traffic Used" တို့ပါ၀င်သည်ဆိုပါက ၎င်းတို့သည် အနည်းငယ်ဆက်စပ်နေသည်ဟု ကျွန်ုပ်တို့ယူဆနိုင်ပြီး ဘက်မလိုက်ဘဲ ဒေတာနမူနာကိုရွေးချယ်ပါကပင် ခိုင်မာသောဆက်စပ်မှုကို ကျွန်ုပ်တို့မြင်တွေ့ရပါမည်။ ဤကိစ္စတွင်၊ မော်ဒယ်တွင် ဤကိန်းရှင်များထဲမှ တစ်ခုသာ လိုအပ်ပါသည်။ နှစ်ခုလုံးကို အသုံးပြုပါက၊ မော်ဒယ်သည် အထူးသင့်လျော်ပြီး အထူးအင်္ဂါရပ်တစ်ခုဆီသို့ ဘက်လိုက်မည်ဖြစ်သည်။

P-တန်ဖိုးများ

linear regression ကဲ့သို့ algorithms တွင်၊ ကနဦးစာရင်းအင်းပုံစံသည် အမြဲတမ်းကောင်းမွန်သော အကြံဥာဏ်တစ်ခုဖြစ်သည်။ ဤမော်ဒယ်မှရရှိသော ၎င်းတို့၏ p-တန်ဖိုးများမှတစ်ဆင့် အင်္ဂါရပ်များ၏ အရေးပါမှုကို ပြသရန် ကူညီပေးသည်။ အရေးပါမှုအဆင့်ကို သတ်မှတ်ပြီး ရလဒ် p-values များကို စစ်ဆေးပြီး မည်သည့်တန်ဖိုးသည် သတ်မှတ်ထားသော အရေးပါမှုအဆင့်အောက်တွင် ရှိနေပါက၊ ဤအင်္ဂါရပ်ကို သိသာထင်ရှားစွာ ကြေညာလိုက်သည်၊ ဆိုလိုသည်မှာ ၎င်း၏တန်ဖိုးပြောင်းလဲမှုသည် တန်ဖိုးပြောင်းလဲမှုဆီသို့ ဦးတည်သွားပေလိမ့်မည်။ ပစ်မှတ်။

တိုက်ရိုက်ရွေးချယ်မှု

Forward Selection သည် stepwise regression ကို ကျင့်သုံးခြင်း ပါ၀င်သည့် နည်းလမ်းတစ်ခု ဖြစ်သည်။ မော်ဒယ်တည်ဆောက်မှုသည် လုံးဝသုညဖြစ်ပြီး၊ ဆိုလိုသည်မှာ ဗလာမော်ဒယ်တစ်ခုနှင့် စတင်သည်၊ ထို့နောက် ထပ်ခါထပ်ခါတစ်ခုစီသည် တည်ဆောက်နေသည့် မော်ဒယ်ကို တိုးတက်မှုဖြစ်စေသည့် ကိန်းရှင်တစ်ခုကို ပေါင်းထည့်သည်။ မော်ဒယ်သို့ မည်သည့်ကိန်းရှင်ကို ပေါင်းထည့်သည်ကို ၎င်း၏ အရေးပါမှုဖြင့် ဆုံးဖြတ်သည်။ အမျိုးမျိုးသော မက်ထရစ်များကို အသုံးပြု၍ တွက်ချက်နိုင်သည်။ အသုံးအများဆုံးနည်းလမ်းမှာ ကိန်းရှင်အားလုံးကို အသုံးပြု၍ မူလစာရင်းအင်းမော်ဒယ်တွင် ရရှိသော p-တန်ဖိုးများကို အသုံးပြုရန်ဖြစ်သည်။ တခါတရံတွင် ရှေ့သို့ရွေးချယ်မှုသည် မော်ဒယ်အတွက် တူညီသောအချက်အလက်များကို ပေးဆောင်နေသော်လည်း ၎င်းတို့သည် မော်ဒယ်တွင် အလွန်ဆက်စပ်နေသော ကိန်းရှင်များ ရှိနိုင်သောကြောင့် မော်ဒယ်တစ်ခုအား အံဝင်ခွင်ကျဖြစ်စေနိုင်သည် (သို့သော် မော်ဒယ်သည် တိုးတက်မှုကို ပြသနေဆဲဖြစ်သည်)။

ပြောင်းပြန်ရွေးချယ်မှု

ပြောင်းပြန်ရွေးချယ်ခြင်းသည် စရိုက်လက္ခဏာများကို အဆင့်ဆင့်ဖယ်ရှားခြင်းလည်း ပါ၀င်သော်လည်း ရှေ့သို့ရွေးချယ်ခြင်းနှင့် နှိုင်းယှဉ်ပါက ဆန့်ကျင်ဘက် ဦးတည်ချက်ဖြစ်သည်။ ဤကိစ္စတွင်၊ ကနဦးမော်ဒယ်တွင် သီးခြားကွဲလွဲချက်များ အားလုံးပါဝင်ပါသည်။ ပြောင်းလဲမှုတစ်ခုစီတွင် ဆုတ်ယုတ်မှုပုံစံအသစ်အတွက် တန်ဖိုးမပါဝင်ပါက ကိန်းရှင်များ (ထပ်တလဲလဲနှုန်းတစ်ခု) ကို ဖယ်ရှားပါမည်။ အင်္ဂါရပ်ကို ဖယ်ထုတ်ခြင်းသည် ကနဦးမော်ဒယ်၏ p-တန်ဖိုးများပေါ်တွင် အခြေခံသည်။ ဤနည်းလမ်းသည် အလွန်ဆက်စပ်နေသော ကိန်းရှင်များကို ဖယ်ရှားသည့်အခါတွင်လည်း မသေချာမှုရှိပါသည်။

Recursive Feature များကို ဖယ်ရှားခြင်း။

RFE သည် သိသာထင်ရှားသော အင်္ဂါရပ်များ အတိအကျကို ရွေးချယ်ရန်အတွက် တွင်ကျယ်စွာ အသုံးပြုသည့် နည်းပညာ/အယ်လဂိုရီသမ်တစ်ခုဖြစ်သည်။ တစ်ခါတစ်ရံတွင် ရလဒ်များကို လွှမ်းမိုးနိုင်သည့် “အရေးကြီးဆုံး” အင်္ဂါရပ်များစွာကို ရှင်းပြရန် နည်းလမ်းကို အသုံးပြုသည်။ တခါတရံတွင် အလွန်များပြားသော ကိန်းရှင်များ (200-400 ခန့်) ကို လျှော့ချရန်နှင့် မော်ဒယ်အတွက် အနည်းဆုံး ပံ့ပိုးကူညီမှုအချို့ကို သိမ်းဆည်းထားကာ အခြားအားလုံးကို ဖယ်ထုတ်ထားသည်။ RFE သည် အဆင့်သတ်မှတ်ခြင်းစနစ်ကို အသုံးပြုသည်။ ဒေတာအစုံရှိ အင်္ဂါရပ်များကို အဆင့်သတ်မှတ်ထားသည်။ ထို့နောက် ၎င်းတို့ကြားရှိ အဆက်အစပ်နှင့် မော်ဒယ်ရှိ အင်္ဂါရပ်များ၏ အရေးပါမှုတို့ကို အခြေခံ၍ ဤအဆင့်များကို ထပ်ခါတလဲလဲ ဖယ်ရှားရန် အသုံးပြုသည်။ အဆင့်သတ်မှတ်ခြင်း အင်္ဂါရပ်များအပြင်၊ RFE သည် ဤအင်္ဂါရပ်များသည် အရေးကြီးသည်ဖြစ်စေ ပေးထားသော အင်္ဂါရပ်များစွာအတွက်ပင် ပြသနိုင်သည် (၎င်းသည် ရွေးချယ်ထားသော အင်္ဂါရပ်အရေအတွက်သည် အသင့်တော်ဆုံးမဟုတ်နိုင်သောကြောင့် ဖြစ်နိုင်ချေရှိပြီး အကောင်းဆုံးသော အင်္ဂါရပ်များ အရေအတွက်သည် ပို၍ဖြစ်နိုင်သည် သို့မဟုတ် ရွေးချယ်ထားသော နံပါတ်ထက် နည်းသည်)။

ထူးခြားချက် အရေးပါမှု ပုံကြမ်း

စက်သင်ယူမှု အယ်လဂိုရီသမ်များ၏ အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်မှုအကြောင်း ပြောသောအခါတွင်၊ ကျွန်ုပ်တို့သည် ပုံမှန်အားဖြင့် p-values များကို အသုံးပြု၍ အင်္ဂါရပ်များ၏ အရေးပါမှုကို ခွဲခြမ်းစိတ်ဖြာနိုင်စေသည့် linear regressions) နှင့် ဆုံးဖြတ်ချက်သစ်ပင်များ (သစ်ပင်ပုံစံတွင် အင်္ဂါရပ်များ၏ အရေးပါမှုကို စာသားအတိုင်းပြသခြင်းနှင့် ၎င်းနေရာတွင်၊ တစ်ချိန်တည်းတွင် ၎င်းတို့၏ အထက်တန်းအဆင့်)။ အခြားတစ်ဖက်တွင်၊ Random Forest၊ LightGBM နှင့် XG Boost ကဲ့သို့သော အယ်လဂိုရီသမ်များသည် အင်္ဂါရပ်အရေးကြီးပုံဇယားကို အသုံးပြုလေ့ရှိသည်၊ ဆိုလိုသည်မှာ၊ ကိန်းရှင်များ၏ပုံကြမ်းနှင့် "၎င်းတို့၏အရေးကြီးနံပါတ်များ" ကို ပုံဖော်ထားသည်။ လုပ်ငန်းအပေါ် ၎င်းတို့၏အကျိုးသက်ရောက်မှုနှင့်ပတ်သက်၍ အရည်အချင်းများ၏အရေးပါမှုအတွက် ဖွဲ့စည်းတည်ဆောက်ထားသော ကျိုးကြောင်းဆီလျော်မှုကို ပေးဆောင်ရန် လိုအပ်သည့်အခါ ၎င်းသည် အထူးသဖြင့် အသုံးဝင်သည်။

ကြီးကြီးကျယ်ကျယ်

ဘက်လိုက်မှု နှင့် ကွဲလွဲမှုကြား ဟန်ချက်ညီစေရန် ကြီးကြီးကျယ်ကျယ် ပြုလုပ်သည်။ လေ့ကျင့်ရေးဒေတာအစုံတွင် မော်ဒယ်သည် မည်မျှ အံဝင်ခွင်ကျဖြစ်နေကြောင်း Bias ပြသသည်။ လေ့ကျင့်မှုနှင့် စမ်းသပ်မှုဒေတာအတွဲများကြားတွင် ခန့်မှန်းချက်များ မည်မျှကွာခြားသည်ကို သွေဖည်ပြသည်။ အကောင်းဆုံးကတော့ ဘက်လိုက်မှု နဲ့ ကွဲလွဲမှု နှစ်ခုစလုံး သေးငယ်သင့်တယ်။ ဤနေရာတွင် ပုံမှန်လုပ်ဆောင်ခြင်းသည် ကယ်တင်ခြင်းသို့ ရောက်ပါသည်။ အဓိကနည်းပညာနှစ်ခုရှိသည်။

L1 Regularization - Lasso- Lasso သည် မော်ဒယ်အတွက် ၎င်းတို့၏ အရေးပါမှုကို ပြောင်းလဲရန် မော်ဒယ်အလေးများကို ဒဏ်ရိုက်ပြီး ၎င်းတို့ကိုပင် ပျက်ပြယ်သွားစေနိုင်သည် (ဆိုလိုသည်မှာ အဆိုပါ variable များကို နောက်ဆုံးမော်ဒယ်မှ ဖယ်ရှားခြင်း)။ ပုံမှန်အားဖြင့်၊ Lasso သည် dataset တွင် variable အများအပြားပါဝင်ပြီး အချို့သောအရေးကြီးသောအင်္ဂါရပ်များသည် model ကိုမည်သို့အကျိုးသက်ရောက်ကြောင်းကိုပိုမိုနားလည်သဘောပေါက်ရန် ၎င်းတို့ထဲမှအချို့ကိုဖယ်ထုတ်လိုသည် (ဆိုလိုသည်မှာ Lasso မှရွေးချယ်ပြီးအရေးကြီးသောအင်္ဂါရပ်များ) ကိုအသုံးပြုသည်။

L2 Regularization - Ridge နည်းလမ်း- Ridge ၏ အလုပ်မှာ variable များအားလုံးကို သိမ်းဆည်းရန်နှင့် မော်ဒယ်၏ စွမ်းဆောင်ရည်အပေါ် ၎င်းတို့၏ ပံ့ပိုးကူညီမှုအပေါ် အခြေခံ၍ ၎င်းတို့အား အရေးပါမှုကို တစ်ချိန်တည်း သတ်မှတ်ပေးသည်။ Ridge သည် dataset တွင် variable အများအပြားပါဝင်ပြီး ၎င်းတို့အားလုံးသည် တွေ့ရှိချက်များနှင့် ရလဒ်များကို အနက်ပြန်ဆိုရန် လိုအပ်ပါက ကောင်းသောရွေးချယ်မှုဖြစ်ပါမည်။

Ridge သည် variable အားလုံးကို ထိန်းသိမ်းထားပြီး Lasso သည် ၎င်းတို့၏ အရေးပါမှုကို ပိုမိုကောင်းမွန်စွာ လုပ်ဆောင်နိုင်သောကြောင့် Elastic-Net ဟုလူသိများသော ပုံမှန်ပြုလုပ်မှုများ၏ အကောင်းဆုံးအင်္ဂါရပ်နှစ်ခုလုံးကို ပေါင်းစပ်ထားသည့် အယ်လဂိုရီသမ်တစ်ခုကို တီထွင်ခဲ့သည်။

စက်သင်ယူခြင်းအတွက် အင်္ဂါရပ်များကို ရွေးချယ်ရန် နောက်ထပ်နည်းလမ်းများစွာရှိသော်လည်း အဓိက အယူအဆမှာ အမြဲအတူတူပင်ဖြစ်သည်- ကိန်းရှင်များ၏ အရေးပါမှုကို သရုပ်ပြပြီး ထွက်ပေါ်လာသော အရေးပါမှုအပေါ် အခြေခံ၍ ၎င်းတို့ထဲမှ အချို့ကို ဖယ်ရှားလိုက်ပါ။ အရေးပါမှုသည် တစ်ခုတည်းသာမကဘဲ အဓိက အရည်အချင်းများကို ရှာဖွေရန် အသုံးပြုနိုင်သည့် မက်ထရစ်များနှင့် ဇယားများ အစုံအလင်ဖြစ်သောကြောင့် အရေးပါမှုသည် အလွန်ပုဂ္ဂလဓိဋ္ဌာန်ဝေါဟာရဖြစ်သည်။

ဖတ်ရှုခြင်းအတွက် ကျေးဇူးတင်ပါသည်။ ပျော်ရွှင်စွာ သင်ယူပါ။

source: www.habr.com