د ماشین زده کړه کې د ځانګړتیاوو انتخاب

اې حبره!

موږ په Reksoft کې مقاله په روسیه کې ژباړلې په ماشین زده کړه کې د فیچر انتخاب. موږ امید لرو چې دا به د هرچا لپاره ګټور وي څوک چې موضوع سره علاقه لري.

په ریښتینې نړۍ کې، ډاټا تل پاک نه وي لکه څنګه چې د سوداګرۍ پیرودونکي ځینې وختونه فکر کوي. له همدې امله د معلوماتو کان کیندنې او د معلوماتو لانجه په تقاضا کې ده. دا د پوښتنو په جوړښت شوي ډیټا کې د ورک شوي ارزښتونو او نمونو پیژندلو کې مرسته کوي چې انسانان یې نشي پیژندلی. په ډیټا کې د کشف شوي اړیکو په کارولو سره د پایلو وړاندوینې لپاره د دې نمونو موندلو او کارولو لپاره ، د ماشین زده کړه په کار کې راځي.

د هر ډول الګوریتم د پوهیدو لپاره، تاسو اړتیا لرئ چې په ډاټا کې ټول متغیرونه وګورئ او معلومه کړئ چې دا متغیرات څه استازیتوب کوي. دا مهمه ده ځکه چې د پایلو تر شا دلیل د معلوماتو د پوهیدو پراساس دی. که چیرې ډاټا 5 یا حتی 50 متغیرونه ولري، تاسو کولی شئ دا ټول معاینه کړئ. که چیرې د دوی 200 وي نو څه به وي؟ بیا به په ساده ډول د هر یو متغیر مطالعې لپاره کافي وخت نه وي. سربیره پردې ، ځینې الګوریتمونه د کټګوري ډیټا لپاره کار نه کوي ، او بیا تاسو باید ټول کټګوري کالمونه کمیتي متغیرونو ته واړوئ (دوی ممکن کمیتي ښکاري ، مګر میټریک به وښیې چې دوی کټګوري دي) په ماډل کې اضافه کولو لپاره. په دې توګه، د متغیرونو شمیر ډیریږي، او شاوخوا 500 یې شتون لري، اوس څه وکړي؟ یو څوک شاید فکر وکړي چې ځواب به د ابعاد کمول وي. د ابعاد کمولو الګوریتمونه د پیرامیټونو شمیر کموي مګر په تشریح کولو منفي اغیزه لري. څه که چیرې نور تخنیکونه شتون ولري چې ځانګړتیاوې له مینځه یوسي پداسې حال کې چې پاتې یې د پوهیدو او تشریح کولو لپاره اسانه کوي؟

د دې پورې اړه لري چې ایا تحلیل د ریګریشن یا طبقه بندي پراساس دی ، د ځانګړتیا انتخاب الګوریتم ممکن توپیر ولري ، مګر د دوی پلي کولو اصلي نظر ورته پاتې دی.

په لوړه کچه ارتباطي تغیرات

متغیرات چې د یو بل سره خورا ډیر تړاو لري ماډل ته ورته معلومات چمتو کوي، نو د تحلیل لپاره د دوی ټولو کارولو ته اړتیا نشته. د مثال په توګه، که چیرې یو ډیټاسیټ د "آنلاین وخت" او "ټرافيک کارول" ځانګړتیاوې ولري، موږ کولی شو فکر وکړو چې دوی به یو څه تړاو ولري، او موږ به یو قوي اړیکه وګورو حتی که موږ د بې طرفه ډاټا نمونه غوره کړو. په دې حالت کې، په ماډل کې یوازې د دغو متغیرونو څخه یو ته اړتیا ده. که تاسو دواړه وکاروئ، ماډل به د یو ځانګړي ځانګړتیا په لور ډیر فټ او متعصب وي.

P-ارزښتونه

په الګوریتمونو کې لکه خطي ریګریشن، یو ابتدايي احصایوي ماډل تل یو ښه نظر دی. دا مرسته کوي چې د ځانګړتیاوو اهمیت د دوی د p - ارزښتونو له لارې وښيي کوم چې د دې ماډل لخوا ترلاسه شوي. د اهمیت د کچې په ټاکلو سره، موږ پایله لرونکي p-valueونه ګورو، او که کوم ارزښت د ټاکل شوي ارزښت کچې څخه ښکته وي، نو دا ځانګړتیا د پام وړ اعلان کیږي، دا د دې ارزښت کې بدلون به احتمال د ارزښت د بدلون لامل شي. هدف

مستقیم انتخاب

د مخکینۍ انتخاب یو تخنیک دی چې د ګام په لور ریګریشن پلي کول شامل دي. د ماډل جوړول د بشپړ صفر سره پیل کیږي، دا یو خالي ماډل دی، او بیا هر تکرار یو متغیر اضافه کوي چې د جوړ شوي ماډل لپاره پرمختګ کوي. کوم متغیر په ماډل کې اضافه شوی د هغې اهمیت لخوا ټاکل کیږي. دا د مختلفو میترونو په کارولو سره محاسبه کیدی شي. ترټولو عام لاره دا ده چې د ټولو متغیرونو په کارولو سره په اصلي احصایوي ماډل کې ترلاسه شوي p-values ​​وکاروئ. ځینې ​​​​وختونه مخکښ انتخاب کولی شي د ماډل ډیر فټ کولو لامل شي ځکه چې ممکن په ماډل کې خورا اړونده متغیرات شتون ولري ، حتی که دوی ماډل ته ورته معلومات چمتو کړي (مګر ماډل لاهم پرمختګ ښیې).

د انتخاب برعکس

ریورس انتخاب کې د ځانګړتیاوو ګام په ګام له منځه وړل هم شامل دي، مګر د مخکینۍ انتخاب په پرتله په مخالف لوري کې. په دې حالت کې، لومړني ماډل ټول خپلواک متغیرونه شامل دي. متغیرونه بیا له مینځه وړل کیږي (په هر تکرار کې یو) که چیرې دوی په هر تکرار کې د نوي ریګریشن ماډل سره ارزښت ونه کړي. د فیچر اخراج د ابتدايي ماډل د p- ارزښتونو پر بنسټ والړ دی. دا میتود هم ناڅرګندتیا لري کله چې خورا اړونده متغیرونه لرې کوي.

د تکراري ځانګړتیا له منځه وړل

RFE د پام وړ ځانګړتیاو دقیق شمیر غوره کولو لپاره په پراخه کچه کارول شوي تخنیک/الګوریتم دی. ځینې ​​​​وختونه میتود د یو شمیر "خورا مهم" ځانګړتیاو تشریح کولو لپاره کارول کیږي چې پایلې اغیزه کوي. او ځینې وختونه د متغیرونو خورا لوی شمیر کمولو لپاره (شاوخوا 200-400) ، او یوازې هغه څوک چې لږترلږه په ماډل کې برخه اخلي ساتل کیږي ، او نور ټول خارج شوي دي. RFE د درجه بندي سیسټم کاروي. په ډیټا سیټ کې ځانګړتیاوې ټاکل شوي درجې دي. دا درجې بیا په تکراري ډول د ځانګړتیاو له مینځه وړو لپاره کارول کیږي چې د دوی ترمینځ د ارتباط او په ماډل کې د دې ځانګړتیاو اهمیت پراساس دي. د درجه بندي ځانګړتیاوو برسیره، RFE کولی شي وښيي چې آیا دا ځانګړتیاوې مهمې دي که نه حتی د ورکړل شوي شمیر ځانګړتیاو لپاره (ځکه چې دا خورا احتمال لري چې د ځانګړتیاوو ټاکل شوي شمیر ممکن غوره نه وي، او د ځانګړتیاوو غوره شمیر ممکن یا ډیر وي. یا د ټاکل شوي شمیر څخه لږ).

د فیچر اهمیت ډیاګرام

کله چې د ماشین زده کړې الګوریتمونو تشریح کولو په اړه وغږیږو، موږ معمولا د خطي ریګریشنونو په اړه بحث کوو (کوم چې تاسو ته اجازه درکوي د p-values ​​په کارولو سره د ځانګړتیاو اهمیت تحلیل کړئ) او د پریکړې ونې (په لفظي ډول د ونې په شکل کې د ځانګړتیاو اهمیت ښیې، او په ورته وخت کې د دوی درجه بندي). له بلې خوا، الګوریتمونه لکه بې ترتیبه ​​ځنګل، LightGBM او XG Boost اکثرا د ځانګړتیا اهمیت ډیاګرام کاروي، دا د متغیرونو ډیاګرام او "د دوی اهمیت شمیرې" پلیټ شوي. دا په ځانګړې توګه ګټور دی کله چې تاسو اړتیا لرئ چې په سوداګرۍ باندې د دوی د اغیزو له مخې د ځانګړتیاوو اهمیت لپاره یو منظم دلیل چمتو کړئ.

منظم کول

منظم کول د تعصب او توپیر ترمنځ توازن کنټرول لپاره ترسره کیږي. تعصب ښیې چې ماډل د روزنې ډیټا سیټ کې څومره ډیر مناسب دی. انحراف ښیې چې وړاندوینې د روزنې او ازموینې ډیټاسیټونو ترمینځ څومره توپیر درلود. په عین حال کې، دواړه تعصب او توپیر باید کوچنی وي. دا هغه ځای دی چې منظم کول د ژغورنې لپاره راځي! دوه اصلي تخنیکونه شتون لري:

L1 منظم کول - Lasso: Lasso د ماډل وزنونو ته جزا ورکوي ترڅو ماډل ته خپل اهمیت بدل کړي او حتی کولی شي دوی رد کړي (د بیلګې په توګه دا متغیرونه له وروستي ماډل څخه لرې کړي). په عموم کې، Lasso کارول کیږي کله چې ډیټاسیټ لوی شمیر متغیرات ولري او تاسو غواړئ چې ځینې یې له مینځه یوسي ترڅو ښه پوه شي چې مهم ځانګړتیاوې په ماډل اغیزه کوي (دا هغه ځانګړتیاوې دي چې د Lasso لخوا غوره شوي او اهمیت ټاکل شوي).

L2 منظم کول - د ریج میتود: د ریج دنده دا ده چې ټول متغیرات ذخیره کړي او په ورته وخت کې د ماډل فعالیت کې د دوی د ونډې پراساس دوی ته اهمیت ورکړي. ریج به یو ښه انتخاب وي که چیرې ډیټاسیټ لږ شمیر متغیرونه ولري او دا ټول د لاسته راوړنو او پایلو تشریح کولو لپاره اړین وي.

څرنګه چې ریج ټول متغیرونه ساتي او لاسو د دوی اهمیت رامینځته کولو لپاره غوره دنده ترسره کوي، یو الګوریتم رامینځته شوی چې د دواړو منظم کولو غوره ځانګړتیاوې سره یوځای کوي، چې د Elastic-Net په نوم پیژندل کیږي.

د ماشین زده کړې لپاره د ځانګړتیاوو غوره کولو لپاره ډیری نورې لارې شتون لري، مګر اصلي نظر تل یو شان وي: د متغیر اهمیت څرګند کړئ او بیا د پایلې اهمیت پراساس ځینې یې له منځه یوسي. اهمیت یوه ډیره موضوعي اصطلاح ده، ځکه چې دا یوازې یوه نه ده، بلکې د میټریکونو او چارټونو یوه بشپړه مجموعه ده چې د کلیدي ځانګړتیاو موندلو لپاره کارول کیدی شي.

د لوستلو لپاره مننه! خوشحاله زده کړه!

سرچینه: www.habr.com

Add a comment