مشين لرننگ ۾ خصوصيت جي چونڊ

اي حبر!

اسان Reksoft تي مضمون روسي ۾ ترجمو ڪيو مشين لرننگ ۾ فيچر جي چونڊ. اسان کي اميد آهي ته اهو هر ڪنهن لاء مفيد ٿيندو جيڪو موضوع ۾ دلچسپي رکي ٿو.

حقيقي دنيا ۾، ڊيٽا هميشه صاف نه آهي جيئن ڪاروبار گراهڪ ڪڏهن ڪڏهن سوچيندا آهن. اهو ئي سبب آهي ته ڊيٽا مائننگ ۽ ڊيٽا جي تڪرار طلب ۾ آهن. اهو سوال جي ترتيب واري ڊيٽا ۾ غائب قدر ۽ نمونن جي سڃاڻپ ۾ مدد ڪري ٿو جيڪي انسان سڃاڻي نٿا سگهن. ڊيٽا ۾ دريافت ڪيل رشتا استعمال ڪندي نتيجن جي اڳڪٿي ڪرڻ لاءِ انهن نمونن کي ڳولڻ ۽ استعمال ڪرڻ لاءِ، مشين لرننگ ڪم ۾ اچي ٿي.

ڪنهن به الگورٿم کي سمجهڻ لاءِ، توهان کي ڊيٽا ۾ موجود سڀني متغيرن کي ڏسڻ جي ضرورت آهي ۽ اهو معلوم ڪرڻ گهرجي ته اهي متغير ڪهڙي نمائندگي ڪن ٿا. اهو نازڪ آهي ڇو ته نتيجن جي پويان منطقي ڊيٽا کي سمجهڻ تي ٻڌل آهي. جيڪڏهن ڊيٽا ۾ شامل آهي 5 يا اڃا به 50 متغير، توهان انهن سڀني کي جانچ ڪري سگهو ٿا. ڇا جيڪڏھن انھن مان 200 آھن؟ پوءِ هر هڪ متغير کي پڙهڻ لاءِ ڪافي وقت نه هوندو. ان کان علاوه، ڪي الگورتھم ڪيٽيگريڪل ڊيٽا لاءِ ڪم نه ڪندا آھن، ۽ پوءِ توھان کي انھن کي ماڊل ۾ شامل ڪرڻ لاءِ سڀني ڪيٽيگريڪل ڪالمن کي مقداري متغير ۾ تبديل ڪرڻو پوندو (اھي شايد مقداري نظر اچن، پر ميٽرڪس ڏيکاريندا ته اھي ڪيٽيگريڪل آھن) انھن کي ماڊل ۾ شامل ڪرڻ لاءِ. اهڙيءَ طرح، متغيرن جو تعداد وڌي ٿو، ۽ انھن مان اٽڪل 500 آھن، ھاڻي ڇا ڪجي؟ ھڪڙو سوچي سگھي ٿو ته جواب ھوندو dimensionality کي گھٽائڻ. Dimensionality Reduction algorithms parameters جو تعداد گھٽائي ٿو پر تفسير تي ناڪاري اثر پوي ٿو. ڇا جيڪڏهن ٻيون ٽيڪنڪون آهن جيڪي خاصيتون ختم ڪن ٿيون جڏهن ته باقي انهن کي سمجهڻ ۽ تفسير ڪرڻ آسان بڻائي ٿي؟

ان تي منحصر آهي ته ڇا تجزيو رجعت يا درجه بندي تي ٻڌل آهي، خصوصيت جي چونڊ الگورتھم مختلف ٿي سگهي ٿي، پر انهن جي عمل درآمد جو بنيادي خيال ساڳيو رهي ٿو.

انتهائي لاڳاپيل متغير

متغير جيڪي هڪ ٻئي سان انتهائي لاڳاپا آهن ماڊل کي ساڳي معلومات مهيا ڪن ٿا، تنهنڪري انهن سڀني کي تجزيو لاء استعمال ڪرڻ جي ڪا ضرورت ناهي. مثال طور، جيڪڏهن هڪ ڊيٽا سيٽ ۾ خاصيتون شامل آهن "آن لائن وقت" ۽ "ٽريفڪ استعمال ٿيل"، اسان فرض ڪري سگهون ٿا ته اهي ڪجهه حد تائين لاڳاپيل هوندا، ۽ اسان هڪ مضبوط باهمي تعلق ڏسندا جيتوڻيڪ اسان هڪ غير جانبدار ڊيٽا نموني چونڊيو. انهي حالت ۾، ماڊل ۾ انهن مان صرف هڪ متغير جي ضرورت آهي. جيڪڏهن توهان ٻنهي کي استعمال ڪريو ٿا، ماڊل هڪ خاص خصوصيت ڏانهن اوورفٽڊ ۽ باصلاحيت هوندو.

پي-قدر

لڪير ريگريشن وانگر الگورتھم ۾، هڪ ابتدائي شمارياتي ماڊل هميشه هڪ سٺو خيال آهي. اهو انهن جي p-values ​​جي ذريعي خاصيتن جي اهميت کي ڏيکارڻ ۾ مدد ڪري ٿو جيڪي هن ماڊل پاران حاصل ڪيا ويا آهن. اھميت جي سطح کي مقرر ڪرڻ کان پوء، اسان نتيجو پي-ويلوز کي چيڪ ڪريون ٿا، ۽ جيڪڏھن ڪا قيمت مخصوص اھميت جي سطح کان ھيٺ آھي، ته پوء ھن خصوصيت کي اھم قرار ڏنو ويندو آھي، اھو آھي، ان جي قدر ۾ تبديلي ممڪن طور تي قدر ۾ تبديلي آڻيندو. نشانو.

سڌي چونڊ

اڳتي وڌڻ جو انتخاب هڪ ٽيڪنڪ آهي جنهن ۾ لاڳو ٿئي ٿو قدم وار رجعت. ماڊل بلڊنگ هڪ مڪمل صفر سان شروع ٿئي ٿي، يعني هڪ خالي ماڊل، ۽ پوءِ هر ورهاڱي ۾ هڪ متغير شامل ٿئي ٿو جيڪو ماڊل تعمير ٿيڻ ۾ بهتري آڻي ٿو. ڪهڙو متغير ماڊل ۾ شامل ڪيو ويو آهي ان جي اهميت طرفان طئي ڪيو ويندو آهي. اهو مختلف ميٽرڪ استعمال ڪندي حساب ڪري سگهجي ٿو. سڀ کان وڌيڪ عام طريقو استعمال ڪرڻ آهي p-values ​​کي اصل شمارياتي ماڊل ۾ حاصل ڪيل سڀني متغيرن کي استعمال ڪندي. ڪڏهن ڪڏهن اڳتي هلي چونڊ هڪ ماڊل کي اوورفٽ ڪرڻ جو سبب بڻجي سگهي ٿي ڇو ته ماڊل ۾ تمام گهڻي لاڳاپيل متغير ٿي سگهي ٿي، جيتوڻيڪ اهي ماڊل کي ساڳي معلومات مهيا ڪن ٿا (پر ماڊل اڃا به بهتري ڏيکاري ٿو).

ريورس چونڊ

ريورس چونڊ ۾ پڻ شامل آهي قدم قدم قدم جي خاصيتن کي ختم ڪرڻ، پر سامهون ايندڙ چونڊ جي مقابلي ۾. هن معاملي ۾، ابتدائي ماڊل ۾ سڀ آزاد متغير شامل آهن. متغير وري ختم ٿي ويا آهن (هڪ في ورهاڱي) جيڪڏهن اهي هر ريٽيشن ۾ نئين ريگريشن ماڊل ۾ قدر نه ڏيندا آهن. خصوصيت جو اخراج ابتدائي ماڊل جي p-values ​​تي ٻڌل آهي. اهو طريقو پڻ غير يقيني صورتحال آهي جڏهن انتهائي لاڳاپيل متغيرن کي هٽائڻ.

بار بار خصوصيت جي خاتمي

آر ايف اي هڪ وڏي پيماني تي استعمال ٿيل ٽيڪنڪ/الگورٿم آهي اهم خاصيتن جي صحيح تعداد کي چونڊڻ لاءِ. ڪڏهن ڪڏهن اهو طريقو استعمال ڪيو ويندو آهي ڪيترن ئي "سڀ کان اهم" خاصيتن جي وضاحت ڪرڻ لاء جيڪي نتيجن تي اثر انداز ڪن ٿا. ۽ ڪڏهن ڪڏهن متغيرن جي تمام وڏي تعداد کي گهٽائڻ لاءِ (اٽڪل 200-400)، ۽ صرف اهي جيڪي گهٽ ۾ گهٽ نموني ۾ ڪجهه حصو ڏين ٿا، برقرار رکيا وڃن، ۽ ٻيا سڀ خارج ڪيا وڃن. RFE هڪ درجه بندي سسٽم استعمال ڪري ٿو. ڊيٽا سيٽ ۾ خاصيتون مقرر ڪيل صفون آهن. اهي صفحا وري استعمال ڪيا ويندا آهن انهن خاصيتن کي ختم ڪرڻ لاءِ جيڪي انهن جي وچ ۾ هم آهنگي ۽ ماڊل ۾ انهن خاصيتن جي اهميت جي بنياد تي. درجه بندي جي خاصيتن کان علاوه، آر ايف اي ڏيکاري سگھي ٿو ته اهي خاصيتون اهم آهن يا نه به انهن خاصيتن جي ڏنل تعداد لاءِ (ڇاڪاڻ ته اهو تمام گهڻو ممڪن آهي ته فيچرز جو چونڊيل تعداد بهتر نه هجي، ۽ فيچرز جو بهتر انگ يا ته وڌيڪ هجي. يا منتخب ٿيل نمبر کان گهٽ).

خصوصيت اھميت ڊاگرام

جڏهن مشين لرننگ الگورٿمز جي تشريح جي باري ۾ ڳالهايون ٿا، اسان عام طور تي لڪير رجعت تي بحث ڪندا آهيون (جيڪي توهان کي p-values ​​استعمال ڪندي خاصيتن جي اهميت جو تجزيو ڪرڻ جي اجازت ڏين ٿا) ۽ فيصلي واري وڻ (لفظي طور تي خاصيتن جي اهميت کي ڏيکاريندي وڻ جي صورت ۾، ۽ ساڳئي وقت انهن جو درجو). ٻئي طرف، الورورٿمس جهڙوڪ رينڊم فاريسٽ، لائٽ جي بي ايم ۽ ايڪس جي بوسٽ اڪثر استعمال ڪندا آهن هڪ خصوصيت جي اهميت واري ڊاگرام، يعني متغيرن جو هڪ ڊراگرام ۽ ”انهن جي اهميت جو انگ“ پلاٽ ڪيو ويو آهي. اهو خاص طور تي ڪارائتو آهي جڏهن توهان کي ڪاروبار تي انهن جي اثر جي لحاظ کان خاصيتن جي اهميت لاءِ هڪ منظم منطق مهيا ڪرڻ جي ضرورت آهي.

باقاعدي

ريگيولرائزيشن تعصب ۽ فرق جي وچ ۾ توازن کي ڪنٽرول ڪرڻ لاء ڪيو ويندو آهي. تعصب ڏيکاري ٿو ته ماڊل ٽريننگ ڊيٽا سيٽ تي ڪيترو اوورفٽ ڪيو آهي. انحراف ڏيکاري ٿو ته ڪيئن مختلف اڳڪٿيون تربيت ۽ ٽيسٽ datasets جي وچ ۾ هئا. مثالي طور، ٻنهي تعصب ۽ ويرينس ننڍو هجڻ گهرجي. هي اهو آهي جتي ريگيولرائزيشن بچاء ۾ اچي ٿي! اتي ٻه مکيه ٽيڪنڪ آهن:

L1 Regularization - Lasso: Lasso ماڊل جي وزن کي سزا ڏئي ٿو ته جيئن ماڊل جي اهميت کي تبديل ڪري ۽ انھن کي ختم ڪري سگھي (يعني فائنل ماڊل مان انھن متغيرن کي ختم ڪري). عام طور تي، Lasso استعمال ڪيو ويندو آھي جڏھن ھڪڙي ڊيٽا سيٽ ۾ وڏي تعداد ۾ متغير شامل آھن ۽ توھان انھن مان ڪجھ کي خارج ڪرڻ چاھيو ٿا بھتر سمجھڻ لاءِ ته ڪيئن اھم خاصيتون ماڊل کي متاثر ڪن ٿيون (يعني اھي خاصيتون جيڪي Lasso پاران چونڊيل آھن ۽ اھميت ڏني وئي آھي).

L2 ريگيولرائزيشن - ريج جو طريقو: ريج جو ڪم سڀني متغيرن کي ذخيرو ڪرڻ آهي ۽ ساڳئي وقت انهن کي اهميت ڏيڻ آهي انهن جي مدد جي بنياد تي ماڊل جي ڪارڪردگي ۾. ريج هڪ سٺو انتخاب هوندو جيڪڏهن ڊيٽا سيٽ ۾ متغيرن جي هڪ ننڍڙي تعداد تي مشتمل آهي ۽ اهي سڀئي ضروري آهن جيڪي حاصل ڪيل نتيجن ۽ نتيجن جي وضاحت ڪرڻ لاء.

جيئن ته Ridge سڀني متغيرن کي رکي ٿو ۽ Lasso انهن جي اهميت کي قائم ڪرڻ لاءِ هڪ بهتر ڪم ڪري ٿو، ان ڪري هڪ الگورٿم ٺاهيو ويو جيڪو ٻنهي ريگولرائيزيشن جي بهترين خصوصيتن کي گڏ ڪري ٿو، جنهن کي Elastic-Net طور سڃاتو وڃي ٿو.

مشيني سکيا لاءِ خاصيتون چونڊڻ جا ٻيا به ڪيترائي طريقا آھن، پر بنيادي خيال ھميشه ھڪڙو ئي ھوندو آھي: متغيرن جي اھميت کي ظاھر ڪريو ۽ پوءِ انھن مان ڪجھ کي ختم ڪريو نتيجن جي بنياد تي. اھميت ھڪڙو تمام موضوعي اصطلاح آھي، ڇاڪاڻ⁠تہ اھو صرف ھڪڙو نه آھي، پر ميٽرڪ ۽ چارٽس جو ھڪڙو مڪمل سيٽ آھي جيڪو استعمال ڪري سگھجي ٿو اھم خاصيتون ڳولڻ لاء.

پڙهڻ لاء توهان جي مهرباني! خوش تعليم!

جو ذريعو: www.habr.com

تبصرو شامل ڪريو