د انجمن زده کړې جادو

اې حبره! موږ د ډیټا انجینرانو او د ماشین زده کړې متخصصینو ته وړیا ډیمو درس ته بلنه ورکوو "د آنلاین وړاندیزونو مثال په کارولو سره صنعتي چاپیریال ته د ML ماډلونو محصول". موږ مقاله هم خپره کړه لوکا مونو - په CDP SPA کې د مالي تحلیلاتو رییس.

د ماشین زده کړې یو له خورا ګټورو او ساده میتودونو څخه د انسمبل زده کړه ده. Ensemble زده کړه د XGBoost، Bagging، Random Forest او ډیری نورو الګوریتمونو تر شا میتود دی.

د ډیټا ساینس په لور ډیری عالي مقالې شتون لري ، مګر ما دوه کیسې غوره کړې (لومړی и دوهم) کوم چې ما ډیر خوښ کړ. نو ولې د EL په اړه بله مقاله ولیکئ؟ ځکه چې زه غواړم تاسو ته وښیم دا څنګه د ساده مثال سره کار کوي، کوم چې ما پوه کړل چې دلته هیڅ جادو نشته.

کله چې ما په لومړي ځل EL په عمل کې ولید (د ځینې خورا ساده ریګریشن ماډلونو سره کار کول) ما په خپلو سترګو باور نه شو کولی، او زه لاهم هغه پروفیسور په یاد لرم چې ماته یې دا طریقه ښوولې.

ما د میټریکونو سره دوه مختلف ماډلونه (دوه ضعیف روزنیز الګوریتمونه) درلودل د نمونې نه بهر R² په ترتیب سره د 0,90 او 0,93 سره مساوي. مخکې له دې چې پایلې ته وګورم، ما فکر کاوه چې زه به د دوو اصلي ارزښتونو ترمنځ یو R² ترلاسه کړم. په بل عبارت، زه باور لرم چې EL د دې لپاره کارول کیدی شي چې ماډل ترسره کړي د بدترین ماډل په څیر ضعیف نه وي، مګر نه لکه څنګه چې غوره ماډل ترسره کولی شي.

زما د لوی حیرانتیا لپاره، په ساده ډول د وړاندوینو اوسط د 0,95 R² ترلاسه کړ. 

په لومړي سر کې ما د خطا په لټه کې پیل وکړ، مګر بیا ما فکر وکړ چې شاید دلته کوم جادو پټ وي!

Ensemble زده کړه څه ده

د EL سره، تاسو کولی شئ د دوه یا ډیرو ماډلونو وړاندوینې سره یوځای کړئ ترڅو یو پیاوړی او فعال ماډل تولید کړئ. د ماډل ensembles سره د کار کولو لپاره ډیری میتودونه شتون لري. دلته به زه د عمومي لید لپاره دوه خورا ګټورو ته لاس ورکړم.

د مرستې په مرسته رجعت دا ممکنه ده چې د موجوده ماډلونو فعالیت اوسط کړئ.

د مرستې په مرسته طبقه بندي تاسو کولی شئ ماډلونو ته د لیبلونو غوره کولو فرصت ورکړئ. هغه لیبل چې ډیری وختونه غوره شوي هغه هغه دی چې د نوي ماډل لخوا به غوره شي.

ولې EL ښه کار کوي

اصلي دلیل چې ولې EL غوره ترسره کوي دا دی چې هره وړاندوینه یوه تېروتنه لري (موږ دا د احتمالي تیوري څخه پوهیږو)، د دوو وړاندوینو یوځای کول کولی شي د غلطۍ کمولو کې مرسته وکړي، او له همدې امله د فعالیت میټریک ښه کړي (RMSE، R²، او نور) d.).

لاندې ډیاګرام ښیي چې څنګه دوه ضعیف الګوریتمونه په ډیټا سیټ کې کار کوي. لومړی الګوریتم د اړتیا په پرتله لوی سلیپ لري، پداسې حال کې چې دویم تقریبا صفر لري (ممکن د ډیر منظم کولو له امله). خو انسامبل ډیر ښه پایلې ښیې. 

که تاسو د R² شاخص ته ګورئ ، نو د لومړي او دوهم روزنې الګوریتم لپاره به دا په ترتیب سره -0.01¹، 0.22 سره مساوي وي ، پداسې حال کې چې د یوځای کولو لپاره به دا د 0.73 سره مساوي وي.

د انجمن زده کړې جادو

ډیری دلیلونه شتون لري چې ولې یو الګوریتم ممکن په یو لومړني مثال کې هم خراب ماډل وي لکه: شاید تاسو پریکړه کړې چې د ډیر فټینګ څخه مخنیوي لپاره منظم کولو څخه کار واخلئ، یا تاسو پریکړه وکړه چې ځینې ګډوډۍ رد نه کړئ، یا شاید تاسو پولینومیل ریګریشن کارولی او غلط یې کړی. درجې (د بیلګې په توګه، موږ د دویمې درجې پولینومیل کارولی، او د ازموینې ډاټا یو روښانه انډول ښیي چې دریمه درجه به غوره وي).

کله چې EL ښه کار کوي

راځئ چې د ورته معلوماتو سره کار کولو دوه زده کړې الګوریتمونه وګورو.

د انجمن زده کړې جادو

دلته تاسو لیدلی شئ چې د دوه ماډلونو ترکیب فعالیت ډیر ښه نه کړ. په پیل کې، د دوو روزنیزو الګوریتمونو لپاره، د R² شاخصونه په ترتیب سره -0,37 او 0,22 سره مساوي وو، او د یوځای کولو لپاره دا -0,04 وګرځیدل. دا دی، د EL ماډل د شاخصونو اوسط ارزښت ترلاسه کړ.

په هرصورت، د دې دوو مثالونو ترمنځ لوی توپیر شتون لري: په لومړي مثال کې، د ماډل غلطیان په منفي ډول سره تړاو درلود، او په دویمه کې، دوی په مثبت ډول سره تړاو درلود) د دریو ماډلونو مجموعه اټکل شوي ندي، مګر په ساده ډول د ماډلونو لخوا غوره شوي. لیکوال د مثال په توګه.)

له همدې امله، Ensemble Learning په هر حالت کې د تعصب/تغیر توازن د ښه کولو لپاره کارول کیدی شي، مګر کله چې د ماډل تېروتنې په مثبت ډول سره تړاو نلري، د EL کارول ممکن د ښه فعالیت لامل شي.

همجنس او ​​متفاوت موډلونه

ډیری وختونه EL په همغږي ماډلونو کې کارول کیږي (لکه څنګه چې پدې مثال یا تصادفي ځنګل کې) ، مګر په حقیقت کې تاسو کولی شئ مختلف ماډلونه (لینیر ریګریشن + عصبي شبکه + XGBoost) د توضیحي تغیراتو مختلف سیټونو سره یوځای کړئ. دا به احتمال د غیر مربوط غلطیو او ښه فعالیت پایله ولري.

د پورټ فولیو تنوع سره پرتله کول

EL د پورټ فولیو تیوري کې تنوع ته ورته کار کوي ، مګر زموږ لپاره خورا ښه. 

کله چې تنوع کوئ، تاسو هڅه کوئ چې په غیر مربوط سټاکونو کې د پانګوونې له لارې د خپل فعالیت توپیر کم کړئ. د سټاک یو ښه متنوع پورټ فولیو به د خورا خراب انفرادي سټاک څخه غوره فعالیت وکړي ، مګر هیڅکله به له غوره څخه غوره نه وي.

د وارن بفیټ د نقل کولو لپاره: 

"تنوع د ناپوهۍ په وړاندې دفاع ده؛ د هغه چا لپاره چې نه پوهیږي هغه څه کوي، دا [تنوع] ډیر لږ معنی لري."

د ماشین زده کړې کې، EL ستاسو د ماډل توپیر کمولو کې مرسته کوي، مګر دا ممکن د غوره اصلي ماډل په پرتله د عمومي فعالیت سره یو ماډل وي.

راځئ چې پایلې راټیټ کړو

په یو کې د ډیری ماډلونو ترکیب یو نسبتا ساده تخنیک دی چې کولی شي د توپیر تعصب ستونزې حل کړي او د فعالیت ښه کړي.

که تاسو دوه یا ډیر ماډلونه لرئ چې ښه کار کوي، د دوی ترمنځ انتخاب مه کوئ: دا ټول وکاروئ (مګر په احتیاط سره)!

په دې لار کې د پرمختګ سره علاقه لرئ؟ د وړیا ډیمو درس لپاره لاسلیک وکړئ "د آنلاین وړاندیزونو مثال په کارولو سره صنعتي چاپیریال ته د ML ماډلونو محصول" او ګډون وکړي انډری کوزنیتسوف سره آنلاین ناسته - په Mail.ru ګروپ کې د ماشین زده کړې انجنیر.

سرچینه: www.habr.com

Add a comment