د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

نه، ښه، البته، زه جدي نه یم. د یوې موضوع ساده کولو لپاره باید یو حد شتون ولري. مګر د لومړیو مرحلو لپاره، د بنسټیزو مفکورو درک کول او په چټکۍ سره د موضوع "ننوت"، دا ممکن د منلو وړ وي. موږ به په پای کې د دې موادو په سمه توګه نومولو څرنګوالي په اړه بحث وکړو (اختیارونه: "د ډمیانو لپاره ماشین زده کړه"، "د ډایپرونو څخه د معلوماتو تحلیل"، "د کوچنیانو لپاره الګوریتم").

ټکي ته. په MS Excel کې د پروسو د لید او بصري نمایندګۍ لپاره ډیری غوښتنلیکونه لیکلي چې د ډیټا تحلیل کولو پرمهال د ماشین زده کړې مختلف میتودونو کې پیښیږي. لیدل باور لري، په هرصورت، لکه څنګه چې د کلتور خاوندان وایي، کوم چې ډیری دا میتودونه رامینځته کړي (په لاره کې، ټول یې ندي. تر ټولو پیاوړی "سپورټ ویکتور ماشین" یا SVM، د ملاتړ ویکتور ماشین اختراع دی. زموږ هیوادوال ولادیمیر واپنیک، د مسکو د مدیریت انسټیټیوټ. په 1963 کې، البته، اوس په متحده ایالاتو کې درس ورکوي او کار کوي).

د بیاکتنې لپاره درې فایلونه

1. K- د کلستر کولو معنی لري

د دې ډول ستونزې "غیر څارل شوي زده کړې" ته اشاره کوي، کله چې موږ اړتیا لرو چې ابتدايي ډاټا په یو مشخص شمیر کټګوریو ویشلو چې دمخه پیژندل شوي، مګر موږ هیڅ شمیر "سمه ځوابونه" نلرو؛ موږ باید دا پخپله د ډاټا څخه راوباسئ . د ایرس ګلونو د فرعي ډولونو موندلو بنسټیز کلاسیک ستونزه (رونالډ فشر، 1936!)، چې د پوهې د دې ساحې لومړۍ نښه ګڼل کیږي، یوازې د دې نوعیت څخه دی.

طریقه خورا ساده ده. موږ د څیزونو سیټ لرو چې د ویکتورونو په توګه ښودل شوي (د N شمیرو سیټ). په irises کې، دا د 4 شمیرو سیټ دي چې د ګل ځانګړتیاوي: د پیریانت د بهرنی او داخلي لوبیو اوږدوالی او عرض په ترتیب سره (د فیشر irises - ويکيپېډيا). معمول کارټیسین میټریک د فاصلې په توګه غوره شوی، یا د شیانو ترمنځ د نږدېوالي اندازه.

بیا، د کلستر مرکزونه په تصادفي ډول غوره شوي (یا په تصادفي توګه نه، لاندې وګورئ)، او د هر څیز څخه د کلستر مرکزونو ته فاصله محاسبه کیږي. هر څیز په یو ورکړل شوي تکرار مرحله کې د نږدې مرکز پورې اړوند په توګه نښه شوی. بیا د هر کلستر مرکز د خپلو غړو د همغږي ریاضي معنی ته لیږدول کیږي (د فزیک سره ورته والی سره، دا د "د ډله ایز مرکز" په نوم هم یادیږي)، او کړنلاره تکرار کیږي.

پروسه په چټکۍ سره یوځای کیږي. په دوه ابعادو کې په عکسونو کې دا داسې ښکاري:

1. په الوتکه کې د نقطو ابتدايي تصادفي ویش او د کلسترونو شمیر

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

2. د کلستر مرکزونو مشخص کول او د هغوی کلسترونو ته د نقطو ټاکل

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

3. د کلستر مرکزونو د همغږي انتقال، د نقطو تړاو بیا حساب کول تر هغه چې مرکزونه ثبات نه وي. د کلستر مرکز لاره چې خپل وروستي حالت ته حرکت کوي لیدل کیږي.

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

په هر وخت کې، تاسو کولی شئ د کلستر نوي مرکزونه جوړ کړئ (پرته له دې چې د پوائنټونو نوي ویش تولید کړئ!) او وګورئ چې د ویشلو پروسه تل ناڅرګنده نه وي. په ریاضیاتو کې، دا پدې مانا ده چې د فعالیت د اصلاح کولو لپاره (د نقطو څخه د دوی د کلسترونو مرکزونو ته د مربع فاصلو مجموعه)، موږ یو نړیوال نه، مګر یو محلي حد پیدا کوو. دا ستونزه یا د ابتدايي کلستر مرکزونو په غیر تصادفي انتخاب سره یا د احتمالي مرکزونو په شمیرلو سره حل کیدی شي (کله ناکله دا ګټوره ده چې دوی دقیقا په یوه نقطه کې ځای په ځای کړئ ، نو لږترلږه یو تضمین شتون لري چې موږ به خالي نه شو. کلسترونه). په هر حالت کې، یو محدود سیټ تل انفیمیم لري.

تاسو کولی شئ په دې لینک کې د دې فایل سره لوبې وکړئ (د میکرو ملاتړ فعالول مه هیروئ. فایلونه د ویروسونو لپاره سکین شوي)

په ويکيپېډيا کې د ميتود تفصيل - k- یعنی میتود

2. د پولینومیالونو او ډیټا ماتولو له مخې نږدېوالی. بیا روزنه

د پام وړ ساینس پوه او د ډیټا ساینس مشهور کونکی K.V. Vorontsov په لنډه توګه د ماشین زده کړې میتودونه د "د نقطو له لارې د منحني انځورولو ساینس" په توګه تشریح کوي. په دې مثال کې، موږ به د لږترلږه مربع میتود په کارولو سره په ډاټا کې یوه نمونه ومومئ.

د سرچینې ډیټا په "روزنه" او "کنټرول" کې د ویشلو تخنیک ښودل شوی، په بیله بیا د بیا روزنې، یا ډاټا ته "بیا تنظیم کول" په څیر یوه پیښه ښودل شوې. د سمې اندازې سره، موږ به د روزنې ډاټا کې یو څه تېروتنه او د کنټرول ډاټا کې یو څه لویه تېروتنه ولرو. که غلط وي، دا د روزنې ډاټا ته دقیق سمون او د ازموینې ډاټا کې لویه تېروتنه پایله کوي.

(دا یو ښه پیژندل شوی حقیقت دی چې د N نقطو له لارې یو څوک کولی شي د N-1 درجې یو واحد وکر راوباسي، او دا طریقه په عمومي حالت کې مطلوب پایله نه ورکوي. Lagrange interpolation polynomial on Wikipedia)

1. لومړنی توزیع ترتیب کړئ

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

2. موږ ټکي د 70 څخه تر 30 پورې په "روزنه" او "کنټرول" کې ویشو.

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

3. موږ د روزنې پوائنټونو سره نږدې منحنی کرښه رسم کوو، موږ هغه تېروتنه ګورو چې دا د کنټرول ډیټا کې ورکوي

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

4. موږ د روزنې پوائنټونو له لارې یو دقیق وکر راښکته کوو، او موږ د کنټرول ډیټا کې یوه لویه تېروتنه وینو (او د روزنې ډاټا کې صفر، مګر ټکی څه دی؟).

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

ښودل شوی، البته، د "روزنې" او "کنټرول" فرعي سیټونو کې د واحد ویش سره ترټولو ساده انتخاب دی؛ په عمومي حالت کې، دا د کوفیفینټ غوره تنظیم کولو لپاره ډیری وختونه ترسره کیږي.

فایل دلته شتون لري، د انټي ویروس لخوا سکین شوی. د سم عملیاتو لپاره میکرو فعال کړئ

3. تدریجي نزول او د غلطۍ د بدلون تحرک

د 4 اړخیزه قضیه او خطي ریګریشن به وي. د خطي انعطاف ضمیمه به د تدریجي نزول میتود په کارولو سره ګام په ګام ټاکل کیږي ، په پیل کې ټول ضمیمې صفر دي. یو جلا ګراف د غلطۍ کمولو متحرکات ښیي ځکه چې کوفیفینټونه ډیر او دقیق تنظیم شوي. دا ممکنه ده چې ټول څلور دوه اړخیز اټکلونه وګورئ.

که تاسو د تدریجي نزول مرحلې خورا لوی تنظیم کړئ ، تاسو لیدلی شئ چې هر ځل به موږ لږترلږه پریږدو او په ډیرو مرحلو کې به پایلې ته ورسیږو، که څه هم په پای کې به بیا هم راشو (مګر که موږ د نزول مرحله هم وځنډوو) ډیر - بیا الګوریتم به "په سپیډز" کې لاړ شي). او د تکرار مرحلې پورې اړه لري د خطا ګراف به اسانه نه وي ، مګر "ټیټونکی" وي.

1. ډاټا تولید کړئ، د تدریجي نزول مرحله ترتیب کړئ

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

2. د تدریجي نزول مرحلې سم انتخاب سره، موږ په اسانۍ او چټکۍ سره لږترلږه حد ته ورسیږو

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

3. که چیرې د تدریجي نزول مرحله په غلطه توګه غوره شوې وي، موږ اعظمي حد ته ځیر شو، د تېروتنې ګراف "ژرکی" دی، کنورژن لوی شمیر ګامونه اخلي

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو
и

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

4. که موږ د تدریجي نزول مرحله په بشپړ ډول په غلطه توګه وټاکو، موږ د لږترلږه څخه لیرې ځو.

د ماشین زده کړه پرته له Python، Anaconda او نورو ژویو

(په عکسونو کې ښودل شوي د تدریجي نزول مرحلې ارزښتونو په کارولو سره د پروسې بیا تولید لپاره ، د "ریفرنس ډیټا" بکس چیک کړئ).

فایل په دې لینک کې دی، تاسو اړتیا لرئ چې میکرو فعال کړئ، هیڅ ویروس شتون نلري.

د محترمې ټولنې له نظره آیا د موادو د وړاندې کولو دومره ساده کول او طریقه د منلو وړ ده؟ ایا دا د مقالې انګلیسي ته ژباړل ارزښت لري؟

سرچینه: www.habr.com

Add a comment