نه، ښه، البته، زه جدي نه یم. د یوې موضوع ساده کولو لپاره باید یو حد شتون ولري. مګر د لومړیو مرحلو لپاره، د بنسټیزو مفکورو درک کول او په چټکۍ سره د موضوع "ننوت"، دا ممکن د منلو وړ وي. موږ به په پای کې د دې موادو په سمه توګه نومولو څرنګوالي په اړه بحث وکړو (اختیارونه: "د ډمیانو لپاره ماشین زده کړه"، "د ډایپرونو څخه د معلوماتو تحلیل"، "د کوچنیانو لپاره الګوریتم").
ټکي ته. په MS Excel کې د پروسو د لید او بصري نمایندګۍ لپاره ډیری غوښتنلیکونه لیکلي چې د ډیټا تحلیل کولو پرمهال د ماشین زده کړې مختلف میتودونو کې پیښیږي. لیدل باور لري، په هرصورت، لکه څنګه چې د کلتور خاوندان وایي، کوم چې ډیری دا میتودونه رامینځته کړي (په لاره کې، ټول یې ندي. تر ټولو پیاوړی "سپورټ ویکتور ماشین" یا SVM، د ملاتړ ویکتور ماشین اختراع دی. زموږ هیوادوال ولادیمیر واپنیک، د مسکو د مدیریت انسټیټیوټ. په 1963 کې، البته، اوس په متحده ایالاتو کې درس ورکوي او کار کوي).
1. K- د کلستر کولو معنی لري
د دې ډول ستونزې "غیر څارل شوي زده کړې" ته اشاره کوي، کله چې موږ اړتیا لرو چې ابتدايي ډاټا په یو مشخص شمیر کټګوریو ویشلو چې دمخه پیژندل شوي، مګر موږ هیڅ شمیر "سمه ځوابونه" نلرو؛ موږ باید دا پخپله د ډاټا څخه راوباسئ . د ایرس ګلونو د فرعي ډولونو موندلو بنسټیز کلاسیک ستونزه (رونالډ فشر، 1936!)، چې د پوهې د دې ساحې لومړۍ نښه ګڼل کیږي، یوازې د دې نوعیت څخه دی.
طریقه خورا ساده ده. موږ د څیزونو سیټ لرو چې د ویکتورونو په توګه ښودل شوي (د N شمیرو سیټ). په irises کې، دا د 4 شمیرو سیټ دي چې د ګل ځانګړتیاوي: د پیریانت د بهرنی او داخلي لوبیو اوږدوالی او عرض په ترتیب سره (
بیا، د کلستر مرکزونه په تصادفي ډول غوره شوي (یا په تصادفي توګه نه، لاندې وګورئ)، او د هر څیز څخه د کلستر مرکزونو ته فاصله محاسبه کیږي. هر څیز په یو ورکړل شوي تکرار مرحله کې د نږدې مرکز پورې اړوند په توګه نښه شوی. بیا د هر کلستر مرکز د خپلو غړو د همغږي ریاضي معنی ته لیږدول کیږي (د فزیک سره ورته والی سره، دا د "د ډله ایز مرکز" په نوم هم یادیږي)، او کړنلاره تکرار کیږي.
پروسه په چټکۍ سره یوځای کیږي. په دوه ابعادو کې په عکسونو کې دا داسې ښکاري:
1. په الوتکه کې د نقطو ابتدايي تصادفي ویش او د کلسترونو شمیر
2. د کلستر مرکزونو مشخص کول او د هغوی کلسترونو ته د نقطو ټاکل
3. د کلستر مرکزونو د همغږي انتقال، د نقطو تړاو بیا حساب کول تر هغه چې مرکزونه ثبات نه وي. د کلستر مرکز لاره چې خپل وروستي حالت ته حرکت کوي لیدل کیږي.
په هر وخت کې، تاسو کولی شئ د کلستر نوي مرکزونه جوړ کړئ (پرته له دې چې د پوائنټونو نوي ویش تولید کړئ!) او وګورئ چې د ویشلو پروسه تل ناڅرګنده نه وي. په ریاضیاتو کې، دا پدې مانا ده چې د فعالیت د اصلاح کولو لپاره (د نقطو څخه د دوی د کلسترونو مرکزونو ته د مربع فاصلو مجموعه)، موږ یو نړیوال نه، مګر یو محلي حد پیدا کوو. دا ستونزه یا د ابتدايي کلستر مرکزونو په غیر تصادفي انتخاب سره یا د احتمالي مرکزونو په شمیرلو سره حل کیدی شي (کله ناکله دا ګټوره ده چې دوی دقیقا په یوه نقطه کې ځای په ځای کړئ ، نو لږترلږه یو تضمین شتون لري چې موږ به خالي نه شو. کلسترونه). په هر حالت کې، یو محدود سیټ تل انفیمیم لري.
په ويکيپېډيا کې د ميتود تفصيل -
2. د پولینومیالونو او ډیټا ماتولو له مخې نږدېوالی. بیا روزنه
د پام وړ ساینس پوه او د ډیټا ساینس مشهور کونکی K.V. Vorontsov په لنډه توګه د ماشین زده کړې میتودونه د "د نقطو له لارې د منحني انځورولو ساینس" په توګه تشریح کوي. په دې مثال کې، موږ به د لږترلږه مربع میتود په کارولو سره په ډاټا کې یوه نمونه ومومئ.
د سرچینې ډیټا په "روزنه" او "کنټرول" کې د ویشلو تخنیک ښودل شوی، په بیله بیا د بیا روزنې، یا ډاټا ته "بیا تنظیم کول" په څیر یوه پیښه ښودل شوې. د سمې اندازې سره، موږ به د روزنې ډاټا کې یو څه تېروتنه او د کنټرول ډاټا کې یو څه لویه تېروتنه ولرو. که غلط وي، دا د روزنې ډاټا ته دقیق سمون او د ازموینې ډاټا کې لویه تېروتنه پایله کوي.
(دا یو ښه پیژندل شوی حقیقت دی چې د N نقطو له لارې یو څوک کولی شي د N-1 درجې یو واحد وکر راوباسي، او دا طریقه په عمومي حالت کې مطلوب پایله نه ورکوي.
1. لومړنی توزیع ترتیب کړئ
2. موږ ټکي د 70 څخه تر 30 پورې په "روزنه" او "کنټرول" کې ویشو.
3. موږ د روزنې پوائنټونو سره نږدې منحنی کرښه رسم کوو، موږ هغه تېروتنه ګورو چې دا د کنټرول ډیټا کې ورکوي
4. موږ د روزنې پوائنټونو له لارې یو دقیق وکر راښکته کوو، او موږ د کنټرول ډیټا کې یوه لویه تېروتنه وینو (او د روزنې ډاټا کې صفر، مګر ټکی څه دی؟).
ښودل شوی، البته، د "روزنې" او "کنټرول" فرعي سیټونو کې د واحد ویش سره ترټولو ساده انتخاب دی؛ په عمومي حالت کې، دا د کوفیفینټ غوره تنظیم کولو لپاره ډیری وختونه ترسره کیږي.
3. تدریجي نزول او د غلطۍ د بدلون تحرک
د 4 اړخیزه قضیه او خطي ریګریشن به وي. د خطي انعطاف ضمیمه به د تدریجي نزول میتود په کارولو سره ګام په ګام ټاکل کیږي ، په پیل کې ټول ضمیمې صفر دي. یو جلا ګراف د غلطۍ کمولو متحرکات ښیي ځکه چې کوفیفینټونه ډیر او دقیق تنظیم شوي. دا ممکنه ده چې ټول څلور دوه اړخیز اټکلونه وګورئ.
که تاسو د تدریجي نزول مرحلې خورا لوی تنظیم کړئ ، تاسو لیدلی شئ چې هر ځل به موږ لږترلږه پریږدو او په ډیرو مرحلو کې به پایلې ته ورسیږو، که څه هم په پای کې به بیا هم راشو (مګر که موږ د نزول مرحله هم وځنډوو) ډیر - بیا الګوریتم به "په سپیډز" کې لاړ شي). او د تکرار مرحلې پورې اړه لري د خطا ګراف به اسانه نه وي ، مګر "ټیټونکی" وي.
1. ډاټا تولید کړئ، د تدریجي نزول مرحله ترتیب کړئ
2. د تدریجي نزول مرحلې سم انتخاب سره، موږ په اسانۍ او چټکۍ سره لږترلږه حد ته ورسیږو
3. که چیرې د تدریجي نزول مرحله په غلطه توګه غوره شوې وي، موږ اعظمي حد ته ځیر شو، د تېروتنې ګراف "ژرکی" دی، کنورژن لوی شمیر ګامونه اخلي
и
4. که موږ د تدریجي نزول مرحله په بشپړ ډول په غلطه توګه وټاکو، موږ د لږترلږه څخه لیرې ځو.
(په عکسونو کې ښودل شوي د تدریجي نزول مرحلې ارزښتونو په کارولو سره د پروسې بیا تولید لپاره ، د "ریفرنس ډیټا" بکس چیک کړئ).
د محترمې ټولنې له نظره آیا د موادو د وړاندې کولو دومره ساده کول او طریقه د منلو وړ ده؟ ایا دا د مقالې انګلیسي ته ژباړل ارزښت لري؟
سرچینه: www.habr.com