نه، خير، يقينا، مان سنجيده نه آهيان. ڪنهن موضوع کي آسان ڪرڻ جي حد تائين هجڻ گهرجي. پر پهرين مرحلن لاء، بنيادي مفهوم کي سمجهڻ ۽ جلدي "داخل ٿيڻ" موضوع، اهو قابل قبول ٿي سگهي ٿو. اسان بحث ڪنداسين ته هن مواد کي ڪيئن صحيح نالو ڏنو وڃي (اختيارن: "ڊميز لاء مشين سکيا"، "ڊائپرز کان ڊيٽا جو تجزيو"، "ننڍن لاء الگورتھم") آخر ۾.
نقطي تائين. MS Excel ۾ ڪيترن ئي ايپليڪيشن پروگرامن کي بصري ۽ عمل جي بصري نمائندگي لاءِ لکيو ويو جيڪي مختلف مشين لرننگ طريقن ۾ ٿين ٿا جڏهن ڊيٽا جو تجزيو ڪيو وڃي. سڀ کان پوء، ڏسڻ ۾ يقين ڪرڻ آهي، جيئن ڪلچر جي علمبردارن جو چوڻ آهي ته، جن انهن مان اڪثر طريقا ٺاهيا آهن (انهي سان، اهي سڀئي نه آهن. سڀ کان وڌيڪ طاقتور "سپورٽ ویکٹر مشين"، يا SVM، سپورٽ ویکٹر مشين جي ايجاد آهي. اسان جو هم وطن ولاديمير وپنڪ، ماسڪو انسٽيٽيوٽ آف مئنيجمينٽ. 1963، رستي ۾! هاڻي، بهرحال، هو آمريڪا ۾ سيکاريندو ۽ ڪم ڪري ٿو).
1. K- يعني ڪلستر ڪرڻ
هن قسم جا مسئلا "غير نگراني ٿيل سکيا" ڏانهن اشارو ڪن ٿا، جڏهن اسان کي شروعاتي ڊيٽا کي ڪجهه خاص قسمن ۾ ورهائڻ جي ضرورت آهي جيڪي اڳ ۾ ڄاڻايل آهن، پر اسان وٽ "صحيح جوابن" جو تعداد ناهي؛ اسان کي انهن کي ڊيٽا مان ئي ڪڍڻ گهرجي. . آئيرس گلن جي ذيلي جنس ڳولڻ جو بنيادي ڪلاسيڪل مسئلو (Ronald Fisher, 1936!)، جنهن کي علم جي هن شعبي جي پهرين نشاني سمجهيو وڃي ٿو، صرف هن نوعيت جو آهي.
طريقو بلڪل سادو آهي. اسان وٽ شين جو هڪ سيٽ آهي جنهن کي ویکٹر طور ڏيکاريل آهي (N نمبرن جو سيٽ). irises ۾، اهي 4 انگن جا سيٽ آهن جيڪي گلن جي خصوصيت ڪن ٿا: ڊگھائي ۽ چوٿون ٻاهرئين ۽ اندروني لاب جي، ترتيب سان (
اڳيون، ڪلسٽر مرڪز بي ترتيب طور تي چونڊيا ويندا آهن (يا بي ترتيب نه، هيٺ ڏسو)، ۽ هر شئي کان ڪلستر سينٽرن تائين فاصلو ڳڻيو ويندو آهي. هر شئي کي ڏنل ورجائي واري مرحلي تي نشان لڳل آهي جيئن ويجهي مرڪز سان تعلق رکي ٿو. پوءِ هر ڪلستر جو مرڪز ان جي ميمبرن جي همراهن جي رياضياتي مطلب ڏانهن منتقل ڪيو ويو آهي (فزڪس سان قياس سان، اهو پڻ سڏيو ويندو آهي "مرڪز جو مرڪز")، ۽ طريقيڪار کي بار بار ڪيو ويندو آهي.
عمل ڪافي تيزيء سان ملائي ٿو. ٻن ماپن ۾ تصويرن ۾ اهو هن طرح نظر اچي ٿو:
1. جهاز تي پوائنٽن جي شروعاتي بي ترتيب تقسيم ۽ ڪلستر جو تعداد
2. ڪلسٽر سينٽرن جي وضاحت ڪرڻ ۽ انهن جي ڪلسٽرن لاءِ پوائنٽون مقرر ڪرڻ
3. ڪلستر سينٽرن جي ڪوآرڊينيٽس کي منتقل ڪرڻ، پوائنٽن جي وابستگي کي ٻيهر ڳڻڻ جيستائين مرڪز مستحڪم نه ٿين. ڪلستر سينٽر جي پيچري کي ان جي آخري پوزيشن ڏانهن منتقل ڪيو وڃي ٿو.
ڪنهن به وقت، توهان نوان ڪلستر سينٽر قائم ڪري سگهو ٿا (پوائنٽ جي نئين تقسيم پيدا ڪرڻ کان سواء!) ۽ ڏسو ته ورهاڱي وارو عمل هميشه غير واضح ناهي. رياضياتي طور، هن جو مطلب اهو آهي ته فنڪشن کي بهتر ڪرڻ لاء (پوائنٽ کان انهن جي ڪلستر جي مرڪزن تائين چورس فاصلن جو مجموعو)، اسان کي گلوبل نه، پر مقامي گهٽ ۾ گهٽ ڳولي ٿو. اهو مسئلو يا ته ابتدائي ڪلسٽر سينٽرن جي غير ترتيب واري چونڊ ذريعي، يا ممڪن مرڪزن کي ڳڻڻ سان (ڪڏهن ڪڏهن اهو فائدو ٿيندو آهي ته انهن کي بلڪل هڪ نقطي تي رکي، پوءِ گهٽ ۾ گهٽ اها گارنٽي آهي ته اسان خالي نه ٿينداسين. ڪلستر). ڪنهن به صورت ۾، هڪ محدود سيٽ هميشه هڪ انفيميم آهي.
وڪيپيڊيا تي طريقي جي وضاحت -
2. پولينوميلز ۽ ڊيٽا جي ڀڃڪڙي ذريعي تقريبن. ٻيهر تربيت ڏيڻ
قابل ذڪر سائنسدان ۽ ڊيٽا سائنس جي مشهور ڪندڙ K.V. Vorontsov مختصر طور تي مشين جي سکيا جا طريقا بيان ڪري ٿو "پوائنٽس ذريعي وکر ڪڍڻ جي سائنس." ھن مثال ۾، اسان ڊيٽا ۾ ھڪڙو نمونو ڳوليندا سين گھٽ ۾ گھٽ چوڪن جو طريقو استعمال ڪندي.
ماخذ ڊيٽا کي ورهائڻ جي ٽيڪنڪ "تربيت" ۽ "ڪنٽرول" ۾ ڏيکاريل آهي، انهي سان گڏ هڪ رجحان جيئن ته ٻيهر تربيت، يا ڊيٽا کي "ٻيهر ترتيب ڏيڻ" ۾. صحيح لڳڻ سان، اسان وٽ ٽريننگ ڊيٽا تي هڪ خاص غلطي ۽ ڪنٽرول ڊيٽا تي ٿوري وڏي غلطي هوندي. جيڪڏهن غلط آهي، اهو نتيجو ٽريننگ ڊيٽا کي درست ترتيب ڏيڻ ۽ ٽيسٽ ڊيٽا تي وڏي غلطي.
(اها هڪ مشهور حقيقت آهي ته N پوائنٽن ذريعي N-1th درجي جو هڪ واحد وکر ٺاهي سگهجي ٿو، ۽ اهو طريقو عام صورت ۾ گهربل نتيجو نٿو ڏئي.
1. شروعاتي تقسيم مقرر ڪريو
2. اسان پوائنٽن کي 70 کان 30 جي تناسب ۾ "ٽريننگ" ۽ "ڪنٽرول" ۾ ورهايو.
3. اسان ٽريننگ پوائنٽن سان لڳ ڀڳ وکر ڪڍون ٿا، اسان ڏسون ٿا غلطي جيڪا اها ڏئي ٿي ڪنٽرول ڊيٽا تي
4. اسان ٽريننگ پوائنٽن ذريعي هڪ درست وکر ڪڍون ٿا، ۽ اسان ڪنٽرول ڊيٽا تي هڪ خوفناڪ غلطي ڏسون ٿا (۽ ٽريننگ ڊيٽا تي صفر، پر نقطو ڇا آهي؟).
ڏيکاريو ويو آهي، يقينا، هڪ واحد ڊويزن سان "ٽريننگ" ۽ "ڪنٽرول" سبسٽس ۾ آسان اختيار آهي؛ عام صورت ۾، اهو ڪيو ويندو آهي ڪيترائي ڀيرا بهتر معيار جي ترتيب ڏيڻ لاء.
3. تدريسي نزول ۽ غلطي جي تبديلي جي متحرڪ
اتي هڪ 4-dimensional ڪيس ۽ لڪير regression ٿيندو. لڪير جي رجعت جي کوٽائي جو اندازو لڳايو ويندو قدم قدم سان گريڊيئيٽ نزول جو طريقو استعمال ڪندي، شروعاتي طور تي سڀئي ڪوئفينٽس صفر هوندا آهن. هڪ الڳ گراف ڏيکاري ٿو غلطي جي گھٽتائي جي متحرڪ جيئن ته ڪوئفينٽس وڌيڪ ۽ وڌيڪ صحيح طور تي ترتيب ڏنل آهن. اهو ممڪن آهي ته سڀني چار 2-dimensional منصوبن کي ڏسڻ لاء.
جيڪڏهن توهان گريڊيئينٽ نزول جي قدم کي تمام وڏو مقرر ڪيو ٿا، توهان ڏسي سگهو ٿا ته هر ڀيري اسان گهٽ ۾ گهٽ ڇڏينداسين ۽ نتيجي تي پهچنداسين ڪيترن ئي مرحلن ۾، جيتوڻيڪ آخر ۾ اسان اڃا تائين پهچنداسين (جيستائين اسان نزول واري قدم ۾ دير نه ڪنداسين. گهڻو - پوءِ الورورٿم ”ان اسپيڊس“ ۾ ويندو). ۽ غلطي جي گراف تي منحصر ڪري ٿو iteration جي قدم کي هموار نه ٿيندو، پر "جرڪي".
1. ڊيٽا ٺاھيو، گريجوئيٽ نزول قدم مقرر ڪريو
2. گريڊيئنٽ ڊيسنٽ قدم جي صحيح چونڊ سان، اسان آساني سان ۽ جلدي گھٽ ۾ گھٽ حد تائين پهچون ٿا
3. جيڪڏهن گريڊيئينٽ ڊيسنٽ قدم غلط طور تي چونڊيو ويو آهي، اسان وڌ کان وڌ اوور شوٽ ڪريون ٿا، غلطي جو گراف ”جرڪي“ آهي، ڪنورجينس وڏي تعداد ۾ قدم کڻندي آهي.
и
4. جيڪڏهن اسان گريڊيئنٽ ڊيسنٽ اسٽيپ کي مڪمل طور تي غلط طور تي چونڊيو ٿا، ته اسان گهٽ ۾ گهٽ قدم کان پري هلون ٿا.
(تصويرن ۾ ڏيکاريل gradient descent step Values استعمال ڪندي عمل کي ٻيهر تيار ڪرڻ لاءِ، چيڪ ڪريو ”ريفرنس ڊيٽا“ باڪس).
معزز برادريءَ جي مطابق، ڇا مواد کي پيش ڪرڻ جو اهڙو سادو ۽ طريقو قابل قبول آهي؟ ڇا اهو مضمون کي انگريزي ۾ ترجمو ڪرڻ جي لائق آهي؟
جو ذريعو: www.habr.com