مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

نه، خير، يقينا، مان سنجيده نه آهيان. ڪنهن موضوع کي آسان ڪرڻ جي حد تائين هجڻ گهرجي. پر پهرين مرحلن لاء، بنيادي مفهوم کي سمجهڻ ۽ جلدي "داخل ٿيڻ" موضوع، اهو قابل قبول ٿي سگهي ٿو. اسان بحث ڪنداسين ته هن مواد کي ڪيئن صحيح نالو ڏنو وڃي (اختيارن: "ڊميز لاء مشين سکيا"، "ڊائپرز کان ڊيٽا جو تجزيو"، "ننڍن لاء الگورتھم") آخر ۾.

نقطي تائين. MS Excel ۾ ڪيترن ئي ايپليڪيشن پروگرامن کي بصري ۽ عمل جي بصري نمائندگي لاءِ لکيو ويو جيڪي مختلف مشين لرننگ طريقن ۾ ٿين ٿا جڏهن ڊيٽا جو تجزيو ڪيو وڃي. سڀ کان پوء، ڏسڻ ۾ يقين ڪرڻ آهي، جيئن ڪلچر جي علمبردارن جو چوڻ آهي ته، جن انهن مان اڪثر طريقا ٺاهيا آهن (انهي سان، اهي سڀئي نه آهن. سڀ کان وڌيڪ طاقتور "سپورٽ ویکٹر مشين"، يا SVM، سپورٽ ویکٹر مشين جي ايجاد آهي. اسان جو هم وطن ولاديمير وپنڪ، ماسڪو انسٽيٽيوٽ آف مئنيجمينٽ. 1963، رستي ۾! هاڻي، بهرحال، هو آمريڪا ۾ سيکاريندو ۽ ڪم ڪري ٿو).

جائزو وٺڻ لاء ٽي فائلون

1. K- يعني ڪلستر ڪرڻ

هن قسم جا مسئلا "غير نگراني ٿيل سکيا" ​​ڏانهن اشارو ڪن ٿا، جڏهن اسان کي شروعاتي ڊيٽا کي ڪجهه خاص قسمن ۾ ورهائڻ جي ضرورت آهي جيڪي اڳ ۾ ڄاڻايل آهن، پر اسان وٽ "صحيح جوابن" جو تعداد ناهي؛ اسان کي انهن کي ڊيٽا مان ئي ڪڍڻ گهرجي. . آئيرس گلن جي ذيلي جنس ڳولڻ جو بنيادي ڪلاسيڪل مسئلو (Ronald Fisher, 1936!)، جنهن کي علم جي هن شعبي جي پهرين نشاني سمجهيو وڃي ٿو، صرف هن نوعيت جو آهي.

طريقو بلڪل سادو آهي. اسان وٽ شين جو هڪ سيٽ آهي جنهن کي ویکٹر طور ڏيکاريل آهي (N نمبرن جو سيٽ). irises ۾، اهي 4 انگن جا سيٽ آهن جيڪي گلن جي خصوصيت ڪن ٿا: ڊگھائي ۽ چوٿون ٻاهرئين ۽ اندروني لاب جي، ترتيب سان (فشر جي irises - وڪيپيڊيا). عام ڪارٽيزئن ميٽرڪ کي فاصلي طور چونڊيو ويندو آهي، يا شين جي وچ ۾ قربت جي ماپ.

اڳيون، ڪلسٽر مرڪز بي ترتيب طور تي چونڊيا ويندا آهن (يا بي ترتيب نه، هيٺ ڏسو)، ۽ هر شئي کان ڪلستر سينٽرن تائين فاصلو ڳڻيو ويندو آهي. هر شئي کي ڏنل ورجائي واري مرحلي تي نشان لڳل آهي جيئن ويجهي مرڪز سان تعلق رکي ٿو. پوءِ هر ڪلستر جو مرڪز ان جي ميمبرن جي همراهن جي رياضياتي مطلب ڏانهن منتقل ڪيو ويو آهي (فزڪس سان قياس سان، اهو پڻ سڏيو ويندو آهي "مرڪز جو مرڪز")، ۽ طريقيڪار کي بار بار ڪيو ويندو آهي.

عمل ڪافي تيزيء سان ملائي ٿو. ٻن ماپن ۾ تصويرن ۾ اهو هن طرح نظر اچي ٿو:

1. جهاز تي پوائنٽن جي شروعاتي بي ترتيب تقسيم ۽ ڪلستر جو تعداد

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

2. ڪلسٽر سينٽرن جي وضاحت ڪرڻ ۽ انهن جي ڪلسٽرن لاءِ پوائنٽون مقرر ڪرڻ

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

3. ڪلستر سينٽرن جي ڪوآرڊينيٽس کي منتقل ڪرڻ، پوائنٽن جي وابستگي کي ٻيهر ڳڻڻ جيستائين مرڪز مستحڪم نه ٿين. ڪلستر سينٽر جي پيچري کي ان جي آخري پوزيشن ڏانهن منتقل ڪيو وڃي ٿو.

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

ڪنهن به وقت، توهان نوان ڪلستر سينٽر قائم ڪري سگهو ٿا (پوائنٽ جي نئين تقسيم پيدا ڪرڻ کان سواء!) ۽ ڏسو ته ورهاڱي وارو عمل هميشه غير واضح ناهي. رياضياتي طور، هن جو مطلب اهو آهي ته فنڪشن کي بهتر ڪرڻ لاء (پوائنٽ کان انهن جي ڪلستر جي مرڪزن تائين چورس فاصلن جو مجموعو)، اسان کي گلوبل نه، پر مقامي گهٽ ۾ گهٽ ڳولي ٿو. اهو مسئلو يا ته ابتدائي ڪلسٽر سينٽرن جي غير ترتيب واري چونڊ ذريعي، يا ممڪن مرڪزن کي ڳڻڻ سان (ڪڏهن ڪڏهن اهو فائدو ٿيندو آهي ته انهن کي بلڪل هڪ نقطي تي رکي، پوءِ گهٽ ۾ گهٽ اها گارنٽي آهي ته اسان خالي نه ٿينداسين. ڪلستر). ڪنهن به صورت ۾، هڪ محدود سيٽ هميشه هڪ انفيميم آهي.

توھان ھن فائل سان راند ڪري سگھو ٿا ھن لنڪ تي (ميڪرو سپورٽ کي فعال ڪرڻ نه وساريو. فائلون وائرس لاءِ اسڪين ڪيون ويون آهن)

وڪيپيڊيا تي طريقي جي وضاحت - ڪ-مطلب طريقو

2. پولينوميلز ۽ ڊيٽا جي ڀڃڪڙي ذريعي تقريبن. ٻيهر تربيت ڏيڻ

قابل ذڪر سائنسدان ۽ ڊيٽا سائنس جي مشهور ڪندڙ K.V. Vorontsov مختصر طور تي مشين جي سکيا جا طريقا بيان ڪري ٿو "پوائنٽس ذريعي وکر ڪڍڻ جي سائنس." ھن مثال ۾، اسان ڊيٽا ۾ ھڪڙو نمونو ڳوليندا سين گھٽ ۾ گھٽ چوڪن جو طريقو استعمال ڪندي.

ماخذ ڊيٽا کي ورهائڻ جي ٽيڪنڪ "تربيت" ۽ "ڪنٽرول" ۾ ڏيکاريل آهي، انهي سان گڏ هڪ رجحان جيئن ته ٻيهر تربيت، يا ڊيٽا کي "ٻيهر ترتيب ڏيڻ" ۾. صحيح لڳڻ سان، اسان وٽ ٽريننگ ڊيٽا تي هڪ خاص غلطي ۽ ڪنٽرول ڊيٽا تي ٿوري وڏي غلطي هوندي. جيڪڏهن غلط آهي، اهو نتيجو ٽريننگ ڊيٽا کي درست ترتيب ڏيڻ ۽ ٽيسٽ ڊيٽا تي وڏي غلطي.

(اها هڪ مشهور حقيقت آهي ته N پوائنٽن ذريعي N-1th درجي جو هڪ واحد وکر ٺاهي سگهجي ٿو، ۽ اهو طريقو عام صورت ۾ گهربل نتيجو نٿو ڏئي. Lagrange interpolation polynomial وڪيپيڊيا تي)

1. شروعاتي تقسيم مقرر ڪريو

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

2. اسان پوائنٽن کي 70 کان 30 جي تناسب ۾ "ٽريننگ" ۽ "ڪنٽرول" ۾ ورهايو.

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

3. اسان ٽريننگ پوائنٽن سان لڳ ڀڳ وکر ڪڍون ٿا، اسان ڏسون ٿا غلطي جيڪا اها ڏئي ٿي ڪنٽرول ڊيٽا تي

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

4. اسان ٽريننگ پوائنٽن ذريعي هڪ درست وکر ڪڍون ٿا، ۽ اسان ڪنٽرول ڊيٽا تي هڪ خوفناڪ غلطي ڏسون ٿا (۽ ٽريننگ ڊيٽا تي صفر، پر نقطو ڇا آهي؟).

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

ڏيکاريو ويو آهي، يقينا، هڪ واحد ڊويزن سان "ٽريننگ" ۽ "ڪنٽرول" سبسٽس ۾ آسان اختيار آهي؛ عام صورت ۾، اهو ڪيو ويندو آهي ڪيترائي ڀيرا بهتر معيار جي ترتيب ڏيڻ لاء.

فائل هتي موجود آهي، اينٽي وائرس ذريعي اسڪين ٿيل. صحيح آپريشن لاءِ ميڪرو کي فعال ڪريو

3. تدريسي نزول ۽ غلطي جي تبديلي جي متحرڪ

اتي هڪ 4-dimensional ڪيس ۽ لڪير regression ٿيندو. لڪير جي رجعت جي کوٽائي جو اندازو لڳايو ويندو قدم قدم سان گريڊيئيٽ نزول جو طريقو استعمال ڪندي، شروعاتي طور تي سڀئي ڪوئفينٽس صفر هوندا آهن. هڪ الڳ گراف ڏيکاري ٿو غلطي جي گھٽتائي جي متحرڪ جيئن ته ڪوئفينٽس وڌيڪ ۽ وڌيڪ صحيح طور تي ترتيب ڏنل آهن. اهو ممڪن آهي ته سڀني چار 2-dimensional منصوبن کي ڏسڻ لاء.

جيڪڏهن توهان گريڊيئينٽ نزول جي قدم کي تمام وڏو مقرر ڪيو ٿا، توهان ڏسي سگهو ٿا ته هر ڀيري اسان گهٽ ۾ گهٽ ڇڏينداسين ۽ نتيجي تي پهچنداسين ڪيترن ئي مرحلن ۾، جيتوڻيڪ آخر ۾ اسان اڃا تائين پهچنداسين (جيستائين اسان نزول واري قدم ۾ دير نه ڪنداسين. گهڻو - پوءِ الورورٿم ”ان اسپيڊس“ ۾ ويندو). ۽ غلطي جي گراف تي منحصر ڪري ٿو iteration جي قدم کي هموار نه ٿيندو، پر "جرڪي".

1. ڊيٽا ٺاھيو، گريجوئيٽ نزول قدم مقرر ڪريو

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

2. گريڊيئنٽ ڊيسنٽ قدم جي صحيح چونڊ سان، اسان آساني سان ۽ جلدي گھٽ ۾ گھٽ حد تائين پهچون ٿا

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

3. جيڪڏهن گريڊيئينٽ ڊيسنٽ قدم غلط طور تي چونڊيو ويو آهي، اسان وڌ کان وڌ اوور شوٽ ڪريون ٿا، غلطي جو گراف ”جرڪي“ آهي، ڪنورجينس وڏي تعداد ۾ قدم کڻندي آهي.

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس
и

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

4. جيڪڏهن اسان گريڊيئنٽ ڊيسنٽ اسٽيپ کي مڪمل طور تي غلط طور تي چونڊيو ٿا، ته اسان گهٽ ۾ گهٽ قدم کان پري هلون ٿا.

مشين لرننگ بغير پٿون، ايناڪونڊا ۽ ٻين ريپٽائلس

(تصويرن ۾ ڏيکاريل gradient descent step Values ​​استعمال ڪندي عمل کي ٻيهر تيار ڪرڻ لاءِ، چيڪ ڪريو ”ريفرنس ڊيٽا“ باڪس).

فائل هن لنڪ تي آهي، توهان کي ميڪروز کي فعال ڪرڻ جي ضرورت آهي، ڪو به وائرس ناهي.

معزز برادريءَ جي مطابق، ڇا مواد کي پيش ڪرڻ جو اهڙو سادو ۽ طريقو قابل قبول آهي؟ ڇا اهو مضمون کي انگريزي ۾ ترجمو ڪرڻ جي لائق آهي؟

جو ذريعو: www.habr.com

تبصرو شامل ڪريو