نہیں، بالکل، میں سنجیدہ نہیں ہوں۔ کسی موضوع کو کس حد تک آسان بنانا ممکن ہو اس کی ایک حد ہونی چاہیے۔ لیکن پہلے مرحلے کے لیے، بنیادی تصورات کو سمجھنا اور موضوع کو تیزی سے "داخل" کرنا، یہ قابل قبول ہو سکتا ہے۔ ہم آخر میں اس مواد کو صحیح طریقے سے نام دینے کے بارے میں بات کریں گے (اختیارات: "ڈمی کے لیے مشین لرننگ"، "ڈائیپر سے ڈیٹا کا تجزیہ"، "چھوٹے بچوں کے لیے الگورتھم")۔
ٹھیک نقطے پر. اعداد و شمار کا تجزیہ کرتے وقت مختلف مشین لرننگ طریقوں میں پائے جانے والے عمل کی تصور اور بصری نمائندگی کے لیے ایم ایس ایکسل میں کئی ایپلیکیشن پروگرام لکھے۔ دیکھ کر یقین کرنا ہے، جیسا کہ ثقافت کے علمبردار کہتے ہیں، جس نے ان میں سے زیادہ تر طریقے تیار کیے (ویسے، ان میں سے سبھی نہیں۔ ہمارے ہم وطن ولادیمیر واپنک، ماسکو انسٹی ٹیوٹ آف مینجمنٹ۔ 1963، ویسے! اب، تاہم، وہ امریکہ میں پڑھاتے اور کام کرتے ہیں)۔
1. K- کا مطلب ہے جھرمٹ
اس قسم کے مسائل "غیر زیر نگرانی سیکھنے" کا حوالہ دیتے ہیں جب ہمیں ابتدائی ڈیٹا کو پہلے سے معلوم کیٹیگریز کی ایک مخصوص تعداد میں تقسیم کرنے کی ضرورت ہوتی ہے، لیکن ہمارے پاس "درست جوابات" کی تعداد نہیں ہوتی؛ ہمیں انہیں ڈیٹا سے ہی نکالنا چاہیے۔ . آئیرس کے پھولوں کی ذیلی انواع تلاش کرنے کا بنیادی کلاسیکی مسئلہ (رونالڈ فشر، 1936!)، جسے علم کے اس شعبے کی پہلی علامت سمجھا جاتا ہے، صرف اس نوعیت کا ہے۔
طریقہ کافی آسان ہے۔ ہمارے پاس اشیاء کا ایک سیٹ ہے جسے ویکٹر کے طور پر دکھایا گیا ہے (N نمبروں کے سیٹ)۔ irises میں، یہ 4 نمبروں کے سیٹ ہیں جو پھول کی خصوصیت کرتے ہیں: بالترتیب پیرینتھ کے بیرونی اور اندرونی لاب کی لمبائی اور چوڑائی (
اس کے بعد، کلسٹر مراکز کا انتخاب تصادفی طور پر کیا جاتا ہے (یا تصادفی طور پر نہیں، نیچے ملاحظہ کریں)، اور ہر چیز سے کلسٹر مراکز تک کی دوری کا حساب لگایا جاتا ہے۔ دیئے گئے تکراری مرحلے پر ہر چیز کو قریب ترین مرکز سے تعلق کے طور پر نشان زد کیا جاتا ہے۔ پھر ہر کلسٹر کے مرکز کو اس کے ارکان کے نقاط کے حسابی وسط میں منتقل کیا جاتا ہے (طبیعیات کے ساتھ مشابہت کے لحاظ سے، اسے "بڑے پیمانے کا مرکز" بھی کہا جاتا ہے)، اور طریقہ کار کو دہرایا جاتا ہے۔
عمل بہت تیزی سے بدل جاتا ہے۔ دو جہتوں میں تصویروں میں یہ اس طرح لگتا ہے:
1. ہوائی جہاز پر پوائنٹس کی ابتدائی بے ترتیب تقسیم اور کلسٹرز کی تعداد
2. کلسٹر مراکز کی وضاحت کرنا اور ان کے کلسٹرز کو پوائنٹس تفویض کرنا
3. کلسٹر مراکز کے نقاط کو منتقل کرنا، جب تک مراکز مستحکم نہ ہو جائیں پوائنٹس کے الحاق کا دوبارہ حساب لگانا۔ کلسٹر سینٹر کی رفتار اپنی آخری پوزیشن کی طرف بڑھ رہی ہے۔
کسی بھی وقت، آپ نئے کلسٹر مراکز (پوائنٹس کی نئی تقسیم پیدا کیے بغیر!) قائم کر سکتے ہیں اور دیکھیں کہ تقسیم کا عمل ہمیشہ غیر واضح نہیں ہوتا ہے۔ ریاضیاتی طور پر، اس کا مطلب یہ ہے کہ فنکشن کو بہتر بنانے کے لیے (پوائنٹس سے ان کے جھرمٹ کے مراکز تک مربع فاصلوں کا مجموعہ)، ہمیں عالمی نہیں، بلکہ مقامی کم از کم ملتا ہے۔ اس مسئلے پر یا تو ابتدائی کلسٹر مراکز کے غیر بے ترتیب انتخاب سے، یا ممکنہ مراکز کی گنتی کے ذریعے قابو پایا جا سکتا ہے (بعض اوقات ان کو بالکل ایک پوائنٹ پر رکھنا فائدہ مند ہوتا ہے، پھر کم از کم اس بات کی ضمانت ہے کہ ہم خالی نہیں ہوں گے۔ کلسٹرز)۔ کسی بھی صورت میں، ایک محدود سیٹ میں ہمیشہ ایک انفیمم ہوتا ہے۔
ویکیپیڈیا پر طریقہ کار کی تفصیل -
2. کثیر الثانیات اور ڈیٹا کی خرابی کے لحاظ سے تخمینہ۔ دوبارہ تربیت دینا
قابل ذکر سائنسدان اور ڈیٹا سائنس کو مقبول بنانے والے K.V. Vorontsov مختصر طور پر مشین سیکھنے کے طریقوں کو "پوائنٹس کے ذریعے منحنی خطوط کھینچنے کی سائنس" کے طور پر بیان کرتا ہے۔ اس مثال میں، ہم کم از کم مربع کے طریقہ کار کا استعمال کرتے ہوئے ڈیٹا میں ایک پیٹرن تلاش کریں گے.
ماخذ ڈیٹا کو "تربیت" اور "کنٹرول" میں تقسیم کرنے کی تکنیک دکھائی گئی ہے، اور ساتھ ہی اعداد و شمار کو دوبارہ تربیت دینے، یا "دوبارہ ایڈجسٹ کرنے" جیسے رجحان کو دکھایا گیا ہے۔ درست تخمینہ کے ساتھ، ہمارے پاس تربیتی ڈیٹا میں ایک خاص خامی اور کنٹرول ڈیٹا میں قدرے بڑی خرابی ہوگی۔ اگر غلط ہے، تو اس کے نتیجے میں تربیتی اعداد و شمار میں درست ایڈجسٹمنٹ اور ٹیسٹ کے اعداد و شمار میں ایک بہت بڑی غلطی ہوتی ہے۔
(یہ ایک معروف حقیقت ہے کہ N پوائنٹس کے ذریعے N-1th ڈگری کا ایک واحد وکر کھینچا جا سکتا ہے، اور عام صورت میں یہ طریقہ مطلوبہ نتیجہ نہیں دیتا۔
1. ابتدائی تقسیم سیٹ کریں۔
2. ہم پوائنٹس کو 70 سے 30 کے تناسب سے "ٹریننگ" اور "کنٹرول" میں تقسیم کرتے ہیں۔
3. ہم ٹریننگ پوائنٹس کے ساتھ لگ بھگ منحنی خطوط کھینچتے ہیں، ہمیں کنٹرول ڈیٹا پر اس کی خرابی نظر آتی ہے۔
4. ہم ٹریننگ پوائنٹس کے ذریعے ایک درست وکر کھینچتے ہیں، اور ہمیں کنٹرول ڈیٹا پر ایک خوفناک غلطی نظر آتی ہے (اور ٹریننگ ڈیٹا پر صفر، لیکن اس کا کیا مطلب ہے؟)
ظاہر کیا گیا ہے، بلاشبہ، "تربیت" اور "کنٹرول" کے ذیلی سیٹوں میں ایک تقسیم کے ساتھ سب سے آسان آپشن ہے؛ عام صورت میں، یہ کوفیشینٹس کی بہترین ایڈجسٹمنٹ کے لیے کئی بار کیا جاتا ہے۔
3. تدریجی نزول اور خرابی کی تبدیلی کی حرکیات
ایک 4 جہتی کیس اور لکیری رجعت ہوگی۔ لکیری ریگریشن گتانک کا تعین تدریجی نزول کے طریقہ کار کا استعمال کرتے ہوئے مرحلہ وار کیا جائے گا، ابتدائی طور پر تمام گتانک صفر ہوتے ہیں۔ ایک الگ گراف غلطی میں کمی کی حرکیات کو ظاہر کرتا ہے کیونکہ گتانک کو زیادہ سے زیادہ درست طریقے سے ایڈجسٹ کیا جاتا ہے۔ تمام چار 2 جہتی تخمینوں کو دیکھنا ممکن ہے۔
اگر آپ گراڈینٹ ڈیسنٹ سٹیپ کو بہت بڑا سیٹ کرتے ہیں، تو آپ دیکھ سکتے ہیں کہ ہر بار ہم کم سے کم کو چھوڑ دیں گے اور بہت زیادہ قدموں میں نتیجہ پر پہنچیں گے، حالانکہ آخر میں ہم پھر بھی پہنچیں گے (جب تک کہ ہم ڈیسنٹ سٹیپ میں تاخیر نہ کریں۔ زیادہ - پھر الگورتھم "اسپیڈز میں" جائے گا)۔ اور تکرار کے مرحلے پر منحصر غلطی کا گراف ہموار نہیں ہوگا، لیکن "جھٹکا دار" ہوگا۔
1. ڈیٹا تیار کریں، گریڈینٹ ڈیسنٹ سٹیپ سیٹ کریں۔
2. تدریجی نزول قدم کے صحیح انتخاب کے ساتھ، ہم آسانی سے اور تیزی سے کم از کم تک پہنچ جاتے ہیں
3. اگر گراڈینٹ ڈیسنٹ سٹیپ کو غلط طریقے سے منتخب کیا گیا ہے، تو ہم زیادہ سے زیادہ کو اوور شوٹ کرتے ہیں، غلطی کا گراف "جھٹکا دار" ہے، کنورجنس بہت زیادہ قدم لیتا ہے
и
4. اگر ہم تدریجی نزول قدم کو مکمل طور پر غلط طریقے سے منتخب کرتے ہیں، تو ہم کم از کم سے ہٹ جاتے ہیں
(تصاویر میں دکھائے گئے گریڈینٹ ڈیسنٹ سٹیپ ویلیوز کا استعمال کرتے ہوئے عمل کو دوبارہ پیش کرنے کے لیے، "ریفرنس ڈیٹا" باکس کو چیک کریں)۔
معزز برادری کے نزدیک کیا مواد کو پیش کرنے کا اتنا سادگی اور طریقہ قابل قبول ہے؟ کیا یہ مضمون کا انگریزی میں ترجمہ کرنے کے قابل ہے؟
ماخذ: www.habr.com