ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

نہیں، بالکل، میں سنجیدہ نہیں ہوں۔ کسی موضوع کو کس حد تک آسان بنانا ممکن ہو اس کی ایک حد ہونی چاہیے۔ لیکن پہلے مرحلے کے لیے، بنیادی تصورات کو سمجھنا اور موضوع کو تیزی سے "داخل" کرنا، یہ قابل قبول ہو سکتا ہے۔ ہم آخر میں اس مواد کو صحیح طریقے سے نام دینے کے بارے میں بات کریں گے (اختیارات: "ڈمی کے لیے مشین لرننگ"، "ڈائیپر سے ڈیٹا کا تجزیہ"، "چھوٹے بچوں کے لیے الگورتھم")۔

ٹھیک نقطے پر. اعداد و شمار کا تجزیہ کرتے وقت مختلف مشین لرننگ طریقوں میں پائے جانے والے عمل کی تصور اور بصری نمائندگی کے لیے ایم ایس ایکسل میں کئی ایپلیکیشن پروگرام لکھے۔ دیکھ کر یقین کرنا ہے، جیسا کہ ثقافت کے علمبردار کہتے ہیں، جس نے ان میں سے زیادہ تر طریقے تیار کیے (ویسے، ان میں سے سبھی نہیں۔ ہمارے ہم وطن ولادیمیر واپنک، ماسکو انسٹی ٹیوٹ آف مینجمنٹ۔ 1963، ویسے! اب، تاہم، وہ امریکہ میں پڑھاتے اور کام کرتے ہیں)۔

جائزہ کے لیے تین فائلیں۔

1. K- کا مطلب ہے جھرمٹ

اس قسم کے مسائل "غیر زیر نگرانی سیکھنے" کا حوالہ دیتے ہیں جب ہمیں ابتدائی ڈیٹا کو پہلے سے معلوم کیٹیگریز کی ایک مخصوص تعداد میں تقسیم کرنے کی ضرورت ہوتی ہے، لیکن ہمارے پاس "درست جوابات" کی تعداد نہیں ہوتی؛ ہمیں انہیں ڈیٹا سے ہی نکالنا چاہیے۔ . آئیرس کے پھولوں کی ذیلی انواع تلاش کرنے کا بنیادی کلاسیکی مسئلہ (رونالڈ فشر، 1936!)، جسے علم کے اس شعبے کی پہلی علامت سمجھا جاتا ہے، صرف اس نوعیت کا ہے۔

طریقہ کافی آسان ہے۔ ہمارے پاس اشیاء کا ایک سیٹ ہے جسے ویکٹر کے طور پر دکھایا گیا ہے (N نمبروں کے سیٹ)۔ irises میں، یہ 4 نمبروں کے سیٹ ہیں جو پھول کی خصوصیت کرتے ہیں: بالترتیب پیرینتھ کے بیرونی اور اندرونی لاب کی لمبائی اور چوڑائی (فشر کی irises - ویکیپیڈیا)۔ معمول کی کارٹیشین میٹرک کو اشیاء کے درمیان فاصلے، یا قربت کی پیمائش کے طور پر منتخب کیا جاتا ہے۔

اس کے بعد، کلسٹر مراکز کا انتخاب تصادفی طور پر کیا جاتا ہے (یا تصادفی طور پر نہیں، نیچے ملاحظہ کریں)، اور ہر چیز سے کلسٹر مراکز تک کی دوری کا حساب لگایا جاتا ہے۔ دیئے گئے تکراری مرحلے پر ہر چیز کو قریب ترین مرکز سے تعلق کے طور پر نشان زد کیا جاتا ہے۔ پھر ہر کلسٹر کے مرکز کو اس کے ارکان کے نقاط کے حسابی وسط میں منتقل کیا جاتا ہے (طبیعیات کے ساتھ مشابہت کے لحاظ سے، اسے "بڑے پیمانے کا مرکز" بھی کہا جاتا ہے)، اور طریقہ کار کو دہرایا جاتا ہے۔

عمل بہت تیزی سے بدل جاتا ہے۔ دو جہتوں میں تصویروں میں یہ اس طرح لگتا ہے:

1. ہوائی جہاز پر پوائنٹس کی ابتدائی بے ترتیب تقسیم اور کلسٹرز کی تعداد

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

2. کلسٹر مراکز کی وضاحت کرنا اور ان کے کلسٹرز کو پوائنٹس تفویض کرنا

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

3. کلسٹر مراکز کے نقاط کو منتقل کرنا، جب تک مراکز مستحکم نہ ہو جائیں پوائنٹس کے الحاق کا دوبارہ حساب لگانا۔ کلسٹر سینٹر کی رفتار اپنی آخری پوزیشن کی طرف بڑھ رہی ہے۔

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

کسی بھی وقت، آپ نئے کلسٹر مراکز (پوائنٹس کی نئی تقسیم پیدا کیے بغیر!) قائم کر سکتے ہیں اور دیکھیں کہ تقسیم کا عمل ہمیشہ غیر واضح نہیں ہوتا ہے۔ ریاضیاتی طور پر، اس کا مطلب یہ ہے کہ فنکشن کو بہتر بنانے کے لیے (پوائنٹس سے ان کے جھرمٹ کے مراکز تک مربع فاصلوں کا مجموعہ)، ہمیں عالمی نہیں، بلکہ مقامی کم از کم ملتا ہے۔ اس مسئلے پر یا تو ابتدائی کلسٹر مراکز کے غیر بے ترتیب انتخاب سے، یا ممکنہ مراکز کی گنتی کے ذریعے قابو پایا جا سکتا ہے (بعض اوقات ان کو بالکل ایک پوائنٹ پر رکھنا فائدہ مند ہوتا ہے، پھر کم از کم اس بات کی ضمانت ہے کہ ہم خالی نہیں ہوں گے۔ کلسٹرز)۔ کسی بھی صورت میں، ایک محدود سیٹ میں ہمیشہ ایک انفیمم ہوتا ہے۔

آپ اس فائل کے ساتھ اس لنک پر کھیل سکتے ہیں۔ (میکرو سپورٹ کو فعال کرنا نہ بھولیں۔ فائلوں کو وائرس کے لیے اسکین کیا گیا ہے)

ویکیپیڈیا پر طریقہ کار کی تفصیل - k کا مطلب طریقہ ہے۔

2. کثیر الثانیات اور ڈیٹا کی خرابی کے لحاظ سے تخمینہ۔ دوبارہ تربیت دینا

قابل ذکر سائنسدان اور ڈیٹا سائنس کو مقبول بنانے والے K.V. Vorontsov مختصر طور پر مشین سیکھنے کے طریقوں کو "پوائنٹس کے ذریعے منحنی خطوط کھینچنے کی سائنس" کے طور پر بیان کرتا ہے۔ اس مثال میں، ہم کم از کم مربع کے طریقہ کار کا استعمال کرتے ہوئے ڈیٹا میں ایک پیٹرن تلاش کریں گے.

ماخذ ڈیٹا کو "تربیت" اور "کنٹرول" میں تقسیم کرنے کی تکنیک دکھائی گئی ہے، اور ساتھ ہی اعداد و شمار کو دوبارہ تربیت دینے، یا "دوبارہ ایڈجسٹ کرنے" جیسے رجحان کو دکھایا گیا ہے۔ درست تخمینہ کے ساتھ، ہمارے پاس تربیتی ڈیٹا میں ایک خاص خامی اور کنٹرول ڈیٹا میں قدرے بڑی خرابی ہوگی۔ اگر غلط ہے، تو اس کے نتیجے میں تربیتی اعداد و شمار میں درست ایڈجسٹمنٹ اور ٹیسٹ کے اعداد و شمار میں ایک بہت بڑی غلطی ہوتی ہے۔

(یہ ایک معروف حقیقت ہے کہ N پوائنٹس کے ذریعے N-1th ڈگری کا ایک واحد وکر کھینچا جا سکتا ہے، اور عام صورت میں یہ طریقہ مطلوبہ نتیجہ نہیں دیتا۔ ویکیپیڈیا پر لگرینج انٹرپولیشن پولنومیل)

1. ابتدائی تقسیم سیٹ کریں۔

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

2. ہم پوائنٹس کو 70 سے 30 کے تناسب سے "ٹریننگ" اور "کنٹرول" میں تقسیم کرتے ہیں۔

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

3. ہم ٹریننگ پوائنٹس کے ساتھ لگ بھگ منحنی خطوط کھینچتے ہیں، ہمیں کنٹرول ڈیٹا پر اس کی خرابی نظر آتی ہے۔

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

4. ہم ٹریننگ پوائنٹس کے ذریعے ایک درست وکر کھینچتے ہیں، اور ہمیں کنٹرول ڈیٹا پر ایک خوفناک غلطی نظر آتی ہے (اور ٹریننگ ڈیٹا پر صفر، لیکن اس کا کیا مطلب ہے؟)

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

ظاہر کیا گیا ہے، بلاشبہ، "تربیت" اور "کنٹرول" کے ذیلی سیٹوں میں ایک تقسیم کے ساتھ سب سے آسان آپشن ہے؛ عام صورت میں، یہ کوفیشینٹس کی بہترین ایڈجسٹمنٹ کے لیے کئی بار کیا جاتا ہے۔

فائل یہاں دستیاب ہے، اینٹی وائرس کے ذریعے اسکین کی گئی ہے۔ درست آپریشن کے لیے میکرو کو فعال کریں۔

3. تدریجی نزول اور خرابی کی تبدیلی کی حرکیات

ایک 4 جہتی کیس اور لکیری رجعت ہوگی۔ لکیری ریگریشن گتانک کا تعین تدریجی نزول کے طریقہ کار کا استعمال کرتے ہوئے مرحلہ وار کیا جائے گا، ابتدائی طور پر تمام گتانک صفر ہوتے ہیں۔ ایک الگ گراف غلطی میں کمی کی حرکیات کو ظاہر کرتا ہے کیونکہ گتانک کو زیادہ سے زیادہ درست طریقے سے ایڈجسٹ کیا جاتا ہے۔ تمام چار 2 جہتی تخمینوں کو دیکھنا ممکن ہے۔

اگر آپ گراڈینٹ ڈیسنٹ سٹیپ کو بہت بڑا سیٹ کرتے ہیں، تو آپ دیکھ سکتے ہیں کہ ہر بار ہم کم سے کم کو چھوڑ دیں گے اور بہت زیادہ قدموں میں نتیجہ پر پہنچیں گے، حالانکہ آخر میں ہم پھر بھی پہنچیں گے (جب تک کہ ہم ڈیسنٹ سٹیپ میں تاخیر نہ کریں۔ زیادہ - پھر الگورتھم "اسپیڈز میں" جائے گا)۔ اور تکرار کے مرحلے پر منحصر غلطی کا گراف ہموار نہیں ہوگا، لیکن "جھٹکا دار" ہوگا۔

1. ڈیٹا تیار کریں، گریڈینٹ ڈیسنٹ سٹیپ سیٹ کریں۔

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

2. تدریجی نزول قدم کے صحیح انتخاب کے ساتھ، ہم آسانی سے اور تیزی سے کم از کم تک پہنچ جاتے ہیں

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

3. اگر گراڈینٹ ڈیسنٹ سٹیپ کو غلط طریقے سے منتخب کیا گیا ہے، تو ہم زیادہ سے زیادہ کو اوور شوٹ کرتے ہیں، غلطی کا گراف "جھٹکا دار" ہے، کنورجنس بہت زیادہ قدم لیتا ہے

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ
и

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

4. اگر ہم تدریجی نزول قدم کو مکمل طور پر غلط طریقے سے منتخب کرتے ہیں، تو ہم کم از کم سے ہٹ جاتے ہیں

ازگر، ایناکونڈا اور دیگر رینگنے والے جانوروں کے بغیر مشین لرننگ

(تصاویر میں دکھائے گئے گریڈینٹ ڈیسنٹ سٹیپ ویلیوز کا استعمال کرتے ہوئے عمل کو دوبارہ پیش کرنے کے لیے، "ریفرنس ڈیٹا" باکس کو چیک کریں)۔

فائل اس لنک پر ہے، آپ کو میکرو کو فعال کرنے کی ضرورت ہے، کوئی وائرس نہیں ہیں۔

معزز برادری کے نزدیک کیا مواد کو پیش کرنے کا اتنا سادگی اور طریقہ قابل قبول ہے؟ کیا یہ مضمون کا انگریزی میں ترجمہ کرنے کے قابل ہے؟

ماخذ: www.habr.com

نیا تبصرہ شامل کریں