کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

حال ہی میں جاری کیا گیا۔ مضمون، جو حالیہ برسوں میں مشین لرننگ میں اچھے رجحان کو ظاہر کرتا ہے۔ مختصراً: پچھلے دو سالوں میں مشین لرننگ اسٹارٹ اپس کی تعداد میں کمی آئی ہے۔

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟
ٹھیک ہے. آئیے دیکھتے ہیں کہ "کیا بلبلا پھٹ گیا ہے"، "زندگی کیسے جاری رکھیں" اور اس کے بارے میں بات کرتے ہیں کہ اس طرح کا ہنگامہ کہاں سے آتا ہے۔

سب سے پہلے، اس کے بارے میں بات کرتے ہیں کہ اس وکر کا بوسٹر کیا تھا. وہ کہاں سے آئی؟ انہیں شاید سب کچھ یاد ہو گا۔ فتح امیج نیٹ مقابلے میں 2012 میں مشین لرننگ۔ سب کے بعد، یہ پہلا عالمی واقعہ ہے! لیکن حقیقت میں ایسا نہیں ہے۔ اور وکر کی ترقی تھوڑی دیر پہلے شروع ہوتی ہے. میں اسے کئی نکات میں توڑ دوں گا۔

  1. 2008 میں "بگ ڈیٹا" کی اصطلاح کا ظہور ہوا۔ اصلی مصنوعات شروع ہو گئیں۔ ظاہر 2010 سے. بگ ڈیٹا کا براہ راست تعلق مشین لرننگ سے ہے۔ بڑے ڈیٹا کے بغیر، اس وقت موجود الگورتھم کا مستحکم آپریشن ناممکن ہے۔ اور یہ نیورل نیٹ ورک نہیں ہیں۔ 2012 تک، عصبی نیٹ ورک ایک معمولی اقلیت کے تحفظ کے لیے تھے۔ لیکن پھر مکمل طور پر مختلف الگورتھم کام کرنے لگے، جو برسوں، یا دہائیوں سے موجود تھے: ایس وی ایم(1963,1993،XNUMX)، بے ترتیب جنگل (1995) اڈا بوسٹ۔ (2003)،... ان سالوں کے سٹارٹ اپ بنیادی طور پر سٹرکچرڈ ڈیٹا کی خودکار پروسیسنگ سے وابستہ ہیں: کیش رجسٹر، صارفین، اشتہارات، بہت کچھ۔

    اس پہلی لہر کا مشتق فریم ورک کا ایک سیٹ ہے جیسے کہ XGBoost، CatBoost، LightGBM، وغیرہ۔

  2. 2011-2012 میں convolutional عصبی نیٹ ورک تصویر کی شناخت کے کئی مقابلے جیتے۔ ان کے حقیقی استعمال میں کچھ تاخیر ہوئی۔ میں یہ کہوں گا کہ بڑے پیمانے پر بامعنی آغاز اور حل 2014 میں ظاہر ہونا شروع ہوئے۔ اس بات کو ہضم کرنے میں دو سال لگے کہ نیوران اب بھی کام کرتے ہیں، ایسے آسان فریم ورک بنانے کے لیے جو مناسب وقت میں انسٹال اور لانچ کیے جاسکیں، ایسے طریقے تیار کیے جائیں جو کنورجنسی وقت کو مستحکم اور تیز کریں۔

    Convolutional نیٹ ورکس نے کمپیوٹر وژن کے مسائل کو حل کرنا ممکن بنایا: تصویر میں موجود امیجز اور اشیاء کی درجہ بندی، آبجیکٹ کا پتہ لگانا، اشیاء اور لوگوں کی پہچان، تصویر میں بہتری، وغیرہ۔

  3. 2015-2017۔ بار بار چلنے والے نیٹ ورکس یا ان کے اینالاگس (LSTM، GRU، TransformerNet، وغیرہ) پر مبنی الگورتھم اور پروجیکٹس کی تیزی۔ اچھی طرح سے کام کرنے والے اسپیچ ٹو ٹیکسٹ الگورتھم اور مشین ٹرانسلیشن سسٹم سامنے آئے ہیں۔ بنیادی خصوصیات کو نکالنے کے لیے وہ جزوی طور پر کنوولیشنل نیٹ ورکس پر مبنی ہیں۔ جزوی طور پر اس حقیقت کی وجہ سے کہ ہم نے واقعی بڑے اور اچھے ڈیٹاسیٹس کو جمع کرنا سیکھا۔

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

"کیا بلبلا پھٹ گیا ہے؟ کیا ہائپ زیادہ گرم ہے؟ کیا وہ ایک بلاکچین کے طور پر مر گئے؟"
ورنہ! کل سری آپ کے فون پر کام کرنا چھوڑ دے گی، اور پرسوں ٹیسلا کو موڑ اور کینگرو کے درمیان فرق نہیں معلوم ہوگا۔

اعصابی نیٹ ورک پہلے ہی کام کر رہے ہیں۔ وہ درجنوں آلات میں ہیں۔ وہ واقعی آپ کو پیسہ کمانے، مارکیٹ اور اپنے آس پاس کی دنیا کو تبدیل کرنے کی اجازت دیتے ہیں۔ ہائپ تھوڑا مختلف لگتا ہے:

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

یہ صرف اتنا ہے کہ اعصابی نیٹ ورک اب کوئی نئی چیز نہیں ہیں۔ جی ہاں، بہت سے لوگوں کی بہت زیادہ توقعات ہیں۔ لیکن کمپنیوں کی ایک بڑی تعداد نے نیورانز کا استعمال سیکھا ہے اور ان کی بنیاد پر مصنوعات بنانا سیکھی ہیں۔ نیوران نئی فعالیت فراہم کرتے ہیں، آپ کو ملازمتیں کم کرنے اور خدمات کی قیمت کم کرنے کی اجازت دیتے ہیں:

  • مینوفیکچرنگ کمپنیاں پروڈکشن لائن میں نقائص کا تجزیہ کرنے کے لیے الگورتھم کو مربوط کر رہی ہیں۔
  • لائیو سٹاک فارمز گایوں کو کنٹرول کرنے کے لیے سسٹم خریدتے ہیں۔
  • خودکار امتزاج۔
  • خودکار کال سینٹرز۔
  • SnapChat میں فلٹرز۔ (ٹھیک ہے، کم از کم کچھ مفید!)

لیکن اہم چیز، اور سب سے زیادہ واضح نہیں: "اب کوئی نئے آئیڈیاز نہیں ہیں، یا وہ فوری سرمایہ نہیں لائیں گے۔" اعصابی نیٹ ورکس نے درجنوں مسائل حل کیے ہیں۔ اور وہ مزید فیصلہ کریں گے۔ موجود تمام واضح خیالات نے بہت سے آغاز کو جنم دیا۔ لیکن جو کچھ سطح پر تھا وہ پہلے ہی جمع ہو چکا تھا۔ پچھلے دو سالوں میں، مجھے نیورل نیٹ ورکس کے استعمال کے لیے ایک بھی نیا خیال نہیں آیا۔ ایک بھی نیا طریقہ نہیں ہے (ٹھیک ہے، ٹھیک ہے، GANs کے ساتھ کچھ مسائل ہیں)۔

اور ہر بعد کا آغاز زیادہ سے زیادہ پیچیدہ ہوتا ہے۔ اسے اب دو لڑکوں کی ضرورت نہیں ہے جو کھلے ڈیٹا کا استعمال کرتے ہوئے نیوران کو تربیت دیتے ہیں۔ اس کے لیے پروگرامرز، ایک سرور، مارکروں کی ایک ٹیم، پیچیدہ سپورٹ وغیرہ کی ضرورت ہوتی ہے۔

نتیجتاً، کم آغاز ہوتے ہیں۔ لیکن زیادہ پیداوار ہے۔ لائسنس پلیٹ کی شناخت شامل کرنے کی ضرورت ہے؟ مارکیٹ میں متعلقہ تجربہ رکھنے والے سینکڑوں ماہرین موجود ہیں۔ آپ کسی کو نوکری پر رکھ سکتے ہیں اور ایک دو مہینوں میں آپ کا ملازم سسٹم بنا لے گا۔ یا ریڈی میڈ خریدیں۔ لیکن ایک نیا آغاز کر رہے ہیں؟... پاگل!

آپ کو وزیٹر ٹریکنگ سسٹم بنانے کی ضرورت ہے - جب آپ 3-4 ماہ میں اپنا بنا سکتے ہیں تو لائسنس کے ایک گروپ کی ادائیگی کیوں کریں، اسے اپنے کاروبار کے لیے تیز کریں۔

اب نیورل نیٹ ورک اسی راستے سے گزر رہے ہیں جس سے درجنوں دیگر ٹیکنالوجیز گزر چکی ہیں۔

کیا آپ کو یاد ہے کہ 1995 سے "ویب سائٹ ڈویلپر" کا تصور کیسے بدلا ہے؟ مارکیٹ ابھی تک ماہرین سے سیر نہیں ہے۔ بہت کم پیشہ ور افراد ہیں۔ لیکن میں شرط لگا سکتا ہوں کہ 5-10 سالوں میں جاوا پروگرامر اور نیورل نیٹ ورک ڈویلپر کے درمیان زیادہ فرق نہیں ہوگا۔ مارکیٹ میں دونوں ماہرین کافی ہوں گے۔

بس مسائل کا ایک طبقہ ہوگا جو نیوران کے ذریعہ حل کیا جاسکتا ہے۔ ایک کام پیدا ہوا ہے - ایک ماہر کی خدمات حاصل کریں۔

"اس کے بعد کیا ہے؟ مصنوعی ذہانت کا وعدہ کہاں ہے؟"

لیکن یہاں ایک چھوٹی لیکن دلچسپ غلط فہمی ہے :)

ٹیکنالوجی کا اسٹیک جو آج موجود ہے، بظاہر، ہمیں مصنوعی ذہانت کی طرف نہیں لے جائے گا۔ آئیڈیاز اور ان کی نیاپن نے خود کو بڑی حد تک ختم کر دیا ہے۔ آئیے اس بارے میں بات کرتے ہیں کہ ترقی کی موجودہ سطح کیا ہے۔

پابندیاں

آئیے خود چلانے والی کاروں سے شروعات کریں۔ ایسا لگتا ہے کہ آج کی ٹیکنالوجی سے مکمل طور پر خود مختار کاریں بنانا ممکن ہے۔ لیکن یہ کتنے سالوں میں ہو گا یہ واضح نہیں ہے۔ ٹیسلا کا خیال ہے کہ یہ ایک دو سالوں میں ہو جائے گا۔


اور بھی بہت سے ہیں۔ ماہرین، جو اس کا تخمینہ 5-10 سال بتاتے ہیں۔

غالباً، میری رائے میں، 15 سالوں میں شہروں کا بنیادی ڈھانچہ خود اس طرح تبدیل ہو جائے گا کہ خود مختار کاروں کا ظہور ناگزیر ہو جائے گا اور یہ اس کا تسلسل بن جائے گا۔ لیکن اسے ذہانت نہیں سمجھا جا سکتا۔ ماڈرن ٹیسلا ڈیٹا فلٹرنگ، تلاش اور دوبارہ تربیت کے لیے ایک بہت ہی پیچیدہ پائپ لائن ہے۔ یہ ہیں رولز-قواعد-قواعد، ڈیٹا اکٹھا کرنا اور ان پر فلٹرز (یہاں یہاں میں نے اس کے بارے میں تھوڑا اور لکھا ہے، یا اس سے دیکھیں اس نشانات).

پہلا مسئلہ

اور یہ وہ جگہ ہے جہاں ہم دیکھتے ہیں۔ پہلا بنیادی مسئلہ. بڑا ڈیٹا. یہ بالکل وہی ہے جس نے نیورل نیٹ ورکس اور مشین لرننگ کی موجودہ لہر کو جنم دیا۔ آج کل، کچھ پیچیدہ اور خودکار کرنے کے لیے، آپ کو بہت سارے ڈیٹا کی ضرورت ہوتی ہے۔ نہ صرف بہت، بلکہ بہت، بہت۔ ہمیں ان کے جمع کرنے، نشان لگانے اور استعمال کرنے کے لیے خودکار الگورتھم کی ضرورت ہے۔ ہم کار کو ٹرکوں کو سورج کی طرف دیکھنا چاہتے ہیں - ہمیں پہلے ان کی کافی تعداد جمع کرنی ہوگی۔ ہم چاہتے ہیں کہ کار ٹرنک سے جڑی ہوئی سائیکل کے ساتھ پاگل نہ ہو - مزید نمونے۔

مزید یہ کہ ایک مثال کافی نہیں ہے۔ سینکڑوں؟ ہزاروں؟

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

دوسرا مسئلہ۔

دوسرا مسئلہ۔ - ہمارے نیورل نیٹ ورک نے جو کچھ سمجھا ہے اس کا تصور۔ یہ ایک بہت ہی غیر معمولی کام ہے۔ اب تک، بہت کم لوگ سمجھتے ہیں کہ اسے کیسے تصور کیا جائے۔ یہ مضامین بہت حالیہ ہیں، یہ چند مثالیں ہیں، چاہے دور ہی ہوں:
تصور بناوٹ کے ساتھ جنون. یہ اچھی طرح سے ظاہر کرتا ہے کہ نیوران کس چیز کو درست کرتا ہے + جسے وہ ابتدائی معلومات کے طور پر سمجھتا ہے۔

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟
تصور پر توجہ ترجمے. درحقیقت، کشش کو اکثر یہ ظاہر کرنے کے لیے استعمال کیا جا سکتا ہے کہ اس طرح کے نیٹ ورک کے رد عمل کی وجہ کیا ہے۔ میں نے ڈیبگنگ اور پروڈکٹ حل دونوں کے لیے ایسی چیزیں دیکھی ہیں۔ اس موضوع پر بہت سارے مضامین ہیں۔ لیکن اعداد و شمار جتنا پیچیدہ ہوگا، اتنا ہی مشکل یہ سمجھنا ہے کہ مضبوط تصور کو کیسے حاصل کیا جائے۔

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

ٹھیک ہے، ہاں، اچھا پرانا سیٹ "دیکھو کہ میش کے اندر کیا ہے۔ فلٹرز" یہ تصویریں 3-4 سال پہلے مقبول ہوئی تھیں، لیکن سب کو جلد ہی اندازہ ہو گیا کہ تصویریں خوبصورت ہیں، لیکن ان کے زیادہ معنی نہیں تھے۔

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

میں نے درجنوں دیگر گیجٹس، طریقوں، ہیکس، نیٹ ورک کے اندرونی حصوں کو ظاہر کرنے کے بارے میں تحقیق کا ذکر نہیں کیا۔ کیا یہ اوزار کام کرتے ہیں؟ کیا وہ آپ کو یہ سمجھنے میں مدد کرتے ہیں کہ مسئلہ کیا ہے اور نیٹ ورک کو ڈیبگ کریں؟... آخری فیصد حاصل کریں؟ ٹھیک ہے، یہ اسی کے بارے میں ہے:

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

آپ Kaggle پر کوئی بھی مقابلہ دیکھ سکتے ہیں۔ اور اس کی تفصیل کہ لوگ حتمی فیصلے کیسے کرتے ہیں۔ ہم نے ماڈلز کے 100-500-800 یونٹ اسٹیک کیے اور اس نے کام کیا!

میں یقیناً مبالغہ آرائی کر رہا ہوں۔ لیکن یہ نقطہ نظر فوری اور براہ راست جواب فراہم نہیں کرتے ہیں۔

کافی تجربہ رکھتے ہوئے، مختلف آپشنز پر غور کرنے کے بعد، آپ اس بارے میں فیصلہ دے سکتے ہیں کہ آپ کے سسٹم نے ایسا فیصلہ کیوں کیا۔ لیکن نظام کے رویے کو درست کرنا مشکل ہوگا۔ ایک بیساکھی انسٹال کریں، دہلیز کو منتقل کریں، ڈیٹاسیٹ شامل کریں، دوسرا بیک اینڈ نیٹ ورک لیں۔

تیسرا مسئلہ

تیسرا بنیادی مسئلہ - گرڈ اعداد و شمار سکھاتے ہیں، منطق نہیں۔ شماریاتی طور پر یہ چہرہ:

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

منطقی طور پر، یہ بہت مماثل نہیں ہے۔ اعصابی نیٹ ورک کچھ بھی پیچیدہ نہیں سیکھتے جب تک کہ انہیں مجبور نہ کیا جائے۔ وہ ہمیشہ آسان ترین نشانیاں سکھاتے ہیں۔ کیا آپ کی آنکھیں، ناک، سر ہے؟ تو یہ چہرہ ہے! یا کوئی ایسی مثال دیں جہاں آنکھوں کا مطلب چہرہ نہ ہو۔ اور پھر - لاکھوں مثالیں۔

نیچے کافی جگہ ہے۔

میں کہوں گا کہ یہ تین عالمی مسائل ہیں جو فی الحال نیورل نیٹ ورکس اور مشین لرننگ کی ترقی کو محدود کرتے ہیں۔ اور جہاں ان مسائل نے اسے محدود نہیں کیا، یہ پہلے سے ہی فعال طور پر استعمال کیا جاتا ہے.

یہ اختطام ہے؟ کیا اعصابی نیٹ ورک اپ ہیں؟

نامعلوم لیکن، یقینا، ہر کوئی امید نہیں کرتا.

بنیادی مسائل کو حل کرنے کے بہت سے طریقے اور ہدایات ہیں جن پر میں نے اوپر روشنی ڈالی ہے۔ لیکن اب تک، ان طریقوں میں سے کسی نے بھی بنیادی طور پر کچھ نیا کرنا ممکن نہیں بنایا، کسی ایسی چیز کو حل کرنے کے لیے جو ابھی تک حل نہیں ہوا ہے۔ اب تک، تمام بنیادی منصوبے مستحکم اپروچ (ٹیسلا) کی بنیاد پر کیے جا رہے ہیں، یا اداروں یا کارپوریشنز کے ٹیسٹ پروجیکٹس (گوگل برین، اوپن اے آئی)۔

موٹے طور پر، بنیادی سمت ان پٹ ڈیٹا کی کچھ اعلی سطحی نمائندگی پیدا کرنا ہے۔ ایک معنی میں، "میموری"۔ میموری کی سب سے آسان مثال مختلف "ایمبیڈنگ" - تصویری نمائندگی ہے۔ ٹھیک ہے، مثال کے طور پر، تمام چہرے کی شناخت کے نظام. نیٹ ورک چہرے سے کچھ مستحکم نمائندگی حاصل کرنا سیکھتا ہے جو گردش، روشنی، یا ریزولوشن پر منحصر نہیں ہوتا ہے۔ بنیادی طور پر، نیٹ ورک میٹرک کو کم کرتا ہے "مختلف چہرے دور ہیں" اور "ایک جیسے چہرے قریب ہیں۔"

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

ایسی تربیت کے لیے دسیوں اور لاکھوں مثالوں کی ضرورت ہے۔ لیکن نتیجہ "ون شاٹ لرننگ" کے کچھ بنیادی اصولوں کا حامل ہے۔ اب ہمیں ایک شخص کو یاد کرنے کے لیے سینکڑوں چہروں کی ضرورت نہیں ہے۔ صرف ایک چہرہ اور بس ہم ہیں۔ آئیے معلوم کرتے ہیں۔!
بس ایک مسئلہ ہے... گرڈ صرف کافی آسان چیزیں سیکھ سکتا ہے۔ جب تمیز کرنے کی کوشش کی جائے تو چہروں کو نہیں، بلکہ، مثال کے طور پر، "لوگ بذریعہ کپڑوں" (ٹاسک دوبارہ شناخت) - معیار کی شدت کے بہت سے آرڈرز سے گرتا ہے۔ اور نیٹ ورک اب زاویوں میں واضح تبدیلیاں نہیں سیکھ سکتا۔

اور لاکھوں مثالوں سے سیکھنا بھی ایک مزہ ہے۔

انتخابات میں نمایاں کمی لانے کا کام ہو رہا ہے۔ مثال کے طور پر، کوئی بھی پہلے کاموں میں سے ایک کو فوری طور پر یاد کر سکتا ہے۔ ون شاٹ لرننگ گوگل سے:

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

مثال کے طور پر ایسے بہت سے کام ہیں۔ 1 یا 2 یا 3.

صرف ایک مائنس ہے - عام طور پر تربیت کچھ آسان، "MNIST" مثالوں پر اچھی طرح کام کرتی ہے۔ اور جب پیچیدہ کاموں کی طرف بڑھتے ہیں، تو آپ کو ایک بڑے ڈیٹا بیس، اشیاء کے ماڈل یا کسی قسم کے جادو کی ضرورت ہوتی ہے۔
عام طور پر، ون شاٹ ٹریننگ پر کام ایک بہت ہی دلچسپ موضوع ہے۔ آپ کو بہت سارے خیالات ملتے ہیں۔ لیکن زیادہ تر، دو مسائل جو میں نے درج کیے ہیں (ایک بہت بڑے ڈیٹاسیٹ پر پہلے سے تربیت کرنا / پیچیدہ ڈیٹا پر عدم استحکام) سیکھنے میں بہت زیادہ مداخلت کرتے ہیں۔

دوسری طرف، GANs — پیدا کرنے والے مخالف نیٹ ورک — ایمبیڈنگ کے موضوع تک پہنچتے ہیں۔ آپ نے شاید اس موضوع پر Habré پر مضامین کا ایک گروپ پڑھا ہوگا۔ (1, 2,3)
GAN کی ایک خصوصیت کچھ اندرونی حالت کی جگہ (بنیادی طور پر ایک ہی ایمبیڈنگ) کی تشکیل ہے، جو آپ کو تصویر کھینچنے کی اجازت دیتی ہے۔ یہ ہو سکتا ہے چہرے، ہو سکتا ہے اعمال.

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

GAN کے ساتھ مسئلہ یہ ہے کہ پیدا کردہ آبجیکٹ جتنا پیچیدہ ہوگا، اسے "جنریٹر ڈسکریمینیٹر" منطق میں بیان کرنا اتنا ہی مشکل ہے۔ نتیجے کے طور پر، GAN کی واحد حقیقی ایپلی کیشنز جن کے بارے میں سنا جاتا ہے وہ ہیں DeepFake، جو ایک بار پھر، چہرے کی نمائندگی کو جوڑتی ہے (جس کے لیے ایک بہت بڑی بنیاد ہے)۔

میں نے بہت کم دوسرے مفید استعمال دیکھے ہیں۔ عام طور پر کسی قسم کی دھوکہ دہی جس میں تصویروں کی ڈرائنگ مکمل کرنا شامل ہوتا ہے۔

اور ایک بار پھر. کسی کو اندازہ نہیں ہے کہ یہ ہمیں ایک روشن مستقبل کی طرف کیسے جانے کی اجازت دے گا۔ نیورل نیٹ ورک میں منطق/اسپیس کی نمائندگی کرنا اچھا ہے۔ لیکن ہمیں بہت ساری مثالوں کی ضرورت ہے، ہم یہ نہیں سمجھتے کہ نیوران اپنے آپ میں اس کی نمائندگی کیسے کرتا ہے، ہم یہ نہیں سمجھتے کہ نیوران کو کچھ واقعی پیچیدہ خیال کیسے یاد کیا جائے۔

کمک سیکھنا - یہ بالکل مختلف سمت سے ایک نقطہ نظر ہے۔ یقیناً آپ کو یاد ہے کہ گوگل نے گو میں سب کو کس طرح شکست دی تھی۔ Starcraft اور Dota میں حالیہ فتوحات۔ لیکن یہاں سب کچھ بہت گلابی اور امید افزا سے دور ہے۔ وہ RL اور اس کی پیچیدگیوں کے بارے میں بہترین بات کرتا ہے۔ اس مضمون.

مصنف نے جو کچھ لکھا ہے اسے مختصراً بیان کرنے کے لیے:

  • باکس کے باہر ماڈلز زیادہ تر معاملات میں فٹ نہیں ہوتے / خراب کام کرتے ہیں۔
  • عملی مسائل کو دوسرے طریقوں سے حل کرنا آسان ہے۔ بوسٹن ڈائنامکس اپنی پیچیدگی/ غیر متوقع/ کمپیوٹیشنل پیچیدگی کی وجہ سے RL کا استعمال نہیں کرتا ہے۔
  • RL کے کام کرنے کے لیے، آپ کو ایک پیچیدہ فنکشن کی ضرورت ہے۔ تخلیق/لکھنا اکثر مشکل ہوتا ہے۔
  • ماڈلز کو تربیت دینا مشکل ہے۔ آپ کو پمپ اپ کرنے اور مقامی آپٹیما سے باہر نکلنے کے لیے کافی وقت خرچ کرنا پڑتا ہے۔
  • نتیجے کے طور پر، ماڈل کو دوبارہ کرنا مشکل ہے، ماڈل معمولی تبدیلیوں کے ساتھ غیر مستحکم ہے
  • اکثر کچھ بے ترتیب نمونوں کو اوور فٹ کرتا ہے، یہاں تک کہ ایک بے ترتیب نمبر جنریٹر

اہم نکتہ یہ ہے کہ RL ابھی تک پیداوار میں کام نہیں کرتا ہے۔ گوگل کے کچھ تجربات ہیں ( 1, 2 )۔ لیکن میں نے ایک بھی پروڈکٹ سسٹم نہیں دیکھا۔

یاد داشت. اوپر بیان کردہ ہر چیز کا منفی پہلو ساخت کی کمی ہے۔ اس سب کو صاف کرنے کی کوشش کرنے کا ایک طریقہ یہ ہے کہ نیورل نیٹ ورک کو علیحدہ میموری تک رسائی فراہم کی جائے۔ تاکہ وہ وہاں اپنے قدموں کے نتائج کو ریکارڈ اور دوبارہ لکھ سکے۔ پھر نیورل نیٹ ورک کا تعین موجودہ میموری کی حالت سے کیا جا سکتا ہے۔ یہ کلاسک پروسیسرز اور کمپیوٹرز سے بہت ملتا جلتا ہے۔

سب سے مشہور اور مقبول مضمون - ڈیپ مائنڈ سے:

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

ایسا لگتا ہے کہ یہ انٹیلی جنس کو سمجھنے کی کلید ہے؟ لیکن شاید نہیں۔ نظام کو تربیت کے لیے اب بھی بہت زیادہ ڈیٹا درکار ہے۔ اور یہ بنیادی طور پر سٹرکچرڈ ٹیبلر ڈیٹا کے ساتھ کام کرتا ہے۔ مزید یہ کہ جب فیس بک فیصلہ کیا اسی طرح کا مسئلہ، پھر انہوں نے راستہ اختیار کیا "اسکرو میموری، صرف نیوران کو مزید پیچیدہ بنائیں، اور مزید مثالیں رکھیں - اور یہ خود ہی سیکھ جائے گا۔"

تفرقہ بازی. بامعنی میموری بنانے کا دوسرا طریقہ وہی سرایت کرنا ہے، لیکن تربیت کے دوران، اضافی معیارات متعارف کروائیں جو آپ کو ان میں "معنی" کو نمایاں کرنے کی اجازت دے گا۔ مثال کے طور پر، ہم ایک سٹور میں انسانی رویے کے درمیان فرق کرنے کے لیے ایک نیورل نیٹ ورک کو تربیت دینا چاہتے ہیں۔ اگر ہم معیاری راستے پر چلتے ہیں تو ہمیں ایک درجن نیٹ ورکس بنانے ہوں گے۔ ایک شخص کو تلاش کر رہا ہے، دوسرا اس کا تعین کر رہا ہے کہ وہ کیا کر رہا ہے، تیسرا اس کی عمر، چوتھا اس کی جنس۔ الگ منطق اسٹور کے اس حصے کو دیکھتی ہے جہاں اسے ایسا کرنے کی تربیت دی جاتی ہے۔ تیسرا اس کی رفتار کا تعین کرتا ہے، وغیرہ۔

یا، اگر ڈیٹا کی لامحدود مقدار موجود تھی، تو پھر تمام ممکنہ نتائج کے لیے ایک نیٹ ورک کو تربیت دینا ممکن ہو گا (ظاہر ہے، ڈیٹا کی اس طرح کی صف جمع نہیں کی جا سکتی)۔

تفرقہ بازی کا نقطہ نظر ہمیں بتاتا ہے - آئیے نیٹ ورک کو تربیت دیں تاکہ وہ خود تصورات کے درمیان فرق کر سکے۔ تاکہ یہ ویڈیو کی بنیاد پر ایک سرایت کرے گا، جہاں ایک علاقہ عمل کا تعین کرے گا، کوئی وقت پر فرش پر پوزیشن کا تعین کرے گا، کوئی شخص کی اونچائی کا تعین کرے گا، اور کوئی شخص کی جنس کا تعین کرے گا۔ ایک ہی وقت میں، تربیت کے دوران، میں تقریباً اس طرح کے کلیدی تصورات کے ساتھ نیٹ ورک کو اشارہ نہیں کرنا چاہوں گا، بلکہ اس کے لیے اس کو نمایاں کرنے اور گروپ کے شعبوں کے لیے۔ ایسے بہت سے مضامین ہیں (ان میں سے کچھ 1, 2, 3) اور عام طور پر وہ کافی نظریاتی ہیں۔

لیکن اس سمت کو، کم از کم نظریاتی طور پر، شروع میں درج مسائل کا احاطہ کرنا چاہیے۔

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

پیرامیٹرز کے مطابق تصویر کی سڑن "دیوار کا رنگ/فرش کا رنگ/آبجیکٹ کی شکل/آبجیکٹ کا رنگ/وغیرہ"۔

کیا مشین لرننگ کا بلبلہ پھٹ گیا ہے، یا یہ ایک نئی صبح کا آغاز ہے؟

پیرامیٹرز "سائز، ابرو، واقفیت، جلد کا رنگ، وغیرہ" کے مطابق چہرے کا گلنا۔

دیگر

بہت سے دوسرے، اتنے عالمی نہیں، ایسے علاقے ہیں جو آپ کو کسی نہ کسی طرح ڈیٹا بیس کو کم کرنے، زیادہ متضاد ڈیٹا کے ساتھ کام کرنے، وغیرہ کی اجازت دیتے ہیں۔

توجہ. اسے الگ طریقہ کے طور پر الگ کرنا شاید کوئی معنی نہیں رکھتا۔ صرف ایک نقطہ نظر جو دوسروں کو بہتر بناتا ہے۔ بہت سے مضامین ان کے لیے وقف ہیں (1,2,3)۔ توجہ کا مقام یہ ہے کہ تربیت کے دوران خاص طور پر اہم اشیاء کے لیے نیٹ ورک کے ردعمل کو بڑھایا جائے۔ اکثر کسی قسم کے بیرونی ہدف کے عہدہ، یا چھوٹے بیرونی نیٹ ورک کے ذریعے۔

3D تخروپن. اگر آپ ایک اچھا 3D انجن بناتے ہیں، تو آپ اکثر اس کے ساتھ 90% ٹریننگ ڈیٹا کا احاطہ کر سکتے ہیں (میں نے ایک مثال بھی دیکھی ہے جہاں تقریباً 99% ڈیٹا ایک اچھے انجن کے ذریعے کور کیا گیا تھا)۔ حقیقی ڈیٹا (فائن ٹیوننگ، اسٹائل ٹرانسفر، وغیرہ) کا استعمال کرتے ہوئے 3D انجن پر تربیت یافتہ نیٹ ورک کو کیسے بنایا جائے اس کے بارے میں بہت سے آئیڈیاز اور ہیکس ہیں۔ لیکن اکثر ایک اچھا انجن بنانا ڈیٹا اکٹھا کرنے سے زیادہ مشکل ہوتا ہے۔ مثالیں جب انجن بنائے گئے تھے:
روبوٹ کی تربیت (گوگل, دماغ کا باغ)
ٹریننگ پہچان سٹور میں سامان (لیکن دو منصوبوں میں ہم نے کیا، ہم اس کے بغیر آسانی سے کر سکتے ہیں)۔
Tesla میں تربیت (دوبارہ، اوپر ویڈیو).

نتائج

پورا مضمون ایک لحاظ سے نتیجہ خیز ہے۔ شاید بنیادی پیغام جو میں دینا چاہتا تھا وہ تھا "مفتیاں ختم ہو گئی ہیں، نیوران اب آسان حل فراہم نہیں کرتے ہیں۔" اب ہمیں پیچیدہ فیصلے کرنے کے لیے سخت محنت کرنے کی ضرورت ہے۔ یا پیچیدہ سائنسی تحقیق کرتے ہوئے سخت محنت کریں۔

عام طور پر، موضوع بحث ہے. شاید قارئین کے پاس زیادہ دلچسپ مثالیں ہیں؟

ماخذ: www.habr.com

نیا تبصرہ شامل کریں