کمک سیکھنے یا ارتقائی حکمت عملی؟ - دونوں

ارے حبر!

ہم اکثر دو سال پرانی تحریروں کے ترجمے یہاں پوسٹ کرنے کا فیصلہ نہیں کرتے ہیں، بغیر کوڈ کے اور واضح طور پر علمی نوعیت کے تھے - لیکن آج ہم ایک استثناء کریں گے۔ ہم امید کرتے ہیں کہ مضمون کے عنوان میں پیدا ہونے والی مخمصہ ہمارے بہت سے قارئین کو پریشان کرے گی، اور آپ نے ارتقائی حکمت عملیوں پر بنیادی کام پہلے ہی پڑھ لیا ہے جس کے ساتھ یہ پوسٹ اصل میں بحث کرتی ہے یا اب اسے پڑھیں گے۔ بلی میں خوش آمدید!

کمک سیکھنے یا ارتقائی حکمت عملی؟ - دونوں

مارچ 2017 میں، اوپن اے آئی نے پیپر کے ساتھ گہری سیکھنے والی کمیونٹی میں لہریں پیدا کیں۔کمک سیکھنے کے قابل توسیعی متبادل کے طور پر ارتقاء کی حکمت عملی" اس کام نے اس حقیقت کے حق میں متاثر کن نتائج کو بیان کیا کہ کمک سیکھنے (RL) ایک پچر نہیں بن گیا ہے، اور جب پیچیدہ اعصابی نیٹ ورکس کی تربیت کرتے ہیں، تو دوسرے طریقوں کو آزمانے کا مشورہ دیا جاتا ہے۔ اس کے بعد کمک سیکھنے کی اہمیت اور تدریسی مسائل کے حل کے لیے "لازمی" ٹیکنالوجی کے طور پر اس کی حیثیت کے کس قدر مستحق ہونے کے حوالے سے ایک بحث چھڑ گئی۔ یہاں میں یہ کہنا چاہتا ہوں کہ ان دو ٹیکنالوجیز کو مسابقتی نہیں سمجھا جانا چاہیے، جن میں سے ایک واضح طور پر دوسری سے بہتر ہے۔ اس کے برعکس، وہ بالآخر ایک دوسرے کی تکمیل کرتے ہیں۔ درحقیقت، اگر آپ اس کے بارے میں تھوڑا سا سوچتے ہیں کہ اسے تخلیق کرنے میں کیا لگتا ہے۔ جنرل AI اور ایسے نظام، جو اپنے پورے وجود میں سیکھنے، فیصلہ کرنے اور منصوبہ بندی کرنے کے قابل ہوں گے، تب ہم تقریباً یقینی طور پر اس نتیجے پر پہنچیں گے کہ یہ یا وہ مشترکہ حل درکار ہوگا۔ ویسے، یہ بالکل وہی مشترکہ حل تھا جو فطرت کے پاس آیا، جس نے ارتقاء کے دوران ممالیہ جانوروں اور دیگر اعلیٰ ترین جانوروں کو پیچیدہ ذہانت سے نوازا۔

ارتقائی حکمت عملی

اوپن اے آئی پیپر کا بنیادی مقالہ یہ تھا کہ روایتی بیک پروپیگیشن کے ساتھ مل کر کمک سیکھنے کا استعمال کرنے کے بجائے، انہوں نے "ارتقائی حکمت عملی" (ES) کا استعمال کرتے ہوئے پیچیدہ مسائل کو حل کرنے کے لیے ایک اعصابی نیٹ ورک کو کامیابی سے تربیت دی۔ یہ ES نقطہ نظر وزن کی ایک نیٹ ورک وسیع تقسیم کو برقرار رکھنے پر مشتمل ہے، جس میں متوازی طور پر کام کرنے والے متعدد ایجنٹس اور اس تقسیم سے منتخب کردہ پیرامیٹرز کا استعمال شامل ہے۔ ہر ایجنٹ اپنے ماحول میں کام کرتا ہے، اور ایپی سوڈ کی ایک مخصوص تعداد یا قسط کے مراحل کی تکمیل پر، الگورتھم ایک مجموعی انعام لوٹاتا ہے، جسے فٹنس سکور کے طور پر ظاہر کیا جاتا ہے۔ اس قدر کو مدنظر رکھتے ہوئے، پیرامیٹرز کی تقسیم کو کم کامیاب ایجنٹوں سے محروم کرتے ہوئے زیادہ کامیاب ایجنٹوں کی طرف منتقل کیا جا سکتا ہے۔ سینکڑوں ایجنٹوں کی شرکت کے ساتھ اس طرح کے آپریشن کو لاکھوں بار دہرانے سے، وزن کی تقسیم کو ایک ایسی جگہ پر منتقل کرنا ممکن ہے جو ایجنٹوں کو ان کو تفویض کردہ کام کو حل کرنے کے لیے ایک اعلیٰ معیار کی پالیسی بنانے کی اجازت دے گا۔ درحقیقت، مضمون میں پیش کیے گئے نتائج متاثر کن ہیں: یہ دکھایا گیا ہے کہ اگر آپ ایک ہزار ایجنٹوں کو متوازی طور پر چلاتے ہیں، تو دو ٹانگوں پر انتھروپمورفک لوکوموشن آدھے گھنٹے سے بھی کم وقت میں سیکھا جا سکتا ہے (جبکہ جدید ترین RL طریقوں میں بھی زیادہ خرچ کرنے کی ضرورت ہوتی ہے۔ اس پر ایک گھنٹے سے زیادہ)۔ مزید تفصیلی معلومات کے لیے، میں بہترین پڑھنے کی تجویز کرتا ہوں۔ پوسٹ تجربے کے مصنفین سے، ساتھ ساتھ سائنسی مضمون.

کمک سیکھنے یا ارتقائی حکمت عملی؟ - دونوں

انتھروپمورفک سیدھا چلنا سکھانے کے لیے مختلف حکمت عملی، OpenAI سے ES طریقہ استعمال کرتے ہوئے مطالعہ کیا گیا۔

بلیک باکس

اس طریقہ کار کا بڑا فائدہ یہ ہے کہ اسے آسانی سے متوازی کیا جا سکتا ہے۔ جب کہ RL طریقوں، جیسے A3C، کو ورکر تھریڈز اور پیرامیٹر سرور کے درمیان معلومات کا تبادلہ کرنے کی ضرورت ہوتی ہے، ES کو صرف فٹنس تخمینے اور پیرامیٹر کی تقسیم کی عمومی معلومات کی ضرورت ہوتی ہے۔ اس سادگی کی وجہ سے یہ طریقہ پیمانہ کاری کی صلاحیتوں کے لحاظ سے جدید RL طریقوں سے بہت آگے ہے۔ تاہم، یہ سب بیکار نہیں آتا: آپ کو بلیک باکس کے اصول کے مطابق نیٹ ورک کو بہتر بنانا ہوگا۔ اس صورت میں، "بلیک باکس" کا مطلب ہے کہ تربیت کے دوران نیٹ ورک کے اندرونی ڈھانچے کو مکمل طور پر نظر انداز کر دیا جاتا ہے، اور صرف مجموعی نتیجہ (قسط کا انعام) استعمال کیا جاتا ہے، اور یہ اس پر منحصر ہے کہ آیا کسی مخصوص نیٹ ورک کا وزن کیا جائے گا۔ بعد کی نسلوں کو وراثت میں ملے گا۔ ایسے حالات میں جہاں ہمیں ماحول سے زیادہ رائے نہیں ملتی — اور بہت سے روایتی RL مسائل میں انعامات کا بہاؤ بہت کم ہوتا ہے — مسئلہ ایک "جزوی طور پر بلیک باکس" سے لے کر "مکمل طور پر بلیک باکس" میں چلا جاتا ہے۔ اس صورت میں، آپ نمایاں طور پر پیداوری میں اضافہ کر سکتے ہیں، لہذا، یقینا، اس طرح کا سمجھوتہ جائز ہے. "اگر وہ بہرحال نا امیدی سے شور مچا رہے ہیں تو کس کو میلان کی ضرورت ہے؟" - یہ عام رائے ہے.

تاہم، ایسے حالات میں جہاں فیڈ بیک زیادہ فعال ہوتا ہے، ES کے لیے چیزیں غلط ہونے لگتی ہیں۔ OpenAI ٹیم بیان کرتی ہے کہ کس طرح ایک سادہ MNIST درجہ بندی نیٹ ورک کو ES کا استعمال کرتے ہوئے تربیت دی گئی، اور اس بار تربیت 1000 گنا سست تھی۔ حقیقت یہ ہے کہ تصویر کی درجہ بندی میں گریڈینٹ سگنل انتہائی معلوماتی ہے کہ نیٹ ورک کو بہتر درجہ بندی کیسے سکھائی جائے۔ اس طرح، مسئلہ RL تکنیک کے ساتھ کم اور ماحول میں ویرل انعامات کے ساتھ زیادہ ہے جو شور والے میلان پیدا کرتے ہیں۔

قدرت کا حل

اگر ہم فطرت کی مثال سے سیکھنے کی کوشش کرتے ہیں، AI تیار کرنے کے طریقوں کے بارے میں سوچتے ہیں، تو کچھ معاملات میں AI کے بارے میں سوچا جا سکتا ہے مسئلہ پر مبنی نقطہ نظر. بہر حال، فطرت ان رکاوٹوں کے اندر کام کرتی ہے جو کمپیوٹر سائنسدانوں کے پاس نہیں ہے۔ ایک رائے ہے کہ کسی خاص مسئلے کو حل کرنے کے لیے خالصتاً نظریاتی نقطہ نظر تجرباتی متبادلات سے زیادہ موثر حل فراہم کر سکتا ہے۔ تاہم، میں اب بھی سمجھتا ہوں کہ یہ جانچنا فائدہ مند ہوگا کہ کس طرح مخصوص رکاوٹوں (زمین) کے تحت کام کرنے والے متحرک نظام نے ایسے ایجنٹ (جانور، خاص طور پر ممالیہ) پیدا کیے ہیں جو لچکدار اور پیچیدہ رویے کے قابل ہیں۔ اگرچہ ان میں سے کچھ رکاوٹیں نقلی ڈیٹا سائنس کی دنیا میں لاگو نہیں ہوتی ہیں، باقی بالکل ٹھیک ہیں۔

ستنداریوں کے فکری رویے کا جائزہ لینے کے بعد، ہم دیکھتے ہیں کہ یہ دو قریبی باہم مربوط عمل کے پیچیدہ باہمی اثر و رسوخ کے نتیجے میں تشکیل پاتا ہے: دوسروں کے تجربات سے سیکھنا и کرنے سے سیکھنا. سابقہ ​​کو اکثر قدرتی انتخاب سے چلنے والے ارتقاء کے ساتھ مساوی کیا جاتا ہے، لیکن یہاں میں ایپی جینیٹکس، مائکرو بایوم اور دیگر میکانزم کو مدنظر رکھنے کے لیے ایک وسیع اصطلاح استعمال کرتا ہوں جو جینیاتی طور پر غیر متعلقہ جانداروں کے درمیان تجربات کے اشتراک کو قابل بناتے ہیں۔ دوسرا عمل، تجربے سے سیکھنا، وہ تمام معلومات ہے جو ایک جانور اپنی پوری زندگی میں سیکھنے کا انتظام کرتا ہے، اور یہ معلومات براہ راست اس جانور کے بیرونی دنیا کے ساتھ تعامل سے طے ہوتی ہیں۔ اس زمرے میں اشیاء کو پہچاننا سیکھنے سے لے کر سیکھنے کے عمل میں شامل مواصلات میں مہارت حاصل کرنے تک سب کچھ شامل ہے۔

موٹے طور پر، فطرت میں ہونے والے ان دو عملوں کا موازنہ عصبی نیٹ ورکس کو بہتر بنانے کے لیے دو اختیارات کے ساتھ کیا جا سکتا ہے۔ ارتقائی حکمت عملی، جہاں میلان کے بارے میں معلومات کو حیاتیات کے بارے میں معلومات کو اپ ڈیٹ کرنے کے لیے استعمال کیا جاتا ہے، دوسروں کے تجربے سے سیکھنے کے قریب آتے ہیں۔ اسی طرح، تدریجی طریقے، جہاں ایک یا دوسرا تجربہ حاصل کرنا ایجنٹ کے رویے میں ایک یا دوسری تبدیلی کا باعث بنتا ہے، اپنے تجربے سے سیکھنے کے مقابلے کے قابل ہیں۔ اگر ہم ذہین رویے یا صلاحیتوں کی اقسام کے بارے میں سوچیں جو ان دونوں طریقوں میں سے ہر ایک جانوروں میں پیدا ہوتی ہے، تو موازنہ زیادہ واضح ہو جاتا ہے۔ دونوں صورتوں میں، "ارتقائی طریقے" رد عمل کے رویوں کے مطالعہ کو فروغ دیتے ہیں جو کسی کو ایک خاص فٹنس (زندہ رہنے کے لیے کافی) پیدا کرنے کی اجازت دیتے ہیں۔ چلنا سیکھنا یا قید سے فرار ہونا بہت سے معاملات میں زیادہ "فطری" طرز عمل کے مترادف ہے جو جینیاتی سطح پر بہت سے جانوروں میں "سخت وائرڈ" ہوتے ہیں۔ اس کے علاوہ، یہ مثال اس بات کی تصدیق کرتی ہے کہ ارتقائی طریقے ان صورتوں میں لاگو ہوتے ہیں جہاں انعام کا اشارہ انتہائی نایاب ہوتا ہے (مثال کے طور پر، بچے کی کامیاب پرورش کی حقیقت)۔ ایسی صورت میں ثواب کا کسی خاص مجموعے کے ساتھ جوڑنا ناممکن ہے جو اس حقیقت کے ظہور سے کئی سال پہلے کیے گئے ہوں گے۔ دوسری طرف، اگر ہم کسی ایسے معاملے پر غور کریں جس میں ES ناکام ہو جاتا ہے، یعنی تصویر کی درجہ بندی، تو نتائج 100 سے زائد سالوں میں کیے گئے ان گنت طرز عمل کے نفسیاتی تجربات میں حاصل کیے گئے جانوروں کی تعلیم کے نتائج سے قابل ذکر ہیں۔

جانوروں سے سیکھنا

کمک سیکھنے میں استعمال ہونے والے طریقے بہت سے معاملات میں براہ راست نفسیاتی ادب سے لیے گئے ہیں۔ آپریٹ کنڈیشنگ، اور آپریٹ کنڈیشنگ کا مطالعہ جانوروں کی نفسیات کا استعمال کرتے ہوئے کیا گیا تھا۔ ویسے، رچرڈ سوٹن، کمک سیکھنے کے دو بانیوں میں سے ایک، نفسیات میں بیچلر کی ڈگری رکھتے ہیں۔ آپریٹ کنڈیشنگ کے تناظر میں، جانور انعام یا سزا کو مخصوص طرز عمل کے ساتھ جوڑنا سیکھتے ہیں۔ تربیت دہندگان اور محققین اس انعامی انجمن کو کسی نہ کسی طریقے سے جوڑ سکتے ہیں، جانوروں کو ذہانت یا مخصوص طرز عمل کا مظاہرہ کرنے پر اکسا سکتے ہیں۔ تاہم، آپریٹ کنڈیشنگ، جیسا کہ جانوروں کی تحقیق میں استعمال کیا جاتا ہے، اسی کنڈیشنگ کی زیادہ واضح شکل سے زیادہ کچھ نہیں ہے جس کی بنیاد پر جانور اپنی زندگی بھر سیکھتے ہیں۔ ہمیں ماحول سے مسلسل مثبت کمک کے اشارے ملتے ہیں اور اس کے مطابق اپنے رویے کو ایڈجسٹ کرتے ہیں۔ درحقیقت، بہت سے نیورو سائنس دان اور علمی سائنس دانوں کا خیال ہے کہ انسان اور دوسرے جانور درحقیقت اس سے بھی اعلیٰ سطح پر کام کرتے ہیں اور ممکنہ انعامات کی بنیاد پر مستقبل کے حالات میں اپنے رویے کے نتائج کی پیشین گوئی کرنا سیکھتے ہیں۔

تجربے سے سیکھنے میں پیشین گوئی کا مرکزی کردار اوپر بیان کردہ حرکیات کو اہم طریقوں سے تبدیل کرتا ہے۔ سگنل جو پہلے بہت ویرل سمجھا جاتا تھا (ایپی سوڈک انعام) بہت گھنا نکلا۔ نظریاتی طور پر، صورت حال کچھ اس طرح ہے: کسی بھی وقت، ممالیہ کا دماغ حسی محرکات اور اعمال کے ایک پیچیدہ دھارے کی بنیاد پر نتائج کا حساب لگا رہا ہوتا ہے، جبکہ جانور محض اس دھارے میں غرق ہوتا ہے۔ اس صورت میں، جانور کا آخری رویہ ایک مضبوط سگنل دیتا ہے جو پیشن گوئی کی ایڈجسٹمنٹ اور رویے کی ترقی کی رہنمائی کے لیے استعمال کیا جانا چاہیے۔ دماغ ان تمام سگنلز کا استعمال مستقبل میں پیشین گوئیوں (اور اس کے مطابق کیے گئے اقدامات کے معیار) کو بہتر بنانے کے لیے کرتا ہے۔ اس نقطہ نظر کا ایک جائزہ بہترین کتاب میں دیا گیا ہے۔سرفنگ کی غیر یقینی صورتحالعلمی سائنس دان اور فلسفی اینڈی کلارک۔ اگر ہم مصنوعی ایجنٹوں کی تربیت میں اس طرح کے استدلال کو بڑھاتے ہیں، تو کمک سیکھنے میں ایک بنیادی خامی سامنے آتی ہے: اس تمثیل میں استعمال ہونے والا سگنل اس کے مقابلے میں ناامید طور پر کمزور ہے جو ہوسکتا ہے (یا ہونا چاہئے)۔ ایسے معاملات میں جہاں سگنل سنترپتی کو بڑھانا ناممکن ہو (شاید اس وجہ سے کہ یہ فطری طور پر کمزور ہے یا کم سطحی رد عمل سے وابستہ ہے)، یہ بہتر ہے کہ تربیتی طریقہ کو ترجیح دی جائے جو اچھی طرح سے متوازی ہو، مثال کے طور پر، ES۔

عصبی نیٹ ورکس کی بھرپور تربیت

ممالیہ کے دماغ میں موروثی اعلیٰ اعصابی سرگرمی کے اصولوں پر تعمیر، جو مسلسل پیشین گوئیاں کرنے میں مصروف ہے، حالیہ پیشرفت کو تقویت دینے والے سیکھنے میں کی گئی ہے، جو اب ایسی پیشین گوئیوں کی اہمیت کو مدنظر رکھتی ہے۔ میں فوری طور پر آپ کو دو ملتے جلتے کاموں کی سفارش کرسکتا ہوں:

ان دونوں مقالوں میں، مصنفین مستقبل میں ماحول کی حالت کے بارے میں پیشین گوئی کے نتائج کے ساتھ اپنے اعصابی نیٹ ورکس کی مخصوص ڈیفالٹ پالیسی کی تکمیل کرتے ہیں۔ پہلے مضمون میں، پیشن گوئی کا اطلاق مختلف پیمائش کے متغیرات پر ہوتا ہے، اور دوسرے میں، پیشین گوئی کا اطلاق ماحول میں ہونے والی تبدیلیوں اور ایجنٹ کے رویے پر ہوتا ہے۔ دونوں صورتوں میں، مثبت کمک کے ساتھ منسلک ویرل سگنل بہت زیادہ امیر اور زیادہ معلوماتی ہو جاتا ہے، جس سے تیز رفتار سیکھنے اور زیادہ پیچیدہ طرز عمل کے حصول دونوں کی اجازت ہوتی ہے۔ اس طرح کی بہتری صرف ان طریقوں کے ساتھ دستیاب ہے جو گریڈینٹ سگنل استعمال کرتے ہیں، نہ کہ ان طریقوں کے ساتھ جو "بلیک باکس" کے اصول پر کام کرتے ہیں، جیسے ES۔

اس کے علاوہ، تجربے اور تدریجی طریقوں سے سیکھنا زیادہ موثر ہے۔ یہاں تک کہ ان معاملات میں بھی جہاں ES طریقہ استعمال کرتے ہوئے کسی خاص مسئلے کا مطالعہ کمک سیکھنے کے بجائے تیزی سے ممکن تھا، فائدہ اس حقیقت کی وجہ سے حاصل ہوا کہ ES حکمت عملی میں RL کے مقابلے میں کئی گنا زیادہ ڈیٹا شامل تھا۔ اس معاملے میں جانوروں میں سیکھنے کے اصولوں پر غور کرتے ہوئے، ہم نوٹ کرتے ہیں کہ کسی اور کی مثال سے سیکھنے کا نتیجہ کئی نسلوں کے بعد خود کو ظاہر کرتا ہے، جب کہ بعض اوقات خود کا تجربہ ہونے والا ایک واقعہ ہی جانور کو ہمیشہ کے لیے سبق سیکھنے کے لیے کافی ہوتا ہے۔ جبکہ جیسے مثال کے بغیر تربیت اگرچہ یہ روایتی تدریجی طریقوں میں بالکل فٹ نہیں بیٹھتا ہے، لیکن یہ ES سے کہیں زیادہ قابل فہم ہے۔ مثال کے طور پر، اس طرح کے نقطہ نظر ہیں اعصابی ایپیسوڈک کنٹرول، جہاں تربیت کے دوران Q-values ​​کو محفوظ کیا جاتا ہے، جس کے بعد پروگرام کارروائی کرنے سے پہلے انہیں چیک کرتا ہے۔ نتیجہ ایک تدریجی طریقہ ہے جو آپ کو پہلے سے کہیں زیادہ تیزی سے مسائل کو حل کرنے کا طریقہ سیکھنے کی اجازت دیتا ہے۔ نیورل ایپیسوڈک کنٹرول پر ایک مضمون میں، مصنفین نے انسانی ہپپوکیمپس کا ذکر کیا ہے، جو کسی ایک تجربے کے بعد بھی کسی واقعے کے بارے میں معلومات کو برقرار رکھنے کی صلاحیت رکھتا ہے اور اس لیے، اہم کردار یاد کرنے کے عمل میں. اس طرح کے میکانزم کے لیے ایجنٹ کی اندرونی تنظیم تک رسائی کی ضرورت ہوتی ہے، جو کہ ES پیراڈائم میں بھی، تعریف کے مطابق ناممکن ہے۔

تو، کیوں نہیں ان کو یکجا کرتے ہیں؟

امکان ہے کہ اس مضمون کا زیادہ تر حصہ یہ تاثر چھوڑ سکتا ہے کہ میں RL طریقوں کی وکالت کر رہا ہوں۔ تاہم، میں اصل میں سوچتا ہوں کہ طویل مدت میں بہترین حل یہ ہے کہ دونوں طریقوں کو یکجا کیا جائے، تاکہ ہر ایک کو ان حالات میں استعمال کیا جائے جن میں یہ سب سے موزوں ہے۔ ظاہر ہے، بہت سی رد عمل والی پالیسیوں کی صورت میں یا مثبت کمک کے بہت کم سگنل والے حالات میں، ES جیتتا ہے، خاص طور پر اگر آپ کے پاس کمپیوٹنگ کی طاقت ہے جس پر آپ بڑے پیمانے پر متوازی تربیت چلا سکتے ہیں۔ دوسری طرف، کمک سیکھنے یا زیر نگرانی سیکھنے کا استعمال کرتے ہوئے تدریجی طریقے کارآمد ہوں گے جب ہمارے پاس وسیع فیڈ بیک تک رسائی ہو اور ہمیں یہ سیکھنے کی ضرورت ہو کہ کسی مسئلے کو جلدی اور کم ڈیٹا کے ساتھ کیسے حل کیا جائے۔

فطرت کی طرف رجوع کرتے ہوئے، ہمیں معلوم ہوتا ہے کہ پہلا طریقہ، جوہر میں، دوسرے کی بنیاد رکھتا ہے۔ یہی وجہ ہے کہ ارتقاء کے دوران، ستنداریوں نے دماغ تیار کیا ہے جو انہیں ماحول سے آنے والے پیچیدہ سگنلز سے انتہائی مؤثر طریقے سے سیکھنے کی اجازت دیتا ہے۔ تو، سوال کھلا رہتا ہے. شاید ارتقائی حکمت عملیوں سے ہمیں موثر سیکھنے کے فن تعمیرات ایجاد کرنے میں مدد ملے گی جو تدریجی سیکھنے کے طریقوں کے لیے بھی کارآمد ثابت ہوں گے۔ سب کے بعد، فطرت کی طرف سے پایا حل واقعی بہت کامیاب ہے.

ماخذ: www.habr.com

نیا تبصرہ شامل کریں