اي حبر!
اسان اڪثر ڪري هتي پوسٽ ڪرڻ جو فيصلو نه ڪندا آهيون متنن جا ترجما جيڪي ٻه سال پراڻا هئا، بغير ڪوڊ ۽ واضح طور تي هڪ علمي نوعيت جي - پر اڄ اسين هڪ استثنا ڪنداسين. اسان اميد ٿا ڪريون ته مضمون جي عنوان ۾ پيدا ٿيل مونجهارو اسان جي ڪيترن ئي پڙهندڙن کي پريشان ڪندو، ۽ توهان اڳي ئي پڙهي چڪا هوندا بنيادي ڪم ارتقائي حڪمت عملين تي جنهن سان هي پوسٽ اصل ۾ بحث ڪري ٿي يا هاڻي پڙهي ويندي. ٻلي ۾ ڀليڪار!
مارچ 2017 ۾، OpenAI پيپر سان گڏ ڊيپ لرننگ ڪميونٽي ۾ موجون پيدا ڪيو.
ارتقائي حڪمت عمليون
OpenAI پيپر جو بنيادي مقالو اهو هو ته، روايتي پٺڀرائي سان گڏ مضبوط ڪرڻ واري سکيا کي استعمال ڪرڻ جي بدران، انهن پيچيده مسئلن کي حل ڪرڻ لاء هڪ نيورل نيٽ ورڪ کي ڪاميابيء سان تربيت ڏني جنهن کي "ارتقائي حڪمت عملي" (ES) سڏيو ويندو آهي. هي ES طريقه وزن جي نيٽ ورڪ جي وسيع تقسيم کي برقرار رکڻ تي مشتمل آهي، متوازي ۾ ڪم ڪندڙ ڪيترن ئي ايجنٽن کي شامل ڪرڻ ۽ هن تقسيم مان چونڊيل پيٽرولر استعمال ڪندي. هر ايجنٽ پنهنجي ماحول ۾ ڪم ڪري ٿو، ۽ قسطن جي مخصوص تعداد يا مرحلن جي مڪمل ٿيڻ تي، الورورٿم هڪ مجموعي انعام ڏئي ٿو، جيڪو فٽنيس سکور طور ظاهر ڪيو ويو آهي. هن قدر کي حساب ۾ رکندي، پيٽرول جي ورڇ کي وڌيڪ ڪامياب ايجنٽن ڏانهن منتقل ڪري سگهجي ٿو، گهٽ ڪامياب ماڻهن کان محروم. سوين ايجنٽن جي شموليت سان اهڙي آپريشن کي لکين ڀيرا ورجائڻ سان، اهو ممڪن آهي ته وزن جي ورهاست کي هڪ جاءِ تي منتقل ڪيو وڃي، جيڪا ايجنٽن کي انهن جي مقرر ڪيل ڪم کي حل ڪرڻ لاءِ اعليٰ معيار جي پاليسي ٺاهي سگهي. درحقيقت، مضمون ۾ پيش ڪيل نتيجا شاندار آهن: اهو ڏيکاريو ويو آهي ته جيڪڏهن توهان هڪ هزار ايجنٽ کي متوازي طور تي هلائيندا آهيو، پوء ٻن پيرن تي اينٿروپومورفڪ لوڪومشن اڌ ڪلاڪ کان به گهٽ وقت ۾ سکي سگهجي ٿو (جڏهن ته سڀ کان وڌيڪ جديد آر ايل طريقن کي وڌيڪ خرچ ڪرڻ جي ضرورت آهي. هن تي هڪ ڪلاڪ کان وڌيڪ). وڌيڪ تفصيلي ڄاڻ لاء، مان سفارش ڪريان ٿو شاندار پڙهڻ
مختلف حڪمت عمليون سيکارڻ لاءِ اينٿروپومورفڪ سڌو هلڻ، اڀياس ڪيو ويو ES طريقو استعمال ڪندي OpenAI کان.
ڪاري دٻي
هن طريقي جو وڏو فائدو اهو آهي ته اهو آساني سان متوازي ٿي سگهي ٿو. جڏهن ته RL طريقن، جهڙوڪ A3C، ڪم ڪندڙ موضوعن ۽ پيراميٽر سرور جي وچ ۾ معلومات جي مٽاسٽا جي ضرورت هوندي آهي، ES کي صرف فٽنيس تخميني ۽ عام پيراميٽر ورهائڻ جي معلومات جي ضرورت آهي. اهو ان سادگي جي ڪري آهي ته هي طريقو جديد آر ايل طريقن کان تمام گهڻو اڳتي آهي اسڪيلنگ صلاحيتن جي لحاظ کان. بهرحال، اهو سڀ ڪجهه بيڪار ناهي: توهان کي نيٽ ورڪ کي بليڪ باڪس جي اصول مطابق بهتر ڪرڻو پوندو. انهي صورت ۾، "ڪارو باڪس" جو مطلب آهي ته تربيت دوران نيٽ ورڪ جي اندروني جوڙجڪ کي مڪمل طور تي نظر انداز ڪيو ويندو آهي، ۽ صرف مجموعي نتيجو (قسط لاء انعام) استعمال ڪيو ويندو آهي، ۽ اهو ان تي منحصر آهي ته ڇا ڪنهن خاص نيٽ ورڪ جو وزن ٿيندو. ايندڙ نسلن کي ورثي ۾ ملندو. اهڙين حالتن ۾ جتي اسان کي ماحول مان گهڻو موٽ نه ملي- ۽ ڪيترن ئي روايتي RL مسئلن ۾ انعامن جو وهڪرو تمام گهٽ آهي- مسئلو ”جزوي بليڪ باڪس“ کان ”مڪمل طور تي بليڪ باڪس“ تائين وڃي ٿو. انهي حالت ۾، توهان خاص طور تي پيداوار وڌائي سگهو ٿا، تنهن ڪري، يقينا، اهڙي سمجھوت جائز آهي. ”ڪنهن کي گريجوئيٽ جي ضرورت آهي جيڪڏهن اهي نااميد طور تي شور ڪن؟ - هي عام راء آهي.
جڏهن ته، حالتن ۾ جتي موٽ وڌيڪ فعال آهي، شيون ES لاء غلط ٿيڻ شروع ڪن ٿا. OpenAI ٽيم بيان ڪري ٿي ته ڪيئن هڪ سادي MNIST درجه بندي نيٽ ورڪ ES استعمال ڪندي تربيت ڪئي وئي، ۽ هن ڀيري تربيت 1000 ڀيرا سست هئي. حقيقت اها آهي ته تصوير جي درجه بندي ۾ گريجوئيٽ سگنل انتهائي معلوماتي آهي ته ڪيئن نيٽ ورڪ کي بهتر درجه بندي سيکارڻ جي حوالي سان. اهڙيء طرح، مسئلو RL ٽيڪنڪ سان گهٽ آهي ۽ ماحول ۾ گهٽ انعامن سان وڌيڪ آهي جيڪو شور گرڊينٽ پيدا ڪري ٿو.
فطرت جو حل
جيڪڏهن اسان فطرت جي مثال مان سکڻ جي ڪوشش ڪريون، AI کي ترقي ڪرڻ جي طريقن بابت سوچڻ، پوء ڪجهه حالتن ۾ AI سمجهي سگهجي ٿو.
ٿلهي جانورن جي دانشورانه رويي کي جانچڻ کان پوء، اسان ڏسون ٿا ته اهو ٻن ويجهن لاڳاپن واري عمل جي پيچيده باهمي اثر جي نتيجي ۾ ٺهيل آهي: ٻين جي تجربن مان سکڻ и ڪرڻ سان سکڻ. اڳوڻو اڪثر ڪري ارتقا سان برابر ڪيو ويندو آهي قدرتي چونڊ جي ذريعي، پر هتي آئون هڪ وسيع اصطلاح استعمال ڪريان ٿو حساب ۾ وٺڻ لاءِ ايپيگينيٽيڪس، مائڪروبيومس، ۽ ٻين ميکانيزم جيڪي جينياتي طور تي غير لاڳاپيل جاندارن جي وچ ۾ تجربن جي حصيداري کي فعال ڪن ٿا. ٻيو عمل، تجربي مان سکڻ، اها سموري معلومات آهي، جيڪا هڪ جانور پنهنجي سڄي ڄمار ۾ سکندو رهي ٿو، ۽ اها معلومات سڌو سنئون هن جانور جي ٻاهرين دنيا سان رابطي جي ذريعي طئي ٿيندي آهي. هن زمري ۾ هر شيءِ شامل آهي سکيا کان وٺي شين کي سڃاڻڻ کان وٺي سکيا جي عمل ۾ موجود ڪميونيڪيشن تي عبور حاصل ڪرڻ تائين.
عام طور تي ڳالهائڻ، فطرت ۾ واقع ٿيندڙ انهن ٻن عملن جو مقابلو ڪري سگهجي ٿو ٻن اختيارن سان نيورل نيٽ ورڪ کي بهتر ڪرڻ لاء. ارتقائي حڪمت عمليون، جتي تدريسيات جي معلومات استعمال ڪئي ويندي آهي معلومات کي تازه ڪاري ڪرڻ لاءِ، ٻين جي تجربن مان سکڻ جي ويجهو اچي. اهڙي طرح، تدريسي طريقا، جتي هڪ يا ٻيو تجربو حاصل ڪرڻ سان ايجنٽ جي رويي ۾ هڪ يا ٻي تبديلي اچي ٿي، ان جي مقابلي ۾ هڪ جي پنهنجي تجربي مان سکڻ جي برابر آهي. جيڪڏهن اسان ذهين رويي يا صلاحيتن جي قسمن بابت سوچيو ته انهن ٻن طريقن مان هر هڪ جانورن ۾ ترقي ڪري ٿو، مقابلو وڌيڪ واضح ٿي ويندو. ٻنهي صورتن ۾، "ارتقائي طريقا" رد عمل واري رويي جي مطالعي کي فروغ ڏين ٿا جيڪي هڪ خاص فٽنيس کي ترقي ڪرڻ جي اجازت ڏين ٿا (زنده رهڻ لاء ڪافي). گھمڻ يا قيد مان فرار ٿيڻ جي سکيا ڪيترن ئي ڪيسن ۾ وڌيڪ "فطري" رويي جي برابر آهي جيڪي جينياتي سطح تي ڪيترن ئي جانورن ۾ "سخت وائرڊ" آهن. ان کان علاوه، هي مثال تصديق ڪري ٿو ته ارتقائي طريقا لاڳو ٿين ٿا ڪيسن ۾ جتي انعام سگنل انتهائي ناياب آهي (مثال طور، هڪ ٻار جي ڪامياب پرورش جي حقيقت). اهڙي صورت ۾، اهو ناممڪن آهي ته ثواب جو تعلق ڪنهن خاص عمل سان جيڪو هن حقيقت جي واقع ٿيڻ کان ڪيترائي سال اڳ ڪيو ويو هجي. ٻئي طرف، جيڪڏهن اسان هڪ ڪيس تي غور ڪيو جنهن ۾ ES ناڪام ٿئي ٿي، يعني تصوير جي درجه بندي، نتيجن کي 100 کان وڌيڪ سالن کان مٿي ڪيل بيشمار رويي جي نفسياتي تجربن ۾ حاصل ڪيل جانورن جي سکيا جي نتيجن سان قابل ذڪر آهي.
جانورن مان سکيا
طريقن کي مضبوط ڪرڻ جي سکيا ۾ استعمال ڪيو ويو آهي ڪيترن ئي ڪيسن ۾ سڌو سنئون نفسياتي ادب مان ورتو ويو آهي
تجربي مان سکڻ ۾ اڳڪٿي جو مرڪزي ڪردار مٿي بيان ڪيل تحرڪ کي اهم طريقن سان تبديل ڪري ٿو. سگنل جيڪو اڳ ۾ تمام گھٽ سمجهيو ويندو هو (ايپيسوڊڪ انعام) تمام گھڻا ٿي ويندا آهن. نظرياتي طور تي، صورتحال ڪجهه هن طرح آهي: ڪنهن به وقت، ٿلهي جو دماغ هڪ پيچيده وهڪري جي حسي محرڪن ۽ عملن جي بنياد تي نتيجن جو اندازو لڳائيندو آهي، جڏهن ته جانور صرف ان وهڪري ۾ غرق هوندو آهي. انهي حالت ۾، جانور جي آخري رويي کي مضبوط سگنل ڏئي ٿو جيڪو اڳڪٿين جي ترتيب ۽ رويي جي ترقي جي رهنمائي ڪرڻ لاء استعمال ڪيو وڃي. دماغ انهن سڀني سگنلن کي استعمال ڪري ٿو مستقبل ۾ اڳڪٿيون (۽، مطابق، ڪيل ڪمن جي معيار) کي بهتر ڪرڻ لاءِ. ان نقطه نظر جو هڪ جائزو هن شاندار ڪتاب ۾ ڏنو ويو آهي.
نيورل نيٽ ورڪ جي وڌيڪ تربيت
ٿلهي جي دماغ ۾ موروثي اعليٰ اعصابي سرگرمي جي اصولن تي تعمير، جيڪو مسلسل اڳڪٿيون ڪرڻ ۾ مصروف آهي، تازيون اڳڀرائيون سکيا جي سکيا ۾ ڪيون ويون آهن، جيڪي هاڻي اهڙين اڳڪٿين جي اهميت کي نظر ۾ رکنديون آهن. مان توهان کي فوري طور تي ٻه ساڳيو ڪم سفارش ڪري سگهان ٿو:
انهن ٻنهي مقالن ۾، ليکڪ انهن جي اعصابي نيٽ ورڪ جي عام ڊفالٽ پاليسي کي پورو ڪن ٿا جيڪي مستقبل ۾ ماحول جي حالت بابت اڳڪٿي نتيجن سان. پهرين مضمون ۾، اڳڪٿي ڪئي وئي آهي مختلف ماپن جي متغيرن تي، ۽ ٻئي ۾، اڳڪٿي لاڳو ڪئي وئي آهي ماحول ۾ تبديلين ۽ ايجنٽ جي رويي تي. ٻنهي صورتن ۾، مثبت تقويم سان لاڳاپيل اسپارس سگنل تمام گهڻو امير ۽ وڌيڪ معلوماتي بڻجي ويندو آهي، ٻنهي کي تيز سکيا ۽ وڌيڪ پيچيده رويي جي حصول جي اجازت ڏئي ٿي. اهڙيون واڌايون صرف انهن طريقن سان موجود آهن جيڪي گريجوئيٽ سگنل استعمال ڪن ٿيون، ۽ نه انهن طريقن سان جيڪي ”بليڪ باڪس“ اصول تي هلن ٿيون، جهڙوڪ ES.
ان کان علاوه، تجربو مان سکڻ ۽ تدريسي طريقا تمام گهڻو اثرائتو آهن. جيتوڻيڪ ڪيسن ۾ جتي اهو ممڪن هو ته ڪنهن خاص مسئلي جو مطالعو ES طريقي سان استعمال ڪندي تيزيءَ سان رينفورسمينٽ لرننگ استعمال ڪندي، فائدو حاصل ڪيو ويو ان حقيقت جي ڪري ته ES حڪمت عملي ۾ RL جي ڀيٽ ۾ ڪيترائي ڀيرا وڌيڪ ڊيٽا شامل آهي. هن معاملي ۾ جانورن جي سکيا جي اصولن تي غور ڪندي، اسان اهو نوٽ ڪريون ٿا ته ڪنهن ٻئي جي مثال مان سکڻ جو نتيجو ڪيترن ئي نسلن کان پوء ظاهر ٿئي ٿو، جڏهن ته ڪڏهن ڪڏهن پاڻ جو تجربو هڪ واقعو جانور لاء هميشه لاء سبق سکڻ لاء ڪافي آهي. جڏهن ته
پوء، ڇو نه انهن کي گڏ ڪريو؟
اهو ممڪن آهي ته هن مضمون جو گهڻو حصو اهو تاثر ڇڏي سگهي ٿو ته مان RL طريقن جي حمايت ڪري رهيو آهيان. بهرحال، مان اصل ۾ سمجهان ٿو ته ڊگهي عرصي ۾ بهترين حل ٻنهي طريقن کي گڏ ڪرڻ آهي، انهي ڪري ته هر هڪ استعمال ڪيو وڃي حالتن ۾ جنهن ۾ اهو بهترين آهي. ظاهر آهي، ڪيترن ئي رد عمل واري پاليسين جي صورت ۾ يا حالتن ۾ مثبت مضبوطي جي تمام گهٽ سگنلن سان، ES کٽي ٿو، خاص طور تي جيڪڏهن توهان وٽ ڪمپيوٽنگ پاور آهي توهان جي اختيار ۾ جنهن تي توهان وڏي پيماني تي متوازي ٽريننگ هلائي سگهو ٿا. ٻئي طرف، تدريسي طريقا استعمال ڪندي تربيتي سکيا يا نگراني ڪيل سکيا مفيد ثابت ٿينديون جڏهن اسان وٽ وسيع موٽ تائين رسائي هوندي ۽ اهو سکڻ جي ضرورت هوندي ته مسئلو ڪيئن حل ڪجي تڪڙو ۽ گهٽ ڊيٽا سان.
فطرت ڏانهن رخ ڪندي، اسان کي معلوم ٿئي ٿو ته پهريون طريقو، جوهر ۾، ٻئي لاء بنياد رکي ٿو. اهو ئي سبب آهي، ارتقاء جي دوران، ٿلهي جانور دماغ ٺاهيا آهن جيڪي انهن کي ماحول مان ايندڙ پيچيده سگنلن کان انتهائي مؤثر طريقي سان سکڻ جي اجازت ڏين ٿا. تنهن ڪري، سوال کليل رهي ٿو. ٿي سگهي ٿو ته ارتقائي حڪمت عمليون اسان کي موثر سکيا وارو فن تعمير ڪرڻ ۾ مدد ڏين جيڪي تدريسي سکيا جي طريقن لاءِ پڻ ڪارآمد ثابت ٿينديون. آخرڪار، فطرت طرفان مليل حل واقعي تمام ڪامياب آهي.
جو ذريعو: www.habr.com