OpenAI لڪائڻ ۽ ڳولڻ جي راند ۾ AI ٽيم ورڪ سيکاري ٿو

لڪائڻ ۽ ڳولهڻ جي هڪ سٺي پراڻي فيشن واري راند مصنوعي ذهانت (AI) بوٽن لاءِ هڪ بهترين امتحان ٿي سگهي ٿي اهو ظاهر ڪرڻ لاءِ ته اهي ڪيئن فيصلا ڪن ٿا ۽ هڪ ٻئي سان ۽ انهن جي چوڌاري مختلف شين سان رابطو ڪن ٿا.

هن جي نئون مضمون، اوپن اي آءِ جي محققن پاران شايع ٿيل ، هڪ غير منافع بخش مصنوعي ذهانت واري تحقيقي تنظيم جيڪا مشهور ٿي چڪي آهي عالمي چيمپئن تي فتح ڪمپيوٽر گيم Dota 2 ۾، سائنسدان بيان ڪن ٿا ته ڪيئن مصنوعي ذهانت جي ذريعي ڪنٽرول ٿيل ايجنٽن کي تربيت ڏني وئي ته جيئن هڪ ٻئي کان ورچوئل ماحول ۾ ڳولها ۽ لڪائڻ ۾ وڌيڪ نفيس هجي. مطالعي جي نتيجن مان اهو ظاهر ڪيو ويو آهي ته ٻن بوٽن جي هڪ ٽيم ڪنهن به هڪ ايجنٽ کان سواء اتحادين کان وڌيڪ مؤثر ۽ تيزيء سان سکندو آهي.

OpenAI لڪائڻ ۽ ڳولڻ جي راند ۾ AI ٽيم ورڪ سيکاري ٿو

سائنسدانن هڪ طريقو استعمال ڪيو آهي جنهن جي ڊگهي شهرت حاصل ڪئي آهي مشيني سکيا سان گڏ، جنهن ۾ مصنوعي ذهانت هڪ ماحول ۾ رکيل آهي ان کي اڻڄاتل، جڏهن ته ان سان لهه وچڙ جا ڪجهه طريقا آهن، انهي سان گڏ ان جي عملن جي هڪ يا ٻئي نتيجن لاء انعام ۽ ڏنڊ جو نظام. اهو طريقو ڪافي اثرائتو آهي ڇاڪاڻ ته AI جي صلاحيت هڪ مجازي ماحول ۾ تمام گهڻي رفتار سان مختلف عملن کي انجام ڏيڻ جي صلاحيت آهي، لکين ڀيرا تيز رفتار هڪ شخص تصور ڪري سگهي ٿو. اهو آزمائشي ۽ غلطي جي اجازت ڏئي ٿو ته ڏنل مسئلي کي حل ڪرڻ لاء سڀ کان وڌيڪ موثر حڪمت عمليون ڳولڻ لاء. پر هن طريقي سان پڻ ڪجهه حدون آهن، مثال طور، هڪ ماحول پيدا ڪرڻ ۽ ڪيترن ئي تربيتي چڪر کي هلائڻ لاء وڏي ڪمپيوٽنگ وسيلن جي ضرورت آهي، ۽ عمل پاڻ کي AI عملن جي نتيجن کي پنهنجي مقصد سان مقابلو ڪرڻ لاء هڪ درست سسٽم جي ضرورت آهي. اضافي طور تي، هن طريقي سان ايجنٽ پاران حاصل ڪيل صلاحيتون بيان ڪيل ڪم تائين محدود آهن ۽، هڪ ڀيرو AI ان کي منهن ڏيڻ لاء سکندو، اتي وڌيڪ بهتري نه ٿيندي.

AI کي لڪائڻ ۽ ڳولڻ لاءِ ٽريننگ ڏيڻ لاءِ، سائنسدانن ”Undirected exploration“ نالي هڪ طريقه ڪار استعمال ڪيو، جنهن ۾ ايجنٽن کي مڪمل آزادي هوندي آهي ته هو راند جي دنيا کي سمجهڻ ۽ کٽڻ واري حڪمت عمليون ٺاهي. اهو ملٽي ايجنٽ لرننگ اپروچ سان ملندڙ جلندڙ آهي جيڪو ڊيپ مائنڊ جي محققن استعمال ڪيو جڏهن ڪيترن ئي مصنوعي ذهانت وارو نظام Quake III Arena ۾ پرچم جي موڊ کي پڪڙڻ لاءِ تربيت ڏني وئي. جيئن ته هن معاملي ۾، AI ايجنٽ اڳ ۾ راند جي ضابطن ۾ تربيت نه ڪئي وئي هئي، پر وقت سان گڏ اهي بنيادي حڪمت عمليون سکندا هئا ۽ تحقيق ڪندڙن کي حيران ڪرڻ جي قابل هئا غير معمولي حل سان.

لڪائڻ واري راند ۾، ڪيترن ئي ايجنٽن جن جو ڪم لڪائڻ هو، انهن کي پنهنجي مخالفن جي نظر کان بچڻ جي ضرورت هئي، جڏهن ته ڳولا ڪندڙ ايجنٽ جي ٽيم کي متحرڪ ڪيو ويو. ان کان علاوه، هن سلسلي ۾ "نظر جي لائن" هڪ انفرادي بوٽ جي سامهون هڪ 135 درجا مخروط آهي. ايجنٽ راند جي ميدان کان تمام گهڻو پري وڃڻ جو ارادو نه ڪري سگهيا ۽ انهن کي مجبور ڪيو ويو ته هو بي ترتيب ٺاهيل ڪمرن کي استعمال ڪرڻ جي صلاحيت سان گڏ ڪجهه ٻاهرئين شيون استعمال ڪرڻ جي صلاحيت سان (باڪس، متحرڪ ديوار، خاص ريمپ) جيڪي چوڌاري پکڙيل آهن جيڪي ٻنهي کي ڍڪڻ ۽ انهن ۾ ڦهلائڻ لاء استعمال ڪري سگهجن ٿيون. .

OpenAI لڪائڻ ۽ ڳولڻ جي راند ۾ AI ٽيم ورڪ سيکاري ٿو

هڪ ڊگهي سکيا واري عمل ذريعي، AI ايجنٽ ڇهه منفرد حڪمت عمليون سکيون، جن مان هر هڪ انهن کي راند جي ايندڙ اسٽيج تي ترقي ڪرڻ ۾ مدد ڪئي. شروع ۾، ڳوليندڙ ۽ لڪائڻ واريون ٽيمون صرف ڀڄنديون هيون ۽ هڪ ٻئي جو تعاقب ڪنديون هيون، پر تقريباً 25 ملين ميچن کان پوءِ، لڪيل ٽيم باڪسن سان رستن کي بلاڪ ڪرڻ ۽ انهن مان پناهه گاهه ٺاهڻ سکي ورتو. ٻين 75 ملين ميچن کان پوء، ٽيم انهن لڪيل هنڌن ۾ حاصل ڪرڻ لاء ريمپ استعمال ڪرڻ جا طريقا دريافت ڪيا. ٻين 10 ملين رائونڊن کان پوءِ، لڪيل رانديڪن کي راند جي ميدان جي ڪناري تي ڇڪڻ ۽ مخالفن کي انهن کي استعمال ڪرڻ کان روڪڻ لاءِ انهن کي جاءِ تي بند ڪرڻ سکيو.

OpenAI لڪائڻ ۽ ڳولڻ جي راند ۾ AI ٽيم ورڪ سيکاري ٿو

388 ملين ميچن کان پوءِ، ڳولهڻ سکي ويا آهن بلاڪ ٿيل ريمپس کي استعمال ڪرڻ لاءِ چڙهڻ لاءِ انهن ڏانهن کڻي آيا ڪرٽس تي، ۽ پوءِ، سڌو انهن تي چڙهي، پورٽبل ديوارن مان ٺاهيل دشمن جي لڪير ۾ داخل ٿيو. ۽ آخرڪار، 458 ملين ميچن کان پوء، لڪائي ٽيم اهو نتيجو ڪيو ته انهن کي سڀني شين کي بلاڪ ڪرڻ جي ضرورت آهي ۽ پوء هڪ پناهه ٺاهي، جيڪا ظاهري طور تي انهن جي آخري فتح جي ڪري ٿي.

خاص طور تي متاثر ڪندڙ ڳالهه اها آهي ته 22 ملين ميچن کان پوءِ، ايجنٽن پنهنجي عملن کي همٿائڻ سکيو ۽ انهن جي تعاون جي ڪارڪردگي صرف مستقبل ۾ وڌي، مثال طور، هر هڪ پناهه گاهه ٺاهڻ لاءِ پنهنجو پنهنجو باڪس يا ڀت کڻي آيو ۽ پنهنجو حصو چونڊيو بلاڪ، مشڪلات واري راند کي پيچيده ڪرڻ لاء مخالفين کي.

OpenAI لڪائڻ ۽ ڳولڻ جي راند ۾ AI ٽيم ورڪ سيکاري ٿو

سائنسدان پڻ سکيا جي رفتار تي تربيتي شين جي تعداد جي اثر سان لاڳاپيل هڪ اهم نقطو ياد ڪيو (نيرل نيٽ ورڪ ذريعي گذري ڊيٽا جي مقدار - "بيچ سائيز"). ڊفالٽ ماڊل لاءِ 132,3 ملين ميچن جي ضرورت هئي 34 ڪلاڪن کان وڌيڪ ٽريننگ ان نقطي تي پهچڻ لاءِ جتي لڪائي ٽيم ريمپ کي بلاڪ ڪرڻ سکيو، جڏهن ته وڌيڪ ڊيٽا جي نتيجي ۾ تربيت جي وقت ۾ قابل ذڪر گهٽتائي آئي. مثال طور، پيرا ميٽرن جو تعداد (سڄي تربيتي عمل دوران حاصل ڪيل ڊيٽا جو حصو) 0,5 ملين کان 5,8 ملين تائين وڌائڻ سان نموني جي ڪارڪردگي 2,2 ڀيرا وڌي وئي، ۽ ان پٽ ڊيٽا جي سائيز کي وڌائي 64 KB کان 128 KB تائين گھٽايو ويو تربيت. وقت لڳ ڀڳ هڪ اڌ ڀيرا.

OpenAI لڪائڻ ۽ ڳولڻ جي راند ۾ AI ٽيم ورڪ سيکاري ٿو

انهن جي ڪم جي آخر ۾، محققن اهو جانچڻ جو فيصلو ڪيو ته ڪيتري راند ۾ ٽريننگ ايجنٽن کي راند کان ٻاهر ساڳين ڪمن کي منهن ڏيڻ ۾ مدد ڪري سگهي ٿي. مجموعي طور تي پنج تجربا هئا: شين جي تعداد جي آگاهي (سمجهڻ ته ڪا شئي موجود رهي ٿي جيتوڻيڪ اها نظر کان ٻاهر آهي ۽ استعمال نه ڪئي وئي آهي)؛ "لاڪ ۽ واپسي" - ھڪڙي اصلي پوزيشن کي ياد ڪرڻ جي صلاحيت ۽ ڪجھ اضافي ڪم مڪمل ڪرڻ کان پوء ان ڏانھن موٽڻ؛ ”سيڪوئنشل بلاڪنگ“ - 4 باڪس بي ترتيب طور تي دروازن کان سواءِ ٽن ڪمرن ۾ موجود هئا، پر اندر وڃڻ لاءِ ريمپ سان، ايجنٽن کي انهن سڀني کي ڳولڻ ۽ بلاڪ ڪرڻ جي ضرورت هئي. اڳواٽ مقرر ڪيل سائيٽن تي باڪس لڳائڻ؛ سلنڈر جي صورت ۾ هڪ اعتراض جي چوڌاري پناهه ٺاهڻ.

نتيجي طور، پنجن مان ٽن ڪمن ۾، بوٽس جيڪي راند ۾ ابتدائي تربيت حاصل ڪري چڪا هئا تيزيءَ سان سکيا ۽ AI کان بهتر نتيجا ڏيکاريا جن کي شروع کان مسئلن کي حل ڪرڻ لاءِ تربيت ڏني وئي هئي. انهن ڪم کي مڪمل ڪرڻ ۽ شروعاتي پوزيشن ڏانهن موٽڻ، بند ڪمرن ۾ باڪس کي ترتيب وار بلاڪ ڪرڻ، ۽ ڏنل علائقن ۾ باڪس رکڻ ۾ ٿوري بهتر ڪارڪردگي ڏيکاري، پر شين جي تعداد کي سڃاڻڻ ۽ ڪنهن ٻئي شئي جي چوڌاري ڍڪڻ ٺاهڻ ۾ ٿورو ڪمزور ڪم ڪيو.

محقق مليل نتيجن کي منسوب ڪن ٿا ته AI ڪيئن سکي ٿو ۽ ڪجهه صلاحيتن کي ياد ڪري ٿو. ”اسان سمجهون ٿا ته اهي ڪم جتي راند کان اڳ واري تربيت ۾ بهترين طريقي سان اڳ ۾ سکيا ڪيل مهارتن کي واقف طريقي سان ٻيهر استعمال ڪرڻ شامل آهي، جڏهن ته باقي ڪمن کي شروع کان تربيت يافته AI کان بهتر انجام ڏيڻ لاءِ انهن کي مختلف طريقي سان استعمال ڪرڻ جي ضرورت پوندي. وڌيڪ ڏکيو، ”ڪم جا همراه ليکڪ لکندا آهن. "هي نتيجو اجاگر ڪري ٿو طريقن کي ترقي ڪرڻ جي ضرورت کي مؤثر طريقي سان ٻيهر استعمال ڪرڻ لاءِ تربيت ذريعي حاصل ڪيل صلاحيتن کي جڏهن انهن کي هڪ ماحول کان ٻئي ڏانهن منتقل ڪيو وڃي."

ڪم ڪيو ويو واقعي متاثر ڪندڙ آهي، ڇاڪاڻ ته هن تدريس جو طريقو استعمال ڪرڻ جو امڪان ڪنهن به راندين جي حدن کان پري آهي. محققن جو چوڻ آهي ته انهن جو ڪم AI ٺاهڻ جي طرف هڪ اهم قدم آهي ”فزڪس تي ٻڌل“ ۽ ”انسان جهڙو“ رويو جيڪو بيمارين جي تشخيص ڪري سگهي ٿو، پيچيده پروٽين جي ماليڪيولن جي جوڙجڪ جي اڳڪٿي ڪري سگهي ٿو ۽ سي ٽي اسڪين جو تجزيو ڪري سگهي ٿو.

هيٺ ڏنل وڊيو ۾ توهان واضح طور تي ڏسي سگهو ٿا ته سکيا جو سڄو عمل ڪيئن ٿيو، ڪيئن AI سکيا ٽيم ورڪ، ۽ ان جون حڪمت عمليون وڌيڪ کان وڌيڪ چالاڪ ۽ پيچيده ٿي ويون.



جو ذريعو: 3dnews.ru

تبصرو شامل ڪريو