🥇OpenAI چھپانے اور تلاش کرنے کے کھیل میں AI ٹیم ورک سکھاتا ہے۔ پرو ہوسٹر

چھپانے اور تلاش کرنے کا ایک اچھا پرانے زمانے کا کھیل مصنوعی ذہانت (AI) بوٹس کے لیے یہ ظاہر کرنے کے لیے ایک بہترین امتحان ہو سکتا ہے کہ وہ کس طرح فیصلے کرتے ہیں اور ایک دوسرے کے ساتھ اور اپنے ارد گرد کی مختلف اشیاء کے ساتھ بات چیت کرتے ہیں۔

اس میں نیا مضمونایک غیر منافع بخش مصنوعی ذہانت کی تحقیقی تنظیم OpenAI کے محققین کے ذریعہ شائع کیا گیا ہے جو مشہور ہو چکی ہے۔ عالمی چیمپئنز پر فتح کمپیوٹر گیم ڈوٹا 2 میں، سائنس دان بیان کرتے ہیں کہ کس طرح مصنوعی ذہانت کے ذریعے کنٹرول کیے جانے والے ایجنٹوں کو ورچوئل ماحول میں ایک دوسرے سے تلاش کرنے اور چھپنے میں زیادہ نفیس بننے کی تربیت دی گئی۔ مطالعہ کے نتائج نے یہ ظاہر کیا کہ دو بوٹس کی ٹیم اتحادیوں کے بغیر کسی ایک ایجنٹ کے مقابلے میں زیادہ مؤثر اور تیزی سے سیکھتی ہے۔

سائنسدانوں نے ایک ایسا طریقہ استعمال کیا ہے جس نے طویل عرصے سے اس کی شہرت حاصل کی ہے۔ کمک کے ساتھ مشین لرننگ، جس میں مصنوعی ذہانت کو ایک ایسے ماحول میں رکھا جاتا ہے جو اس کے لیے نامعلوم ہے، جب کہ اس کے ساتھ تعامل کے کچھ طریقے ہیں، نیز اس کے اعمال کے ایک یا دوسرے نتیجے کے لیے انعامات اور جرمانے کا نظام ہے۔ یہ طریقہ کافی کارآمد ہے کیونکہ AI کی ایک مجازی ماحول میں بہت زیادہ رفتار سے مختلف اعمال انجام دینے کی صلاحیت ہے، جو کہ ایک شخص تصور کر سکتا ہے اس سے لاکھوں گنا تیز ہے۔ یہ آزمائش اور غلطی کو ایک دیئے گئے مسئلے کو حل کرنے کے لئے سب سے مؤثر حکمت عملی تلاش کرنے کی اجازت دیتا ہے۔ لیکن اس نقطہ نظر کی بھی کچھ حدود ہیں، مثال کے طور پر، ایک ماحول بنانے اور متعدد تربیتی سائیکل چلانے کے لیے کمپیوٹنگ کے بڑے وسائل کی ضرورت ہوتی ہے، اور اس عمل کے لیے خود ایک درست نظام کی ضرورت ہوتی ہے تاکہ AI اعمال کے نتائج کا اپنے ہدف سے موازنہ کیا جا سکے۔ اس کے علاوہ، ایجنٹ کی طرف سے اس طرح حاصل کی گئی مہارتیں بیان کردہ کام تک ہی محدود ہیں اور، ایک بار جب AI اس سے نمٹنا سیکھ لے گا، تو اس میں مزید بہتری نہیں ہوگی۔

AI کو چھپنے اور تلاش کرنے کی تربیت دینے کے لیے، سائنسدانوں نے "Undirected exploration" کے نام سے ایک نقطہ نظر استعمال کیا، جس میں ایجنٹوں کو گیم کی دنیا کے بارے میں اپنی سمجھ پیدا کرنے اور جیتنے والی حکمت عملی تیار کرنے کی مکمل آزادی ہوتی ہے۔ یہ ملٹی ایجنٹ لرننگ اپروچ سے ملتا جلتا ہے جسے ڈیپ مائنڈ کے محققین نے اس وقت استعمال کیا جب متعدد مصنوعی ذہانت کے نظام کوک III ایرینا میں فلیگ موڈ کیپچر کھیلنے کی تربیت دی گئی تھی۔. جیسا کہ اس معاملے میں، AI ایجنٹوں کو پہلے کھیل کے اصولوں میں تربیت نہیں دی گئی تھی، لیکن وقت کے ساتھ ساتھ انہوں نے بنیادی حکمت عملی سیکھ لی اور غیر معمولی حل کے ساتھ محققین کو حیران کرنے کے قابل بھی رہے۔

چھپانے اور تلاش کرنے کے کھیل میں، کئی ایجنٹوں کو جن کا کام چھپانا تھا، انہیں تھوڑا سا سر شروع ہونے کے بعد اپنے مخالفین کی نظروں سے بچنے کی ضرورت تھی جبکہ تلاش کرنے والے ایجنٹوں کی ٹیم کو متحرک کر دیا گیا تھا۔ مزید یہ کہ، اس تناظر میں "نظر کی لکیر" ایک انفرادی بوٹ کے سامنے 135 ڈگری مخروط ہے۔ ایجنٹ کھیل کے میدان سے باہر زیادہ دور تک نہیں جاسکتے تھے اور انہیں تصادفی طور پر تیار کیے گئے کمروں میں تشریف لے جانے پر مجبور کیا جاتا تھا جس میں ارد گرد بکھری ہوئی کچھ بیرونی اشیاء (خانے، حرکت پذیر دیواریں، خصوصی ریمپ) استعمال کرنے کی صلاحیت ہوتی تھی جنہیں کور بنانے اور ان میں دراندازی کے لیے استعمال کیا جا سکتا تھا۔ .

ایک طویل سیکھنے کے عمل کے ذریعے، AI ایجنٹوں نے چھ منفرد حکمت عملی سیکھی، جن میں سے ہر ایک نے انہیں کھیل کے اگلے مرحلے تک بڑھنے میں مدد کی۔ پہلے تو، چھپنے والی اور چھپانے والی ٹیمیں بھاگ کر ایک دوسرے کا پیچھا کرتی تھیں، لیکن تقریباً 25 ملین میچوں کے بعد، چھپنے والی ٹیم نے بکسوں کے ساتھ راستوں کو روکنا اور ان میں سے پناہ گاہیں بنانا سیکھ لیا۔ مزید 75 ملین میچوں کے بعد، ٹیم نے ان ٹھکانوں میں داخل ہونے کے لیے ریمپ استعمال کرنے کے طریقے دریافت کیے۔ مزید 10 ملین راؤنڈز کے بعد، چھپانے والوں نے ریمپ کو کھیل کے میدان کے کنارے تک گھسیٹنا اور مخالفین کو ان کے استعمال سے روکنے کے لیے جگہ پر لاک کرنا سیکھ لیا۔

388 ملین میچوں کے بعد، متلاشیوں نے اپنے لیے لائے گئے کریٹ پر چڑھنے کے لیے مسدود ریمپ کا استعمال کرنا سیکھ لیا ہے، اور پھر، براہ راست ان کی طرف بڑھتے ہوئے، پورٹیبل دیواروں سے بنائے گئے دشمن کے ٹھکانوں میں گھسنا سیکھ لیا ہے۔ اور آخر کار، 458 ملین میچوں کے بعد، چھپنے والی ٹیم نے یہ نتیجہ اخذ کیا کہ انہیں تمام اشیاء کو بلاک کرنے اور پھر ایک پناہ گاہ بنانے کی ضرورت ہے، جو بظاہر ان کی حتمی فتح کا باعث بنی۔

خاص طور پر متاثر کن بات یہ ہے کہ 22 ملین میچوں کے بعد، ایجنٹوں نے اپنے اعمال کو مربوط کرنا سیکھا اور مستقبل میں ان کے تعاون کی کارکردگی میں اضافہ ہی ہوا، مثال کے طور پر، ہر ایک پناہ گاہ بنانے کے لیے اپنا اپنا خانہ یا دیوار لایا اور اپنے حصے کی اشیاء کا انتخاب کیا۔ بلاک، مخالفین کے لیے مشکل کھیل کو پیچیدہ بنانے کے لیے۔

سائنس دانوں نے سیکھنے کی رفتار پر تربیتی اشیاء کی تعداد (اعصابی نیٹ ورک سے گزرنے والے ڈیٹا کی مقدار - "بیچ سائز") کے اثر و رسوخ سے متعلق ایک اہم نکتہ بھی نوٹ کیا۔ پہلے سے طے شدہ ماڈل کو اس مقام تک پہنچنے کے لیے 132,3 گھنٹے کی ٹریننگ کے دوران 34 ملین میچز کی ضرورت تھی جہاں چھپنے والی ٹیم نے ریمپ کو بلاک کرنا سیکھا، جبکہ زیادہ ڈیٹا کے نتیجے میں تربیت کے وقت میں نمایاں کمی واقع ہوئی۔ مثال کے طور پر، پیرامیٹرز کی تعداد (پورے تربیتی عمل کے دوران حاصل کردہ ڈیٹا کا حصہ) 0,5 ملین سے 5,8 ملین تک بڑھانے سے نمونے لینے کی کارکردگی میں 2,2 گنا اضافہ ہوا، اور ان پٹ ڈیٹا کے سائز کو 64 KB سے بڑھا کر 128 KB کرنے سے تربیت کم ہو گئی۔ وقت تقریبا ڈیڑھ گنا.

اپنے کام کے اختتام پر، محققین نے یہ جانچنے کا فیصلہ کیا کہ گیم کے اندر کی تربیت ایجنٹوں کو گیم سے باہر اسی طرح کے کاموں سے نمٹنے میں کتنی مدد کر سکتی ہے۔ مجموعی طور پر پانچ ٹیسٹ تھے: اشیاء کی تعداد کے بارے میں آگاہی (یہ سمجھنا کہ کوئی چیز موجود رہتی ہے چاہے وہ نظر سے باہر ہو اور استعمال نہ ہو)؛ "لاک اور واپسی" - کسی کی اصل پوزیشن کو یاد رکھنے اور کچھ اضافی کام مکمل کرنے کے بعد اس پر واپس آنے کی صلاحیت؛ "سیکینشل بلاکنگ" - 4 بکس تصادفی طور پر تین کمروں میں بغیر دروازوں کے واقع تھے، لیکن اندر جانے کے لیے ریمپ کے ساتھ، ایجنٹوں کو ان سب کو تلاش کرنے اور بلاک کرنے کی ضرورت تھی۔ پہلے سے طے شدہ سائٹس پر بکسوں کی جگہ کا تعین؛ سلنڈر کی شکل میں کسی چیز کے گرد پناہ گاہ بنانا۔

نتیجے کے طور پر، پانچ میں سے تین کاموں میں، بوٹس جنہوں نے گیم کی ابتدائی تربیت حاصل کی تھی، تیزی سے سیکھے اور AI سے بہتر نتائج دکھائے جنہیں شروع سے مسائل کو حل کرنے کے لیے تربیت دی گئی تھی۔ انہوں نے کام کو مکمل کرنے اور ابتدائی پوزیشن پر واپس آنے، بند کمروں میں بکسوں کو ترتیب وار بلاک کرنے، اور دیے گئے علاقوں میں بکس رکھنے میں قدرے بہتر کارکردگی کا مظاہرہ کیا، لیکن اشیاء کی تعداد کو پہچاننے اور کسی اور چیز کے گرد احاطہ بنانے میں قدرے کمزور کارکردگی کا مظاہرہ کیا۔

محققین ملے جلے نتائج کو اس بات سے منسوب کرتے ہیں کہ AI کس طرح کچھ مہارتیں سیکھتا اور یاد رکھتا ہے۔ "ہم سمجھتے ہیں کہ جن کاموں میں کھیل سے پہلے کی تربیت نے بہترین کارکردگی کا مظاہرہ کیا ان میں پہلے سے سیکھی ہوئی مہارتوں کو ایک مانوس طریقے سے دوبارہ استعمال کرنا شامل ہے، جبکہ باقی کاموں کو شروع سے تربیت یافتہ AI سے بہتر طریقے سے انجام دینے کے لیے انہیں مختلف طریقے سے استعمال کرنے کی ضرورت ہوگی، جو کہ بہت زیادہ ہے۔ زیادہ مشکل، کام کے شریک مصنفین لکھیں۔ "یہ نتیجہ تربیت کے ذریعے حاصل کی گئی مہارتوں کو ایک ماحول سے دوسرے ماحول میں منتقل کرتے وقت مؤثر طریقے سے دوبارہ استعمال کرنے کے طریقے تیار کرنے کی ضرورت کو اجاگر کرتا ہے۔"

کیا گیا کام واقعی متاثر کن ہے، کیونکہ اس تدریسی طریقہ کو استعمال کرنے کا امکان کسی بھی کھیل کی حدود سے کہیں زیادہ ہے۔ محققین کا کہنا ہے کہ ان کا کام "طبیعیات پر مبنی" اور "انسان نما" رویے کے ساتھ AI بنانے کی جانب ایک اہم قدم ہے جو بیماریوں کی تشخیص کر سکتا ہے، پیچیدہ پروٹین مالیکیولز کی ساخت کی پیش گوئی کر سکتا ہے اور CT سکین کا تجزیہ کر سکتا ہے۔

نیچے دی گئی ویڈیو میں آپ واضح طور پر دیکھ سکتے ہیں کہ سیکھنے کا پورا عمل کیسے ہوا، AI نے ٹیم ورک کیسے سیکھا، اور اس کی حکمت عملی زیادہ سے زیادہ چالاک اور پیچیدہ ہوتی گئی۔

ماخذ: 3dnews.ru

OpenAI چھپ چھپانے کے کھیل میں AI ٹیم ورک سکھاتا ہے۔

نیا تبصرہ شامل کریں جواب منسوخ کریں