چھپانے اور تلاش کرنے کا ایک اچھا پرانے زمانے کا کھیل مصنوعی ذہانت (AI) بوٹس کے لیے یہ ظاہر کرنے کے لیے ایک بہترین امتحان ہو سکتا ہے کہ وہ کس طرح فیصلے کرتے ہیں اور ایک دوسرے کے ساتھ اور اپنے ارد گرد کی مختلف اشیاء کے ساتھ بات چیت کرتے ہیں۔
اس میں
سائنسدانوں نے ایک ایسا طریقہ استعمال کیا ہے جس نے طویل عرصے سے اس کی شہرت حاصل کی ہے۔
AI کو چھپنے اور تلاش کرنے کی تربیت دینے کے لیے، سائنسدانوں نے "Undirected exploration" کے نام سے ایک نقطہ نظر استعمال کیا، جس میں ایجنٹوں کو گیم کی دنیا کے بارے میں اپنی سمجھ پیدا کرنے اور جیتنے والی حکمت عملی تیار کرنے کی مکمل آزادی ہوتی ہے۔ یہ ملٹی ایجنٹ لرننگ اپروچ سے ملتا جلتا ہے جسے ڈیپ مائنڈ کے محققین نے اس وقت استعمال کیا جب متعدد مصنوعی ذہانت کے نظام
چھپانے اور تلاش کرنے کے کھیل میں، کئی ایجنٹوں کو جن کا کام چھپانا تھا، انہیں تھوڑا سا سر شروع ہونے کے بعد اپنے مخالفین کی نظروں سے بچنے کی ضرورت تھی جبکہ تلاش کرنے والے ایجنٹوں کی ٹیم کو متحرک کر دیا گیا تھا۔ مزید یہ کہ، اس تناظر میں "نظر کی لکیر" ایک انفرادی بوٹ کے سامنے 135 ڈگری مخروط ہے۔ ایجنٹ کھیل کے میدان سے باہر زیادہ دور تک نہیں جاسکتے تھے اور انہیں تصادفی طور پر تیار کیے گئے کمروں میں تشریف لے جانے پر مجبور کیا جاتا تھا جس میں ارد گرد بکھری ہوئی کچھ بیرونی اشیاء (خانے، حرکت پذیر دیواریں، خصوصی ریمپ) استعمال کرنے کی صلاحیت ہوتی تھی جنہیں کور بنانے اور ان میں دراندازی کے لیے استعمال کیا جا سکتا تھا۔ .
ایک طویل سیکھنے کے عمل کے ذریعے، AI ایجنٹوں نے چھ منفرد حکمت عملی سیکھی، جن میں سے ہر ایک نے انہیں کھیل کے اگلے مرحلے تک بڑھنے میں مدد کی۔ پہلے تو، چھپنے والی اور چھپانے والی ٹیمیں بھاگ کر ایک دوسرے کا پیچھا کرتی تھیں، لیکن تقریباً 25 ملین میچوں کے بعد، چھپنے والی ٹیم نے بکسوں کے ساتھ راستوں کو روکنا اور ان میں سے پناہ گاہیں بنانا سیکھ لیا۔ مزید 75 ملین میچوں کے بعد، ٹیم نے ان ٹھکانوں میں داخل ہونے کے لیے ریمپ استعمال کرنے کے طریقے دریافت کیے۔ مزید 10 ملین راؤنڈز کے بعد، چھپانے والوں نے ریمپ کو کھیل کے میدان کے کنارے تک گھسیٹنا اور مخالفین کو ان کے استعمال سے روکنے کے لیے جگہ پر لاک کرنا سیکھ لیا۔
388 ملین میچوں کے بعد، متلاشیوں نے اپنے لیے لائے گئے کریٹ پر چڑھنے کے لیے مسدود ریمپ کا استعمال کرنا سیکھ لیا ہے، اور پھر، براہ راست ان کی طرف بڑھتے ہوئے، پورٹیبل دیواروں سے بنائے گئے دشمن کے ٹھکانوں میں گھسنا سیکھ لیا ہے۔ اور آخر کار، 458 ملین میچوں کے بعد، چھپنے والی ٹیم نے یہ نتیجہ اخذ کیا کہ انہیں تمام اشیاء کو بلاک کرنے اور پھر ایک پناہ گاہ بنانے کی ضرورت ہے، جو بظاہر ان کی حتمی فتح کا باعث بنی۔
خاص طور پر متاثر کن بات یہ ہے کہ 22 ملین میچوں کے بعد، ایجنٹوں نے اپنے اعمال کو مربوط کرنا سیکھا اور مستقبل میں ان کے تعاون کی کارکردگی میں اضافہ ہی ہوا، مثال کے طور پر، ہر ایک پناہ گاہ بنانے کے لیے اپنا اپنا خانہ یا دیوار لایا اور اپنے حصے کی اشیاء کا انتخاب کیا۔ بلاک، مخالفین کے لیے مشکل کھیل کو پیچیدہ بنانے کے لیے۔
سائنس دانوں نے سیکھنے کی رفتار پر تربیتی اشیاء کی تعداد (اعصابی نیٹ ورک سے گزرنے والے ڈیٹا کی مقدار - "بیچ سائز") کے اثر و رسوخ سے متعلق ایک اہم نکتہ بھی نوٹ کیا۔ پہلے سے طے شدہ ماڈل کو اس مقام تک پہنچنے کے لیے 132,3 گھنٹے کی ٹریننگ کے دوران 34 ملین میچز کی ضرورت تھی جہاں چھپنے والی ٹیم نے ریمپ کو بلاک کرنا سیکھا، جبکہ زیادہ ڈیٹا کے نتیجے میں تربیت کے وقت میں نمایاں کمی واقع ہوئی۔ مثال کے طور پر، پیرامیٹرز کی تعداد (پورے تربیتی عمل کے دوران حاصل کردہ ڈیٹا کا حصہ) 0,5 ملین سے 5,8 ملین تک بڑھانے سے نمونے لینے کی کارکردگی میں 2,2 گنا اضافہ ہوا، اور ان پٹ ڈیٹا کے سائز کو 64 KB سے بڑھا کر 128 KB کرنے سے تربیت کم ہو گئی۔ وقت تقریبا ڈیڑھ گنا.
اپنے کام کے اختتام پر، محققین نے یہ جانچنے کا فیصلہ کیا کہ گیم کے اندر کی تربیت ایجنٹوں کو گیم سے باہر اسی طرح کے کاموں سے نمٹنے میں کتنی مدد کر سکتی ہے۔ مجموعی طور پر پانچ ٹیسٹ تھے: اشیاء کی تعداد کے بارے میں آگاہی (یہ سمجھنا کہ کوئی چیز موجود رہتی ہے چاہے وہ نظر سے باہر ہو اور استعمال نہ ہو)؛ "لاک اور واپسی" - کسی کی اصل پوزیشن کو یاد رکھنے اور کچھ اضافی کام مکمل کرنے کے بعد اس پر واپس آنے کی صلاحیت؛ "سیکینشل بلاکنگ" - 4 بکس تصادفی طور پر تین کمروں میں بغیر دروازوں کے واقع تھے، لیکن اندر جانے کے لیے ریمپ کے ساتھ، ایجنٹوں کو ان سب کو تلاش کرنے اور بلاک کرنے کی ضرورت تھی۔ پہلے سے طے شدہ سائٹس پر بکسوں کی جگہ کا تعین؛ سلنڈر کی شکل میں کسی چیز کے گرد پناہ گاہ بنانا۔
نتیجے کے طور پر، پانچ میں سے تین کاموں میں، بوٹس جنہوں نے گیم کی ابتدائی تربیت حاصل کی تھی، تیزی سے سیکھے اور AI سے بہتر نتائج دکھائے جنہیں شروع سے مسائل کو حل کرنے کے لیے تربیت دی گئی تھی۔ انہوں نے کام کو مکمل کرنے اور ابتدائی پوزیشن پر واپس آنے، بند کمروں میں بکسوں کو ترتیب وار بلاک کرنے، اور دیے گئے علاقوں میں بکس رکھنے میں قدرے بہتر کارکردگی کا مظاہرہ کیا، لیکن اشیاء کی تعداد کو پہچاننے اور کسی اور چیز کے گرد احاطہ بنانے میں قدرے کمزور کارکردگی کا مظاہرہ کیا۔
محققین ملے جلے نتائج کو اس بات سے منسوب کرتے ہیں کہ AI کس طرح کچھ مہارتیں سیکھتا اور یاد رکھتا ہے۔ "ہم سمجھتے ہیں کہ جن کاموں میں کھیل سے پہلے کی تربیت نے بہترین کارکردگی کا مظاہرہ کیا ان میں پہلے سے سیکھی ہوئی مہارتوں کو ایک مانوس طریقے سے دوبارہ استعمال کرنا شامل ہے، جبکہ باقی کاموں کو شروع سے تربیت یافتہ AI سے بہتر طریقے سے انجام دینے کے لیے انہیں مختلف طریقے سے استعمال کرنے کی ضرورت ہوگی، جو کہ بہت زیادہ ہے۔ زیادہ مشکل، کام کے شریک مصنفین لکھیں۔ "یہ نتیجہ تربیت کے ذریعے حاصل کی گئی مہارتوں کو ایک ماحول سے دوسرے ماحول میں منتقل کرتے وقت مؤثر طریقے سے دوبارہ استعمال کرنے کے طریقے تیار کرنے کی ضرورت کو اجاگر کرتا ہے۔"
کیا گیا کام واقعی متاثر کن ہے، کیونکہ اس تدریسی طریقہ کو استعمال کرنے کا امکان کسی بھی کھیل کی حدود سے کہیں زیادہ ہے۔ محققین کا کہنا ہے کہ ان کا کام "طبیعیات پر مبنی" اور "انسان نما" رویے کے ساتھ AI بنانے کی جانب ایک اہم قدم ہے جو بیماریوں کی تشخیص کر سکتا ہے، پیچیدہ پروٹین مالیکیولز کی ساخت کی پیش گوئی کر سکتا ہے اور CT سکین کا تجزیہ کر سکتا ہے۔
نیچے دی گئی ویڈیو میں آپ واضح طور پر دیکھ سکتے ہیں کہ سیکھنے کا پورا عمل کیسے ہوا، AI نے ٹیم ورک کیسے سیکھا، اور اس کی حکمت عملی زیادہ سے زیادہ چالاک اور پیچیدہ ہوتی گئی۔
ماخذ: 3dnews.ru