DeepMind Agent57 AI انسان سے بہتر Atari گیمز کو ہرا دیتا ہے۔

سادہ ویڈیو گیمز کے ذریعے اعصابی نیٹ ورک کو چلانا اس کی تربیت کی تاثیر کو جانچنے کا ایک مثالی طریقہ ہے، تکمیل کے نتائج کا جائزہ لینے کی سادہ صلاحیت کی بدولت۔ ڈیپ مائنڈ (الفابیٹ کا حصہ) کے ذریعہ 2012 میں تیار کیا گیا، 57 مشہور اٹاری 2600 گیمز کا بینچ مارک خود سیکھنے کے نظام کی صلاحیتوں کو جانچنے کے لیے ایک لٹمس ٹیسٹ بن گیا۔ اور یہاں Agent57، ایک اعلی درجے کی RL ایجنٹ (ریانفورسمنٹ لرننگ) ڈیپ مائنڈ، حال ہی میں دکھایا پچھلے سسٹمز سے بہت بڑی چھلانگ اور انسانی کھلاڑی کی بنیادی لائن سے تجاوز کرنے والا AI کا پہلا تکرار تھا۔

DeepMind Agent57 AI انسان سے بہتر Atari گیمز کو ہرا دیتا ہے۔

Agent57 AI کمپنی کے سابقہ ​​نظاموں کے تجربے کو مدنظر رکھتا ہے اور میٹا کنٹرول کے ساتھ ماحول کی موثر تلاش کے لیے الگورتھم کو یکجا کرتا ہے۔ خاص طور پر، Agent57 نے Pitfall، Montezuma's Revenge، Solaris اور Skiing میں اپنی مافوق الفطرت صلاحیتوں کو ثابت کیا ہے - وہ گیمز جنہوں نے پچھلے اعصابی نیٹ ورکس کا سخت تجربہ کیا ہے۔ تحقیق کے مطابق پٹ فال اور مونٹیزوما کا بدلہ بہتر نتائج حاصل کرنے کے لیے AI کو مزید تجربات کرنے پر مجبور کرتا ہے۔ نیورل نیٹ ورکس کے لیے سولاریس اور اسکیئنگ مشکل ہے کیونکہ کامیابی کے بہت سے آثار نہیں ہیں - اے آئی طویل عرصے تک نہیں جانتا کہ آیا وہ صحیح کام کر رہا ہے۔ DeepMind نے Agent57 کو ماحول کی کھوج اور گیمز کی کارکردگی کا جائزہ لینے کے ساتھ ساتھ اسکیئنگ جیسی گیمز میں قلیل مدتی اور طویل مدتی رویے کے درمیان تجارت کو بہتر بنانے کے بارے میں بہتر فیصلے کرنے کی اجازت دینے کے لیے اپنے وراثت والے AI ایجنٹوں پر بنایا ہے۔

نتائج متاثر کن ہیں، لیکن AI کو ابھی بہت طویل سفر طے کرنا ہے۔ یہ سسٹم ایک وقت میں صرف ایک گیم ہینڈل کر سکتے ہیں، جو کہ ڈویلپرز کے مطابق انسانی صلاحیتوں کے خلاف ہے: "حقیقی لچک جو انسانی دماغ میں اتنی آسانی سے آتی ہے وہ اب بھی AI کی پہنچ سے باہر ہے۔"



ماخذ: 3dnews.ru

نیا تبصرہ شامل کریں