د بیرغ نیول یو خورا ساده رقابتي حالت دی چې په ډیری مشهور شوټرانو کې موندل کیږي. هر ټیم یو مارکر لري چې په خپل بیس کې موقعیت لري، او هدف دا دی چې د مخالف ټیم مارکر ونیسي او په بریالیتوب سره یې ځان ته راوړي. په هرصورت، هغه څه چې د انسانانو لپاره د پوهیدلو لپاره اسانه دي د ماشینونو لپاره دومره اسانه ندي. د بیرغ د نیولو لپاره، غیر لوبغاړي کرکټرونه (بوټس) په دودیز ډول د هیوریسټیکونو او ساده الګوریتمونو په کارولو سره برنامه شوي چې د انتخاب محدود آزادي چمتو کوي او د انسانانو لپاره د پام وړ ټیټ دي. مګر مصنوعي استخبارات او ماشین زده کړه ژمنه کوي چې دا وضعیت په بشپړه توګه بدل کړي.
В
"هیچا AI ته ونه ویل چې دا لوبه څنګه وکړي ، دا یوازې پایله درلوده - ایا AI خپل سیال مات کړ یا نه. د دې طریقې کارولو ښکلا دا ده چې تاسو هیڅکله نه پوهیږئ چې د اجنټانو روزلو په وخت کې به څه ډول چلند راڅرګند شي، "ماکس جادربرګ وايي، په ډیپ مائنډ کې د څیړنې ساینس پوه چې مخکې یې د ماشین زده کړې سیسټم AlphaStar کې کار کاوه (په دې وروستیو کې.
"د څیړنې له نظره، دا د الګوریتمیک چلند لپاره یو نویتوب دی چې واقعیا په زړه پوری دی،" میکس زیاته کړه. "هغه طریقه چې موږ خپل AI روزلي دا ښیې چې څنګه د ځینې کلاسیک تکامل نظرونو اندازه کول او پلي کول."
د وین (FTW) لپاره په هڅونه سره نومول شوی، د ډیپ مائنډ اجنټان مستقیم د سکرین پکسلونو څخه زده کوي چې د کنولوشنال عصبي شبکې په کارولو سره ، د ریاضیاتي افعالو (نیورونونو) یوه سیټ په پرتونو کې تنظیم شوي چې د انسان لید کورټیکس وروسته ماډل شوي. ترلاسه شوي معلومات دوه شبکې ته د څو لنډ مهاله حافظې سره لیږدول کیږي (انګلیسي اوږده لنډمهاله حافظه - LSTM)، د اوږدې مودې انحصار پیژندلو توان لري. یو له دوی څخه عملیاتي ډاټا د چټک غبرګون سرعت سره اداره کوي، پداسې حال کې چې بل د ستراتیژیو تحلیل او جوړولو لپاره ورو کار کوي. دواړه د متغیر حافظې سره تړاو لري، کوم چې دوی د لوبې نړۍ کې د بدلونونو وړاندوینه کولو لپاره یوځای کاروي او د جذب شوي لوبې کنټرولر له لارې کړنې ترسره کوي.
په مجموع کې، DeepMind 30 اجنټان روزلي، دوی ته یې د لوبې کولو لپاره یو لړ ټیم ملګري او مخالفین ورکړل، او په تصادفي ډول د لوبې کارتونه غوره کړل ترڅو د AI له یادولو څخه مخنیوی وکړي. هر اجنټ خپل د انعام سیګنال درلود، دا اجازه ورکوي چې خپل داخلي اهداف رامینځته کړي، لکه د بیرغ نیول. هر AI په انفرادي ډول د پرچم نیول شاوخوا 450 زره لوبې لوبولې ، کوم چې د شاوخوا څلور کلونو لوبو تجربې سره مساوي دي.
په بشپړ ډول روزل شوي FTW اجنټانو زده کړل چې د هرې نقشې، ټیم لیست، او ټیم اندازې لپاره عام ستراتیژۍ پلي کړي. دوی انساني چلندونه زده کړل لکه د ټیم ملګرو تعقیب کول، د دښمن په اډه کې کیمپ کول، او د برید کونکو څخه د خپلې اډې دفاع کول، او دوی په تدریجي ډول لږ ګټور نمونې له لاسه ورکړې لکه د یو متحد ډیر نږدې لیدل.
نو کومې پایلې ترلاسه شوې؟ په 40-شخصي ټورنمنټ کې چې انسانانو او اجنټانو په تصادفي ډول دواړه یوځای او د یو بل په وړاندې لوبه کوله، د FTW اجنټانو د پام وړ د انساني لوبغاړو د ګټلو کچه غوره کړه. د AI د Elo درجه بندي، چې د ګټلو احتمال یې 1600 دی، د "پیاوړي" انساني لوبغاړو لپاره 1300 او د "اوسط" انساني لوبغاړو لپاره 1050 په پرتله.
دا د حیرانتیا خبره نده، ځکه چې د AI د غبرګون سرعت د انسان په پرتله د پام وړ لوړ دی، کوم چې په لومړنیو تجربو کې پخوانی د پام وړ ګټه ورکړه. مګر حتی کله چې د اجنټانو دقت کم شو او د عکس العمل وخت د جوړ شوي 257 ملی ثانیه ځنډ څخه مننه ډیر شو ، AI لاهم د انسانانو څخه ښه کار کوي. پرمختللي او عادي لوبغاړو په ترتیب سره د ټولو لوبو یوازې 21٪ او 12٪ وګټل.
سربیره پردې ، د مطالعې له خپرولو وروسته ، ساینس پوهانو پریکړه وکړه چې د پیچلې کچې معمارۍ او اضافي شیانو لکه د راتلونکي کراسنګز او آئرن ووډ سره په بشپړ ډول د زلزلې III ایرینا نقشې باندې اجنټان و ازموي ، چیرې چې AI په بریالیتوب سره په ټیسټ میچونو کې انسانانو ته ننګونه پیل کړه. . کله چې څیړونکو د اجنټانو د عصبي شبکې فعالولو نمونو ته وکتل ، دا د عصبي فعالیتونو دندې چې د راتلونکو معلوماتو پراساس د محصول ټاکلو لپاره مسؤل دي ، دوی داسې کلسترونه وموندل چې د خونو استازیتوب کوي ، د بیرغونو حالت ، د ټیم ملګرو او مخالفینو لید ، او د دښمن په اډه کې د اجنټانو شتون یا نشتوالی. یا د ټیم پر بنسټ، او د لوبې لوبې نور مهم اړخونه. روزل شوي اجنټانو حتی نیورونونه درلودل چې ځانګړي حالتونه په مستقیم ډول کوډ کړي، لکه کله چې د اجنټ لخوا بیرغ اخیستل شوی وي یا کله چې یو متحد یې نیولی وي.
"زه فکر کوم یو له هغه شیانو څخه چې باید وګورو دا دی چې دا څو اجنټ ټیمونه خورا پیاوړي دي، او زموږ څیړنه دا په ډاګه کوي،" جادربرګ وايي. "دا هغه څه دي چې موږ په تیرو څو کلونو کې د ښه او غوره کولو لپاره زده کړل - څنګه د پیاوړتیا زده کړې ستونزه حل کړو." او پرمختللې روزنې واقعیا په زړه پوری کار وکړ.
تور ګریپل، د لندن پوهنتون کالج کې د کمپیوټر ساینس پروفیسور او د ډیپ مائنډ ساینس پوه په دې باور دی چې د دوی کار د AI راتلونکي لپاره د څو اجنټ زده کړې احتمال روښانه کوي. دا کولی شي د انسان - ماشین تعامل او سیسټمونو کې د څیړنې لپاره د اساس په توګه هم کار وکړي چې یو بل بشپړوي یا یوځای کار کوي.
"زموږ پایلې ښیي چې د څو اجنټ پیاوړتیا زده کړه کولی شي په بریالیتوب سره یوه پیچلې لوبه تر هغه حده ورسوي چې انساني لوبغاړي حتی پدې باور وي چې د کمپیوټر لوبغاړي غوره ټیم ملګري جوړوي. څیړنه د دې په اړه خورا په زړه پوري ژور تحلیل وړاندې کوي چې روزل شوي اجنټان څنګه چلند کوي او یوځای کار کوي ، ګریپل وايي. "هغه څه چې دا پایلې خورا په زړه پوري کوي دا دي چې دا اجنټان په لومړي شخص کې خپل چاپیریال درک کوي ، [دا] د انسان لوبغاړي په څیر. د دې لپاره چې څنګه تاکتیکي لوبه وکړي او د خپلو ټیم ملګرو سره همکاري وکړي، دا اجنټان باید د لوبې پایلو څخه په فیډبیک تکیه وکړي، پرته له دې چې ښوونکي یا کوچ دوی ته وښيي چې څه وکړي."
سرچینه: 3dnews.ru