د ډیپ مائنډ AI ماسټر ټیم په زلزله III کې د انسانانو څخه لوبه کوي او ښه کار کوي

د بیرغ نیول یو خورا ساده رقابتي حالت دی چې په ډیری مشهور شوټرانو کې موندل کیږي. هر ټیم یو مارکر لري چې په خپل بیس کې موقعیت لري، او هدف دا دی چې د مخالف ټیم مارکر ونیسي او په بریالیتوب سره یې ځان ته راوړي. په هرصورت، هغه څه چې د انسانانو لپاره د پوهیدلو لپاره اسانه دي د ماشینونو لپاره دومره اسانه ندي. د بیرغ د نیولو لپاره، غیر لوبغاړي کرکټرونه (بوټس) په دودیز ډول د هیوریسټیکونو او ساده الګوریتمونو په کارولو سره برنامه شوي چې د انتخاب محدود آزادي چمتو کوي او د انسانانو لپاره د پام وړ ټیټ دي. مګر مصنوعي استخبارات او ماشین زده کړه ژمنه کوي چې دا وضعیت په بشپړه توګه بدل کړي.

В مقالې، دا اونۍ شاوخوا یو کال وروسته په ساینس ژورنال کې خپره شوه پری چاپاو همدارنګه په ستاسو په بلاګ کې، د ډیپ مائنډ څیړونکي ، د الفباټ لندن میشته فرعي شرکت ، یو داسې سیسټم تشریح کوي چې نه یوازې د ID سافټویر زلزلې III ارینا نقشو کې د بیرغ اخیستلو زده کول زده کولی شي ، بلکه په بشپړ ډول نوي ټیم ستراتیژۍ رامینځته کوي ، په هیڅ ډول د انسان څخه ټیټ ندي.

د ډیپ مائنډ AI ماسټر ټیم په زلزله III کې د انسانانو څخه لوبه کوي او ښه کار کوي

"هیچا AI ته ونه ویل چې دا لوبه څنګه وکړي ، دا یوازې پایله درلوده - ایا AI خپل سیال مات کړ یا نه. د دې طریقې کارولو ښکلا دا ده چې تاسو هیڅکله نه پوهیږئ چې د اجنټانو روزلو په وخت کې به څه ډول چلند راڅرګند شي، "ماکس جادربرګ وايي، په ډیپ مائنډ کې د څیړنې ساینس پوه چې مخکې یې د ماشین زده کړې سیسټم AlphaStar کې کار کاوه (په دې وروستیو کې. تېر شوی په StarCraft II کې د مسلکيانو انساني ډله). هغه زیاته کړه چې د دوی د نوي کار کلیدي میتود لومړی د زده کړې پیاوړتیا ده، کوم چې د سافټویر اجنټانو ته د ټاکل شوي اهدافو د ترلاسه کولو لپاره د هڅولو لپاره د انعام سیسټم کاروي، او د انعام سیسټم کار کوي پرته له دې چې د AI ټیم وګټي یا نه. مګر په دوهم کې، اجنټان په ډلو کې روزل شوي، کوم چې AI مجبور کړ چې له پیل څخه د ټیم تعامل ماسټر کړي.

"د څیړنې له نظره، دا د الګوریتمیک چلند لپاره یو نویتوب دی چې واقعیا په زړه پوری دی،" میکس زیاته کړه. "هغه طریقه چې موږ خپل AI روزلي دا ښیې چې څنګه د ځینې کلاسیک تکامل نظرونو اندازه کول او پلي کول."

د ډیپ مائنډ AI ماسټر ټیم په زلزله III کې د انسانانو څخه لوبه کوي او ښه کار کوي

د وین (FTW) لپاره په هڅونه سره نومول شوی، د ډیپ مائنډ اجنټان مستقیم د سکرین پکسلونو څخه زده کوي چې د کنولوشنال عصبي شبکې په کارولو سره ، د ریاضیاتي افعالو (نیورونونو) یوه سیټ په پرتونو کې تنظیم شوي چې د انسان لید کورټیکس وروسته ماډل شوي. ترلاسه شوي معلومات دوه شبکې ته د څو لنډ مهاله حافظې سره لیږدول کیږي (انګلیسي اوږده لنډمهاله حافظه - LSTM)، د اوږدې مودې انحصار پیژندلو توان لري. یو له دوی څخه عملیاتي ډاټا د چټک غبرګون سرعت سره اداره کوي، پداسې حال کې چې بل د ستراتیژیو تحلیل او جوړولو لپاره ورو کار کوي. دواړه د متغیر حافظې سره تړاو لري، کوم چې دوی د لوبې نړۍ کې د بدلونونو وړاندوینه کولو لپاره یوځای کاروي او د جذب شوي لوبې کنټرولر له لارې کړنې ترسره کوي.

د ډیپ مائنډ AI ماسټر ټیم په زلزله III کې د انسانانو څخه لوبه کوي او ښه کار کوي

په مجموع کې، DeepMind 30 اجنټان روزلي، دوی ته یې د لوبې کولو لپاره یو لړ ټیم ملګري او مخالفین ورکړل، او په تصادفي ډول د لوبې کارتونه غوره کړل ترڅو د AI له یادولو څخه مخنیوی وکړي. هر اجنټ خپل د انعام سیګنال درلود، دا اجازه ورکوي چې خپل داخلي اهداف رامینځته کړي، لکه د بیرغ نیول. هر AI په انفرادي ډول د پرچم نیول شاوخوا 450 زره لوبې لوبولې ، کوم چې د شاوخوا څلور کلونو لوبو تجربې سره مساوي دي.

په بشپړ ډول روزل شوي FTW اجنټانو زده کړل چې د هرې نقشې، ټیم لیست، او ټیم اندازې لپاره عام ستراتیژۍ پلي کړي. دوی انساني چلندونه زده کړل لکه د ټیم ملګرو تعقیب کول، د دښمن په اډه کې کیمپ کول، او د برید کونکو څخه د خپلې اډې دفاع کول، او دوی په تدریجي ډول لږ ګټور نمونې له لاسه ورکړې لکه د یو متحد ډیر نږدې لیدل.

نو کومې پایلې ترلاسه شوې؟ په 40-شخصي ټورنمنټ کې چې انسانانو او اجنټانو په تصادفي ډول دواړه یوځای او د یو بل په وړاندې لوبه کوله، د FTW اجنټانو د پام وړ د انساني لوبغاړو د ګټلو کچه غوره کړه. د AI د Elo درجه بندي، چې د ګټلو احتمال یې 1600 دی، د "پیاوړي" انساني لوبغاړو لپاره 1300 او د "اوسط" انساني لوبغاړو لپاره 1050 په پرتله.

د ډیپ مائنډ AI ماسټر ټیم په زلزله III کې د انسانانو څخه لوبه کوي او ښه کار کوي

دا د حیرانتیا خبره نده، ځکه چې د AI د غبرګون سرعت د انسان په پرتله د پام وړ لوړ دی، کوم چې په لومړنیو تجربو کې پخوانی د پام وړ ګټه ورکړه. مګر حتی کله چې د اجنټانو دقت کم شو او د عکس العمل وخت د جوړ شوي 257 ملی ثانیه ځنډ څخه مننه ډیر شو ، AI لاهم د انسانانو څخه ښه کار کوي. پرمختللي او عادي لوبغاړو په ترتیب سره د ټولو لوبو یوازې 21٪ او 12٪ وګټل.

سربیره پردې ، د مطالعې له خپرولو وروسته ، ساینس پوهانو پریکړه وکړه چې د پیچلې کچې معمارۍ او اضافي شیانو لکه د راتلونکي کراسنګز او آئرن ووډ سره په بشپړ ډول د زلزلې III ایرینا نقشې باندې اجنټان و ازموي ، چیرې چې AI په بریالیتوب سره په ټیسټ میچونو کې انسانانو ته ننګونه پیل کړه. . کله چې څیړونکو د اجنټانو د عصبي شبکې فعالولو نمونو ته وکتل ، دا د عصبي فعالیتونو دندې چې د راتلونکو معلوماتو پراساس د محصول ټاکلو لپاره مسؤل دي ، دوی داسې کلسترونه وموندل چې د خونو استازیتوب کوي ، د بیرغونو حالت ، د ټیم ملګرو او مخالفینو لید ، او د دښمن په اډه کې د اجنټانو شتون یا نشتوالی. یا د ټیم پر بنسټ، او د لوبې لوبې نور مهم اړخونه. روزل شوي اجنټانو حتی نیورونونه درلودل چې ځانګړي حالتونه په مستقیم ډول کوډ کړي، لکه کله چې د اجنټ لخوا بیرغ اخیستل شوی وي یا کله چې یو متحد یې نیولی وي.

"زه فکر کوم یو له هغه شیانو څخه چې باید وګورو دا دی چې دا څو اجنټ ټیمونه خورا پیاوړي دي، او زموږ څیړنه دا په ډاګه کوي،" جادربرګ وايي. "دا هغه څه دي چې موږ په تیرو څو کلونو کې د ښه او غوره کولو لپاره زده کړل - څنګه د پیاوړتیا زده کړې ستونزه حل کړو." او پرمختللې روزنې واقعیا په زړه پوری کار وکړ.

تور ګریپل، د لندن پوهنتون کالج کې د کمپیوټر ساینس پروفیسور او د ډیپ مائنډ ساینس پوه په دې باور دی چې د دوی کار د AI راتلونکي لپاره د څو اجنټ زده کړې احتمال روښانه کوي. دا کولی شي د انسان - ماشین تعامل او سیسټمونو کې د څیړنې لپاره د اساس په توګه هم کار وکړي چې یو بل بشپړوي یا یوځای کار کوي.

"زموږ پایلې ښیي چې د څو اجنټ پیاوړتیا زده کړه کولی شي په بریالیتوب سره یوه پیچلې لوبه تر هغه حده ورسوي چې انساني لوبغاړي حتی پدې باور وي چې د کمپیوټر لوبغاړي غوره ټیم ملګري جوړوي. څیړنه د دې په اړه خورا په زړه پوري ژور تحلیل وړاندې کوي چې روزل شوي اجنټان څنګه چلند کوي او یوځای کار کوي ، ګریپل وايي. "هغه څه چې دا پایلې خورا په زړه پوري کوي دا دي چې دا اجنټان په لومړي شخص کې خپل چاپیریال درک کوي ، [دا] د انسان لوبغاړي په څیر. د دې لپاره چې څنګه تاکتیکي لوبه وکړي او د خپلو ټیم ملګرو سره همکاري وکړي، دا اجنټان باید د لوبې پایلو څخه په فیډبیک تکیه وکړي، پرته له دې چې ښوونکي یا کوچ دوی ته وښيي چې څه وکړي."



سرچینه: 3dnews.ru

Add a comment