DeepMind AI шеберлері командасы III Quake ойынында адамдардан асып түседі

Туды түсіру - бұл көптеген танымал атқыштарда кездесетін өте қарапайым бәсекелестік режим. Әр команданың өз базасында орналасқан маркері бар, оның мақсаты – қарсылас команданың маркерін басып, оны сәтті өзіне жеткізу. Дегенмен, адамдарға түсіну оңай нәрсе машиналар үшін оңай емес. Жалауды түсіру үшін ойыншы емес кейіпкерлер (боттар) дәстүрлі түрде эвристика мен қарапайым алгоритмдер арқылы бағдарламаланады, олар таңдаудың шектеулі еркіндігін қамтамасыз етеді және адамдардан айтарлықтай төмен. Бірақ жасанды интеллект пен машиналық оқыту бұл жағдайды толығымен өзгертуге уәде береді.

В мақала, осы аптада Science журналында шамамен бір жылдан кейін жарияланған алдын ала басып шығару, сонымен қатар сіздің блогыңыз, Alphabet-тің Лондондағы еншілес кәсіпорны DeepMind зерттеушілері id Software компаниясының Quake III Arena карталарында жалаушаны түсіруді ойнауды үйреніп қана қоймай, сонымен қатар адамнан еш кем түспейтін мүлдем жаңа команда стратегияларын дамыта алатын жүйені сипаттайды.

DeepMind AI шеберлері командасы III Quake ойынында адамдардан асып түседі

«Ешкім AI-ға бұл ойынды қалай ойнау керектігін айтқан жоқ, оның нәтижесі болды - AI қарсыласын жеңді ме, жоқ па. Бұл тәсілді қолданудың сұлулығы агенттерді оқытқанда қандай мінез-құлық пайда болатынын ешқашан білмейсіз», - дейді бұрын AlphaStar машиналық оқыту жүйесінде жұмыс істеген DeepMind зерттеуші ғалымы Макс Джадерберг (жақында). асып түсті StarCraft II кәсіпқойларының адам командасы). Одан әрі ол олардың жаңа жұмысының негізгі әдісі, біріншіден, бағдарламалық жасақтама агенттерін алға қойған мақсаттарға жетуге итермелеу үшін марапаттау жүйесінің бір түрін қолданатын күшейтілген оқыту екенін және марапаттау жүйесі AI командасының жеңіске жеткен-жеңбегеніне қарамастан жұмыс істейтінін түсіндірді. , бірақ екіншіден, агенттер топтарда оқытылды, бұл AI-ны басынан бастап командалық өзара әрекеттесуді меңгеруге мәжбүр етті.

«Зерттеу тұрғысынан алғанда, бұл шынымен қызықты алгоритмдік тәсіл үшін жаңалық», - деп қосты Макс. «Біздің AI-ді үйрету тәсілі кейбір классикалық эволюциялық идеяларды қалай масштабтауға және жүзеге асыруға болатынын жақсы көрсетеді».

DeepMind AI шеберлері командасы III Quake ойынында адамдардан асып түседі

«Жеңіс үшін» (FTW) деп аталатын арандатушылықпен DeepMind агенттері адамның көрнекі кортексінен кейін үлгіленген қабаттарда реттелген математикалық функциялар (нейрондар) жиынтығын конвульционды нейрондық желі арқылы тікелей экран пикселдерінен үйренеді. Алынған мәліметтер ұзақ мерзімді тәуелділіктерді тануға қабілетті бірнеше қысқа мерзімді жады (ағылшынша ұзақ қысқа мерзімді жады – LSTM) бар екі желіге беріледі. Олардың бірі оперативті деректерді жылдам жауап беру жылдамдығымен басқарады, ал екіншісі стратегияларды талдау және тұжырымдау үшін баяу жұмыс істейді. Екеуі де вариациялық жадымен байланысты, оны ойын әлеміндегі өзгерістерді болжау және эмуляцияланған ойын контроллері арқылы әрекеттерді орындау үшін бірге пайдаланады.

DeepMind AI шеберлері командасы III Quake ойынында адамдардан асып түседі

Барлығы DeepMind 30 агентті оқытты, оларға ойнауға болатын бірқатар әріптестер мен қарсыластар берді және AI оларды есте сақтауына жол бермеу үшін кездейсоқ таңдалған ойын карталарын берді. Әрбір агентте жалаушаны басып алу сияқты өзінің ішкі мақсаттарын жасауға мүмкіндік беретін өзінің марапат сигналы болды. Әрбір AI жеке-жеке жалаушаны түсіру үшін шамамен 450 мың ойын ойнады, бұл шамамен төрт жылдық ойын тәжірибесіне тең.

Толық дайындалған FTW агенттері кез келген картаға, командалар тізіміне және команда өлшеміне ортақ стратегияларды қолдануды үйренді. Олар командаластарының соңынан еру, жау базасында лагерь құру және өз базасын шабуылдаушылардан қорғау сияқты адам мінез-құлықтарын үйренді және олар одақтасты тым жақын бақылау сияқты пайдалы емес үлгілерді бірте-бірте жоғалтты.

Сонымен, қандай нәтижелерге қол жеткізілді? Адамдар мен агенттер кездейсоқ түрде бірге және бір-біріне қарсы ойнаған 40 адамдық турнирде FTW агенттері адам ойыншыларының жеңіс жылдамдығынан айтарлықтай асып түсті. Жеңіске жету ықтималдығы болып табылатын AI-ның Elo рейтингі «күшті» адам ойыншылары үшін 1600 және «орташа» адам ойыншылары үшін 1300-мен салыстырғанда 1050 болды.

DeepMind AI шеберлері командасы III Quake ойынында адамдардан асып түседі

Бұл таңқаларлық емес, өйткені АИ реакция жылдамдығы адамға қарағанда айтарлықтай жоғары, бұл алғашқы эксперименттерде біріншісіне айтарлықтай артықшылық берді. Бірақ 257 миллисекундтық кідірістің арқасында агенттердің дәлдігі төмендеп, реакция уақыты артса да, AI әлі де адамдардан асып түсті. Жетілдірілген және кездейсоқ ойыншылар жалпы ойындардың сәйкесінше 21% және 12% ғана жеңді.

Сонымен қатар, зерттеу жарияланғаннан кейін ғалымдар агенттерді күрделі деңгейдегі архитектурасы бар толыққанды Quake III Arena карталарында және Future Crossings және Ironwood сияқты қосымша нысандарда сынауға шешім қабылдады, мұнда AI сынақ матчтарында адамдарды сәтті сынай бастады. . Зерттеушілер агенттердің нейрондық желіні белсендіру үлгілерін, яғни кіріс ақпарат негізінде нәтижені анықтауға жауапты нейрондардың функцияларын қараған кезде, олар бөлмелерді, жалаушалардың күйін, әріптестер мен қарсыластардың көрінуін көрсететін кластерлерді тапты. қарсыластың базасында агенттердің болуы немесе болмауы немесе командаға негізделген және ойынның басқа маңызды аспектілері. Оқытылған агенттер тіпті туды агент алған кезде немесе одақтас оны ұстап тұрған кездегі сияқты нақты жағдайларды тікелей кодтайтын нейрондарды қамтиды.

«Менің ойымша, бұл көп агенттік командалар өте күшті және біздің зерттеуіміз мұны көрсетеді», - дейді Джадерберг. «Соңғы бірнеше жылда біз жақсырақ және жақсырақ жұмыс істеуді үйреніп жатырмыз - оқытуды күшейту мәселесін шешу жолы». Жақсартылған жаттығулар шынымен де керемет жұмыс істеді ».

Лондон университеттік колледжінің информатика профессоры және DeepMind ғалымы Торе Грейпел олардың жұмысы AI болашағы үшін көп агентті оқытудың әлеуетін көрсетеді деп санайды. Ол сондай-ақ адам мен машинаның өзара әрекеттесуін және бірін-бірі толықтыратын немесе бірге жұмыс істейтін жүйелерді зерттеу үшін негіз бола алады.

«Біздің нәтижелеріміз көрсеткендей, көп агентті күшейтуді оқыту күрделі ойынды сәтті игере алады, тіпті адам ойыншылары компьютер ойыншылары жақсы командалас болады деп сенеді. Зерттеу сонымен қатар оқытылған агенттердің қалай әрекет ететіні мен бірге жұмыс істейтініне өте қызықты терең талдау жасайды, дейді Грапел. «Бұл нәтижелерді соншалықты қызықты ететін нәрсе - бұл агенттер қоршаған ортаны бірінші адамда, яғни адам ойыншысы сияқты қабылдайды. Тактикалық тұрғыда ойнауды және командаластарымен ынтымақтасуды үйрену үшін бұл агенттер не істеу керектігін ешбір мұғалім немесе жаттықтырушы көрсетпестен, ойын нәтижелерінен алынған кері байланысқа сенуге мәжбүр болды ».



Ақпарат көзі: 3dnews.ru

пікір қалдыру