DeepMind AI Masters jamoasi Quake IIIda o'ynaydi va odamlardan ustundir

Bayroqni qo'lga olish - bu ko'plab mashhur otishmalarda mavjud bo'lgan juda oddiy raqobat rejimi. Har bir jamoa o'z bazasida joylashgan markerga ega va maqsad raqib jamoaning markerini qo'lga kiritish va uni muvaffaqiyatli o'ziga etkazishdir. Biroq, odamlar uchun tushunish oson bo'lgan narsa mashinalar uchun unchalik oson emas. Bayroqni qo'lga olish uchun o'yinchi bo'lmagan belgilar (botlar) an'anaviy ravishda cheklangan tanlov erkinligini ta'minlaydigan va odamlardan sezilarli darajada past bo'lgan evristik va oddiy algoritmlar yordamida dasturlashtiriladi. Ammo sun'iy intellekt va mashinani o'rganish bu vaziyatni butunlay o'zgartirishga va'da beradi.

В maqola, bu hafta Science jurnalida taxminan bir yil o'tgach nashr etilgan oldindan chop etish, shuningdek sizning blogingiz, Alphabet kompaniyasining Londondagi sho''ba korxonasi DeepMind tadqiqotchilari nafaqat id Software kompaniyasining Quake III Arena xaritalarida bayroqni tortib olish o'ynashni o'rganishi, balki insondan kam bo'lmagan mutlaqo yangi jamoa strategiyalarini ishlab chiqishi mumkin bo'lgan tizimni tasvirlaydi.

DeepMind AI Masters jamoasi Quake IIIda o'ynaydi va odamlardan ustundir

“Hech kim sunʼiy intellektga bu oʻyinni qanday oʻynashni aytmagan, u faqat natijaga ega boʻldi – AI raqibni magʻlub etdimi yoki yoʻqmi. Ushbu yondashuvni qo'llashning go'zalligi shundaki, siz agentlarni o'qitganingizda qanday xatti-harakatlar paydo bo'lishini hech qachon bilmaysiz ", deydi Maks Jaderberg, DeepMind tadqiqotchisi, ilgari AlphaStar (yaqinda) mashinani o'rganish tizimida ishlagan. oshib ketdi StarCraft II dagi professionallar jamoasi). Bundan tashqari, u ularning yangi ishining asosiy usuli, birinchi navbatda, dasturiy ta'minot agentlarini belgilangan maqsadlarga erishishga undash uchun mukofot tizimidan foydalanadigan mustahkamlangan o'rganish ekanligini va mukofot tizimi AI jamoasi g'alaba qozonganmi yoki yo'qligidan qat'iy nazar ishlaganini tushuntirdi. , lekin ikkinchidan, agentlar guruhlarga bo'lingan holda o'qitildi, bu esa AIni boshidanoq jamoaviy o'zaro munosabatlarni o'zlashtirishga majbur qildi.

"Tadqiqot nuqtai nazaridan, bu haqiqatan ham hayajonli bo'lgan algoritmik yondashuv uchun yangilik", - deya qo'shimcha qildi Maks. "Bizning sun'iy intellektimizni o'rgatganimiz klassik evolyutsion g'oyalarni qanday kengaytirish va amalga oshirishni yaxshi ko'rsatmoqda."

DeepMind AI Masters jamoasi Quake IIIda o'ynaydi va odamlardan ustundir

DeepMind agentlari provokatsion ravishda "For The Win" (FTW) nomini olgan holda, konvolyutsion neyron tarmog'i, inson ko'rish korteksi asosida modellashtirilgan qatlamlarda joylashtirilgan matematik funktsiyalar to'plami (neyronlar) yordamida to'g'ridan-to'g'ri ekran piksellaridan o'rganishadi. Qabul qilingan ma'lumotlar bir nechta qisqa muddatli xotiraga ega bo'lgan ikkita tarmoqqa uzatiladi (inglizcha uzoq qisqa muddatli xotira - LSTM), uzoq muddatli bog'liqliklarni taniy oladi. Ulardan biri tezkor javob tezligi bilan tezkor ma'lumotlarni boshqaradi, ikkinchisi esa tahlil qilish va strategiyalarni shakllantirish uchun sekin ishlaydi. Ikkalasi ham o'yin dunyosidagi o'zgarishlarni bashorat qilish va emulyatsiya qilingan o'yin boshqaruvchisi orqali harakatlarni amalga oshirish uchun birgalikda foydalanadigan variatsion xotira bilan bog'liq.

DeepMind AI Masters jamoasi Quake IIIda o'ynaydi va odamlardan ustundir

Hammasi bo'lib, DeepMind 30 ta agentni o'qitdi, ularga o'ynash uchun bir qator jamoadoshlari va raqiblarini berdi va AI ularni eslab qolishining oldini olish uchun tasodifiy tanlangan o'yin kartalarini berdi. Har bir agentning o'ziga xos mukofot signali bor edi, bu unga bayroqni qo'lga kiritish kabi o'zining ichki maqsadlarini yaratishga imkon beradi. Har bir sun'iy intellekt bayroqni qo'lga kiritish uchun 450 mingga yaqin o'yinni o'ynadi, bu taxminan to'rt yillik o'yin tajribasiga teng.

To'liq o'qitilgan FTW agentlari har qanday xarita, jamoalar ro'yxati va jamoa o'lchamiga xos bo'lgan strategiyalarni qo'llashni o'rgandilar. Ular jamoadoshlariga ergashish, dushman bazasida qarorgoh qurish va o'z bazasini hujumchilardan himoya qilish kabi insoniy xatti-harakatlarni o'rgandilar va ular asta-sekin ittifoqchini juda yaqindan kuzatish kabi kamroq foydali naqshlarni yo'qotdilar.

Xo'sh, qanday natijalarga erishildi? Odamlar va agentlar tasodifiy ravishda birgalikda va bir-biriga qarshi o'ynagan 40 kishilik turnirda FTW agentlari inson o'yinchilarining g'alaba qozonish tezligidan sezilarli darajada oshib ketdi. AIning g'alaba qozonish ehtimoli bo'lgan Elo reytingi "kuchli" insonlar uchun 1600 va "o'rtacha" inson o'yinchilari uchun 1300 ga nisbatan 1050 ni tashkil etdi.

DeepMind AI Masters jamoasi Quake IIIda o'ynaydi va odamlardan ustundir

Buning ajablanarli joyi yo'q, chunki sun'iy intellektning reaktsiya tezligi odamnikidan sezilarli darajada yuqori, bu birinchi tajribalarda birinchisiga sezilarli ustunlik berdi. Ammo o'rnatilgan 257 millisekundlik kechikish tufayli agentlarning aniqligi pasaygan va reaktsiya vaqti ko'paygan bo'lsa ham, AI hali ham odamlardan ustun keldi. Ilg'or va tasodifiy o'yinchilar umumiy o'yinlarning mos ravishda atigi 21% va 12% g'alaba qozonishdi.

Bundan tashqari, tadqiqot nashr etilgandan so'ng, olimlar agentlarni murakkab darajadagi arxitektura va Future Crossings va Ironwood kabi qo'shimcha ob'ektlarga ega bo'lgan to'liq huquqli Quake III Arena xaritalarida sinab ko'rishga qaror qilishdi, bu erda AI sinov o'yinlarida odamlarni muvaffaqiyatli sinovdan o'tkaza boshladi. . Tadqiqotchilar agentlarning neyron tarmog'ini faollashtirish naqshlarini, ya'ni kiruvchi ma'lumotlarga asoslanib chiqishni aniqlash uchun mas'ul bo'lgan neyronlarning funktsiyalarini ko'rib chiqqach, ular xonalarni, bayroqlarning holatini, jamoadoshlar va raqiblarning ko'rinishini ifodalovchi klasterlarni topdilar. dushman bazasida agentlarning mavjudligi yoki yo'qligi. yoki jamoaga asoslangan va o'yinning boshqa muhim jihatlari. O'qitilgan agentlar hatto bayroqni agent tomonidan olib qo'yilgan yoki ittifoqchi uni ushlab turgan paytdagi kabi aniq vaziyatlarni to'g'ridan-to'g'ri kodlaydigan neyronlarni o'z ichiga olgan.

"Menimcha, diqqat qilish kerak bo'lgan narsalardan biri shundaki, bu ko'p agentli jamoalar juda kuchli va bizning tadqiqotimiz buni ko'rsatmoqda", deydi Jaderberg. "Mana biz so'nggi bir necha yil ichida yaxshiroq va yaxshiroq qilishni o'rgandik - ta'limni mustahkamlash muammosini qanday hal qilish kerak." Va kuchaytirilgan mashg'ulotlar haqiqatan ham ajoyib ishladi."

London Universitet kolleji kompyuter fanlari professori va DeepMind olimi Tore Grepel ularning ishi AI kelajagi uchun ko'p agentli o'rganish imkoniyatlarini ta'kidlaydi, deb hisoblaydi. Shuningdek, u inson va mashinaning o'zaro ta'siri va bir-birini to'ldiradigan yoki birgalikda ishlaydigan tizimlarni tadqiq qilish uchun asos bo'lib xizmat qilishi mumkin.

"Bizning natijalarimiz shuni ko'rsatadiki, ko'p agentli mustahkamlashni o'rganish murakkab o'yinni muvaffaqiyatli o'zlashtirishi mumkin, shunda inson o'yinchilari kompyuter o'yinchilari yaxshiroq jamoadosh bo'lishiga ishonishadi. Tadqiqot shuningdek, o'qitilgan agentlarning o'zini qanday tutishi va birgalikda ishlashini juda qiziqarli chuqur tahlil qiladi, deydi Grapel. “Bu natijalarni hayajonli qiladigan narsa shundaki, bu agentlar o'z muhitini birinchi shaxsda, ya'ni xuddi inson o'yinchisi kabi idrok etadilar. Qanday qilib taktik o'ynashni va jamoadoshlari bilan hamkorlik qilishni o'rganish uchun bu agentlar o'yin natijalaridan olingan fikr-mulohazalarga tayanishi kerak edi, hech qanday o'qituvchi yoki murabbiy ularga nima qilish kerakligini ko'rsatmaydi."



Manba: 3dnews.ru

a Izoh qo'shish