OpenAI bekinmachoq o‘yinida sun’iy intellektni jamoaviy ishlashga o‘rgatadi

Yaxshi eski uslubdagi bekinmachoq o'yini sun'iy intellekt (AI) botlari uchun ular qanday qaror qabul qilishlarini va bir-birlari va ularning atrofidagi turli xil ob'ektlar bilan qanday munosabatda bo'lishlarini namoyish qilish uchun ajoyib sinov bo'lishi mumkin.

Uning ichida yangi maqola, mashhur bo'lgan sun'iy intellekt bo'yicha notijorat tadqiqot tashkiloti OpenAI tadqiqotchilari tomonidan nashr etilgan. jahon chempionlari ustidan g'alaba Dota 2 kompyuter o'yinida olimlar sun'iy intellekt tomonidan boshqariladigan agentlar virtual muhitda bir-birlarini qidirish va yashirishda yanada murakkabroq bo'lishga o'rgatilganini tasvirlaydilar. Tadqiqot natijalari shuni ko'rsatdiki, ikkita botdan iborat jamoa ittifoqchilarsiz har qanday agentga qaraganda samaraliroq va tezroq o'rganadi.

OpenAI bekinmachoq o‘yinida sun’iy intellektni jamoaviy ishlashga o‘rgatadi

Olimlar uzoq vaqtdan beri shuhrat qozongan usuldan foydalanganlar mustahkamlash bilan mashinani o'rganish, unda sun'iy intellekt o'ziga noma'lum muhitga joylashtiriladi, bunda u bilan o'zaro munosabatlarning muayyan usullari, shuningdek, uning harakatlarining u yoki bu natijalari uchun mukofot va jarimalar tizimi mavjud. Ushbu usul sun'iy intellektning virtual muhitda odam tasavvur qilganidan millionlab marta tezroq turli harakatlarni amalga oshirish qobiliyati tufayli juda samarali. Bu ma'lum bir muammoni hal qilish uchun eng samarali strategiyalarni sinab ko'rish va xato qilish imkonini beradi. Ammo bu yondashuv ham ba'zi cheklovlarga ega, masalan, muhit yaratish va ko'plab o'quv tsikllarini o'tkazish katta hisoblash resurslarini talab qiladi va jarayonning o'zi AI harakatlari natijalarini o'z maqsadi bilan taqqoslash uchun aniq tizimni talab qiladi. Bundan tashqari, agent tomonidan shu tarzda olingan ko'nikmalar tasvirlangan vazifa bilan chegaralanadi va AI buni engishni o'rgansa, boshqa yaxshilanishlar bo'lmaydi.

Olimlar sun'iy intellektni bekinmachoq o'ynashga o'rgatish uchun "Yo'naltirilmagan qidiruv" deb nomlangan yondashuvdan foydalanganlar, bunda agentlar o'yin dunyosi haqidagi tushunchalarini rivojlantirish va g'alaba qozonish strategiyalarini ishlab chiqish uchun to'liq erkinlikka ega edilar. Bu DeepMind tadqiqotchilari bir nechta sun'iy intellekt tizimlarida qo'llagan ko'p agentli o'rganish yondashuviga o'xshaydi. Quake III Arenada bayroqni tortib olish rejimini o'ynashga o'rgatilgan. Bu holatda bo'lgani kabi, AI agentlari ilgari o'yin qoidalariga o'rgatilmagan, ammo vaqt o'tishi bilan ular asosiy strategiyalarni o'rganishgan va hatto tadqiqotchilarni ahamiyatsiz echimlar bilan hayratda qoldirishga muvaffaq bo'lishgan.

Bekinmachoq o'yinida, ishi yashiringan bir nechta agentlar qidiruv agentlari guruhi harakatsiz qolganda, biroz boshdan keyin raqiblarini ko'rish chizig'idan qochishlari kerak edi. Bundan tashqari, bu kontekstda "ko'rish chizig'i" individual bot oldida 135 daraja konusdir. Agentlar o'yin maydonidan juda uzoqqa chiqa olmadilar va tasodifiy yaratilgan xonalarni aylanib o'tishga majbur bo'lishdi va atrofga sochilgan ba'zi tashqi ob'ektlardan (qutilar, harakatlanuvchi devorlar, maxsus rampalar) foydalanish imkoniyatiga ega bo'lishdi, ular ham qopqoq yaratish, ham ularga infiltratsiya qilish uchun ishlatilishi mumkin edi. .

OpenAI bekinmachoq o‘yinida sun’iy intellektni jamoaviy ishlashga o‘rgatadi

Uzoq davom etgan o'quv jarayoni orqali AI agentlari oltita noyob strategiyani o'rgandilar, ularning har biri ularga o'yinning keyingi bosqichiga o'tishga yordam berdi. Avvaliga izlovchi va yashiruvchi guruhlar shunchaki qochib ketishdi va bir-birlarini quvishdi, ammo 25 millionga yaqin o'yindan so'ng yashiringan guruh qutilar bilan o'tish joylarini to'sib, ulardan boshpana qurishni o'rgandi. Yana 75 million o'yindan so'ng, jamoa bu yashirinish joylariga kirish uchun rampalardan foydalanish yo'llarini topdi. Yana 10 million raunddan so'ng, yashirinuvchilar rampalarni o'yin maydonining chetiga tortib, raqiblar ulardan foydalanishiga yo'l qo'ymaslik uchun ularni joyida qulflashni o'rgandilar.

OpenAI bekinmachoq o‘yinida sun’iy intellektni jamoaviy ishlashga o‘rgatadi

388 million gugurtdan so'ng, qidiruvchilar o'zlariga olib kelingan sandiqlarga chiqish uchun blokirovka qilingan rampalardan foydalanishni o'rgandilar, so'ngra to'g'ridan-to'g'ri ularga o'tib, ko'chma devorlardan yaratilgan dushman yashirinish joylariga kirib borishdi. Va nihoyat, 458 million o'yindan so'ng, yashiringan jamoa ular barcha ob'ektlarni to'sib qo'yishlari va keyin boshpana qurishlari kerak degan xulosaga kelishdi va bu ularning yakuniy g'alabasiga olib keldi.

Eng ta'sirli tomoni shundaki, 22 million o'yindan so'ng agentlar o'z harakatlarini muvofiqlashtirishni o'rgandilar va ularning hamkorlik samaradorligi kelajakda oshadi, masalan, har biri boshpana yaratish uchun o'z qutisini yoki devorini olib keldi va ob'ektlarning o'z ulushini tanladi. blokirovka qilish, qiyin o'yinni raqiblarga qiyinlashtirish.

OpenAI bekinmachoq o‘yinida sun’iy intellektni jamoaviy ishlashga o‘rgatadi

Olimlar, shuningdek, o'quv ob'ektlari sonining (neyron tarmog'i orqali o'tadigan ma'lumotlar miqdori - "Paket hajmi") o'rganish tezligiga ta'siri bilan bog'liq muhim nuqtani ta'kidladilar. Yashirin jamoa rampalarni to'sib qo'yishni o'rgangan nuqtaga erishish uchun standart model 132,3 soat davomida 34 million o'yinni talab qildi, ko'proq ma'lumotlar esa mashg'ulot vaqtini sezilarli darajada qisqartirishga olib keldi. Misol uchun, parametrlar sonini (butun o'quv jarayonida olingan ma'lumotlarning bir qismi) 0,5 milliondan 5,8 milliongacha oshirish namuna olish samaradorligini 2,2 barobarga oshirdi va kiritilgan ma'lumotlar hajmini 64 KB dan 128 KB ga oshirish o'qitishni qisqartirdi. vaqt deyarli bir yarim marta.

OpenAI bekinmachoq o‘yinida sun’iy intellektni jamoaviy ishlashga o‘rgatadi

O'z ishining oxirida tadqiqotchilar o'yin ichidagi mashg'ulotlar agentlarga o'yindan tashqari shunga o'xshash vazifalarni engishga qanchalik yordam berishi mumkinligini sinab ko'rishga qaror qilishdi. Hammasi bo'lib beshta test o'tkazildi: ob'ektlar sonidan xabardorlik (ob'ekt ko'zdan uzoqda bo'lsa va foydalanilmasa ham mavjud bo'lishini tushunish); "qulflash va qaytarish" - o'zining asl holatini eslab qolish va qo'shimcha topshiriqni bajargandan so'ng unga qaytish qobiliyati; "ketma-ket blokirovka qilish" - 4 ta quti tasodifiy uchta eshiksiz xonada joylashgan edi, lekin ichkariga kirish uchun rampalar bor, agentlar ularning barchasini topib, blokirovka qilishlari kerak edi; qutilarni oldindan belgilangan saytlarga joylashtirish; silindr shaklida ob'ekt atrofida boshpana yaratish.

Natijada, beshta topshiriqdan uchtasida o‘yinda dastlabki tayyorgarlikdan o‘tgan botlar muammolarni noldan yechishga o‘rgatilgan sun’iy intellektga qaraganda tezroq o‘rgandi va yaxshi natijalar ko‘rsatdi. Ular topshiriqni bajarish va boshlang'ich pozitsiyasiga qaytish, yopiq xonalarda qutilarni ketma-ket to'sib qo'yish va berilgan maydonlarga qutilarni joylashtirishda biroz yaxshiroq ishladilar, lekin ob'ektlar sonini tanib olish va boshqa ob'ekt atrofida qopqoq yaratishda biroz zaifroq ishladilar.

Tadqiqotchilar aralash natijalarni AI qanday o'rganishi va ma'lum ko'nikmalarni eslab qolishiga bog'laydi. "Biz o'ylaymizki, o'yindan oldingi mashg'ulotlar eng yaxshi bajarilgan vazifalar ilgari o'rganilgan ko'nikmalarni tanish usulda qayta ishlatishni o'z ichiga oladi, qolgan vazifalarni noldan o'rgatilgan AIga qaraganda yaxshiroq bajarish ularni boshqacha tarzda qo'llashni talab qiladi. qiyinroq”, deb yozadi asar hammualliflari. "Ushbu natija o'qitish orqali olingan ko'nikmalarni bir muhitdan boshqasiga o'tkazishda ularni samarali qayta ishlatish usullarini ishlab chiqish zarurligini ta'kidlaydi."

Bajarilgan ish haqiqatan ham ta'sirli, chunki ushbu o'qitish usulidan foydalanish istiqbollari har qanday o'yin chegarasidan ancha uzoqdir. Tadqiqotchilarning ta'kidlashicha, ularning ishi kasalliklarga tashxis qo'yish, murakkab oqsil molekulalarining tuzilishini bashorat qilish va kompyuter tomografiyasini tahlil qilish imkonini beradigan "fizikaga asoslangan" va "odamga o'xshash" xatti-harakatlarga ega sun'iy intellekt yaratish yo'lidagi muhim qadamdir.

Quyidagi videoda siz butun o'quv jarayoni qanday kechganini, AI qanday qilib jamoaviy ishlashni o'rganganini va uning strategiyalari tobora ayyor va murakkab bo'lib qolganini aniq ko'rishingiz mumkin.



Manba: 3dnews.ru

a Izoh qo'shish