DeepMind AI Masters Ekipi luan dhe i kalon njerëzit në Quake III

Capture the flag është një mënyrë mjaft e thjeshtë konkurruese që gjendet në shumë gjuajtës të njohur. Secili ekip ka një shënues të vendosur në bazën e tij, dhe qëllimi është të kapni shënuesin e ekipit kundërshtar dhe ta afroni me sukses atë në vetvete. Megjithatë, ajo që është e lehtë për t'u kuptuar nga njerëzit nuk është aq e lehtë për makinat. Për të kapur flamurin, personazhet (botet) jo-lojtar programohen tradicionalisht duke përdorur heuristika dhe algoritme të thjeshta që ofrojnë liri të kufizuar zgjedhjeje dhe janë dukshëm inferiorë ndaj njerëzve. Por inteligjenca artificiale dhe mësimi i makinerive premtojnë ta ndryshojnë plotësisht këtë situatë.

В artikull, botuar këtë javë në revistën Science rreth një vit më pas paraprintim, dhe kështu me radhë blogun tuaj, hulumtuesit nga DeepMind, një filial i Alphabet me bazë në Londër, përshkruajnë një sistem që jo vetëm mund të mësojë të luajë kapjen e flamurit në hartat Quake III Arena të id Software, por gjithashtu të zhvillojë strategji krejtësisht të reja ekipore, në asnjë mënyrë inferiore se njeriu.

DeepMind AI Masters Ekipi luan dhe i kalon njerëzit në Quake III

“Askush nuk i tha AI-së se si ta luante këtë lojë, ajo kishte vetëm rezultatin - nëse AI mundi kundërshtarin e saj apo jo. E bukura e përdorimit të kësaj qasjeje është se ju kurrë nuk e dini se çfarë sjellje do të shfaqet kur të trajnoni agjentët, "thotë Max Jaderberg, një shkencëtar hulumtues në DeepMind i cili më parë ka punuar në sistemin e mësimit të makinerive AlphaStar (kohët e fundit tejkaluar ekipi njerëzor i profesionistëve në StarCraft II). Më tej ai shpjegoi se metoda kryesore e punës së tyre të re është, së pari, mësimi i përforcuar, i cili përdor një lloj sistemi shpërblimi për të shtyrë agjentët e softuerit për të arritur qëllimet e përcaktuara, dhe sistemi i shpërblimit funksionoi pavarësisht nëse ekipi i AI fitoi apo jo. , por së dyti, agjentët u trajnuan në grupe, gjë që e detyroi AI të zotëronte ndërveprimin e ekipit që në fillim.

“Nga pikëpamja kërkimore, kjo është një risi për një qasje algoritmike që është vërtet emocionuese,” shtoi Max. "Mënyra se si ne trajnuam AI tonë tregon mirë se si të shkallëzojmë dhe zbatojmë disa ide klasike evolucionare."

DeepMind AI Masters Ekipi luan dhe i kalon njerëzit në Quake III

I quajtur në mënyrë provokative For The Win (FTW), agjentët e DeepMind mësojnë drejtpërdrejt nga pikselat e ekranit duke përdorur një rrjet nervor konvolucionist, një grup funksionesh matematikore (neurone) të rregulluar në shtresa të modeluara sipas korteksit vizual të njeriut. Të dhënat e marra transmetohen në dy rrjete me memorie të shumëfishtë afatshkurtër (anglisht memorie afatshkurtër e gjatë - LSTM), e aftë për të njohur varësitë afatgjata. Njëri prej tyre menaxhon të dhënat operacionale me një shpejtësi të shpejtë reagimi, ndërsa tjetri punon ngadalë për të analizuar dhe formuluar strategji. Të dyja janë të lidhura me kujtesën variacionale, të cilën e përdorin së bashku për të parashikuar ndryshimet në botën e lojës dhe për të kryer veprime përmes kontrolluesit të emuluar të lojës.

DeepMind AI Masters Ekipi luan dhe i kalon njerëzit në Quake III

Në total, DeepMind trajnoi 30 agjentë, u dha atyre një sërë shokësh dhe kundërshtarësh për të luajtur, dhe kartat e lojës të zgjedhura rastësisht për të parandaluar që AI t'i kujtonte ato. Secili agjent kishte sinjalin e vet të shpërblimit, duke e lejuar atë të krijonte qëllimet e veta të brendshme, të tilla si kapja e flamurit. Çdo inteligjencë artificiale ka luajtur individualisht rreth 450 mijë lojëra të kapjes së flamurit, që është e barabartë me rreth katër vjet përvojë lojërash.

Agjentët FTW të trajnuar plotësisht kanë mësuar të aplikojnë strategji të zakonshme për çdo hartë, listën e ekipit dhe madhësinë e ekipit. Ata mësuan sjellje njerëzore si ndjekja e shokëve të skuadrës, kampingu në një bazë armike dhe mbrojtja e bazës së tyre nga sulmuesit, dhe gradualisht humbën modele më pak të dobishme, të tilla si shikimi i një aleati nga shumë afër.

Pra, çfarë rezultatesh u arrit? Në një turne me 40 persona, në të cilin njerëzit dhe agjentët luajtën në mënyrë të rastësishme si së bashku ashtu edhe kundër njëri-tjetrit, agjentët e FTW ia kaluan ndjeshëm shkallën e fitimit të lojtarëve njerëzorë. Vlerësimi Elo i AI, që është probabiliteti për të fituar, ishte 1600, krahasuar me 1300 për lojtarët njerëzorë "të fortë" dhe 1050 për lojtarin "mesatar" njerëzor.

DeepMind AI Masters Ekipi luan dhe i kalon njerëzit në Quake III

Kjo nuk është për t'u habitur, pasi shpejtësia e reagimit të AI është dukshëm më e lartë se ajo e një njeriu, gjë që i dha të parës një avantazh të rëndësishëm në eksperimentet fillestare. Por edhe kur saktësia e agjentëve u zvogëlua dhe koha e reagimit u rrit falë vonesës së integruar prej 257 milisekondash, AI gjithsesi ia kalonte njerëzit. Lojtarët e avancuar dhe të rastësishëm fituan respektivisht vetëm 21% dhe 12% të totalit të lojërave.

Për më tepër, pas publikimit të studimit, shkencëtarët vendosën të testojnë agjentët në hartat e plota Quake III Arena me arkitekturë të nivelit kompleks dhe objekte shtesë, të tilla si Future Crossings dhe Ironwood, ku AI filloi të sfidonte me sukses njerëzit në ndeshjet testuese. . Kur studiuesit shikuan modelet e aktivizimit të rrjetit nervor të agjentëve, domethënë funksionet e neuroneve përgjegjëse për përcaktimin e rezultatit bazuar në informacionin në hyrje, ata gjetën grupe që përfaqësonin dhomat, gjendjen e flamujve, dukshmërinë e shokëve të skuadrës dhe kundërshtarëve, dhe prania ose mungesa e agjentëve në bazën e armikut ose të bazuar në ekip dhe aspekte të tjera të rëndësishme të lojës. Agjentët e trajnuar madje përmbanin neurone që kodonin drejtpërdrejt situata specifike, të tilla si kur një flamur merrej nga një agjent ose kur një aleat e mbante atë.

"Unë mendoj se një nga gjërat që duhet parë është se këto ekipe me shumë agjentë janë jashtëzakonisht të fuqishëm dhe studimi ynë e tregon këtë," thotë Jaderberg. "Kjo është ajo që ne kemi mësuar të bëjmë gjithnjë e më mirë gjatë viteve të fundit - si ta zgjidhim problemin e të mësuarit përforcues." Dhe trajnimi i zgjeruar me të vërtetë funksionoi shkëlqyeshëm.”

Thore Graepel, profesor i shkencave kompjuterike në University College London dhe një shkencëtar i DeepMind, beson se puna e tyre thekson potencialin e të mësuarit me shumë agjentë për të ardhmen e AI. Mund të shërbejë gjithashtu si bazë për kërkime mbi ndërveprimin njeri-makinë dhe sistemet që plotësojnë njëri-tjetrin ose punojnë së bashku.

“Rezultatet tona tregojnë se të mësuarit përforcues me shumë agjentë mund të zotërojë me sukses një lojë komplekse deri në atë pikë sa që lojtarët njerëz madje arrijnë të besojnë se lojtarët e kompjuterave bëjnë shokë më të mirë të skuadrës. Studimi gjithashtu ofron një analizë jashtëzakonisht interesante të thellë se si agjentët e trajnuar sillen dhe punojnë së bashku, thotë Grapel. “Ajo që i bën këto rezultate kaq emocionuese është se këta agjentë e perceptojnë mjedisin e tyre në vetën e parë, [që është] njësoj si një lojtar njerëzor. Për të mësuar se si të luanin taktikisht dhe të bashkëpunonin me shokët e tyre të skuadrës, këta agjentë duhej të mbështeteshin në reagimet nga rezultatet e lojës, pa asnjë mësues apo trajner që t'u tregonte se çfarë të bënin."



Burimi: 3dnews.ru

Shto një koment