DeepMind AI Masters Team Play ja päihittää ihmiset Quake III:ssa

Capture the flag on melko yksinkertainen kilpailutila, joka löytyy monista suosituista ammuntapeleistä. Jokaisen joukkueen pohjassa on merkki, jonka tavoitteena on vangita vastustajan joukkueen merkki ja tuoda se onnistuneesti itselleen. Se, mikä ihmisten on helppo ymmärtää, ei kuitenkaan ole niin helppoa koneille. Lipun kaappaamiseksi muut kuin pelaajahahmot (botit) ohjelmoidaan perinteisesti käyttämällä heuristiikkaa ja yksinkertaisia ​​algoritmeja, jotka tarjoavat rajoitetun valinnanvapauden ja ovat huomattavasti huonompia kuin ihmiset. Mutta tekoäly ja koneoppiminen lupaavat muuttaa tilanteen täysin.

В статье, julkaistu tällä viikolla Science-lehdessä noin vuoden kuluttua esipainettu, samoin kuin blogiisiAlfabetin Lontoossa toimivan tytäryhtiön DeepMindin tutkijat kuvailevat järjestelmää, joka ei voi vain oppia leikkaamaan lippua id Softwaren Quake III Arena -kartoilla, vaan myös kehittää täysin uusia tiimistrategioita, jotka eivät ole millään tavalla huonompia kuin ihminen.

DeepMind AI Masters Team Play ja päihittää ihmiset Quake III:ssa

"Kukaan ei kertonut tekoälylle, kuinka tätä peliä pelataan, sillä oli vain tulos - voittiko tekoäly vastustajansa vai ei. Tämän lähestymistavan käytön kauneus on, että et koskaan tiedä, millaista käyttäytymistä ilmenee, kun koulutat agentteja”, sanoo Max Jaderberg, DeepMindin tutkija, joka työskenteli aiemmin koneoppimisjärjestelmän AlphaStar parissa (äskettäin ylitetty StarCraft II:n ammattilaisten tiimi). Hän selitti edelleen, että heidän uuden työnsä keskeinen menetelmä on ensinnäkin vahvistettu oppiminen, joka käyttää eräänlaista palkitsemisjärjestelmää työntämään ohjelmistoagentteja saavuttamaan asetettuja tavoitteita, ja palkitsemisjärjestelmä toimi riippumatta siitä, voittiko tekoälytiimi vai ei. , mutta toiseksi agentit koulutettiin ryhmissä, mikä pakotti tekoälyn hallitsemaan tiimivuorovaikutusta alusta alkaen.

"Tutkimuksen näkökulmasta tämä on uutuus algoritmiselle lähestymistavalle, joka on todella jännittävä", Max lisäsi. "Tapa, jolla koulutimme tekoälyämme, osoittaa hyvin, kuinka klassisia evolutionaarisia ideoita voidaan skaalata ja toteuttaa."

DeepMind AI Masters Team Play ja päihittää ihmiset Quake III:ssa

Provokatiivisesti nimetty For The Win (FTW) DeepMindin agentit oppivat suoraan näytön pikseleistä käyttämällä konvoluutiohermoverkkoa, matemaattisten funktioiden (neuronien) joukkoa, jotka on järjestetty kerroksiin, jotka on mallinnettu ihmisen näkökuoren mukaan. Vastaanotetut tiedot lähetetään kahteen verkkoon, joissa on useita lyhytaikaisia ​​​​muistia (englanniksi long short-term memory - LSTM), jotka pystyvät tunnistamaan pitkäaikaiset riippuvuudet. Toinen niistä hallitsee operatiivista dataa nopealla vastenopeudella, kun taas toinen työskentelee hitaasti analysoidakseen ja muotoillakseen strategioita. Molemmat liittyvät variaatiomuistiin, jota ne käyttävät yhdessä ennustamaan muutoksia pelimaailmassa ja suorittamaan toimintoja emuloidun peliohjaimen kautta.

DeepMind AI Masters Team Play ja päihittää ihmiset Quake III:ssa

Yhteensä DeepMind koulutti 30 agenttia, antoi heille erilaisia ​​joukkuetovereita ja vastustajia, joiden kanssa pelata, ja satunnaisesti valittuja pelikortteja estääkseen tekoälyä muistamasta niitä. Jokaisella agentilla oli oma palkkiosignaali, jonka ansiosta se pystyi luomaan omat sisäiset tavoitteensa, kuten lipun kaappauksen. Jokainen tekoäly pelasi erikseen noin 450 XNUMX lippupeliä, mikä vastaa noin neljän vuoden pelikokemusta.

Täysin koulutetut FTW-agentit ovat oppineet soveltamaan strategioita, jotka ovat yhteisiä kaikille kartalle, joukkueluetteloon ja tiimikokoon. He oppivat ihmisten käyttäytymistä, kuten joukkuetovereiden seuraamista, leiriytymistä vihollistukikohdassa ja tukikohdan puolustamista hyökkääjiltä, ​​ja he menettivät vähitellen vähemmän hyödyllisiä malleja, kuten liittolaisen tarkkailemisen liian tarkasti.

Mitä tuloksia sitten saavutettiin? 40 hengen turnauksessa, jossa ihmiset ja agentit pelasivat satunnaisesti sekä yhdessä että toisiaan vastaan, FTW-agentit ylittivät merkittävästi ihmispelaajien voittoprosentin. Tekoälyn Elo-luokitus, joka on voiton todennäköisyys, oli 1600 verrattuna "vahvojen" ihmispelaajien 1300:een ja "keskimääräiseen" ihmispelaajaan 1050:een.

DeepMind AI Masters Team Play ja päihittää ihmiset Quake III:ssa

Tämä ei ole yllättävää, koska tekoälyn reaktionopeus on huomattavasti suurempi kuin ihmisen, mikä antoi ensimmäiselle merkittävän edun alkukokeissa. Mutta vaikka agenttien tarkkuus pieneni ja reaktioaika kasvoi sisäänrakennetun 257 millisekunnin latenssin ansiosta, tekoäly suoritti silti ihmisiä. Edistyneet pelaajat voittivat vain 21 % ja satunnaiset pelaajat 12 % kaikista peleistä.

Lisäksi tutkimuksen julkaisemisen jälkeen tutkijat päättivät testata aineita täysimittaisilla Quake III Arena -kartoilla, joissa oli monimutkainen arkkitehtuuri ja lisäobjekteja, kuten Future Crossings ja Ironwood, joissa tekoäly alkoi menestyksekkäästi haastaa ihmisiä testiotteluissa. . Kun tutkijat tarkastelivat tekijöiden hermoverkkojen aktivointikuvioita, eli niiden neuronien toimintoja, jotka ovat vastuussa tuotoksen määrittämisestä saapuvan tiedon perusteella, he löysivät klustereita, jotka edustavat huoneita, lippujen tilaa, joukkuetovereiden ja vastustajien näkyvyyttä sekä agenttien läsnäolo tai puuttuminen vihollistukikohdassa tai joukkuepohjainen ja muut pelin tärkeät näkökohdat. Koulutetut agentit sisälsivät jopa neuroneja, jotka koodasivat suoraan tiettyjä tilanteita, kuten silloin, kun agentti otti lipun tai kun liittolainen piti sitä.

"Luulen, että yksi tarkasteltava asia on, että nämä monen agentin tiimit ovat erittäin tehokkaita, ja tutkimuksemme osoittaa sen", Jaderberg sanoo. "Se on se, mitä olemme oppineet tekemään paremmin ja paremmin viime vuosien aikana - kuinka ratkaista vahvistusoppimisen ongelma." Ja tehostettu koulutus toimi todella loistavasti.”

Thore Graepel, University College Londonin tietojenkäsittelytieteen professori ja DeepMind-tutkija, uskoo, että heidän työnsä korostaa moniagentteisen oppimisen mahdollisuuksia tekoälyn tulevaisuudelle. Se voi myös toimia pohjana tutkimukselle ihmisen ja koneen vuorovaikutuksesta ja toisiaan täydentävistä tai yhdessä toimivista järjestelmistä.

”Tuloksemme osoittavat, että monen agentin vahvistusoppiminen voi onnistua hallitsemaan monimutkaisen pelin siinä määrin, että ihmispelaajat jopa uskovat tietokonepelaajien olevan parempia joukkuekavereita. Tutkimus tarjoaa myös erittäin mielenkiintoisen syvällisen analyysin siitä, kuinka koulutetut agentit käyttäytyvät ja työskentelevät yhdessä, Grapel sanoo. "Mikä tekee näistä tuloksista niin jännittäviä, että nämä agentit näkevät ympäristönsä ensimmäisessä persoonassa, [eli] aivan kuten ihmispelaaja. Oppiakseen pelaamaan taktisesti ja tekemään yhteistyötä joukkuetovereidensa kanssa, näiden agenttien oli turvauduttava pelin tuloksista saatuun palautteeseen ilman, että opettaja tai valmentaja olisi näyttänyt heille, mitä tehdä."



Lähde: 3dnews.ru

Lisää kommentti