A DeepMind AI Masters csapatjátéka és felülmúlja az embereket a Quake III-ban

A zászló rögzítése egy meglehetősen egyszerű versenymód, amely számos népszerű lövöldözős játékban megtalálható. Minden csapatnak van egy jelzője a tövében, és a cél az, hogy elkapja az ellenfél jelzőjét, és sikeresen hozza magához. Amit azonban az emberek könnyen megértenek, az a gépek számára nem olyan könnyű. A zászló rögzítéséhez a nem játékos karaktereket (botokat) hagyományosan heurisztikák és egyszerű algoritmusok segítségével programozzák, amelyek korlátozott választási szabadságot biztosítanak, és jelentősen alacsonyabbak az embereknél. De a mesterséges intelligencia és a gépi tanulás azt ígéri, hogy teljesen megváltoztatja ezt a helyzetet.

В cikk, amely a héten megjelent a Science folyóiratban, körülbelül egy évvel később előnyomat, valamint a a blogod, az Alphabet londoni leányvállalata, a DeepMind kutatói egy olyan rendszert írnak le, amely nemcsak megtanulja eljátszani a zászló rögzítését az id Software Quake III Arena térképein, hanem teljesen új csapatstratégiákat is kifejleszt, semmivel sem rosszabb, mint egy ember.

A DeepMind AI Masters csapatjátéka és felülmúlja az embereket a Quake III-ban

"Senki sem mondta meg az MI-nek, hogyan játsszák ezt a játékot, csak az eredménye volt - hogy az AI legyőzte-e az ellenfelét vagy sem. Ennek a megközelítésnek az a szépsége, hogy soha nem tudhatod, milyen viselkedés fog megjelenni, amikor ügynököket képezsz” – mondja Max Jaderberg, a DeepMind kutatója, aki korábban az AlphaStar gépi tanulási rendszeren dolgozott (újabban felülmúlta professzionális emberi csapat a StarCraft II-ben). Kifejtette továbbá, hogy új munkájuk kulcsmódszere egyrészt a megerősített tanulás, amely egyfajta jutalmazási rendszer segítségével ösztönzi a szoftverügynököket a kitűzött célok elérésére, és a jutalmazási rendszer attól függetlenül működött, hogy az AI csapat nyert-e vagy sem. , de másodsorban az ügynököket csoportosan képezték ki, ami arra kényszerítette az AI-t, hogy a kezdetektől elsajátítsa a csapat interakcióját.

„Kutatási szempontból ez egy újdonság az algoritmikus megközelítésben, ami igazán izgalmas” – tette hozzá Max. „A mesterséges intelligencia képzésének módja jól mutatja, hogyan lehet skálázni és megvalósítani néhány klasszikus evolúciós ötletet.”

A DeepMind AI Masters csapatjátéka és felülmúlja az embereket a Quake III-ban

A provokatív elnevezéssel For The Win (FTW) a DeepMind ügynökei közvetlenül a képernyő képpontjaiból tanulnak egy konvolúciós neurális hálózat segítségével, amely matematikai függvények (neuronok) halmaza, amelyek az emberi látókéreg alapján modellezett rétegekbe vannak rendezve. A kapott adatokat két hálózatba továbbítják, amelyek több rövid távú memóriával (angolul long short-term memory - LSTM) rendelkeznek, amelyek képesek a hosszú távú függőségek felismerésére. Az egyik gyors reagálási sebességgel kezeli a működési adatokat, míg a másik lassan elemzi és stratégiákat alakít ki. Mindkettő variációs memóriával van társítva, amelyet együtt használnak a játékvilág változásainak előrejelzésére és az emulált játékvezérlőn keresztül történő műveletek végrehajtására.

A DeepMind AI Masters csapatjátéka és felülmúlja az embereket a Quake III-ban

A DeepMind összesen 30 ügynököt képezett ki, csapattársakat és ellenfeleket adott nekik, akikkel játszhattak, és véletlenszerűen kiválasztott játékkártyákat, hogy a mesterséges intelligencia ne emlékezzen rájuk. Minden ügynöknek megvolt a saját jutalomjelzése, amely lehetővé tette számára, hogy saját belső céljait alakítsa ki, például a zászló elfoglalását. Minden mesterséges intelligencia külön-külön körülbelül 450 ezer játékot játszott a zászló elfogásával, ami körülbelül négy év játéktapasztalatnak felel meg.

A teljesen képzett FTW-ügynökök megtanulták alkalmazni a minden térképre, csapatbeosztásra és csapatméretre jellemző stratégiákat. Megtanulták az emberi viselkedést, például a csapattársak követését, az ellenséges bázison való táborozást és a bázisuk megvédését a támadóktól, és fokozatosan elveszítették a kevésbé előnyös mintákat, például a szövetséges túl közelről való megfigyelését.

Tehát milyen eredmények születtek? Egy 40 fős versenyen, ahol az emberek és az ügynökök véletlenszerűen játszottak együtt és egymás ellen is, az FTW ügynökei jelentősen felülmúlták az emberi játékosok győzelmi arányát. A mesterséges intelligencia Elo értékelése, amely a győzelem valószínűsége, 1600 volt, szemben az „erős” emberi játékosok 1300-as értékével és az „átlagos” emberi játékosok 1050-nel.

A DeepMind AI Masters csapatjátéka és felülmúlja az embereket a Quake III-ban

Ez nem meglepő, hiszen a mesterséges intelligencia reakciósebessége lényegesen nagyobb, mint az embereké, ami a kezdeti kísérletekben jelentős előnyt jelentett az előbbinek. De még akkor is, ha az ágensek pontossága csökkent és a reakcióidő megnőtt a beépített 257 milliszekundumos késleltetésnek köszönhetően, az AI még mindig felülmúlta az embereket. A haladó és az alkalmi játékosok az összes játék mindössze 21%-át, illetve 12%-át nyerték meg.

Sőt, a tanulmány közzététele után a tudósok úgy döntöttek, hogy tesztelik az ügynököket teljes értékű Quake III Arena térképeken, komplex szintű architektúrával és további objektumokkal, mint például a Future Crossings és az Ironwood, ahol a mesterséges intelligencia sikeresen kihívta az embereket a tesztmérkőzéseken. . Amikor a kutatók megvizsgálták az ágensek neurális hálózati aktiválási mintázatait, vagyis a bejövő információk alapján a kimenet meghatározásáért felelős neuronok funkcióit, klasztereket találtak, amelyek a szobákat, a zászlók állapotát, a csapattársak és ellenfelek láthatóságát, ill. ügynökök jelenléte vagy hiánya az ellenséges bázison, vagy csapatalapú, és a játékmenet egyéb jelentős aspektusai. A kiképzett ügynökök még olyan neuronokat is tartalmaztak, amelyek közvetlenül kódoltak bizonyos helyzeteket, például amikor egy zászlót elvitt egy ügynök, vagy amikor egy szövetséges tartotta azt.

„Azt hiszem, az egyik szempont, amit meg kell nézni, hogy ezek a többügynökből álló csapatok rendkívül erősek, és ezt a tanulmányunk is bizonyítja” – mondja Jaderberg. „Ez az, amit az elmúlt néhány évben megtanultunk, hogyan lehet egyre jobban és jobban csinálni – hogyan lehet megoldani a megerősített tanulás problémáját.” És a továbbfejlesztett képzés valóban zseniálisan működött.”

Thore Graepel, a University College London számítástechnika professzora és a DeepMind tudósa úgy véli, hogy munkájuk rávilágít a többágens tanulásban rejlő lehetőségekre az AI jövője szempontjából. Alapjául szolgálhat az ember-gép interakció és az egymást kiegészítő vagy együttműködő rendszerek kutatásának is.

„Eredményeink azt mutatják, hogy a több ágenssel végzett megerősítő tanulás sikeresen képes elsajátítani egy összetett játékot olyannyira, hogy az emberi játékosok elhiszik, hogy a számítógépes játékosok jobb csapattársakká válnak. A tanulmány rendkívül érdekes mélyreható elemzést is nyújt arról, hogy a képzett ügynökök hogyan viselkednek és működnek együtt, mondja Grapel. „Az teszi ezeket az eredményeket olyan izgalmassá, hogy ezek az ügynökök első személyben érzékelik környezetüket, [vagyis] éppen úgy, mint egy emberi játékos. Ahhoz, hogy megtanuljanak taktikusan játszani és együttműködni csapattársaikkal, ezeknek az ügynököknek a játék eredményeiből származó visszajelzésekre kellett támaszkodniuk anélkül, hogy tanár vagy edző megmutatta volna nekik, mit kell tenniük."



Forrás: 3dnews.ru

Hozzászólás