🥇Az OpenAI mesterséges intelligencia csapatmunkára tanít a bújócska játékában

Egy jó, régimódi bújócska remek próbatétel lehet a mesterséges intelligencia (AI) robotok számára, hogy bemutassák, hogyan hoznak döntéseket, hogyan lépnek kapcsolatba egymással és a körülöttük lévő különféle tárgyakkal.

az ő új cikk, amelyet a híressé vált OpenAI non-profit mesterséges intelligencia kutató szervezet kutatói adnak ki győzelem a világbajnokok felett a Dota 2 számítógépes játékban a tudósok leírják, hogyan képezték ki a mesterséges intelligencia által irányított ügynököket, hogy kifinomultabban keressenek és rejtőzzenek el egymás elől egy virtuális környezetben. A tanulmány eredményei azt mutatták, hogy egy két botból álló csapat hatékonyabban és gyorsabban tanul, mint bármely szövetséges nélküli ügynök.

A tudósok olyan módszert alkalmaztak, amely már régóta elnyerte hírnevét gépi tanulás megerősítéssel, amelyben a mesterséges intelligencia számára ismeretlen környezetbe kerül, miközben bizonyos interakciós módjai vannak vele, valamint jutalmazási és bírságolási rendszere van cselekvésének egyik vagy másik eredményéért. Ez a módszer meglehetősen hatékony, mivel az AI képes különféle műveleteket végrehajtani egy virtuális környezetben, óriási sebességgel, milliószor gyorsabban, mint azt egy ember el tudja képzelni. Ez lehetővé teszi a próbálkozások és tévedések számára, hogy megtalálják a leghatékonyabb stratégiákat egy adott probléma megoldására. Ennek a megközelítésnek azonban vannak korlátai is, például a környezet létrehozása és a számos képzési ciklus lebonyolítása hatalmas számítási erőforrásokat igényel, maga a folyamat pedig egy pontos rendszert igényel az AI-akciók eredményeinek a céljával való összehasonlítására. Ezenkívül az ügynök által így megszerzett készségek a leírt feladatra korlátozódnak, és amint az AI megtanulja megbirkózni vele, nem lesz további fejlesztés.

A mesterséges intelligencia bújós játékra való betanításához a tudósok az „Undirected exploration” elnevezésű megközelítést alkalmazták, ahol az ügynökök teljes szabadságot élveznek a játék világának megértésében és a nyerési stratégiák kidolgozásában. Ez hasonló ahhoz a többágens tanulási megközelítéshez, amelyet a DeepMind kutatói alkalmaztak több mesterséges intelligencia rendszer esetén arra képezték ki őket, hogy játsszák a zászló rögzítése módot a Quake III Arénában. Ahogy ebben az esetben is, az AI-ügynökök korábban nem voltak kiképezve a játékszabályokra, de idővel megtanulták az alapvető stratégiákat, és még nem triviális megoldásokkal is meg tudták lepni a kutatókat.

A bújócska játékban több ügynöknek, akiknek az volt a feladata, hogy elrejtőzzön, el kellett kerülnie ellenfele látótávolságát, miután enyhe előnyt szereztek, miközben a kutató ügynökök csapata mozgásképtelenné vált. Sőt, a „látóvonal” ebben az összefüggésben egy 135 fokos kúp egy egyedi bot előtt. Az ügynökök nem merészkedhettek túl messzire a játékterületen kívülre, és arra kényszerültek, hogy véletlenszerűen generált szobákban navigáljanak, és néhány olyan külső tárgyat (dobozok, mozgatható falak, speciális rámpák) használhassanak szétszórtan, amelyek fedezék létrehozására és beszivárgásra egyaránt használhatók.

Egy hosszadalmas tanulási folyamat során az AI-ügynökök hat egyedi stratégiát tanultak meg, amelyek mindegyike segítette őket a játék következő szakaszába való eljutásban. Eleinte a kereső és a rejtőzködő csapat egyszerűen elszaladt és üldözte egymást, de körülbelül 25 millió meccs után a rejtőzködő csapat megtanulta, hogy dobozokkal blokkolja az átjárókat, és menedéket építsen belőlük. További 75 millió meccs után a csapat felfedezte, hogyan lehet rámpák segítségével bejutni ezekre a rejtekhelyekre. További 10 millió kör után a rejtőzködők megtanulták rámpákat húzni a játéktér szélére, és a helyükre zárni, hogy az ellenfelek ne használják őket.

A keresők 388 millió meccs után megtanultak blokkolt rámpákkal felmászni a hozzájuk hozott ládákra, majd közvetlenül rájuk haladva behatolnak a hordozható falakból kialakított ellenséges búvóhelyekre. Végül 458 millió meccs után a rejtőzködő csapat arra a következtetésre jutott, hogy minden objektumot blokkolniuk kell, majd menedéket kell építeniük, ami láthatóan a végső győzelmükhöz vezetett.

Ami különösen lenyűgöző, hogy 22 millió meccs után az ügynökök megtanulták összehangolni a cselekvéseiket, és együttműködésük hatékonysága a jövőben csak nőtt, például mindenki vitte a saját dobozát vagy falát, hogy menedéket hozzon létre, és kiválasztotta a maga részét a tárgyakból. blokk, hogy bonyolítsa a nehézségi játékot az ellenfelek számára.

A tudósok megjegyeztek egy fontos pontot is, amely a tanítási objektumok számának (a neurális hálózaton áthaladó adatmennyiség - „Batch Size”) tanulási sebességre gyakorolt hatásával kapcsolatos. Az alapértelmezett modell 132,3 millió mérkőzést igényelt 34 óra edzés alatt, hogy elérje azt a pontot, ahol a rejtőzködő csapat megtanulta blokkolni a rámpákat, míg a több adat az edzési idő észrevehető csökkenését eredményezte. Például a paraméterek számának (a teljes képzési folyamat során nyert adatok egy részének) 0,5 millióról 5,8 millióra növelése 2,2-szeresére növelte a mintavételi hatékonyságot, és a bemeneti adatok méretének 64 KB-ról 128 KB-ra növelése csökkentette a képzést. idő majdnem másfélszer.

Munkájuk végén a kutatók úgy döntöttek, hogy tesztelik, mennyi játékon belüli edzés segíthet az ügynököknek megbirkózni a játékon kívüli hasonló feladatokkal. Összesen öt tesztet végeztek: az objektumok számának tudatosítása (annak megértése, hogy egy objektum akkor is létezik, ha nem látható, és nem használják); „zár és visszatérés” - az a képesség, hogy emlékezzen az eredeti pozícióra, és visszatérjen oda néhány további feladat elvégzése után; „szekvenciális blokkolás” – 4 dobozt véletlenszerűen helyeztek el három ajtó nélkül, de rámpákkal, hogy bejussanak, ügynököknek kellett megtalálniuk és blokkolniuk őket; dobozok elhelyezése előre meghatározott helyeken; menedék létrehozása egy tárgy körül henger formájában.

Ennek eredményeként ötből háromban a játékban előzetesen kiképzett robotok gyorsabban tanultak, és jobb eredményeket mutattak, mint az a mesterséges intelligencia, amelyet arra tanítottak, hogy a problémákat a semmiből megoldja. Valamivel jobban teljesítettek a feladat végrehajtásában és a kiinduló helyzetbe való visszatérésben, a zárt helyiségekben a dobozok egymás utáni blokkolása, valamint a dobozok adott területekre történő elhelyezése, de valamivel gyengébb teljesítményt nyújtottak az objektumok számának felismerésében és egy másik tárgy körüli fedezék kialakításában.

A kutatók vegyes eredményeket tulajdonítanak annak, hogy az AI hogyan tanul meg és emlékszik bizonyos készségekre. „Úgy gondoljuk, hogy azok a feladatok, ahol a játékon belüli előképzés a legjobban teljesített, a korábban megtanult készségek megszokott módon történő újrafelhasználását jelentik, míg a többi feladat jobb elvégzéséhez, mint a nulláról betanított mesterséges intelligencia, más módon kellene azokat használni, ami nehezebb” – írják a mű társszerzői. „Ez az eredmény rávilágít arra, hogy módszereket kell kidolgozni a képzés során megszerzett készségek hatékony újrafelhasználására, amikor azokat egyik környezetből a másikba helyezzük át.”

Az elvégzett munka valóban lenyűgöző, hiszen ennek a tanítási módszernek a lehetősége messze túlmutat minden játék határain. A kutatók szerint munkájuk jelentős lépést jelent a „fizikai alapú” és „emberszerű” viselkedésű mesterséges intelligencia létrehozása felé, amely képes diagnosztizálni a betegségeket, előre jelezni az összetett fehérjemolekulák szerkezetét és elemezni a CT-vizsgálatokat.

Az alábbi videóban jól látható, hogyan zajlott a teljes tanulási folyamat, hogyan tanult meg az AI csapatmunkát, stratégiái pedig egyre ravaszabbabbak és összetettebbek lettek.

Forrás: 3dnews.ru

Az OpenAI a mesterséges intelligencia csapatmunkáját tanítja a bújócska játékban

Hozzászólás Megszünteti a választ