Egy jó, régimódi bújócska remek próbatétel lehet a mesterséges intelligencia (AI) robotok számára, hogy bemutassák, hogyan hoznak döntéseket, hogyan lépnek kapcsolatba egymással és a körülöttük lévő különféle tárgyakkal.
az ő
A tudósok olyan módszert alkalmaztak, amely már régóta elnyerte hírnevét
A mesterséges intelligencia bújós játékra való betanításához a tudósok az „Undirected exploration” elnevezésű megközelítést alkalmazták, ahol az ügynökök teljes szabadságot élveznek a játék világának megértésében és a nyerési stratégiák kidolgozásában. Ez hasonló ahhoz a többágens tanulási megközelítéshez, amelyet a DeepMind kutatói alkalmaztak több mesterséges intelligencia rendszer esetén
A bújócska játékban több ügynöknek, akiknek az volt a feladata, hogy elrejtőzzön, el kellett kerülnie ellenfele látótávolságát, miután enyhe előnyt szereztek, miközben a kutató ügynökök csapata mozgásképtelenné vált. Sőt, a „látóvonal” ebben az összefüggésben egy 135 fokos kúp egy egyedi bot előtt. Az ügynökök nem merészkedhettek túl messzire a játékterületen kívülre, és arra kényszerültek, hogy véletlenszerűen generált szobákban navigáljanak, és néhány olyan külső tárgyat (dobozok, mozgatható falak, speciális rámpák) használhassanak szétszórtan, amelyek fedezék létrehozására és beszivárgásra egyaránt használhatók.
Egy hosszadalmas tanulási folyamat során az AI-ügynökök hat egyedi stratégiát tanultak meg, amelyek mindegyike segítette őket a játék következő szakaszába való eljutásban. Eleinte a kereső és a rejtőzködő csapat egyszerűen elszaladt és üldözte egymást, de körülbelül 25 millió meccs után a rejtőzködő csapat megtanulta, hogy dobozokkal blokkolja az átjárókat, és menedéket építsen belőlük. További 75 millió meccs után a csapat felfedezte, hogyan lehet rámpák segítségével bejutni ezekre a rejtekhelyekre. További 10 millió kör után a rejtőzködők megtanulták rámpákat húzni a játéktér szélére, és a helyükre zárni, hogy az ellenfelek ne használják őket.
A keresők 388 millió meccs után megtanultak blokkolt rámpákkal felmászni a hozzájuk hozott ládákra, majd közvetlenül rájuk haladva behatolnak a hordozható falakból kialakított ellenséges búvóhelyekre. Végül 458 millió meccs után a rejtőzködő csapat arra a következtetésre jutott, hogy minden objektumot blokkolniuk kell, majd menedéket kell építeniük, ami láthatóan a végső győzelmükhöz vezetett.
Ami különösen lenyűgöző, hogy 22 millió meccs után az ügynökök megtanulták összehangolni a cselekvéseiket, és együttműködésük hatékonysága a jövőben csak nőtt, például mindenki vitte a saját dobozát vagy falát, hogy menedéket hozzon létre, és kiválasztotta a maga részét a tárgyakból. blokk, hogy bonyolítsa a nehézségi játékot az ellenfelek számára.
A tudósok megjegyeztek egy fontos pontot is, amely a tanítási objektumok számának (a neurális hálózaton áthaladó adatmennyiség - „Batch Size”) tanulási sebességre gyakorolt hatásával kapcsolatos. Az alapértelmezett modell 132,3 millió mérkőzést igényelt 34 óra edzés alatt, hogy elérje azt a pontot, ahol a rejtőzködő csapat megtanulta blokkolni a rámpákat, míg a több adat az edzési idő észrevehető csökkenését eredményezte. Például a paraméterek számának (a teljes képzési folyamat során nyert adatok egy részének) 0,5 millióról 5,8 millióra növelése 2,2-szeresére növelte a mintavételi hatékonyságot, és a bemeneti adatok méretének 64 KB-ról 128 KB-ra növelése csökkentette a képzést. idő majdnem másfélszer.
Munkájuk végén a kutatók úgy döntöttek, hogy tesztelik, mennyi játékon belüli edzés segíthet az ügynököknek megbirkózni a játékon kívüli hasonló feladatokkal. Összesen öt tesztet végeztek: az objektumok számának tudatosítása (annak megértése, hogy egy objektum akkor is létezik, ha nem látható, és nem használják); „zár és visszatérés” - az a képesség, hogy emlékezzen az eredeti pozícióra, és visszatérjen oda néhány további feladat elvégzése után; „szekvenciális blokkolás” – 4 dobozt véletlenszerűen helyeztek el három ajtó nélkül, de rámpákkal, hogy bejussanak, ügynököknek kellett megtalálniuk és blokkolniuk őket; dobozok elhelyezése előre meghatározott helyeken; menedék létrehozása egy tárgy körül henger formájában.
Ennek eredményeként ötből háromban a játékban előzetesen kiképzett robotok gyorsabban tanultak, és jobb eredményeket mutattak, mint az a mesterséges intelligencia, amelyet arra tanítottak, hogy a problémákat a semmiből megoldja. Valamivel jobban teljesítettek a feladat végrehajtásában és a kiinduló helyzetbe való visszatérésben, a zárt helyiségekben a dobozok egymás utáni blokkolása, valamint a dobozok adott területekre történő elhelyezése, de valamivel gyengébb teljesítményt nyújtottak az objektumok számának felismerésében és egy másik tárgy körüli fedezék kialakításában.
A kutatók vegyes eredményeket tulajdonítanak annak, hogy az AI hogyan tanul meg és emlékszik bizonyos készségekre. „Úgy gondoljuk, hogy azok a feladatok, ahol a játékon belüli előképzés a legjobban teljesített, a korábban megtanult készségek megszokott módon történő újrafelhasználását jelentik, míg a többi feladat jobb elvégzéséhez, mint a nulláról betanított mesterséges intelligencia, más módon kellene azokat használni, ami nehezebb” – írják a mű társszerzői. „Ez az eredmény rávilágít arra, hogy módszereket kell kidolgozni a képzés során megszerzett készségek hatékony újrafelhasználására, amikor azokat egyik környezetből a másikba helyezzük át.”
Az elvégzett munka valóban lenyűgöző, hiszen ennek a tanítási módszernek a lehetősége messze túlmutat minden játék határain. A kutatók szerint munkájuk jelentős lépést jelent a „fizikai alapú” és „emberszerű” viselkedésű mesterséges intelligencia létrehozása felé, amely képes diagnosztizálni a betegségeket, előre jelezni az összetett fehérjemolekulák szerkezetét és elemezni a CT-vizsgálatokat.
Az alábbi videóban jól látható, hogyan zajlott a teljes tanulási folyamat, hogyan tanult meg az AI csapatmunkát, stratégiái pedig egyre ravaszabbabbak és összetettebbek lettek.
Forrás: 3dnews.ru