A tanulás megerősítése vagy az evolúciós stratégiák? - Mindkét

Szia Habr!

Nem gyakran döntünk úgy, hogy két éves, kód nélküli és egyértelműen tudományos jellegű szövegek fordítását teszünk közzé itt – de ma kivételt teszünk. Reméljük, hogy a cikk címében felvetett dilemma sok olvasónkat aggaszt, és Ön már olvasta az evolúciós stratégiákról szóló alapvető munkát, amellyel ez a bejegyzés eredetiben érvel, vagy most olvassa el. Üdvözöljük a macskában!

A tanulás megerősítése vagy az evolúciós stratégiák? - Mindkét

2017 márciusában az OpenAI hullámokat vert a mély tanulási közösségben a „Az evolúciós stratégiák, mint a megerősítő tanulás skálázható alternatívája" Ez a munka lenyűgöző eredményeket írt le annak érdekében, hogy az erősítő tanulás (RL) nem vált ékké, és komplex neurális hálózatok képzése során célszerű más módszereket is kipróbálni. Ezután vita robbant ki a megerősített tanulás fontosságáról, és arról, hogy mennyire érdemli meg a problémamegoldás tanításának „kötelező” technológiai státuszát. Itt szeretném elmondani, hogy ezt a két technológiát nem szabad egymással versengőnek tekinteni, amelyek közül az egyik egyértelműen jobb, mint a másik; ellenkezőleg, végső soron kiegészítik egymást. Valóban, ha egy kicsit belegondolsz, hogy mi kell az alkotáshoz általános AI és olyan rendszerek, amelyek létezésük során képesek lennének tanulni, ítélkezni és tervezni, akkor szinte biztosan arra a következtetésre jutunk, hogy erre vagy arra a kombinált megoldásra lesz szükség. Egyébként pontosan erre a kombinált megoldásra jutott a természet, amely az evolúció során összetett intelligenciával ruházta fel az emlősöket és más magasabb rendű állatokat.

Evolúciós stratégiák

Az OpenAI cikk fő tézise az volt, hogy a megerősítő tanulás és a hagyományos visszaterjesztéssel kombinált alkalmazása helyett sikeresen betanítottak egy neurális hálózatot, hogy megoldja az összetett problémákat az úgynevezett „evolúciós stratégiával” (ES). Ez az ES-megközelítés a súlyok hálózatszintű eloszlásának fenntartásából áll, több ügynök bevonásával párhuzamosan, és ebből az eloszlásból kiválasztott paramétereket használ. Minden ügynök a saját környezetében működik, és az epizód meghatározott számú epizódjának vagy szakaszának befejezése után az algoritmus kumulatív jutalmat ad vissza, fitnesz pontszámban kifejezve. Ezt az értéket figyelembe véve a paraméterek eloszlása ​​eltolható a sikeresebb ágensek felé, a kevésbé sikeresek megfosztásával. Egy ilyen művelet milliószori megismétlésével több száz ágens részvételével lehetőség nyílik a súlyelosztás olyan helyre tolására, amely lehetővé teszi az ágensek számára, hogy magas színvonalú politikát alakítsanak ki a rájuk bízott feladat megoldására. A cikkben bemutatott eredmények valóban lenyűgözőek: látható, hogy ha ezer ügynököt futtatsz párhuzamosan, akkor az antropomorf mozgás két lábon kevesebb mint fél óra alatt megtanulható (miközben a legfejlettebb RL-módszerek is több ráfordítást igényelnek mint egy óra ezen). Részletesebb információkért javaslom a kiváló elolvasását posta a kísérlet szerzőitől, valamint tudományos cikk.

A tanulás megerősítése vagy az evolúciós stratégiák? - Mindkét

Különböző stratégiák az antropomorf egyenes járás tanítására, az OpenAI ES módszerével tanulmányozva.

Fekete doboz

A módszer nagy előnye, hogy könnyen párhuzamosítható. Míg az RL metódusokhoz, például az A3C-hez, információcserére van szükség a munkaszálak és a paraméterkiszolgáló között, az ES-nek csak alkalmassági becslésekre és általános paraméterelosztási információkra van szüksége. Ennek az egyszerűségnek köszönhető, hogy ez a módszer messze megelőzi a modern RL módszereket a skálázási képességek tekintetében. Mindez azonban nem megy hiába: a hálózatot a fekete doboz elve szerint kell optimalizálni. Ebben az esetben a „fekete doboz” azt jelenti, hogy a képzés során a hálózat belső szerkezetét teljesen figyelmen kívül hagyják, és csak az összesített eredményt (az epizód jutalmát) használják fel, és ettől függ, hogy egy adott hálózat súlya lesz-e. a következő generációk örökölhetik. Azokban a helyzetekben, amikor nem kapunk sok visszajelzést a környezettől – és sok hagyományos RL-probléma esetében a jutalmak áramlása nagyon ritka –, a probléma a „részben fekete dobozból” „teljesen fekete doboz” lesz. Ebben az esetben jelentősen növelheti a termelékenységet, így természetesen egy ilyen kompromisszum indokolt. – Kinek kellenek a színátmenetek, ha amúgy is reménytelenül zajosak? - ez az általános vélemény.

Azonban azokban a helyzetekben, amikor a visszacsatolás aktívabb, a dolgok kezdenek rosszul menni az ES-ben. Az OpenAI csapata leírja, hogyan képeztek ki egy egyszerű MNIST osztályozási hálózatot ES segítségével, és ezúttal a képzés 1000-szer lassabb volt. Az a tény, hogy a gradiens jel a képosztályozásban rendkívül informatív a hálózat jobb osztályozásának megtanításában. Így a probléma kevésbé az RL technikával, és inkább a ritka jutalommal van olyan környezetben, ahol zajos gradiensek keletkeznek.

A természet megoldása

Ha a természet példájából próbálunk tanulni, az MI fejlesztésének módjain gondolkodva, akkor bizonyos esetekben az AI úgy fogható fel, mint problémaorientált megközelítés. Végül is a természet olyan korlátok között működik, amelyekkel az informatikusok egyszerűen nem rendelkeznek. Van olyan vélemény, hogy egy adott probléma megoldásának tisztán elméleti megközelítése hatékonyabb megoldásokat kínálhat, mint az empirikus alternatívák. Azonban továbbra is úgy gondolom, hogy érdemes lenne megvizsgálni, hogy egy bizonyos korlátok között működő dinamikus rendszer (a Föld) hogyan generált rugalmas és összetett viselkedésre képes ágenseket (állatokat, különösen emlősöket). Míg ezeknek a megszorításoknak egy része nem érvényes a szimulált adattudományi világokban, mások rendben vannak.

Megvizsgálva az emlősök intellektuális viselkedését, azt látjuk, hogy az két, egymással szorosan összefüggő folyamat összetett, egymásra hatásának eredményeként alakul ki: tanulni mások tapasztalataiból и cselekedve tanulás. Az előbbit gyakran azonosítják a természetes szelekció által vezérelt evolúcióval, de itt egy tágabb kifejezést használok, hogy figyelembe vegyem az epigenetikát, a mikrobiomokat és más olyan mechanizmusokat, amelyek lehetővé teszik a tapasztalatok megosztását genetikailag nem rokon élőlények között. A második folyamat, a tapasztalatból való tanulás, mindaz az információ, amelyet egy állatnak élete során sikerül megtanulnia, és ezt az információt közvetlenül meghatározza ennek az állatnak a külvilággal való interakciója. Ez a kategória mindent magában foglal, a tárgyak felismerésének megtanulásától a tanulási folyamatban rejlő kommunikáció elsajátításáig.

Nagyjából a természetben előforduló két folyamatot a neurális hálózatok optimalizálásának két lehetőségével lehet összehasonlítani. Az evolúciós stratégiák, ahol a gradiensekre vonatkozó információkat a szervezettel kapcsolatos információk frissítésére használják, közel állnak ahhoz, hogy mások tapasztalataiból tanuljanak. Hasonlóképpen a gradiens módszerek, ahol az egyik vagy másik tapasztalat megszerzése az ágens viselkedésében ilyen vagy olyan változást eredményez, összevethető a saját tapasztalatból való tanulással. Ha belegondolunk az intelligens viselkedés vagy képességek típusaiba, amelyeket e két megközelítés mindegyike kifejleszt az állatokban, az összehasonlítás hangsúlyosabbá válik. Mindkét esetben az „evolúciós módszerek” olyan reaktív viselkedések tanulmányozását segítik elő, amelyek lehetővé teszik egy bizonyos (elégséges az életben maradáshoz) megfelelő alkalmasság kialakítását. A járás megtanulása vagy a fogságból való menekülés sok esetben egyenértékű az „ösztönösebb” viselkedésekkel, amelyek sok állatnál genetikai szinten „be vannak kötve”. Ezenkívül ez a példa megerősíti, hogy az evolúciós módszerek olyan esetekben alkalmazhatók, amikor a jutalomjelzés rendkívül ritka (például egy baba sikeres felnevelésének ténye). Ilyen esetben lehetetlen összefüggésbe hozni a jutalmat olyan konkrét cselekvésekkel, amelyeket sok évvel e tény bekövetkezte előtt hajtottak végre. Másrészt, ha figyelembe vesszük azt az esetet, amikor az ES kudarcot vall, nevezetesen a képbesorolást, akkor az eredmények feltűnően összevethetők a több mint 100 éven át végzett számtalan viselkedéspszichológiai kísérletben elért állati tanulás eredményeivel.

Tanulás az állatoktól

A megerősítő tanulásban alkalmazott módszerek sok esetben közvetlenül a pszichológiai szakirodalomból származnak operáns kondicionálás, az operáns kondicionálást pedig állatpszichológia segítségével tanulmányozták. Richard Sutton, az erősítő tanulás két megalapítója közül egyébként pszichológiából szerzett bachelor diplomát. Az operáns kondicionálással összefüggésben az állatok megtanulják, hogy a jutalmat vagy büntetést konkrét viselkedési mintákkal társítsák. Az oktatók és kutatók így vagy úgy manipulálhatják ezt a jutalomtársítást, provokálva az állatokat az intelligencia vagy bizonyos viselkedések bemutatására. Az állatkutatásban használt operáns kondicionálás azonban nem más, mint ugyanannak a kondicionálásnak egy kifejezettebb formája, amely alapján az állatok egész életük során tanulnak. Folyamatosan kapunk pozitív megerősítés jeleit a környezettől, és ennek megfelelően alakítjuk viselkedésünket. Valójában sok idegtudós és kognitív tudós úgy véli, hogy az emberek és más állatok valójában még magasabb szinten működnek, és folyamatosan tanulják megjósolni viselkedésük kimenetelét a jövőbeli helyzetekben a lehetséges jutalmak alapján.

Az előrejelzés központi szerepe a tapasztalatból való tanulásban jelentős mértékben megváltoztatja a fent leírt dinamikát. A korábban nagyon gyérnek tartott jel (epizodikus jutalom) nagyon sűrűnek bizonyul. Elméletileg a helyzet valahogy így néz ki: az emlős agya bármely adott időpontban szenzoros ingerek és cselekvések összetett folyama alapján számítja ki az eredményeket, miközben az állat egyszerűen elmerül ebbe az áramlatba. Ebben az esetben az állat végső viselkedése erős jelzést ad, amelyet az előrejelzések kiigazítására és a viselkedés alakulására kell használni. Az agy felhasználja ezeket a jeleket az előrejelzések (és ennek megfelelően a megtett intézkedések minőségének) optimalizálására a jövőben. Erről a megközelítésről ad áttekintést a kiváló könyv „Szörfözés bizonytalansága” kognitív tudós és filozófus, Andy Clark. Ha ezt az érvelést a mesterséges ágensek képzésére extrapoláljuk, akkor a megerősítő tanulás alapvető hibája derül ki: az ebben a paradigmában használt jel reménytelenül gyenge ahhoz képest, amilyen lehetne (vagy kellene). Azokban az esetekben, amikor lehetetlen növelni a jeltelítettséget (talán azért, mert az eredendően gyenge, vagy alacsony szintű reaktivitással jár), valószínűleg jobb egy jól párhuzamos képzési módszert előnyben részesíteni, például az ES-t.

Neurális hálózatok gazdagabb képzése

Az emlősök agyában – amely folyamatosan előrejelzésekkel van elfoglalva – a magasabb idegi aktivitás elveire építkezve, a közelmúltban előrelépések történtek a megerősítő tanulás terén, amely most már figyelembe veszi az ilyen előrejelzések fontosságát. Azonnal két hasonló művet tudok ajánlani:

Mindkét cikkben a szerzők neurális hálózataik tipikus alapértelmezett politikáját kiegészítik a környezet jövőbeli állapotára vonatkozó előrejelzési eredményekkel. Az első cikkben az előrejelzést számos mérési változóra alkalmazzák, a másodikban pedig az előrejelzést a környezetben és az ágens viselkedésében bekövetkezett változásokra. Mindkét esetben a pozitív megerősítéshez kapcsolódó ritka jel sokkal gazdagabbá és informatívabbá válik, ami lehetővé teszi a gyorsabb tanulást és a bonyolultabb viselkedési formák elsajátítását. Az ilyen fejlesztések csak a gradiens jelet használó módszerekkel érhetők el, a „fekete doboz” elven működő módszereknél, például az ES-nél nem.

Ráadásul a tapasztalatból való tanulás és a gradiens módszerek sokkal hatékonyabbak. Még azokban az esetekben is, amikor egy adott problémát gyorsabban lehetett tanulmányozni az ES módszerrel, mint a megerősítő tanulással, a nyereség annak köszönhető, hogy az ES stratégia sokszor több adatot tartalmazott, mint az RL-nél. Ebben az esetben az állatokban való tanulás alapelveire reflektálva megjegyezzük, hogy a valaki más példájából való tanulás eredménye sok generáció után nyilvánul meg, míg néha egyetlen önmagában átélt esemény is elegendő ahhoz, hogy az állat örökre megtanulja a leckét. Miközben tetszik képzés példák nélkül Bár nem egészen illeszkedik a hagyományos gradiens módszerekhez, sokkal érthetőbb, mint az ES. Vannak például olyan megközelítések, mint pl idegi epizodikus kontroll, ahol a Q-értékek tárolásra kerülnek a képzési folyamat során, majd a program ellenőrzi azokat, mielőtt cselekvéseket hajtana végre. Az eredmény egy gradiens módszer, amely lehetővé teszi, hogy a korábbinál sokkal gyorsabban tanulja meg a problémák megoldását. A neurális epizodikus kontrollról szóló cikkükben a szerzők megemlítik az emberi hippokampuszt, amely egyetlen élmény után is képes információt megőrizni egy eseményről, és ezért játszik kritikus szerepet az emlékezés folyamatában. Az ilyen mechanizmusokhoz hozzáférés szükséges az ágens belső szervezetéhez, ami szintén definíció szerint lehetetlen az ES paradigmában.

Szóval miért ne kombinálhatnánk őket?

Valószínű, hogy ennek a cikknek a nagy része azt a benyomást keltheti, hogy az RL módszereket támogatom. Valójában azonban azt gondolom, hogy hosszú távon a legjobb megoldás a két módszer kombinálása, hogy mindegyiket a legmegfelelőbb helyzetekben alkalmazzuk. Nyilvánvaló, hogy sok reaktív irányelv esetén vagy olyan helyzetekben, ahol nagyon ritka a pozitív megerősítés jele, az ES nyer, különösen, ha rendelkezésedre áll az a számítási teljesítmény, amellyel párhuzamosan masszívan futtathatsz képzéseket. Másrészt a megerősítő tanulást vagy a felügyelt tanulást alkalmazó gradiens módszerek hasznosak lesznek, ha széles körű visszajelzésekhez férünk hozzá, és meg kell tanulnunk, hogyan lehet gyorsan és kevesebb adattal megoldani egy problémát.

A természetre térve azt találjuk, hogy az első módszer lényegében megalapozza a másodikat. Ez az oka annak, hogy az evolúció során az emlősök olyan agyat fejlesztettek ki, amely lehetővé teszi számukra, hogy rendkívül hatékonyan tanuljanak a környezetből érkező összetett jelekből. Tehát a kérdés nyitott marad. Talán az evolúciós stratégiák segítenek hatékony tanulási architektúrákat kitalálni, amelyek a gradiens tanulási módszerekhez is hasznosak lesznek. Hiszen a természet által talált megoldás valóban nagyon sikeres.

Forrás: will.com

Hozzászólás