🥇Indartze ikaskuntza ala estrategia ebolutiboak? — Biak

Aupa Habr!

Askotan ez dugu erabakitzen bi urteko testuen itzulpenak, koderik gabe eta izaera akademiko argia duten testuen itzulpenak hemen argitaratzea, baina gaur salbuespena egingo dugu. Artikuluaren izenburuan planteatzen den dilemak gure irakurle asko kezkatzea espero dugu, eta dagoeneko irakurri duzu post honek jatorrizkoan argudiatzen duen estrategia ebolutiboei buruzko oinarrizko lana edo orain irakurriko duzuena. Ongi etorri katuari!

2017ko martxoan, OpenAIk olatua egin zuen ikaskuntza sakoneko komunitatean " paperarekin "Eboluzio-estrategiak indartzeko ikaskuntzarako alternatiba eskalagarri gisa" Lan honek emaitza ikusgarriak deskribatu zituen indartze-ikaskuntza (RL) ez dela ziri bihurtu, eta neurona-sare konplexuak entrenatzerakoan, beste metodo batzuk probatzea komeni da. Orduan eztabaida piztu zen indartze-ikaskuntzaren garrantziari buruz eta arazoen konponbidean irakasteko teknologia "behar-beharrezkoa" izateari buruz. Hemen esan nahi dut bi teknologia hauek ez direla lehiakidetzat hartu behar, bata bestea baino hobea dela argi eta garbi; aitzitik, azken batean elkarren osagarri dira. Izan ere, pixka bat pentsatzen baduzu zer behar den sortzeko AI orokorra eta halako sistemak, beren existentzian zehar ikasteko, epaitzeko eta planifikatzeko gai izango liratekeenak, orduan ia ziur konponbide bateratu hau edo beste beharko dela ondorioztatuko dugu. Bide batez, irtenbide konbinatu horretara heldu zen, hain zuzen, naturak, ugaztunak eta goi-mailako beste animalia batzuk adimen konplexuz hornitu zituena eboluzioan zehar.

Estrategia ebolutiboak

OpenAI paperaren tesi nagusia hauxe izan zen: errefortzu-ikaskuntza tradizionalaren atzeko hedapenarekin konbinatuta erabili beharrean, sare neuronal bat arrakastaz trebatu zutela arazo konplexuak ebazteko, "eboluzio-estrategia" (ES) deitzen zutena erabiliz. ES ikuspegi hau sare osorako pisuen banaketa mantentzean datza, paraleloan lan egiten duten hainbat eragilek eta banaketa horretatik aukeratutako parametroak erabiliz. Agente bakoitzak bere ingurunean funtzionatzen du, eta atal baten atal edo fase kopuru zehatz bat amaitzean, algoritmoak sari metatua itzultzen du, fitness puntuazio gisa adierazita. Balio hori kontuan hartuta, parametroen banaketa eragile arrakastatsuenetara bideratu daiteke, arrakasta gutxiago dutenei kenduz. Eragiketa hori milioika aldiz errepikatuz ehunka eragileren parte-hartzearekin, posible da pisuen banaketa eragileei esleitu zaien zeregina konpontzeko kalitate handiko politika egitea ahalbidetuko duen espazio batera eramatea. Izan ere, artikuluan aurkezten diren emaitzak ikusgarriak dira: frogatuta dago mila agente paraleloan exekutatzen badituzu, orduan bi hanken gaineko lokomozio antropomorfoa ordu erdi baino gutxiagoan ikas daitekeela (RL metodo aurreratuenek ere gehiago gastatu behar duten bitartean). ordu bat baino gehiago honetan). Informazio zehatzagoa lortzeko, bikaina irakurtzea gomendatzen dut post esperimentuaren egileengandik, baita artikulu zientifiko.

Oinez tente antropomorfoa irakasteko estrategia desberdinak, OpenAI-ko ES metodoa erabiliz aztertuak.

Kutxa beltza

Metodo honen onura handia da erraz paraleliza daitekeela. RL metodoek, hala nola A3C, langile-harien eta parametro-zerbitzari baten artean informazioa trukatu behar den arren, ES-ek egokitasun-kalkuluak eta parametroen banaketa-informazio orokortua baino ez ditu behar. Sinpletasun horri esker, metodo hau RL metodo modernoen aurretik dago eskalatzeko gaitasunei dagokienez. Hala ere, hori guztia ez da alferrik dator: sarea optimizatu behar duzu kutxa beltzaren printzipioaren arabera. Kasu honetan, "kutxa beltzak" esan nahi du prestakuntzan zehar sarearen barne-egitura guztiz baztertzen dela, eta emaitza orokorra (pasartearen saria) soilik erabiltzen dela, eta horren araberakoa da sare jakin baten pisuak izango diren ala ez. ondorengo belaunaldiek oinordetzan jaso. Ingurunetik feedback handirik jasotzen ez dugun egoeretan —eta RL arazo tradizionaletan sari-jarioa oso urria da—, arazoa "kutxa partzialki beltza" izatetik "kutxa guztiz beltza" izatera igarotzen da. Kasu honetan, produktibitatea nabarmen handitu dezakezu, beraz, noski, konpromiso hori justifikatuta dago. "Nork behar ditu gradienteak, hala ere, zaratatsuak badira?" - hau da iritzi orokorra.

Hala ere, feedbacka aktiboagoa den egoeretan, gauzak gaizki joaten hasten dira ES-entzat. OpenAI taldeak ES erabiliz MNIST sailkapen-sare sinple bat nola entrenatu den deskribatzen du, eta oraingoan prestakuntza 1000 aldiz motelagoa izan da. Kontua da irudien sailkapenean gradiente-seinalea oso informagarria dela sareari sailkapen hobea nola irakatsi buruzkoa. Hortaz, arazoa txikiagoa da RL teknikarekin eta gehiago sari urriekin gradiente zaratatsuak sortzen dituzten inguruneetan.

Naturaren irtenbidea

Naturaren adibidetik ikasten saiatzen bagara, IA garatzeko moduak pentsatzen, kasu batzuetan IA gisa pentsa daiteke. arazoetara bideratutako ikuspegia. Azken finean, naturak informatikariek besterik gabe ez dituzten mugen barruan funtzionatzen du. Arazo jakin bat konpontzeko ikuspegi teoriko hutsak alternatiba enpirikoak baino irtenbide eraginkorragoak eman ditzakeen iritzia dago. Hala ere, oraindik uste dut mereziko lukeela probatzea muga jakin batzuen pean funtzionatzen duen sistema dinamiko batek (Lurra) nola sortu dituen portaera malgu eta konplexua duten agenteak (animaliak, bereziki ugaztunak). Murrizketa horietako batzuk datu-zientzien mundu simulatuetan aplikatzen ez diren arren, beste batzuk ondo daude.

Ugaztunen portaera intelektuala aztertuta, elkarri lotuta dauden bi prozesuren elkarrekiko eragin konplexuaren ondorioz sortzen dela ikusten dugu: besteen esperientzietatik ikastea и eginez ikasiz. Lehenengoa hautespen naturalak bultzatutako eboluzioarekin parekatzen da askotan, baina hemen termino zabalagoa erabiltzen dut epigenetika, mikrobiomak eta genetikoki zerikusirik ez duten organismoen artean esperientziak partekatzea ahalbidetzen duten beste mekanismo batzuk kontuan hartzeko. Bigarren prozesua, esperientziatik ikastea, animaliak bere bizitzan zehar ikastea lortzen duen informazio guztia da, eta informazio hori animalia honek kanpoko munduarekin duen elkarreraginaren arabera zehazten da zuzenean. Kategoria honek denetarik hartzen du barnean, objektuak ezagutzen ikastetik ikaskuntza prozesuaren berezko komunikazioa menperatzeraino.

Gutxi gorabehera, naturan gertatzen diren bi prozesu hauek sare neuronalak optimizatzeko bi aukerekin aldera daitezke. Estrategia ebolutiboak, non gradienteei buruzko informazioa organismoari buruzko informazioa eguneratzeko erabiltzen den, besteen esperientziatik ikastera hurbiltzen dira. Era berean, gradiente-metodoak, non esperientzia bat edo beste lortzeak eragilearen portaeran aldaketaren bat edo beste dakarten, norberaren esperientziatik ikastearen parekoak dira. Bi ikuspegi hauetako bakoitzak animalietan garatzen dituen jokabide edo gaitasun adimentsu motetan pentsatzen badugu, konparazioa nabarmenagoa da. Bi kasuetan, “eboluzio-metodoek” jokabide erreaktiboak aztertzea sustatzen dute, egoera jakin bat (bizirik irauteko nahikoa) garatzeko aukera ematen diotenak. Gatibutasunetik ibiltzen edo ihes egiten ikastea kasu askotan animalia askotan maila genetikoan "gogorra" dauden jokabide "instintiboagoen" baliokidea da. Horrez gain, adibide honek baieztatzen du eboluzio-metodoak aplikagarriak direla sari-seinalea oso arraroa den kasuetan (adibidez, haurra arrakastaz haztean). Halako batean, ezinezkoa da saria gertakari hori gertatu baino urte asko lehenago egin daitekeen ekintza multzo zehatz batekin erlazionatu. Bestalde, ES-k huts egiten duen kasu bat kontuan hartzen badugu, hots, irudien sailkapena, emaitzak 100 urte baino gehiagotan egindako jokabide-esperimentu psikologiko ugaritan lortutako animalien ikaskuntzaren emaitzekin parekagarriak dira.

Animaliengandik ikasten

Indartze-ikaskuntzan erabiltzen diren metodoak kasu askotan literatura psikologikotik zuzenean hartuak dira baldintzatzaile operantea, eta baldintzapen operantea animalien psikologia erabiliz aztertu zen. Bide batez, Richard Sutton, indartzeko ikaskuntzaren bi sortzaileetako bat, psikologian lizentziatua da. Baldintzapen operantearen testuinguruan, animaliek saria edo zigorra jokabide-eredu zehatzekin lotzen ikasten dute. Entrenatzaileek eta ikertzaileek sari-elkarte hori era batera edo bestera manipulatu dezakete, animaliak adimena edo jokabide jakin batzuk froga ditzaten eraginez. Hala ere, baldintzapen operantea, animalien ikerketan erabiltzen den moduan, animaliek bizitzan zehar ikasten duten baldintzapen beraren forma nabarmenagoa baino ez da. Etengabe jasotzen ditugu ingurunetik errefortzu positiboaren seinaleak eta horren arabera moldatzen dugu gure jokabidea. Izan ere, neurozientzialari eta zientzialari kognitibo askok uste dute gizakiek eta beste animaliek maila are altuagoan funtzionatzen dutela eta etengabe ikasten dutela etorkizuneko egoeretan euren portaeraren emaitza iragartzen, balizko sarietan oinarrituta.

Esperientziatik ikastean aurreikuspenaren eginkizun zentralak goian azaldutako dinamika modu esanguratsuan aldatzen ditu. Aurretik oso eskasa jotzen zen seinalea (sari episodikoa) oso trinkoa izaten da. Teorian, egoera horrelako zerbait da: une bakoitzean, ugaztunaren garuna zentzumen-estimulu eta ekintzen korronte konplexu batean oinarritutako emaitzak kalkulatzen ari da, animalia korronte horretan murgilduta dagoen bitartean. Kasu honetan, animaliaren azken portaerak seinale indartsua ematen du, aurreikuspenen doikuntza eta portaeraren garapena bideratzeko erabili behar dena. Garunak seinale horiek guztiak erabiltzen ditu etorkizunean aurreikuspenak (eta, horren arabera, egindako ekintzen kalitatea) optimizatzeko. Ikuspegi honen ikuspegi orokorra liburu bikainean ematen da "Surfaren ziurgabetasuna” Andy Clark zientzialari kognitibo eta filosofoa. Arrazonamendu hori eragile artifizialen prestakuntzara estrapolatzen badugu, indartze-ikaskuntzan oinarrizko akats bat agerian geratzen da: paradigma honetan erabiltzen den seinalea itxaropenik gabe ahula da izan daitekeenarekin (edo izan beharko lukeenarekin alderatuta). Seinalearen saturazioa handitzea ezinezkoa den kasuetan (agian berez ahula delako edo maila baxuko erreaktibotasunarekin lotuta dagoelako), seguruenik hobe da ondo paralelizatuta dagoen entrenamendu-metodo bat hobestea, adibidez, ES.

Neurona-sareen prestakuntza aberatsagoa

Etengabe iragarpenak egiten lanpetuta dagoen ugaztunaren garunaren berezko jarduera neuronalaren printzipioak oinarri hartuta, azken aurrerapenak egin dira indartze-ikaskuntzan, eta gaur egun iragarpen horien garrantzia hartzen du kontuan. Berehala antzeko bi lan gomenda ditzaket:

Bi artikulu hauetan, egileek beren neurona-sareen ohiko politika lehenetsia etorkizunean ingurumenaren egoerari buruzko iragarpen-emaitzekin osatzen dute. Lehenengo artikuluan, aurreikuspena neurketa-aldagai ezberdinei aplikatzen zaie, eta bigarrenean, iragarpena ingurunearen aldaketei eta eragilearen portaera gisa aplikatzen zaie. Bi kasuetan, errefortzu positiboarekin lotutako seinale urria askoz aberatsagoa eta informagarriagoa bihurtzen da, ikaskuntza azkarragoa eta jokabide konplexuagoak eskuratzea ahalbidetuz. Hobekuntza horiek gradiente-seinalea erabiltzen duten metodoekin bakarrik daude eskuragarri, eta ez "kutxa beltza" printzipioarekin funtzionatzen duten metodoekin, ES bezalakoekin.

Gainera, esperientzia eta gradiente metodoetatik ikastea askoz eraginkorragoa da. Errefortzu-ikaskuntza erabiliz baino arazo jakin bat ES metodoa erabiliz azkarrago aztertzea posible zen kasuetan ere, irabazia lortu zen ES estrategiak RLrekin baino datu asko bider gehiago inplikatzen zituelako. Kasu honetan animalien ikaskuntza-printzipioei buruz hausnartuz, ohartzen gara beste inoren adibidetik ikastearen emaitza belaunaldi askoren ondoren agertzen dela, batzuetan berak bizitako gertaera bakar bat nahikoa dela animaliak betirako ikasgaia ikasteko. Gustura bitartean adibiderik gabeko prestakuntza Gradienteen metodo tradizionaletan guztiz egokitzen ez den arren, ES baino askoz ulergarriagoa da. Badira, adibidez, bezalako planteamenduak kontrol episodiko neuronal, non Q-balioak gordetzen diren prestakuntza-prozesuan, eta ondoren programak egiaztatzen ditu ekintzak egin aurretik. Ondorioz, arazoak lehen baino askoz azkarrago ebazten ikasteko aukera ematen duen gradiente-metodo bat da. Neurona-kontrol episodikoari buruzko artikulu batean, egileek giza hipokanpoa aipatzen dute, esperientzia bakar baten ondoren ere gertakari bati buruzko informazioa gordetzeko gai dena eta, beraz, jolasten duena. rol kritikoa gogoratzeko prozesuan. Horrelako mekanismoek eragilearen barne antolaketarako sarbidea eskatzen dute, eta hori ere, definizioz, ezinezkoa da ES paradigman.

Beraz, zergatik ez konbinatu?

Litekeena da artikulu honen zati handi batek RL metodoen alde egiten dudala irudipena uztea. Hala ere, egia esan, epe luzera konponbiderik onena bi metodoak uztartzea dela uste dut, bakoitza hobekien egokitzen den egoeretan erabil dadin. Jakina, politika erreaktibo askoren kasuan edo errefortzu positiboaren seinale oso urriak dituzten egoeretan, ES-ek irabazten du, batez ere zure esku dagoen konputazio-ahalmena baduzu, zeinaren gainean prestakuntza masiboki paraleloa egin dezakezun. Bestalde, indartze-ikaskuntza edo ikaskuntza gainbegiratua erabiltzen duten gradiente-metodoak erabilgarriak izango dira feedback zabala eskuratzen dugunean eta arazo bat azkar eta datu gutxiagorekin konpontzen ikasi behar dugunean.

Naturara joz, lehenengo metodoak, funtsean, bigarrenaren oinarriak jartzen dituela ikusten dugu. Horregatik, eboluzioan zehar, ugaztunek ingurunetik datozen seinale konplexuetatik oso eraginkortasunez ikasteko garunak garatu dituzte. Beraz, galderak zabalik jarraitzen du. Beharbada, eboluzio-estrategiek ikaskuntza-arkitektura eraginkorrak asmatzen lagunduko digute, gradienteko ikaskuntza-metodoetarako ere erabilgarriak izango direnak. Azken finean, naturak aurkitutako irtenbidea oso arrakastatsua da.

Iturria: www.habr.com

Indartze ikaskuntza ala estrategia ebolutiboak? - Biak