🥇 Styrktarnám eða þróunaraðferðir? — Bæði

Hæ Habr!

Við ákveðum ekki oft að birta hér þýðingar á texta sem voru tveggja ára, án kóða og greinilega fræðilegs eðlis - en í dag gerum við undantekningu. Við vonum að vandamálið sem kemur fram í titli greinarinnar veldur mörgum lesendum okkar áhyggjum og þú hefur þegar lesið grundvallarvinnuna um þróunaraðferðir sem þessi færsla rökstyður í frumritinu eða munt lesa hana núna. Velkomin í köttinn!

Í mars 2017 vakti OpenAI öldurnar í djúpnámssamfélaginu með blaðinu „Þróunaraðferðir sem stigstærð valkostur við styrkingarnám" Þessi vinna lýsti glæsilegum árangri í þágu þess að styrkingarnám (RL) hefur ekki orðið fleygur og þegar þjálfað er flókið taugakerfi er ráðlegt að prófa aðrar aðferðir. Deilur spunnust síðan um mikilvægi styrkingarnáms og hversu verðskuldað stöðu þess sem „must-have“ tækni til að kenna vandamálalausn. Hér vil ég segja að ekki ætti að líta á þessar tvær tækni sem samkeppni, önnur þeirra er greinilega betri en hin; þvert á móti bæta þau hvort annað að lokum upp. Reyndar, ef þú hugsar aðeins um hvað þarf til að búa til almenn gervigreind og slík kerfi, sem alla tilveru þeirra myndu vera fær um að læra, dæma og skipuleggja, þá munum við næstum örugglega komast að þeirri niðurstöðu að þessi eða hin sameinaða lausn verði nauðsynleg. Við the vegur, það var einmitt þessi sameinaða lausn sem náttúran kom að, sem gaf spendýrum og öðrum æðri dýrum flókna greind á meðan á þróuninni stóð.

Þróunaraðferðir

Meginritgerð OpenAI greinarinnar var að í stað þess að nota styrkingarnám ásamt hefðbundinni bakútbreiðslu, þjálfuðu þeir taugakerfi með góðum árangri til að leysa flókin vandamál með því að nota það sem þeir kölluðu „þróunarstefnu“ (ES). Þessi ES nálgun samanstendur af því að viðhalda netdreifingu þyngdar, þar sem margir umboðsmenn vinna samhliða og nota færibreytur valdar úr þessari dreifingu. Hver umboðsmaður starfar í sínu eigin umhverfi og að loknum tilteknum fjölda þátta eða stiga þáttar, skilar reikniritið uppsafnaðum verðlaunum, gefið upp sem líkamsræktarstig. Að teknu tilliti til þessa gildis er hægt að færa dreifingu breytu í átt að farsælli umboðsmönnum og svipta þá sem ekki hafa náð árangri. Með því að endurtaka slíka aðgerð milljón sinnum með þátttöku hundruða umboðsmanna er hægt að færa dreifingu lóða í rými sem gerir umboðsmönnum kleift að móta vandaða stefnu til að leysa það verkefni sem þeim er falið. Reyndar eru niðurstöðurnar sem birtar eru í greininni glæsilegar: það er sýnt fram á að ef þú rekur þúsund lyf samhliða, þá er hægt að læra mannkyns hreyfingar á tveimur fótum á innan við hálftíma (á meðan jafnvel fullkomnustu RL aðferðir þurfa að eyða meira en eina klukkustund á þessu). Fyrir ítarlegri upplýsingar mæli ég með því að lesa hið ágæta staða frá höfundum tilraunarinnar, sem og vísindagrein.

Mismunandi aðferðir til að kenna mannkyns uppréttri göngu, rannsökuð með ES aðferð frá OpenAI.

Svartur kassi

Mikill ávinningur af þessari aðferð er að auðvelt er að samsíða hana. Þó að RL aðferðir, eins og A3C, krefjast þess að upplýsingum sé skipt á milli starfsþráða og færibreytuþjóns, þarf ES aðeins hæfnimat og almennar upplýsingar um færibreytur. Það er vegna þessa einfaldleika sem þessi aðferð er langt á undan nútíma RL-aðferðum hvað varðar stærðarmöguleika. Hins vegar er allt þetta ekki til einskis: þú verður að fínstilla netið í samræmi við svarta kassann. Í þessu tilviki þýðir „svarti kassinn“ að við þjálfun er innri uppbygging netkerfisins hunsuð algjörlega og aðeins heildarniðurstaðan (verðlaun fyrir þáttinn) er notuð og það fer eftir því hvort þyngd tiltekins netkerfis muni erfist til síðari kynslóða. Í aðstæðum þar sem við fáum ekki mikla endurgjöf frá umhverfinu - og í mörgum hefðbundnum RL vandamálum er flæði verðlauna mjög rýrt - fer vandamálið frá því að vera "svartur kassi að hluta til" í "alveg svartur kassi." Í þessu tilviki geturðu aukið framleiðni verulega, svo auðvitað er slík málamiðlun réttlætanleg. „Hver þarf halla ef þeir eru vonlaust hávaðasamir? - þetta er almenn skoðun.

Hins vegar, í aðstæðum þar sem endurgjöf er virkari, byrjar hlutirnir að fara úrskeiðis fyrir ES. OpenAI teymið lýsir því hvernig einfalt MNIST flokkunarnet var þjálfað með því að nota ES og að þessu sinni var þjálfunin 1000 sinnum hægari. Staðreyndin er sú að hallamerkið í myndflokkun er afar upplýsandi um hvernig eigi að kenna netkerfinu betri flokkun. Þannig er vandamálið minna með RL tækninni og meira með dreifðum verðlaunum í umhverfi sem framkallar hávaðasama halla.

Lausn náttúrunnar

Ef við reynum að læra af fordæmi náttúrunnar, hugsa um leiðir til að þróa gervigreind, þá er í sumum tilfellum hægt að hugsa um gervigreind sem vandamálamiðuð nálgun. Þegar öllu er á botninn hvolft starfar náttúran innan þeirra takmarkana sem tölvunarfræðingar hafa einfaldlega ekki. Það er skoðun að eingöngu fræðileg nálgun til að leysa tiltekið vandamál geti veitt árangursríkari lausnir en empirískir valkostir. Hins vegar held ég að það væri þess virði að prófa hvernig kraftmikið kerfi sem starfar undir ákveðnum takmörkunum (Jörðin) hefur myndað efni (dýr, sérstaklega spendýr) sem geta haft sveigjanlega og flókna hegðun. Þó að sumar af þessum takmörkunum eigi ekki við í gagnavísindaheimum sem eru líkt eftir, þá eru aðrar bara fínar.

Eftir að hafa skoðað vitsmunalega hegðun spendýra sjáum við að hún myndast sem afleiðing af flóknum gagnkvæmum áhrifum tveggja nátengdra ferla: læra af reynslu annarra и læra með því að gera. Hið fyrra er oft lagt að jöfnu við þróun sem knúin er áfram af náttúruvali, en hér nota ég víðara hugtak til að taka tillit til erfðafræði, örvera og annarra aðferða sem gera kleift að deila reynslu milli erfðafræðilega óskyldra lífvera. Annað ferlið, að læra af reynslunni, eru allar þær upplýsingar sem dýr nær að læra á lífsleiðinni og ákvarðast þessar upplýsingar beint af samskiptum þessa dýrs við umheiminn. Þessi flokkur inniheldur allt frá því að læra að þekkja hluti til að ná tökum á samskiptum sem felast í námsferlinu.

Í grófum dráttum má líkja þessum tveimur ferlum sem eiga sér stað í náttúrunni við tvo valkosti til að fínstilla taugakerfi. Þróunaraðferðir, þar sem upplýsingar um halla eru notaðar til að uppfæra upplýsingar um lífveruna, eru nálægt því að læra af reynslu annarra. Á sama hátt eru hallaaðferðir, þar sem að öðlast eina eða aðra reynslu leiðir til einnar eða annarrar breytinga á hegðun umboðsmannsins, sambærilegar við að læra af eigin reynslu. Ef við hugsum um hvers konar vitræna hegðun eða hæfileika sem hver þessara tveggja aðferða þróar hjá dýrum, verður samanburðurinn áberandi. Í báðum tilfellum stuðla „þróunaraðferðir“ að rannsókn á viðbragðshegðun sem gerir manni kleift að þróa ákveðna hæfni (nægilegt til að halda lífi). Að læra að ganga eða flýja úr haldi jafngildir í mörgum tilfellum „eðlislægri“ hegðun sem er „harðsnúin“ hjá mörgum dýrum á erfðafræðilegu stigi. Að auki staðfestir þetta dæmi að þróunaraðferðir eiga við í þeim tilvikum þar sem verðlaunamerkið er afar sjaldgæft (td staðreyndin um árangursríkt uppeldi barns). Í slíku tilviki er ómögulegt að tengja verðlaunin við neinar sérstakar aðgerðir sem kunna að hafa verið framkvæmdar mörgum árum áður en þessi staðreynd átti sér stað. Á hinn bóginn, ef við lítum á tilvik þar sem ES mistekst, nefnilega myndflokkun, er árangurinn ótrúlega sambærilegur við niðurstöður dýranáms sem náðst hefur í óteljandi sálfræðilegum atferlisfræðilegum tilraunum sem gerðar hafa verið á meira en 100 árum.

Að læra af dýrum

Aðferðirnar sem notaðar eru við styrkingarnám eru í mörgum tilfellum teknar beint úr sálfræðiritum um virka skilyrðing, og virk skilyrðing var rannsökuð með því að nota dýrasálfræði. Við the vegur, Richard Sutton, annar af tveimur stofnendum styrkingarnáms, er með BA gráðu í sálfræði. Í samhengi við virka skilyrðingu læra dýr að tengja umbun eða refsingu við ákveðna hegðunarmynstur. Þjálfarar og vísindamenn geta hagrætt þessum umbunarsamtökum á einhvern hátt, ögrað dýr til að sýna greind eða ákveðna hegðun. Hins vegar er virk skilyrðing, eins og hún er notuð í dýrarannsóknum, ekkert annað en meira áberandi form af sömu skilyrðum á grundvelli þess sem dýr læra allt sitt líf. Við fáum stöðugt merki um jákvæða styrkingu frá umhverfinu og stillum hegðun okkar í samræmi við það. Reyndar trúa margir taugavísindamenn og vitsmunafræðingar að menn og önnur dýr starfi í raun á enn hærra stigi og læri stöðugt að spá fyrir um niðurstöðu hegðunar sinnar í framtíðaraðstæðum byggt á hugsanlegum verðlaunum.

Meginhlutverk spá í að læra af reynslunni breytir gangverkinu sem lýst er hér að ofan á verulegan hátt. Merkið sem áður var talið mjög rýrt (þáttaverðlaun) reynist mjög þétt. Fræðilega séð er staðan eitthvað á þessa leið: á hverjum tíma er heili spendýrsins að reikna út niðurstöður út frá flóknum straumi skynörvunar og aðgerða á meðan dýrið er einfaldlega á kafi í þessum straumi. Í þessu tilviki gefur endanleg hegðun dýrsins sterk merki sem verður að nota til að leiðbeina aðlögun spár og þróun hegðunar. Heilinn notar öll þessi merki til að hámarka spár (og, í samræmi við það, gæði aðgerða sem gripið er til) í framtíðinni. Yfirlit yfir þessa nálgun er að finna í hinni ágætu bók “Brimbrettaóvissa“ hugvísindamaðurinn og heimspekingurinn Andy Clark. Ef við framreiknum slíka rökhugsun yfir á þjálfun gerviefna, þá kemur í ljós grundvallargalli í styrkingarnámi: merkið sem notað er í þessari hugmyndafræði er vonlaust veikt miðað við það sem það gæti verið (eða ætti að vera). Í þeim tilfellum þar sem ómögulegt er að auka merkjamettunina (kannski vegna þess að hún er í eðli sínu veik eða tengist lágviðbrögðum), er líklega betra að velja þjálfunaraðferð sem er vel samhliða, til dæmis ES.

Ríkari þjálfun tauganeta

Byggt á meginreglunum um meiri taugavirkni sem felst í spendýraheilanum, sem er stöðugt upptekinn við að spá, hafa nýlegar framfarir orðið í styrktarnámi, sem tekur nú tillit til mikilvægis slíkra spára. Ég get strax mælt með tveimur svipuðum verkum fyrir þig:

Í báðum þessum greinum bæta höfundar við dæmigerða sjálfgefna stefnu tauganeta sinna með spániðurstöðum um ástand umhverfisins í framtíðinni. Í fyrri greininni er spá beitt á margvíslegar mælibreytur og í þeirri seinni er spá beitt á breytingar á umhverfi og hegðun umboðsmannsins sem slíks. Í báðum tilfellum verður dreifða merkið sem tengist jákvæðri styrkingu miklu ríkara og upplýsandi, sem gerir bæði kleift að læra hraðar og tileinka sér flóknari hegðun. Slíkar endurbætur eru aðeins fáanlegar með aðferðum sem nota hallamerki, en ekki með aðferðum sem starfa eftir „svarta kassa“ meginreglunni, eins og ES.

Að auki eru mun áhrifaríkari að læra af reynslu og hallaaðferðir. Jafnvel í þeim tilvikum þar sem hægt var að rannsaka tiltekið vandamál með ES-aðferðinni hraðar en með því að nota styrkingarnám, náðist ávinningurinn vegna þess að ES-stefnan fól í sér margfalt fleiri gögn en með RL. Þegar við hugleiðum í þessu tilfelli meginreglur um nám hjá dýrum, tökum við eftir því að niðurstaðan af því að læra af fordæmi einhvers annars birtist eftir margar kynslóðir, á meðan stundum er einn atburður sem upplifður af sjálfu sér nóg til að dýrið læri lexíuna að eilífu. Meðan eins og þjálfun án fyrirmynda Þó að það passi ekki alveg inn í hefðbundnar hallaaðferðir, er það miklu skiljanlegra en ES. Það eru til dæmis aðferðir eins og taugaáfallastýring, þar sem Q-gildi eru geymd á meðan á æfingu stendur, eftir það athugar forritið þau áður en gripið er til aðgerða. Niðurstaðan er hallaaðferð sem gerir þér kleift að læra hvernig á að leysa vandamál mun hraðar en áður. Í grein um taugaáfallastýringu nefna höfundarnir hippocampus mannsins, sem er fær um að halda upplýsingum um atburð, jafnvel eftir eina upplifun og þar af leiðandi spilar mikilvægu hlutverki í því ferli að muna. Slík kerfi krefjast aðgangs að innra skipulagi umboðsmannsins, sem er líka, samkvæmt skilgreiningu, ómögulegt í ES hugmyndafræðinni.

Svo, hvers vegna ekki að sameina þá?

Það er líklegt að mikið af þessari grein gæti skilið eftir þá tilfinningu að ég sé að tala fyrir RL-aðferðum. Hins vegar held ég reyndar að til lengri tíma litið sé besta lausnin að sameina báðar aðferðirnar þannig að hvor um sig nýtist við þær aðstæður sem hún hentar best. Augljóslega, þegar um er að ræða margar viðbragðsstefnur eða í aðstæðum með mjög dreifðar merki um jákvæða styrkingu, vinnur ES, sérstaklega ef þú hefur tölvukraftinn til ráðstöfunar sem þú getur keyrt gríðarlega samhliða þjálfun á. Á hinn bóginn munu hallaaðferðir sem nota styrkingarnám eða nám með eftirliti nýtast þegar við höfum aðgang að víðtækri endurgjöf og þurfum að læra hvernig á að leysa vandamál fljótt og með minni gögnum.

Þegar við snúum okkur að náttúrunni komumst við að því að fyrri aðferðin leggur grunninn að þeirri seinni. Þess vegna hafa spendýr þróað heila í gegnum þróunina sem gerir þeim kleift að læra á afar áhrifaríkan hátt af flóknum merkjum sem koma frá umhverfinu. Svo spurningin er enn opin. Kannski munu þróunaraðferðir hjálpa okkur að finna upp árangursríka námsarkitektúra sem munu einnig nýtast vel fyrir námsaðferðir með halla. Þegar öllu er á botninn hvolft er lausnin sem náttúran hefur fundið mjög vel.

Heimild: www.habr.com

Styrktarnám eða þróunaraðferðir? - Bæði