Mokymosi stiprinimas ar evoliucinės strategijos? - Abu

Sveiki, Habr!

Nedažnai nusprendžiame čia skelbti dvejų metų senumo, be kodo ir aiškiai akademinio pobūdžio tekstų vertimus, tačiau šiandien padarysime išimtį. Tikimės, kad straipsnio pavadinime iškelta dilema kelia nerimą daugeliui mūsų skaitytojų, o jūs jau perskaitėte pagrindinį darbą apie evoliucines strategijas, su kuriais šis įrašas ginčijasi originale arba perskaitysite jį dabar. Sveiki atvykę į katę!

Mokymosi stiprinimas ar evoliucinės strategijos? - Abu

2017 m. kovo mėn. „OpenAI“ sukėlė bangas gilaus mokymosi bendruomenėje su dokumentu „Evoliucijos strategijos kaip keičiama alternatyva mokymuisi“ Šiame darbe aprašyti įspūdingi rezultatai, teigiantys, kad sustiprinimo mokymasis (RL) netapo pleištu, o lavinant sudėtingus neuroninius tinklus patartina išbandyti kitus metodus. Tada įsiplieskė diskusijos apie sustiprinto mokymosi svarbą ir tai, kaip verta turėti savo, kaip „būtinos“ technologijos mokant spręsti problemas, statusą. Čia noriu pasakyti, kad šios dvi technologijos neturėtų būti laikomos konkuruojančiomis, kurių viena yra akivaizdžiai geresnė už kitą; priešingai, jie galiausiai papildo vienas kitą. Iš tiesų, jei šiek tiek pagalvosite apie tai, ko reikia norint sukurti bendras AI ir tokias sistemas, kurios per visą savo egzistavimo laiką būtų pajėgios mokytis, spręsti ir planuoti, tada beveik neabejotinai padarysime išvadą, kad reikės vieno ar kito kombinuoto sprendimo. Beje, gamta atėjo būtent prie tokio kombinuoto sprendimo, kuris evoliucijos eigoje suteikė žinduoliams ir kitiems aukštesniems gyvūnams sudėtingą intelektą.

Evoliucinės strategijos

Pagrindinė OpenAI straipsnio tezė buvo ta, kad užuot naudoję mokymąsi sustiprinant kartu su tradiciniu atgaliniu sklaida, jie sėkmingai išmokė neuroninį tinklą išspręsti sudėtingas problemas, naudodamiesi vadinamąja „evoliucine strategija“ (ES). Šis ES metodas apima svorių pasiskirstymą visame tinkle, įtraukiant kelis lygiagrečiai veikiančius agentus ir naudojant iš šio paskirstymo atrinktus parametrus. Kiekvienas agentas veikia savo aplinkoje, o pasibaigus tam tikram epizodų ar epizodo etapų skaičiui, algoritmas grąžina kaupiamąjį atlygį, išreikštą tinkamumo balu. Atsižvelgiant į šią reikšmę, parametrų pasiskirstymas gali būti perkeltas į sėkmingesnius agentus, atimant mažiau sėkmingus agentus. Milijonus kartų kartojant tokią operaciją, dalyvaujant šimtams agentų, galima perkelti svorių paskirstymą į erdvę, kuri leistų agentams suformuluoti kokybišką jiems skirtos užduoties sprendimo politiką. Straipsnyje pateikti rezultatai išties įspūdingi: parodoma, kad jei lygiagrečiai paleisite tūkstantį agentų, antropomorfinį judėjimą ant dviejų kojų galima išmokti greičiau nei per pusvalandį (tuo tarpu net pažangiausi RL metodai reikalauja daugiau išleisti nei viena valanda). Norėdami gauti išsamesnės informacijos, rekomenduoju perskaityti puikų paštu iš eksperimento autorių, taip pat mokslinis straipsnis.

Mokymosi stiprinimas ar evoliucinės strategijos? - Abu

Įvairios antropomorfinio vaikščiojimo vertikaliai mokymo strategijos, ištirtos OpenAI ES metodu.

Juoda dėžė

Didelis šio metodo privalumas yra tai, kad jį galima lengvai sulyginti. Nors RL metodai, tokie kaip A3C, reikalauja, kad informacija būtų keičiamasi tarp darbuotojo gijų ir parametrų serverio, ES reikia tik tinkamumo įvertinimų ir apibendrintos parametrų paskirstymo informacijos. Dėl šio paprastumo šis metodas mastelio keitimo galimybėmis gerokai lenkia šiuolaikinius RL metodus. Tačiau visa tai nenueina veltui: reikia optimizuoti tinklą juodosios dėžės principu. Šiuo atveju „juodoji dėžė“ reiškia, kad treniruočių metu visiškai ignoruojama vidinė tinklo struktūra ir naudojamas tik bendras rezultatas (atlygis už epizodą) ir nuo jo priklauso, ar konkretaus tinklo svoriai bus paveldės vėlesnės kartos. Tais atvejais, kai negauname daug grįžtamojo ryšio iš aplinkos, o daugelyje tradicinių RL problemų atlygio srautas yra labai menkas, problema tampa „iš dalies juoda dėže“ ir tampa „visiškai juoda dėže“. Tokiu atveju galite žymiai padidinti našumą, todėl, žinoma, toks kompromisas yra pagrįstas. „Kam reikalingi gradientai, jei jie vis tiek yra beviltiškai triukšmingi? – tokia bendra nuomonė.

Tačiau situacijose, kai grįžtamasis ryšys yra aktyvesnis, ES reikalai pradeda klostytis blogai. OpenAI komanda aprašo, kaip paprastas MNIST klasifikavimo tinklas buvo apmokytas naudojant ES, ir šį kartą mokymas buvo 1000 kartų lėtesnis. Faktas yra tas, kad gradiento signalas vaizdo klasifikacijoje yra labai informatyvus, kaip išmokyti tinklą geriau klasifikuoti. Taigi problema yra mažesnė naudojant RL techniką, o daugiau dėl negausių atlygių aplinkoje, kurioje susidaro triukšmingi gradientai.

Gamtos sprendimas

Jei bandytume mokytis iš gamtos pavyzdžio, galvodami apie būdus, kaip vystyti AI, kai kuriais atvejais DI gali būti laikomas kaip į problemą orientuotas požiūris. Juk gamta veikia per apribojimus, kurių kompiuterių mokslininkai tiesiog neturi. Yra nuomonė, kad grynai teorinis požiūris į konkrečios problemos sprendimą gali suteikti efektyvesnių sprendimų nei empirinės alternatyvos. Tačiau vis tiek manau, kad būtų verta išbandyti, kaip dinamiška sistema, veikianti tam tikruose suvaržymuose (Žemė), sukūrė agentus (gyvūnus, ypač žinduolius), galinčius lanksčiai ir sudėtingai elgtis. Nors kai kurie iš šių apribojimų netaikomi modeliuojamuose duomenų mokslo pasauliuose, kiti yra puikūs.

Išnagrinėję žinduolių intelektualinį elgesį, matome, kad jis susiformuoja dėl sudėtingos abipusės dviejų glaudžiai susijusių procesų įtakos: mokytis iš kitų patirties и mokytis darant. Pirmoji dažnai tapatinama su natūralios atrankos skatinama evoliucija, tačiau čia vartoju platesnį terminą, kad atsižvelgčiau į epigenetiką, mikrobiomas ir kitus mechanizmus, įgalinančius dalytis patirtimi tarp genetiškai nesusijusių organizmų. Antrasis procesas – mokymasis iš patirties – tai visa informacija, kurią gyvūnui pavyksta išmokti per visą savo gyvenimą, ir šią informaciją tiesiogiai lemia šio gyvūno sąveika su išoriniu pasauliu. Ši kategorija apima viską nuo mokymosi atpažinti objektus iki mokymosi procesui būdingo bendravimo įvaldymo.

Grubiai tariant, šiuos du gamtoje vykstančius procesus galima palyginti su dviem neuroninių tinklų optimizavimo galimybėmis. Evoliucinės strategijos, kai informacija apie gradientus naudojama informacijai apie organizmą atnaujinti, priartėja prie mokymosi iš kitų patirties. Panašiai gradientiniai metodai, kai vienokios ar kitokios patirties įgijimas lemia vienokį ar kitokį agento elgesio pasikeitimą, yra prilyginami mokymuisi iš savo patirties. Jei pagalvosime apie protingo elgesio ar gebėjimų tipus, kuriuos kiekvienas iš šių dviejų požiūrių išvysto gyvūnuose, palyginimas tampa ryškesnis. Abiem atvejais „evoliuciniai metodai“ skatina reaktyvaus elgesio, leidžiančio išsiugdyti tam tikrą tinkamumą (pakankamą išlikti gyvam), tyrimą. Mokymasis vaikščioti ar pabėgti iš nelaisvės daugeliu atvejų prilygsta „instinktyvesniam“ elgesiui, kuris daugeliui gyvūnų yra „pririštas“ genetiniu lygmeniu. Be to, šis pavyzdys patvirtina, kad evoliuciniai metodai taikytini tais atvejais, kai atlygio signalas yra itin retas (pavyzdžiui, sėkmingo kūdikio auginimo faktas). Tokiu atveju atlygio neįmanoma susieti su kokiu nors konkrečiu veiksmų rinkiniu, kuris galėjo būti atliktas prieš daugelį metų iki šio fakto atsiradimo. Kita vertus, jei atsižvelgsime į atvejį, kai ES nepavyksta, t. y. vaizdų klasifikavimą, rezultatai yra labai panašūs į gyvūnų mokymosi rezultatus, pasiektus daugybės elgesio psichologinių eksperimentų, atliktų daugiau nei 100 metų.

Mokymasis iš gyvūnų

Mokymosi sustiprinimo metodai daugeliu atvejų yra tiesiogiai paimti iš psichologinės literatūros apie operantinis kondicionavimas, o operantinis kondicionavimas buvo tiriamas naudojant gyvūnų psichologiją. Beje, Richardas Suttonas, vienas iš dviejų pastiprinimo mokymosi pradininkų, turi psichologijos bakalauro laipsnį. Operantinio kondicionavimo kontekste gyvūnai išmoksta susieti atlygį ar bausmę su konkrečiais elgesio modeliais. Treneriai ir mokslininkai gali vienaip ar kitaip manipuliuoti šia atlygio asociacija, provokuodami gyvūnus demonstruoti intelektą ar tam tikrą elgesį. Tačiau operantinis kondicionavimas, naudojamas atliekant tyrimus su gyvūnais, yra ne kas kita, kaip ryškesnė to paties sąlygojimo forma, kuria remdamiesi gyvūnai mokosi visą gyvenimą. Nuolat gauname teigiamo pastiprinimo signalus iš aplinkos ir atitinkamai koreguojame savo elgesį. Tiesą sakant, daugelis neurologų ir pažinimo mokslininkų mano, kad žmonės ir kiti gyvūnai iš tikrųjų veikia dar aukštesniu lygiu ir nuolat mokosi numatyti savo elgesio pasekmes būsimose situacijose, remdamiesi galimu atlygiu.

Pagrindinis numatymo vaidmuo mokantis iš patirties reikšmingai keičia aukščiau aprašytą dinamiką. Signalas, kuris anksčiau buvo laikomas labai menku (epizodinis atlygis), pasirodo esąs labai tankus. Teoriškai situacija yra maždaug tokia: bet kuriuo metu žinduolio smegenys skaičiuoja rezultatus remdamosi sudėtingu jutiminių dirgiklių ir veiksmų srautu, o gyvūnas tiesiog panardinamas į šį srautą. Tokiu atveju galutinis gyvūno elgesys duoda stiprų signalą, kuriuo reikia vadovautis koreguojant prognozes ir vystant elgesį. Smegenys naudoja visus šiuos signalus siekdamos optimizuoti prognozes (ir atitinkamai atliktų veiksmų kokybę) ateityje. Šio požiūrio apžvalga pateikiama puikioje knygoje „Naršymo neapibrėžtumas“ kognityvinis mokslininkas ir filosofas Andy Clarkas. Jei tokius samprotavimus ekstrapoliuosime į dirbtinių agentų mokymą, tada atsiskleidžia esminis pastiprinimo mokymosi trūkumas: šioje paradigmoje naudojamas signalas yra beviltiškai silpnas, palyginti su tuo, koks jis galėtų būti (ar turėtų būti). Tais atvejais, kai neįmanoma padidinti signalo prisotinimo (galbūt todėl, kad jis iš prigimties yra silpnas arba susijęs su žemo lygio reaktyvumu), tikriausiai geriau teikti pirmenybę mokymo metodui, kuris yra gerai lygiagretus, pavyzdžiui, ES.

Turtingesnis neuroninių tinklų mokymas

Remiantis aukštesnio nervinio aktyvumo principais, būdingais žinduolių smegenims, kurios nuolatos užsiima prognozėmis, pastaruoju metu buvo padaryta pažanga stiprinant mokymąsi, o dabar atsižvelgiama į tokių prognozių svarbą. Iš karto galiu jums rekomenduoti du panašius darbus:

Abiejuose šiuose straipsniuose autoriai papildo tipišką numatytąją savo neuroninių tinklų politiką prognozavimo rezultatais apie aplinkos būklę ateityje. Pirmajame straipsnyje prognozavimas taikomas įvairiems matavimo kintamiesiems, o antrajame – aplinkos ir agento elgsenos pokyčiams. Abiem atvejais retas signalas, susijęs su teigiamu pastiprinimu, tampa daug turtingesnis ir informatyvesnis, todėl galima greičiau mokytis ir įgyti sudėtingesnio elgesio. Tokie patobulinimai pasiekiami tik naudojant metodus, kurie naudoja gradiento signalą, o ne metodus, kurie veikia „juodosios dėžės“ principu, pvz., ES.

Be to, mokymasis iš patirties ir gradiento metodai yra daug veiksmingesni. Net ir tais atvejais, kai konkrečią problemą buvo įmanoma ištirti naudojant ES metodą greičiau nei naudojant sustiprinimo mokymąsi, pelnas buvo pasiektas dėl to, kad ES strategija apėmė daug kartų daugiau duomenų nei naudojant RL. Šiuo atveju apmąstydami gyvūnų mokymosi principus, pastebime, kad mokymosi iš kažkieno pavyzdžio rezultatas pasireiškia po daugelio kartų, o kartais užtenka vieno paties patirto įvykio, kad gyvūnas išmoktų pamoką amžinai. Nors patinka mokymai be pavyzdžių Nors jis ne visai tinka tradiciniams gradiento metodams, jis yra daug suprantamesnis nei ES. Pavyzdžiui, yra tokių požiūrių kaip nervų epizodinė kontrolė, kur treniruočių metu saugomos Q reikšmės, po kurių programa jas patikrina prieš imdamasi veiksmų. Rezultatas – gradiento metodas, leidžiantis išmokti spręsti problemas daug greičiau nei anksčiau. Straipsnyje apie neuronų epizodinę kontrolę autoriai mini žmogaus hipokampą, kuris net ir po vienos patirties gali išsaugoti informaciją apie įvykį ir todėl vaidina. kritinis vaidmuo prisiminimo procese. Tokie mechanizmai reikalauja prieigos prie agento vidinės organizacijos, o tai pagal apibrėžimą ES paradigmoje taip pat neįmanoma.

Taigi, kodėl jų nesujungus?

Tikėtina, kad didžioji šio straipsnio dalis gali palikti įspūdį, kad aš propaguoju RL metodus. Tačiau iš tikrųjų manau, kad ilgainiui geriausias sprendimas yra derinti abu metodus, kad kiekvienas būtų naudojamas tose situacijose, kuriose jis geriausiai tinka. Akivaizdu, kad daugelio reaktyvių strategijų atveju arba situacijose, kai teigiamo sustiprinimo signalai yra labai reti, ES laimi, ypač jei turite skaičiavimo galią, kurią naudodami galite vykdyti didžiulius lygiagrečius mokymus. Kita vertus, gradiento metodai, naudojant sustiprinamąjį mokymąsi arba prižiūrimą mokymąsi, bus naudingi, kai turėsime prieigą prie plataus grįžtamojo ryšio ir turime išmokti greitai ir naudojant mažiau duomenų išspręsti problemą.

Atsigręžę į gamtą pastebime, kad pirmasis metodas iš esmės padeda pagrindą antrajam. Štai kodėl evoliucijos eigoje žinduoliai sukūrė smegenis, kurios leidžia itin efektyviai mokytis iš sudėtingų signalų, sklindančių iš aplinkos. Taigi, klausimas lieka atviras. Galbūt evoliucinės strategijos padės mums išrasti efektyvias mokymosi architektūras, kurios taip pat bus naudingos taikant gradiento mokymosi metodus. Juk gamtos rastas sprendimas išties labai sėkmingas.

Šaltinis: www.habr.com

Добавить комментарий