Oppimisen vahvistaminen vai evoluutiostrategiat? - Molemmat

Hei Habr!

Emme usein päätä julkaista tänne käännöksiä kaksi vuotta vanhoista, ilman koodia ja selvästi akateemista teksteistä - mutta tänään teemme poikkeuksen. Toivomme, että artikkelin otsikossa esitetty dilemma huolestuttaa monia lukijoitamme, ja olet jo lukenut evoluutiostrategioita koskevan perustavanlaatuisen työn, jonka kanssa tämä viesti väittää alkuperäisessä tekstissä tai luet sen nyt. Tervetuloa kissalle!

Oppimisen vahvistaminen vai evoluutiostrategiat? - Molemmat

Maaliskuussa 2017 OpenAI loi aaltoja syvän oppimisen yhteisössä paperilla "Evoluutiostrategiat skaalautuvana vaihtoehtona oppimisen vahvistamiselle" Tässä työssä kuvattiin vaikuttavia tuloksia sen puolesta, että vahvistusoppiminen (RL) ei ole muodostunut kiilaksi, ja monimutkaisia ​​hermoverkkoja opetettaessa on suositeltavaa kokeilla muita menetelmiä. Sitten syntyi keskustelu vahvistusoppimisen tärkeydestä ja siitä, kuinka se ansaitsee sen aseman "pakollisena" teknologiana ongelmanratkaisun opettamisessa. Tässä haluan sanoa, että näitä kahta teknologiaa ei pidä pitää kilpailevana, joista toinen on selvästi parempi kuin toinen; päinvastoin, ne lopulta täydentävät toisiaan. Todellakin, jos ajattelet hieman, mitä luominen vaatii yleinen AI ja sellaiset järjestelmät, jotka koko olemassaolonsa ajan kykenisivät oppimaan, arvioimaan ja suunnittelemaan, niin tulemme lähes varmasti siihen tulokseen, että tarvitaan tämä tai tuo yhdistetty ratkaisu. Muuten, juuri tähän yhdistettyyn ratkaisuun luonto päätyi, mikä antoi nisäkkäille ja muille korkeammille eläimille monimutkaisen älykkyyden evoluution aikana.

Evoluutiostrategiat

OpenAI-paperin päätees oli, että sen sijaan, että he käyttäisivät vahvistusoppimista yhdistettynä perinteiseen backpropagationiin, he onnistuneesti kouluttivat hermoverkkoa ratkaisemaan monimutkaisia ​​ongelmia käyttämällä niin sanottua "evoluutiostrategiaa" (ES). Tämä ES-lähestymistapa koostuu verkonlaajuisen painojakauman ylläpitämisestä, useiden rinnakkaisten agenttien käyttämisestä ja tästä jakaumasta valittujen parametrien käyttämisestä. Jokainen agentti toimii omassa ympäristössään, ja tietyn määrän jaksoja tai jakson vaiheita suoritettuaan algoritmi palauttaa kumulatiivisen palkkion, joka ilmaistaan ​​kuntopisteinä. Kun tämä arvo otetaan huomioon, parametrien jakauma voidaan siirtää kohti menestyneempiä agentteja, jolloin heikommin menestyneet agentit poistetaan. Toistamalla tällainen operaatio miljoonia kertoja satojen agenttien osallistuessa on mahdollista siirtää painojen jako tilaan, jossa agentit voivat muotoilla laadukkaan politiikan heille osoitetun tehtävän ratkaisemiseksi. Artikkelissa esitetyt tulokset ovat todellakin vaikuttavia: on osoitettu, että jos ajaa tuhat agenttia rinnakkain, niin antropomorfinen liikkuminen kahdella jalalla voidaan oppia alle puolessa tunnissa (kun taas edistyneimmät RL-menetelmät vaativat enemmän rahaa kuin yksi tunti tästä). Tarkempia tietoja varten suosittelen lukemaan erinomaisen posti kokeen tekijöiltä sekä tieteellinen artikkeli.

Oppimisen vahvistaminen vai evoluutiostrategiat? - Molemmat

Erilaisia ​​strategioita antropomorfisen pystykävelyn opettamiseen, opittu OpenAI:n ES-menetelmällä.

Musta laatikko

Tämän menetelmän suuri etu on, että se voidaan helposti rinnastaa. Vaikka RL-menetelmät, kuten A3C, edellyttävät tietojen vaihtoa työntekijäsäikeiden ja parametripalvelimen välillä, ES tarvitsee vain kuntoarvioita ja yleisiä parametrien jakelutietoja. Tästä yksinkertaisuudesta johtuen tämä menetelmä on paljon edellä nykyaikaisia ​​RL-menetelmiä skaalausominaisuuksien suhteen. Kaikki tämä ei kuitenkaan tule turhaan: verkko on optimoitava mustan laatikon periaatteen mukaisesti. Tässä tapauksessa "musta laatikko" tarkoittaa, että koulutuksen aikana verkon sisäinen rakenne jätetään kokonaan huomiotta ja käytetään vain kokonaistulosta (palkkio jaksosta), ja siitä riippuu, tulevatko tietyn verkon painot. periytyä seuraaville sukupolville. Tilanteissa, joissa emme saa paljoa palautetta ympäristöltä – ja monissa perinteisissä RL-ongelmissa palkintojen virta on hyvin harvaa – ongelma muuttuu "osittain mustasta laatikosta" "täysin mustaksi laatikoksi". Tässä tapauksessa voit lisätä merkittävästi tuottavuutta, joten tietysti tällainen kompromissi on perusteltu. "Kuka tarvitsee gradientteja, jos ne ovat joka tapauksessa toivottoman meluisia?" – Tämä on yleinen mielipide.

Kuitenkin tilanteissa, joissa palaute on aktiivisempaa, ES:n asiat alkavat mennä pieleen. OpenAI-tiimi kuvailee, kuinka yksinkertainen MNIST-luokitusverkko koulutettiin ES:n avulla, ja tällä kertaa koulutus oli 1000 kertaa hitaampaa. Tosiasia on, että gradienttisignaali kuvaluokituksessa on erittäin informatiivinen sen suhteen, kuinka verkon luokitusta voidaan opettaa. Näin ollen ongelma on vähemmän RL-tekniikassa ja enemmän harvoissa palkkioissa ympäristöissä, jotka tuottavat meluisia gradientteja.

Luonnon ratkaisu

Jos yritämme ottaa oppia luonnon esimerkistä ja pohtia tapoja kehittää tekoälyä, niin joissain tapauksissa tekoälyä voidaan ajatella ongelmalähtöinen lähestymistapa. Loppujen lopuksi luonto toimii rajoituksissa, joita tietojenkäsittelytieteilijöillä ei yksinkertaisesti ole. On olemassa mielipide, että puhtaasti teoreettinen lähestymistapa tietyn ongelman ratkaisemiseen voi tarjota tehokkaampia ratkaisuja kuin empiiriset vaihtoehdot. Olen kuitenkin edelleen sitä mieltä, että kannattaisi testata, miten tietyissä rajoitteissa toimiva dynaaminen järjestelmä (Maapallo) on synnyttänyt tekijöitä (eläimet, erityisesti nisäkkäät), jotka kykenevät käyttäytymään joustavasti ja monimutkaisesti. Vaikka jotkut näistä rajoituksista eivät päde simuloiduissa datatieteen maailmoissa, toiset ovat ihan hyviä.

Tutkittuamme nisäkkäiden älyllistä käyttäytymistä näemme, että se muodostuu kahden toisiinsa läheisesti liittyvän prosessin monimutkaisen keskinäisen vaikutuksen seurauksena: oppia muiden kokemuksista и oppia tekemällä. Edellinen rinnastetaan usein luonnollisen valinnan ohjaamaan evoluutioon, mutta tässä käytän laajempaa termiä ottaakseni huomioon epigenetiikan, mikrobiomit ja muut mekanismit, jotka mahdollistavat kokemusten jakamisen geneettisesti toisiinsa liittymättömien organismien välillä. Toinen prosessi, kokemuksesta oppiminen, on kaikki tieto, jonka eläin onnistuu oppimaan koko elämänsä ajan, ja tämä tieto määräytyy suoraan tämän eläimen vuorovaikutuksesta ulkomaailman kanssa. Tämä kategoria sisältää kaiken esineiden tunnistamisen oppimisesta oppimisprosessiin kuuluvan viestinnän hallintaan.

Karkeasti sanottuna näitä kahta luonnossa esiintyvää prosessia voidaan verrata kahteen vaihtoehtoon neuroverkkojen optimoimiseksi. Evoluutiostrategiat, joissa gradientteja koskevaa tietoa käytetään päivittämään tietoa organismista, ovat lähellä oppimista muiden kokemuksista. Samoin omasta kokemuksesta oppimiseen voidaan verrata gradienttimenetelmiä, joissa yhden tai toisen kokemuksen saaminen johtaa yhteen tai toiseen muutokseen agentin käyttäytymisessä. Jos ajattelemme älykkään käyttäytymisen tai kykyjen tyyppejä, joita kumpikin näistä kahdesta lähestymistavasta kehittää eläimissä, vertailu tulee selvemmäksi. Molemmissa tapauksissa "evoluutiomenetelmät" edistävät sellaisten reaktiivisten käyttäytymismallien tutkimusta, jotka mahdollistavat tietyn (riittävästi hengissä pysymisen) kunnon kehittymisen. Kävelemään tai vankeudesta pakoon oppiminen vastaa monissa tapauksissa "vaistoperäisempää" käyttäytymistä, joka on "kiinteä" monissa eläimissä geneettisellä tasolla. Lisäksi tämä esimerkki vahvistaa, että evoluutiomenetelmiä voidaan soveltaa tapauksissa, joissa palkkiosignaali on erittäin harvinainen (esimerkiksi vauvan onnistuneen kasvattamisen tosiasia). Tällaisessa tapauksessa on mahdotonta korreloida palkkiota mihinkään tiettyyn toimintosarjaan, joka on voitu suorittaa monta vuotta ennen tosiasiaa. Toisaalta, jos tarkastellaan tapausta, jossa ES epäonnistuu, nimittäin kuvan luokittelu, tulokset ovat huomattavan verrattavissa tuloksiin eläinten oppimisen tuloksista, jotka on saatu lukemattomissa käyttäytymispsykologisissa kokeissa yli 100 vuoden aikana.

Eläimiltä oppimista

Vahvistusoppimisessa käytetyt menetelmät ovat monissa tapauksissa suoraan otettu psykologisesta kirjallisuudesta operantti ehdollistaminen, ja operanttia ehdollistamista tutkittiin eläinpsykologian avulla. Muuten, Richard Sutton, toinen vahvistusoppimisen perustajista, on kandidaatin tutkinto psykologiassa. Operantin ehdottelun yhteydessä eläimet oppivat yhdistämään palkkion tai rangaistuksen tiettyihin käyttäytymismalleihin. Kouluttajat ja tutkijat voivat manipuloida tätä palkintoyhdistystä tavalla tai toisella provosoimalla eläimiä osoittamaan älykkyyttä tai tiettyjä käyttäytymismalleja. Eläintutkimuksessa käytetty operantti ehdollistaminen ei kuitenkaan ole muuta kuin selvempi muoto samasta ehdosta, jonka perusteella eläimet oppivat koko elämänsä ajan. Saamme jatkuvasti signaaleja positiivisesta vahvistuksesta ympäristöstä ja muokkaamme käyttäytymistämme sen mukaisesti. Itse asiassa monet neuro- ja kognitiotieteilijät uskovat, että ihmiset ja muut eläimet todella toimivat vielä korkeammalla tasolla ja oppivat jatkuvasti ennustamaan käyttäytymisensä lopputulosta tulevissa tilanteissa mahdollisten palkkioiden perusteella.

Ennustuksen keskeinen rooli kokemuksesta oppimisessa muuttaa yllä kuvattua dynamiikkaa merkittävästi. Aiemmin erittäin harvaksi pidetty signaali (jaksollinen palkkio) osoittautuu erittäin tiheäksi. Teoreettisesti tilanne on suunnilleen tällainen: kulloinkin nisäkkään aivot laskevat tuloksia monimutkaisten aistiärsykkeiden ja toimintojen virran perusteella, kun taas eläin on yksinkertaisesti upotettu tähän virtaan. Tällöin eläimen lopullinen käyttäytyminen antaa vahvan signaalin, jota on käytettävä ohjaamaan ennusteiden säätämistä ja käyttäytymisen kehittymistä. Aivot käyttävät kaikkia näitä signaaleja optimoidakseen ennusteita (ja vastaavasti toteutettujen toimien laatua) tulevaisuudessa. Yleiskatsaus tästä lähestymistavasta on erinomaisessa kirjassa "Surffauksen epävarmuus” kognitiivinen tiedemies ja filosofi Andy Clark. Jos ekstrapoloidaan tällainen päättely keinotekoisten tekijöiden koulutukseen, niin vahvistusoppimisen perustavanlaatuinen virhe paljastuu: tässä paradigmassa käytetty signaali on toivottoman heikko verrattuna siihen, mikä se voisi olla (tai sen pitäisi olla). Tapauksissa, joissa on mahdotonta lisätä signaalin kylläisyyttä (ehkä koska se on luonnostaan ​​heikko tai liittyy matalan tason reaktiivisuuteen), on luultavasti parempi suosia hyvin rinnakkaista koulutusmenetelmää, esimerkiksi ES.

Neuroverkkojen monipuolisempi koulutus

Jatkuvasti kiireisten ennusteiden tekemisessä oleville nisäkäsaivoille ominaisten korkeamman hermotoiminnan periaatteiden pohjalta on viime aikoina tapahtunut edistystä vahvistusoppimisessa, joka ottaa nyt huomioon tällaisten ennusteiden tärkeyden. Voin heti suositella kahta samanlaista teosta:

Molemmissa kirjoissa kirjoittajat täydentävät hermoverkkojensa tyypillistä oletuspolitiikkaa ennustetuloksilla ympäristön tulevaisuudesta. Ensimmäisessä artikkelissa ennustamista sovelletaan erilaisiin mittausmuuttujiin, ja toisessa ennustetta sovelletaan muutoksiin ympäristössä ja tekijän käyttäytymiseen sinänsä. Molemmissa tapauksissa positiiviseen vahvistukseen liittyvä harva signaali tulee paljon rikkaammaksi ja informatiivisemmaksi, mikä mahdollistaa sekä nopeamman oppimisen että monimutkaisempien käyttäytymismallien hankkimisen. Tällaisia ​​parannuksia on saatavilla vain gradienttisignaalia käyttävillä menetelmillä, ei "mustan laatikon" periaatteella toimivilla menetelmillä, kuten ES.

Lisäksi kokemuksesta oppiminen ja gradienttimenetelmät ovat paljon tehokkaampia. Jopa tapauksissa, joissa tiettyä ongelmaa oli mahdollista tutkia ES-menetelmällä nopeammin kuin vahvistusoppimista käyttämällä, voitto saavutettiin johtuen siitä, että ES-strategia sisälsi monta kertaa enemmän dataa kuin RL-menetelmällä. Pohdittaessa tässä tapauksessa oppimisen periaatteita eläimissä, huomaamme, että jonkun muun esimerkistä oppimisen tulos ilmenee useiden sukupolvien jälkeen, kun taas joskus yksi itse koettu tapahtuma riittää eläimelle oppimaan oppitunnin ikuisesti. Vaikka kuten koulutusta ilman esimerkkejä Vaikka se ei aivan sovi perinteisiin gradienttimenetelmiin, se on paljon ymmärrettävämpi kuin ES. On olemassa esimerkiksi lähestymistapoja, kuten hermoston episodiohjaus, johon Q-arvot tallennetaan harjoituksen aikana, minkä jälkeen ohjelma tarkistaa ne ennen toimenpiteisiin ryhtymistä. Tuloksena on gradienttimenetelmä, jonka avulla voit oppia ratkaisemaan ongelmia paljon nopeammin kuin ennen. Neuraalista episodiohjausta käsittelevässä artikkelissa kirjoittajat mainitsevat ihmisen hippokampuksen, joka pystyy säilyttämään tietoa tapahtumasta jopa yhden kokemuksen jälkeen ja siksi leikkii. kriittinen rooli muistamisprosessissa. Tällaiset mekanismit vaativat pääsyn agentin sisäiseen organisaatioon, mikä on myös määritelmän mukaan mahdotonta ES-paradigmassa.

Joten miksi ei yhdistää niitä?

On todennäköistä, että suuri osa tästä artikkelista saattaa jättää vaikutelman, että kannatan RL-menetelmiä. Itse asiassa olen kuitenkin sitä mieltä, että pitkällä aikavälillä paras ratkaisu on yhdistää molemmat menetelmät niin, että kumpaakin käytetään niissä tilanteissa, joissa se parhaiten sopii. On selvää, että monien reaktiivisten käytäntöjen tapauksessa tai tilanteissa, joissa positiivisen vahvistuksen signaalit ovat erittäin harvat, ES voittaa, varsinkin jos sinulla on käytettävissäsi laskentatehoa, jolla voit suorittaa massiivisesti rinnakkaista koulutusta. Toisaalta vahvistusoppimista tai ohjattua oppimista käyttävät gradienttimenetelmät ovat hyödyllisiä, kun saamme laajaa palautetta ja meidän on opittava ratkaisemaan ongelma nopeasti ja vähemmällä datalla.

Kääntyen luontoon huomaamme, että ensimmäinen menetelmä pohjimmiltaan luo perustan toiselle. Tästä syystä nisäkkäät ovat evoluution aikana kehittäneet aivot, joiden avulla ne voivat oppia erittäin tehokkaasti ympäristöstä tulevista monimutkaisista signaaleista. Joten kysymys jää avoimeksi. Ehkä evoluutiostrategiat auttavat meitä keksimään tehokkaita oppimisarkkitehtuureja, jotka ovat hyödyllisiä myös gradienttioppimismenetelmissä. Loppujen lopuksi luonnon löytämä ratkaisu on todella onnistunut.

Lähde: will.com

Lisää kommentti