Reinforcement learning o evolutionary strategies? - Pareho

Hoy Habr!

Hindi kami madalas magpasya na mag-post dito ng mga pagsasalin ng mga teksto na dalawang taong gulang, walang code at malinaw na pang-akademiko - ngunit ngayon ay gagawa kami ng pagbubukod. Inaasahan namin na ang dilemma na iniharap sa pamagat ng artikulo ay nag-aalala sa marami sa aming mga mambabasa, at nabasa mo na ang pangunahing gawain sa mga ebolusyonaryong estratehiya kung saan ang post na ito ay nakikipagtalo sa orihinal o babasahin ito ngayon. Maligayang pagdating sa pusa!

Reinforcement learning o evolutionary strategies? - Pareho

Noong Marso 2017, ang OpenAI ay gumawa ng mga wave sa deep learning community gamit ang papel na β€œMga Istratehiya sa Ebolusyon bilang Nasusukat na Alternatibo sa Pagpapatibay ng Pag-aaral.” Inilarawan ng gawaing ito ang mga kahanga-hangang resulta na pabor sa katotohanan na ang pag-aaral ng reinforcement (RL) ay hindi naging isang wedge, at kapag nagsasanay ng mga kumplikadong neural network, ipinapayong subukan ang iba pang mga pamamaraan. Ang isang debate pagkatapos ay sumiklab tungkol sa kahalagahan ng reinforcement na pag-aaral at kung gaano karapat-dapat ang katayuan nito bilang isang "dapat-may" na teknolohiya para sa pagtuturo ng paglutas ng problema. Dito nais kong sabihin na ang dalawang teknolohiyang ito ay hindi dapat ituring na nakikipagkumpitensya, na ang isa ay malinaw na mas mahusay kaysa sa iba; sa kabaligtaran, sila sa huli ay umaakma sa isa't isa. Sa katunayan, kung iisipin mo nang kaunti tungkol sa kung ano ang kinakailangan upang lumikha pangkalahatang AI at tulad ng mga sistema, na sa buong kanilang pag-iral ay may kakayahang matuto, maghusga at magplano, pagkatapos ay halos tiyak na makakarating tayo sa konklusyon na ito o ang pinagsamang solusyon ay kinakailangan. Sa pamamagitan ng paraan, tiyak na ang pinagsamang solusyon na ito ang dumating sa kalikasan, na pinagkalooban ng mga mammal at iba pang mas mataas na hayop na may kumplikadong katalinuhan sa panahon ng ebolusyon.

Mga Estratehiya sa Ebolusyon

Ang pangunahing thesis ng OpenAI na papel ay, sa halip na gumamit ng reinforcement learning na sinamahan ng tradisyonal na backpropagation, matagumpay nilang sinanay ang isang neural network upang malutas ang mga kumplikadong problema gamit ang tinatawag nilang "evolutionary strategy" (ES). Ang ES approach na ito ay binubuo ng pagpapanatili ng isang network-wide distribution ng mga timbang, na kinasasangkutan ng maraming ahente na nagtatrabaho nang magkatulad at paggamit ng mga parameter na pinili mula sa distribution na ito. Gumagana ang bawat ahente sa sarili nitong kapaligiran, at sa pagkumpleto ng isang tinukoy na bilang ng mga episode o yugto ng isang episode, ang algorithm ay nagbabalik ng pinagsama-samang reward, na ipinahayag bilang isang fitness score. Isinasaalang-alang ang halagang ito, ang pamamahagi ng mga parameter ay maaaring ilipat patungo sa mas matagumpay na mga ahente, na nag-aalis ng mga hindi gaanong matagumpay. Sa pamamagitan ng pag-uulit ng ganoong operasyon ng milyun-milyong beses na may partisipasyon ng daan-daang ahente, posibleng ilipat ang pamamahagi ng mga timbang sa isang puwang na magpapahintulot sa mga ahente na bumalangkas ng isang mataas na kalidad na patakaran para sa paglutas ng gawaing itinalaga sa kanila. Sa katunayan, ang mga resulta na ipinakita sa artikulo ay kahanga-hanga: ipinapakita na kung nagpapatakbo ka ng isang libong ahente nang magkatulad, kung gayon ang anthropomorphic locomotion sa dalawang binti ay maaaring matutunan sa wala pang kalahating oras (habang kahit na ang pinaka-advanced na mga pamamaraan ng RL ay nangangailangan ng paggastos ng higit pa. higit sa isang oras dito). Para sa mas detalyadong impormasyon, inirerekumenda kong basahin ang mahusay magpaskil mula sa mga may-akda ng eksperimento, pati na rin artikulong siyentipiko.

Reinforcement learning o evolutionary strategies? - Pareho

Iba't ibang estratehiya para sa pagtuturo ng anthropomorphic na tuwid na paglalakad, pinag-aralan gamit ang ES method mula sa OpenAI.

Itim na kahon

Ang malaking pakinabang ng pamamaraang ito ay madali itong maiparallelize. Habang ang mga pamamaraan ng RL, gaya ng A3C, ay nangangailangan ng impormasyon na palitan sa pagitan ng mga thread ng manggagawa at isang server ng parameter, ang ES ay nangangailangan lamang ng mga pagtatantya ng fitness at pangkalahatang impormasyon sa pamamahagi ng parameter. Ito ay dahil sa pagiging simple na ito na ang pamamaraang ito ay nauuna nang malayo sa mga modernong pamamaraan ng RL sa mga tuntunin ng mga kakayahan sa pag-scale. Gayunpaman, ang lahat ng ito ay hindi walang kabuluhan: kailangan mong i-optimize ang network ayon sa prinsipyo ng black box. Sa kasong ito, ang "itim na kahon" ay nangangahulugan na sa panahon ng pagsasanay ang panloob na istraktura ng network ay ganap na binabalewala, at tanging ang pangkalahatang resulta (gantimpala para sa episode) ay ginagamit, at ito ay nakasalalay dito kung ang mga bigat ng isang partikular na network ay mamanahin ng mga susunod na henerasyon. Sa mga sitwasyon kung saan wala kaming masyadong natatanggap na feedback mula sa kapaligiranβ€”at sa maraming tradisyunal na problema sa RL, napakakaunti ang daloy ng mga rewardβ€”mula sa pagiging "partly black box" ang problema ay naging "ganap na black box." Sa kasong ito, maaari mong makabuluhang taasan ang pagiging produktibo, kaya, siyempre, ang naturang kompromiso ay makatwiran. "Sino ang nangangailangan ng mga gradient kung sila ay walang pag-asa na maingay pa rin?" - ito ang pangkalahatang opinyon.

Gayunpaman, sa mga sitwasyon kung saan mas aktibo ang feedback, nagsisimulang magkamali ang mga bagay para sa ES. Inilalarawan ng koponan ng OpenAI kung paano sinanay ang isang simpleng network ng pag-uuri ng MNIST gamit ang ES, at sa pagkakataong ito ang pagsasanay ay 1000 beses na mas mabagal. Ang katotohanan ay ang gradient signal sa pag-uuri ng imahe ay lubos na nagbibigay-kaalaman tungkol sa kung paano ituro ang network ng mas mahusay na pag-uuri. Kaya, ang problema ay mas kaunti sa RL technique at higit pa sa mga kalat-kalat na reward sa mga kapaligiran na gumagawa ng maingay na gradient.

Solusyon ng kalikasan

Kung susubukan nating matuto mula sa halimbawa ng kalikasan, pag-iisip tungkol sa mga paraan upang bumuo ng AI, kung gayon sa ilang mga kaso, ang AI ay maaaring isipin bilang diskarte na nakatuon sa problema. Pagkatapos ng lahat, ang kalikasan ay nagpapatakbo sa loob ng mga hadlang na wala sa mga computer scientist. Mayroong isang opinyon na ang isang purong teoretikal na diskarte sa paglutas ng isang partikular na problema ay maaaring magbigay ng mas epektibong solusyon kaysa sa mga empirikal na alternatibo. Gayunpaman, sa tingin ko ay magiging kapaki-pakinabang na subukan kung paano ang isang dinamikong sistema na tumatakbo sa ilalim ng ilang mga hadlang (ang Earth) ay nakabuo ng mga ahente (mga hayop, partikular na ang mga mammal) na may kakayahang umangkop at kumplikadong pag-uugali. Bagama't ang ilan sa mga hadlang na ito ay hindi nalalapat sa simulate na data science world, ang iba ay ayos lang.

Ang pagkakaroon ng pagsusuri sa intelektwal na pag-uugali ng mga mammal, nakita natin na ito ay nabuo bilang isang resulta ng kumplikadong magkaparehong impluwensya ng dalawang malapit na magkakaugnay na proseso: natututo mula sa mga karanasan ng iba ΠΈ pag-aaral sa pamamagitan ng paggawa. Ang una ay madalas na tinutumbasan ng ebolusyon na hinihimok ng natural na seleksyon, ngunit dito ay gumagamit ako ng mas malawak na termino upang isaalang-alang ang epigenetics, microbiome, at iba pang mekanismo na nagbibigay-daan sa pagbabahagi ng mga karanasan sa pagitan ng mga genetically na hindi nauugnay na organismo. Ang pangalawang proseso, ang pag-aaral mula sa karanasan, ay ang lahat ng impormasyon na natutunan ng isang hayop sa buong buhay nito, at ang impormasyong ito ay direktang tinutukoy ng pakikipag-ugnayan ng hayop na ito sa labas ng mundo. Kasama sa kategoryang ito ang lahat mula sa pag-aaral na makilala ang mga bagay hanggang sa pag-master ng komunikasyong likas sa proseso ng pag-aaral.

Sa halos pagsasalita, ang dalawang prosesong ito na nagaganap sa kalikasan ay maihahambing sa dalawang opsyon para sa pag-optimize ng mga neural network. Ang mga ebolusyonaryong estratehiya, kung saan ang impormasyon tungkol sa mga gradient ay ginagamit upang i-update ang impormasyon tungkol sa organismo, ay malapit sa pagkatuto mula sa karanasan ng iba. Katulad nito, ang mga gradient na pamamaraan, kung saan ang pagkuha ng isa o ibang karanasan ay humahantong sa isa o isa pang pagbabago sa pag-uugali ng ahente, ay maihahambing sa pag-aaral mula sa sariling karanasan. Kung iisipin natin ang mga uri ng matalinong pag-uugali o kakayahan na nabubuo ng bawat isa sa dalawang pamamaraang ito sa mga hayop, ang paghahambing ay nagiging mas malinaw. Sa parehong mga kaso, ang "mga ebolusyonaryong pamamaraan" ay nagtataguyod ng pag-aaral ng mga reaktibong pag-uugali na nagpapahintulot sa isa na bumuo ng isang tiyak na kaangkupan (sapat upang manatiling buhay). Ang pag-aaral na lumakad o tumakas mula sa pagkabihag ay sa maraming pagkakataon ay katumbas ng higit pang mga "katutubo" na pag-uugali na "hard-wired" sa maraming mga hayop sa antas ng genetic. Bilang karagdagan, kinukumpirma ng halimbawang ito na ang mga evolutionary na pamamaraan ay naaangkop sa mga kaso kung saan ang signal ng reward ay napakabihirang (halimbawa, ang katotohanan ng matagumpay na pagpapalaki ng isang sanggol). Sa ganoong kaso, imposibleng iugnay ang gantimpala sa anumang partikular na hanay ng mga aksyon na maaaring naisagawa maraming taon bago ang katotohanan. Sa kabilang banda, kung isasaalang-alang natin ang isang kaso kung saan nabigo ang ES, katulad ng pag-uuri ng imahe, ang mga resulta ay kahanga-hangang maihahambing sa mga resulta ng pag-aaral ng hayop na nakamit sa hindi mabilang na mga eksperimento sa sikolohikal na pag-uugali na isinagawa sa loob ng 100-plus na taon.

Pag-aaral mula sa mga Hayop

Ang mga pamamaraan na ginamit sa reinforcement learning ay sa maraming mga kaso na direktang kinuha mula sa sikolohikal na literatura sa operant conditioning, at operant conditioning ay pinag-aralan gamit ang animal psychology. Siyanga pala, si Richard Sutton, isa sa dalawang tagapagtatag ng reinforcement learning, ay may bachelor's degree sa psychology. Sa konteksto ng operant conditioning, natututo ang mga hayop na iugnay ang gantimpala o parusa sa mga partikular na pattern ng pag-uugali. Maaaring manipulahin ng mga tagapagsanay at mananaliksik ang pagsasamahan ng gantimpala na ito sa isang paraan o iba pa, na naghihikayat sa mga hayop na magpakita ng katalinuhan o ilang partikular na pag-uugali. Gayunpaman, ang operant conditioning, gaya ng ginamit sa pagsasaliksik ng hayop, ay hindi hihigit sa isang mas malinaw na anyo ng parehong conditioning sa batayan kung saan natututo ang mga hayop sa buong buhay nila. Patuloy kaming nakakatanggap ng mga senyales ng positibong pagpapalakas mula sa kapaligiran at inaayos ang aming pag-uugali nang naaayon. Sa katunayan, maraming mga neuroscientist at cognitive scientist ang naniniwala na ang mga tao at iba pang mga hayop ay aktwal na gumagana sa mas mataas na antas at patuloy na natututong hulaan ang kahihinatnan ng kanilang pag-uugali sa mga sitwasyon sa hinaharap batay sa mga potensyal na gantimpala.

Ang pangunahing papel ng hula sa pag-aaral mula sa karanasan ay nagbabago sa dinamikong inilarawan sa itaas sa mga makabuluhang paraan. Ang signal na dating itinuturing na napakakaunti (episodic reward) ay lumalabas na napakakapal. Theoretically, ang sitwasyon ay isang bagay na tulad nito: sa anumang oras, ang utak ng mammal ay kinakalkula ang mga kinalabasan batay sa isang kumplikadong stream ng sensory stimuli at mga aksyon, habang ang hayop ay nakalubog lamang sa stream na ito. Sa kasong ito, ang pangwakas na pag-uugali ng hayop ay nagbibigay ng isang malakas na signal na dapat gamitin upang gabayan ang pagsasaayos ng mga pagtataya at pag-unlad ng pag-uugali. Ginagamit ng utak ang lahat ng mga signal na ito upang ma-optimize ang mga pagtataya (at, nang naaayon, ang kalidad ng mga aksyon na ginawa) sa hinaharap. Ang isang pangkalahatang-ideya ng diskarteng ito ay ibinigay sa mahusay na aklat "Kawalang-katiyakan sa Pag-surf” cognitive scientist at pilosopo na si Andy Clark. Kung isasaalang-alang natin ang gayong pangangatwiran sa pagsasanay ng mga artipisyal na ahente, kung gayon ang isang pangunahing depekto sa pag-aaral ng reinforcement ay ipinahayag: ang senyas na ginamit sa paradigm na ito ay walang pag-asa na mahina kumpara sa kung ano ito (o dapat). Sa mga kaso kung saan imposibleng mapataas ang saturation ng signal (marahil dahil ito ay likas na mahina o nauugnay sa mababang antas ng reaktibiti), malamang na mas gusto ang isang paraan ng pagsasanay na mahusay na parallelized, halimbawa, ES.

Mas mahusay na pagsasanay ng mga neural network

Ang pagbuo sa mga prinsipyo ng mas mataas na aktibidad ng neural na likas sa utak ng mammalian, na patuloy na abala sa paggawa ng mga hula, ang mga kamakailang pagsulong ay ginawa sa pag-aaral ng reinforcement, na ngayon ay isinasaalang-alang ang kahalagahan ng naturang mga hula. Maaari akong agad na magrekomenda ng dalawang katulad na mga gawa sa iyo:

Sa parehong mga papel na ito, ang mga may-akda ay nagdaragdag sa karaniwang default na patakaran ng kanilang mga neural network na may mga resulta ng hula tungkol sa kalagayan ng kapaligiran sa hinaharap. Sa unang artikulo, ang pagtataya ay inilalapat sa iba't ibang mga variable ng pagsukat, at sa pangalawa, ang pagtataya ay inilalapat sa mga pagbabago sa kapaligiran at sa pag-uugali ng ahente tulad nito. Sa parehong mga kaso, ang kalat-kalat na signal na nauugnay sa positibong reinforcement ay nagiging mas mayaman at mas nagbibigay-kaalaman, na nagbibigay-daan para sa parehong mas mabilis na pag-aaral at ang pagkuha ng mas kumplikadong mga pag-uugali. Available lang ang mga naturang pagpapahusay sa mga pamamaraan na gumagamit ng gradient signal, at hindi sa mga pamamaraan na gumagana sa prinsipyo ng "black box", gaya ng ES.

Bilang karagdagan, ang pag-aaral mula sa karanasan at mga pamamaraan ng gradient ay mas epektibo. Kahit na sa mga kaso kung saan posible na pag-aralan ang isang partikular na problema gamit ang ES method nang mas mabilis kaysa sa paggamit ng reinforcement learning, ang pakinabang ay nakamit dahil sa katotohanan na ang ES na diskarte ay nagsasangkot ng maraming beses na mas maraming data kaysa sa RL. Sa pagsasalamin sa kasong ito sa mga prinsipyo ng pag-aaral sa mga hayop, napansin namin na ang resulta ng pag-aaral mula sa halimbawa ng ibang tao ay nagpapakita ng sarili pagkatapos ng maraming henerasyon, habang kung minsan ang isang kaganapan na naranasan mismo ay sapat na para sa hayop na matuto ng aralin magpakailanman. Habang gusto pagsasanay nang walang mga halimbawa Bagama't hindi ito akma sa mga tradisyonal na pamamaraan ng gradient, mas naiintindihan ito kaysa sa ES. Mayroong, halimbawa, mga diskarte tulad ng neural episodic control, kung saan naka-imbak ang mga Q-value sa panahon ng pagsasanay, pagkatapos ay sinusuri ito ng programa bago gumawa ng mga aksyon. Ang resulta ay isang gradient na paraan na nagbibigay-daan sa iyong matutunan kung paano lutasin ang mga problema nang mas mabilis kaysa dati. Sa isang artikulo sa neural episodic control, binanggit ng mga may-akda ang hippocampus ng tao, na may kakayahang magpanatili ng impormasyon tungkol sa isang kaganapan kahit na pagkatapos ng isang karanasan at, samakatuwid, gumaganap. kritikal na tungkulin sa proseso ng pag-alala. Ang ganitong mga mekanismo ay nangangailangan ng pag-access sa panloob na organisasyon ng ahente, na, sa pamamagitan ng kahulugan, imposible sa paradigm ng ES.

Kaya, bakit hindi pagsamahin ang mga ito?

Malamang na karamihan sa artikulong ito ay maaaring mag-iwan ng impresyon na itinataguyod ko ang mga pamamaraan ng RL. Gayunpaman, talagang iniisip ko na sa katagalan ang pinakamahusay na solusyon ay pagsamahin ang parehong mga pamamaraan, upang ang bawat isa ay ginagamit sa mga sitwasyon kung saan ito ay pinakaangkop. Malinaw, sa kaso ng maraming mga reaktibong patakaran o sa mga sitwasyon na may napakakaunting mga senyales ng positibong pagpapalakas, ang ES ay nanalo, lalo na kung mayroon kang kapangyarihan sa pag-compute na iyong magagamit kung saan maaari kang magpatakbo ng malawakang parallel na pagsasanay. Sa kabilang banda, magiging kapaki-pakinabang ang mga gradient na pamamaraan gamit ang reinforcement learning o pinangangasiwaang pag-aaral kapag mayroon tayong access sa malawak na feedback at kailangan nating matutunan kung paano lutasin ang isang problema nang mabilis at may kaunting data.

Ang pagbabalik sa kalikasan, nakita natin na ang unang pamamaraan, sa esensya, ay naglalagay ng pundasyon para sa pangalawa. Ito ang dahilan kung bakit, sa paglipas ng panahon ng ebolusyon, ang mga mammal ay nakabuo ng mga utak na nagpapahintulot sa kanila na matuto nang lubos mula sa mga kumplikadong signal na nagmumula sa kapaligiran. Kaya, ang tanong ay nananatiling bukas. Marahil ang mga ebolusyonaryong estratehiya ay makakatulong sa atin na makaimbento ng mga epektibong arkitektura sa pag-aaral na magiging kapaki-pakinabang din para sa mga pamamaraan ng gradient na pag-aaral. Pagkatapos ng lahat, ang solusyon na natagpuan ng kalikasan ay talagang matagumpay.

Pinagmulan: www.habr.com

Magdagdag ng komento