Pagpalig-on sa pagkat-on o ebolusyonaryong estratehiya? - Ang duha

Hoy Habr!

Dili kami kanunay magdesisyon nga i-post dinhi ang mga hubad sa mga teksto nga duha ka tuig ang edad, nga wala’y code ug klaro nga usa ka akademiko nga kinaiya - apan karon maghimo kami usa ka eksepsiyon. Kami nanghinaut nga ang problema nga giatubang sa ulohan sa artikulo nakapabalaka sa kadaghanan sa among mga magbabasa, ug nabasa na nimo ang sukaranan nga buhat sa mga ebolusyonaryong estratehiya nga kini nga post nangatarungan sa orihinal o basahon kini karon. Welcome sa iring!

Pagpalig-on sa pagkat-on o ebolusyonaryong estratehiya? - Ang duha

Niadtong Marso 2017, ang OpenAI naghimo og mga balud sa lawom nga komunidad sa pagkat-on uban ang papel nga "Mga Estratehiya sa Ebolusyon isip Usa ka Mabag-o nga Alternatibo sa Pagpalig-on sa Pagkat-on" Kini nga trabaho naghulagway sa impresibo nga mga resulta pabor sa kamatuoran nga ang reinforcement learning (RL) wala mahimong usa ka wedge, ug sa diha nga ang pagbansay sa komplikado nga neural network, kini mao ang advisable sa pagsulay sa ubang mga pamaagi. Miulbo dayon ang usa ka debate bahin sa kamahinungdanon sa pagpalig-on sa pagkat-on ug kung unsa ka takos ang kahimtang niini isip usa ka "kinahanglan-adunay" nga teknolohiya alang sa pagtudlo sa pagsulbad sa problema. Dinhi gusto nakong isulti nga kining duha ka mga teknolohiya dili angay isipon nga nagkompetensya, ang usa niini klaro nga mas maayo kay sa lain; sa kasukwahi, sila sa katapusan nagtinabangay sa usag usa. Sa tinuud, kung maghunahuna ka gamay kung unsa ang kinahanglan sa paghimo kinatibuk-ang AI ug ang ingon nga mga sistema, nga sa tibuok nilang paglungtad mahimong makahimo sa pagkat-on, paghukom ug pagplano, nan hapit gyud kita moabut sa konklusyon nga kini o kana nga hiniusa nga solusyon kinahanglan. Pinaagi sa dalan, kini mao gayud ang hiniusa nga solusyon nga ang kinaiyahan miabut, nga naghatag sa mga mammal ug uban pang mas taas nga mga mananap nga adunay komplikado nga paniktik sa panahon sa ebolusyon.

Mga Estratehiya sa Ebolusyon

Ang nag-unang thesis sa OpenAI nga papel mao nga, imbes nga gamiton ang reinforcement learning inubanan sa tradisyonal nga backpropagation, malampuson nilang gibansay ang usa ka neural network aron masulbad ang mga komplikadong problema gamit ang gitawag nila nga "evolutionary strategy" (ES). Kini nga pamaagi sa ES naglangkob sa pagpadayon sa usa ka network-wide nga pag-apod-apod sa mga gibug-aton, nga naglambigit sa daghang mga ahente nga nagtrabaho nga managsama ug gigamit ang mga parameter nga gipili gikan sa kini nga pag-apod-apod. Ang matag ahente naglihok sa kaugalingon nga palibot, ug pagkahuman sa usa ka piho nga gidaghanon sa mga yugto o yugto sa usa ka yugto, ang algorithm nagbalik sa usa ka cumulative nga ganti, nga gipahayag ingon usa ka fitness score. Sa pagkonsiderar niini nga bili, ang pag-apod-apod sa mga parameter mahimong ibalhin ngadto sa mas malampuson nga mga ahente, nga maghikaw sa dili kaayo malampuson. Pinaagi sa pagsubli sa ingon nga operasyon nga minilyon ka beses uban ang pag-apil sa gatusan nga mga ahente, posible nga ibalhin ang pag-apod-apod sa mga gibug-aton sa usa ka wanang nga magtugot sa mga ahente nga maghimo usa ka taas nga kalidad nga palisiya alang sa pagsulbad sa buluhaton nga gihatag kanila. Sa tinuud, ang mga resulta nga gipresentar sa artikulo makapahingangha: gipakita nga kung magpadagan ka usa ka libo nga ahente nga managsama, nan ang anthropomorphic locomotion sa duha ka mga tiil mahimong mahibal-an sa wala’y tunga sa oras (samtang bisan ang labing abante nga mga pamaagi sa RL nanginahanglan paggasto labi pa. kay sa usa ka oras niini). Alang sa mas detalyado nga kasayuran, girekomenda nako ang pagbasa sa maayo kaayo post gikan sa mga tagsulat sa eksperimento, ingon man usab siyentipikong artikulo.

Pagpalig-on sa pagkat-on o ebolusyonaryong estratehiya? - Ang duha

Lahi nga mga estratehiya sa pagtudlo sa anthropomorphic nga tul-id nga paglakaw, gitun-an gamit ang ES nga pamaagi gikan sa OpenAI.

Itom nga kahon

Ang dako nga kaayohan niini nga pamaagi mao nga kini dali nga maparehas. Samtang ang mga pamaagi sa RL, sama sa A3C, nanginahanglan nga ibaylo ang kasayuran tali sa mga thread sa trabahante ug usa ka server sa parameter, ang ES nanginahanglan lamang mga banabana sa kahimsog ug kasayuran sa pag-apod-apod sa kinatibuk-ang parameter. Tungod niini nga kayano nga kini nga pamaagi labi ka nag-una sa mga modernong pamaagi sa RL sa mga termino sa mga kapabilidad sa pag-scale. Bisan pa, kining tanan dili moabut sa kawang: kinahanglan nimo nga ma-optimize ang network sumala sa prinsipyo sa itom nga kahon. Sa kini nga kaso, ang "itom nga kahon" nagpasabut nga sa panahon sa pagbansay ang internal nga istruktura sa network hingpit nga gibalewala, ug ang kinatibuk-ang resulta (ganti para sa yugto) lamang ang gigamit, ug kini nagdepende kung ang mga gibug-aton sa usa ka partikular nga network mahimo ba. mapanunod sa mosunod nga mga henerasyon. Sa mga sitwasyon diin wala kami makadawat og daghang feedback gikan sa kalikopan-ug sa daghang tradisyonal nga mga problema sa RL ang dagan sa mga ganti gamay ra kaayo-ang problema gikan sa usa ka "partly black box" ngadto sa "bug-os nga itom nga kahon." Sa kini nga kaso, mahimo nimong madugangan ang pagka-produktibo, busa, siyempre, ang ingon nga pagkompromiso makatarunganon. "Kinsa ang nanginahanglan mga gradients kung sila saba gihapon?" - kini ang kinatibuk-ang opinyon.

Bisan pa, sa mga sitwasyon diin ang feedback mas aktibo, ang mga butang nagsugod nga dili maayo alang sa ES. Gihubit sa OpenAI team kung giunsa ang usa ka yano nga network sa klasipikasyon sa MNIST gibansay gamit ang ES, ug niining higayona ang pagbansay 1000 ka beses nga hinay. Ang tinuod mao nga ang gradient signal sa klasipikasyon sa imahe hilabihan ka impormasyon bahin sa kung unsaon pagtudlo sa network nga mas maayo nga klasipikasyon. Sa ingon, ang problema gamay ra sa teknik sa RL ug labi pa nga adunay gamay nga mga ganti sa mga palibot nga nagpatunghag saba nga mga gradient.

Solusyon sa kinaiyahan

Kon kita mosulay sa pagkat-on gikan sa panig-ingnan sa kinaiyahan, naghunahuna mahitungod sa mga paagi sa pagpalambo sa AI, unya sa pipila ka mga kaso AI mahimong hunahunaon ingon nga problema-oriented nga pamaagi. Sa pagkatinuod, ang kinaiyahan naglihok sulod sa mga limitasyon nga wala sa mga siyentipiko sa kompyuter. Adunay usa ka opinyon nga ang usa ka lunsay nga teoretikal nga pamaagi sa pagsulbad sa usa ka partikular nga problema makahatag og mas epektibo nga mga solusyon kaysa empirical nga mga alternatibo. Bisan pa, naghunahuna gihapon ako nga angayan nga sulayan kung giunsa ang usa ka dinamikong sistema nga naglihok ubos sa pipila nga mga pagpugong (ang Yuta) nakamugna og mga ahente (mga hayop, labi na ang mga mammal) nga makahimo sa flexible ug komplikado nga pamatasan. Samtang ang pipila niini nga mga pagpugong wala magamit sa simulate data science nga kalibutan, ang uban maayo ra.

Sa pagsusi sa intelektwal nga kinaiya sa mga mananap nga sus-an, atong makita nga kini naporma isip resulta sa komplikadong impluwensya sa usag usa sa duha ka suod nga magkalambigit nga mga proseso: pagkat-on gikan sa mga kasinatian sa uban и pagkat-on pinaagi sa pagbuhat. Ang nahauna kanunay nga gipakasama sa ebolusyon nga gimaneho sa natural nga pagpili, apan dinhi akong gigamit ang usa ka mas lapad nga termino aron tagdon ang epigenetics, microbiome, ug uban pang mga mekanismo nga makahimo sa pagpaambit sa mga kasinatian tali sa genetically nga wala’y kalabutan nga mga organismo. Ang ikaduha nga proseso, ang pagkat-on gikan sa kasinatian, mao ang tanan nga kasayuran nga nahibal-an sa usa ka hayop sa tibuuk nga kinabuhi niini, ug kini nga kasayuran direkta nga gitino pinaagi sa interaksyon niini nga hayop sa gawas nga kalibutan. Kini nga kategoriya naglakip sa tanan gikan sa pagkat-on sa pag-ila sa mga butang ngadto sa paghanas sa komunikasyon nga kinaiyanhon sa proseso sa pagkat-on.

Sa kasagaran nga pagsulti, kining duha ka mga proseso nga nahitabo sa kinaiyahan mahimong itandi sa duha ka mga kapilian alang sa pag-optimize sa mga neural network. Ang mga estratehiya sa ebolusyon, diin ang impormasyon bahin sa mga gradient gigamit sa pag-update sa impormasyon bahin sa organismo, duol sa pagkat-on gikan sa kasinatian sa uban. Sa susama, ang gradient nga mga pamaagi, diin ang pag-angkon sa usa o lain nga kasinatian mosangpot sa usa o lain nga kausaban sa kinaiya sa ahente, ikatandi sa pagkat-on gikan sa kaugalingong kasinatian. Kon atong hunahunaon ang mga matang sa intelihente nga kinaiya o abilidad nga ang matag usa niining duha ka mga pamaagi naugmad sa mga mananap, ang pagtandi mahimong mas klaro. Sa duha nga mga kaso, ang "mga pamaagi sa ebolusyon" nagpasiugda sa pagtuon sa mga reaktibo nga pamatasan nga nagtugot sa usa nga makapalambo sa usa ka piho nga kahimsog (igo nga magpabilin nga buhi). Ang pagkat-on sa paglakaw o pag-ikyas gikan sa pagkabihag sa daghang mga kaso katumbas sa mas "kinaiyanhon" nga mga kinaiya nga "hard-wired" sa daghang mga hayop sa genetic nga lebel. Dugang pa, kini nga pananglitan nagpamatuod nga ang ebolusyonaryong mga pamaagi magamit sa mga kaso diin ang reward signal talagsaon kaayo (pananglitan, ang kamatuoran sa malampuson nga pagpadako sa usa ka bata). Sa ingon nga kaso, imposible nga i-correlate ang ganti sa bisan unsang piho nga hugpong sa mga aksyon nga mahimo’g nahimo daghang mga tuig sa wala pa mahitabo kini nga kamatuoran. Sa laing bahin, kung atong tagdon ang usa ka kaso diin ang ES napakyas, nga mao ang klasipikasyon sa imahe, ang mga resulta talagsaon nga ikatandi sa mga resulta sa pagkat-on sa mananap nga nakab-ot sa dili maihap nga mga eksperimento sa panggawi nga sikolohikal nga gihimo sulod sa 100-plus nga mga tuig.

Pagkat-on gikan sa mga Hayop

Ang mga pamaagi nga gigamit sa reinforcement pagkat-on sa daghang mga kaso nga gikuha direkta gikan sa psychological literatura sa operant conditioning, ug operant conditioning gitun-an gamit ang animal psychology. Pinaagi sa dalan, si Richard Sutton, usa sa duha ka mga founder sa reinforcement learning, adunay bachelor's degree sa psychology. Sa konteksto sa operant conditioning, ang mga hayop nakakat-on sa pag-asoy sa ganti o silot sa piho nga mga sumbanan sa pamatasan. Ang mga tigbansay ug mga tigdukiduki mahimong magmaniobra niini nga asosasyon sa ganti sa usa ka paagi o sa lain, nga maghagit sa mga hayop aron ipakita ang salabutan o pipila nga mga pamatasan. Bisan pa, ang operant conditioning, ingon nga gigamit sa panukiduki sa hayop, wala’y labi pa sa usa ka labi nga gipahayag nga porma sa parehas nga pagkondisyon nga gibase sa nahibal-an sa mga hayop sa ilang kinabuhi. Kanunay kaming makadawat og mga senyales sa positibo nga pagpalig-on gikan sa kalikopan ug ipahiangay ang among pamatasan sumala niana. Sa tinuud, daghang mga neuroscientist ug mga siyentipiko sa panghunahuna ang nagtuo nga ang mga tawo ug uban pang mga hayop aktwal nga naglihok sa mas taas nga lebel ug padayon nga nakakat-on sa pagtagna sa sangputanan sa ilang pamatasan sa umaabot nga mga sitwasyon base sa potensyal nga mga ganti.

Ang sentro nga papel sa panagna sa pagkat-on gikan sa kasinatian nagbag-o sa dinamika nga gihulagway sa ibabaw sa hinungdanon nga mga paagi. Ang signal nga kaniadto giisip nga gamay kaayo (episodic reward) nahimo nga labi ka dasok. Sa teoriya, ang sitwasyon usa ka butang nga sama niini: sa bisan unsang panahon, ang utok sa mammal nagkalkula sa mga resulta base sa usa ka komplikadong sapa sa sensory stimuli ug mga aksyon, samtang ang mananap yano nga naunlod niini nga sapa. Sa kini nga kaso, ang katapusan nga kinaiya sa mananap naghatag sa usa ka lig-on nga signal nga kinahanglan nga gamiton sa paggiya sa pag-adjust sa mga panagna ug sa pagpalambo sa kinaiya. Gigamit sa utok ang tanan niini nga mga signal aron ma-optimize ang mga panagna (ug, sumala niana, ang kalidad sa mga aksyon nga gihimo) sa umaabot. Usa ka kinatibuk-ang ideya sa kini nga pamaagi gihatag sa maayo kaayo nga libro "Kawalay kasiguruhan sa pag-surf” cognitive scientist ug pilosopo nga si Andy Clark. Kung atong i-extrapolate ang ingon nga pangatarungan sa pagbansay sa mga artipisyal nga ahente, nan ang usa ka sukaranan nga sayup sa pagkat-on sa pagpalig-on gipadayag: ang signal nga gigamit sa kini nga paradigma wala’y paglaum nga huyang kung itandi sa kung unsa kini (o kinahanglan). Sa mga kaso diin imposible nga madugangan ang saturation sa signal (tingali tungod kay kini sa kinaiyanhon nga huyang o nalangkit sa ubos nga lebel nga reaktibo), mas maayo nga mas gusto ang usa ka pamaagi sa pagbansay nga maayo ang pagkaparehas, pananglitan, ES.

Mas maayo nga pagbansay sa mga neural network

Ang pagtukod sa mga prinsipyo sa mas taas nga kalihokan sa neural nga kinaiyanhon sa utok sa mammalian, nga kanunay nga nagkapuliki sa paghimo sa mga panagna, ang bag-o nga mga pag-uswag gihimo sa reinforcement nga pagkat-on, nga karon naghunahuna sa kamahinungdanon sa maong mga panagna. Makarekomendar dayon ko og duha ka susama nga mga buhat kanimo:

Sa duha niini nga mga papel, ang mga tagsulat nagdugang sa tipikal nga default nga palisiya sa ilang mga neural network nga adunay mga resulta sa panagna mahitungod sa kahimtang sa palibot sa umaabot. Sa una nga artikulo, ang pagtagna gipadapat sa lainlaing mga variable sa pagsukod, ug sa ikaduha, ang pagtagna gipadapat sa mga pagbag-o sa palibot ug ang pamatasan sa ahente nga ingon niana. Sa duha ka mga kaso, ang gamay nga signal nga may kalabutan sa positibo nga pagpalig-on mahimong labi ka labi ka labi ka labi ka kasayuran, nga nagtugot alang sa labi ka paspas nga pagkat-on ug pag-angkon sa labi ka komplikado nga pamatasan. Ang ingon nga mga pag-uswag magamit lamang sa mga pamaagi nga naggamit sa usa ka gradient signal, ug dili sa mga pamaagi nga naglihok sa usa ka prinsipyo nga "itom nga kahon", sama sa ES.

Dugang pa, ang pagkat-on gikan sa kasinatian ug mga pamaagi sa gradient mas epektibo. Bisan sa mga kaso diin posible nga tun-an ang usa ka partikular nga problema gamit ang ES nga pamaagi nga mas paspas kay sa paggamit sa reinforcement nga pagkat-on, ang ganansya nakab-ot tungod sa kamatuoran nga ang ES nga estratehiya naglakip sa daghang mga higayon nga mas daghang datos kay sa RL. Ang pagpamalandong niini nga kaso sa mga prinsipyo sa pagkat-on sa mga mananap, atong matikdan nga ang resulta sa pagkat-on gikan sa panig-ingnan sa laing tawo nagpakita sa kaugalingon human sa daghang mga henerasyon, samtang usahay ang usa ka panghitabo nga nasinati sa iyang kaugalingon igo na alang sa mananap nga makakat-on sa leksyon sa walay katapusan. Samtang nag like pagbansay nga walay mga ehemplo Bisan kung dili kini mohaum sa tradisyonal nga mga pamaagi sa gradient, mas masabtan kini kaysa ES. Adunay, pananglitan, mga pamaagi sama sa kontrol sa neural episodic, diin ang Q-values ​​​​gitipigan sa panahon sa pagbansay, pagkahuman gisusi kini sa programa sa wala pa molihok. Ang resulta usa ka pamaagi sa gradient nga nagtugot kanimo nga mahibal-an kung giunsa pagsulbad ang mga problema nga labi ka paspas kaysa kaniadto. Sa usa ka artikulo sa neural episodic control, ang mga tagsulat naghisgot sa hippocampus sa tawo, nga makahimo sa pagpabilin sa impormasyon mahitungod sa usa ka panghitabo bisan human sa usa ka kasinatian ug, busa, nagdula. kritikal nga papel sa proseso sa paghinumdom. Ang ingon nga mga mekanismo nanginahanglan pag-access sa internal nga organisasyon sa ahente, nga, sa kahulugan, imposible sa paradigm sa ES.

Busa, nganong dili maghiusa kanila?

Lagmit nga kadaghanan sa kini nga artikulo mahimong magbilin sa impresyon nga akong gipasiugda ang mga pamaagi sa RL. Bisan pa, sa tinuud naghunahuna ako nga sa kadugayan ang labing kaayo nga solusyon mao ang paghiusa sa duha nga mga pamaagi, aron ang matag usa gigamit sa mga sitwasyon diin kini labing angay. Dayag nga, sa kaso sa daghang mga reaktibo nga mga palisiya o sa mga sitwasyon nga adunay gamay nga mga senyales sa positibo nga pagpalig-on, ang ES nagdaog, labi na kung ikaw adunay gahum sa pag-compute nga imong magamit diin mahimo ka magpadagan sa daghang managsama nga pagbansay. Sa laing bahin, ang gradient nga mga pamaagi gamit ang reinforcement learning o supervised learning mahimong mapuslanon kung kita adunay access sa halapad nga feedback ug kinahanglan nga makat-on unsaon pagsulbad sa usa ka problema sa madali ug sa gamay nga data.

Sa pagbalik ngadto sa kinaiyahan, atong makita nga ang unang pamaagi, sa esensya, nagpahimutang sa pundasyon alang sa ikaduha. Mao kini ang hinungdan, sa dagan sa ebolusyon, ang mga mammal nakaugmad ug utok nga nagtugot kanila sa pagkat-on sa hilabihan ka epektibo gikan sa komplikadong mga signal nga gikan sa palibot. Busa, ang pangutana nagpabiling bukas. Tingali ang mga estratehiya sa ebolusyon makatabang kanato sa pag-imbento sa epektibo nga mga arkitektura sa pagkat-on nga magamit usab sa mga pamaagi sa pagkat-on sa gradient. Human sa tanan, ang solusyon nga nakit-an sa kinaiyahan malampuson kaayo.

Source: www.habr.com

Idugang sa usa ka comment