MÄcÄ«bu pastiprinÄÅ”ana vai evolÅ«cijas stratÄÄ£ijas? - Abi
Äau Habr!
MÄs bieži neizlemjam Å”eit ievietot divus gadus vecu tekstu tulkojumus, bez koda un nepÄrprotami akadÄmisku raksturu, taÄu Å”odien mÄs izdarÄ«sim izÅÄmumu. MÄs ceram, ka raksta nosaukumÄ izvirzÄ«tÄ dilemma satrauc daudzus mÅ«su lasÄ«tÄjus, un jÅ«s jau esat izlasÄ«juÅ”i fundamentÄlo darbu par evolÅ«cijas stratÄÄ£ijÄm, ar kuriem Å”is ieraksts strÄ«das oriÄ£inÄlÄ vai lasÄ«s to tagad. Laipni lÅ«dzam kaÄ·Ä«!
2017. gada martÄ OpenAI radÄ«ja viļÅus dziļÄs mÄcÄ«Å”anÄs kopienÄ ar dokumentu āEvolÅ«cijas stratÄÄ£ijas kÄ mÄrogojama alternatÄ«va pastiprinoÅ”ai apmÄcÄ«baiā. Å ajÄ darbÄ tika aprakstÄ«ti iespaidÄ«gi rezultÄti par labu tam, ka pastiprinÄÅ”anas mÄcÄ«Å”anÄs (RL) nav kļuvusi par Ä·Ä«li, un, apmÄcot sarežģītus neironu tÄ«klus, ir ieteicams izmÄÄ£inÄt citas metodes. PÄc tam izcÄlÄs debates par mÄcÄ«Å”anÄs pastiprinÄÅ”anas nozÄ«mi un to, cik tÄ ir pelnÄ«jusi tÄs kÄ āobligÄtÄsā tehnoloÄ£ijas statusu problÄmu risinÄÅ”anas mÄcÄ«Å”anai. Å eit es gribu teikt, ka Ŕīs divas tehnoloÄ£ijas nevajadzÄtu uzskatÄ«t par konkurÄjoÅ”Äm, no kurÄm viena ir nepÄrprotami labÄka par otru; gluži pretÄji, tie galu galÄ papildina viens otru. PatieÅ”Äm, ja mazliet padomÄjat par to, kas nepiecieÅ”ams, lai radÄ«tu vispÄrÄjais AI un tÄdas sistÄmas, kuras visÄ to pastÄvÄÅ”anas laikÄ bÅ«tu spÄjÄ«gas mÄcÄ«ties, spriest un plÄnot, tad gandrÄ«z noteikti nonÄksim pie secinÄjuma, ka bÅ«s vajadzÄ«gs tas vai cits kombinÄtais risinÄjums. Starp citu, tieÅ”i pie Ŕī kombinÄtÄ risinÄjuma nonÄca daba, kas evolÅ«cijas gaitÄ apveltÄ«ja zÄ«dÄ«tÄjus un citus augstÄkos dzÄ«vniekus ar sarežģītu intelektu.
EvolÅ«cijas stratÄÄ£ijas
OpenAI darba galvenÄ tÄze bija tÄda, ka tÄ vietÄ, lai izmantotu pastiprinoÅ”o mÄcÄ«Å”anos kopÄ ar tradicionÄlo atpakaļpavairoÅ”anu, viÅi veiksmÄ«gi apmÄcÄ«ja neironu tÄ«klu, lai atrisinÄtu sarežģītas problÄmas, izmantojot to, ko viÅi sauca par āevolÅ«cijas stratÄÄ£ijuā (ES). Å Ä« ES pieeja sastÄv no tÄ«kla mÄroga svara sadalÄ«juma uzturÄÅ”anas, iesaistot vairÄkus aÄ£entus, kas strÄdÄ paralÄli, un izmantojot parametrus, kas atlasÄ«ti no Ŕī sadalÄ«juma. Katrs aÄ£ents darbojas savÄ vidÄ, un pÄc noteikta skaita epizožu vai epizodes posmu pabeigÅ”anas algoritms atgriež kumulatÄ«vo atlÄ«dzÄ«bu, kas izteikta kÄ fitnesa rezultÄts. Å emot vÄrÄ Å”o vÄrtÄ«bu, parametru sadalÄ«jumu var novirzÄ«t uz veiksmÄ«gÄkiem aÄ£entiem, atÅemot mazÄk veiksmÄ«gos. Miljoniem reižu atkÄrtojot Å”Ädu operÄciju ar simtiem aÄ£entu piedalÄ«Å”anos, ir iespÄjams svaru sadalÄ«jumu pÄrcelt uz telpu, kas ļaus aÄ£entiem noformulÄt kvalitatÄ«vu politiku viÅiem uzdotÄ uzdevuma risinÄÅ”anai. PatieÅ”Äm, rakstÄ izklÄstÄ«tie rezultÄti ir iespaidÄ«gi: tiek parÄdÄ«ts, ka, ja paralÄli darbinÄt tÅ«kstoÅ” aÄ£entu, tad antropomorfo kustÄ«bu uz divÄm kÄjÄm var apgÅ«t mazÄk nekÄ pusstundÄ (kamÄr pat vismodernÄkÄs RL metodes prasa vairÄk tÄrÄt par vienu stundu). Lai iegÅ«tu sÄ«kÄku informÄciju, iesaku izlasÄ«t izcilo post no eksperimenta autoriem, kÄ arÄ« zinÄtniskais raksts.
DažÄdas stratÄÄ£ijas antropomorfÄs stÄvus staigÄÅ”anas mÄcÄ«Å”anai, pÄtÄ«tas, izmantojot OpenAI ES metodi.
MelnÄ kaste
Å Ä«s metodes lielais ieguvums ir tas, ka to var viegli paralÄli. Lai gan RL metodÄm, piemÄram, A3C, ir nepiecieÅ”ama informÄcijas apmaiÅa starp darbinieku pavedieniem un parametru serveri, ES ir nepiecieÅ”ami tikai piemÄrotÄ«bas aprÄÄ·ini un vispÄrÄ«ga parametru sadalÄ«juma informÄcija. Å Ä«s vienkÄrŔības dÄļ Ŕī metode mÄrogoÅ”anas iespÄju ziÅÄ ir tÄlu priekÅ”Ä mÅ«sdienu RL metodÄm. TomÄr tas viss nenÄk velti: tÄ«kls ir jÄoptimizÄ pÄc melnÄs kastes principa. Å ajÄ gadÄ«jumÄ "melnÄ kaste" nozÄ«mÄ, ka apmÄcÄ«bas laikÄ tÄ«kla iekÅ”ÄjÄ struktÅ«ra tiek pilnÄ«bÄ ignorÄta un tiek izmantots tikai kopÄjais rezultÄts (atlÄ«dzÄ«ba par epizodi), un no tÄ ir atkarÄ«gs, vai konkrÄtÄ tÄ«kla svari tiks izmantoti. mantot nÄkamÄs paaudzes. SituÄcijÄs, kad nesaÅemam daudz atgriezeniskÄs saites no vides ā un daudzÄs tradicionÄlajÄs RL problÄmÄs atlÄ«dzÄ«bas plÅ«sma ir ļoti niecÄ«ga ā problÄma kļūst no ādaļÄji melnÄs kastesā uz āpilnÄ«gi melnu kastiā. Å ajÄ gadÄ«jumÄ jÅ«s varat ievÄrojami palielinÄt produktivitÄti, tÄpÄc, protams, Å”Äds kompromiss ir pamatots. "Kam vajadzÄ«gi gradienti, ja tie tik un tÄ ir bezcerÄ«gi trokÅ”Åaini?" - tÄds ir vispÄrÄjs viedoklis.
TomÄr situÄcijÄs, kad atgriezeniskÄ saite ir aktÄ«vÄka, ES lietas sÄk noiet greizi. OpenAI komanda apraksta, kÄ vienkÄrÅ”s MNIST klasifikÄcijas tÄ«kls tika apmÄcÄ«ts, izmantojot ES, un Å”oreiz apmÄcÄ«ba bija 1000 reižu lÄnÄka. Fakts ir tÄds, ka gradienta signÄls attÄlu klasifikÄcijÄ ir ļoti informatÄ«vs par to, kÄ mÄcÄ«t tÄ«klam labÄku klasifikÄciju. TÄdÄjÄdi problÄma ir mazÄka ar RL paÅÄmienu un vairÄk ar retiem ieguvumiem vidÄs, kas rada trokÅ”Åainus gradientus.
Dabas risinÄjums
Ja mÄs cenÅ”amies mÄcÄ«ties no dabas piemÄra, domÄjot par veidiem, kÄ attÄ«stÄ«t AI, tad dažos gadÄ«jumos AI var uzskatÄ«t par uz problÄmÄm orientÄta pieeja. Galu galÄ daba darbojas tÄdu ierobežojumu ietvaros, kÄdu datorzinÄtniekiem vienkÄrÅ”i nav. PastÄv uzskats, ka tÄ«ri teorÄtiska pieeja konkrÄtas problÄmas risinÄÅ”anai var sniegt efektÄ«vÄkus risinÄjumus nekÄ empÄ«riskas alternatÄ«vas. TomÄr es joprojÄm uzskatu, ka bÅ«tu vÄrts pÄrbaudÄ«t, kÄ dinamiska sistÄma, kas darbojas saskaÅÄ ar noteiktiem ierobežojumiem (Zeme), ir radÄ«jusi aÄ£entus (dzÄ«vniekus, Ä«paÅ”i zÄ«dÄ«tÄjus), kas spÄj elastÄ«gi un sarežģīti rÄ«koties. Lai gan daži no Å”iem ierobežojumiem neattiecas uz simulÄtajÄm datu zinÄtnes pasaulÄm, citi ir lieliski.
IzpÄtot zÄ«dÄ«tÄju intelektuÄlo uzvedÄ«bu, redzam, ka tÄ veidojas divu savstarpÄji cieÅ”i saistÄ«tu procesu sarežģītas savstarpÄjas ietekmes rezultÄtÄ: mÄcÄ«ties no citu pieredzes Šø mÄcÄ«ties darot. Pirmo bieži pielÄ«dzina evolÅ«cijai, ko virza dabiskÄ atlase, taÄu Å”eit es lietoju plaÅ”Äku terminu, lai Åemtu vÄrÄ epigenÄtiku, mikrobiomas un citus mehÄnismus, kas ļauj dalÄ«ties pieredzÄ starp Ä£enÄtiski nesaistÄ«tiem organismiem. Otrs process, mÄcÄ«Å”anÄs no pieredzes, ir visa informÄcija, ko dzÄ«vniekam izdodas apgÅ«t dzÄ«ves laikÄ, un Å”o informÄciju tieÅ”i nosaka Ŕī dzÄ«vnieka mijiedarbÄ«ba ar Ärpasauli. Å ajÄ kategorijÄ ietilpst viss, sÄkot no mÄcÄ«Å”anÄs atpazÄ«t objektus lÄ«dz mÄcÄ«bu procesam raksturÄ«gÄs komunikÄcijas apguvei.
Aptuveni runÄjot, Å”os divus dabÄ notiekoÅ”os procesus var salÄ«dzinÄt ar divÄm neironu tÄ«klu optimizÄcijas iespÄjÄm. EvolÅ«cijas stratÄÄ£ijas, kurÄs informÄciju par gradientiem izmanto, lai atjauninÄtu informÄciju par organismu, ir tuvu mÄcÄ«bÄm no citu pieredzes. TÄpat gradienta metodes, kur vienas vai otras pieredzes iegÅ«Å”ana noved pie tÄdÄm vai citÄm aÄ£enta uzvedÄ«bas izmaiÅÄm, ir salÄ«dzinÄmas ar mÄcÄ«Å”anos no paÅ”a pieredzes. Ja mÄs domÄjam par saprÄtÄ«gas uzvedÄ«bas vai spÄju veidiem, ko katra no Ŕīm divÄm pieejÄm attÄ«sta dzÄ«vniekiem, salÄ«dzinÄjums kļūst izteiktÄks. Abos gadÄ«jumos "evolÅ«cijas metodes" veicina reaktÄ«vas uzvedÄ«bas izpÄti, kas ļauj attÄ«stÄ«t noteiktu piemÄrotÄ«bu (pietiekamu, lai paliktu dzÄ«vs). MÄcÄ«Å”anÄs staigÄt vai aizbÄgt no nebrÄ«ves daudzos gadÄ«jumos ir lÄ«dzvÄrtÄ«ga "instinktÄ«vÄkai" uzvedÄ«bai, kas daudziem dzÄ«vniekiem ir "stingra" Ä£enÄtiskÄ lÄ«menÄ«. TurklÄt Å”is piemÄrs apstiprina, ka evolÅ«cijas metodes ir piemÄrojamas gadÄ«jumos, kad atlÄ«dzÄ«bas signÄls ir ÄrkÄrtÄ«gi reti (piemÄram, veiksmÄ«gas mazuļa audzinÄÅ”anas fakts). Å ÄdÄ gadÄ«jumÄ atlÄ«dzÄ«bu nav iespÄjams saistÄ«t ar kÄdu konkrÄtu darbÄ«bu kopumu, kas varÄtu bÅ«t veikts daudzus gadus pirms Ŕī fakta iestÄÅ”anÄs. No otras puses, ja mÄs Åemam vÄrÄ gadÄ«jumu, kad ES neizdodas, proti, attÄlu klasifikÄcija, rezultÄti ir ievÄrojami salÄ«dzinÄmi ar dzÄ«vnieku mÄcÄ«Å”anÄs rezultÄtiem, kas iegÅ«ti neskaitÄmos uzvedÄ«bas psiholoÄ£iskajos eksperimentos, kas veikti vairÄk nekÄ 100 gadu laikÄ.
MÄcÄ«Å”anÄs no dzÄ«vniekiem
PastiprinÄÅ”anas mÄcÄ«bÄs izmantotÄs metodes daudzos gadÄ«jumos ir Åemtas tieÅ”i no psiholoÄ£iskÄs literatÅ«ras par operants kondicionÄÅ”ana, un operantu kondicionÄÅ”ana tika pÄtÄ«ta, izmantojot dzÄ«vnieku psiholoÄ£iju. Starp citu, RiÄardam Satonam, vienam no diviem pastiprinÄÅ”anas mÄcÄ«bu pamatlicÄjiem, ir bakalaura grÄds psiholoÄ£ijÄ. Operantu kondicionÄÅ”anas kontekstÄ dzÄ«vnieki mÄcÄs saistÄ«t atlÄ«dzÄ«bu vai sodu ar konkrÄtiem uzvedÄ«bas modeļiem. Treneri un pÄtnieki var vienÄ vai otrÄ veidÄ manipulÄt ar Å”o atlÄ«dzÄ«bas asociÄciju, provocÄjot dzÄ«vniekus demonstrÄt intelektu vai noteiktu uzvedÄ«bu. TomÄr operantu kondicionÄÅ”ana, ko izmanto pÄtÄ«jumos ar dzÄ«vniekiem, nav nekas vairÄk kÄ izteiktÄka tÄ paÅ”a kondicionÄÅ”anas forma, uz kuras pamata dzÄ«vnieki mÄcÄs visu mūžu. MÄs pastÄvÄ«gi saÅemam signÄlus par pozitÄ«vu pastiprinÄjumu no vides un attiecÄ«gi pielÄgojam savu uzvedÄ«bu. PatiesÄ«bÄ daudzi neirozinÄtnieki un kognitÄ«vie zinÄtnieki uzskata, ka cilvÄki un citi dzÄ«vnieki faktiski darbojas vÄl augstÄkÄ lÄ«menÄ« un nepÄrtraukti mÄcÄs paredzÄt savas uzvedÄ«bas iznÄkumu turpmÄkajÄs situÄcijÄs, pamatojoties uz potenciÄlo atlÄ«dzÄ«bu.
Prognožu centrÄlÄ loma mÄcÄ«bÄs no pieredzes bÅ«tiski maina iepriekÅ” aprakstÄ«to dinamiku. SignÄls, kas iepriekÅ” tika uzskatÄ«ts par ļoti retu (epizodisks atalgojums), izrÄdÄs ļoti blÄ«vs. TeorÄtiski situÄcija ir aptuveni Å”Äda: jebkurÄ brÄ«dÄ« zÄ«dÄ«tÄju smadzenes aprÄÄ·ina rezultÄtus, pamatojoties uz sarežģītu maÅu stimulu un darbÄ«bu plÅ«smu, kamÄr dzÄ«vnieks vienkÄrÅ”i ir iegremdÄts Å”ajÄ straumÄ. Å ajÄ gadÄ«jumÄ dzÄ«vnieka galÄ«gÄ uzvedÄ«ba dod spÄcÄ«gu signÄlu, kas jÄizmanto, lai vadÄ«tu prognozes un uzvedÄ«bas attÄ«stÄ«bu. Smadzenes izmanto visus Å”os signÄlus, lai optimizÄtu prognozes (un attiecÄ«gi veikto darbÄ«bu kvalitÄti) nÄkotnÄ. Å Ä«s pieejas pÄrskats ir sniegts lieliskajÄ grÄmatÄ āSÄrfoÅ”anas nenoteiktÄ«baā kognitÄ«vais zinÄtnieks un filozofs Endijs KlÄrks. Ja mÄs ekstrapolÄjam Å”Ädu argumentÄciju uz mÄkslÄ«go aÄ£entu apmÄcÄ«bu, tad tiek atklÄts bÅ«tisks trÅ«kums pastiprinÄÅ”anas mÄcÄ«bÄs: Å”ajÄ paradigmÄ izmantotais signÄls ir bezcerÄ«gi vÄjÅ”, salÄ«dzinot ar to, kas tas varÄtu bÅ«t (vai tam vajadzÄtu bÅ«t). GadÄ«jumos, kad nav iespÄjams palielinÄt signÄla piesÄtinÄjumu (varbÅ«t tÄpÄc, ka tas ir vÄjÅ” vai saistÄ«ts ar zemu reaktivitÄti), iespÄjams, labÄk ir dot priekÅ”roku apmÄcÄ«bas metodei, kas ir labi paralÄla, piemÄram, ES.
BagÄtÄ«gÄka neironu tÄ«klu apmÄcÄ«ba
Pamatojoties uz augstÄkas nervu aktivitÄtes principiem, kas raksturÄ«gi zÄ«dÄ«tÄju smadzenÄm, kuras pastÄvÄ«gi ir aizÅemtas ar prognozÄm, nesen ir panÄkts pastiprinÄÅ”anas mÄcÄ«Å”anÄs progress, kurÄ tagad tiek Åemta vÄrÄ Å”Ädu prognožu nozÄ«me. Uzreiz varu ieteikt divus lÄ«dzÄ«gus darbus:
Abos Å”ajos rakstos autori papildina savu neironu tÄ«klu tipisko noklusÄjuma politiku ar prognozÄÅ”anas rezultÄtiem par vides stÄvokli nÄkotnÄ. PirmajÄ rakstÄ prognozÄÅ”ana tiek piemÄrota dažÄdiem mÄrÄ«jumu mainÄ«gajiem, bet otrajÄ prognozÄÅ”ana tiek piemÄrota izmaiÅÄm vidÄ un aÄ£enta uzvedÄ«bÄ kÄ tÄda. Abos gadÄ«jumos retais signÄls, kas saistÄ«ts ar pozitÄ«vu pastiprinÄjumu, kļūst daudz bagÄtÄks un informatÄ«vÄks, ļaujot gan ÄtrÄk mÄcÄ«ties, gan apgÅ«t sarežģītÄku uzvedÄ«bu. Å Ädi uzlabojumi ir pieejami tikai ar metodÄm, kas izmanto gradienta signÄlu, nevis ar metodÄm, kas darbojas pÄc āmelnÄs kastesā principa, piemÄram, ES.
TurklÄt mÄcÄ«Å”anÄs no pieredzes un gradientu metodes ir daudz efektÄ«vÄkas. Pat gadÄ«jumos, kad ar ES metodi konkrÄtu problÄmu bija iespÄjams izpÄtÄ«t ÄtrÄk nekÄ izmantojot pastiprinÄÅ”anas mÄcÄ«Å”anos, ieguvums tika sasniegts tÄdÄļ, ka ES stratÄÄ£ija ietvÄra daudzkÄrt vairÄk datu nekÄ ar RL. Å ajÄ gadÄ«jumÄ pÄrdomÄjot dzÄ«vnieku mÄcÄ«Å”anÄs principus, mÄs atzÄ«mÄjam, ka rezultÄts, mÄcoties no kÄda cita piemÄra, izpaužas pÄc daudzÄm paaudzÄm, savukÄrt dažreiz pietiek ar vienu paÅ”u piedzÄ«votu notikumu, lai dzÄ«vnieks iemÄcÄ«tos mÄcÄ«bu uz visiem laikiem. KamÄr patÄ«k apmÄcÄ«ba bez piemÄriem Lai gan tas Ä«sti neatbilst tradicionÄlajÄm gradienta metodÄm, tas ir daudz saprotamÄks nekÄ ES. Ir, piemÄram, tÄdas pieejas kÄ neironu epizodiskÄ kontrole, kur apmÄcÄ«bas laikÄ tiek saglabÄtas Q vÄrtÄ«bas, pÄc kurÄm programma tÄs pÄrbauda pirms darbÄ«bu veikÅ”anas. RezultÄts ir gradienta metode, kas ļauj iemÄcÄ«ties atrisinÄt problÄmas daudz ÄtrÄk nekÄ iepriekÅ”. RakstÄ par neironu epizodisko kontroli autori piemin cilvÄka hipokampu, kas spÄj saglabÄt informÄciju par notikumu pat pÄc vienas pieredzes un tÄpÄc spÄlÄ kritiskÄ loma atcerÄÅ”anÄs procesÄ. Å Ädi mehÄnismi prasa piekļuvi aÄ£enta iekÅ”Äjai organizÄcijai, kas arÄ« pÄc definÄ«cijas nav iespÄjama ES paradigmÄ.
TÄtad, kÄpÄc gan tos neapvienot?
VisticamÄk, ka liela daļa Ŕī raksta varÄtu atstÄt iespaidu, ka es iestÄjos par RL metodÄm. TomÄr es domÄju, ka ilgtermiÅÄ labÄkais risinÄjums ir apvienot abas metodes, lai katru izmantotu situÄcijÄs, kurÄs tÄ ir vispiemÄrotÄkÄ. AcÄ«mredzot daudzu reaktÄ«vu politiku gadÄ«jumÄ vai situÄcijÄs ar ļoti retiem pozitÄ«va pastiprinÄjuma signÄliem ES uzvar, it Ä«paÅ”i, ja jÅ«su rÄ«cÄ«bÄ ir skaitļoÅ”anas jauda, āāar kuru varat veikt masveida paralÄlas apmÄcÄ«bas. No otras puses, gradienta metodes, kurÄs izmanto pastiprinoÅ”o mÄcÄ«Å”anos vai uzraudzÄ«tu mÄcÄ«Å”anos, bÅ«s noderÄ«gas, ja mums ir pieejama plaÅ”a atgriezeniskÄ saite un jÄiemÄcÄs Ätri un ar mazÄku datu apjomu atrisinÄt problÄmu.
PievÄrÅ”oties dabai, mÄs atklÄjam, ka pirmÄ metode bÅ«tÄ«bÄ liek pamatu otrajai. TÄpÄc evolÅ«cijas gaitÄ zÄ«dÄ«tÄjiem ir izveidojuÅ”Äs smadzenes, kas ļauj ÄrkÄrtÄ«gi efektÄ«vi mÄcÄ«ties no sarežģītiem signÄliem, kas nÄk no vides. TÄtad, jautÄjums paliek atklÄts. IespÄjams, evolÅ«cijas stratÄÄ£ijas palÄ«dzÄs mums izgudrot efektÄ«vas mÄcÄ«bu arhitektÅ«ras, kas bÅ«s noderÄ«gas arÄ« gradienta mÄcÄ«bu metodÄm. Galu galÄ dabas atrastais risinÄjums patieÅ”Äm ir ļoti veiksmÄ«gs.