MācÄ«bu pastiprināŔana vai evolÅ«cijas stratēģijas? - Abi

Čau Habr!

Mēs bieži neizlemjam Å”eit ievietot divus gadus vecu tekstu tulkojumus, bez koda un nepārprotami akadēmisku raksturu, taču Å”odien mēs izdarÄ«sim izņēmumu. Mēs ceram, ka raksta nosaukumā izvirzÄ«tā dilemma satrauc daudzus mÅ«su lasÄ«tājus, un jÅ«s jau esat izlasÄ«juÅ”i fundamentālo darbu par evolÅ«cijas stratēģijām, ar kuriem Å”is ieraksts strÄ«das oriÄ£inālā vai lasÄ«s to tagad. Laipni lÅ«dzam kaÄ·Ä«!

MācÄ«bu pastiprināŔana vai evolÅ«cijas stratēģijas? - Abi

2017. gada martā OpenAI radÄ«ja viļņus dziļās mācÄ«Å”anās kopienā ar dokumentu ā€œEvolÅ«cijas stratēģijas kā mērogojama alternatÄ«va pastiprinoÅ”ai apmācÄ«baiā€. Å ajā darbā tika aprakstÄ«ti iespaidÄ«gi rezultāti par labu tam, ka pastiprināŔanas mācÄ«Å”anās (RL) nav kļuvusi par Ä·Ä«li, un, apmācot sarežģītus neironu tÄ«klus, ir ieteicams izmēģināt citas metodes. Pēc tam izcēlās debates par mācÄ«Å”anās pastiprināŔanas nozÄ«mi un to, cik tā ir pelnÄ«jusi tās kā ā€œobligātāsā€ tehnoloÄ£ijas statusu problēmu risināŔanas mācÄ«Å”anai. Å eit es gribu teikt, ka Ŕīs divas tehnoloÄ£ijas nevajadzētu uzskatÄ«t par konkurējoŔām, no kurām viena ir nepārprotami labāka par otru; gluži pretēji, tie galu galā papildina viens otru. PatieŔām, ja mazliet padomājat par to, kas nepiecieÅ”ams, lai radÄ«tu vispārējais AI un tādas sistēmas, kuras visā to pastāvÄ“Å”anas laikā bÅ«tu spējÄ«gas mācÄ«ties, spriest un plānot, tad gandrÄ«z noteikti nonāksim pie secinājuma, ka bÅ«s vajadzÄ«gs tas vai cits kombinētais risinājums. Starp citu, tieÅ”i pie Ŕī kombinētā risinājuma nonāca daba, kas evolÅ«cijas gaitā apveltÄ«ja zÄ«dÄ«tājus un citus augstākos dzÄ«vniekus ar sarežģītu intelektu.

Evolūcijas stratēģijas

OpenAI darba galvenā tēze bija tāda, ka tā vietā, lai izmantotu pastiprinoÅ”o mācÄ«Å”anos kopā ar tradicionālo atpakaļpavairoÅ”anu, viņi veiksmÄ«gi apmācÄ«ja neironu tÄ«klu, lai atrisinātu sarežģītas problēmas, izmantojot to, ko viņi sauca par ā€œevolÅ«cijas stratēģijuā€ (ES). Å Ä« ES pieeja sastāv no tÄ«kla mēroga svara sadalÄ«juma uzturÄ“Å”anas, iesaistot vairākus aÄ£entus, kas strādā paralēli, un izmantojot parametrus, kas atlasÄ«ti no Ŕī sadalÄ«juma. Katrs aÄ£ents darbojas savā vidē, un pēc noteikta skaita epizožu vai epizodes posmu pabeigÅ”anas algoritms atgriež kumulatÄ«vo atlÄ«dzÄ«bu, kas izteikta kā fitnesa rezultāts. Ņemot vērā Å”o vērtÄ«bu, parametru sadalÄ«jumu var novirzÄ«t uz veiksmÄ«gākiem aÄ£entiem, atņemot mazāk veiksmÄ«gos. Miljoniem reižu atkārtojot Ŕādu operāciju ar simtiem aÄ£entu piedalÄ«Å”anos, ir iespējams svaru sadalÄ«jumu pārcelt uz telpu, kas ļaus aÄ£entiem noformulēt kvalitatÄ«vu politiku viņiem uzdotā uzdevuma risināŔanai. PatieŔām, rakstā izklāstÄ«tie rezultāti ir iespaidÄ«gi: tiek parādÄ«ts, ka, ja paralēli darbināt tÅ«kstoÅ” aÄ£entu, tad antropomorfo kustÄ«bu uz divām kājām var apgÅ«t mazāk nekā pusstundā (kamēr pat vismodernākās RL metodes prasa vairāk tērēt par vienu stundu). Lai iegÅ«tu sÄ«kāku informāciju, iesaku izlasÄ«t izcilo post no eksperimenta autoriem, kā arÄ« zinātniskais raksts.

MācÄ«bu pastiprināŔana vai evolÅ«cijas stratēģijas? - Abi

Dažādas stratēģijas antropomorfās stāvus staigāŔanas mācÄ«Å”anai, pētÄ«tas, izmantojot OpenAI ES metodi.

Melnā kaste

Å Ä«s metodes lielais ieguvums ir tas, ka to var viegli paralēli. Lai gan RL metodēm, piemēram, A3C, ir nepiecieÅ”ama informācijas apmaiņa starp darbinieku pavedieniem un parametru serveri, ES ir nepiecieÅ”ami tikai piemērotÄ«bas aprēķini un vispārÄ«ga parametru sadalÄ«juma informācija. Å Ä«s vienkārŔības dēļ Ŕī metode mērogoÅ”anas iespēju ziņā ir tālu priekŔā mÅ«sdienu RL metodēm. Tomēr tas viss nenāk velti: tÄ«kls ir jāoptimizē pēc melnās kastes principa. Å ajā gadÄ«jumā "melnā kaste" nozÄ«mē, ka apmācÄ«bas laikā tÄ«kla iekŔējā struktÅ«ra tiek pilnÄ«bā ignorēta un tiek izmantots tikai kopējais rezultāts (atlÄ«dzÄ«ba par epizodi), un no tā ir atkarÄ«gs, vai konkrētā tÄ«kla svari tiks izmantoti. mantot nākamās paaudzes. Situācijās, kad nesaņemam daudz atgriezeniskās saites no vides ā€” un daudzās tradicionālajās RL problēmās atlÄ«dzÄ«bas plÅ«sma ir ļoti niecÄ«ga ā€” problēma kļūst no ā€œdaļēji melnās kastesā€ uz ā€œpilnÄ«gi melnu kastiā€. Å ajā gadÄ«jumā jÅ«s varat ievērojami palielināt produktivitāti, tāpēc, protams, Ŕāds kompromiss ir pamatots. "Kam vajadzÄ«gi gradienti, ja tie tik un tā ir bezcerÄ«gi trokŔņaini?" - tāds ir vispārējs viedoklis.

Tomēr situācijās, kad atgriezeniskā saite ir aktÄ«vāka, ES lietas sāk noiet greizi. OpenAI komanda apraksta, kā vienkārÅ”s MNIST klasifikācijas tÄ«kls tika apmācÄ«ts, izmantojot ES, un Å”oreiz apmācÄ«ba bija 1000 reižu lēnāka. Fakts ir tāds, ka gradienta signāls attēlu klasifikācijā ir ļoti informatÄ«vs par to, kā mācÄ«t tÄ«klam labāku klasifikāciju. Tādējādi problēma ir mazāka ar RL paņēmienu un vairāk ar retiem ieguvumiem vidēs, kas rada trokŔņainus gradientus.

Dabas risinājums

Ja mēs cenÅ”amies mācÄ«ties no dabas piemēra, domājot par veidiem, kā attÄ«stÄ«t AI, tad dažos gadÄ«jumos AI var uzskatÄ«t par uz problēmām orientēta pieeja. Galu galā daba darbojas tādu ierobežojumu ietvaros, kādu datorzinātniekiem vienkārÅ”i nav. Pastāv uzskats, ka tÄ«ri teorētiska pieeja konkrētas problēmas risināŔanai var sniegt efektÄ«vākus risinājumus nekā empÄ«riskas alternatÄ«vas. Tomēr es joprojām uzskatu, ka bÅ«tu vērts pārbaudÄ«t, kā dinamiska sistēma, kas darbojas saskaņā ar noteiktiem ierobežojumiem (Zeme), ir radÄ«jusi aÄ£entus (dzÄ«vniekus, Ä«paÅ”i zÄ«dÄ«tājus), kas spēj elastÄ«gi un sarežģīti rÄ«koties. Lai gan daži no Å”iem ierobežojumiem neattiecas uz simulētajām datu zinātnes pasaulēm, citi ir lieliski.

Izpētot zÄ«dÄ«tāju intelektuālo uzvedÄ«bu, redzam, ka tā veidojas divu savstarpēji cieÅ”i saistÄ«tu procesu sarežģītas savstarpējas ietekmes rezultātā: mācÄ«ties no citu pieredzes Šø mācÄ«ties darot. Pirmo bieži pielÄ«dzina evolÅ«cijai, ko virza dabiskā atlase, taču Å”eit es lietoju plaŔāku terminu, lai ņemtu vērā epigenētiku, mikrobiomas un citus mehānismus, kas ļauj dalÄ«ties pieredzē starp Ä£enētiski nesaistÄ«tiem organismiem. Otrs process, mācÄ«Å”anās no pieredzes, ir visa informācija, ko dzÄ«vniekam izdodas apgÅ«t dzÄ«ves laikā, un Å”o informāciju tieÅ”i nosaka Ŕī dzÄ«vnieka mijiedarbÄ«ba ar ārpasauli. Å ajā kategorijā ietilpst viss, sākot no mācÄ«Å”anās atpazÄ«t objektus lÄ«dz mācÄ«bu procesam raksturÄ«gās komunikācijas apguvei.

Aptuveni runājot, Å”os divus dabā notiekoÅ”os procesus var salÄ«dzināt ar divām neironu tÄ«klu optimizācijas iespējām. EvolÅ«cijas stratēģijas, kurās informāciju par gradientiem izmanto, lai atjauninātu informāciju par organismu, ir tuvu mācÄ«bām no citu pieredzes. Tāpat gradienta metodes, kur vienas vai otras pieredzes iegÅ«Å”ana noved pie tādām vai citām aÄ£enta uzvedÄ«bas izmaiņām, ir salÄ«dzināmas ar mācÄ«Å”anos no paÅ”a pieredzes. Ja mēs domājam par saprātÄ«gas uzvedÄ«bas vai spēju veidiem, ko katra no Ŕīm divām pieejām attÄ«sta dzÄ«vniekiem, salÄ«dzinājums kļūst izteiktāks. Abos gadÄ«jumos "evolÅ«cijas metodes" veicina reaktÄ«vas uzvedÄ«bas izpēti, kas ļauj attÄ«stÄ«t noteiktu piemērotÄ«bu (pietiekamu, lai paliktu dzÄ«vs). MācÄ«Å”anās staigāt vai aizbēgt no nebrÄ«ves daudzos gadÄ«jumos ir lÄ«dzvērtÄ«ga "instinktÄ«vākai" uzvedÄ«bai, kas daudziem dzÄ«vniekiem ir "stingra" Ä£enētiskā lÄ«menÄ«. Turklāt Å”is piemērs apstiprina, ka evolÅ«cijas metodes ir piemērojamas gadÄ«jumos, kad atlÄ«dzÄ«bas signāls ir ārkārtÄ«gi reti (piemēram, veiksmÄ«gas mazuļa audzināŔanas fakts). Šādā gadÄ«jumā atlÄ«dzÄ«bu nav iespējams saistÄ«t ar kādu konkrētu darbÄ«bu kopumu, kas varētu bÅ«t veikts daudzus gadus pirms Ŕī fakta iestāŔanās. No otras puses, ja mēs ņemam vērā gadÄ«jumu, kad ES neizdodas, proti, attēlu klasifikācija, rezultāti ir ievērojami salÄ«dzināmi ar dzÄ«vnieku mācÄ«Å”anās rezultātiem, kas iegÅ«ti neskaitāmos uzvedÄ«bas psiholoÄ£iskajos eksperimentos, kas veikti vairāk nekā 100 gadu laikā.

MācīŔanās no dzīvniekiem

PastiprināŔanas mācÄ«bās izmantotās metodes daudzos gadÄ«jumos ir ņemtas tieÅ”i no psiholoÄ£iskās literatÅ«ras par operants kondicionÄ“Å”ana, un operantu kondicionÄ“Å”ana tika pētÄ«ta, izmantojot dzÄ«vnieku psiholoÄ£iju. Starp citu, Ričardam Satonam, vienam no diviem pastiprināŔanas mācÄ«bu pamatlicējiem, ir bakalaura grāds psiholoÄ£ijā. Operantu kondicionÄ“Å”anas kontekstā dzÄ«vnieki mācās saistÄ«t atlÄ«dzÄ«bu vai sodu ar konkrētiem uzvedÄ«bas modeļiem. Treneri un pētnieki var vienā vai otrā veidā manipulēt ar Å”o atlÄ«dzÄ«bas asociāciju, provocējot dzÄ«vniekus demonstrēt intelektu vai noteiktu uzvedÄ«bu. Tomēr operantu kondicionÄ“Å”ana, ko izmanto pētÄ«jumos ar dzÄ«vniekiem, nav nekas vairāk kā izteiktāka tā paÅ”a kondicionÄ“Å”anas forma, uz kuras pamata dzÄ«vnieki mācās visu mūžu. Mēs pastāvÄ«gi saņemam signālus par pozitÄ«vu pastiprinājumu no vides un attiecÄ«gi pielāgojam savu uzvedÄ«bu. PatiesÄ«bā daudzi neirozinātnieki un kognitÄ«vie zinātnieki uzskata, ka cilvēki un citi dzÄ«vnieki faktiski darbojas vēl augstākā lÄ«menÄ« un nepārtraukti mācās paredzēt savas uzvedÄ«bas iznākumu turpmākajās situācijās, pamatojoties uz potenciālo atlÄ«dzÄ«bu.

Prognožu centrālā loma mācÄ«bās no pieredzes bÅ«tiski maina iepriekÅ” aprakstÄ«to dinamiku. Signāls, kas iepriekÅ” tika uzskatÄ«ts par ļoti retu (epizodisks atalgojums), izrādās ļoti blÄ«vs. Teorētiski situācija ir aptuveni Ŕāda: jebkurā brÄ«dÄ« zÄ«dÄ«tāju smadzenes aprēķina rezultātus, pamatojoties uz sarežģītu maņu stimulu un darbÄ«bu plÅ«smu, kamēr dzÄ«vnieks vienkārÅ”i ir iegremdēts Å”ajā straumē. Å ajā gadÄ«jumā dzÄ«vnieka galÄ«gā uzvedÄ«ba dod spēcÄ«gu signālu, kas jāizmanto, lai vadÄ«tu prognozes un uzvedÄ«bas attÄ«stÄ«bu. Smadzenes izmanto visus Å”os signālus, lai optimizētu prognozes (un attiecÄ«gi veikto darbÄ«bu kvalitāti) nākotnē. Å Ä«s pieejas pārskats ir sniegts lieliskajā grāmatā ā€œSērfoÅ”anas nenoteiktÄ«baā€ kognitÄ«vais zinātnieks un filozofs Endijs Klārks. Ja mēs ekstrapolējam Ŕādu argumentāciju uz mākslÄ«go aÄ£entu apmācÄ«bu, tad tiek atklāts bÅ«tisks trÅ«kums pastiprināŔanas mācÄ«bās: Å”ajā paradigmā izmantotais signāls ir bezcerÄ«gi vājÅ”, salÄ«dzinot ar to, kas tas varētu bÅ«t (vai tam vajadzētu bÅ«t). GadÄ«jumos, kad nav iespējams palielināt signāla piesātinājumu (varbÅ«t tāpēc, ka tas ir vājÅ” vai saistÄ«ts ar zemu reaktivitāti), iespējams, labāk ir dot priekÅ”roku apmācÄ«bas metodei, kas ir labi paralēla, piemēram, ES.

Bagātīgāka neironu tīklu apmācība

Pamatojoties uz augstākas nervu aktivitātes principiem, kas raksturÄ«gi zÄ«dÄ«tāju smadzenēm, kuras pastāvÄ«gi ir aizņemtas ar prognozēm, nesen ir panākts pastiprināŔanas mācÄ«Å”anās progress, kurā tagad tiek ņemta vērā Ŕādu prognožu nozÄ«me. Uzreiz varu ieteikt divus lÄ«dzÄ«gus darbus:

Abos Å”ajos rakstos autori papildina savu neironu tÄ«klu tipisko noklusējuma politiku ar prognozÄ“Å”anas rezultātiem par vides stāvokli nākotnē. Pirmajā rakstā prognozÄ“Å”ana tiek piemērota dažādiem mērÄ«jumu mainÄ«gajiem, bet otrajā prognozÄ“Å”ana tiek piemērota izmaiņām vidē un aÄ£enta uzvedÄ«bā kā tāda. Abos gadÄ«jumos retais signāls, kas saistÄ«ts ar pozitÄ«vu pastiprinājumu, kļūst daudz bagātāks un informatÄ«vāks, ļaujot gan ātrāk mācÄ«ties, gan apgÅ«t sarežģītāku uzvedÄ«bu. Šādi uzlabojumi ir pieejami tikai ar metodēm, kas izmanto gradienta signālu, nevis ar metodēm, kas darbojas pēc ā€œmelnās kastesā€ principa, piemēram, ES.

Turklāt mācÄ«Å”anās no pieredzes un gradientu metodes ir daudz efektÄ«vākas. Pat gadÄ«jumos, kad ar ES metodi konkrētu problēmu bija iespējams izpētÄ«t ātrāk nekā izmantojot pastiprināŔanas mācÄ«Å”anos, ieguvums tika sasniegts tādēļ, ka ES stratēģija ietvēra daudzkārt vairāk datu nekā ar RL. Å ajā gadÄ«jumā pārdomājot dzÄ«vnieku mācÄ«Å”anās principus, mēs atzÄ«mējam, ka rezultāts, mācoties no kāda cita piemēra, izpaužas pēc daudzām paaudzēm, savukārt dažreiz pietiek ar vienu paÅ”u piedzÄ«votu notikumu, lai dzÄ«vnieks iemācÄ«tos mācÄ«bu uz visiem laikiem. Kamēr patÄ«k apmācÄ«ba bez piemēriem Lai gan tas Ä«sti neatbilst tradicionālajām gradienta metodēm, tas ir daudz saprotamāks nekā ES. Ir, piemēram, tādas pieejas kā neironu epizodiskā kontrole, kur apmācÄ«bas laikā tiek saglabātas Q vērtÄ«bas, pēc kurām programma tās pārbauda pirms darbÄ«bu veikÅ”anas. Rezultāts ir gradienta metode, kas ļauj iemācÄ«ties atrisināt problēmas daudz ātrāk nekā iepriekÅ”. Rakstā par neironu epizodisko kontroli autori piemin cilvēka hipokampu, kas spēj saglabāt informāciju par notikumu pat pēc vienas pieredzes un tāpēc spēlē kritiskā loma atcerÄ“Å”anās procesā. Šādi mehānismi prasa piekļuvi aÄ£enta iekŔējai organizācijai, kas arÄ« pēc definÄ«cijas nav iespējama ES paradigmā.

Tātad, kāpēc gan tos neapvienot?

Visticamāk, ka liela daļa Ŕī raksta varētu atstāt iespaidu, ka es iestājos par RL metodēm. Tomēr es domāju, ka ilgtermiņā labākais risinājums ir apvienot abas metodes, lai katru izmantotu situācijās, kurās tā ir vispiemērotākā. AcÄ«mredzot daudzu reaktÄ«vu politiku gadÄ«jumā vai situācijās ar ļoti retiem pozitÄ«va pastiprinājuma signāliem ES uzvar, it Ä«paÅ”i, ja jÅ«su rÄ«cÄ«bā ir skaitļoÅ”anas jauda, ā€‹ā€‹ar kuru varat veikt masveida paralēlas apmācÄ«bas. No otras puses, gradienta metodes, kurās izmanto pastiprinoÅ”o mācÄ«Å”anos vai uzraudzÄ«tu mācÄ«Å”anos, bÅ«s noderÄ«gas, ja mums ir pieejama plaÅ”a atgriezeniskā saite un jāiemācās ātri un ar mazāku datu apjomu atrisināt problēmu.

PievērÅ”oties dabai, mēs atklājam, ka pirmā metode bÅ«tÄ«bā liek pamatu otrajai. Tāpēc evolÅ«cijas gaitā zÄ«dÄ«tājiem ir izveidojuŔās smadzenes, kas ļauj ārkārtÄ«gi efektÄ«vi mācÄ«ties no sarežģītiem signāliem, kas nāk no vides. Tātad, jautājums paliek atklāts. Iespējams, evolÅ«cijas stratēģijas palÄ«dzēs mums izgudrot efektÄ«vas mācÄ«bu arhitektÅ«ras, kas bÅ«s noderÄ«gas arÄ« gradienta mācÄ«bu metodēm. Galu galā dabas atrastais risinājums patieŔām ir ļoti veiksmÄ«gs.

Avots: www.habr.com

Pievieno komentāru