🥇Plifortiga lernado aŭ evoluaj strategioj? — Ambaŭ

Hej Habr!

Ni ne ofte decidas afiŝi ĉi tie tradukojn de dujaraj tekstoj, senkodaj kaj klare akademiaj - sed hodiaŭ ni faros escepton. Ni esperas, ke la dilemo prezentita en la titolo de la artikolo maltrankviligas multajn el niaj legantoj, kaj vi jam legis la fundamentan verkon pri evoluaj strategioj, per kiu ĉi tiu afiŝo argumentas en la originalo aŭ legos ĝin nun. Bonvenon al la kato!

En marto 2017, OpenAI faris ondojn en la profunda lernadkomunumo kun la papero "Evoluaj Strategioj kiel Skalebla Alternativo al Plifortiga Lernado" Ĉi tiu laboro priskribis imponajn rezultojn favore al la fakto, ke plifortiga lernado (RL) ne fariĝis kojno, kaj dum trejnado de kompleksaj neŭralaj retoj, estas konsilinde provi aliajn metodojn. Debato tiam erupciis koncerne la gravecon de plifortikiga lernado kaj kiom inda je ĝia statuso kiel "nepraĵo" teknologio por instruado de problemo solvado. Ĉi tie mi volas diri, ke ĉi tiuj du teknologioj ne devas esti konsiderataj kiel konkurantaj, el kiuj unu estas klare pli bona ol la alia; male, ili finfine kompletigas unu la alian. Efektive, se vi pensas iomete pri tio, kion necesas krei ĝenerala AI kaj tiaj sistemoj, kiuj dum sia tuta ekzistado kapablus lerni, juĝi kaj plani, tiam ni preskaŭ certe venos al la konkludo, ke tiu aŭ alia kombinita solvo estos postulata. Cetere, ĝuste ĉi tiu kombinita solvo venis al la naturo, kiu dotis mamulojn kaj aliajn superajn bestojn per kompleksa inteligenteco dum la evoluo.

Evoluaj Strategioj

La ĉeftezo de la OpenAI-artikolo estis ke, anstataŭe de uzi plifortigan lernadon kombinitan kun tradicia retrodisvastigo, ili sukcese trejnis neŭralan reton por solvi kompleksajn problemojn uzante kion ili nomis "evolua strategio" (ES). Tiu ES-aliro konsistas el konservado de tutrete distribuado de pezoj, implikante multoblajn agentojn laborantajn paralele kaj uzante parametrojn elektitajn de tiu distribuo. Ĉiu agento funkcias en sia propra medio, kaj post kompletigo de specifa nombro da epizodoj aŭ stadioj de epizodo, la algoritmo resendas akumulan rekompencon, esprimitan kiel taŭgeca poentaro. Konsiderante ĉi tiun valoron, la distribuado de parametroj povas esti ŝanĝita al pli sukcesaj agentoj, senigante malpli sukcesajn. Ripetante tian operacion milionojn da fojoj kun la partopreno de centoj da agentoj, eblas movi la distribuadon de pezoj al spaco, kiu permesos al la agentoj formuli altkvalitan politikon por solvi la taskon atribuitan al ili. Efektive, la rezultoj prezentitaj en la artikolo estas imponaj: estas montrite, ke se oni kuras paralele mil agentojn, tiam antropomorfa movo sur du kruroj povas esti lernita en malpli ol duonhoro (dum eĉ la plej altnivelaj RL-metodoj postulas pli elspezadon. ol unu horo pri tio). Por pli detalaj informoj, mi rekomendas legi la bonegan afiŝo de la aŭtoroj de la eksperimento, same kiel scienca artikolo.

Malsamaj strategioj por instruado de antropomorfa vertikala marŝado, studitaj per la ES-metodo de OpenAI.

Nigra skatolo

La granda avantaĝo de ĉi tiu metodo estas ke ĝi povas esti facile paraleligita. Dum RL-metodoj, kiel ekzemple A3C, postulas informojn esti interŝanĝitaj inter laboristaj fadenoj kaj parametroservilo, ES nur bezonas taŭgecajn taksojn kaj ĝeneraligitajn parametrajn distribuinformojn. Estas pro ĉi tiu simpleco ke ĉi tiu metodo estas multe antaŭ modernaj RL-metodoj laŭ skalo-kapabloj. Tamen ĉio ĉi ne vane: vi devas optimumigi la reton laŭ la principo de nigra skatolo. En ĉi tiu kazo, la "nigra skatolo" signifas, ke dum trejnado la interna strukturo de la reto estas tute ignorita, kaj nur la ĝenerala rezulto (rekompenco por la epizodo) estas uzata, kaj dependas de ĝi ĉu la pezoj de aparta reto estos uzata. esti heredita de postaj generacioj. En situacioj kie ni ne ricevas multe da reagoj de la medio—kaj en multaj tradiciaj RL-problemoj la fluo de rekompencoj estas tre malabunda—la problemo iras de esti "parte nigra skatolo" al "tute nigra skatolo." En ĉi tiu kazo, vi povas signife pliigi produktivecon, do, kompreneble, tia kompromiso estas pravigita. "Kiu bezonas gradientojn, se ili tamen estas senespere bruaj?" — jen la ĝenerala opinio.

Tamen, en situacioj kie reagoj estas pli aktivaj, aferoj komencas fuŝiĝi por la ES. La OpenAI-teamo priskribas kiel simpla MNIST klasifika reto estis trejnita uzante ES, kaj ĉi-foje la trejnado estis 1000 fojojn pli malrapida. La fakto estas, ke la gradienta signalo en bildklasifiko estas ekstreme informa pri kiel instrui al la reto pli bonan klasifikon. Tiel, la problemo estas malpli kun la RL-tekniko kaj pli kun malabundaj rekompencoj en medioj kiuj produktas bruajn gradientojn.

La solvo de la naturo

Se ni provas lerni de la ekzemplo de naturo, pensante pri manieroj evoluigi AI, tiam en iuj kazoj AI povas esti opiniita kiel problemo-orientita aliro. Post ĉio, la naturo funkcias ene de limoj, kiujn komputikistoj simple ne havas. Ekzistas opinio ke sole teoria aliro al solvado de speciala problemo povas disponigi pli efikajn solvojn ol empiriaj alternativoj. Tamen, mi ankoraŭ opinias, ke indus testi kiel dinamika sistemo funkcianta sub certaj limoj (la Tero) generis agentojn (bestoj, precipe mamuloj) kapablajn je fleksebla kaj kompleksa konduto. Dum kelkaj el ĉi tiuj limoj ne validas en simulaj datumsciencaj mondoj, aliaj estas bone.

Ekzameninte la intelektan konduton de mamuloj, ni vidas, ke ĝi estas formita kiel rezulto de la kompleksa reciproka influo de du proksime interrilataj procezoj: lernante de alies spertoj и lerni per faro. La unua estas ofte egaligita kun evoluo pelita de natura selektado, sed ĉi tie mi uzas pli larĝan terminon por konsideri epigenetikon, mikrobiomojn kaj aliajn mekanismojn, kiuj ebligas kundividon de spertoj inter genetike senrilataj organismoj. La dua procezo, lerni de sperto, estas ĉiuj informoj, kiujn besto sukcesas lerni dum sia vivo, kaj ĉi tiu informo estas rekte determinita de la interago de ĉi tiu besto kun la ekstera mondo. Ĉi tiu kategorio inkluzivas ĉion, de lerni rekoni objektojn ĝis regi la komunikadon enecan en la lernado.

Malglate parolante, ĉi tiuj du procezoj okazantaj en la naturo povas esti komparitaj kun du opcioj por optimumigo de neŭralaj retoj. Evoluaj strategioj, kie informoj pri gradientoj estas utiligitaj por ĝisdatigi informojn pri la organismo, proksimiĝas al lernado de la sperto de aliaj. Simile, gradientmetodoj, kie akiri unu aŭ alian sperton kondukas al unu aŭ alia ŝanĝo en la konduto de la agento, estas kompareblaj al lernado de onies propra sperto. Se ni pensas pri la specoj de inteligenta konduto aŭ kapabloj, kiujn ĉiu el ĉi tiuj du aliroj disvolvas ĉe bestoj, la komparo fariĝas pli prononcita. En ambaŭ kazoj, "evoluaj metodoj" antaŭenigas la studon de reaktivaj kondutoj kiuj permesas al oni evoluigi certan taŭgecon (sufiĉa por resti vivanta). Lerni piediri aŭ eskapi el kaptiteco estas en multaj kazoj ekvivalenta al pli "instinktaj" kondutoj kiuj estas "malmol-kablataj" en multaj bestoj sur la genetika nivelo. Krome, ĉi tiu ekzemplo konfirmas, ke evoluaj metodoj estas aplikeblaj en kazoj kie la rekompenca signalo estas ekstreme malofta (ekzemple, la fakto de sukcesa bredado de bebo). En tia kazo, estas neeble korelacii la rekompencon kun iu specifa aro de agoj, kiuj eble estis faritaj multajn jarojn antaŭ la okazo de ĉi tiu fakto. Aliflanke, se ni konsideras kazon en kiu ES malsukcesas, nome bilda klasifiko, la rezultoj estas rimarkinde kompareblaj al la rezultoj de besta lernado atingita en sennombraj kondutismaj psikologiaj eksperimentoj faritaj dum pli ol 100 jaroj.

Lernante de Bestoj

La metodoj uzitaj en plifortiga lernado estas en multaj kazoj prenitaj rekte de la psikologia literaturo pluen operanta kondiĉado, kaj operanta kondiĉado estis studita uzante bestpsikologion. Cetere, Richard Sutton, unu el la du fondintoj de plifortiga lernado, havas diplomon pri psikologio. En la kunteksto de operanta kondiĉado, bestoj lernas asocii rekompencon aŭ punon kun specifaj kondutismaj ŝablonoj. Trejnistoj kaj esploristoj povas manipuli ĉi tiun rekompencan asocion laŭ unu maniero aŭ alia, provokante bestojn pruvi inteligentecon aŭ certajn kondutojn. Tamen, operanta kondiĉado, kiel uzata en besta esplorado, estas nenio pli ol pli prononcita formo de la sama kondiĉado surbaze de kiu bestoj lernas dum sia tuta vivo. Ni konstante ricevas signalojn de pozitiva plifortigo de la medio kaj ĝustigas nian konduton laŭe. Fakte, multaj neŭrosciencistoj kaj kognaj sciencistoj kredas, ke homoj kaj aliaj bestoj efektive funkcias sur eĉ pli alta nivelo kaj daŭre lernas antaŭdiri la rezulton de sia konduto en estontaj situacioj bazitaj sur eblaj rekompencoj.

La centra rolo de prognozo en lernado de sperto ŝanĝas la dinamikon priskribitan supre laŭ signifaj manieroj. La signalo, kiu antaŭe estis konsiderita tre malabunda (epizoda rekompenco) montriĝas tre densa. Teorie, la situacio estas io kiel ĉi tio: en ajna momento, la cerbo de la mamulo kalkulas rezultojn surbaze de kompleksa fluo de sensaj stimuloj kaj agoj, dum la besto estas simple mergita en ĉi tiu fluo. En ĉi tiu kazo, la fina konduto de la besto donas fortan signalon, kiu devas esti uzata por gvidi la korekton de antaŭvidoj kaj la disvolviĝon de konduto. La cerbo uzas ĉiujn ĉi tiujn signalojn por optimumigi prognozojn (kaj, sekve, la kvaliton de agoj faritaj) en la estonteco. Superrigardo de ĉi tiu aliro estas donita en la bonega libro "Surfa Necerteco” kogna sciencisto kaj filozofo Andy Clark. Se ni eksterpolas tian rezonadon al la trejnado de artefaritaj agentoj, tiam fundamenta difekto en plifortiga lernado estas rivelita: la signalo uzita en ĉi tiu paradigmo estas senespere malforta kompare kun kio ĝi povus esti (aŭ devus esti). En kazoj kie estas neeble pliigi la signalsaturiĝon (eble ĉar ĝi estas esence malforta aŭ asociita kun malaltnivela reagemo), estas probable pli bone preferi trejnan metodon kiu estas bone paraleligita, ekzemple, ES.

Pli riĉa trejnado de neŭralaj retoj

Konstruante sur la principoj de pli alta neŭrala agado eneca en la mamula cerbo, kiu konstante okupiĝas pri antaŭdiroj, lastatempaj progresoj estis faritaj en plifortiga lernado, kiu nun konsideras la gravecon de tiaj antaŭdiroj. Mi povas tuj rekomendi al vi du similajn verkojn:

En ambaŭ ĉi tiuj artikoloj, la aŭtoroj kompletigas la tipan defaŭltan politikon de siaj neŭralaj retoj kun prognozaj rezultoj pri la stato de la medio en la estonteco. En la unua artikolo, prognozo estas aplikata al diversaj mezurvariabloj, kaj en la dua, prognozo estas aplikata al ŝanĝoj en la medio kaj la konduto de la agento kiel tia. En ambaŭ kazoj, la malabunda signalo asociita kun pozitiva plifortikigo iĝas multe pli riĉa kaj pli informa, enkalkulante kaj pli rapidan lernadon kaj la akiron de pli kompleksaj kondutoj. Tiaj plibonigoj disponeblas nur per metodoj, kiuj uzas gradientsignalon, kaj ne per metodoj, kiuj funkcias laŭ principo de "nigra skatolo", kiel ES.

Krome, lerni de sperto kaj gradientmetodoj estas multe pli efikaj. Eĉ en kazoj kie eblis studi apartan problemon uzante la ES-metodon pli rapide ol uzante plifortigan lernadon, la gajno estis atingita pro la fakto ke la ES-strategio implikis multajn fojojn pli da datumoj ol kun RL. Pripensante ĉi-kaze pri la principoj de lernado ĉe bestoj, ni rimarkas, ke la rezulto de lernado el alies ekzemplo manifestiĝas post multaj generacioj, dum kelkfoje sufiĉas unuopa evento de si mem, por ke la besto lernu la lecionon por ĉiam. Dum kiel trejnado sen ekzemploj Kvankam ĝi ne tute taŭgas en tradiciaj gradientmetodoj, ĝi estas multe pli komprenebla ol ES. Ekzistas, ekzemple, aliroj kiel ekzemple neŭrala epizoda kontrolo, kie Q-valoroj estas stokitaj dum trejnado, post kio la programo kontrolas ilin antaŭ ol fari agojn. La rezulto estas gradienta metodo, kiu permesas vin lerni kiel solvi problemojn multe pli rapide ol antaŭe. En artikolo pri neŭrala epizoda kontrolo, la aŭtoroj mencias la homan hipokampon, kiu kapablas reteni informojn pri evento eĉ post ununura sperto kaj, do, ludas. kritika rolo en la procezo de memorado. Tiaj mekanismoj postulas aliron al la interna organizo de la agento, kio ankaŭ estas, laŭdifine, neebla en la ES-paradigmo.

Do, kial ne kombini ilin?

Verŝajne multe de ĉi tiu artikolo eble lasos la impreson, ke mi rekomendas RL-metodojn. Tamen mi efektive pensas, ke longtempe la plej bona solvo estas kunigi ambaŭ metodojn, por ke ĉiu estu uzata en la situacioj, en kiuj ĝi plej taŭgas. Evidente, en la kazo de multaj reaktivaj politikoj aŭ en situacioj kun tre malabundaj signaloj de pozitiva plifortigo, la ES venkas, precipe se vi havas la komputikan potencon je via dispono, sur kiu vi povas kuri amase paralela trejnado. Aliflanke, gradientmetodoj uzantaj plifortigan lernadon aŭ kontrolitan lernadon estos utilaj kiam ni havas aliron al ampleksaj sugestoj kaj bezonos lerni kiel solvi problemon rapide kaj kun malpli da datumoj.

Turnante al la naturo, ni trovas, ke la unua metodo, en esenco, metas la fundamenton por la dua. Tial, dum la evoluo, mamuloj evoluigis cerbojn kiuj permesas al ili lerni ege efike de kompleksaj signaloj venantaj de la medio. Do, la demando restas malfermita. Eble evoluaj strategioj helpos nin elpensi efikajn lernajn arkitekturojn, kiuj ankaŭ estos utilaj por gradientaj lernmetodoj. Ja la solvo trovita de la naturo estas ja tre sukcesa.

fonto: www.habr.com

Plifortiga lernado aŭ evoluaj strategioj? - Ambaŭ