Hej Habr!
Ni ne ofte decidas afiŝi ĉi tie tradukojn de dujaraj tekstoj, senkodaj kaj klare akademiaj - sed hodiaŭ ni faros escepton. Ni esperas, ke la dilemo prezentita en la titolo de la artikolo maltrankviligas multajn el niaj legantoj, kaj vi jam legis la fundamentan verkon pri evoluaj strategioj, per kiu ĉi tiu afiŝo argumentas en la originalo aŭ legos ĝin nun. Bonvenon al la kato!
En marto 2017, OpenAI faris ondojn en la profunda lernadkomunumo kun la papero "
Evoluaj Strategioj
La ĉeftezo de la OpenAI-artikolo estis ke, anstataŭe de uzi plifortigan lernadon kombinitan kun tradicia retrodisvastigo, ili sukcese trejnis neŭralan reton por solvi kompleksajn problemojn uzante kion ili nomis "evolua strategio" (ES). Tiu ES-aliro konsistas el konservado de tutrete distribuado de pezoj, implikante multoblajn agentojn laborantajn paralele kaj uzante parametrojn elektitajn de tiu distribuo. Ĉiu agento funkcias en sia propra medio, kaj post kompletigo de specifa nombro da epizodoj aŭ stadioj de epizodo, la algoritmo resendas akumulan rekompencon, esprimitan kiel taŭgeca poentaro. Konsiderante ĉi tiun valoron, la distribuado de parametroj povas esti ŝanĝita al pli sukcesaj agentoj, senigante malpli sukcesajn. Ripetante tian operacion milionojn da fojoj kun la partopreno de centoj da agentoj, eblas movi la distribuadon de pezoj al spaco, kiu permesos al la agentoj formuli altkvalitan politikon por solvi la taskon atribuitan al ili. Efektive, la rezultoj prezentitaj en la artikolo estas imponaj: estas montrite, ke se oni kuras paralele mil agentojn, tiam antropomorfa movo sur du kruroj povas esti lernita en malpli ol duonhoro (dum eĉ la plej altnivelaj RL-metodoj postulas pli elspezadon. ol unu horo pri tio). Por pli detalaj informoj, mi rekomendas legi la bonegan
Malsamaj strategioj por instruado de antropomorfa vertikala marŝado, studitaj per la ES-metodo de OpenAI.
Nigra skatolo
La granda avantaĝo de ĉi tiu metodo estas ke ĝi povas esti facile paraleligita. Dum RL-metodoj, kiel ekzemple A3C, postulas informojn esti interŝanĝitaj inter laboristaj fadenoj kaj parametroservilo, ES nur bezonas taŭgecajn taksojn kaj ĝeneraligitajn parametrajn distribuinformojn. Estas pro ĉi tiu simpleco ke ĉi tiu metodo estas multe antaŭ modernaj RL-metodoj laŭ skalo-kapabloj. Tamen ĉio ĉi ne vane: vi devas optimumigi la reton laŭ la principo de nigra skatolo. En ĉi tiu kazo, la "nigra skatolo" signifas, ke dum trejnado la interna strukturo de la reto estas tute ignorita, kaj nur la ĝenerala rezulto (rekompenco por la epizodo) estas uzata, kaj dependas de ĝi ĉu la pezoj de aparta reto estos uzata. esti heredita de postaj generacioj. En situacioj kie ni ne ricevas multe da reagoj de la medio—kaj en multaj tradiciaj RL-problemoj la fluo de rekompencoj estas tre malabunda—la problemo iras de esti "parte nigra skatolo" al "tute nigra skatolo." En ĉi tiu kazo, vi povas signife pliigi produktivecon, do, kompreneble, tia kompromiso estas pravigita. "Kiu bezonas gradientojn, se ili tamen estas senespere bruaj?" — jen la ĝenerala opinio.
Tamen, en situacioj kie reagoj estas pli aktivaj, aferoj komencas fuŝiĝi por la ES. La OpenAI-teamo priskribas kiel simpla MNIST klasifika reto estis trejnita uzante ES, kaj ĉi-foje la trejnado estis 1000 fojojn pli malrapida. La fakto estas, ke la gradienta signalo en bildklasifiko estas ekstreme informa pri kiel instrui al la reto pli bonan klasifikon. Tiel, la problemo estas malpli kun la RL-tekniko kaj pli kun malabundaj rekompencoj en medioj kiuj produktas bruajn gradientojn.
La solvo de la naturo
Se ni provas lerni de la ekzemplo de naturo, pensante pri manieroj evoluigi AI, tiam en iuj kazoj AI povas esti opiniita kiel
Ekzameninte la intelektan konduton de mamuloj, ni vidas, ke ĝi estas formita kiel rezulto de la kompleksa reciproka influo de du proksime interrilataj procezoj: lernante de alies spertoj и lerni per faro. La unua estas ofte egaligita kun evoluo pelita de natura selektado, sed ĉi tie mi uzas pli larĝan terminon por konsideri epigenetikon, mikrobiomojn kaj aliajn mekanismojn, kiuj ebligas kundividon de spertoj inter genetike senrilataj organismoj. La dua procezo, lerni de sperto, estas ĉiuj informoj, kiujn besto sukcesas lerni dum sia vivo, kaj ĉi tiu informo estas rekte determinita de la interago de ĉi tiu besto kun la ekstera mondo. Ĉi tiu kategorio inkluzivas ĉion, de lerni rekoni objektojn ĝis regi la komunikadon enecan en la lernado.
Malglate parolante, ĉi tiuj du procezoj okazantaj en la naturo povas esti komparitaj kun du opcioj por optimumigo de neŭralaj retoj. Evoluaj strategioj, kie informoj pri gradientoj estas utiligitaj por ĝisdatigi informojn pri la organismo, proksimiĝas al lernado de la sperto de aliaj. Simile, gradientmetodoj, kie akiri unu aŭ alian sperton kondukas al unu aŭ alia ŝanĝo en la konduto de la agento, estas kompareblaj al lernado de onies propra sperto. Se ni pensas pri la specoj de inteligenta konduto aŭ kapabloj, kiujn ĉiu el ĉi tiuj du aliroj disvolvas ĉe bestoj, la komparo fariĝas pli prononcita. En ambaŭ kazoj, "evoluaj metodoj" antaŭenigas la studon de reaktivaj kondutoj kiuj permesas al oni evoluigi certan taŭgecon (sufiĉa por resti vivanta). Lerni piediri aŭ eskapi el kaptiteco estas en multaj kazoj ekvivalenta al pli "instinktaj" kondutoj kiuj estas "malmol-kablataj" en multaj bestoj sur la genetika nivelo. Krome, ĉi tiu ekzemplo konfirmas, ke evoluaj metodoj estas aplikeblaj en kazoj kie la rekompenca signalo estas ekstreme malofta (ekzemple, la fakto de sukcesa bredado de bebo). En tia kazo, estas neeble korelacii la rekompencon kun iu specifa aro de agoj, kiuj eble estis faritaj multajn jarojn antaŭ la okazo de ĉi tiu fakto. Aliflanke, se ni konsideras kazon en kiu ES malsukcesas, nome bilda klasifiko, la rezultoj estas rimarkinde kompareblaj al la rezultoj de besta lernado atingita en sennombraj kondutismaj psikologiaj eksperimentoj faritaj dum pli ol 100 jaroj.
Lernante de Bestoj
La metodoj uzitaj en plifortiga lernado estas en multaj kazoj prenitaj rekte de la psikologia literaturo pluen
La centra rolo de prognozo en lernado de sperto ŝanĝas la dinamikon priskribitan supre laŭ signifaj manieroj. La signalo, kiu antaŭe estis konsiderita tre malabunda (epizoda rekompenco) montriĝas tre densa. Teorie, la situacio estas io kiel ĉi tio: en ajna momento, la cerbo de la mamulo kalkulas rezultojn surbaze de kompleksa fluo de sensaj stimuloj kaj agoj, dum la besto estas simple mergita en ĉi tiu fluo. En ĉi tiu kazo, la fina konduto de la besto donas fortan signalon, kiu devas esti uzata por gvidi la korekton de antaŭvidoj kaj la disvolviĝon de konduto. La cerbo uzas ĉiujn ĉi tiujn signalojn por optimumigi prognozojn (kaj, sekve, la kvaliton de agoj faritaj) en la estonteco. Superrigardo de ĉi tiu aliro estas donita en la bonega libro "
Pli riĉa trejnado de neŭralaj retoj
Konstruante sur la principoj de pli alta neŭrala agado eneca en la mamula cerbo, kiu konstante okupiĝas pri antaŭdiroj, lastatempaj progresoj estis faritaj en plifortiga lernado, kiu nun konsideras la gravecon de tiaj antaŭdiroj. Mi povas tuj rekomendi al vi du similajn verkojn:
En ambaŭ ĉi tiuj artikoloj, la aŭtoroj kompletigas la tipan defaŭltan politikon de siaj neŭralaj retoj kun prognozaj rezultoj pri la stato de la medio en la estonteco. En la unua artikolo, prognozo estas aplikata al diversaj mezurvariabloj, kaj en la dua, prognozo estas aplikata al ŝanĝoj en la medio kaj la konduto de la agento kiel tia. En ambaŭ kazoj, la malabunda signalo asociita kun pozitiva plifortikigo iĝas multe pli riĉa kaj pli informa, enkalkulante kaj pli rapidan lernadon kaj la akiron de pli kompleksaj kondutoj. Tiaj plibonigoj disponeblas nur per metodoj, kiuj uzas gradientsignalon, kaj ne per metodoj, kiuj funkcias laŭ principo de "nigra skatolo", kiel ES.
Krome, lerni de sperto kaj gradientmetodoj estas multe pli efikaj. Eĉ en kazoj kie eblis studi apartan problemon uzante la ES-metodon pli rapide ol uzante plifortigan lernadon, la gajno estis atingita pro la fakto ke la ES-strategio implikis multajn fojojn pli da datumoj ol kun RL. Pripensante ĉi-kaze pri la principoj de lernado ĉe bestoj, ni rimarkas, ke la rezulto de lernado el alies ekzemplo manifestiĝas post multaj generacioj, dum kelkfoje sufiĉas unuopa evento de si mem, por ke la besto lernu la lecionon por ĉiam. Dum kiel
Do, kial ne kombini ilin?
Verŝajne multe de ĉi tiu artikolo eble lasos la impreson, ke mi rekomendas RL-metodojn. Tamen mi efektive pensas, ke longtempe la plej bona solvo estas kunigi ambaŭ metodojn, por ke ĉiu estu uzata en la situacioj, en kiuj ĝi plej taŭgas. Evidente, en la kazo de multaj reaktivaj politikoj aŭ en situacioj kun tre malabundaj signaloj de pozitiva plifortigo, la ES venkas, precipe se vi havas la komputikan potencon je via dispono, sur kiu vi povas kuri amase paralela trejnado. Aliflanke, gradientmetodoj uzantaj plifortigan lernadon aŭ kontrolitan lernadon estos utilaj kiam ni havas aliron al ampleksaj sugestoj kaj bezonos lerni kiel solvi problemon rapide kaj kun malpli da datumoj.
Turnante al la naturo, ni trovas, ke la unua metodo, en esenco, metas la fundamenton por la dua. Tial, dum la evoluo, mamuloj evoluigis cerbojn kiuj permesas al ili lerni ege efike de kompleksaj signaloj venantaj de la medio. Do, la demando restas malfermita. Eble evoluaj strategioj helpos nin elpensi efikajn lernajn arkitekturojn, kiuj ankaŭ estos utilaj por gradientaj lernmetodoj. Ja la solvo trovita de la naturo estas ja tre sukcesa.
fonto: www.habr.com