🥇 Të mësuarit përforcues apo strategji evolucionare? — Të dyja

Hej Habr!

Nuk vendosim shpesh të postojmë këtu përkthime të teksteve dy vjeçare, pa kod dhe qartësisht të natyrës akademike - por sot do të bëjmë një përjashtim. Shpresojmë që dilema e paraqitur në titullin e artikullit të shqetësojë shumë nga lexuesit tanë dhe ju tashmë e keni lexuar veprën themelore mbi strategjitë evolucionare me të cilat argumenton ky postim në origjinal ose do ta lexoni tani. Mirë se vini në mace!

Në mars 2017, OpenAI bëri bujë në komunitetin e të mësuarit të thellë me letrën "Strategjitë e evolucionit si një alternativë e shkallëzueshme ndaj mësimit përforcues" Kjo punë përshkroi rezultate mbresëlënëse në favor të faktit se të mësuarit përforcues (RL) nuk është bërë një pykë, dhe kur trajnoni rrjete komplekse nervore, këshillohet të provoni metoda të tjera. Më pas shpërtheu një debat lidhur me rëndësinë e të mësuarit përforcues dhe se sa e meriton statusin e tij si një teknologji "e domosdoshme" për mësimdhënien e zgjidhjes së problemeve. Këtu dua të them se këto dy teknologji nuk duhen konsideruar si konkurruese, njëra prej të cilave është dukshëm më e mirë se tjetra; përkundrazi, ato në fund të fundit plotësojnë njëra-tjetrën. Në të vërtetë, nëse mendoni pak se çfarë duhet për të krijuar UA e përgjithshme dhe sisteme të tilla, të cilat gjatë gjithë ekzistencës së tyre do të ishin të afta për të mësuar, gjykuar dhe planifikuar, atëherë pothuajse me siguri do të arrijmë në përfundimin se do të kërkohet kjo apo ajo zgjidhje e kombinuar. Nga rruga, ishte pikërisht kjo zgjidhje e kombinuar që erdhi natyra, e cila i pajisi gjitarët dhe kafshët e tjera më të larta me inteligjencë komplekse gjatë rrjedhës së evolucionit.

Strategjitë evolucionare

Teza kryesore e punimit OpenAI ishte se, në vend që të përdornin mësimin përforcues të kombinuar me përhapjen tradicionale, ata trajnuan me sukses një rrjet nervor për të zgjidhur probleme komplekse duke përdorur atë që ata e quajtën një "strategji evolucionare" (ES). Kjo qasje ES konsiston në mbajtjen e një shpërndarjeje të peshave në të gjithë rrjetin, duke përfshirë agjentë të shumtë që punojnë paralelisht dhe duke përdorur parametra të zgjedhur nga kjo shpërndarje. Çdo agjent operon në mjedisin e tij dhe pas përfundimit të një numri të caktuar episodesh ose fazash të një episodi, algoritmi kthen një shpërblim kumulativ, të shprehur si një rezultat fitnesi. Duke marrë parasysh këtë vlerë, shpërndarja e parametrave mund të zhvendoset drejt agjentëve më të suksesshëm, duke privuar ata më pak të suksesshëm. Duke e përsëritur një operacion të tillë miliona herë me pjesëmarrjen e qindra agjentëve, është e mundur të zhvendoset shpërndarja e peshave në një hapësirë që do t'i lejojë agjentët të formulojnë një politikë cilësore për zgjidhjen e detyrës që u është caktuar. Në të vërtetë, rezultatet e paraqitura në artikull janë mbresëlënëse: tregohet se nëse drejtoni një mijë agjentë paralelisht, atëherë lëvizja antropomorfike në dy këmbë mund të mësohet në më pak se gjysmë ore (ndërsa edhe metodat më të avancuara të RL kërkojnë shpenzim më shumë se një orë për këtë). Për informacion më të detajuar, unë rekomandoj leximin e shkëlqyeshëm post nga autorët e eksperimentit, si dhe artikull shkencor.

Strategji të ndryshme për mësimin e ecjes antropomorfike drejt, të studiuara duke përdorur metodën ES nga OpenAI.

Kuti e zeze

Përfitimi i madh i kësaj metode është se mund të paralelizohet lehtësisht. Ndërsa metodat RL, të tilla si A3C, kërkojnë që informacioni të shkëmbehet midis thread-ve të punës dhe një serveri parametrash, ES ka nevojë vetëm për vlerësime të përshtatshmërisë dhe informacion të përgjithësuar të shpërndarjes së parametrave. Kjo është për shkak të thjeshtësisë që kjo metodë është shumë më përpara se metodat moderne RL për sa i përket aftësive të shkallëzimit. Sidoqoftë, e gjithë kjo nuk shkon kot: duhet të optimizoni rrjetin sipas parimit të kutisë së zezë. Në këtë rast, "kutia e zezë" do të thotë që gjatë stërvitjes struktura e brendshme e rrjetit injorohet plotësisht dhe përdoret vetëm rezultati i përgjithshëm (shpërblimi për episodin) dhe varet nëse peshat e një rrjeti të caktuar do të të trashëgohen nga brezat pasardhës. Në situatat kur nuk marrim shumë reagime nga mjedisi - dhe në shumë probleme tradicionale të RL-së rrjedha e shpërblimeve është shumë e rrallë - problemi shkon nga të qenit një "kuti pjesërisht e zezë" në një "kuti plotësisht të zezë". Në këtë rast, ju mund të rrisni ndjeshëm produktivitetin, kështu që, natyrisht, një kompromis i tillë është i justifikuar. "Kush ka nevojë për gradientët nëse ato gjithsesi janë jashtëzakonisht të zhurmshme?" - ky është mendimi i përgjithshëm.

Megjithatë, në situatat kur reagimet janë më aktive, gjërat fillojnë të shkojnë keq për ES. Ekipi i OpenAI përshkruan se si një rrjet i thjeshtë klasifikimi MNIST u trajnua duke përdorur ES, dhe këtë herë trajnimi ishte 1000 herë më i ngadalshëm. Fakti është se sinjali i gradientit në klasifikimin e imazheve është jashtëzakonisht informues në lidhje me mënyrën se si të mësohet klasifikimi më i mirë i rrjetit. Kështu, problemi është më pak me teknikën RL dhe më shumë me shpërblimet e rralla në mjediset që prodhojnë gradientë të zhurmshëm.

Zgjidhja e natyrës

Nëse përpiqemi të mësojmë nga shembulli i natyrës, duke menduar për mënyrat për të zhvilluar AI, atëherë në disa raste AI mund të mendohet si qasje e orientuar drejt problemit. Në fund të fundit, natyra vepron brenda kufizimeve që shkencëtarët kompjuterikë thjesht nuk i kanë. Ekziston një mendim se një qasje thjesht teorike për zgjidhjen e një problemi të caktuar mund të ofrojë zgjidhje më efektive sesa alternativat empirike. Megjithatë, unë ende mendoj se do të ishte e vlefshme të testohej se si një sistem dinamik që vepron nën kufizime të caktuara (Toka) ka gjeneruar agjentë (kafshë, veçanërisht gjitarë) të aftë për sjellje fleksibël dhe komplekse. Ndërsa disa nga këto kufizime nuk zbatohen në botët e simuluara të shkencës së të dhënave, të tjerat janë mjaft të mira.

Duke ekzaminuar sjelljen intelektuale të gjitarëve, shohim se ajo është formuar si rezultat i ndikimit kompleks të ndërsjellë të dy proceseve të ndërlidhura ngushtë: duke mësuar nga përvojat e të tjerëve и të mësuarit duke bërë. E para shpesh barazohet me evolucionin e nxitur nga seleksionimi natyror, por këtu unë përdor një term më të gjerë për të marrë parasysh epigjenetikën, mikrobiomet dhe mekanizmat e tjerë që mundësojnë ndarjen e përvojave midis organizmave gjenetikisht të palidhur. Procesi i dytë, të mësuarit nga përvoja, është i gjithë informacioni që një kafshë arrin të mësojë gjatë gjithë jetës së saj dhe ky informacion përcaktohet drejtpërdrejt nga ndërveprimi i kësaj kafshe me botën e jashtme. Kjo kategori përfshin gjithçka, nga të mësuarit për të njohur objektet deri te zotërimi i komunikimit të qenësishëm në procesin e të mësuarit.

Përafërsisht, këto dy procese që ndodhin në natyrë mund të krahasohen me dy opsione për optimizimin e rrjeteve nervore. Strategjitë evolucionare, ku informacioni rreth gradientëve përdoret për të përditësuar informacionin rreth organizmit, i afrohet mësimit nga përvoja e të tjerëve. Në mënyrë të ngjashme, metodat e gradientit, ku marrja e një ose një tjetër përvoje çon në një ose një tjetër ndryshim në sjelljen e agjentit, janë të krahasueshme me të mësuarit nga përvoja e dikujt. Nëse mendojmë për llojet e sjelljeve apo aftësive inteligjente që zhvillon te kafshët secila prej këtyre dy qasjeve, krahasimi bëhet më i theksuar. Në të dyja rastet, "metodat evolucionare" nxisin studimin e sjelljeve reaktive që lejojnë dikë të zhvillojë një fitnes të caktuar (të mjaftueshëm për të qëndruar gjallë). Të mësosh të ecësh ose të arratisesh nga robëria është në shumë raste ekuivalente me sjelljet më "instinktive" që janë "të lidhura" në shumë kafshë në nivelin gjenetik. Për më tepër, ky shembull konfirmon se metodat evolucionare janë të zbatueshme në rastet kur sinjali i shpërblimit është jashtëzakonisht i rrallë (për shembull, fakti i rritjes së suksesshme të një fëmije). Në një rast të tillë, është e pamundur të lidhet shpërblimi me ndonjë grup specifik veprimesh që mund të jenë kryer shumë vite përpara se të ndodhte ky fakt. Nga ana tjetër, nëse marrim parasysh një rast në të cilin ES dështon, domethënë klasifikimi i imazhit, rezultatet janë jashtëzakonisht të krahasueshme me rezultatet e të mësuarit të kafshëve të arritura në eksperimente të panumërta psikologjike të sjelljes të kryera mbi 100 vjet.

Të mësuarit nga Kafshët

Metodat e përdorura në mësimin përforcues në shumë raste janë marrë drejtpërdrejt nga literatura psikologjike kushtëzimi operant, dhe kushtëzimi operant u studiua duke përdorur psikologjinë e kafshëve. Nga rruga, Richard Sutton, një nga dy themeluesit e të mësuarit përforcues, ka një diplomë bachelor në psikologji. Në kontekstin e kushtëzimit operant, kafshët mësojnë të lidhin shpërblimin ose ndëshkimin me modele specifike të sjelljes. Trajnerët dhe studiuesit mund të manipulojnë këtë shoqërim shpërblimi në një farë mënyre, duke provokuar kafshët të demonstrojnë inteligjencë ose sjellje të caktuara. Megjithatë, kushtëzimi operant, siç përdoret në kërkimin e kafshëve, nuk është gjë tjetër veçse një formë më e theksuar e të njëjtit kushtëzimi mbi bazën e të cilit kafshët mësojnë gjatë gjithë jetës së tyre. Ne marrim vazhdimisht sinjale të përforcimit pozitiv nga mjedisi dhe rregullojmë sjelljen tonë në përputhje me rrethanat. Në fakt, shumë neuroshkencëtarë dhe shkencëtarë njohës besojnë se njerëzit dhe kafshët e tjera aktualisht veprojnë në një nivel edhe më të lartë dhe vazhdimisht mësojnë të parashikojnë rezultatin e sjelljes së tyre në situatat e ardhshme bazuar në shpërblimet e mundshme.

Roli qendror i parashikimit në të mësuarit nga përvoja ndryshon dinamikën e përshkruar më sipër në mënyra të rëndësishme. Sinjali që më parë konsiderohej shumë i rrallë (shpërblim episodik) rezulton të jetë shumë i dendur. Teorikisht, situata është diçka e tillë: në çdo kohë, truri i gjitarit po llogarit rezultatet bazuar në një rrjedhë komplekse stimujsh dhe veprimesh shqisore, ndërsa kafsha thjesht zhytet në këtë rrymë. Në këtë rast, sjellja përfundimtare e kafshës jep një sinjal të fortë që duhet përdorur për të udhëhequr rregullimin e parashikimeve dhe zhvillimin e sjelljes. Truri përdor të gjitha këto sinjale për të optimizuar parashikimet (dhe, në përputhje me rrethanat, cilësinë e veprimeve të ndërmarra) në të ardhmen. Një përmbledhje e kësaj qasjeje është dhënë në librin e shkëlqyer "Surfing PasiguriaShkencëtari dhe filozofi njohës Andy Clark. Nëse e ekstrapolojmë një arsyetim të tillë në trajnimin e agjentëve artificialë, atëherë zbulohet një e metë themelore në të mësuarit përforcues: sinjali i përdorur në këtë paradigmë është pashpresë i dobët në krahasim me atë që mund të ishte (ose duhet të jetë). Në rastet kur është e pamundur të rritet ngopja e sinjalit (ndoshta sepse është në thelb i dobët ose i lidhur me reaktivitet të nivelit të ulët), ndoshta është më mirë të preferoni një metodë trajnimi që është e paralelizuar mirë, për shembull, ES.

Trajnim më i pasur i rrjeteve nervore

Duke u mbështetur në parimet e aktivitetit më të lartë nervor të qenësishëm në trurin e gjitarëve, i cili është vazhdimisht i zënë me parashikime, përparimet e fundit janë bërë në të mësuarit përforcues, i cili tani merr parasysh rëndësinë e parashikimeve të tilla. Unë mund t'ju rekomandoj menjëherë dy vepra të ngjashme:

Në të dyja këto punime, autorët plotësojnë politikën tipike të paracaktuar të rrjeteve të tyre nervore me rezultate parashikimi për gjendjen e mjedisit në të ardhmen. Në artikullin e parë, parashikimi zbatohet për një sërë variablash matëse, dhe në të dytin, parashikimi zbatohet për ndryshimet në mjedis dhe sjelljen e agjentit si të tillë. Në të dyja rastet, sinjali i rrallë i lidhur me përforcimin pozitiv bëhet shumë më i pasur dhe më informues, duke lejuar si mësimin më të shpejtë ashtu edhe përvetësimin e sjelljeve më komplekse. Përmirësime të tilla janë të disponueshme vetëm me metoda që përdorin një sinjal gradient, dhe jo me metoda që funksionojnë në një parim "kuti të zezë", siç është ES.

Përveç kësaj, të mësuarit nga përvoja dhe metodat e gradientit janë shumë më efektive. Edhe në rastet kur ishte e mundur të studiohej një problem i veçantë duke përdorur metodën ES më shpejt sesa duke përdorur të mësuarit përforcues, fitimi u arrit për faktin se strategjia ES përfshinte shumë herë më shumë të dhëna sesa me RL. Duke reflektuar në këtë rast mbi parimet e të mësuarit te kafshët, vërejmë se rezultati i të mësuarit nga shembulli i dikujt tjetër shfaqet pas shumë brezash, ndërsa ndonjëherë një ngjarje e vetme e përjetuar në vetvete mjafton që kafsha të mësojë përgjithmonë mësimin. Ndërsa si trajnim pa shembuj Ndërsa nuk përshtatet plotësisht me metodat tradicionale të gradientit, është shumë më i kuptueshëm se ES. Ka, për shembull, qasje të tilla si kontrolli episodik nervor, ku ruhen vlerat Q gjatë stërvitjes, pas së cilës programi i kontrollon ato përpara se të ndërmarrë veprime. Rezultati është një metodë gradient që ju lejon të mësoni se si t'i zgjidhni problemet shumë më shpejt se më parë. Në një artikull mbi kontrollin episodik nervor, autorët përmendin hipokampusin njerëzor, i cili është në gjendje të mbajë informacione për një ngjarje edhe pas një përvoje të vetme dhe, për rrjedhojë, luan rol kritik në procesin e të kujtuarit. Mekanizma të tillë kërkojnë qasje në organizimin e brendshëm të agjentit, gjë që është gjithashtu, sipas përkufizimit, e pamundur në paradigmën ES.

Pra, pse të mos i kombinoni ato?

Ka të ngjarë që shumica e këtij artikulli mund të lërë përshtypjen se unë jam duke mbrojtur metodat RL. Megjithatë, në të vërtetë mendoj se në planin afatgjatë zgjidhja më e mirë është kombinimi i të dyja metodave, në mënyrë që secila të përdoret në situatat në të cilat është më e përshtatshme. Natyrisht, në rastin e shumë politikave reaktive ose në situata me sinjale shumë të rralla të përforcimit pozitiv, ES fiton, veçanërisht nëse keni në dispozicion fuqinë kompjuterike mbi të cilën mund të kryeni trajnim masivisht paralel. Nga ana tjetër, metodat e gradientit që përdorin mësimin përforcues ose mësimin e mbikëqyrur do të jenë të dobishme kur kemi akses në reagime të gjera dhe duhet të mësojmë se si ta zgjidhim një problem shpejt dhe me më pak të dhëna.

Duke iu kthyer natyrës, zbulojmë se metoda e parë, në thelb, hedh themelet për të dytën. Kjo është arsyeja pse, gjatë rrjedhës së evolucionit, gjitarët kanë zhvilluar trurin që u lejon atyre të mësojnë në mënyrë jashtëzakonisht efektive nga sinjalet komplekse që vijnë nga mjedisi. Pra, pyetja mbetet e hapur. Ndoshta strategjitë evolucionare do të na ndihmojnë të shpikim arkitektura efektive të të mësuarit që do të jenë gjithashtu të dobishme për metodat e të mësuarit me gradient. Në fund të fundit, zgjidhja e gjetur nga natyra është vërtet shumë e suksesshme.

Burimi: www.habr.com

Të mësuarit përforcues apo strategji evolucionare? - Të dyja