Fêrbûna bihêzkirin an stratejiyên pêşveçûnê? - Herdu

Hey Habr!

Em gelek caran biryar nadin ku li vir wergerên metnên du salî, bê kod û eşkere yên akademîk bişînin - lê îro em ê îstîsnayekê bikin. Em hêvî dikin ku dubendiya di sernavê gotarê de gelek xwendevanên me fikar dike, û we berê xebata bingehîn a li ser stratejiyên pêşkeftinê yên ku ev post di orîjînal de nîqaş dike an jî dê nuha bixwînin xwendiye. Bi xêr hatî pisîkê!

Fêrbûna bihêzkirin an stratejiyên pêşveçûnê? - Herdu

Di Adara 2017-an de, OpenAI bi kaxezê di civata fêrbûna kûr de pêlan çêkir.Stratejiyên Pêşkeftinê Wekî Alternatîfek Berbiçav ji Fêrbûna Bihêzkirinê re. Vê xebatê encamên balkêş di berjewendiya vê yekê de diyar kir ku fêrbûna xurtkirinê (RL) nebûye kêşek, û dema ku torên neuralî yên tevlihev perwerde dikin, tê pêşniyar kirin ku hûn rêbazên din biceribînin. Dûv re nîqaşek li ser girîngiya fêrbûna xurtkirinê û ka gelo statûya wê wekî teknolojiyek "divê-heye" ya ji bo hînkirina çareserkirina pirsgirêkan heq dike, derket. Li vir ez dixwazim bibêjim ku divê ev her du teknolojiyên hevrikî neyên hesibandin, ku yek ji wan eşkere ji ya din çêtir e; berevajî vê yekê, ew di dawiyê de hevdu temam dikin. Bi rastî, heke hûn hinekî li ser tiştên ku ji bo afirandinê hewce dike bifikirin giştî AI û sîstemên weha, ku di tevahiya hebûna xwe de dê bikaribin hîn bibin, dadbar bikin û plansaz bikin, wê gavê em ê hema bi rastî bigihîjin wê encamê ku dê çareseriyek hevgirtî ev an ew hewce bike. Bi awayê, bi rastî ev çareseriya hevgirtî ya ku xwezayê derketiye holê, ya ku mamik û heywanên din ên bilind di dema pêşkeftinê de bi hişmendiya tevlihev veqetand.

Stratejiyên Evolutionary

Teza sereke ya kaxeza OpenAI ev bû ku, li şûna ku fêrbûna xurtkirinê bi hev re bi belavbûna paşverû ya kevneşopî re bikar bînin, wan bi serfirazî torgilokek neuralî perwerde kir da ku pirsgirêkên tevlihev bi karanîna tiştê ku jê re digotin "stratejiya pêşkeftinê" (ES) çareser bike. Ev nêzîkatiya ES ji domandina belavkirina torê-berfireh a giranan pêk tê, ku gelek ajanên ku paralel dixebitin û bi karanîna parametreyên ku ji vê dabeşkirinê hatine hilbijartin pêk tê. Her ajanek di hawîrdora xwe de tevdigere, û bi qedandina hejmarek diyarkirî ya beşan an qonaxên beşê de, algorîtm xelatek berhevkirî vedigerîne, ku wekî pîvanek fitnessê tête diyar kirin. Bi girtina vê nirxê, belavkirina parametreyan dikare ber bi ajanên serketîtir ve were guheztin, yên kêmtir serketî nehêle. Bi dubarekirina operasiyonek weha bi mîlyonan car bi beşdariya bi sedan ajanan, gengaz e ku dabeşkirina giranan berbi cîhek ku rê bide ajanan ji bo çareserkirina peywira ku ji wan re hatî dayîn siyasetek bi kalîte ava bikin. Bi rastî, encamên ku di gotarê de têne pêşkêş kirin bi heybet in: tê destnîşan kirin ku heke hûn hezar ajanan bi hev re bimeşînin, wê hingê tevgera antropomorfîkî ya li ser du lingan dikare di kêmtirî nîv saetê de were fêr kirin (di heman demê de rêbazên RL-yê yên herî pêşkeftî jî hewce dike ku bêtir xerc bikin. ji saetekê zêdetir li ser vê). Ji bo agahdariya berfirehtir, ez xwendina hêja pêşniyar dikim post ji nivîskarên ceribandinê, her weha gotara zanistî.

Fêrbûna bihêzkirin an stratejiyên pêşveçûnê? - Herdu

Stratejiyên cihêreng ên ji bo hînkirina rêveçûna rast a antropomorfîk, ku bi karanîna rêbaza ES ji OpenAI-ê ve hatî lêkolîn kirin.

Qutiya reş

Feydeya mezin a vê rêbazê ew e ku bi hêsanî dikare were paralel kirin. Dema ku rêbazên RL, yên wekî A3C, hewce dike ku agahdarî di navbera mijarên xebatkar û serverek parametreyê de were guheztin, ES tenê hewceyê texmînên fitness û agahdariya belavkirina parameterê ya gelemperî hewce dike. Ji ber vê sadebûnê ye ku ev rêbaz di warê kapasîteyên pîvandinê de ji rêbazên nûjen ên RL-yê pir li pêş e. Lêbelê, ev hemî vala dernakeve: pêdivî ye ku hûn torê li gorî prensîba qutiya reş xweş bikin. Di vê rewşê de, "qutiya reş" tê vê wateyê ku di dema perwerdehiyê de strukturên hundurîn ên torê bi tevahî tê paşguh kirin, û tenê encama giştî (xelat ji bo beşê) tê bikar anîn, û bi wê ve girêdayî ye ka gelo giraniya torêyek taybetî dê ji nifşên paşerojê re bibe mîras. Di rewşên ku em ji hawîrdorê pir bertek wernagirin -û di gelek pirsgirêkên RL-ya kevneşopî de herikîna xelatan pir kêm e- pirsgirêk ji "qutiya qismî reş" berbi "qutiya bi tevahî reş" diçe. Di vê rewşê de, hûn dikarin bi girîngî hilberîneriyê zêde bikin, ji ber vê yekê, bê guman, lihevkirinek wusa rastdar e. "Heke ew bi her awayî bêhêvî dengdar bin ji kê re pêdivî bi gradientan heye?" - ev nêrîna giştî ye.

Lêbelê, di rewşên ku bertek çalaktir e, tişt ji bo ES-ê dest pê dikin. Tîma OpenAI diyar dike ku çawa torgilokek dabeşkirina MNIST a hêsan bi karanîna ES hate perwerde kirin, û vê carê perwerde 1000 carî hêdîtir bû. Rastî ev e ku sînyala gradientê di dabeşkirina wêneyê de di derbarê ka meriv çawa dabeşkirina torê çêtir hîn dike pir agahdar e. Ji ber vê yekê, pirsgirêk bi teknîka RL-ê re kêmtir e û bêtir bi xelatên hûrgelî yên li hawîrdorên ku pileyên dengbêjî çêdikin.

Çareseriya xwezayê

Ger em hewl bidin ku ji mînaka xwezayê fêr bibin, li ser awayên pêşvebirina AI-yê bifikirin, wê hingê di hin rewşan de AI dikare wekî nêzîkatiya pirsgirêk-oriented. Beriya her tiştî, xweza di nav sînorên ku zanyarên komputerê bi hêsanî tune ne tevdigere. Nêrînek heye ku nêzîkatiyek tenê teorîkî ji bo çareserkirina pirsgirêkek taybetî dikare ji alternatîfên ampîrîkî çareseriyên bi bandortir peyda bike. Lêbelê, ez hîn jî difikirim ku ew ê hêja be ku meriv biceribîne ka pergalek dînamîkî çawa di bin hin sînoran de dixebite (Erd) ajanên (heywan, nemaze mammal) ku dikarin tevgerek maqûl û tevlihev biafirînin. Digel ku hin ji van astengan di cîhanên zanistiya daneya simulkirî de nahêlin, yên din baş in.

Piştî lêkolîna tevgera rewşenbîrî ya mammalan, em dibînin ku ew di encama bandora hevdu tevlihev a du pêvajoyên ku bi hev ve girêdayî ne pêk tê: ji serpêhatiyên kesên din fêr bibin и fêrbûna bi kirinê. Ya berê bi gelemperî bi pêşkeftina ku ji hêla bijartina xwezayî ve hatî rêve kirin re tê hevber kirin, lê li vir ez têgehek berfireh bikar tînim da ku epigenetîk, mîkrobiom û mekanîzmayên din ên ku parvekirina ezmûnan di navbera organîzmayên genetîk de ne têkildar bihesibînin. Pêvajoya duyemîn, fêrbûna ji ezmûnê, hemî agahdariya ku heywanek di jiyana xwe de fêr dibe, û ev agahdarî rasterast ji hêla danûstendina vê heywanê bi cîhana derve ve tê destnîşankirin. Di vê kategoriyê de ji fêrbûna naskirina tiştan bigire heya serweriya ragihandina ku di pêvajoya fêrbûnê de ye, her tiştî vedihewîne.

Bi gelemperî, ev her du pêvajoyên ku di xwezayê de diqewimin dikarin bi du vebijarkên ji bo xweşbînkirina torên neuralî re werin berhev kirin. Stratejiyên pêşkeftinê, ku agahdariya di derbarê gradientan de ji bo nûvekirina agahdariya li ser organîzmê tê bikar anîn, nêzîkê fêrbûna ji ezmûna kesên din dibin. Bi vî rengî, rêbazên gradient, ku bidestxistina yek an ezmûnek din dibe sedema guhertinek yek an ya din di tevgera ajan de, bi fêrbûna ji ezmûna xwe re têne berhev kirin. Ger em li ser cûreyên tevger an jî şiyanên aqilmend ên ku her yek ji van her du nêzîkatiyan di heywanan de pêşdixin bifikirin, danberhev bêtir diyar dibe. Di her du rewşan de, "rêbazên pêşkeftinê" lêkolîna tevgerên reaktîf pêşdixin ku rê didin meriv ku meriv hin fitneyek pêş bixe (têra zindî bimîne). Fêrbûna rêveçûn an reva ji dîlgirtinê di gelek rewşan de hevwate ye bi tevgerên bêtir "insînktîf" ên ku di asta genetîkî de di gelek heywanan de "hişk" in. Wekî din, ev mînak piştrast dike ku rêbazên evolusyonê di rewşên ku nîşana xelatê zehf kêm e (wek mînak, rastiya mezinbûna serketî ya pitik) de têne sepandin. Di rewşek wusa de, ne mimkûn e ku meriv xelatê bi komek kiryarên taybetî yên ku dibe ku gelek sal berî qewimîna vê rastiyê hatine kirin re têkildar bike. Ji hêla din ve, heke em dozek ku ES têk diçe, ango dabeşkirina wêneyê, binirxînin, encam bi encamên fêrbûna heywanan re ku di bêhejmar ceribandinên psîkolojîk ên behrê de ku di nav 100-salan de hatine kirin de bi rengek berbiçav têne berhev kirin.

Fêrbûna ji Heywanan

Rêbazên ku di fêrbûna xurtkirinê de têne bikar anîn di gelek rewşan de rasterast ji wêjeya psîkolojîk li ser têne girtin şertê operant, û şertkirina operant bi karanîna psîkolojiya heywanan hate lêkolîn kirin. Bi awayê, Richard Sutton, yek ji du damezrînerên fêrbûna xurtkirinê, xwedan lîsansek psîkolojiyê ye. Di çarçoweya şertkirina operant de, heywan fêr dibin ku xelat an cezayê bi şêwazên behrê yên taybetî re têkildar bikin. Mamoste û lêkolîner dikarin vê komeleya xelatê bi rengekî din manîpule bikin, heywanan provoke bikin ku îstîxbarat an hin behreyên xwe nîşan bidin. Lêbelê, şertkirina operant, wekî ku di lêkolîna heywanan de tê bikar anîn, ne tiştek bêtir ji formek diyarkirî ya heman şertê ye ku li ser bingeha ku heywan di tevahiya jiyana xwe de fêr dibin. Em bi berdewamî sînyalên xurtkirina erênî ji hawîrdorê werdigirin û li gorî tevgera xwe eyar dikin. Bi rastî, gelek neurozan û zanyarên cognitive bawer dikin ku mirov û heywanên din bi rastî di astek hîn bilindtir de tevdigerin û bi domdarî fêr dibin ku li ser bingeha xelatên potansiyel encamên tevgera xwe di rewşên pêşerojê de pêşbîn bikin.

Rola navendî ya pêşbîniyê di fêrbûna ji ezmûnê de dînamîkên ku li jor hatine destnîşan kirin bi awayên girîng diguhezîne. Nîşana ku berê pir kêm dihat hesibandin (xelata episodîk) pir qels dibe. Ji hêla teorîkî ve, rewş tiştek weha ye: di her demek diyarkirî de, mêjiyê mamikê encaman li ser bingeha tevnek tevlihev a teşwîq û tevgerên hestî hesab dike, dema ku ajal bi tenê di vê çemê de tê rijandin. Di vê rewşê de, tevgera paşîn a heywanê nîşanek bihêz dide ku divê were bikar anîn da ku rêberiya sererastkirina pêşbînan û pêşkeftina behrê bike. Mêjî van hemî nîşanan bikar tîne da ku pêşbîniyan (û, li gorî vê yekê, qalîteya çalakiyên hatine kirin) di pêşerojê de xweşbîn bike. Awirek li ser vê nêzîkbûnê di pirtûka hêja de tê dayîn "Surfing Uncertainty” zanyar û fîlozof Andy Clark. Ger em aqilmendiyên weha ji perwerdehiya ajanên sûnî derxînin, wê hingê xeletiyek bingehîn di fêrbûna xurtkirinê de derdikeve holê: îşareta ku di vê paradîgmayê de tê bikar anîn li gorî ya ku dikare bibe (an divê bibe) bêhêvî qels e. Di rewşên ku ne gengaz e ku meriv têrbûna sînyalê zêde bike (dibe ku ji ber ku ew bi xwezayê qels e an bi reaktîvîteya nizm ve têkildar e), belkî çêtir e ku meriv rêbazek perwerdehiyê ya ku baş paralelkirî ye tercîh bike, mînakî ES.

Perwerdehiya zengîntir a torên neuralî

Li ser bingeha prensîbên çalakiya neuralî ya bilind a ku di mejiyê mammalan de ye, ku bi domdarî bi çêkirina pêşbîniyan mijûl e, pêşkeftinên vê dawiyê di fêrbûna bihêzkirinê de hatine çêkirin, ku naha girîngiya pêşbîniyên weha dihesibîne. Ez dikarim tavilê du karên wekhev ji we re pêşniyar bikim:

Di van her du kaxezan de, nivîskar polîtîkaya xwerû ya tîpîk a torên xwe yên neuralî bi encamên pêşbîniyê di derbarê rewşa jîngehê de di pêşerojê de temam dikin. Di gotara yekem de, pêşbînkirin li ser cûrbecûr guhêrbarên pîvandinê tê sepandin, û di ya duyemîn de, pêşbînkirin li ser guheztinên li hawîrdorê û tevgera kirdeyê wekî wusa tête bikar anîn. Di her du rewşan de, îşaretek kêm a ku bi xurtkirina erênî ve girêdayî ye pir dewlemendtir û agahdartir dibe, ku hem fêrbûna zûtir û hem jî bidestxistina tevgerên tevlihevtir dihêle. Pêşveçûnên weha tenê bi rêbazên ku nîşanek gradient bikar tînin hene, û ne bi rêbazên ku li ser prensîba "qutiya reş" dixebitin, wek ES.

Wekî din, fêrbûna ji ezmûn û rêbazên gradient pir bi bandortir in. Tewra di rewşên ku gengaz bû ku meriv pirsgirêkek taybetî bi karanîna rêbaza ES-ê ji karanîna fêrbûna xurtkirinê zûtir lêkolîn bike, ji ber vê yekê ku stratejiya ES-ê ji RL-ê gelek caran bêtir daneyan vedihewîne, destkeftî hate bidestxistin. Di vê rewşê de li ser prensîbên fêrbûna heywanan dinihêrin, em bala xwe didin ku encama fêrbûna ji mînaka kesek din piştî gelek nifşan xwe diyar dike, di heman demê de carinan yek bûyerek ku bi serê xwe hatî ceribandin bes e ku heywan her û her dersê fêr bibe. Dema ku mîna perwerdeya bê mînak Digel ku ew bi tevahî di nav rêbazên gradient ên kevneşopî de cih nagire, ew ji ES-ê pir têgihîştîtir e. Mînak nêzîkatiyên weke kontrola episodîk ya neuralî, ku di dema perwerdehiyê de Q-nirx têne hilanîn, piştî ku bername berî çalakiyan wan kontrol dike. Encam rêbazek gradient e ku dihêle hûn fêr bibin ka meriv çawa pirsgirêkan ji berê pir zûtir çareser dike. Di gotarek li ser kontrolkirina episodîk a neuralî de, nivîskar behsa hîpokampusê mirovî dikin, ku dikare piştî ezmûnek yekane jî agahdarî li ser bûyerek bigire û ji ber vê yekê, dilîze. rola krîtîk di pêvajoya bîranînê de. Mekanîzmayên weha hewce dike ku bigihîjin rêxistina hundurîn a ajanê, ku di heman demê de di paradîgmaya ES-ê de, ji hêla pênase ve, ne gengaz e.

Ji ber vê yekê, çima wan hev nakin?

Ihtîmal e ku pir ji vê gotarê têra xwe bihêle ku ez rêgezên RL-ê diparêzim. Lêbelê, ez bi rastî difikirim ku di demek dirêj de baştirîn çareserî ev e ku meriv her du rêbazan berhev bike, da ku her yek di rewşên ku tê de çêtirîn tê bikar anîn. Eşkere ye, di rewşa gelek polîtîkayên reaktîf de an jî di rewşên bi îşaretên pir kêm ên xurtkirina erênî de, ES serdikeve, nemaze heke we hêza hesabkerî di destê we de hebe ku hûn dikarin perwerdehiya paralel bi girseyî bimeşînin. Ji hêla din ve, rêbazên gradient ku fêrbûna xurtkirinê an fêrbûna çavdêrîkirî bikar tînin dê bikêr be dema ku me bigihîje bertekên berfireh û hewce bike ku fêr bibin ka meriv çawa pirsgirêkek zû û bi daneya kêm çareser dike.

Ger li xwezayê bigerin, em dibînin ku rêbaza yekem, di eslê xwe de bingeha ya duyemîn datîne. Ji ber vê yekê, di dema pêşveçûnê de, mejîyan mejî pêş xistine ku rê dide wan ku ji sînyalên tevlihev ên ku ji hawîrdorê têne pir bi bandor fêr bibin. Ji ber vê yekê, pirs vekirî dimîne. Dibe ku stratejiyên pêşveçûnê dê ji me re bibin alîkar ku mîmarên fêrbûna bi bandor ku di heman demê de ji bo rêbazên fêrbûna gradient jî bikêr bin. Jixwe, çareseriya ku ji hêla xwezayê ve hatî dîtin bi rastî pir serfiraz e.

Source: www.habr.com

Add a comment