Hey Habr!
Em gelek caran biryar nadin ku li vir wergerên metnên du salî, bê kod û eşkere yên akademîk bişînin - lê îro em ê îstîsnayekê bikin. Em hêvî dikin ku dubendiya di sernavê gotarê de gelek xwendevanên me fikar dike, û we berê xebata bingehîn a li ser stratejiyên pêşkeftinê yên ku ev post di orîjînal de nîqaş dike an jî dê nuha bixwînin xwendiye. Bi xêr hatî pisîkê!
Di Adara 2017-an de, OpenAI bi kaxezê di civata fêrbûna kûr de pêlan çêkir.
Stratejiyên Evolutionary
Teza sereke ya kaxeza OpenAI ev bû ku, li şûna ku fêrbûna xurtkirinê bi hev re bi belavbûna paşverû ya kevneşopî re bikar bînin, wan bi serfirazî torgilokek neuralî perwerde kir da ku pirsgirêkên tevlihev bi karanîna tiştê ku jê re digotin "stratejiya pêşkeftinê" (ES) çareser bike. Ev nêzîkatiya ES ji domandina belavkirina torê-berfireh a giranan pêk tê, ku gelek ajanên ku paralel dixebitin û bi karanîna parametreyên ku ji vê dabeşkirinê hatine hilbijartin pêk tê. Her ajanek di hawîrdora xwe de tevdigere, û bi qedandina hejmarek diyarkirî ya beşan an qonaxên beşê de, algorîtm xelatek berhevkirî vedigerîne, ku wekî pîvanek fitnessê tête diyar kirin. Bi girtina vê nirxê, belavkirina parametreyan dikare ber bi ajanên serketîtir ve were guheztin, yên kêmtir serketî nehêle. Bi dubarekirina operasiyonek weha bi mîlyonan car bi beşdariya bi sedan ajanan, gengaz e ku dabeşkirina giranan berbi cîhek ku rê bide ajanan ji bo çareserkirina peywira ku ji wan re hatî dayîn siyasetek bi kalîte ava bikin. Bi rastî, encamên ku di gotarê de têne pêşkêş kirin bi heybet in: tê destnîşan kirin ku heke hûn hezar ajanan bi hev re bimeşînin, wê hingê tevgera antropomorfîkî ya li ser du lingan dikare di kêmtirî nîv saetê de were fêr kirin (di heman demê de rêbazên RL-yê yên herî pêşkeftî jî hewce dike ku bêtir xerc bikin. ji saetekê zêdetir li ser vê). Ji bo agahdariya berfirehtir, ez xwendina hêja pêşniyar dikim
Stratejiyên cihêreng ên ji bo hînkirina rêveçûna rast a antropomorfîk, ku bi karanîna rêbaza ES ji OpenAI-ê ve hatî lêkolîn kirin.
Qutiya reş
Feydeya mezin a vê rêbazê ew e ku bi hêsanî dikare were paralel kirin. Dema ku rêbazên RL, yên wekî A3C, hewce dike ku agahdarî di navbera mijarên xebatkar û serverek parametreyê de were guheztin, ES tenê hewceyê texmînên fitness û agahdariya belavkirina parameterê ya gelemperî hewce dike. Ji ber vê sadebûnê ye ku ev rêbaz di warê kapasîteyên pîvandinê de ji rêbazên nûjen ên RL-yê pir li pêş e. Lêbelê, ev hemî vala dernakeve: pêdivî ye ku hûn torê li gorî prensîba qutiya reş xweş bikin. Di vê rewşê de, "qutiya reş" tê vê wateyê ku di dema perwerdehiyê de strukturên hundurîn ên torê bi tevahî tê paşguh kirin, û tenê encama giştî (xelat ji bo beşê) tê bikar anîn, û bi wê ve girêdayî ye ka gelo giraniya torêyek taybetî dê ji nifşên paşerojê re bibe mîras. Di rewşên ku em ji hawîrdorê pir bertek wernagirin -û di gelek pirsgirêkên RL-ya kevneşopî de herikîna xelatan pir kêm e- pirsgirêk ji "qutiya qismî reş" berbi "qutiya bi tevahî reş" diçe. Di vê rewşê de, hûn dikarin bi girîngî hilberîneriyê zêde bikin, ji ber vê yekê, bê guman, lihevkirinek wusa rastdar e. "Heke ew bi her awayî bêhêvî dengdar bin ji kê re pêdivî bi gradientan heye?" - ev nêrîna giştî ye.
Lêbelê, di rewşên ku bertek çalaktir e, tişt ji bo ES-ê dest pê dikin. Tîma OpenAI diyar dike ku çawa torgilokek dabeşkirina MNIST a hêsan bi karanîna ES hate perwerde kirin, û vê carê perwerde 1000 carî hêdîtir bû. Rastî ev e ku sînyala gradientê di dabeşkirina wêneyê de di derbarê ka meriv çawa dabeşkirina torê çêtir hîn dike pir agahdar e. Ji ber vê yekê, pirsgirêk bi teknîka RL-ê re kêmtir e û bêtir bi xelatên hûrgelî yên li hawîrdorên ku pileyên dengbêjî çêdikin.
Çareseriya xwezayê
Ger em hewl bidin ku ji mînaka xwezayê fêr bibin, li ser awayên pêşvebirina AI-yê bifikirin, wê hingê di hin rewşan de AI dikare wekî
Piştî lêkolîna tevgera rewşenbîrî ya mammalan, em dibînin ku ew di encama bandora hevdu tevlihev a du pêvajoyên ku bi hev ve girêdayî ne pêk tê: ji serpêhatiyên kesên din fêr bibin и fêrbûna bi kirinê. Ya berê bi gelemperî bi pêşkeftina ku ji hêla bijartina xwezayî ve hatî rêve kirin re tê hevber kirin, lê li vir ez têgehek berfireh bikar tînim da ku epigenetîk, mîkrobiom û mekanîzmayên din ên ku parvekirina ezmûnan di navbera organîzmayên genetîk de ne têkildar bihesibînin. Pêvajoya duyemîn, fêrbûna ji ezmûnê, hemî agahdariya ku heywanek di jiyana xwe de fêr dibe, û ev agahdarî rasterast ji hêla danûstendina vê heywanê bi cîhana derve ve tê destnîşankirin. Di vê kategoriyê de ji fêrbûna naskirina tiştan bigire heya serweriya ragihandina ku di pêvajoya fêrbûnê de ye, her tiştî vedihewîne.
Bi gelemperî, ev her du pêvajoyên ku di xwezayê de diqewimin dikarin bi du vebijarkên ji bo xweşbînkirina torên neuralî re werin berhev kirin. Stratejiyên pêşkeftinê, ku agahdariya di derbarê gradientan de ji bo nûvekirina agahdariya li ser organîzmê tê bikar anîn, nêzîkê fêrbûna ji ezmûna kesên din dibin. Bi vî rengî, rêbazên gradient, ku bidestxistina yek an ezmûnek din dibe sedema guhertinek yek an ya din di tevgera ajan de, bi fêrbûna ji ezmûna xwe re têne berhev kirin. Ger em li ser cûreyên tevger an jî şiyanên aqilmend ên ku her yek ji van her du nêzîkatiyan di heywanan de pêşdixin bifikirin, danberhev bêtir diyar dibe. Di her du rewşan de, "rêbazên pêşkeftinê" lêkolîna tevgerên reaktîf pêşdixin ku rê didin meriv ku meriv hin fitneyek pêş bixe (têra zindî bimîne). Fêrbûna rêveçûn an reva ji dîlgirtinê di gelek rewşan de hevwate ye bi tevgerên bêtir "insînktîf" ên ku di asta genetîkî de di gelek heywanan de "hişk" in. Wekî din, ev mînak piştrast dike ku rêbazên evolusyonê di rewşên ku nîşana xelatê zehf kêm e (wek mînak, rastiya mezinbûna serketî ya pitik) de têne sepandin. Di rewşek wusa de, ne mimkûn e ku meriv xelatê bi komek kiryarên taybetî yên ku dibe ku gelek sal berî qewimîna vê rastiyê hatine kirin re têkildar bike. Ji hêla din ve, heke em dozek ku ES têk diçe, ango dabeşkirina wêneyê, binirxînin, encam bi encamên fêrbûna heywanan re ku di bêhejmar ceribandinên psîkolojîk ên behrê de ku di nav 100-salan de hatine kirin de bi rengek berbiçav têne berhev kirin.
Fêrbûna ji Heywanan
Rêbazên ku di fêrbûna xurtkirinê de têne bikar anîn di gelek rewşan de rasterast ji wêjeya psîkolojîk li ser têne girtin
Rola navendî ya pêşbîniyê di fêrbûna ji ezmûnê de dînamîkên ku li jor hatine destnîşan kirin bi awayên girîng diguhezîne. Nîşana ku berê pir kêm dihat hesibandin (xelata episodîk) pir qels dibe. Ji hêla teorîkî ve, rewş tiştek weha ye: di her demek diyarkirî de, mêjiyê mamikê encaman li ser bingeha tevnek tevlihev a teşwîq û tevgerên hestî hesab dike, dema ku ajal bi tenê di vê çemê de tê rijandin. Di vê rewşê de, tevgera paşîn a heywanê nîşanek bihêz dide ku divê were bikar anîn da ku rêberiya sererastkirina pêşbînan û pêşkeftina behrê bike. Mêjî van hemî nîşanan bikar tîne da ku pêşbîniyan (û, li gorî vê yekê, qalîteya çalakiyên hatine kirin) di pêşerojê de xweşbîn bike. Awirek li ser vê nêzîkbûnê di pirtûka hêja de tê dayîn "
Perwerdehiya zengîntir a torên neuralî
Li ser bingeha prensîbên çalakiya neuralî ya bilind a ku di mejiyê mammalan de ye, ku bi domdarî bi çêkirina pêşbîniyan mijûl e, pêşkeftinên vê dawiyê di fêrbûna bihêzkirinê de hatine çêkirin, ku naha girîngiya pêşbîniyên weha dihesibîne. Ez dikarim tavilê du karên wekhev ji we re pêşniyar bikim:
Di van her du kaxezan de, nivîskar polîtîkaya xwerû ya tîpîk a torên xwe yên neuralî bi encamên pêşbîniyê di derbarê rewşa jîngehê de di pêşerojê de temam dikin. Di gotara yekem de, pêşbînkirin li ser cûrbecûr guhêrbarên pîvandinê tê sepandin, û di ya duyemîn de, pêşbînkirin li ser guheztinên li hawîrdorê û tevgera kirdeyê wekî wusa tête bikar anîn. Di her du rewşan de, îşaretek kêm a ku bi xurtkirina erênî ve girêdayî ye pir dewlemendtir û agahdartir dibe, ku hem fêrbûna zûtir û hem jî bidestxistina tevgerên tevlihevtir dihêle. Pêşveçûnên weha tenê bi rêbazên ku nîşanek gradient bikar tînin hene, û ne bi rêbazên ku li ser prensîba "qutiya reş" dixebitin, wek ES.
Wekî din, fêrbûna ji ezmûn û rêbazên gradient pir bi bandortir in. Tewra di rewşên ku gengaz bû ku meriv pirsgirêkek taybetî bi karanîna rêbaza ES-ê ji karanîna fêrbûna xurtkirinê zûtir lêkolîn bike, ji ber vê yekê ku stratejiya ES-ê ji RL-ê gelek caran bêtir daneyan vedihewîne, destkeftî hate bidestxistin. Di vê rewşê de li ser prensîbên fêrbûna heywanan dinihêrin, em bala xwe didin ku encama fêrbûna ji mînaka kesek din piştî gelek nifşan xwe diyar dike, di heman demê de carinan yek bûyerek ku bi serê xwe hatî ceribandin bes e ku heywan her û her dersê fêr bibe. Dema ku mîna
Ji ber vê yekê, çima wan hev nakin?
Ihtîmal e ku pir ji vê gotarê têra xwe bihêle ku ez rêgezên RL-ê diparêzim. Lêbelê, ez bi rastî difikirim ku di demek dirêj de baştirîn çareserî ev e ku meriv her du rêbazan berhev bike, da ku her yek di rewşên ku tê de çêtirîn tê bikar anîn. Eşkere ye, di rewşa gelek polîtîkayên reaktîf de an jî di rewşên bi îşaretên pir kêm ên xurtkirina erênî de, ES serdikeve, nemaze heke we hêza hesabkerî di destê we de hebe ku hûn dikarin perwerdehiya paralel bi girseyî bimeşînin. Ji hêla din ve, rêbazên gradient ku fêrbûna xurtkirinê an fêrbûna çavdêrîkirî bikar tînin dê bikêr be dema ku me bigihîje bertekên berfireh û hewce bike ku fêr bibin ka meriv çawa pirsgirêkek zû û bi daneya kêm çareser dike.
Ger li xwezayê bigerin, em dibînin ku rêbaza yekem, di eslê xwe de bingeha ya duyemîn datîne. Ji ber vê yekê, di dema pêşveçûnê de, mejîyan mejî pêş xistine ku rê dide wan ku ji sînyalên tevlihev ên ku ji hawîrdorê têne pir bi bandor fêr bibin. Ji ber vê yekê, pirs vekirî dimîne. Dibe ku stratejiyên pêşveçûnê dê ji me re bibin alîkar ku mîmarên fêrbûna bi bandor ku di heman demê de ji bo rêbazên fêrbûna gradient jî bikêr bin. Jixwe, çareseriya ku ji hêla xwezayê ve hatî dîtin bi rastî pir serfiraz e.
Source: www.habr.com