Xoojinta barashada mise xeeladaha kobcinta? - Labaduba

Haye Habr!

Inta badan ma go'aansanno inaan halkan ku dhejino tarjumaadaha qoraallada ahaa laba sano, iyada oo aan lahayn koodh oo si cad u ah dabeecad tacliimeed - laakiin maanta waxaan samayn doonaa wax ka reeban. Waxaan rajeyneynaa in dhibka ku jira cinwaanka maqaalku uu ka welwelayo qaar badan oo ka mid ah akhristayaashayada, oo aad horay u akhriday shaqada aasaasiga ah ee xeeladaha horumarinta kuwaas oo boostadani ay ku doodayso asalka ama hadda akhrin doonto. Ku soo dhawoow bisadda!

Xoojinta barashada mise xeeladaha kobcinta? - Labaduba

Bishii Maarso 2017, OpenAI waxay mowjado ka samaysay bulshada waxbarashada qoto dheer warqadda "Xeeladaha Kobcinta sida Beddelka La Dheeli karo ee Waxbarashada Xoojinta.” Shaqadani waxay ku qeexday natiijooyin cajiib ah oo ay ku jirto xaqiiqda ah in xoojinta barashada (RL) aysan noqonin wedge, iyo marka la tababarayo shabakadaha neerfaha ee adag, waxaa lagu talinayaa in la isku dayo habab kale. Dood ayaa markaa ka dib ka qaraxday muhiimada ay leedahay xoojinta barashada iyo sida ay ugu qalanto meeqaamkeeda sida tignoolajiyada "ay tahay in la haysto" si loo baro xalinta dhibaatada. Halkan waxaan rabaa in aan sheego in labadan tignoolajiyada aan loo tixgelin inay tartamayaan, oo mid ka mid ah uu si cad uga fiican yahay kan kale; taa lidkeeda, aakhirka way is dhammaystiraan. Runtii, haddii aad wax yar ka fikirto waxa ay u baahan tahay in la abuuro guud AI iyo nidaamyada noocaan oo kale ah, kuwaas oo inta ay jiraan ay awood u yeelan karaan inay wax bartaan, xukun iyo qorsheyn, markaas waxaan ku dhawaad ​​ku soo gebogebeyn doonaa in tan ama tan la isku daray loo baahan doono. Jid ahaan, waxay si sax ah u ahayd xalkan isku dhafan ee dabiiciga ahi u yimid, kaas oo ku deeqay naasleyda iyo xayawaanka kale ee sare ee caqli-galnimada kakan inta lagu jiro koorsada horumarka.

Xeeladaha Evolutionary

Dulucda ugu weyn ee warqadda OpenAI waxay ahayd, halkii laga isticmaali lahaa barashada xoojinta oo ay weheliso faafin dhaqameed, waxay si guul leh u tababareen shabakad neerfaha si ay u xalliyaan dhibaatooyinka adag iyagoo isticmaalaya waxa ay ugu yeeraan "istaraatijiyad horumarineed" (ES). Habkan ES wuxuu ka kooban yahay ilaalinta miisaanka qaybinta shabakad-ballaaran, oo ku lug leh wakiillo badan oo si isbar-bar socda u shaqeynaya iyo adeegsiga cabbirro laga soo xulay qaybintan. Wakiil kastaa wuxuu ku shaqeeyaa deegaankiisa, iyo marka la dhammeeyo tiro cayiman oo dhacdooyin ama marxalado dhacdo ah, algorithmisku wuxuu soo celinayaa abaal-marin isugeyn ah, oo lagu muujiyay buundada jirdhiska. Iyadoo la tixgelinayo qiimahan, qaybinta qiyaasaha waxaa loo wareejin karaa wakiillo badan oo guuleysta, taas oo meesha ka saaraysa kuwa aan guulaysan. Ku celcelinta hawlgalkan oo kale malaayiin jeer oo ay ka qayb qaadanayaan boqolaal wakiilo ah, waxaa suurtogal ah in loo wareejiyo qaybinta miisaanka meel bannaan oo u oggolaanaysa wakiillada inay dejiyaan siyaasad tayo sare leh oo lagu xallinayo hawsha loo xilsaaray. Runtii, natiijooyinka lagu soo bandhigay maqaalku waa mid cajiib ah: waxaa la muujiyay in haddii aad ku socoto kun wakiil oo isku mid ah, markaa goobta anthropomorphic ee labada lugood waxaa lagu baran karaa wax ka yar nus saac (halka xitaa hababka RL ee ugu horumarsan ay u baahan yihiin kharash dheeraad ah). in ka badan hal saac on this). Si aad u hesho macluumaad faahfaahsan, waxaan ku talinayaa inaad akhrido kan ugu fiican dhajin laga bilaabo qorayaasha tijaabada, iyo sidoo kale maqaal cilmi.

Xoojinta barashada mise xeeladaha kobcinta? - Labaduba

Xeelado kala duwan oo lagu barayo socodka toosan ee anthropomorphic, oo lagu bartay iyadoo la adeegsanayo habka ES ee OpenAI.

Sanduuqa madow

Faa'iidada weyn ee habkani waa in si fudud loo barbar dhigi karo. Iyadoo hababka RL, sida A3C, ay u baahan yihiin macluumaadka in la is dhaafsado inta u dhaxaysa dunta shaqaalaha iyo server-ka cabbirka, ES kaliya waxay u baahan tahay qiyaasaha jirdhiska iyo macluumaadka qaybinta guud ee cabbirka. Waxaa sabab u ah fududeyntan in habkani uu aad uga horreeyo hababka casriga ah ee RL marka loo eego awoodaha cabbirka. Si kastaba ha ahaatee, waxaas oo dhan kuma yimaadaan si aan micne lahayn: waa inaad wanaajisaa shabakada sida waafaqsan mabda'a sanduuqa madow. Xaaladdan oo kale, "sanduuqa madow" macnaheedu waa in inta lagu jiro tababarka qaabdhismeedka gudaha ee shabakada gebi ahaanba la iska indho-tiray, oo kaliya natiijada guud (abaalmarinta qaybta) ayaa la isticmaalaa, waxayna kuxirantahay haddii miisaanka shabakad gaar ah uu doono. in ay dhaxlaan jiilasha danbe. Xaaladaha aynaan ka helin jawaab celin badan deegaanka-iyo dhibaatooyin badan oo RL-dhaqameed ah qulqulka abaalgudka aad ayuu u yar yahay - dhibaatadu waxay ka socotaa inay noqoto "sanduuqa qayb madow" ilaa "sanduuqa gabi ahaanba madow." Xaaladdan oo kale, waxaad si weyn u kordhin kartaa wax soo saarka, sidaas darteed, dabcan, tanaasulka noocan oo kale ah waa mid xaq ah. "Yaa u baahan gradients haddii ay rajo la'aan yihiin qaylo?" - Tani waa ra'yiga guud.

Si kastaba ha ahaatee, xaaladaha ay jawaab celintu aad u firfircoon tahay, arrimuhu waxay bilaabaan inay khaldan yihiin ES. Kooxda OpenAI waxay sharraxaysaa sida fudud ee isku-xidhka kala-soocidda MNIST loo tababaray iyadoo la isticmaalayo ES, iyo markan tababarku 1000 jeer ayuu gaabis ahaa. Xaqiiqdu waxay tahay in ishaarada gradient-ka ee kala soocida sawirku ay aad u xog badan tahay oo ku saabsan sida loo baro shabakada kala-soocidda wanaagsan. Markaa, dhibaatadu way ku yar tahay farsamada RL iyo in ka badan oo leh abaal-marin aan badnayn oo deegaan ah oo soo saara gradients buuq badan.

Xalka dabeecadda

Haddii aan isku dayno inaan wax ka barano tusaalaha dabeecadda, ka fikirida siyaabaha loo horumariyo AI, markaa xaaladaha qaarkood AI waxaa loo maleynayaa in ay tahay. hab mushkilad ku jihaysan. Ka dib oo dhan, dabeecadda waxay ku shaqeysaa xaddidaadyo aysan saynisyahannada kombuyuutarku si fudud u haysan. Waxaa jirta ra'yi ah in habka aragtida kaliya ee lagu xallinayo mushkilad gaar ah ay bixin karto xalal wax ku ool ah oo ka badan beddelka macquulka ah. Si kastaba ha ahaatee, waxaan wali u maleynayaa inay mudan tahay in la tijaabiyo sida nidaamka firfircoon ee ku shaqeeya caqabadaha qaarkood (Dhulka) uu soo saaray wakiilada (xayawaanka, gaar ahaan naasleyda) oo awood u leh dabeecad dabacsan oo adag. Iyadoo qaar ka mid ah caqabadahan aan lagu dabaqi karin adduunyada sayniska ee xogta la mid ah, kuwa kalena way fiican yihiin.

Markaan baarnay hab-dhaqanka garaadka ee naasleyda, waxaan aragnaa in ay ka dhalatay saameynta kakan ee labada hab ee isku dhow: barashada khibradaha dadka kale ΠΈ barashada adigoo samaynaya. Midka hore waxaa badanaa lagu barbar dhigaa koboca ay horseed ka tahay xulashada dabiiciga ah, laakiin halkan waxaan isticmaalaa erey ballaadhan si aan u tixgeliyo epigenetics, microbiomes, iyo hababka kale ee awood u leh wadaagista khibradaha u dhexeeya noolaha aan xiriirka la lahayn hidde ahaan. Habka labaad, oo ah in laga barto waayo-aragnimada, waa dhammaan macluumaadka uu ku maamulo xayawaanku inuu barto inta uu nool yahay, macluumaadkaasna waxaa si toos ah u go'aamiya la dhaqanka xayawaankan ee dibadda. Qeybtaan waxaa ku jira wax walba laga bilaabo barashada ilaa aqoonsiga shayada ilaa haqabtirka isgaarsiinta ka dhex jirta habka waxbarashada.

Qiyaas ahaan, labadan geeddi-socod ee ka dhacaya dabeecadda ayaa la barbar dhigi karaa laba ikhtiyaar oo loogu talagalay hagaajinta shabakadaha neerfaha. Xeeladaha korriinka, halkaasoo macluumaadka ku saabsan gradients loo isticmaalo in lagu cusboonaysiiyo macluumaadka ku saabsan noolaha, ku dhawaada barashada khibradaha kuwa kale. Sidoo kale, hababka gradient, halka helitaanka hal ama khibrad kale ay u horseeddo mid ama mid kale isbeddel ku yimaada habdhaqanka wakiilka, waxay la mid yihiin barashada khibradda qofka. Haddii aan ka fikirno noocyada dabeecadaha caqli-galnimada ama kartida mid kasta oo ka mid ah labadan hab ee uu ku kobciyo xayawaanka, isbarbardhigga ayaa noqda mid aad u muuqda. Labada xaaladoodba, "hababka kobcinta" waxay kor u qaadaan daraasadda dabeecadaha falceliska ah ee u oggolaanaya qofka inuu horumariyo fayoobi gaar ah (ku filan inuu noolaado). Barashada socodka ama ka baxsashada maxaabiistu waxay marar badan u dhigantaa dabeecado badan oo "dareen" kuwaas oo "adag adag" xayawaanno badan oo heer hidde ah. Intaa waxaa dheer, tusaalahan wuxuu xaqiijinayaa in hababka korriinka lagu dabaqi karo kiisaska ay calaamadda abaalgudka aad dhif u tahay (tusaale ahaan, xaqiiqda korinta ilmaha oo lagu guuleysto). Xaaladdan oo kale, suurtagal maaha in la isku xidho abaalmarinta iyo ficil kasta oo gaar ah oo laga yaabo in la sameeyay sanado badan ka hor dhacdada xaqiiqadan. Dhanka kale, haddii aan tixgelinno kiis uu ES ku guuldareysto, oo ah kala soocida sawirka, natiijadu waxay si cajiib ah u barbardhigi kartaa natiijooyinka barashada xayawaanka ee lagu gaaray tijaabooyin maskaxeed oo aan tiro lahayn oo la sameeyay in ka badan 100-iyo sano.

Barashada Xoolaha

Hababka loo isticmaalo xoojinta barashada ayaa marar badan si toos ah looga soo qaatay suugaanta nafsiga ah ee ku saabsan qaboojinta shaqada, iyo qaboojinta qalliinka ayaa lagu bartay iyadoo la adeegsanayo cilmi-nafsiga xoolaha. By habka, Richard Sutton, mid ka mid ah labada aasaase ee xoojinta waxbarashada, wuxuu haystaa shahaadada koowaad ee cilmi-nafsiga. Marka la eego xaaladda qaboojinta hawlgalka, xayawaanku waxay bartaan inay abaal-gud ama ciqaab ku xidhiidhiyaan qaabab dhaqan oo gaar ah. Tababarayaasha iyo cilmi-baarayaashu waxay u maamuli karaan ururkan abaal-marinta si uun ama si kale, iyaga oo ka xanaajin kara xayawaanka si ay u muujiyaan garaadka ama dabeecadaha qaarkood. Si kastaba ha ahaatee, qaboojinta qalliinka, sida loo isticmaalo cilmi-baarista xayawaanka, ma aha wax ka badan qaab aad u cad oo isku mid ah oo ku salaysan taas oo xayawaanku bartaan noloshooda oo dhan. Waxaan si joogto ah u helnaa calaamadaha xoojinta togan ee deegaanka waxaanan hagaajinaa habdhaqankeena si waafaqsan. Dhab ahaantii, saynisyahano badan oo neerfaha iyo saynisyahano garashada ayaa aaminsan in bini'aadamka iyo xayawaanka kale ay dhab ahaantii ku shaqeeyaan heer xitaa ka sarreeya oo ay si joogto ah u bartaan inay saadaaliyaan natiijada habdhaqankooda xaaladaha mustaqbalka ee ku salaysan abaal-marinta suurtagalka ah.

Doorka dhexe ee saadaasha ee barashada waayo-aragnimada waxa ay u beddeshaa dhaqdhaqaaqa kor lagu sharaxay siyaabo muhiim ah. Calaamadaha markii hore loo tixgeliyey mid aad u yar (abaalmarinta episodic) waxay noqotaa mid cufan. Fikrad ahaan, xaaladdu waa wax sidan oo kale ah: wakhti kasta, maskaxda naasku waxay xisaabinaysaa natiijooyinka ku salaysan qulqulka adag ee kicinta dareenka iyo ficillada, halka xayawaanku si fudud u dhexgalo qulqulkan. Xaaladdan oo kale, habdhaqanka ugu dambeeya ee xayawaanku wuxuu siinayaa calaamad xooggan oo ay tahay in loo isticmaalo si loo hago hagaajinta saadaasha iyo horumarinta dabeecadda. Maskaxdu waxay isticmaashaa dhammaan calaamadahan si ay u wanaajiso saadaasha (iyo, si waafaqsan, tayada tallaabooyinka la qaaday) mustaqbalka. Dulmar guud oo ku saabsan habkan ayaa lagu sheegay buugga ugu wanaagsan "Hubanti la'aanta duleelkaSaynisyahanka garashada iyo faylasuufka Andy Clark. Haddii aan ka soo saarno sababahan oo kale tababarka wakiilada macmalka ah, markaa cillad aasaasiga ah ee xoojinta barashada ayaa shaaca ka qaaday: calaamada loo isticmaalo jaantuskan waa mid aan rajo lahayn marka loo eego waxa ay noqon karto (ama noqon karto). Xaaladaha ay suurtagal tahay in la kordhiyo saturation signal (laga yaabee sababta oo ah waa mid daciif ah ama la xiriirta falcelinta heerka hoose), waxay u badan tahay inay fiicantahay in la doorbido habka tababarka oo si fiican u barbar socda, tusaale ahaan, ES.

Tababarka qani ah ee shabakadaha neerfaha

Dhisida mabaadi'da dhaqdhaqaaqa sare ee neerfaha ee ku dhex jira maskaxda naasleyda, taas oo si joogta ah ugu mashquulsan samaynta saadaalinta, horumarkii ugu dambeeyay ayaa lagu sameeyay xoojinta barashada, taas oo hadda tixgelinaysa muhiimada saadaasha noocaas ah. Waxaan isla markiiba kugula talin karaa laba shaqo oo isku mid ah:

Labadan waraaqood, qorayaashu waxay ku kordhiyaan siyaasadda caadiga ah ee shabakadaha neerfaha iyagoo leh natiijooyin saadaal ah oo ku saabsan xaaladda deegaanka mustaqbalka. Maqaalka koowaad, saadaalinta waxaa lagu dabaqaa doorsoomayaal cabbiraadyo kala duwan, tan labaadna, saadaalinta ayaa lagu dabaqaa isbeddellada deegaanka iyo hab-dhaqanka wakiilka sidaas oo kale. Labada xaaladoodba, calaamada yar ee la xidhiidha xoojinta togan waxay noqotaa mid hodan ah oo xog badan leh, taas oo u oggolaanaysa labadaba barashada degdegga ah iyo helitaanka dabeecado kakan. Horumarka noocan oo kale ah waxaa lagu heli karaa oo keliya hababka isticmaala calaamadda gradient, oo aan la helin hababka ku shaqeeya mabda'a "sanduuqa madow", sida ES.

Intaa waxaa dheer, barashada khibradda iyo hababka gradient ayaa aad waxtar u leh. Xitaa xaaladaha ay suurtagal tahay in la barto dhibaato gaar ah iyadoo la adeegsanayo habka ES si ka dhaqso badan isticmaalka xoojinta barashada, faa'iidada ayaa la gaaray sababtoo ah xaqiiqda ah in istiraatiijiyadda ES ay ku lug leedahay xog badan oo badan marka loo eego RL. Anaga oo dib u milicsanayna mabaadi’da barashada xoolaha, waxa aynu ogaanay in natiijada ka dhalata in qof kale wax laga barto ay is muujiso jiilal badan ka dib, halka mararka qaar dhacdo kaligeed la soo deristay ay ku filan tahay in uu xayawaanku casharka waligiis barto. Halka sida tababar la'aan tusaale In kasta oo aanay ku habboonayn hababka jilitaanka dhaqameed, aad ayay uga caqli badan tahay ES. Waxaa jira, tusaale ahaan, habab sida xakameynta xididada xididada, halkaas oo Q-qiyamka lagu kaydiyo inta lagu jiro tababarka, ka dib markaa barnaamijku wuxuu hubiyaa iyaga ka hor inta aan la qaadin tallaabooyinka. Natiijadu waa habka gradient kaas oo kuu ogolaanaya inaad barato sida loo xalliyo dhibaatooyinka si ka dhaqso badan sidii hore. Maqaal ku saabsan xakamaynta episodic neural, qorayaashu waxay xuseen hippocampus bini'aadamka, kaas oo awood u leh inuu hayo macluumaadka ku saabsan dhacdo xitaa ka dib hal khibrad iyo, sidaas darteed, ciyaara door muhiim ah habka xasuusinta. Hababka noocan oo kale ah waxay u baahan yihiin helitaanka ururka gudaha ee wakiilka, taas oo sidoo kale, qeexitaan, aan macquul ahayn jaantuska ES.

Haddaba, maxaa diiday in la isku daro?

Waxay u badan tahay in qodobkan intiisa badan laga yaabo inay ka baxaan aragtida ah inaan u doodayo hababka RL. Si kastaba ha ahaatee, dhab ahaantii waxaan qabaa in mustaqbalka fog xalka ugu fiican uu yahay in la isku daro labada hab, si mid kasta loo isticmaalo xaaladaha ay ku habboon tahay. Sida iska cad, marka laga hadlayo siyaasado badan oo falcelineed ama xaalado leh calaamado aad u yar oo xoojin togan ah, ES ayaa ku guulaysata, gaar ahaan haddii aad haysato awoodda xisaabinta ee aad gacanta ku hayso taas oo aad ku wadi karto tababar is barbar socda. Dhanka kale, hababka gradient ee isticmaalaya xoojinta barashada ama barashada la kormeeray waxay faa'iido yeelan doontaa marka aan helno jawaab celin ballaaran oo aan u baahanahay inaan barano sida dhibaatada loo xalliyo si degdeg ah iyo xog yar.

U soo jeesta dabeecadda, waxaan ogaanay in habka koowaad, nuxur ahaan, uu aasaaska u yahay kan labaad. Tani waa sababta, muddada horumarka, naasleyda ay horumariyeen maskax u oggolaanaysa inay si wax ku ool ah wax uga bartaan calaamadaha adag ee ka imanaya deegaanka. Markaa, su'aashu way furan tahay. Waxaa laga yaabaa in xeeladaha korriinka ay naga caawiyaan in aan abuurno qaab-dhismeed waxbarasho oo waxtar leh kuwaas oo sidoo kale faa'iido u yeelan doona hababka waxbarashada tartiib-tartiib ah. Ka dib oo dhan, xalka laga helay dabeecadda runtii waa mid aad u guul leh.

Source: www.habr.com

Add a comment