Haye Habr!
Inta badan ma go'aansanno inaan halkan ku dhejino tarjumaadaha qoraallada ahaa laba sano, iyada oo aan lahayn koodh oo si cad u ah dabeecad tacliimeed - laakiin maanta waxaan samayn doonaa wax ka reeban. Waxaan rajeyneynaa in dhibka ku jira cinwaanka maqaalku uu ka welwelayo qaar badan oo ka mid ah akhristayaashayada, oo aad horay u akhriday shaqada aasaasiga ah ee xeeladaha horumarinta kuwaas oo boostadani ay ku doodayso asalka ama hadda akhrin doonto. Ku soo dhawoow bisadda!
Bishii Maarso 2017, OpenAI waxay mowjado ka samaysay bulshada waxbarashada qoto dheer warqadda "
Xeeladaha Evolutionary
Dulucda ugu weyn ee warqadda OpenAI waxay ahayd, halkii laga isticmaali lahaa barashada xoojinta oo ay weheliso faafin dhaqameed, waxay si guul leh u tababareen shabakad neerfaha si ay u xalliyaan dhibaatooyinka adag iyagoo isticmaalaya waxa ay ugu yeeraan "istaraatijiyad horumarineed" (ES). Habkan ES wuxuu ka kooban yahay ilaalinta miisaanka qaybinta shabakad-ballaaran, oo ku lug leh wakiillo badan oo si isbar-bar socda u shaqeynaya iyo adeegsiga cabbirro laga soo xulay qaybintan. Wakiil kastaa wuxuu ku shaqeeyaa deegaankiisa, iyo marka la dhammeeyo tiro cayiman oo dhacdooyin ama marxalado dhacdo ah, algorithmisku wuxuu soo celinayaa abaal-marin isugeyn ah, oo lagu muujiyay buundada jirdhiska. Iyadoo la tixgelinayo qiimahan, qaybinta qiyaasaha waxaa loo wareejin karaa wakiillo badan oo guuleysta, taas oo meesha ka saaraysa kuwa aan guulaysan. Ku celcelinta hawlgalkan oo kale malaayiin jeer oo ay ka qayb qaadanayaan boqolaal wakiilo ah, waxaa suurtogal ah in loo wareejiyo qaybinta miisaanka meel bannaan oo u oggolaanaysa wakiillada inay dejiyaan siyaasad tayo sare leh oo lagu xallinayo hawsha loo xilsaaray. Runtii, natiijooyinka lagu soo bandhigay maqaalku waa mid cajiib ah: waxaa la muujiyay in haddii aad ku socoto kun wakiil oo isku mid ah, markaa goobta anthropomorphic ee labada lugood waxaa lagu baran karaa wax ka yar nus saac (halka xitaa hababka RL ee ugu horumarsan ay u baahan yihiin kharash dheeraad ah). in ka badan hal saac on this). Si aad u hesho macluumaad faahfaahsan, waxaan ku talinayaa inaad akhrido kan ugu fiican
Xeelado kala duwan oo lagu barayo socodka toosan ee anthropomorphic, oo lagu bartay iyadoo la adeegsanayo habka ES ee OpenAI.
Sanduuqa madow
Faa'iidada weyn ee habkani waa in si fudud loo barbar dhigi karo. Iyadoo hababka RL, sida A3C, ay u baahan yihiin macluumaadka in la is dhaafsado inta u dhaxaysa dunta shaqaalaha iyo server-ka cabbirka, ES kaliya waxay u baahan tahay qiyaasaha jirdhiska iyo macluumaadka qaybinta guud ee cabbirka. Waxaa sabab u ah fududeyntan in habkani uu aad uga horreeyo hababka casriga ah ee RL marka loo eego awoodaha cabbirka. Si kastaba ha ahaatee, waxaas oo dhan kuma yimaadaan si aan micne lahayn: waa inaad wanaajisaa shabakada sida waafaqsan mabda'a sanduuqa madow. Xaaladdan oo kale, "sanduuqa madow" macnaheedu waa in inta lagu jiro tababarka qaabdhismeedka gudaha ee shabakada gebi ahaanba la iska indho-tiray, oo kaliya natiijada guud (abaalmarinta qaybta) ayaa la isticmaalaa, waxayna kuxirantahay haddii miisaanka shabakad gaar ah uu doono. in ay dhaxlaan jiilasha danbe. Xaaladaha aynaan ka helin jawaab celin badan deegaanka-iyo dhibaatooyin badan oo RL-dhaqameed ah qulqulka abaalgudka aad ayuu u yar yahay - dhibaatadu waxay ka socotaa inay noqoto "sanduuqa qayb madow" ilaa "sanduuqa gabi ahaanba madow." Xaaladdan oo kale, waxaad si weyn u kordhin kartaa wax soo saarka, sidaas darteed, dabcan, tanaasulka noocan oo kale ah waa mid xaq ah. "Yaa u baahan gradients haddii ay rajo la'aan yihiin qaylo?" - Tani waa ra'yiga guud.
Si kastaba ha ahaatee, xaaladaha ay jawaab celintu aad u firfircoon tahay, arrimuhu waxay bilaabaan inay khaldan yihiin ES. Kooxda OpenAI waxay sharraxaysaa sida fudud ee isku-xidhka kala-soocidda MNIST loo tababaray iyadoo la isticmaalayo ES, iyo markan tababarku 1000 jeer ayuu gaabis ahaa. Xaqiiqdu waxay tahay in ishaarada gradient-ka ee kala soocida sawirku ay aad u xog badan tahay oo ku saabsan sida loo baro shabakada kala-soocidda wanaagsan. Markaa, dhibaatadu way ku yar tahay farsamada RL iyo in ka badan oo leh abaal-marin aan badnayn oo deegaan ah oo soo saara gradients buuq badan.
Xalka dabeecadda
Haddii aan isku dayno inaan wax ka barano tusaalaha dabeecadda, ka fikirida siyaabaha loo horumariyo AI, markaa xaaladaha qaarkood AI waxaa loo maleynayaa in ay tahay.
Markaan baarnay hab-dhaqanka garaadka ee naasleyda, waxaan aragnaa in ay ka dhalatay saameynta kakan ee labada hab ee isku dhow: barashada khibradaha dadka kale ΠΈ barashada adigoo samaynaya. Midka hore waxaa badanaa lagu barbar dhigaa koboca ay horseed ka tahay xulashada dabiiciga ah, laakiin halkan waxaan isticmaalaa erey ballaadhan si aan u tixgeliyo epigenetics, microbiomes, iyo hababka kale ee awood u leh wadaagista khibradaha u dhexeeya noolaha aan xiriirka la lahayn hidde ahaan. Habka labaad, oo ah in laga barto waayo-aragnimada, waa dhammaan macluumaadka uu ku maamulo xayawaanku inuu barto inta uu nool yahay, macluumaadkaasna waxaa si toos ah u go'aamiya la dhaqanka xayawaankan ee dibadda. Qeybtaan waxaa ku jira wax walba laga bilaabo barashada ilaa aqoonsiga shayada ilaa haqabtirka isgaarsiinta ka dhex jirta habka waxbarashada.
Qiyaas ahaan, labadan geeddi-socod ee ka dhacaya dabeecadda ayaa la barbar dhigi karaa laba ikhtiyaar oo loogu talagalay hagaajinta shabakadaha neerfaha. Xeeladaha korriinka, halkaasoo macluumaadka ku saabsan gradients loo isticmaalo in lagu cusboonaysiiyo macluumaadka ku saabsan noolaha, ku dhawaada barashada khibradaha kuwa kale. Sidoo kale, hababka gradient, halka helitaanka hal ama khibrad kale ay u horseeddo mid ama mid kale isbeddel ku yimaada habdhaqanka wakiilka, waxay la mid yihiin barashada khibradda qofka. Haddii aan ka fikirno noocyada dabeecadaha caqli-galnimada ama kartida mid kasta oo ka mid ah labadan hab ee uu ku kobciyo xayawaanka, isbarbardhigga ayaa noqda mid aad u muuqda. Labada xaaladoodba, "hababka kobcinta" waxay kor u qaadaan daraasadda dabeecadaha falceliska ah ee u oggolaanaya qofka inuu horumariyo fayoobi gaar ah (ku filan inuu noolaado). Barashada socodka ama ka baxsashada maxaabiistu waxay marar badan u dhigantaa dabeecado badan oo "dareen" kuwaas oo "adag adag" xayawaanno badan oo heer hidde ah. Intaa waxaa dheer, tusaalahan wuxuu xaqiijinayaa in hababka korriinka lagu dabaqi karo kiisaska ay calaamadda abaalgudka aad dhif u tahay (tusaale ahaan, xaqiiqda korinta ilmaha oo lagu guuleysto). Xaaladdan oo kale, suurtagal maaha in la isku xidho abaalmarinta iyo ficil kasta oo gaar ah oo laga yaabo in la sameeyay sanado badan ka hor dhacdada xaqiiqadan. Dhanka kale, haddii aan tixgelinno kiis uu ES ku guuldareysto, oo ah kala soocida sawirka, natiijadu waxay si cajiib ah u barbardhigi kartaa natiijooyinka barashada xayawaanka ee lagu gaaray tijaabooyin maskaxeed oo aan tiro lahayn oo la sameeyay in ka badan 100-iyo sano.
Barashada Xoolaha
Hababka loo isticmaalo xoojinta barashada ayaa marar badan si toos ah looga soo qaatay suugaanta nafsiga ah ee ku saabsan
Doorka dhexe ee saadaasha ee barashada waayo-aragnimada waxa ay u beddeshaa dhaqdhaqaaqa kor lagu sharaxay siyaabo muhiim ah. Calaamadaha markii hore loo tixgeliyey mid aad u yar (abaalmarinta episodic) waxay noqotaa mid cufan. Fikrad ahaan, xaaladdu waa wax sidan oo kale ah: wakhti kasta, maskaxda naasku waxay xisaabinaysaa natiijooyinka ku salaysan qulqulka adag ee kicinta dareenka iyo ficillada, halka xayawaanku si fudud u dhexgalo qulqulkan. Xaaladdan oo kale, habdhaqanka ugu dambeeya ee xayawaanku wuxuu siinayaa calaamad xooggan oo ay tahay in loo isticmaalo si loo hago hagaajinta saadaasha iyo horumarinta dabeecadda. Maskaxdu waxay isticmaashaa dhammaan calaamadahan si ay u wanaajiso saadaasha (iyo, si waafaqsan, tayada tallaabooyinka la qaaday) mustaqbalka. Dulmar guud oo ku saabsan habkan ayaa lagu sheegay buugga ugu wanaagsan "
Tababarka qani ah ee shabakadaha neerfaha
Dhisida mabaadi'da dhaqdhaqaaqa sare ee neerfaha ee ku dhex jira maskaxda naasleyda, taas oo si joogta ah ugu mashquulsan samaynta saadaalinta, horumarkii ugu dambeeyay ayaa lagu sameeyay xoojinta barashada, taas oo hadda tixgelinaysa muhiimada saadaasha noocaas ah. Waxaan isla markiiba kugula talin karaa laba shaqo oo isku mid ah:
Labadan waraaqood, qorayaashu waxay ku kordhiyaan siyaasadda caadiga ah ee shabakadaha neerfaha iyagoo leh natiijooyin saadaal ah oo ku saabsan xaaladda deegaanka mustaqbalka. Maqaalka koowaad, saadaalinta waxaa lagu dabaqaa doorsoomayaal cabbiraadyo kala duwan, tan labaadna, saadaalinta ayaa lagu dabaqaa isbeddellada deegaanka iyo hab-dhaqanka wakiilka sidaas oo kale. Labada xaaladoodba, calaamada yar ee la xidhiidha xoojinta togan waxay noqotaa mid hodan ah oo xog badan leh, taas oo u oggolaanaysa labadaba barashada degdegga ah iyo helitaanka dabeecado kakan. Horumarka noocan oo kale ah waxaa lagu heli karaa oo keliya hababka isticmaala calaamadda gradient, oo aan la helin hababka ku shaqeeya mabda'a "sanduuqa madow", sida ES.
Intaa waxaa dheer, barashada khibradda iyo hababka gradient ayaa aad waxtar u leh. Xitaa xaaladaha ay suurtagal tahay in la barto dhibaato gaar ah iyadoo la adeegsanayo habka ES si ka dhaqso badan isticmaalka xoojinta barashada, faa'iidada ayaa la gaaray sababtoo ah xaqiiqda ah in istiraatiijiyadda ES ay ku lug leedahay xog badan oo badan marka loo eego RL. Anaga oo dib u milicsanayna mabaadiβda barashada xoolaha, waxa aynu ogaanay in natiijada ka dhalata in qof kale wax laga barto ay is muujiso jiilal badan ka dib, halka mararka qaar dhacdo kaligeed la soo deristay ay ku filan tahay in uu xayawaanku casharka waligiis barto. Halka sida
Haddaba, maxaa diiday in la isku daro?
Waxay u badan tahay in qodobkan intiisa badan laga yaabo inay ka baxaan aragtida ah inaan u doodayo hababka RL. Si kastaba ha ahaatee, dhab ahaantii waxaan qabaa in mustaqbalka fog xalka ugu fiican uu yahay in la isku daro labada hab, si mid kasta loo isticmaalo xaaladaha ay ku habboon tahay. Sida iska cad, marka laga hadlayo siyaasado badan oo falcelineed ama xaalado leh calaamado aad u yar oo xoojin togan ah, ES ayaa ku guulaysata, gaar ahaan haddii aad haysato awoodda xisaabinta ee aad gacanta ku hayso taas oo aad ku wadi karto tababar is barbar socda. Dhanka kale, hababka gradient ee isticmaalaya xoojinta barashada ama barashada la kormeeray waxay faa'iido yeelan doontaa marka aan helno jawaab celin ballaaran oo aan u baahanahay inaan barano sida dhibaatada loo xalliyo si degdeg ah iyo xog yar.
U soo jeesta dabeecadda, waxaan ogaanay in habka koowaad, nuxur ahaan, uu aasaaska u yahay kan labaad. Tani waa sababta, muddada horumarka, naasleyda ay horumariyeen maskax u oggolaanaysa inay si wax ku ool ah wax uga bartaan calaamadaha adag ee ka imanaya deegaanka. Markaa, su'aashu way furan tahay. Waxaa laga yaabaa in xeeladaha korriinka ay naga caawiyaan in aan abuurno qaab-dhismeed waxbarasho oo waxtar leh kuwaas oo sidoo kale faa'iido u yeelan doona hababka waxbarashada tartiib-tartiib ah. Ka dib oo dhan, xalka laga helay dabeecadda runtii waa mid aad u guul leh.
Source: www.habr.com