Gitudloan sa OpenAI ang AI nga pagtinabangay sa usa ka dula nga tago-tago

Ang usa ka maayo nga karaan nga dula sa pagtago ug pagpangita mahimong usa ka maayo nga pagsulay alang sa mga bot sa artificial intelligence (AI) aron ipakita kung giunsa nila paghimo mga desisyon ug nakig-uban sa usag usa ug lainlaing mga butang sa ilang palibot.

Sa iyang bag-ong artikulo, nga gipatik sa mga tigdukiduki gikan sa OpenAI, usa ka non-profit nga artificial intelligence research organization nga nahimong bantogan kadaugan batok sa mga world champion sa dula sa kompyuter nga Dota 2, gihulagway sa mga siyentista kung giunsa ang mga ahente nga kontrolado sa artificial intelligence gibansay aron mahimong mas sopistikado sa pagpangita ug pagtago sa usag usa sa usa ka virtual nga palibot. Gipakita sa mga resulta sa pagtuon nga ang usa ka grupo sa duha ka mga bot nakakat-on nga mas epektibo ug mas paspas kay sa bisan unsang ahente nga walay mga kaalyado.

Gitudloan sa OpenAI ang AI nga pagtinabangay sa usa ka dula nga tago-tago

Ang mga siyentipiko migamit ug usa ka paagi nga dugay nang nakadaog sa kabantog niini pagkat-on sa makina nga adunay reinforcement, diin ang artificial intelligence gibutang sa usa ka palibot nga wala mahibal-an niini, samtang adunay piho nga mga paagi sa pagpakig-uban niini, ingon man usa ka sistema sa mga ganti ug multa alang sa usa o lain nga sangputanan sa mga aksyon niini. Kini nga pamaagi epektibo kaayo tungod sa katakus sa AI sa paghimo sa lainlaing mga aksyon sa usa ka virtual nga palibot sa labi ka kusog, milyon-milyon nga beses nga mas paspas kaysa mahunahuna sa usa ka tawo. Gitugotan niini ang pagsulay ug sayup sa pagpangita sa labing epektibo nga mga estratehiya sa pagsulbad sa usa ka gihatag nga problema. Apan kini nga pamaagi adunay pipila usab nga mga limitasyon, pananglitan, ang paghimo sa usa ka palibot ug pagpahigayon sa daghang mga siklo sa pagbansay nanginahanglan daghang mga kapanguhaan sa pag-compute, ug ang proseso mismo nanginahanglan usa ka tukma nga sistema alang sa pagtandi sa mga sangputanan sa mga aksyon sa AI sa katuyoan niini. Dugang pa, ang mga kahanas nga nakuha sa ahente sa niini nga paagi limitado sa gihulagway nga buluhaton ug, sa diha nga ang AI nakakat-on sa pagsagubang niini, wala nay dugang nga pag-uswag.

Aron mabansay ang AI nga magdula og tago-tago, ang mga siyentista migamit sa usa ka pamaagi nga gitawag og "Undirected exploration," diin ang mga ahente adunay hingpit nga kagawasan sa pagpalambo sa ilang pagsabot sa kalibutan sa dula ug pagpalambo sa mga estratehiya sa pagdaog. Susama kini sa pamaagi sa pagkat-on sa daghang ahente nga gigamit sa mga tigdukiduki sa DeepMind kung daghang mga sistema sa artificial intelligence gibansay sa pagdula sa pagkuha sa flag mode sa Quake III Arena. Sama sa kini nga kaso, ang mga ahente sa AI wala kaniadto gibansay sa mga lagda sa dula, apan sa paglabay sa panahon nakakat-on sila sa mga batakang estratehiya ug nakahimo pa gani sa pagsurprisa sa mga tigdukiduki nga adunay dili importante nga mga solusyon.

Sa usa ka dula nga tago-tago, daghang mga ahente kansang trabaho mao ang pagtago gikinahanglan nga likayan ang linya sa panan-aw sa ilang mga kaatbang pagkahuman sa usa ka gamay nga pagsugod samtang ang grupo sa mga nangita nga ahente wala makalihok. Dugang pa, ang "linya sa panan-aw" sa kini nga konteksto usa ka 135 degree cone sa atubangan sa usa ka indibidwal nga bot. Ang mga ahente dili makasuway pag-ayo sa gawas sa dulaanan ug napugos sa pag-navigate sa random nga namugna nga mga lawak nga adunay abilidad sa paggamit sa pipila ka mga butang sa gawas (mga kahon, mabalhin nga mga bungbong, espesyal nga mga rampa) nga nagkatag sa palibot nga mahimong magamit sa paghimo og tabon ug sa pagsulod niini. .

Gitudloan sa OpenAI ang AI nga pagtinabangay sa usa ka dula nga tago-tago

Pinaagi sa taas nga proseso sa pagkat-on, ang mga ahente sa AI nakakat-on og unom ka talagsaon nga mga estratehiya, nga ang matag usa nakatabang kanila sa pag-uswag sa sunod nga yugto sa dula. Sa sinugdanan, ang mga tigpangita ug mga tigtago nga mga grupo yano nga nanagan ug naggukod sa usag usa, apan human sa mga 25 ka milyon nga mga duwa, ang tigtago nga grupo nakakat-on sa pagbabag sa mga agianan gamit ang mga kahon ug paghimo og mga silonganan gikan kanila. Human sa laing 75 ka milyon nga mga duwa, ang team nakadiskobre og mga paagi sa paggamit sa mga rampa aron makasulod niini nga mga tagoanan. Human sa laing 10 ka milyon nga mga round, ang mga tigtago nakakat-on sa pag-drag sa mga rampa ngadto sa daplin sa dulaanan ug i-lock kini sa lugar aron mapugngan ang mga kontra sa paggamit niini.

Gitudloan sa OpenAI ang AI nga pagtinabangay sa usa ka dula nga tago-tago

Human sa 388 ka milyon nga mga posporo, ang mga tigpangita nakakat-on sa paggamit sa gibabagan nga mga rampa aron mosaka sa mga crates nga gidala ngadto kanila, ug dayon, direkta nga mobalhin ngadto kanila, motuhop sa mga tagoanan sa kaaway nga gihimo gikan sa madaladala nga mga bungbong. Ug sa katapusan, pagkahuman sa 458 milyon nga mga posporo, ang nagtago nga grupo nakahinapos nga kinahanglan nila nga babagan ang tanan nga mga butang ug dayon magtukod usa ka silonganan, nga dayag nga nagdala sa ilang katapusan nga kadaugan.

Ang labi ka impresibo mao nga pagkahuman sa 22 milyon nga mga posporo, ang mga ahente nakakat-on sa pag-coordinate sa ilang mga aksyon ug ang kaepektibo sa ilang kolaborasyon nagdugang lamang sa umaabot, pananglitan, ang matag usa nagdala sa iyang kaugalingon nga kahon o dingding aron maghimo usa ka silonganan ug gipili ang iyang bahin sa mga butang block, aron makomplikado ang kalisud nga dula sa mga kontra.

Gitudloan sa OpenAI ang AI nga pagtinabangay sa usa ka dula nga tago-tago

Namatikdan usab sa mga siyentipiko ang usa ka importante nga punto nga may kalabutan sa impluwensya sa gidaghanon sa mga butang sa pagbansay (ang gidaghanon sa datos nga gipasa sa neural network - "Batch Size") sa tulin sa pagkat-on. Ang default nga modelo nanginahanglan 132,3 milyon nga mga posporo sa 34 ka oras nga pagbansay aron maabot ang punto diin ang nagtago nga grupo nakakat-on sa pag-block sa mga rampa, samtang ang daghang mga datos miresulta sa usa ka mamatikdan nga pagkunhod sa oras sa pagbansay. Pananglitan, ang pagdugang sa gidaghanon sa mga parametro (bahin sa datos nga nakuha sa tibuok proseso sa pagbansay) gikan sa 0,5 milyon ngadto sa 5,8 ka milyon nagdugang sa sampling efficiency sa 2,2 ka beses, ug nagdugang sa gidak-on sa input data gikan sa 64 KB ngadto sa 128 KB nga pagkunhod sa pagbansay. oras hapit usa ug tunga ka beses.

Gitudloan sa OpenAI ang AI nga pagtinabangay sa usa ka dula nga tago-tago

Sa pagtapos sa ilang trabaho, nakahukom ang mga tigdukiduki nga sulayan kung unsa kadaghan ang pagbansay sa in-game nga makatabang sa mga ahente sa pagsagubang sa parehas nga mga buluhaton sa gawas sa dula. Adunay lima ka mga pagsulay sa kinatibuk-an: kahibalo sa gidaghanon sa mga butang (pagsabut nga ang usa ka butang nagpadayon sa paglungtad bisan kung kini wala makita ug wala gigamit); "lock and return" - ang abilidad sa paghinumdom sa orihinal nga posisyon sa usa ka tawo ug pagbalik niini human makompleto ang pipila ka dugang nga buluhaton; "sequential blocking" - 4 nga mga kahon ang random nga nahimutang sa tulo ka mga kwarto nga walay mga pultahan, apan adunay mga rampa aron makasulod, ang mga ahente kinahanglan nga mangita ug babagan silang tanan; pagbutang sa mga kahon sa gitino nang daan nga mga dapit; paghimo og kapasilongan sa palibot sa usa ka butang sa porma sa usa ka silindro.

Ingon usa ka sangputanan, sa tulo sa lima ka mga buluhaton, ang mga bot nga nakaagi sa pasiuna nga pagbansay sa dula mas paspas nga nakakat-on ug nagpakita sa mas maayo nga mga resulta kaysa AI nga gibansay aron masulbad ang mga problema gikan sa wala. Naghimo sila og gamay nga mas maayo sa pagkompleto sa buluhaton ug pagbalik sa sinugdanan nga posisyon, sunod-sunod nga pagbabag sa mga kahon sa sirado nga mga lawak, ug pagbutang sa mga kahon sa gihatag nga mga lugar, apan nahimo nga gamay nga huyang sa pag-ila sa gidaghanon sa mga butang ug paghimo og tabon sa palibot sa laing butang.

Gipaila sa mga tigdukiduki ang nagkasagol nga mga resulta kung giunsa pagkat-on ug paghinumdom sa AI ang pipila nga mga kahanas. "Naghunahuna kami nga ang mga buluhaton diin ang in-game nga pre-training gihimo labing maayo nga naglakip sa paggamit pag-usab sa nakat-unan nga mga kahanas sa pamilyar nga paagi, samtang ang paghimo sa nahabilin nga mga buluhaton nga mas maayo kaysa sa AI nga gibansay gikan sa wala kinahanglan nga gamiton kini sa lahi nga paagi, nga labi ka daghan. mas lisud,” sulat sa kaubang tagsulat sa trabaho. "Kini nga resulta nagpasiugda sa panginahanglan sa pagpalambo sa mga pamaagi alang sa epektibong paggamit pag-usab sa mga kahanas nga nakuha pinaagi sa pagbansay-bansay sa diha nga pagbalhin kanila gikan sa usa ka palibot ngadto sa lain."

Ang trabaho nga nahimo tinuod nga makapahingangha, tungod kay ang posibilidad sa paggamit niini nga paagi sa pagtudlo nahimutang labaw pa sa mga limitasyon sa bisan unsang mga dula. Ang mga tigdukiduki nag-ingon nga ang ilang trabaho usa ka hinungdanon nga lakang padulong sa paghimo sa AI nga adunay "base sa pisika" ug "sama sa tawo" nga pamatasan nga makasusi sa mga sakit, makatagna sa mga istruktura sa komplikado nga molekula sa protina ug mag-analisar sa mga CT scan.

Sa video sa ubos klaro nimong makita kung giunsa ang tibuuk nga proseso sa pagkat-on nahitabo, kung giunsa ang AI nakakat-on sa pagtinabangay, ug ang mga estratehiya niini nahimong labi ka tuso ug komplikado.



Source: 3dnews.ru

Idugang sa usa ka comment