OpenAI anseye travay ann ekip AI nan yon jwèt kache epi chèche

Yon bon jwèt ansyen alamòd nan kache epi chèche kapab yon gwo tès pou entèlijans atifisyèl (AI) robo yo demontre ki jan yo pran desizyon ak kominike youn ak lòt ak divès objè alantou yo.

Nan li nouvo atik, pibliye pa chèchè ki soti nan OpenAI, yon òganizasyon rechèch entèlijans atifisyèl ki pa gen pwofi ki te vin pi popilè viktwa sou chanpyon mondyal yo nan jwèt la sou òdinatè Dota 2, syantis yo dekri kijan ajan kontwole pa entèlijans atifisyèl yo te resevwa fòmasyon yo dwe pi sofistike nan rechèch ak kache youn ak lòt nan yon anviwònman vityèl. Rezilta etid la te demontre ke yon ekip de bots aprann pi efikas ak pi vit pase nenpòt ajan sèl san alye.

OpenAI anseye travay ann ekip AI nan yon jwèt kache epi chèche

Syantis yo te itilize yon metòd ki gen lontan genyen t'ap nonmen non li aprantisaj machin ak ranfòsman, nan ki entèlijans atifisyèl yo mete nan yon anviwònman enkoni pou li, pandan y ap gen sèten fason pou kominike avèk li, osi byen ke yon sistèm nan rekonpans ak amann pou youn oswa yon lòt rezilta nan aksyon li yo. Metòd sa a se byen efikas akòz kapasite AI pou fè plizyè aksyon nan yon anviwònman vityèl ak yon vitès menmen, dè milyon de fwa pi vit pase yon moun ka imajine. Sa a pèmèt esè ak erè jwenn estrateji ki pi efikas pou rezoud yon pwoblèm. Men, apwòch sa a tou gen kèk limit, pou egzanp, kreye yon anviwònman ak fè anpil sik fòmasyon mande pou gwo resous enfòmatik, ak pwosesis la tèt li mande pou yon sistèm egzat pou konpare rezilta yo nan aksyon AI ak objektif li yo. Anplis de sa, ladrès yo akeri pa ajan an nan fason sa a limite a sa sèlman travay ki dekri a, epi, yon fwa AI a aprann fè fas ak li, pa pral gen plis amelyorasyon.

Pou fòme AI pou jwe kache epi chèche, syantis yo te itilize yon apwòch ki rele "Esplorasyon san direksyon," ki se kote ajan yo gen libète konplè pou devlope konpreyansyon yo genyen sou mond jwèt la epi devlope estrateji genyen. Sa a se menm jan ak apwòch aprantisaj milti-ajan ke chèchè nan DeepMind te itilize lè plizyè sistèm entèlijans atifisyèl yo te antrene yo jwe kaptire mòd drapo a nan Quake III Arena. Kòm nan ka sa a, ajan AI yo pa te deja antrene nan règ yo nan jwèt la, men sou tan yo te aprann estrateji debaz yo e yo te menm kapab sipriz chèchè yo ak solisyon ki pa trivial.

Nan yon jwèt kache ak chèche, plizyè ajan ki gen travay li te kache yo te oblije evite liy opozan yo nan vizyon apre yon ti demaraj tèt pandan ekip la nan ajan rechèch yo te immobilize. Anplis, "liy nan je" nan kontèks sa a se yon kòn 135 degre devan yon bot endividyèl. Ajan yo pa t 'kapab riske twò lwen andeyò zòn jwe a epi yo te fòse yo navige nan chanm ki te pwodwi owaza ak kapasite nan sèvi ak kèk objè ekstèn (bwat, mi mobil, ranp espesyal) gaye toupatou ki ta ka itilize tou de pou kreye kouvèti ak enfiltre nan yo. .

OpenAI anseye travay ann ekip AI nan yon jwèt kache epi chèche

Atravè yon pwosesis aprantisaj long, ajan AI yo te aprann sis estrateji inik, chak nan yo te ede yo pwogrese nan pwochen etap la nan jwèt la. Okòmansman, ekip moun k ap chèche ak kache yo te senpleman kouri ale epi yo te kouri dèyè lòt, men apre apeprè 25 milyon alimèt, ekip kachèt la te aprann bloke pasaj ak bwat epi bati abri soti nan yo. Apre yon lòt 75 milyon alimèt, ekip la te dekouvri fason pou itilize ranp pou antre nan kache sa yo. Apre yon lòt 10 milyon jij, kachèt yo te aprann trennen ranp nan kwen nan zòn jwe ak fèmen yo an plas pou anpeche opozan yo sèvi ak yo.

OpenAI anseye travay ann ekip AI nan yon jwèt kache epi chèche

Apre 388 milyon alimèt, moun k ap chèche yo te aprann sèvi ak ranp bloke pou monte sou kès yo te pote ba yo, epi answit, deplase dirèkteman sou yo, antre nan kachèt lènmi ki te kreye nan mi pòtab yo. Epi finalman, apre 458 milyon alimèt, ekip kache a te konkli ke yo te bezwen bloke tout objè ak Lè sa a, bati yon abri, ki aparamman mennen nan viktwa final yo.

Ki sa ki patikilyèman enpresyonan se ke apre 22 milyon alimèt, ajan yo te aprann kowòdone aksyon yo ak efikasite nan kolaborasyon yo sèlman ogmante nan lavni an, pou egzanp, chak te pote bwat pa yo oswa miray yo kreye yon abri epi yo te chwazi pati yo nan objè yo. blòk fè li pi difisil jwèt opozan.

OpenAI anseye travay ann ekip AI nan yon jwèt kache epi chèche

Syantis yo te note tou yon pwen enpòtan ki gen rapò ak enfliyans kantite objè fòmasyon (kantite done ki pase nan rezo neral la - "Gwosè pakèt") sou vitès aprantisaj la. Modèl defo a te mande 132,3 milyon alimèt sou 34 èdtan fòmasyon pou rive nan pwen kote ekip kache a te aprann bloke ranp yo, pandan plis done te lakòz yon rediksyon aparan nan tan fòmasyon an. Pou egzanp, ogmante kantite paramèt (yon pati nan done yo jwenn pandan tout pwosesis fòmasyon an) soti nan 0,5 milyon dola a 5,8 milyon dola ogmante efikasite echantiyon an pa 2,2 fwa, ak ogmante gwosè a nan done yo opinyon soti nan 64 KB a 128 KB redwi fòmasyon. tan prèske yon fwa ak yon mwatye.

OpenAI anseye travay ann ekip AI nan yon jwèt kache epi chèche

Nan fen travay yo, chèchè yo te deside teste konbyen fòmasyon nan jwèt la ta ka ede ajan yo fè fas ak travay menm jan an deyò jwèt la. Te gen senk tès nan total: konsyans sou kantite objè (konprann ke yon objè kontinye egziste menm si li pa wè epi li pa itilize); "lock and return" - kapasite pou sonje pozisyon orijinal yon moun epi retounen nan li apre w fin ranpli kèk travay adisyonèl; "sekans bloke" - 4 bwat yo te owaza sitiye nan twa chanm san pòt, men ak ranp pou antre anndan, ajan yo te bezwen jwenn ak bloke yo tout; plasman bwat yo sou sit predetèmine; kreye yon abri alantou yon objè nan fòm lan nan yon silenn.

Kòm yon rezilta, nan twa sou senk travay, bots ki te sibi fòmasyon preliminè nan jwèt la te aprann pi vit epi yo te montre pi bon rezilta pase AI ki te fòme pou rezoud pwoblèm nan grafouyen. Yo te fè yon ti kras pi byen nan ranpli travay la ak retounen nan pozisyon an kòmanse, sekans bloke bwat nan chanm fèmen, epi mete bwat nan zòn yo bay yo, men fè yon ti kras pi fèb nan rekonèt kantite objè yo ak kreye kouvèti alantou yon lòt objè.

Chèchè yo atribiye rezilta melanje nan fason AI aprann ak sonje sèten ladrès. "Nou panse ke travay kote fòmasyon anvan nan jwèt la te fè pi byen enplike re-itilize ladrès te aprann deja nan yon fason abitye, pandan y ap fè travay ki rete yo pi byen pase AI ki te resevwa fòmasyon nan grate ta mande pou itilize yo nan yon fason diferan, ki anpil. pi difisil,” ekri ko-otè travay la. "Rezilta sa a mete aksan sou nesesite pou devlope metòd pou reyitilize efikasman konpetans akeri atravè fòmasyon lè yo transfere yo soti nan yon anviwònman nan yon lòt."

Travay ki fèt la vrèman enpresyonan, paske pwospè pou w sèvi ak metòd ansèyman sa a depase limit nenpòt jwèt. Chèchè yo di travay yo se yon etap enpòtan nan direksyon pou kreye AI ak konpòtman "ki baze sou fizik" ak "tankou imen" ki ka fè dyagnostik maladi, predi estrikti molekil pwoteyin konplèks ak analize CT analiz.

Nan videyo ki anba a ou ka byen klè wè ki jan tout pwosesis aprantisaj la te fèt, ki jan AI a te aprann travay ann ekip, ak estrateji li yo te vin pi malen ak konplèks.



Sous: 3dnews.ru

Add nouvo kòmantè