DeepMind AI Masters Ekip jwe ak pèfòme moun nan Quake III

Capture drapo a se yon mòd konpetitif jistis senp yo te jwenn nan anpil tirè popilè. Chak ekip gen yon makè ki sitiye nan baz li, ak objektif la se pran makè ekip opoze a ak siksè pote l 'nan tèt li. Sepandan, sa ki fasil pou moun konprann se pa tèlman fasil pou machin. Pou kaptire drapo a, karaktè ki pa jwè yo (bots) yo tradisyonèlman pwograme lè l sèvi avèk euristik ak algoritm senp ki bay libète limite nan chwa epi yo siyifikativman enferyè pase moun. Men, entèlijans atifisyèl ak aprantisaj machin pwomèt konplètman chanje sitiyasyon sa a.

В Atik, pibliye semèn sa a nan jounal la Syans sou yon ane apre preprintosi byen ke sou blog ou a, chèchè ki soti nan DeepMind, yon sipòtè ki baze nan Lond nan Alphabet, dekri yon sistèm ki pa ka sèlman aprann jwe kaptire drapo a sou kat id Software Quake III Arena, men tou, devlope estrateji ekip totalman nouvo, nan okenn fason enferyè a yon imen.

DeepMind AI Masters Ekip jwe ak pèfòme moun nan Quake III

"Okenn moun pa di AI a ki jan yo jwe jwèt sa a, li te sèlman rezilta a - si wi ou non AI a bat advèsè li a oswa ou pa. Bote lè w sèvi ak apwòch sa a se ke ou pa janm konnen ki konpòtman ki pral parèt lè w fòme ajan yo,” di Max Jaderberg, yon syantis rechèch nan DeepMind ki te deja travay sou sistèm aprantisaj machin AlphaStar (pi resamman). depase ekip pwofesyonèl imen nan StarCraft II). Li te eksplike plis ke metòd kle nan nouvo travay yo se, premyèman, aprantisaj ranfòse, ki itilize yon kalite sistèm rekonpans pou pouse ajan lojisyèl yo reyalize objektif fiks yo, ak sistèm rekonpans la te travay kèlkeswa si ekip AI a te genyen oswa ou pa. , men nan dezyèm, ajan yo te resevwa fòmasyon an gwoup, ki te fòse AI a metrize entèraksyon ekip depi nan konmansman an.

"Soti nan yon pwen de vi rechèch, sa a se yon kado pou yon apwòch algoritmik ki vrèman enteresan," Max te ajoute. "Fason nou te antrene AI nou an montre byen kijan pou echèl ak aplike kèk ide evolisyonè klasik."

DeepMind AI Masters Ekip jwe ak pèfòme moun nan Quake III

Nonmen pwovokatif For The Win (FTW), ajan DeepMind yo aprann dirèkteman nan piksèl ekran lè l sèvi avèk yon rezo neral konvolusyonèl, yon seri fonksyon matematik (neuron) ranje nan kouch ki modelize apre korèks vizyèl imen an. Done yo resevwa transmèt nan de rezo ki gen plizyè memwa kout tèm (angle long short-term memory - LSTM), ki kapab rekonèt depandans alontèm. Youn nan yo jere done operasyonèl ak yon vitès repons rapid, pandan ke lòt la ap travay tou dousman analize ak fòmile estrateji. Tou de yo asosye ak memwa varyasyon, ke yo itilize ansanm pou predi chanjman nan mond lan jwèt ak fè aksyon atravè kontwolè jwèt la imite.

DeepMind AI Masters Ekip jwe ak pèfòme moun nan Quake III

An total, DeepMind te fòme 30 ajan, te ba yo yon seri koekipye ak opozan pou yo jwe ak kat jwèt owaza chwazi pou anpeche AI ​​a sonje yo. Chak ajan te gen pwòp siyal rekonpans li, ki pèmèt li kreye pwòp objektif entèn li yo, tankou kaptire drapo a. Chak AI endividyèlman te jwe apeprè 450 mil jwèt nan kaptire drapo a, ki ekivalan a apeprè kat ane eksperyans nan jwèt.

Ajan FTW ki byen fòme yo te aprann aplike estrateji ki komen nan nenpòt kat, lis ekip, ak gwosè ekip. Yo te aprann konpòtman moun tankou swiv koekipye, kan nan yon baz lènmi, ak defann baz yo kont atakè, epi yo piti piti pèdi modèl mwens benefisye tankou gade yon alye twò pre.

Se konsa, ki rezilta yo te reyalize? Nan yon tounwa 40-moun kote moun ak ajan yo te jwe owaza ansanm ak youn kont lòt, ajan FTW te siyifikativman depase pousantaj viktwa jwè imen yo. Evalyasyon Elo AI a, ki se pwobabilite pou genyen, te 1600, konpare ak 1300 pou jwè imen "fò" ak 1050 pou jwè imen "mwayèn".

DeepMind AI Masters Ekip jwe ak pèfòme moun nan Quake III

Sa a se pa etone, depi vitès reyaksyon AI a siyifikativman pi wo pase sa yon moun, ki te bay ansyen an yon avantaj enpòtan nan eksperyans inisyal yo. Men, menm lè presizyon ajan yo te redwi ak tan reyaksyon ogmante gras a latansi entegre 257 milisgond, AI a toujou depase moun. Jwè avanse ak aksidantèl te genyen sèlman 21% ak 12% nan jwèt total yo, respektivman.

Anplis de sa, apre piblikasyon etid la, syantis yo te deside teste ajan yo sou kat jeyografik Quake III Arena ak achitekti nivo konplèks ak objè adisyonèl, tankou Future Crossings ak Ironwood, kote AI a te kòmanse avèk siksè defi imen nan alimèt tès. . Lè chèchè yo te gade modèl deklanchman rezo neral ajan yo, se sa ki fonksyon newòn yo ki responsab pou detèmine pwodiksyon ki baze sou enfòmasyon k ap vini yo, yo te jwenn gwoup ki reprezante chanm yo, eta drapo yo, vizibilite koekipye yo ak opozan yo, ak prezans oswa absans ajan nan baz lènmi an oswa ki baze sou ekip, ak lòt aspè enpòtan nan jeu. Ajan ki resevwa fòmasyon yo menm te genyen newòn ki kode sitiyasyon espesifik dirèkteman, tankou lè yon ajan te pran yon drapo oswa lè yon alye te kenbe li.

"Mwen panse ke youn nan bagay yo gade se ke ekip milti-ajan sa yo trè pwisan, ak etid nou an demontre sa," Jaderberg di. "Se sa nou te aprann fè pi byen ak pi byen pandan kèk ane ki sot pase yo—kijan pou rezoud pwoblèm aprantisaj ranfòsman." Ak fòmasyon amelyore vrèman te travay briyan."

Thore Graepel, pwofesè syans enfòmatik nan University College London ak yon syantis DeepMind, kwè travay yo mete aksan sou potansyèl aprantisaj milti-ajan pou lavni AI. Li kapab tou sèvi kòm yon baz pou rechèch sou entèraksyon moun-machin ak sistèm ki konplete youn ak lòt oswa travay ansanm.

"Rezilta nou yo montre ke aprantisaj ranfòsman milti-ajan ka metrize avèk siksè yon jwèt konplèks nan pwen ke jwè imen yo menm rive kwè ke jwè òdinatè fè pi bon koekipye. Etid la bay tou yon analiz trè enteresan sou fason ajan ki resevwa fòmasyon yo konpòte yo ak travay ansanm, di Grapel. "Ki sa ki fè rezilta sa yo tèlman enteresan se ke ajan sa yo wè anviwònman yo nan premye moun, [ki se] jis tankou yon jwè imen. Pou aprann kijan pou yo jwe taktikman epi kolabore ak koekipye yo, ajan sa yo te oblije konte sou fidbak nan rezilta jwèt la, san okenn pwofesè oswa antrenè te montre yo sa pou yo fè."



Sous: 3dnews.ru

Add nouvo kòmantè