DeepMind AI Masters Team Play è supera l'umani in Quake III

Capture the flag hè un modu cumpetitivu abbastanza simplice chì si trova in parechji tiratori populari. Ogni squadra hà un marcatore situatu à a so basa, è l'obiettivu hè di catturà u marcatore di a squadra avversaria è purtallu cù successu à ellu stessu. Tuttavia, ciò chì hè faciule per l'omu per capiscenu ùn hè micca cusì faciule per i machini. Per catturà a bandiera, i caratteri chì ùn sò micca ghjucatori (bots) sò tradizionalmente programati cù euristiche è algoritmi simplici chì furnisce una libertà limitata di scelta è sò significativamente inferiori à l'omu. Ma l'intelligenza artificiale è l'apprendimentu automaticu prumettenu di cambià completamente sta situazione.

В articulu, publicatu sta settimana in a rivista Science circa un annu dopu prestampacum'è nant'à u vostru bloggu, circadori da DeepMind, una filiale di Londra-basatu di Alphabet, discrìviri un sistemu chì ùn pò micca solu amparà à ghjucà à catturà a bandiera nant'à id Software's Quake III Arena maps, ma dinù sviluppà strategie di squadra cumplettamente novi, in nisun modu inferjuri à un umanu.

DeepMind AI Masters Team Play è supera l'umani in Quake III

"Nimu hà dettu à l'IA cumu ghjucà stu ghjocu, ùn hà avutu solu u risultatu - chì l'IA hà battutu u so avversariu o micca. A bellezza di l'usu di stu approcciu hè chì ùn sapete mai quale cumpurtamentu emergerà quandu si furmà l'agenti ", dice Max Jaderberg, un scientist di ricerca in DeepMind chì hà travagliatu prima nantu à u sistema di apprendimentu machine AlphaStar (più recentemente. surpassatu squadra umana di prufessiunali in StarCraft II). Spiegò ancu chì u metudu chjave di u so novu travagliu hè, prima, l'apprendimentu rinfurzatu, chì usa un tipu di sistema di ricumpensa per spinghje l'agenti di u software per ghjunghje l'ugettivi stabiliti, è u sistema di ricumpensa hà travagliatu indipendentemente da chì a squadra AI hà vintu o micca. , ma in -secondu, l'agenti sò stati furmati in gruppi, chì furzò l'AI à maestru di l'interazzione di squadra da u principiu.

"Da un puntu di vista di ricerca, questu hè una novità per un approcciu algoritmicu chì hè veramente eccitante", hà aghjustatu Max. "U modu chì avemu furmatu a nostra IA mostra bè cumu scala è implementà alcune idee evolutive classiche".

DeepMind AI Masters Team Play è supera l'umani in Quake III

Chjamatu pruvucativamente For The Win (FTW), l'agenti di DeepMind imparanu direttamente da i pixel di schermu utilizendu una rete neurale cunvoluzionale, un inseme di funzioni matematiche (neuroni) disposti in strati modellati dopu à a corteccia visuale umana. I dati ricivuti sò trasmessi à duie rete cù una memoria di cortu-termine multiplici (memoria di cortu-termine inglese - LSTM), capaci di ricunnosce dipendenze à longu andà. Unu di elli gestisce i dati operativi cù una veloce di risposta veloce, mentre chì l'altru travaglia lentamente per analizà è furmulà strategie. I dui sò assuciati cù a memoria variazionale, chì utilizanu inseme per predichendu cambiamenti in u mondu di u ghjocu è eseguisce azzioni attraversu u controller di ghjocu emulatu.

DeepMind AI Masters Team Play è supera l'umani in Quake III

In totale, DeepMind hà furmatu 30 agenti, li hà datu una serie di cumpagni di squadra è avversari per ghjucà, è carte di ghjocu selezziunate in modu aleatoriu per impedisce chì l'IA di ricurdà li. Ogni agentu hà avutu u so propiu signale di ricumpensa, chì permettenu di creà i so scopi interni, cum'è catturà a bandiera. Ogni AI hà ghjucatu individualmente circa 450 mila partiti di catturà a bandiera, chì equivale à circa quattru anni di sperienza di ghjocu.

L'agenti FTW cumpletamente furmati anu amparatu à applicà strategie cumuni à qualsiasi mappa, lista di squadra è dimensione di squadra. Amparanu i cumpurtamenti umani, cum'è seguità à i so cumpagni di squadra, campà in una basa nemica, è difendenu a so basa da l'attaccanti, è anu persu gradualmente mudelli menu beneficii cum'è fighjulà un alleatu troppu vicinu.

Allora chì risultati sò stati ottenuti? In un torneu di 40 persone in u quale l'omu è l'agenti ghjucanu casualmente inseme è contr'à l'altri, l'agenti FTW anu superatu significativamente a rata di vittoria di i ghjucatori umani. A valutazione Elo di l'AI, chì hè a probabilità di vincere, era 1600, cumparatu à 1300 per i ghjucatori umani "forti" è 1050 per u ghjucatore umanu "media".

DeepMind AI Masters Team Play è supera l'umani in Quake III

Questu ùn hè micca surprisante, postu chì a velocità di reazione di l'AI hè significativamente più altu ch'è quella di un umanu, chì dete à l'anzianu un vantaghju significativu in l'esperimenti iniziali. Ma ancu quandu a precisione di l'agenti hè stata ridutta è u tempu di reazione aumentatu grazia à a latenza integrata di 257 millisecondi, l'IA hà sempre superatu l'omu. I ghjucatori avanzati è casuali vincenu solu 21% è 12% di i ghjochi totali, rispettivamente.

Inoltre, dopu à a publicazione di u studiu, i scientisti anu decisu di pruvà l'agenti nantu à e carte di Quake III Arena cumpletu cù l'architettura di livellu cumplessu è l'uggetti supplementari, cum'è Future Crossings è Ironwood, induve l'IA hà cuminciatu à sfida à l'omu in partiti di prova. . Quandu i circadori fighjenu i mudelli di attivazione di a rete neurale di l'agenti, vale à dì, e funzioni di i neuroni rispunsevuli di determinà l'output basatu nantu à l'infurmazioni entrate, anu truvatu clusters chì rapprisentanu stanze, u statu di bandiere, a visibilità di i so cumpagni di squadra è l'avversari, è a prisenza o l'assenza di l'agenti in a basa nemica, o in squadra, è altri aspetti significativi di u ghjocu. L'agenti furmati cuntenenu ancu neuroni chì codificavanu situazioni specifiche direttamente, cum'è quandu una bandiera hè stata presa da un agentu o quandu un alliatu a tene.

"Pensu chì una di e cose da guardà hè chì queste squadre multi-agenti sò estremamente putenti, è u nostru studiu dimostra chì", dice Jaderberg. "Hè ciò chì avemu amparatu à fà megliu è megliu in l'ultimi anni - cumu risolve u prublema di l'apprendimentu di rinforzu". È a furmazione rinfurzata hà veramente travagliatu brillanti ".

Thore Graepel, prufissore di l'informatica à l'Università College di Londra è un scientist DeepMind, crede chì u so travagliu mette in risaltu u putenziale di l'apprendimentu multi-agente per u futuru di l'IA. Pò serve ancu com'è una basa per a ricerca in l'interazzione umanu-macchina è i sistemi chì si cumplementanu o travaglianu inseme.

"I nostri risultati mostranu chì l'apprendimentu di rinfurzamentu multi-agente pò riesce cun successu un ghjocu cumplessu à u puntu chì i ghjucatori umani venenu ancu à crede chì i ghjucatori di l'informatica facenu megliu cumpagni di squadra. U studiu furnisce ancu un'analisi approfondita estremamente interessante di cumu l'agenti addestrati si cumportanu è travaglianu inseme, dice Grapel. "Ciò chì rende questi risultati cusì eccitanti hè chì questi agenti percepiscenu u so ambiente in prima persona, [chì hè] cum'è un ghjucatore umanu. Per amparà à ghjucà tatticamente è à cooperà cù i so cumpagni di squadra, questi agenti anu avutu à cunfidassi nantu à i feedback da i risultati di u ghjocu, senza nisun maestru o coach chì li mostra ciò chì deve fà ".



Source: 3dnews.ru

Add a comment