L'intelligenza artificiale di DeepMind padroneggia il gioco di squadra e surclassa gli umani in Quake III

Cattura la bandiera è una modalità competitiva abbastanza semplice presente in molti sparatutto popolari. Ogni squadra ha un segnalino situato alla sua base e l'obiettivo è catturare il segnalino della squadra avversaria e portarlo con successo a se stessa. Tuttavia, ciò che è facile da comprendere per gli esseri umani non lo è altrettanto per le macchine. Per catturare la bandiera, i personaggi non giocanti (bot) vengono tradizionalmente programmati utilizzando euristiche e semplici algoritmi che forniscono una libertà di scelta limitata e sono significativamente inferiori agli umani. Ma l’intelligenza artificiale e l’apprendimento automatico promettono di cambiare completamente questa situazione.

В Articolo, pubblicato questa settimana sulla rivista Science circa un anno dopo prestampae così dentro il tuo blog, i ricercatori di DeepMind, una filiale londinese di Alphabet, descrivono un sistema che non solo può imparare a giocare a Cattura la bandiera sulle mappe Quake III Arena di id Software, ma anche sviluppare strategie di squadra completamente nuove, in nessun modo inferiori a quelle umane.

L'intelligenza artificiale di DeepMind padroneggia il gioco di squadra e surclassa gli umani in Quake III

"Nessuno ha detto all'IA come giocare a questo gioco, contava solo il risultato: se l'IA avesse battuto o meno il suo avversario. Il bello di utilizzare questo approccio è che non si sa mai quale comportamento emergerà quando si formano gli agenti", afferma Max Jaderberg, ricercatore presso DeepMind che in precedenza ha lavorato sul sistema di apprendimento automatico AlphaStar (più recentemente superato team umano di professionisti in StarCraft II). Ha inoltre spiegato che il metodo chiave del loro nuovo lavoro è, in primo luogo, l'apprendimento rinforzato, che utilizza una sorta di sistema di ricompensa per spingere gli agenti software a raggiungere gli obiettivi prefissati, e il sistema di ricompensa ha funzionato indipendentemente dal fatto che il team di intelligenza artificiale abbia vinto o meno. , ma in secondo luogo, gli agenti sono stati addestrati in gruppi, il che ha costretto l'IA a padroneggiare l'interazione di squadra fin dall'inizio.

“Dal punto di vista della ricerca, questa è una novità per un approccio algoritmico davvero entusiasmante”, ha aggiunto Max. “Il modo in cui abbiamo addestrato la nostra intelligenza artificiale mostra bene come adattare e implementare alcune idee evolutive classiche”.

L'intelligenza artificiale di DeepMind padroneggia il gioco di squadra e surclassa gli umani in Quake III

Chiamato provocatoriamente For The Win (FTW), gli agenti di DeepMind imparano direttamente dai pixel dello schermo utilizzando una rete neurale convoluzionale, un insieme di funzioni matematiche (neuroni) disposte in strati modellati sulla corteccia visiva umana. I dati ricevuti vengono trasmessi a due reti dotate di memoria multipla a breve termine (memoria inglese a lungo termine - LSTM), in grado di riconoscere dipendenze a lungo termine. Uno di loro gestisce i dati operativi con un'elevata velocità di risposta, mentre l'altro lavora lentamente per analizzare e formulare strategie. Entrambi sono associati alla memoria variazionale, che usano insieme per prevedere i cambiamenti nel mondo di gioco ed eseguire azioni attraverso il controller di gioco emulato.

L'intelligenza artificiale di DeepMind padroneggia il gioco di squadra e surclassa gli umani in Quake III

In totale, DeepMind ha addestrato 30 agenti, ha dato loro una serie di compagni di squadra e avversari con cui giocare e ha selezionato carte da gioco casualmente per impedire all'IA di ricordarsele. Ogni agente aveva il proprio segnale di ricompensa, che gli permetteva di creare i propri obiettivi interni, come catturare la bandiera. Ciascuna IA ha giocato individualmente circa 450mila giochi di cattura della bandiera, che equivalgono a circa quattro anni di esperienza di gioco.

Gli agenti FTW completamente addestrati hanno imparato ad applicare strategie comuni a qualsiasi mappa, elenco di squadra e dimensione della squadra. Hanno imparato comportamenti umani come seguire i compagni di squadra, accamparsi in una base nemica e difendere la propria base dagli aggressori, e gradualmente hanno perso modelli meno utili come osservare un alleato troppo da vicino.

Quindi quali risultati sono stati raggiunti? In un torneo da 40 persone in cui umani e agenti giocavano casualmente sia insieme che uno contro l'altro, gli agenti FTW hanno sovraperformato significativamente il tasso di vincita dei giocatori umani. Il punteggio Elo dell'IA, ovvero la probabilità di vincita, era di 1600, rispetto a 1300 per i giocatori umani "forti" e 1050 per il giocatore umano "medio".

L'intelligenza artificiale di DeepMind padroneggia il gioco di squadra e surclassa gli umani in Quake III

Ciò non sorprende, dal momento che la velocità di reazione dell’intelligenza artificiale è significativamente superiore a quella di un essere umano, il che ha dato alla prima un vantaggio significativo negli esperimenti iniziali. Ma anche quando la precisione degli agenti è stata ridotta e il tempo di reazione è aumentato grazie alla latenza integrata di 257 millisecondi, l’intelligenza artificiale ha comunque sovraperformato gli umani. I giocatori esperti e occasionali hanno vinto rispettivamente solo il 21% e il 12% delle partite totali.

Inoltre, dopo la pubblicazione dello studio, gli scienziati hanno deciso di testare gli agenti su mappe complete di Quake III Arena con un'architettura di livelli complessa e oggetti aggiuntivi, come Future Crossings e Ironwood, dove l'intelligenza artificiale ha iniziato a sfidare con successo gli umani in partite di prova . Quando i ricercatori hanno esaminato i modelli di attivazione della rete neurale degli agenti, cioè le funzioni dei neuroni responsabili della determinazione dell'output in base alle informazioni in arrivo, hanno trovato cluster che rappresentano le stanze, lo stato delle bandiere, la visibilità dei compagni di squadra e degli avversari e la presenza o l'assenza di agenti nella base nemica o in squadra e altri aspetti significativi del gioco. Gli agenti addestrati contenevano persino neuroni che codificavano direttamente situazioni specifiche, come quando una bandiera veniva presa da un agente o quando un alleato la teneva in mano.

"Penso che una delle cose da considerare sia che questi team multi-agente sono estremamente potenti, e il nostro studio lo dimostra", afferma Jaderberg. “Questo è ciò che abbiamo imparato a fare sempre meglio negli ultimi anni: come risolvere il problema dell’apprendimento per rinforzo”. E la formazione avanzata ha funzionato davvero brillantemente”.

Thore Graepel, professore di informatica all'University College di Londra e scienziato di DeepMind, ritiene che il loro lavoro evidenzi il potenziale dell'apprendimento multi-agente per il futuro dell'intelligenza artificiale. Può anche servire come base per la ricerca sull'interazione uomo-macchina e sui sistemi che si completano a vicenda o lavorano insieme.

“I nostri risultati mostrano che l’apprendimento per rinforzo multi-agente può padroneggiare con successo un gioco complesso al punto in cui i giocatori umani arrivano addirittura a credere che i giocatori computerizzati siano compagni di squadra migliori. Lo studio fornisce anche un'analisi approfondita estremamente interessante di come gli agenti addestrati si comportano e lavorano insieme, afferma Grapel. “Ciò che rende questi risultati così entusiasmanti è che questi agenti percepiscono il loro ambiente in prima persona, [cioè] proprio come un giocatore umano. Per imparare a giocare tatticamente e a collaborare con i propri compagni di squadra, questi agenti dovevano fare affidamento sul feedback dei risultati della partita, senza che nessun insegnante o allenatore mostrasse loro cosa fare."



Fonte: 3dnews.ru

Aggiungi un commento