🥇OpenAI insegna il lavoro di squadra dell'IA nel gioco del nascondino

Un buon vecchio gioco a nascondino può essere un ottimo test per i robot di intelligenza artificiale (AI) per dimostrare come prendono decisioni e interagiscono tra loro e con i vari oggetti che li circondano.

nel suo nuovo articolo, pubblicato dai ricercatori di OpenAI, un'organizzazione no-profit di ricerca sull'intelligenza artificiale diventata famosa vittoria sui campioni del mondo nel gioco per computer Dota 2, gli scienziati descrivono come gli agenti controllati dall'intelligenza artificiale sono stati addestrati per essere più sofisticati nel cercarsi e nascondersi gli uni dagli altri in un ambiente virtuale. I risultati dello studio hanno dimostrato che una squadra di due robot impara in modo più efficace e veloce rispetto a qualsiasi singolo agente senza alleati.

Gli scienziati hanno utilizzato un metodo che ha guadagnato da tempo la sua fama apprendimento automatico con rinforzo, in cui l'intelligenza artificiale è collocata in un ambiente a lei sconosciuto, pur avendo determinati modi di interagire con essa, nonché un sistema di ricompense e multe per l'uno o l'altro risultato delle sue azioni. Questo metodo è abbastanza efficace grazie alla capacità dell'intelligenza artificiale di eseguire varie azioni in un ambiente virtuale a una velocità enorme, milioni di volte più veloce di quanto una persona possa immaginare. Ciò consente di provare ed errori per trovare le strategie più efficaci per risolvere un determinato problema. Ma questo approccio presenta anche alcuni limiti, ad esempio la creazione di un ambiente e lo svolgimento di numerosi cicli di formazione richiedono enormi risorse informatiche e il processo stesso richiede un sistema accurato per confrontare i risultati delle azioni dell'IA con il suo obiettivo. Inoltre, le competenze acquisite dall'agente in questo modo sono limitate al compito descritto e, non appena l'IA imparerà ad affrontarlo, non ci saranno ulteriori miglioramenti.

Per addestrare l’intelligenza artificiale a giocare a nascondino, gli scienziati hanno utilizzato un approccio chiamato “esplorazione non indirizzata”, in cui gli agenti hanno completa libertà di sviluppare la loro comprensione del mondo di gioco e sviluppare strategie vincenti. Questo è simile all’approccio di apprendimento multi-agente utilizzato dai ricercatori di DeepMind quando si utilizzavano più sistemi di intelligenza artificiale sono stati addestrati per giocare alla modalità Cattura la bandiera in Quake III Arena. Come in questo caso, gli agenti IA non sono stati precedentemente addestrati alle regole del gioco, ma col tempo hanno imparato le strategie di base e sono riusciti anche a sorprendere i ricercatori con soluzioni non banali.

In un gioco a nascondino, diversi agenti il cui compito era nascondersi dovevano evitare il campo visivo dei loro avversari dopo un leggero vantaggio mentre la squadra di agenti di ricerca era immobilizzata. Inoltre, la “linea di vista” in questo contesto è un cono di 135 gradi davanti a un singolo bot. Gli agenti non potevano avventurarsi troppo al di fuori dell'area di gioco ed erano costretti a navigare in stanze generate casualmente con la possibilità di utilizzare alcuni oggetti esterni (scatole, pareti mobili, rampe speciali) sparsi qua e là che potevano essere utilizzati sia per creare copertura che per infiltrarsi al loro interno .

Attraverso un lungo processo di apprendimento, gli agenti dell'IA hanno imparato sei strategie uniche, ognuna delle quali li ha aiutati a passare alla fase successiva del gioco. All'inizio, le squadre di chi cerca e di chi si nasconde semplicemente scappano e si inseguono, ma dopo circa 25 milioni di partite, la squadra di chi si nasconde impara a bloccare i passaggi con scatole e a costruire rifugi con esse. Dopo altri 75 milioni di partite, la squadra ha scoperto come utilizzare le rampe per entrare in questi nascondigli. Dopo altri 10 milioni di giri, i clandestini hanno imparato a trascinare le rampe fino al bordo dell'area di gioco e a bloccarle in posizione per impedire agli avversari di usarle.

Dopo 388 milioni di partite, i cercatori hanno imparato a utilizzare le rampe bloccate per salire sulle casse portate loro e poi, spostandosi direttamente su di esse, penetrare nei nascondigli nemici creati da pareti portatili. E alla fine, dopo 458 milioni di partite, la squadra nascosta ha concluso che era necessario bloccare tutti gli oggetti e quindi costruire un rifugio, cosa che a quanto pare ha portato alla vittoria finale.

Ciò che è particolarmente impressionante è che dopo 22 milioni di partite gli agenti hanno imparato a coordinare le loro azioni e l'efficienza della loro collaborazione non ha fatto altro che aumentare in futuro, ad esempio, ognuno ha portato la propria scatola o il proprio muro per creare un rifugio e ha scelto la sua parte di oggetti da bloccare, per complicare la difficoltà del gioco agli avversari.

Gli scienziati hanno anche notato un punto importante relativo all'influenza del numero di oggetti di addestramento (la quantità di dati passati attraverso la rete neurale - "Dimensione batch") sulla velocità di apprendimento. Il modello predefinito richiedeva 132,3 milioni di partite in 34 ore di allenamento per raggiungere il punto in cui la squadra nascosta imparava a bloccare le rampe, mentre una maggiore quantità di dati ha comportato una notevole riduzione del tempo di allenamento. Ad esempio, l'aumento del numero di parametri (parte dei dati ottenuti durante l'intero processo di addestramento) da 0,5 milioni a 5,8 milioni ha aumentato l'efficienza di campionamento di 2,2 volte e l'aumento della dimensione dei dati di input da 64 KB a 128 KB ha ridotto l'addestramento tempo quasi una volta e mezza.

Alla fine del loro lavoro, i ricercatori hanno deciso di testare quanto la formazione in-game potesse aiutare gli agenti ad affrontare compiti simili al di fuori del gioco. Le prove in totale sono state cinque: consapevolezza del numero di oggetti (capire che un oggetto continua ad esistere anche se non si vede e non si usa); "blocca e ritorna": la capacità di ricordare la propria posizione originale e ritornarvi dopo aver completato alcune attività aggiuntive; “blocco sequenziale” - 4 scatole erano posizionate casualmente in tre stanze senza porte, ma con rampe per entrare, gli agenti dovevano trovarle e bloccarle tutte; posizionamento dei box in siti prestabiliti; creare un riparo attorno ad un oggetto a forma di cilindro.

Di conseguenza, in tre attività su cinque, i robot che avevano seguito una formazione preliminare nel gioco hanno imparato più velocemente e hanno mostrato risultati migliori rispetto all’IA addestrata a risolvere i problemi da zero. Hanno ottenuto risultati leggermente migliori nel completare l'attività e tornare alla posizione iniziale, bloccando in sequenza le scatole in stanze chiuse e posizionando le scatole in determinate aree, ma hanno ottenuto risultati leggermente più deboli nel riconoscere il numero di oggetti e nel creare copertura attorno a un altro oggetto.

I ricercatori attribuiscono risultati contrastanti al modo in cui l’IA apprende e ricorda determinate abilità. "Riteniamo che i compiti in cui il pre-addestramento in-game ha funzionato meglio implicassero il riutilizzo delle abilità precedentemente apprese in modo familiare, mentre eseguire i compiti rimanenti meglio dell'IA addestrata da zero richiederebbe il loro utilizzo in un modo diverso, il che molto più difficile”, scrivono i coautori dell’opera. “Questo risultato evidenzia la necessità di sviluppare metodi per riutilizzare in modo efficace le competenze acquisite attraverso la formazione nel trasferirle da un ambiente all’altro”.

Il lavoro svolto è davvero impressionante, poiché la prospettiva di utilizzare questo metodo di insegnamento va ben oltre i limiti di qualsiasi gioco. I ricercatori affermano che il loro lavoro rappresenta un passo significativo verso la creazione di un’intelligenza artificiale con un comportamento “basato sulla fisica” e “simile a quello umano” in grado di diagnosticare malattie, prevedere le strutture di molecole proteiche complesse e analizzare le scansioni TC.

Nel video qui sotto puoi vedere chiaramente come si è svolto l'intero processo di apprendimento, come l'IA ha imparato il lavoro di squadra e le sue strategie sono diventate sempre più astute e complesse.

Fonte: 3dnews.ru

OpenAI insegna il lavoro di squadra dell'intelligenza artificiale in un gioco a nascondino

Aggiungi un commento Cancella risposta