Un buon vecchio gioco a nascondino può essere un ottimo test per i robot di intelligenza artificiale (AI) per dimostrare come prendono decisioni e interagiscono tra loro e con i vari oggetti che li circondano.
nel suo
Gli scienziati hanno utilizzato un metodo che ha guadagnato da tempo la sua fama
Per addestrare l’intelligenza artificiale a giocare a nascondino, gli scienziati hanno utilizzato un approccio chiamato “esplorazione non indirizzata”, in cui gli agenti hanno completa libertà di sviluppare la loro comprensione del mondo di gioco e sviluppare strategie vincenti. Questo è simile all’approccio di apprendimento multi-agente utilizzato dai ricercatori di DeepMind quando si utilizzavano più sistemi di intelligenza artificiale
In un gioco a nascondino, diversi agenti il cui compito era nascondersi dovevano evitare il campo visivo dei loro avversari dopo un leggero vantaggio mentre la squadra di agenti di ricerca era immobilizzata. Inoltre, la “linea di vista” in questo contesto è un cono di 135 gradi davanti a un singolo bot. Gli agenti non potevano avventurarsi troppo al di fuori dell'area di gioco ed erano costretti a navigare in stanze generate casualmente con la possibilità di utilizzare alcuni oggetti esterni (scatole, pareti mobili, rampe speciali) sparsi qua e là che potevano essere utilizzati sia per creare copertura che per infiltrarsi al loro interno .
Attraverso un lungo processo di apprendimento, gli agenti dell'IA hanno imparato sei strategie uniche, ognuna delle quali li ha aiutati a passare alla fase successiva del gioco. All'inizio, le squadre di chi cerca e di chi si nasconde semplicemente scappano e si inseguono, ma dopo circa 25 milioni di partite, la squadra di chi si nasconde impara a bloccare i passaggi con scatole e a costruire rifugi con esse. Dopo altri 75 milioni di partite, la squadra ha scoperto come utilizzare le rampe per entrare in questi nascondigli. Dopo altri 10 milioni di giri, i clandestini hanno imparato a trascinare le rampe fino al bordo dell'area di gioco e a bloccarle in posizione per impedire agli avversari di usarle.
Dopo 388 milioni di partite, i cercatori hanno imparato a utilizzare le rampe bloccate per salire sulle casse portate loro e poi, spostandosi direttamente su di esse, penetrare nei nascondigli nemici creati da pareti portatili. E alla fine, dopo 458 milioni di partite, la squadra nascosta ha concluso che era necessario bloccare tutti gli oggetti e quindi costruire un rifugio, cosa che a quanto pare ha portato alla vittoria finale.
Ciò che è particolarmente impressionante è che dopo 22 milioni di partite gli agenti hanno imparato a coordinare le loro azioni e l'efficienza della loro collaborazione non ha fatto altro che aumentare in futuro, ad esempio, ognuno ha portato la propria scatola o il proprio muro per creare un rifugio e ha scelto la sua parte di oggetti da bloccare, per complicare la difficoltà del gioco agli avversari.
Gli scienziati hanno anche notato un punto importante relativo all'influenza del numero di oggetti di addestramento (la quantità di dati passati attraverso la rete neurale - "Dimensione batch") sulla velocità di apprendimento. Il modello predefinito richiedeva 132,3 milioni di partite in 34 ore di allenamento per raggiungere il punto in cui la squadra nascosta imparava a bloccare le rampe, mentre una maggiore quantità di dati ha comportato una notevole riduzione del tempo di allenamento. Ad esempio, l'aumento del numero di parametri (parte dei dati ottenuti durante l'intero processo di addestramento) da 0,5 milioni a 5,8 milioni ha aumentato l'efficienza di campionamento di 2,2 volte e l'aumento della dimensione dei dati di input da 64 KB a 128 KB ha ridotto l'addestramento tempo quasi una volta e mezza.
Alla fine del loro lavoro, i ricercatori hanno deciso di testare quanto la formazione in-game potesse aiutare gli agenti ad affrontare compiti simili al di fuori del gioco. Le prove in totale sono state cinque: consapevolezza del numero di oggetti (capire che un oggetto continua ad esistere anche se non si vede e non si usa); "blocca e ritorna": la capacità di ricordare la propria posizione originale e ritornarvi dopo aver completato alcune attività aggiuntive; “blocco sequenziale” - 4 scatole erano posizionate casualmente in tre stanze senza porte, ma con rampe per entrare, gli agenti dovevano trovarle e bloccarle tutte; posizionamento dei box in siti prestabiliti; creare un riparo attorno ad un oggetto a forma di cilindro.
Di conseguenza, in tre attività su cinque, i robot che avevano seguito una formazione preliminare nel gioco hanno imparato più velocemente e hanno mostrato risultati migliori rispetto all’IA addestrata a risolvere i problemi da zero. Hanno ottenuto risultati leggermente migliori nel completare l'attività e tornare alla posizione iniziale, bloccando in sequenza le scatole in stanze chiuse e posizionando le scatole in determinate aree, ma hanno ottenuto risultati leggermente più deboli nel riconoscere il numero di oggetti e nel creare copertura attorno a un altro oggetto.
I ricercatori attribuiscono risultati contrastanti al modo in cui l’IA apprende e ricorda determinate abilità. "Riteniamo che i compiti in cui il pre-addestramento in-game ha funzionato meglio implicassero il riutilizzo delle abilità precedentemente apprese in modo familiare, mentre eseguire i compiti rimanenti meglio dell'IA addestrata da zero richiederebbe il loro utilizzo in un modo diverso, il che molto più difficile”, scrivono i coautori dell’opera. “Questo risultato evidenzia la necessità di sviluppare metodi per riutilizzare in modo efficace le competenze acquisite attraverso la formazione nel trasferirle da un ambiente all’altro”.
Il lavoro svolto è davvero impressionante, poiché la prospettiva di utilizzare questo metodo di insegnamento va ben oltre i limiti di qualsiasi gioco. I ricercatori affermano che il loro lavoro rappresenta un passo significativo verso la creazione di un’intelligenza artificiale con un comportamento “basato sulla fisica” e “simile a quello umano” in grado di diagnosticare malattie, prevedere le strutture di molecole proteiche complesse e analizzare le scansioni TC.
Nel video qui sotto puoi vedere chiaramente come si è svolto l'intero processo di apprendimento, come l'IA ha imparato il lavoro di squadra e le sue strategie sono diventate sempre più astute e complesse.
Fonte: 3dnews.ru