OpenAI insegna u travagliu in squadra AI in un ghjocu di nascondite

Un bonu ghjocu anticu di nascondere pò esse una grande prova per i bots di intelligenza artificiale (AI) per dimustrà cumu si piglianu e decisioni è interagisce cù l'altri è diversi oggetti intornu à elli.

In u so novu articulu, publicatu da circadori da OpenAI, una urganizazione di ricerca di intelligenza artificiale senza prufittu chì hè diventata famosa vittoria nantu à i campioni di u mondu in u ghjocu di computer Dota 2, i scientisti descrizanu cumu l'agenti cuntrullati da l'intelligenza artificiale sò stati furmati per esse più sufisticati in a ricerca è a ocultazione di l'altri in un ambiente virtuale. I risultati di u studiu dimustratu chì una squadra di dui bots aprende più efficacemente è più veloce chì qualsiasi agentu unicu senza alliati.

OpenAI insegna u travagliu in squadra AI in un ghjocu di nascondite

I scientisti anu utilizatu un metudu chì hà longu guadagnatu a so fama machine learning cun rinfurzamentu, in quale l'intelligenza artificiale hè posta in un ambiente scunnisciutu per ellu, mentre avè certi modi di interagisce cun ellu, è ancu un sistema di ricumpensa è multa per unu o un altru risultatu di e so azzioni. Stu metudu hè abbastanza efficace per via di a capacità di l'AI per realizà diverse azzioni in un ambiente virtuale à una velocità enorme, milioni di volte più veloce di ciò chì una persona pò imaginà. Questu permette u prucessu è l'errore per truvà e strategie più efficaci per risolve un prublema. Ma questu approcciu hà ancu qualchì limitazione, per esempiu, a creazione di un ambiente è a realizazione di numerosi ciculi di furmazione richiede risorse di computazione enormi, è u prucessu stessu richiede un sistema precisu per paragunà i risultati di l'azzioni AI cù u so scopu. Inoltre, e cumpetenze acquistate da l'agente in questu modu sò limitate à u compitu descrittu è, una volta chì l'AI hà amparatu à affruntà, ùn ci sarà più megliurenze.

Per furmà l'AI per ghjucà à nascondere, i scientisti anu utilizatu un approcciu chjamatu "Esplorazione senza direzzione", chì hè induve l'agenti anu una libertà cumpleta per sviluppà a so cunniscenza di u mondu di u ghjocu è sviluppà strategie vincenti. Questu hè simile à l'approcciu di apprendimentu multi-agente chì i ricercatori di DeepMind anu utilizatu quandu parechji sistemi di intelligenza artificiale sò stati furmatu per ghjucà à catturà u modu di bandiera in Quake III Arena. Cum'è in questu casu, l'agenti di l'AI ùn sò micca stati furmati prima in e regule di u ghjocu, ma cù u tempu anu amparatu strategie basi è anu ancu capaci di sorprenderà i circadori cù suluzioni micca triviali.

In un ghjocu di nascondere, parechji agenti chì u so travagliu era di ammuccià sò stati richiesti per evità a linea di vista di i so avversarii dopu un ligeru principiu di testa mentre a squadra di l'agenti di ricerca era immobilizzata. Inoltre, a "linea di vista" in questu cuntestu hè un conu di gradu 135 davanti à un bot individuale. L'agenti ùn puderanu micca avventurassi troppu fora di l'area di ghjocu è sò stati custretti à navigà in stanze generate aleatoriamente cù a capacità di utilizà qualchi oggetti esterni (scatole, muri mobili, rampe speciali) spargugliati intornu chì puderanu esse usatu sia per creà una copertura sia per infiltrassi in elli. .

OpenAI insegna u travagliu in squadra AI in un ghjocu di nascondite

Attraversu un longu prucessu di apprendimentu, l'agenti AI anu amparatu sei strategie uniche, chì ognuna li aiutava à avanzà à a prossima tappa di u ghjocu. À u principiu, i squadre di cercadori è di nascondere si scappavanu è si perseguivanu, ma dopu à circa 25 milioni di partite, a squadra di l'hider hà amparatu à bluccà i passaggi cù scatuli è custruisce refugghi fora di elli. Dopu à altri 75 milioni di partite, a squadra hà scupertu modi per aduprà rampe per entra in questi nascondigli. Dopu à altri 10 milioni di round, l'hiders anu amparatu à trascinà rampe à u bordu di l'area di ghjocu è chjude in u locu per impediscenu l'avversari di l'utilizanu.

OpenAI insegna u travagliu in squadra AI in un ghjocu di nascondite

Dopu à 388 milioni di partite, i cercadori anu amparatu à aduprà rampe bluccate per cullà nantu à casse purtate à elli, è dopu, trascinendu direttamente nantu à elli, penetre in i nascondigli nemici creati da pareti portatili. È infine, dopu à 458 milioni di partite, a squadra di nasconde hà cunclusu chì avianu bisognu di bluccà tutti l'uggetti è poi custruisce un refuggiu, chì apparentemente hà purtatu à a so vittoria finale.

Ciò chì hè particularmente impressiunanti hè chì dopu à 22 milioni di partite, l'agenti anu amparatu à coordinà e so azzioni è l'efficienza di a so cullaburazione hà aumentatu solu in u futuru, per esempiu, ognunu hà purtatu a so propria scatula o muru per creà un refuggiu è hà sceltu a so parte di l'uggetti. bloccu per rende u ghjocu più difficiule à l'avversari.

OpenAI insegna u travagliu in squadra AI in un ghjocu di nascondite

I scientisti anu ancu nutatu un puntu impurtante in relazione à l'influenza di u numeru di l'uggetti di furmazione (a quantità di dati passati per a reta neurale - "Batch Size") nantu à a velocità di l'apprendimentu. U mudellu predeterminatu hà bisognu di 132,3 milioni di partite nantu à 34 ore di furmazione per ghjunghje à u puntu induve a squadra di nasconde hà amparatu à bluccà e rampe, mentre chì più dati anu risultatu in una riduzione notevuli di u tempu di furmazione. Per esempiu, aumentendu u nùmeru di paràmetri (parte di e dati ottenuti durante u prucessu di furmazione) da 0,5 milioni à 5,8 milioni aumentanu l'efficienza di campionamentu da 2,2 volte, è cresce a dimensione di i dati di input da 64 KB à 128 KB riduce a furmazione. tempu quasi una volta è mezu.

OpenAI insegna u travagliu in squadra AI in un ghjocu di nascondite

À a fine di u so travagliu, i circadori anu decisu di pruvà quantu a furmazione in u ghjocu puderia aiutà l'agenti à fà fronte à compiti simili fora di u ghjocu. Ci era cinque teste in totale: a cuscenza di u numeru di l'uggetti (capiscendu chì un ogettu cuntinueghja à esiste ancu s'ellu hè fora di vista è micca usatu); "lock and return" - a capacità di ricurdà a so pusizioni uriginale è di vultà in questu dopu avè finitu qualchì compitu supplementu; "Bluccatura sequenziale" - 4 scatuli sò stati situati aleatoriamente in trè stanze senza porte, ma cù rampe per entra, l'agenti avianu bisognu di truvà è bluccà tutti; piazzamentu di scatuli in siti predeterminati; criendu un refuggiu intornu à un ughjettu in a forma di un cilindru.

Per via di u risultatu, in trè di cinque compiti, i bots chì avianu sottumessu a furmazione prelimiunale in u ghjocu hà amparatu più veloce è dimustranu risultati megliu cà l'AI chì era furmatu per risolve i prublemi da zero. Anu fattu un pocu megliu à cumpiendu u compitu è ​​à vultà à a pusizione di partenza, bluccà sequenzialmente scatuli in stanze chjuse, è pusendu scatuli in spazii determinati, ma hà fattu un pocu più debule à ricunnosce u numeru d'uggetti è creanu una copertura intornu à un altru ughjettu.

I ricercatori attribuinu risultati misti à cumu l'AI impara è si ricorda di certe cumpetenze. "Pensemu chì i travaglii induve a pre-furmazione in u ghjocu hà realizatu u megliu implicavanu a riutilizazione di e cumpetenze apprese previamente in una manera familiare, mentre chì eseguisce i travaglii rimanenti megliu cà l'IA addestrata da zero avaristi bisognu di usà in un modu diversu, chì assai più difficiuli ", scrivenu i co-autori di u travagliu. "Stu risultatu mette in risaltu a necessità di sviluppà metudi per riutilizà efficacemente e cumpetenze acquistate per a furmazione quandu si trasfirìanu da un ambiente à l'altru".

U travagliu fattu hè veramente impressiunanti, postu chì a pruspettiva di utilizà stu metudu d'insignamentu si trova assai oltre i limiti di ogni ghjocu. I circadori dicenu chì u so travagliu hè un passu significativu versu a creazione di IA cù un cumpurtamentu "basatu in fisica" è "simili à l'omu" chì ponu diagnosticà e malatie, predichendu e strutture di molécule di proteine ​​​​complesse è analizà scans CT.

In u video sottu, pudete vede chjaramente cumu tuttu u prucessu di apprendimentu hè accadutu, cumu l'AI hà amparatu u travagliu in squadra, è e so strategie sò diventate sempre più astute è cumplesse.



Source: 3dnews.ru

Add a comment