OpenAI învață lucrul în echipă AI într-un joc de-a v-ați ascunselea

Un bun joc de modă veche de ascunselea poate fi un test grozav pentru roboții de inteligență artificială (AI) pentru a demonstra cum iau decizii și interacționează între ei și cu diferitele obiecte din jurul lor.

în lucrarea sa articol nou, publicat de cercetătorii de la OpenAI, o organizație non-profit de cercetare a inteligenței artificiale care a devenit faimoasă victorie asupra campionilor mondiali în jocul pe computer Dota 2, oamenii de știință descriu modul în care agenții controlați de inteligența artificială au fost antrenați să fie mai sofisticați în căutarea și ascunderea unii de alții într-un mediu virtual. Rezultatele studiului au demonstrat că o echipă de doi roboți învață mai eficient și mai rapid decât orice agent singur fără aliați.

OpenAI învață lucrul în echipă AI într-un joc de-a v-ați ascunselea

Oamenii de știință au folosit o metodă care și-a câștigat faima de mult timp învățare automată cu întărire, în care inteligența artificială este plasată într-un mediu necunoscut acesteia, având în același timp anumite modalități de a interacționa cu ea, precum și un sistem de recompense și amenzi pentru unul sau altul rezultat al acțiunilor sale. Această metodă este destul de eficientă datorită capacității AI de a efectua diverse acțiuni într-un mediu virtual cu o viteză enormă, de milioane de ori mai rapidă decât își poate imagina o persoană. Acest lucru permite încercări și erori să găsească cele mai eficiente strategii pentru rezolvarea unei anumite probleme. Dar această abordare are și unele limitări, de exemplu, crearea unui mediu și efectuarea a numeroase cicluri de formare necesită resurse de calcul uriașe, iar procesul în sine necesită un sistem precis de comparare a rezultatelor acțiunilor AI cu scopul său. În plus, abilitățile dobândite de agent în acest fel sunt limitate la sarcina descrisă și, odată ce AI învață să facă față acesteia, nu vor mai exista îmbunătățiri ulterioare.

Pentru a antrena AI să joace de-a v-ați ascunselea, oamenii de știință au folosit o abordare numită „Explorare nedirecționată”, care este locul în care agenții au libertatea deplină de a-și dezvolta înțelegerea lumii jocului și de a dezvolta strategii câștigătoare. Aceasta este similară cu abordarea de învățare multi-agenți pe care cercetătorii de la DeepMind au folosit-o atunci când mai multe sisteme de inteligență artificială au fost antrenați să joace captura în modul steagul în Quake III Arena. Ca și în acest caz, agenții AI nu au fost pregătiți anterior în regulile jocului, dar de-a lungul timpului au învățat strategii de bază și au reușit chiar să surprindă cercetătorii cu soluții non-triviale.

Într-un joc de-a v-ați ascunselea, mai mulți agenți a căror sarcină era să se ascundă au fost obligați să evite linia vizuală a adversarilor lor după un ușor avans în timp ce echipa de agenți de căutare era imobilizată. Mai mult, „linia de vedere” în acest context este un con de 135 de grade în fața unui bot individual. Agenții nu s-au putut aventura prea departe în afara zonei de joc și au fost nevoiți să navigheze în încăperi generate aleatoriu cu posibilitatea de a folosi unele obiecte exterioare (cutii, pereți mobili, rampe speciale) împrăștiate în jur care puteau fi folosite atât pentru a crea acoperire, cât și pentru a se infiltra în ele. .

OpenAI învață lucrul în echipă AI într-un joc de-a v-ați ascunselea

Printr-un proces îndelungat de învățare, agenții AI au învățat șase strategii unice, fiecare dintre acestea i-a ajutat să treacă la următoarea etapă a jocului. La început, echipele de căutători și ascunzători pur și simplu au fugit și s-au urmărit unul pe altul, dar după aproximativ 25 de milioane de meciuri, echipa de ascunzători a învățat să blocheze pasajele cu cutii și să construiască adăposturi din ele. După alte 75 de milioane de meciuri, echipa a descoperit modalități de a folosi rampele pentru a intra în aceste ascunzători. După alte 10 milioane de runde, ascunzătorii au învățat să tragă rampele până la marginea zonei de joc și să le blocheze pentru a împiedica adversarii să le folosească.

OpenAI învață lucrul în echipă AI într-un joc de-a v-ați ascunselea

După 388 de milioane de meciuri, căutătorii au învățat să folosească rampe blocate pentru a se urca în lăzile care le-au fost aduse și apoi, trecând direct pe ele, să pătrundă în ascunzătoarele inamicelor create din pereții portabili. Și în cele din urmă, după 458 de milioane de meciuri, echipa de ascunzări a ajuns la concluzia că trebuie să blocheze toate obiectele și apoi să construiască un adăpost, ceea ce a dus, se pare, la victoria lor finală.

Ceea ce este deosebit de impresionant este că după 22 de milioane de meciuri, agenții au învățat să-și coordoneze acțiunile, iar eficiența colaborării lor a crescut doar în viitor, de exemplu, fiecare și-a adus cutia sau peretele lui pentru a-și crea un adăpost și și-a ales partea de obiecte bloc, pentru a complica jocul de dificultate adversarilor.

OpenAI învață lucrul în echipă AI într-un joc de-a v-ați ascunselea

Oamenii de știință au remarcat, de asemenea, un punct important legat de influența numărului de obiecte de antrenament (cantitatea de date trecute prin rețeaua neuronală - „Dimensiunea lotului”) asupra vitezei de învățare. Modelul implicit a necesitat 132,3 milioane de meciuri în 34 de ore de antrenament pentru a ajunge la punctul în care echipa de ascuns a învățat să blocheze rampele, în timp ce mai multe date au dus la o reducere vizibilă a timpului de antrenament. De exemplu, creșterea numărului de parametri (parte din datele obținute pe parcursul întregului proces de antrenament) de la 0,5 milioane la 5,8 milioane a crescut eficiența eșantionării de 2,2 ori, iar creșterea dimensiunii datelor de intrare de la 64 KB la 128 KB a redus antrenamentul timp de aproape o dată și jumătate.

OpenAI învață lucrul în echipă AI într-un joc de-a v-ați ascunselea

La sfârșitul muncii lor, cercetătorii au decis să testeze cât de mult antrenamentul în joc ar putea ajuta agenții să facă față unor sarcini similare în afara jocului. Au fost cinci teste în total: conștientizarea numărului de obiecte (înțelegerea faptului că un obiect continuă să existe chiar dacă nu este vizibil și nu este folosit); „blocare și întoarcere” - capacitatea de a-și aminti poziția inițială și de a reveni la ea după finalizarea unei sarcini suplimentare; „blocare secvențială” - 4 cutii au fost amplasate aleatoriu în trei camere fără uși, dar cu rampe pentru a intra, agenții trebuiau să le găsească și să le blocheze pe toate; plasarea cutiilor pe locuri predeterminate; creând un adăpost în jurul unui obiect sub formă de cilindru.

Drept urmare, în trei din cinci sarcini, roboții care au urmat o pregătire preliminară în joc au învățat mai repede și au arătat rezultate mai bune decât AI care a fost antrenat să rezolve problemele de la zero. S-au descurcat puțin mai bine la finalizarea sarcinii și la revenirea la poziția inițială, blocând secvențial cutiile în camere închise și plasând cutii în zone date, dar au funcționat puțin mai slab la recunoașterea numărului de obiecte și la crearea acoperirii în jurul altui obiect.

Cercetătorii atribuie rezultate mixte modului în care AI învață și își amintește anumite abilități. „Credem că sarcinile în care pre-antrenamentul în joc s-a desfășurat cel mai bine implicau reutilizarea abilităților învățate anterior într-un mod familiar, în timp ce îndeplinirea sarcinilor rămase mai bine decât AI antrenat de la zero ar necesita folosirea lor într-un mod diferit, ceea ce mult mai complicat”, scriu coautorii lucrării. „Acest rezultat evidențiază nevoia de a dezvolta metode pentru reutilizarea eficientă a abilităților dobândite prin formare atunci când le transferăm dintr-un mediu în altul.”

Munca depusă este cu adevărat impresionantă, deoarece perspectiva utilizării acestei metode de predare depășește cu mult limitele oricărui joc. Cercetătorii spun că munca lor este un pas semnificativ către crearea AI cu un comportament „bazat pe fizică” și „asemănător omului” care poate diagnostica boli, poate prezice structurile moleculelor complexe de proteine ​​și poate analiza scanări CT.

În videoclipul de mai jos puteți vedea clar cum a avut loc întregul proces de învățare, cum AI a învățat lucrul în echipă, iar strategiile sale au devenit din ce în ce mai viclene și mai complexe.



Sursa: 3dnews.ru

Adauga un comentariu