🥇OpenAI opettaa tekoälyn tiimityötä piilosta ja seek -pelissä

Hyvä vanhanaikainen piilopeli voi olla loistava testi tekoälyboteille, jotka osoittavat, kuinka ne tekevät päätöksiä ja ovat vuorovaikutuksessa keskenään ja ympärillään olevien erilaisten esineiden kanssa.

hänen uusi artikkeli, julkaisija OpenAI, voittoa tavoittelematon tekoälytutkimusorganisaatio, joka on tullut tunnetuksi voitto maailmanmestareista Dota 2 -tietokonepelissä tutkijat kuvailevat, kuinka tekoälyn ohjaamia agentteja koulutettiin olemaan kehittyneempiä etsimään ja piiloutumaan toisiltaan virtuaaliympäristössä. Tutkimuksen tulokset osoittivat, että kahden botin ryhmä oppii tehokkaammin ja nopeammin kuin yksittäinen agentti ilman liittolaisia.

Tiedemiehet ovat käyttäneet menetelmää, joka on jo pitkään voittanut maineensa koneoppiminen vahvistuksen kanssa, jossa tekoäly sijoitetaan sille tuntemattomaan ympäristöön, samalla kun sillä on tiettyjä tapoja vuorovaikutuksessa sen kanssa, sekä palkkio- ja sakkojärjestelmä toiminnan yhdestä tai toisesta tuloksesta. Tämä menetelmä on varsin tehokas, koska tekoäly pystyy suorittamaan erilaisia toimintoja virtuaalisessa ympäristössä valtavalla nopeudella, miljoonia kertoja nopeammin kuin ihminen voi kuvitella. Tämä antaa yrityksen ja erehdyksen löytää tehokkaimmat strategiat tietyn ongelman ratkaisemiseksi. Mutta tällä lähestymistavalla on myös joitain rajoituksia, esimerkiksi ympäristön luominen ja lukuisten koulutusjaksojen suorittaminen vaatii valtavia laskentaresursseja, ja itse prosessi vaatii tarkan järjestelmän, jolla verrataan tekoälytoimien tuloksia tavoitteeseensa. Lisäksi agentin tällä tavalla hankkimat taidot rajoittuvat kuvattuun tehtävään, ja kun tekoäly oppii selviytymään siitä, parannuksia ei ole tulossa.

Tekoälyn kouluttamiseksi leikkimään piilosta tutkijat käyttivät "ohjaamatonta tutkimusta" -nimistä lähestymistapaa, jossa agenteilla on täysi vapaus kehittää ymmärrystään pelimaailmasta ja kehittää voittostrategioita. Tämä on samanlainen kuin DeepMindin tutkijat käyttivät useiden tekoälyjärjestelmien monien tekijöiden oppimista koulutettiin pelaamaan Capture the flag -tilaa Quake III Arenalla. Kuten tässä tapauksessa, tekoälyagentit eivät olleet aiemmin koulutettuja pelin sääntöihin, mutta ajan myötä he oppivat perusstrategioita ja pystyivät jopa yllättämään tutkijat ei-triviaalisilla ratkaisuilla.

Piilostuspelissä useat agentit, joiden tehtävänä oli piiloutua, joutuivat välttämään vastustajiensa näkökenttää pienen etumatkan jälkeen, kun etsintäagenttiryhmä oli pysäytettynä. Lisäksi "näkölinja" tässä yhteydessä on 135 asteen kartio yksittäisen botin edessä. Agentit eivät voineet uskaltaa liian kauas pelialueen ulkopuolelle, ja heidät pakotettiin navigoimaan satunnaisesti luoduissa huoneissa, joissa oli mahdollisuus käyttää joitain ulkopuolisia esineitä (laatikoita, siirrettäviä seiniä, erityisiä ramppeja), joita voitiin käyttää sekä suojan luomiseen että niihin soluttautumista varten. .

Pitkän oppimisprosessin kautta tekoälyagentit oppivat kuusi ainutlaatuista strategiaa, joista jokainen auttoi heitä etenemään pelin seuraavaan vaiheeseen. Aluksi etsijät ja piiloutujat vain juoksivat karkuun ja ajoivat toisiaan takaa, mutta noin 25 miljoonan ottelun jälkeen piiloutujatiimi oppi tukkimaan käytävät laatikoilla ja rakentamaan niistä suojia. Toisen 75 miljoonan ottelun jälkeen joukkue löysi tapoja käyttää ramppeja päästäkseen näihin piilopaikkoihin. Toisen 10 miljoonan kierroksen jälkeen piiloutujat oppivat raahaamaan ramppeja pelialueen reunalle ja lukitsemaan ne paikoilleen estääkseen vastustajia käyttämästä niitä.

388 miljoonan ottelun jälkeen etsijät ovat oppineet käyttämään tukkeutuneita ramppeja kiivetäkseen heille tuotujen laatikoiden päälle ja sitten siirtyessään suoraan niiden päälle ja tunkeutua kannettavista seinistä luotuihin vihollisen piilopaikkoihin. Ja lopuksi, 458 miljoonan ottelun jälkeen, piiloutunut joukkue päätteli, että heidän oli estettävä kaikki esineet ja rakennettava sitten suoja, mikä ilmeisesti johti heidän lopulliseen voittoon.

Erityisen vaikuttavaa on, että agentit oppivat koordinoimaan toimintaansa 22 miljoonan ottelun jälkeen ja yhteistyön tehokkuus vain lisääntyi tulevaisuudessa, esimerkiksi kukin toi oman laatikonsa tai seinänsä suojan luomiseksi ja valitsi osuutensa esineistä. estää vaikeuspelin vaikeuttamisen vastustajille.

Tutkijat panivat merkille myös tärkeän seikan, joka liittyy harjoitusobjektien lukumäärän (hermoverkon läpi kulkevan tiedon määrä - "erän koko") vaikutukseen oppimisnopeuteen. Oletusmalli vaati 132,3 miljoonaa ottelua 34 tunnin harjoittelun aikana päästäkseen pisteeseen, jossa piilossa oleva joukkue oppi estämään ramppeja, kun taas enemmän tietoja johti huomattavaan harjoitusajan lyhenemiseen. Esimerkiksi parametrien (osa koko harjoitusprosessin aikana saadusta datasta) määrän lisääminen 0,5 miljoonasta 5,8 miljoonaan lisäsi näytteenoton tehokkuutta 2,2-kertaiseksi ja syötetietojen koon kasvattaminen 64 kilotavusta 128 kilotavuun vähensi harjoittelua. kertaa lähes puolitoista kertaa.

Työnsä päätteeksi tutkijat päättivät testata, kuinka paljon pelin sisäistä harjoittelua voisi auttaa agentteja selviytymään samanlaisista tehtävistä pelin ulkopuolella. Testejä oli yhteensä viisi: tietoisuus esineiden määrästä (ymmärtäminen, että esine on edelleen olemassa, vaikka se olisi poissa näkyvistä eikä sitä käytetä); "lukitse ja palauta" - kyky muistaa alkuperäinen sijainti ja palata siihen jonkin lisätehtävän suorittamisen jälkeen; "peräkkäinen esto" - 4 laatikkoa sijoitettiin sattumanvaraisesti kolmeen huoneeseen, joissa ei ollut ovea, mutta rampeilla sisäänpääsyä varten, agenttien piti löytää ja estää ne kaikki; laatikoiden sijoittaminen ennalta määrätyille paikoille; suojan luominen sylinterin muotoisen esineen ympärille.

Tämän seurauksena kolmessa tehtävästä viidestä pelin alustavan koulutuksen läpikäyneet robotit oppivat nopeammin ja osoittivat parempia tuloksia kuin tekoäly, joka oli koulutettu ratkaisemaan ongelmia tyhjästä. He suoriutuivat hieman paremmin tehtävän suorittamisessa ja lähtöasentoon palaamisessa, laatikoiden peräkkäin sulkemisessa suljetuissa tiloissa ja laatikoiden sijoittamisessa tietyille alueille, mutta suoriutuivat hieman heikommin esineiden lukumäärän tunnistamisessa ja suojan luomisessa toisen kohteen ympärille.

Tutkijat selittävät ristiriitaisia tuloksia siitä, kuinka tekoäly oppii ja muistaa tiettyjä taitoja. "Uskomme, että tehtävät, joissa pelin sisäinen esikoulutus onnistui parhaiten, liittyivät aiemmin opittujen taitojen uudelleenkäyttöön tutulla tavalla, kun taas jäljellä olevien tehtävien suorittaminen tyhjästä koulutettua tekoälyä paremmin vaatisi niiden käyttöä eri tavalla, mikä paljon vaikeampaa”, kirjoittavat teoksen kirjoittajat. "Tämä tulos korostaa tarvetta kehittää menetelmiä koulutuksen kautta hankittujen taitojen tehokkaaseen hyödyntämiseen siirrettäessä niitä ympäristöstä toiseen."

Tehty työ on todella vaikuttavaa, sillä tämän opetusmenetelmän käyttömahdollisuudet ovat paljon pelien rajojen ulkopuolella. Tutkijat sanovat, että heidän työnsä on merkittävä askel kohti tekoälyn luomista "fysiikkaan perustuvalla" ja "ihmisen kaltaisella" käyttäytymisellä, joka voi diagnosoida sairauksia, ennustaa monimutkaisten proteiinimolekyylien rakenteita ja analysoida CT-skannauksia.

Alla olevasta videosta näet selvästi, kuinka koko oppimisprosessi tapahtui, kuinka tekoäly oppi tiimityötä ja sen strategioista tuli yhä ovelampia ja monimutkaisempia.

Lähde: 3dnews.ru

OpenAI opettaa tekoälyn tiimityöskentelyä piilossa

Lisää kommentti Peruuta vastaus