OpenAI kennir gervigreind teymisvinnu í feluleik

Góður gamaldags feluleikur getur verið frábær prófsteinn fyrir gervigreind (AI) vélmenni til að sýna fram á hvernig þeir taka ákvarðanir og hafa samskipti sín á milli og ýmsa hluti í kringum þá.

Í hennar ný grein, gefin út af vísindamönnum frá OpenAI, gervigreindarrannsóknarstofnun sem ekki er rekin í hagnaðarskyni sem hefur orðið fræg sigur á heimsmeisturum í tölvuleiknum Dota 2 lýsa vísindamenn því hvernig umboðsmenn stjórnað af gervigreind voru þjálfaðir til að vera flóknari í að leita og fela sig hver fyrir öðrum í sýndarumhverfi. Niðurstöður rannsóknarinnar sýndu að teymi tveggja vélmenna lærir á skilvirkari hátt og hraðar en nokkur einn umboðsmaður án bandamanna.

OpenAI kennir gervigreind teymisvinnu í feluleik

Vísindamenn hafa notað aðferð sem hefur lengi unnið frægð sína vélanám með styrkingu, þar sem gervigreind er sett í umhverfi sem henni er óþekkt, á meðan hún hefur ákveðnar leiðir til að hafa samskipti við hana, auk kerfis verðlauna og sekta fyrir einn eða annan afleiðingu gjörða hennar. Þessi aðferð er nokkuð áhrifarík vegna getu gervigreindar til að framkvæma ýmsar aðgerðir í sýndarumhverfi á gríðarlegum hraða, milljón sinnum hraðar en maður getur ímyndað sér. Þetta gerir tilraunum og villa kleift að finna árangursríkustu aðferðir til að leysa tiltekið vandamál. En þessi nálgun hefur líka nokkrar takmarkanir, til dæmis að búa til umhverfi og framkvæma fjölda þjálfunarlota krefst mikils tölvuauðlinda og ferlið sjálft krefst nákvæms kerfis til að bera saman niðurstöður gervigreindaraðgerða við markmið þess. Að auki takmarkast færnin sem umboðsmaðurinn öðlast á þennan hátt við verkefnið sem lýst er og þegar gervigreindin hefur lært að takast á við það verða engar frekari úrbætur.

Til að þjálfa gervigreind í að leika feluleik notuðu vísindamenn nálgun sem kallast „Óbein könnun“, þar sem umboðsmenn hafa algjört frelsi til að þróa skilning sinn á leikheiminum og þróa vinningsaðferðir. Þetta er svipað og fjölmiðla námsaðferðin sem vísindamenn hjá DeepMind notuðu þegar mörg gervigreindarkerfi voru þjálfaðir í að spila Capture the flag mode í Quake III Arena. Eins og í þessu tilfelli voru gervigreindaraðilarnir ekki áður þjálfaðir í leikreglunum, en með tímanum lærðu þeir grunnaðferðir og gátu jafnvel komið rannsakendum á óvart með óléttum lausnum.

Í feluleik þurftu nokkrir umboðsmenn, sem höfðu það hlutverk að fela, að forðast sjónlínu andstæðinga sinna eftir örlítið forskot á meðan hópur leitarmanna var óhreyfður. Þar að auki er „sjónlínan“ í þessu samhengi 135 gráðu keila fyrir framan einstakan botn. Umboðsmenn gátu ekki farið of langt út fyrir leiksvæðið og neyddust til að vafra um herbergi sem mynduðu af handahófi með getu til að nota utanaðkomandi hluti (kassa, hreyfanlega veggi, sérstaka rampa) á víð og dreif sem hægt var að nota bæði til að búa til hlíf og til að síast inn í þá. .

OpenAI kennir gervigreind teymisvinnu í feluleik

Í gegnum langt námsferli lærðu gervigreindarmennirnir sex einstakar aðferðir, sem hver um sig hjálpaði þeim að komast á næsta stig leiksins. Í fyrstu hlupu leitar- og feluliðið einfaldlega í burtu og eltu hvort annað, en eftir um 25 milljónir leikja lærði feluliðið að loka göngum með kössum og byggja úr þeim skýli. Eftir aðrar 75 milljónir leikja fann liðið leiðir til að nota rampa til að komast inn í þessa felustað. Eftir aðrar 10 milljónir umferðir lærðu huldumenn að draga rampa að brún leiksvæðisins og læsa þeim á sínum stað til að koma í veg fyrir að andstæðingar noti þá.

OpenAI kennir gervigreind teymisvinnu í feluleik

Eftir 388 milljónir eldspýtna hafa umsækjendur lært að nota lokaða rampa til að klifra upp á grindur sem færðir eru til þeirra, og fara síðan beint inn á þær, komast inn í felusvæði óvina sem búið er til úr færanlegum veggjum. Og að lokum, eftir 458 milljónir leikja, komst feluliðið að þeirri niðurstöðu að þeir þyrftu að loka fyrir alla hluti og byggja síðan skjól, sem greinilega leiddi til lokasigurs þeirra.

Það sem er sérstaklega áhrifamikið er að eftir 22 milljónir leikja lærðu umboðsmennirnir að samræma aðgerðir sínar og skilvirkni samstarfs þeirra jókst aðeins í framtíðinni, til dæmis kom hver með sínum kassa eða vegg til að búa til skjól og valdi sinn hlut af hlutum til að blokk, til að flækja erfiðleikaleikinn fyrir andstæðingum.

OpenAI kennir gervigreind teymisvinnu í feluleik

Vísindamenn bentu einnig á mikilvægu atriði sem tengist áhrifum fjölda þjálfunarhluta (magn gagna sem fer í gegnum tauganetið - „lotustærð“) á námshraðann. Sjálfgefið líkan þurfti 132,3 milljónir leikja yfir 34 klukkustunda þjálfun til að ná þeim stað þar sem feluliðið lærði að loka á rampa, á meðan fleiri gögn leiddu til merkjanlegrar styttingar á æfingatíma. Til dæmis, með því að fjölga færibreytum (hluti gagna sem fengust í öllu þjálfunarferlinu) úr 0,5 milljónum í 5,8 milljónir jókst sýnatökunýtingin um 2,2 sinnum og að auka stærð inntaksgagna úr 64 KB í 128 KB minnkaði þjálfun tími næstum einu og hálfu sinni.

OpenAI kennir gervigreind teymisvinnu í feluleik

Í lok vinnu sinnar ákváðu vísindamennirnir að prófa hversu mikil þjálfun í leiknum gæti hjálpað umboðsmönnum að takast á við svipuð verkefni utan leiksins. Alls voru fimm próf: vitund um fjölda hluta (skilningur á því að hlutur heldur áfram að vera til þó hann sé ekki í augsýn og sé ekki notaður); „læsa og snúa aftur“ - hæfileikinn til að muna upprunalega stöðu manns og fara aftur í hana eftir að hafa lokið einhverju viðbótarverkefni; „Röð blokkun“ - 4 kassar voru staðsettir af handahófi í þremur herbergjum án hurða, en með rampum til að komast inn, þurftu umboðsmenn að finna og loka þeim öllum; staðsetning kassa á fyrirfram ákveðnum stöðum; búa til skjól utan um hlut í formi strokks.

Fyrir vikið, í þremur af fimm verkefnum, lærðu vélmenni sem höfðu gengist undir forþjálfun í leiknum hraðar og sýndu betri árangur en gervigreind sem var þjálfuð til að leysa vandamál frá grunni. Þeir stóðu sig aðeins betur við að klára verkefnið og fara aftur í upphafsstöðu, loka kassa í lokuðum herbergjum í röð og setja kassa á tilteknum svæðum, en voru aðeins veikari í að þekkja fjölda hluta og búa til hlíf utan um annan hlut.

Vísindamenn rekja misjafnar niðurstöður til þess hvernig gervigreind lærir og man ákveðna færni. „Við teljum að verkefnin þar sem forþjálfun í leik skilaði sér best fólu í sér að endurnýta áður lærða færni á kunnuglegan hátt, á meðan að framkvæma þau verkefni sem eftir eru betur en gervigreind sem þjálfuð er frá grunni myndi krefjast þess að nota þau á annan hátt, sem mikið erfiðara,“ skrifa meðhöfundar verksins. „Þessi niðurstaða undirstrikar nauðsyn þess að þróa aðferðir til að endurnýta á áhrifaríkan hátt færni sem aflað er með þjálfun þegar hún er flutt úr einu umhverfi í annað.

Vinnan sem er unnin er sannarlega áhrifamikil, þar sem möguleikarnir á að nota þessa kennsluaðferð eru langt út fyrir mörk allra leikja. Rannsakendur segja að vinna þeirra sé mikilvægt skref í átt að því að búa til gervigreind með „eðlisfræðilegri“ og „mannlegri“ hegðun sem getur greint sjúkdóma, spáð fyrir um uppbyggingu flókinna próteinsameinda og greint tölvusneiðmyndir.

Í myndbandinu hér að neðan geturðu greinilega séð hvernig allt námsferlið fór fram, hvernig gervigreindin lærði teymisvinnu og aðferðir þess urðu sífellt lævísari og flóknari.



Heimild: 3dnews.ru

Bæta við athugasemd