🥇OpenAI moko dirbtinio intelekto komandinio darbo slėpynių žaidime

Geras senamadiškas slėpynių žaidimas gali būti puikus išbandymas dirbtinio intelekto (AI) robotams, siekiant parodyti, kaip jie priima sprendimus ir sąveikauja tarpusavyje bei įvairiais aplinkiniais objektais.

savo naujas straipsnis, kurį paskelbė išgarsėjusios ne pelno dirbtinio intelekto tyrimų organizacijos OpenAI mokslininkai pergalę prieš pasaulio čempionus kompiuteriniame žaidime „Dota 2“ mokslininkai aprašo, kaip dirbtinio intelekto valdomi agentai buvo mokomi tobuliau ieškoti ir slėptis vieni nuo kitų virtualioje aplinkoje. Tyrimo rezultatai parodė, kad dviejų robotų komanda mokosi efektyviau ir greičiau nei bet kuris vienas agentas be sąjungininkų.

Mokslininkai taikė metodą, kuris jau seniai pelnė savo šlovę mašininis mokymasis su pastiprinimu, kurioje dirbtinis intelektas patalpinamas į jam nežinomą aplinką, kartu turint tam tikrus sąveikos su juo būdus, taip pat atlygio ir baudų už vienokį ar kitokį savo veiksmų rezultatą sistemą. Šis metodas gana efektyvus dėl AI gebėjimo virtualioje aplinkoje atlikti įvairius veiksmus milžinišku greičiu, milijonus kartų greičiau nei žmogus gali įsivaizduoti. Tai leidžia bandymų ir klaidų būdu rasti veiksmingiausias tam tikros problemos sprendimo strategijas. Tačiau šis metodas taip pat turi tam tikrų apribojimų, pavyzdžiui, norint sukurti aplinką ir atlikti daugybę mokymo ciklų, reikia didžiulių skaičiavimo resursų, o pats procesas reikalauja tikslios AI veiksmų rezultatų palyginimo su tikslu sistemos. Be to, tokiu būdu agento įgyti įgūdžiai apsiriboja aprašyta užduotimi ir, kai dirbtinis intelektas išmoks su ja susidoroti, daugiau patobulinimų nebus.

Norėdami išmokyti dirbtinį intelektą žaisti slėpynių, mokslininkai naudojo metodą, vadinamą „Nenukreiptu tyrinėjimu“, kurio metu agentai turi visišką laisvę plėtoti savo supratimą apie žaidimų pasaulį ir kurti laimėjimo strategijas. Tai panašu į kelių agentų mokymosi metodą, kurį DeepMind tyrėjai taikė, kai yra kelios dirbtinio intelekto sistemos buvo išmokyti žaisti vėliavos užfiksavimo režimą Quake III arenoje. Kaip ir šiuo atveju, AI agentai anksčiau nebuvo mokomi žaidimo taisyklių, tačiau laikui bėgant išmoko pagrindinių strategijų ir netgi sugebėjo nustebinti tyrėjus nebanaliais sprendimais.

Slėpynėse keli agentai, kurių užduotis buvo slėptis, turėjo vengti oponentų akiračio po nedidelio pranašumo, kol ieškančių agentų komanda buvo imobilizuota. Be to, „matymo linija“ šiame kontekste yra 135 laipsnių kūgis priešais atskirą robotą. Agentai negalėjo išeiti per toli už žaidimo zonos ribų ir buvo priversti naršyti atsitiktinai sugeneruotuose kambariuose su galimybe naudoti kai kuriuos išorinius objektus (dėžutes, kilnojamas sienas, specialias rampas), kurie galėtų būti naudojami tiek priedangai sukurti, tiek įsiskverbti į juos. .

Per ilgą mokymosi procesą AI agentai išmoko šešias unikalias strategijas, kurių kiekviena padėjo jiems pereiti į kitą žaidimo etapą. Iš pradžių ieškotojų ir slėptuvių komandos tiesiog bėgo ir vijosi viena kitą, tačiau po maždaug 25 milijonų rungtynių slėptuvių komanda išmoko blokuoti praėjimus dėžėmis ir iš jų pastatyti pastoges. Po dar 75 milijonų rungtynių komanda atrado būdų, kaip naudoti rampas patekti į šias slėptuves. Po dar 10 milijonų raundų slėptuvės išmoko tempti rampas iki žaidimo zonos krašto ir jas užfiksuoti, kad priešininkai jomis nepasinaudotų.

Po 388 milijonų rungtynių ieškotojai išmoko naudoti užblokuotas rampas lipti ant jiems atneštų dėžių, o tada, judėdami tiesiai ant jų, prasiskverbti į priešo slėptuves, sukurtas iš nešiojamų sienų. Ir galiausiai, po 458 milijonų rungtynių, besislapstanti komanda padarė išvadą, kad reikia užblokuoti visus objektus ir tada pastatyti pastogę, o tai, matyt, lėmė jų galutinę pergalę.

Ypač įspūdinga yra tai, kad po 22 milijonų rungtynių agentai išmoko koordinuoti savo veiksmus ir jų bendradarbiavimo efektyvumas ateityje tik didėjo, pavyzdžiui, kiekvienas atsinešė savo dėžutę ar sieną, kad sukurtų pastogę ir pasirinko savo dalį objektų. blokas, kad apsunkintų priešininkų sudėtingumo žaidimą.

Mokslininkai taip pat atkreipė dėmesį į svarbų dalyką, susijusį su treniruočių objektų skaičiaus (duomenų, perduodamų per neuroninį tinklą, įtaka mokymosi greičiui - „Batch Size“) įtaka. Pagal numatytąjį modelį prireikė 132,3 milijono rungtynių per 34 treniruočių valandas, kad pasislėpusi komanda išmoktų blokuoti rampas, o daugiau duomenų lėmė pastebimai sutrumpėjusį treniruočių laiką. Pavyzdžiui, padidinus parametrų skaičių (dalis duomenų, gautų per visą mokymo procesą) nuo 0,5 mln. iki 5,8 mln., atrankos efektyvumas padidėjo 2,2 karto, o padidinus įvesties duomenų dydį nuo 64 KB iki 128 KB, mokymas sumažėjo. kartą beveik pusantro karto.

Pasibaigus darbui, mokslininkai nusprendė išbandyti, kiek žaidimo mokymų galėtų padėti agentams susidoroti su panašiomis užduotimis už žaidimo ribų. Iš viso buvo atlikti penki testai: objektų skaičiaus suvokimas (supratimas, kad objektas ir toliau egzistuoja, net jei jis yra nepastebėtas ir nenaudojamas); „užrakinti ir grįžti“ - galimybė prisiminti pradinę padėtį ir grįžti į ją atlikus papildomą užduotį; „nuoseklus blokavimas“ - 4 dėžės buvo atsitiktinai išdėstytos trijuose kambariuose be durų, bet su rampomis patekti į vidų, agentams reikėjo jas visas surasti ir užblokuoti; dėžių išdėstymas iš anksto nustatytose vietose; sukuriant priedangą aplink objektą cilindro pavidalu.

Dėl to trijose iš penkių užduočių robotai, kurie buvo iš anksto apmokyti žaidime, išmoko greičiau ir rodė geresnius rezultatus nei AI, kurie buvo išmokyti spręsti problemas nuo nulio. Šiek tiek geriau jie atliko užduotį ir grįžo į pradinę padėtį, nuosekliai blokavo dėžes uždarose patalpose ir dėjo dėžutes tam tikrose vietose, tačiau šiek tiek silpniau atpažino objektų skaičių ir sukuria dangą aplink kitą objektą.

Tyrėjai priskiria skirtingus rezultatus, kaip AI mokosi ir prisimena tam tikrus įgūdžius. „Manome, kad užduotys, kuriose geriausiai sekėsi pasiruošimas žaidime, buvo pakartotinai panaudoti anksčiau išmoktus įgūdžius įprastu būdu, o likusias užduotis atlikti geriau nei AI, kuri buvo išmokyta nuo nulio, reikėtų jas panaudoti kitaip. sunkiau“, – rašo kūrinio bendraautoriai. „Šis rezultatas pabrėžia būtinybę sukurti metodus, kaip efektyviai panaudoti įgūdžius, įgytus per mokymus, perkeliant juos iš vienos aplinkos į kitą.

Atliktas darbas tikrai įspūdingas, nes šio mokymo metodo panaudojimo perspektyva yra toli už bet kokių žaidimų ribų. Tyrėjai teigia, kad jų darbas yra svarbus žingsnis kuriant dirbtinį intelektą su "fizika pagrįstu" ir "žmogišku" elgesiu, galinčiu diagnozuoti ligas, numatyti sudėtingų baltymų molekulių struktūras ir analizuoti kompiuterinės tomografijos tyrimus.

Žemiau esančiame vaizdo įraše aiškiai matote, kaip vyko visas mokymosi procesas, kaip AI mokėsi komandinio darbo, o jo strategijos tapo vis gudresnės ir sudėtingesnės.

Šaltinis: 3dnews.ru

OpenAI moko dirbtinio intelekto komandinio darbo slėpynių žaidime

Добавить комментарий Atšaukti atsakymą