OpenAI māca AI komandas darbu paslēpes spēlē

Laba, vecmodīga paslēpes spēle var būt lielisks mākslīgā intelekta (AI) robotu tests, lai parādītu, kā tie pieņem lēmumus un mijiedarbojas savā starpā un dažādiem apkārtējiem objektiem.

viņa jauns raksts, ko publicējuÅ”i pētnieki no OpenAI, bezpeļņas mākslÄ«gā intelekta pētniecÄ«bas organizācijas, kas ir kļuvusi slavena uzvara pār pasaules čempioniem datorspēlē Dota 2 zinātnieki apraksta, kā mākslÄ«gā intelekta kontrolētie aÄ£enti tika apmācÄ«ti, lai virtuālajā vidē bÅ«tu daudz izsmalcinātāk meklēt un slēpties viens no otra. PētÄ«juma rezultāti parādÄ«ja, ka divu robotu komanda mācās efektÄ«vāk un ātrāk nekā jebkurÅ” aÄ£ents bez sabiedrotajiem.

OpenAI māca AI komandas darbu paslēpes spēlē

Zinātnieki ir izmantojuÅ”i metodi, kas jau sen ir ieguvusi savu slavu maŔīnmācÄ«ba ar pastiprinājumu, kurā mākslÄ«gais intelekts tiek novietots tam nezināmā vidē, vienlaikus izmantojot noteiktus mijiedarbÄ«bas veidus ar to, kā arÄ« atlÄ«dzÄ«bas un naudas sodu sistēma par vienu vai otru tā darbÄ«bas rezultātu. Å Ä« metode ir diezgan efektÄ«va, pateicoties AI spējai veikt dažādas darbÄ«bas virtuālajā vidē ar milzÄ«gu ātrumu, miljoniem reižu ātrāk, nekā cilvēks spēj iedomāties. Tas ļauj izmēģinājumiem un kļūdām atrast visefektÄ«vākās stratēģijas konkrētas problēmas risināŔanai. Taču Å”ai pieejai ir arÄ« daži ierobežojumi, piemēram, vides izveidei un daudzu apmācÄ«bu ciklu veikÅ”anai ir nepiecieÅ”ami milzÄ«gi skaitļoÅ”anas resursi, un paÅ”am procesam ir nepiecieÅ”ama precÄ«za sistēma AI darbÄ«bu rezultātu salÄ«dzināŔanai ar mērÄ·i. Turklāt aÄ£enta Ŕādā veidā iegÅ«tās prasmes aprobežojas ar aprakstÄ«to uzdevumu, un, tiklÄ«dz AI iemācÄ«sies ar to tikt galā, turpmāku uzlabojumu nebÅ«s.

Lai apmācÄ«tu mākslÄ«go intelektu spēlēt paslēpes, zinātnieki izmantoja pieeju, ko sauc par ā€œNevirzÄ«to izpētiā€, kurā aÄ£entiem ir pilnÄ«ga brÄ«vÄ«ba attÄ«stÄ«t savu izpratni par spēļu pasauli un izstrādāt uzvaras stratēģijas. Tas ir lÄ«dzÄ«gs vairāku aÄ£entu mācÄ«Å”anās pieejai, ko DeepMind pētnieki izmantoja vairākās mākslÄ«gā intelekta sistēmās tika apmācÄ«ti spēlēt karoga uztverÅ”anas režīmu Quake III arēnā. Tāpat kā Å”ajā gadÄ«jumā, AI aÄ£enti iepriekÅ” nebija apmācÄ«ti spēles noteikumos, taču laika gaitā viņi apguva pamata stratēģijas un pat spēja pārsteigt pētniekus ar netriviāliem risinājumiem.

Paslēpes spēlē vairākiem aÄ£entiem, kuru uzdevums bija slēpties, bija jāizvairās no pretinieku redzesloka pēc nelielas pārsvara, kamēr meklÄ“Å”anas aÄ£entu komanda bija imobilizēta. Turklāt "redzes lÄ«nija" Å”ajā kontekstā ir 135 grādu konuss atseviŔķa robota priekŔā. AÄ£enti nevarēja izkļūt pārāk tālu ārpus spēles laukuma un bija spiesti pārvietoties nejauÅ”i Ä£enerētās telpās ar iespēju izmantot dažus ārējos objektus (kastes, pārvietojamas sienas, Ä«paÅ”as rampas), kas bija izkaisÄ«ti un kurus varēja izmantot gan seguma izveidoÅ”anai, gan iefiltrÄ“Å”anai tajās. .

OpenAI māca AI komandas darbu paslēpes spēlē

Ilgā mācÄ«bu procesā AI aÄ£enti apguva seÅ”as unikālas stratēģijas, no kurām katra palÄ«dzēja viņiem pāriet uz nākamo spēles posmu. Sākumā meklētāju un slēpņotāju komandas vienkārÅ”i aizbēga un dzenāja viena otru, bet pēc aptuveni 25 miljoniem maču slēpņotāju komanda iemācÄ«jās bloķēt ejas ar kastēm un uzbÅ«vēt no tām patversmes. Pēc vēl 75 miljoniem spēļu komanda atklāja veidus, kā izmantot rampas, lai iekļūtu Å”ajos slēpņos. Vēl pēc 10 miljoniem kārtu slēpņotāji iemācÄ«jās vilkt rampas lÄ«dz spēles laukuma malai un nofiksēt tās vietā, lai neļautu pretiniekiem tās izmantot.

OpenAI māca AI komandas darbu paslēpes spēlē

Pēc 388 miljoniem sērkociņu meklētāji ir iemācÄ«juÅ”ies izmantot bloķētas rampas, lai uzkāptu uz viņiem atnestajām kastēm, un pēc tam, pārvietojoties tieÅ”i uz tām, iekļūtu ienaidnieka slēpņos, kas izveidoti no pārnēsājamām sienām. Un visbeidzot, pēc 458 miljoniem spēļu, slēpņojoŔā komanda secināja, ka viņiem ir nepiecieÅ”ams bloķēt visus objektus un pēc tam uzbÅ«vēt pajumti, kas acÄ«mredzot noveda pie viņu galÄ«gās uzvaras.

ÄŖpaÅ”i iespaidÄ«gi ir tas, ka pēc 22 miljoniem spēļu aÄ£enti iemācÄ«jās koordinēt savas darbÄ«bas un viņu sadarbÄ«bas efektivitāte nākotnē tikai pieauga, piemēram, katrs paņēma lÄ«dzi savu kastÄ«ti vai sienu, lai izveidotu pajumti un izvēlējās savu daļu objektu. bloķēt, lai padarÄ«tu spēli grÅ«tāku pretiniekiem.

OpenAI māca AI komandas darbu paslēpes spēlē

Zinātnieki atzÄ«mēja arÄ« svarÄ«gu punktu, kas saistÄ«ts ar mācÄ«bu objektu skaita (caur neironu tÄ«klu nodoto datu apjomu - ā€œPartijas lielumsā€) ietekmi uz mācÄ«Å”anās ātrumu. Noklusējuma modelim bija nepiecieÅ”ami 132,3 miljoni spēļu 34 stundu treniņu laikā, lai sasniegtu punktu, kurā slēpņojoŔā komanda iemācÄ«jās bloķēt rampas, savukārt vairāk datu izraisÄ«ja ievērojamu treniņu laika samazinājumu. Piemēram, palielinot parametru skaitu (daļa no visa apmācÄ«bas procesa laikā iegÅ«tajiem datiem) no 0,5 miljoniem lÄ«dz 5,8 miljoniem palielināja izlases efektivitāti 2,2 reizes, bet ievades datu apjoma palielināŔana no 64 KB lÄ«dz 128 KB samazināja apmācÄ«bu. laiku gandrÄ«z pusotru reizi.

OpenAI māca AI komandas darbu paslēpes spēlē

Darba beigās pētnieki nolēma pārbaudÄ«t, cik daudz apmācÄ«bas spēlē varētu palÄ«dzēt aÄ£entiem tikt galā ar lÄ«dzÄ«giem uzdevumiem ārpus spēles. Kopumā tika veikti pieci testi: objektu skaita apzināŔanās (izpratne, ka objekts turpina pastāvēt arÄ« tad, ja tas ir ārpus redzesloka un netiek lietots); ā€œbloķēt un atgrieztiesā€ - spēja atcerēties savu sākotnējo stāvokli un atgriezties tajā pēc kāda papildu uzdevuma veikÅ”anas; ā€œsecÄ«gā bloÄ·Ä“Å”anaā€ - 4 kastes tika nejauÅ”i izvietotas trÄ«s telpās bez durvÄ«m, bet ar rampām, lai iekļūtu iekŔā, aÄ£entiem vajadzēja tās visas atrast un bloķēt; kastu izvietoÅ”ana iepriekÅ” noteiktās vietās; veidojot pajumti ap objektu cilindra formā.

Rezultātā trijos no pieciem uzdevumiem robotprogrammatÅ«ras, kas bija iepriekÅ” apmācÄ«tas spēlē, mācÄ«jās ātrāk un uzrādÄ«ja labākus rezultātus nekā AI, kas tika apmācÄ«tas atrisināt problēmas no nulles. Viņiem veicas nedaudz labāk, izpildot uzdevumu un atgriežoties sākuma pozÄ«cijā, secÄ«gi bloķējot kastes slēgtās telpās un novietojot kastes noteiktajās zonās, bet nedaudz vājāk veica objektu skaita atpazÄ«Å”anu un aizsegu ap citu objektu.

Pētnieki attiecina pretrunÄ«gus rezultātus uz to, kā AI apgÅ«st un atceras noteiktas prasmes. "Mēs domājam, ka uzdevumi, kuros spēles pirmsapmācÄ«ba bija vislabākā, bija iepriekÅ” apgÅ«to prasmju atkārtota izmantoÅ”ana pazÄ«stamā veidā, savukārt, lai atlikuÅ”os uzdevumus veiktu labāk nekā mākslÄ«gais intelekts, kas apmācÄ«ts no nulles, bÅ«tu nepiecieÅ”ams tos izmantot citā veidā, kas sarežģītāk,ā€ raksta darba lÄ«dzautori. "Å is rezultāts uzsver nepiecieÅ”amÄ«bu izstrādāt metodes, kā efektÄ«vi atkārtoti izmantot apmācÄ«bas laikā iegÅ«tās prasmes, pārnesot tās no vienas vides uz citu."

Paveiktais darbs ir patiesi iespaidÄ«gs, jo izredzes izmantot Å”o mācÄ«bu metodi ir tālu ārpus jebkuras spēles robežas. Pētnieki saka, ka viņu darbs ir nozÄ«mÄ«gs solis ceļā uz mākslÄ«gā intelekta izveidi ar "fiziku balstÄ«tu" un "cilvēkam lÄ«dzÄ«gu" uzvedÄ«bu, kas var diagnosticēt slimÄ«bas, paredzēt sarežģītu proteÄ«nu molekulu struktÅ«ras un analizēt CT skenējumus.

Zemāk esoÅ”ajā videoklipā varat skaidri redzēt, kā notika viss mācÄ«bu process, kā AI apguva komandas darbu, un tā stratēģijas kļuva arvien viltÄ«gākas un sarežģītākas.



Avots: 3dnews.ru

Pievieno komentāru