🥇Itinuro ng OpenAI ang AI teamwork sa larong hide and seek

Ang isang magandang lumang laro ng taguan ay maaaring maging isang mahusay na pagsubok para sa mga bot ng artificial intelligence (AI) upang ipakita kung paano sila gumagawa ng mga desisyon at nakikipag-ugnayan sa isa't isa at sa iba't ibang bagay sa kanilang paligid.

sa kanyang bagong artikulo, na inilathala ng mga mananaliksik mula sa OpenAI, isang non-profit na artificial intelligence research organization na naging sikat tagumpay laban sa mga kampeon sa mundo sa computer game na Dota 2, inilalarawan ng mga siyentipiko kung paano sinanay ang mga ahente na kinokontrol ng artificial intelligence na maging mas sopistikado sa paghahanap at pagtatago sa isa't isa sa isang virtual na kapaligiran. Ang mga resulta ng pag-aaral ay nagpakita na ang isang pangkat ng dalawang bot ay natututo nang mas epektibo at mas mabilis kaysa sa alinmang ahente na walang mga kaalyado.

Gumamit ang mga siyentipiko ng isang paraan na matagal nang nanalo sa katanyagan nito machine learning na may reinforcement, kung saan inilalagay ang artificial intelligence sa isang kapaligirang hindi alam nito, habang may ilang partikular na paraan ng pakikipag-ugnayan dito, pati na rin ang isang sistema ng mga gantimpala at multa para sa isa o ibang resulta ng mga aksyon nito. Ang pamamaraang ito ay medyo epektibo dahil sa kakayahan ng AI na magsagawa ng iba't ibang mga aksyon sa isang virtual na kapaligiran sa napakalaking bilis, milyun-milyong beses na mas mabilis kaysa sa maiisip ng isang tao. Nagbibigay-daan ito sa pagsubok at pagkakamali na mahanap ang pinakaepektibong mga diskarte para sa paglutas ng isang partikular na problema. Ngunit ang diskarte na ito ay mayroon ding ilang mga limitasyon, halimbawa, ang paglikha ng isang kapaligiran at pagsasagawa ng maraming mga ikot ng pagsasanay ay nangangailangan ng malaking mapagkukunan ng computing, at ang proseso mismo ay nangangailangan ng isang tumpak na sistema para sa paghahambing ng mga resulta ng mga aksyon ng AI sa layunin nito. Bilang karagdagan, ang mga kasanayan na nakuha ng ahente sa paraang ito ay limitado sa inilarawan na gawain at, sa sandaling matutunan ng AI na makayanan ito, wala nang mga karagdagang pagpapabuti.

Upang sanayin ang AI na maglaro ng taguan, gumamit ang mga siyentipiko ng diskarte na tinatawag na "Undirected exploration," kung saan ang mga ahente ay may ganap na kalayaan upang bumuo ng kanilang pang-unawa sa mundo ng laro at bumuo ng mga diskarte sa panalong. Ito ay katulad ng multi-agent na diskarte sa pag-aaral na ginamit ng mga mananaliksik sa DeepMind kapag maraming artificial intelligence system ay sinanay na maglaro ng capture ang flag mode sa Quake III Arena. Tulad ng sa kasong ito, ang mga ahente ng AI ay hindi dating sinanay sa mga alituntunin ng laro, ngunit sa paglipas ng panahon natutunan nila ang mga pangunahing estratehiya at nagawang sorpresahin ang mga mananaliksik sa mga di-maliit na solusyon.

Sa isang laro ng taguan, ilang mga ahente na ang trabaho ay upang itago ay kinakailangan upang maiwasan ang linya ng paningin ng kanilang mga kalaban pagkatapos ng isang bahagyang head start habang ang pangkat ng mga naghahanap ng mga ahente ay hindi kumikilos. Bukod dito, ang "linya ng paningin" sa kontekstong ito ay isang 135 degree na kono sa harap ng isang indibidwal na bot. Ang mga ahente ay hindi maaaring makipagsapalaran nang napakalayo sa labas ng lugar ng paglalaro at napilitang mag-navigate sa mga random na nabuong mga silid na may kakayahang gumamit ng ilang panlabas na bagay (mga kahon, mga palipat-lipat na pader, mga espesyal na rampa) na nakakalat sa paligid na maaaring magamit kapwa upang lumikha ng takip at upang makalusot sa mga ito .

Sa pamamagitan ng mahabang proseso ng pag-aaral, natutunan ng mga ahente ng AI ang anim na natatanging diskarte, na ang bawat isa ay nakatulong sa kanila na umunlad sa susunod na yugto ng laro. Sa una, ang mga seeker at hider team ay nagtakbuhan lang at naghabulan, ngunit pagkatapos ng humigit-kumulang 25 milyong mga laban, natutunan ng hider team na harangan ang mga sipi na may mga kahon at bumuo ng mga silungan mula sa kanila. Pagkatapos ng isa pang 75 milyong laban, nakatuklas ang team ng mga paraan para gumamit ng mga rampa para makapasok sa mga hideout na ito. Pagkatapos ng isa pang 10 milyong round, natutong mag-drag ng mga ramp ang mga nagtatago sa gilid ng playing area at i-lock ang mga ito sa lugar upang maiwasang gamitin ng mga kalaban ang mga ito.

Pagkatapos ng 388 milyong mga laban, natutunan ng mga naghahanap na gumamit ng mga naka-block na rampa upang umakyat sa mga crates na dinala sa kanila, at pagkatapos, direktang lumipat sa kanila, tumagos sa mga taguan ng kaaway na nilikha mula sa mga portable na pader. At sa wakas, pagkatapos ng 458 milyong mga tugma, napagpasyahan ng nagtatago na koponan na kailangan nilang harangan ang lahat ng mga bagay at pagkatapos ay bumuo ng isang kanlungan, na tila humantong sa kanilang huling tagumpay.

Ang partikular na kahanga-hanga ay pagkatapos ng 22 milyong mga laban, natutunan ng mga ahente na i-coordinate ang kanilang mga aksyon at ang kahusayan ng kanilang pakikipagtulungan ay tumaas lamang sa hinaharap, halimbawa, bawat isa ay nagdala ng kanyang sariling kahon o pader upang lumikha ng isang kanlungan at pinili ang kanyang bahagi ng mga bagay upang block, upang gawing kumplikado ang laro ng kahirapan sa mga kalaban.

Napansin din ng mga siyentipiko ang isang mahalagang punto na may kaugnayan sa impluwensya ng bilang ng mga bagay sa pagsasanay (ang dami ng data na dumaan sa neural network - "Laki ng Batch") sa bilis ng pag-aaral. Nangangailangan ang default na modelo ng 132,3 milyong tugma sa loob ng 34 na oras ng pagsasanay upang maabot ang punto kung saan natutunan ng nagtatago na team na harangan ang mga rampa, habang ang mas maraming data ay nagresulta sa isang kapansin-pansing pagbawas sa oras ng pagsasanay. Halimbawa, ang pagtaas ng bilang ng mga parameter (bahagi ng data na nakuha sa buong proseso ng pagsasanay) mula 0,5 milyon hanggang 5,8 milyon ay nagpapataas ng kahusayan sa sampling ng 2,2 beses, at ang pagtaas ng laki ng data ng input mula 64 KB hanggang 128 KB ay nabawasan ang pagsasanay oras halos isa't kalahating beses.

Sa pagtatapos ng kanilang trabaho, nagpasya ang mga mananaliksik na subukan kung gaano karaming in-game na pagsasanay ang makakatulong sa mga ahente na makayanan ang mga katulad na gawain sa labas ng laro. Mayroong limang pagsubok sa kabuuan: kamalayan sa bilang ng mga bagay (pag-unawa na ang isang bagay ay patuloy na umiiral kahit na ito ay wala sa paningin at hindi ginagamit); "i-lock at ibalik" - ang kakayahang matandaan ang orihinal na posisyon ng isang tao at bumalik dito pagkatapos makumpleto ang ilang karagdagang gawain; "sequential blocking" - 4 na kahon ang random na matatagpuan sa tatlong silid na walang mga pinto, ngunit may mga rampa upang makapasok sa loob, kailangan ng mga ahente na hanapin at harangan silang lahat; paglalagay ng mga kahon sa paunang natukoy na mga site; paglikha ng isang kanlungan sa paligid ng isang bagay sa anyo ng isang silindro.

Bilang resulta, sa tatlo sa limang gawain, ang mga bot na sumailalim sa paunang pagsasanay sa laro ay natuto nang mas mabilis at nagpakita ng mas mahusay na mga resulta kaysa sa AI na sinanay upang malutas ang mga problema mula sa simula. Bahagyang mas mahusay ang kanilang pagganap sa pagkumpleto ng gawain at pagbabalik sa panimulang posisyon, sunud-sunod na hinaharangan ang mga kahon sa mga saradong silid, at paglalagay ng mga kahon sa mga partikular na lugar, ngunit medyo mahina ang pagganap sa pagkilala sa bilang ng mga bagay at paglikha ng takip sa paligid ng isa pang bagay.

Iniuugnay ng mga mananaliksik ang magkahalong resulta sa kung paano natututo at naaalala ng AI ang ilang partikular na kasanayan. "Sa tingin namin na ang mga gawain kung saan ang in-game pre-training ay gumanap ng pinakamahusay na kasama ang muling paggamit ng mga dati nang natutunang kasanayan sa isang pamilyar na paraan, habang ang pagsasagawa ng mga natitirang mga gawain nang mas mahusay kaysa sa AI na sinanay mula sa simula ay mangangailangan ng paggamit ng mga ito sa ibang paraan, na kung saan marami mas mahirap,” isulat ang mga kapwa may-akda ng gawain. "Ang resultang ito ay nagpapakita ng pangangailangan na bumuo ng mga pamamaraan para sa epektibong muling paggamit ng mga kasanayang nakuha sa pamamagitan ng pagsasanay kapag inililipat ang mga ito mula sa isang kapaligiran patungo sa isa pa."

Ang gawaing ginawa ay talagang kahanga-hanga, dahil ang pag-asam ng paggamit ng pamamaraang ito ng pagtuturo ay malayo sa mga limitasyon ng anumang mga laro. Sinasabi ng mga mananaliksik na ang kanilang trabaho ay isang makabuluhang hakbang patungo sa paglikha ng AI na may "batay sa pisika" at "tulad ng tao" na pag-uugali na maaaring mag-diagnose ng mga sakit, mahulaan ang mga istruktura ng mga kumplikadong molekula ng protina at pag-aralan ang mga CT scan.

Sa video sa ibaba ay malinaw mong makikita kung paano naganap ang buong proseso ng pag-aaral, kung paano natutunan ng AI ang pagtutulungan ng magkakasama, at ang mga diskarte nito ay naging mas tuso at kumplikado.

Pinagmulan: 3dnews.ru

Ang OpenAI ay nagtuturo ng AI teamwork sa isang laro ng taguan

Magdagdag ng komento Kanselahin ang sumagot