Góður gamaldags feluleikur getur verið frábær prófsteinn fyrir gervigreind (AI) vélmenni til að sýna fram á hvernig þeir taka ákvarðanir og hafa samskipti sín á milli og ýmsa hluti í kringum þá.
Í hennar
Vísindamenn hafa notað aðferð sem hefur lengi unnið frægð sína
Til að þjálfa gervigreind í að leika feluleik notuðu vísindamenn nálgun sem kallast „Óbein könnun“, þar sem umboðsmenn hafa algjört frelsi til að þróa skilning sinn á leikheiminum og þróa vinningsaðferðir. Þetta er svipað og fjölmiðla námsaðferðin sem vísindamenn hjá DeepMind notuðu þegar mörg gervigreindarkerfi
Í feluleik þurftu nokkrir umboðsmenn, sem höfðu það hlutverk að fela, að forðast sjónlínu andstæðinga sinna eftir örlítið forskot á meðan hópur leitarmanna var óhreyfður. Þar að auki er „sjónlínan“ í þessu samhengi 135 gráðu keila fyrir framan einstakan botn. Umboðsmenn gátu ekki farið of langt út fyrir leiksvæðið og neyddust til að vafra um herbergi sem mynduðu af handahófi með getu til að nota utanaðkomandi hluti (kassa, hreyfanlega veggi, sérstaka rampa) á víð og dreif sem hægt var að nota bæði til að búa til hlíf og til að síast inn í þá. .
Í gegnum langt námsferli lærðu gervigreindarmennirnir sex einstakar aðferðir, sem hver um sig hjálpaði þeim að komast á næsta stig leiksins. Í fyrstu hlupu leitar- og feluliðið einfaldlega í burtu og eltu hvort annað, en eftir um 25 milljónir leikja lærði feluliðið að loka göngum með kössum og byggja úr þeim skýli. Eftir aðrar 75 milljónir leikja fann liðið leiðir til að nota rampa til að komast inn í þessa felustað. Eftir aðrar 10 milljónir umferðir lærðu huldumenn að draga rampa að brún leiksvæðisins og læsa þeim á sínum stað til að koma í veg fyrir að andstæðingar noti þá.
Eftir 388 milljónir eldspýtna hafa umsækjendur lært að nota lokaða rampa til að klifra upp á grindur sem færðir eru til þeirra, og fara síðan beint inn á þær, komast inn í felusvæði óvina sem búið er til úr færanlegum veggjum. Og að lokum, eftir 458 milljónir leikja, komst feluliðið að þeirri niðurstöðu að þeir þyrftu að loka fyrir alla hluti og byggja síðan skjól, sem greinilega leiddi til lokasigurs þeirra.
Það sem er sérstaklega áhrifamikið er að eftir 22 milljónir leikja lærðu umboðsmennirnir að samræma aðgerðir sínar og skilvirkni samstarfs þeirra jókst aðeins í framtíðinni, til dæmis kom hver með sínum kassa eða vegg til að búa til skjól og valdi sinn hlut af hlutum til að blokk, til að flækja erfiðleikaleikinn fyrir andstæðingum.
Vísindamenn bentu einnig á mikilvægu atriði sem tengist áhrifum fjölda þjálfunarhluta (magn gagna sem fer í gegnum tauganetið - „lotustærð“) á námshraðann. Sjálfgefið líkan þurfti 132,3 milljónir leikja yfir 34 klukkustunda þjálfun til að ná þeim stað þar sem feluliðið lærði að loka á rampa, á meðan fleiri gögn leiddu til merkjanlegrar styttingar á æfingatíma. Til dæmis, með því að fjölga færibreytum (hluti gagna sem fengust í öllu þjálfunarferlinu) úr 0,5 milljónum í 5,8 milljónir jókst sýnatökunýtingin um 2,2 sinnum og að auka stærð inntaksgagna úr 64 KB í 128 KB minnkaði þjálfun tími næstum einu og hálfu sinni.
Í lok vinnu sinnar ákváðu vísindamennirnir að prófa hversu mikil þjálfun í leiknum gæti hjálpað umboðsmönnum að takast á við svipuð verkefni utan leiksins. Alls voru fimm próf: vitund um fjölda hluta (skilningur á því að hlutur heldur áfram að vera til þó hann sé ekki í augsýn og sé ekki notaður); „læsa og snúa aftur“ - hæfileikinn til að muna upprunalega stöðu manns og fara aftur í hana eftir að hafa lokið einhverju viðbótarverkefni; „Röð blokkun“ - 4 kassar voru staðsettir af handahófi í þremur herbergjum án hurða, en með rampum til að komast inn, þurftu umboðsmenn að finna og loka þeim öllum; staðsetning kassa á fyrirfram ákveðnum stöðum; búa til skjól utan um hlut í formi strokks.
Fyrir vikið, í þremur af fimm verkefnum, lærðu vélmenni sem höfðu gengist undir forþjálfun í leiknum hraðar og sýndu betri árangur en gervigreind sem var þjálfuð til að leysa vandamál frá grunni. Þeir stóðu sig aðeins betur við að klára verkefnið og fara aftur í upphafsstöðu, loka kassa í lokuðum herbergjum í röð og setja kassa á tilteknum svæðum, en voru aðeins veikari í að þekkja fjölda hluta og búa til hlíf utan um annan hlut.
Vísindamenn rekja misjafnar niðurstöður til þess hvernig gervigreind lærir og man ákveðna færni. „Við teljum að verkefnin þar sem forþjálfun í leik skilaði sér best fólu í sér að endurnýta áður lærða færni á kunnuglegan hátt, á meðan að framkvæma þau verkefni sem eftir eru betur en gervigreind sem þjálfuð er frá grunni myndi krefjast þess að nota þau á annan hátt, sem mikið erfiðara,“ skrifa meðhöfundar verksins. „Þessi niðurstaða undirstrikar nauðsyn þess að þróa aðferðir til að endurnýta á áhrifaríkan hátt færni sem aflað er með þjálfun þegar hún er flutt úr einu umhverfi í annað.
Vinnan sem er unnin er sannarlega áhrifamikil, þar sem möguleikarnir á að nota þessa kennsluaðferð eru langt út fyrir mörk allra leikja. Rannsakendur segja að vinna þeirra sé mikilvægt skref í átt að því að búa til gervigreind með „eðlisfræðilegri“ og „mannlegri“ hegðun sem getur greint sjúkdóma, spáð fyrir um uppbyggingu flókinna próteinsameinda og greint tölvusneiðmyndir.
Í myndbandinu hér að neðan geturðu greinilega séð hvernig allt námsferlið fór fram, hvernig gervigreindin lærði teymisvinnu og aðferðir þess urðu sífellt lævísari og flóknari.
Heimild: 3dnews.ru