🥇OpenAI instruas AI-teamlaboron en la ludo de kaŝo

Bona malmoderna ludo de kaŝo povas esti bonega provo por robotoj de artefarita inteligenteco (AI) por montri kiel ili faras decidojn kaj interagas unu kun la alia kaj diversaj objektoj ĉirkaŭ ili.

En lia nova artikolo, eldonita de esploristoj de OpenAI, senprofita organizaĵo pri artefarita inteligenteco, kiu famiĝis venko super mondĉampionoj en la komputilludo Dota 2 , sciencistoj priskribas kiel agentoj kontrolitaj per artefarita inteligenteco estis trejnitaj por esti pli sofistikaj en serĉado kaj kaŝado de unu la alian en virtuala medio. La rezultoj de la studo pruvis, ke teamo de du robotoj lernas pli efike kaj pli rapide ol iu unuopa agento sen aliancanoj.

Sciencistoj uzis metodon, kiu delonge gajnis sian famon maŝinlernado kun plifortigo, en kiu artefarita inteligenteco estas metita en medion nekonatan al ĝi, dum havante certajn manierojn interagi kun ĝi, same kiel sistemon de rekompencoj kaj monpunoj por unu aŭ alia rezulto de ĝiaj agoj. Ĉi tiu metodo estas sufiĉe efika pro la kapablo de AI fari diversajn agojn en virtuala medio je grandega rapideco, milionoj da fojoj pli rapide ol homo povas imagi. Ĉi tio permesas provon kaj eraron trovi la plej efikajn strategiojn por solvi antaŭfiksitan problemon. Sed ĉi tiu aliro ankaŭ havas kelkajn limigojn, ekzemple, krei medion kaj fari multajn trejnajn ciklojn postulas grandegajn komputikajn rimedojn, kaj la procezo mem postulas precizan sistemon por kompari la rezultojn de AI-agoj kun sia celo. Krome, la kapabloj akiritaj de la agento tiamaniere estas limigitaj al la priskribita tasko kaj, post kiam la AI lernos trakti ĝin, ne estos pliaj plibonigoj.

Por trejni AI por ludi kaŝi kaj serĉi, sciencistoj uzis aliron nomitan "Nedirekta esplorado", kiu estas kie agentoj havas kompletan liberecon evoluigi sian komprenon pri la ludmondo kaj evoluigi venkajn strategiojn. Ĉi tio similas al la plur-agenta lernado kiun esploristoj ĉe DeepMind uzis kiam multoblaj sistemoj de artefarita inteligenteco estis trejnitaj por ludi kapti la flagreĝimon en Quake III Arena. Kiel en ĉi tiu kazo, la AI-agentoj ne estis antaŭe trejnitaj pri la reguloj de la ludo, sed kun la tempo ili lernis bazajn strategiojn kaj eĉ povis surprizi esploristojn per ne-trivialaj solvoj.

En ludo de kaŝludo, pluraj agentoj kies tasko estis kaŝi estis postulataj por eviti la vidlinion de siaj kontraŭuloj post iometa avanco dum la teamo de serĉantaj agentoj estis senmovigita. Plie, la "vidlinio" en ĉi tiu kunteksto estas 135-grada konuso antaŭ individua bot. Agentoj ne povis enriskiĝi tro malproksimen ekster la ludareo kaj estis devigitaj navigi hazarde generitajn ĉambrojn kun la kapablo uzi kelkajn eksterajn objektojn (kestoj, moveblaj muroj, specialaj deklivirejoj) disigitaj ĉirkaŭ tio povus esti uzata kaj por krei kovron kaj por infiltri en ili. .

Per longa lernado, la AI-agentoj lernis ses unikajn strategiojn, ĉiu el kiuj helpis ilin progresi al la sekva etapo de la ludo. Komence, la serĉanto kaj kaŝanto teamoj simple forkuris kaj postkuris unu la alian, sed post proksimume 25 milionoj da matĉoj, la kaŝa teamo lernis bloki trairejojn per kestoj kaj konstrui ŝirmejojn el ili. Post pliaj 75 milionoj da matĉoj, la teamo malkovris manierojn uzi deklivirejojn por eniri ĉi tiujn kaŝejojn. Post pliaj 10 milionoj da preterpasas, kaŝistoj lernis treni deklivirejojn al la rando de la ludareo kaj ŝlosi ilin modloko por malhelpi kontraŭulojn uzi ilin.

Post 388 milionoj da matĉoj, serĉantoj lernis uzi blokitajn deklivirejojn por grimpi sur kestojn alportitajn al ili, kaj tiam, moviĝante rekte sur ilin, penetri malamikajn kaŝejojn kreitajn el porteblaj muroj. Kaj finfine, post 458 milionoj da matĉoj, la kaŝa teamo konkludis, ke ili bezonas bloki ĉiujn objektojn kaj poste konstrui ŝirmejon, kio ŝajne kondukis al ilia fina venko.

Kio estas aparte impona estas, ke post 22 milionoj da matĉoj, la agentoj lernis kunordigi siajn agojn kaj la efikeco de sia kunlaboro nur pliiĝis estonte, ekzemple, ĉiu alportis sian propran skatolon aŭ muron por krei ŝirmejon kaj elektis sian parton de objektoj por bloko, por malfaciligi la malfacilecludon al kontraŭuloj.

Sciencistoj ankaŭ rimarkis gravan punkton rilate al la influo de la nombro da trejnaj objektoj (la kvanto da datumoj trapasitaj tra la neŭrala reto - "Batch Size") sur la lernado-rapido. La defaŭlta modelo postulis 132,3 milionojn da matĉoj dum 34 horoj da trejnado por atingi la punkton kie la kaŝa teamo lernis bloki deklivirejojn, dum pli da datumoj rezultigis rimarkindan redukton de la trejnado. Ekzemple, pliigi la nombron da parametroj (parto de la datumoj akiritaj dum la tuta trejnado) de 0,5 milionoj al 5,8 milionoj pliigis la specimenan efikecon je 2,2 fojojn, kaj pliigi la grandecon de la eniga datumoj de 64 KB al 128 KB reduktita trejnado. tempon preskaŭ unu kaj duonon fojon.

Ĉe la fino de sia laboro, la esploristoj decidis testi kiom en-luda trejnado povus helpi agentojn trakti similajn taskojn ekster la ludo. Estis kvin provoj entute: konscio pri la nombro da objektoj (kompreno, ke objekto daŭre ekzistas eĉ se ĝi estas ekster vido kaj ne uzata); "ŝlosi kaj reveni" - la kapablo memori sian originan pozicion kaj reveni al ĝi post plenumi iun plian taskon; "sinsekva blokado" - 4 skatoloj estis hazarde lokitaj en tri ĉambroj sen pordoj, sed kun deklivirejoj por eniri, agentoj devis trovi kaj bloki ilin ĉiujn; lokigo de skatoloj sur antaŭdestinitaj lokoj; kreante ŝirmejon ĉirkaŭ objekto en formo de cilindro.

Kiel rezulto, en tri el kvin taskoj, robotoj kiuj spertis preparan trejnadon en la ludo lernis pli rapide kaj montris pli bonajn rezultojn ol AI kiu estis trejnita por solvi problemojn de nulo. Ili rezultis iomete pli bone ĉe kompletigado de la tasko kaj revenado al la komenca pozicio, sinsekve blokante kestojn en fermitaj ĉambroj, kaj metante kestojn en antaŭfiksitaj lokoj, sed rezultis iomete pli malfortaj ĉe rekonado de la nombro da objektoj kaj kreado de kovro ĉirkaŭ alia objekto.

Esploristoj atribuas miksitajn rezultojn al kiel AI lernas kaj memoras certajn kapablojn. "Ni opinias, ke la taskoj, kie enmatĉa antaŭtrejnado plej bone plenumis, implikis reuzi antaŭe lernitajn kapablojn en konata maniero, dum plenumi la ceterajn taskojn pli bone ol la AI trejnita de nulo postulus uzi ilin alimaniere, kio multe. pli malfacila,” skribas la kunaŭtoroj de la verko. "Ĉi tiu rezulto reliefigas la bezonon evoluigi metodojn por efike reuzi kapablojn akiritajn per trejnado dum translokado de ili de unu medio al alia."

La laboro farita estas vere impona, ĉar la perspektivo uzi ĉi tiun instrumetodon kuŝas multe preter la limoj de iuj ludoj. La esploristoj diras, ke ilia laboro estas signifa paŝo al kreado de AI kun "fizik-bazita" kaj "homsimila" konduto, kiu povas diagnozi malsanojn, antaŭdiri la strukturojn de kompleksaj proteinaj molekuloj kaj analizi CT-skanaĵojn.

En la suba video vi povas klare vidi kiel okazis la tuta lernado, kiel la AI lernis teamlaboron, kaj ĝiaj strategioj fariĝis pli kaj pli ruzaj kaj kompleksaj.

fonto: 3dnews.ru

OpenAI instruas AI-teamlaboron en ludo de kaŝludo

Aldoni komenton Отменить ответ