Bona malmoderna ludo de kaŝo povas esti bonega provo por robotoj de artefarita inteligenteco (AI) por montri kiel ili faras decidojn kaj interagas unu kun la alia kaj diversaj objektoj ĉirkaŭ ili.
En lia
Sciencistoj uzis metodon, kiu delonge gajnis sian famon
Por trejni AI por ludi kaŝi kaj serĉi, sciencistoj uzis aliron nomitan "Nedirekta esplorado", kiu estas kie agentoj havas kompletan liberecon evoluigi sian komprenon pri la ludmondo kaj evoluigi venkajn strategiojn. Ĉi tio similas al la plur-agenta lernado kiun esploristoj ĉe DeepMind uzis kiam multoblaj sistemoj de artefarita inteligenteco
En ludo de kaŝludo, pluraj agentoj kies tasko estis kaŝi estis postulataj por eviti la vidlinion de siaj kontraŭuloj post iometa avanco dum la teamo de serĉantaj agentoj estis senmovigita. Plie, la "vidlinio" en ĉi tiu kunteksto estas 135-grada konuso antaŭ individua bot. Agentoj ne povis enriskiĝi tro malproksimen ekster la ludareo kaj estis devigitaj navigi hazarde generitajn ĉambrojn kun la kapablo uzi kelkajn eksterajn objektojn (kestoj, moveblaj muroj, specialaj deklivirejoj) disigitaj ĉirkaŭ tio povus esti uzata kaj por krei kovron kaj por infiltri en ili. .
Per longa lernado, la AI-agentoj lernis ses unikajn strategiojn, ĉiu el kiuj helpis ilin progresi al la sekva etapo de la ludo. Komence, la serĉanto kaj kaŝanto teamoj simple forkuris kaj postkuris unu la alian, sed post proksimume 25 milionoj da matĉoj, la kaŝa teamo lernis bloki trairejojn per kestoj kaj konstrui ŝirmejojn el ili. Post pliaj 75 milionoj da matĉoj, la teamo malkovris manierojn uzi deklivirejojn por eniri ĉi tiujn kaŝejojn. Post pliaj 10 milionoj da preterpasas, kaŝistoj lernis treni deklivirejojn al la rando de la ludareo kaj ŝlosi ilin modloko por malhelpi kontraŭulojn uzi ilin.
Post 388 milionoj da matĉoj, serĉantoj lernis uzi blokitajn deklivirejojn por grimpi sur kestojn alportitajn al ili, kaj tiam, moviĝante rekte sur ilin, penetri malamikajn kaŝejojn kreitajn el porteblaj muroj. Kaj finfine, post 458 milionoj da matĉoj, la kaŝa teamo konkludis, ke ili bezonas bloki ĉiujn objektojn kaj poste konstrui ŝirmejon, kio ŝajne kondukis al ilia fina venko.
Kio estas aparte impona estas, ke post 22 milionoj da matĉoj, la agentoj lernis kunordigi siajn agojn kaj la efikeco de sia kunlaboro nur pliiĝis estonte, ekzemple, ĉiu alportis sian propran skatolon aŭ muron por krei ŝirmejon kaj elektis sian parton de objektoj por bloko, por malfaciligi la malfacilecludon al kontraŭuloj.
Sciencistoj ankaŭ rimarkis gravan punkton rilate al la influo de la nombro da trejnaj objektoj (la kvanto da datumoj trapasitaj tra la neŭrala reto - "Batch Size") sur la lernado-rapido. La defaŭlta modelo postulis 132,3 milionojn da matĉoj dum 34 horoj da trejnado por atingi la punkton kie la kaŝa teamo lernis bloki deklivirejojn, dum pli da datumoj rezultigis rimarkindan redukton de la trejnado. Ekzemple, pliigi la nombron da parametroj (parto de la datumoj akiritaj dum la tuta trejnado) de 0,5 milionoj al 5,8 milionoj pliigis la specimenan efikecon je 2,2 fojojn, kaj pliigi la grandecon de la eniga datumoj de 64 KB al 128 KB reduktita trejnado. tempon preskaŭ unu kaj duonon fojon.
Ĉe la fino de sia laboro, la esploristoj decidis testi kiom en-luda trejnado povus helpi agentojn trakti similajn taskojn ekster la ludo. Estis kvin provoj entute: konscio pri la nombro da objektoj (kompreno, ke objekto daŭre ekzistas eĉ se ĝi estas ekster vido kaj ne uzata); "ŝlosi kaj reveni" - la kapablo memori sian originan pozicion kaj reveni al ĝi post plenumi iun plian taskon; "sinsekva blokado" - 4 skatoloj estis hazarde lokitaj en tri ĉambroj sen pordoj, sed kun deklivirejoj por eniri, agentoj devis trovi kaj bloki ilin ĉiujn; lokigo de skatoloj sur antaŭdestinitaj lokoj; kreante ŝirmejon ĉirkaŭ objekto en formo de cilindro.
Kiel rezulto, en tri el kvin taskoj, robotoj kiuj spertis preparan trejnadon en la ludo lernis pli rapide kaj montris pli bonajn rezultojn ol AI kiu estis trejnita por solvi problemojn de nulo. Ili rezultis iomete pli bone ĉe kompletigado de la tasko kaj revenado al la komenca pozicio, sinsekve blokante kestojn en fermitaj ĉambroj, kaj metante kestojn en antaŭfiksitaj lokoj, sed rezultis iomete pli malfortaj ĉe rekonado de la nombro da objektoj kaj kreado de kovro ĉirkaŭ alia objekto.
Esploristoj atribuas miksitajn rezultojn al kiel AI lernas kaj memoras certajn kapablojn. "Ni opinias, ke la taskoj, kie enmatĉa antaŭtrejnado plej bone plenumis, implikis reuzi antaŭe lernitajn kapablojn en konata maniero, dum plenumi la ceterajn taskojn pli bone ol la AI trejnita de nulo postulus uzi ilin alimaniere, kio multe. pli malfacila,” skribas la kunaŭtoroj de la verko. "Ĉi tiu rezulto reliefigas la bezonon evoluigi metodojn por efike reuzi kapablojn akiritajn per trejnado dum translokado de ili de unu medio al alia."
La laboro farita estas vere impona, ĉar la perspektivo uzi ĉi tiun instrumetodon kuŝas multe preter la limoj de iuj ludoj. La esploristoj diras, ke ilia laboro estas signifa paŝo al kreado de AI kun "fizik-bazita" kaj "homsimila" konduto, kiu povas diagnozi malsanojn, antaŭdiri la strukturojn de kompleksaj proteinaj molekuloj kaj analizi CT-skanaĵojn.
En la suba video vi povas klare vidi kiel okazis la tuta lernado, kiel la AI lernis teamlaboron, kaj ĝiaj strategioj fariĝis pli kaj pli ruzaj kaj kompleksaj.
fonto: 3dnews.ru