'n Goeie outydse spel van wegkruipertjie kan 'n goeie toets wees vir kunsmatige intelligensie (KI) bots om te demonstreer hoe hulle besluite neem en met mekaar en verskeie voorwerpe rondom hulle omgaan.
In sy
Wetenskaplikes het 'n metode gebruik wat al lank sy roem verwerf het
Om KI op te lei om wegkruipertjie te speel, het wetenskaplikes 'n benadering genaamd "Ongerigte verkenning" gebruik, waar agente volkome vryheid het om hul begrip van die spelwêreld te ontwikkel en wenstrategieë te ontwikkel. Dit is soortgelyk aan die multi-agent leerbenadering wat navorsers by DeepMind gebruik het wanneer verskeie kunsmatige intelligensie stelsels
In 'n speletjie van wegkruipertjie moes verskeie agente wie se werk dit was om weg te kruip, hul opponente se siglyn te vermy ná 'n effense voorsprong terwyl die span soekende agente geïmmobiliseer was. Boonop is die "siglyn" in hierdie konteks 'n 135 grade keël voor 'n individuele bot. Agente kon nie te ver buite die speelarea waag nie en was gedwing om willekeurig gegenereerde kamers te navigeer met die vermoë om sommige eksterne voorwerpe (bokse, beweegbare mure, spesiale opritte) wat rondgestrooi is te gebruik wat gebruik kon word om beide dekking te skep en om daarin te infiltreer .
Deur 'n lang leerproses het die KI-agente ses unieke strategieë geleer, wat elkeen hulle gehelp het om na die volgende stadium van die spel te vorder. Aanvanklik het die soeker- en wegkruipspanne eenvoudig weggehardloop en mekaar agternagesit, maar ná sowat 25 miljoen wedstryde het die wegkruiperspan geleer om gange met bokse te versper en skuilings daaruit te bou. Na nog 75 miljoen wedstryde het die span maniere ontdek om opritte te gebruik om in hierdie skuilplekke te kom. Na nog 10 miljoen rondtes het wegkruipers geleer om opritte na die rand van die speelarea te sleep en dit in plek te sluit om te verhoed dat teenstanders dit gebruik.
Na 388 miljoen wedstryde het soekers geleer om geblokkeerde opritte te gebruik om op kratte te klim wat na hulle gebring is, en dan, direk daarop beweeg, deur vyandelike skuilplekke wat van draagbare mure geskep is, binne te dring. En uiteindelik, ná 458 miljoen wedstryde, het die wegkruipspan tot die gevolgtrekking gekom dat hulle alle voorwerpe moes blokkeer en dan 'n skuiling bou, wat blykbaar tot hul finale oorwinning gelei het.
Wat veral indrukwekkend is, is dat die agente na 22 miljoen wedstryde geleer het om hul optrede te koördineer en die doeltreffendheid van hul samewerking het net in die toekoms toegeneem, elkeen het byvoorbeeld sy eie boks of muur saamgebring om 'n skuiling te skep en sy deel van voorwerpe gekies om blok, om die moeilikheidswedstryd vir teenstanders te bemoeilik.
Wetenskaplikes het ook 'n belangrike punt opgemerk wat verband hou met die invloed van die aantal opleidingsvoorwerpe (die hoeveelheid data wat deur die neurale netwerk beweeg - "Batch Size") op die leerspoed. Die verstekmodel het 132,3 miljoen wedstryde oor 34 uur se opleiding vereis om die punt te bereik waar die wegkruipspan geleer het om opritte te blokkeer, terwyl meer data gelei het tot 'n merkbare vermindering in oefentyd. Byvoorbeeld, die verhoging van die aantal parameters (deel van die data wat tydens die hele opleidingsproses verkry is) van 0,5 miljoen tot 5,8 miljoen het die steekproefdoeltreffendheid met 2,2 keer verhoog, en die verhoging van die grootte van die insetdata van 64 KB tot 128 KB verminder opleiding keer amper een en 'n half keer.
Aan die einde van hul werk het die navorsers besluit om te toets hoeveel opleiding in die speletjie agente kan help om soortgelyke take buite die speletjie te hanteer. Daar was in totaal vyf toetse: bewustheid van die aantal voorwerpe (om te verstaan dat 'n voorwerp bly bestaan al is dit buite sig en nie gebruik nie); "sluit en keer terug" - die vermoë om 'n mens se oorspronklike posisie te onthou en daarna terug te keer nadat jy 'n bykomende taak voltooi het; "opeenvolgende blokkering" - 4 bokse is lukraak in drie kamers sonder deure geleë, maar met opritte om binne te kom, moes agente hulle almal vind en blokkeer; plasing van bokse op voorafbepaalde terreine; skep 'n skuiling rondom 'n voorwerp in die vorm van 'n silinder.
As gevolg hiervan, in drie uit vyf take, het bots wat voorlopige opleiding in die speletjie ondergaan het, vinniger geleer en beter resultate getoon as KI wat opgelei is om probleme van nuuts af op te los. Hulle het effens beter gevaar om die taak te voltooi en terug te keer na die beginposisie, om bokse in geslote kamers opeenvolgend te blokkeer en bokse in gegewe areas te plaas, maar het effens swakker gevaar om die aantal voorwerpe te herken en om 'n ander voorwerp te bedek.
Navorsers skryf gemengde resultate toe aan hoe KI sekere vaardighede leer en onthou. “Ons dink dat die take waar vooropleiding in die spel die beste presteer het, behels die hergebruik van voorheen aangeleerde vaardighede op 'n bekende manier, terwyl die oorblywende take beter uitgevoer word as die KI wat van nuuts af opgelei is, dit sou vereis om dit op 'n ander manier te gebruik, wat baie moeiliker,” skryf die mede-outeurs van die werk. "Hierdie resultaat beklemtoon die behoefte om metodes te ontwikkel vir die doeltreffende hergebruik van vaardighede wat deur opleiding verkry is wanneer dit van een omgewing na 'n ander oorgedra word."
Die werk wat gedoen is, is werklik indrukwekkend, aangesien die vooruitsig om hierdie onderrigmetode te gebruik ver buite die perke van enige speletjies lê. Die navorsers sê hul werk is 'n belangrike stap in die rigting van die skep van KI met "fisika-gebaseerde" en "menslike" gedrag wat siektes kan diagnoseer, die strukture van komplekse proteïenmolekules kan voorspel en CT-skanderings kan analiseer.
In die video hieronder kan jy duidelik sien hoe die hele leerproses plaasgevind het, hoe die KI spanwerk geleer het, en sy strategieë het al hoe meer uitgeslape en kompleks geword.
Bron: 3dnews.ru