OpenAI leer KI-spanwerk in 'n speletjie van wegkruipertjie

'n Goeie outydse spel van wegkruipertjie kan 'n goeie toets wees vir kunsmatige intelligensie (KI) bots om te demonstreer hoe hulle besluite neem en met mekaar en verskeie voorwerpe rondom hulle omgaan.

In sy nuwe artikel, gepubliseer deur navorsers van OpenAI, 'n nie-winsgewende kunsmatige intelligensie navorsingsorganisasie wat bekend geword het oorwinning oor wêreldkampioene in die rekenaarspeletjie Dota 2 beskryf wetenskaplikes hoe agente wat deur kunsmatige intelligensie beheer word, opgelei is om meer gesofistikeerd te wees in soek en wegkruip vir mekaar in 'n virtuele omgewing. Die resultate van die studie het getoon dat 'n span van twee bots meer effektief en vinniger leer as enige enkele agent sonder bondgenote.

OpenAI leer KI-spanwerk in 'n speletjie van wegkruipertjie

Wetenskaplikes het 'n metode gebruik wat al lank sy roem verwerf het masjienleer met versterking, waarin kunsmatige intelligensie in 'n omgewing wat aan hom onbekend is, geplaas word, terwyl daar sekere maniere is om daarmee om te gaan, asook 'n stelsel van belonings en boetes vir een of ander gevolg van sy optrede. Hierdie metode is redelik effektief as gevolg van die vermoë van AI om verskeie aksies in 'n virtuele omgewing teen enorme spoed uit te voer, miljoene keer vinniger as wat 'n persoon kan dink. Dit laat trial and error toe om die mees doeltreffende strategieë te vind om 'n gegewe probleem op te los. Maar hierdie benadering het ook 'n paar beperkings, byvoorbeeld die skep van 'n omgewing en die uitvoer van talle opleidingsiklusse vereis groot rekenaarhulpbronne, en die proses self vereis 'n akkurate stelsel om die resultate van KI-aksies met sy doel te vergelyk. Boonop is die vaardighede wat die agent op hierdie manier verwerf beperk tot die beskryfde taak en sodra die KI leer om dit te hanteer, sal daar geen verdere verbeterings wees nie.

Om KI op te lei om wegkruipertjie te speel, het wetenskaplikes 'n benadering genaamd "Ongerigte verkenning" gebruik, waar agente volkome vryheid het om hul begrip van die spelwêreld te ontwikkel en wenstrategieë te ontwikkel. Dit is soortgelyk aan die multi-agent leerbenadering wat navorsers by DeepMind gebruik het wanneer verskeie kunsmatige intelligensie stelsels is opgelei om die vlagmodus in Quake III Arena te speel. Soos in hierdie geval, is die KI-agente nie voorheen opgelei in die spelreëls nie, maar met verloop van tyd het hulle basiese strategieë geleer en kon hulle selfs navorsers verras met nie-triviale oplossings.

In 'n speletjie van wegkruipertjie moes verskeie agente wie se werk dit was om weg te kruip, hul opponente se siglyn te vermy ná 'n effense voorsprong terwyl die span soekende agente geïmmobiliseer was. Boonop is die "siglyn" in hierdie konteks 'n 135 grade keël voor 'n individuele bot. Agente kon nie te ver buite die speelarea waag nie en was gedwing om willekeurig gegenereerde kamers te navigeer met die vermoë om sommige eksterne voorwerpe (bokse, beweegbare mure, spesiale opritte) wat rondgestrooi is te gebruik wat gebruik kon word om beide dekking te skep en om daarin te infiltreer .

OpenAI leer KI-spanwerk in 'n speletjie van wegkruipertjie

Deur 'n lang leerproses het die KI-agente ses unieke strategieë geleer, wat elkeen hulle gehelp het om na die volgende stadium van die spel te vorder. Aanvanklik het die soeker- en wegkruipspanne eenvoudig weggehardloop en mekaar agternagesit, maar ná sowat 25 miljoen wedstryde het die wegkruiperspan geleer om gange met bokse te versper en skuilings daaruit te bou. Na nog 75 miljoen wedstryde het die span maniere ontdek om opritte te gebruik om in hierdie skuilplekke te kom. Na nog 10 miljoen rondtes het wegkruipers geleer om opritte na die rand van die speelarea te sleep en dit in plek te sluit om te verhoed dat teenstanders dit gebruik.

OpenAI leer KI-spanwerk in 'n speletjie van wegkruipertjie

Na 388 miljoen wedstryde het soekers geleer om geblokkeerde opritte te gebruik om op kratte te klim wat na hulle gebring is, en dan, direk daarop beweeg, deur vyandelike skuilplekke wat van draagbare mure geskep is, binne te dring. En uiteindelik, ná 458 miljoen wedstryde, het die wegkruipspan tot die gevolgtrekking gekom dat hulle alle voorwerpe moes blokkeer en dan 'n skuiling bou, wat blykbaar tot hul finale oorwinning gelei het.

Wat veral indrukwekkend is, is dat die agente na 22 miljoen wedstryde geleer het om hul optrede te koördineer en die doeltreffendheid van hul samewerking het net in die toekoms toegeneem, elkeen het byvoorbeeld sy eie boks of muur saamgebring om 'n skuiling te skep en sy deel van voorwerpe gekies om blok, om die moeilikheidswedstryd vir teenstanders te bemoeilik.

OpenAI leer KI-spanwerk in 'n speletjie van wegkruipertjie

Wetenskaplikes het ook 'n belangrike punt opgemerk wat verband hou met die invloed van die aantal opleidingsvoorwerpe (die hoeveelheid data wat deur die neurale netwerk beweeg - "Batch Size") op die leerspoed. Die verstekmodel het 132,3 miljoen wedstryde oor 34 uur se opleiding vereis om die punt te bereik waar die wegkruipspan geleer het om opritte te blokkeer, terwyl meer data gelei het tot 'n merkbare vermindering in oefentyd. Byvoorbeeld, die verhoging van die aantal parameters (deel van die data wat tydens die hele opleidingsproses verkry is) van 0,5 miljoen tot 5,8 miljoen het die steekproefdoeltreffendheid met 2,2 keer verhoog, en die verhoging van die grootte van die insetdata van 64 KB tot 128 KB verminder opleiding keer amper een en 'n half keer.

OpenAI leer KI-spanwerk in 'n speletjie van wegkruipertjie

Aan die einde van hul werk het die navorsers besluit om te toets hoeveel opleiding in die speletjie agente kan help om soortgelyke take buite die speletjie te hanteer. Daar was in totaal vyf toetse: bewustheid van die aantal voorwerpe (om te verstaan ​​dat 'n voorwerp bly bestaan ​​al is dit buite sig en nie gebruik nie); "sluit en keer terug" - die vermoë om 'n mens se oorspronklike posisie te onthou en daarna terug te keer nadat jy 'n bykomende taak voltooi het; "opeenvolgende blokkering" - 4 bokse is lukraak in drie kamers sonder deure geleë, maar met opritte om binne te kom, moes agente hulle almal vind en blokkeer; plasing van bokse op voorafbepaalde terreine; skep 'n skuiling rondom 'n voorwerp in die vorm van 'n silinder.

As gevolg hiervan, in drie uit vyf take, het bots wat voorlopige opleiding in die speletjie ondergaan het, vinniger geleer en beter resultate getoon as KI wat opgelei is om probleme van nuuts af op te los. Hulle het effens beter gevaar om die taak te voltooi en terug te keer na die beginposisie, om bokse in geslote kamers opeenvolgend te blokkeer en bokse in gegewe areas te plaas, maar het effens swakker gevaar om die aantal voorwerpe te herken en om 'n ander voorwerp te bedek.

Navorsers skryf gemengde resultate toe aan hoe KI sekere vaardighede leer en onthou. “Ons dink dat die take waar vooropleiding in die spel die beste presteer het, behels die hergebruik van voorheen aangeleerde vaardighede op 'n bekende manier, terwyl die oorblywende take beter uitgevoer word as die KI wat van nuuts af opgelei is, dit sou vereis om dit op 'n ander manier te gebruik, wat baie moeiliker,” skryf die mede-outeurs van die werk. "Hierdie resultaat beklemtoon die behoefte om metodes te ontwikkel vir die doeltreffende hergebruik van vaardighede wat deur opleiding verkry is wanneer dit van een omgewing na 'n ander oorgedra word."

Die werk wat gedoen is, is werklik indrukwekkend, aangesien die vooruitsig om hierdie onderrigmetode te gebruik ver buite die perke van enige speletjies lê. Die navorsers sê hul werk is 'n belangrike stap in die rigting van die skep van KI met "fisika-gebaseerde" en "menslike" gedrag wat siektes kan diagnoseer, die strukture van komplekse proteïenmolekules kan voorspel en CT-skanderings kan analiseer.

In die video hieronder kan jy duidelik sien hoe die hele leerproses plaasgevind het, hoe die KI spanwerk geleer het, en sy strategieë het al hoe meer uitgeslape en kompleks geword.



Bron: 3dnews.ru

Voeg 'n opmerking