OpenAI leert AI-teamwerk in een spel van verstoppertje

Een ouderwets verstoppertjespel kan een geweldige test zijn voor kunstmatige intelligentie (AI)-bots om te laten zien hoe ze beslissingen nemen en met elkaar en verschillende objecten om hen heen omgaan.

in zijn nieuw artikel, gepubliceerd door onderzoekers van OpenAI, een non-profit onderzoeksorganisatie op het gebied van kunstmatige intelligentie die beroemd is geworden overwinning op wereldkampioenen in het computerspel Dota 2 beschrijven wetenschappers hoe agenten die door kunstmatige intelligentie worden bestuurd, werden getraind om geavanceerder te zijn in het zoeken en verbergen voor elkaar in een virtuele omgeving. De resultaten van het onderzoek toonden aan dat een team van twee bots effectiever en sneller leert dan welke enkele agent dan ook zonder bondgenoten.

OpenAI leert AI-teamwerk in een spel van verstoppertje

Wetenschappers hebben een methode gebruikt die al lang bekendheid heeft verworven machine learning met versterking, waarin kunstmatige intelligentie in een voor haar onbekende omgeving wordt geplaatst, terwijl er bepaalde manieren zijn om ermee om te gaan, evenals een systeem van beloningen en boetes voor een of ander resultaat van zijn acties. Deze methode is behoorlijk effectief vanwege het vermogen van AI om met enorme snelheid verschillende acties in een virtuele omgeving uit te voeren, miljoenen keren sneller dan een mens zich kan voorstellen. Dit maakt het mogelijk om met vallen en opstaan ​​de meest effectieve strategieën te vinden om een ​​bepaald probleem op te lossen. Maar deze aanpak heeft ook enkele beperkingen. Het creëren van een omgeving en het uitvoeren van talloze trainingscycli vereisen bijvoorbeeld enorme computerbronnen, en het proces zelf vereist een nauwkeurig systeem om de resultaten van AI-acties te vergelijken met het beoogde doel. Bovendien zijn de vaardigheden die de agent op deze manier verwerft beperkt tot de beschreven taak en zodra de AI leert ermee om te gaan, zullen er geen verdere verbeteringen plaatsvinden.

Om AI te trainen om verstoppertje te spelen, gebruikten wetenschappers een aanpak genaamd ‘Ongerichte verkenning’, waarbij agenten de volledige vrijheid hebben om hun begrip van de gamewereld te ontwikkelen en winnende strategieën te ontwikkelen. Dit is vergelijkbaar met de multi-agent leeraanpak die onderzoekers van DeepMind gebruikten bij meerdere kunstmatige intelligentiesystemen waren getraind om de modus Capture the Flag te spelen in Quake III Arena. Net als in dit geval waren de AI-agenten niet eerder getraind in de spelregels, maar leerden ze na verloop van tijd basisstrategieën en konden ze onderzoekers zelfs verrassen met niet-triviale oplossingen.

In een spel van verstoppertje moesten verschillende agenten wier taak het was om zich te verstoppen de gezichtslijn van hun tegenstanders vermijden na een lichte voorsprong terwijl het team van zoekende agenten geïmmobiliseerd was. Bovendien is de ‘zichtlijn’ in deze context een kegel van 135 graden voor een individuele bot. Agenten konden zich niet te ver buiten het speelgebied begeven en werden gedwongen om door willekeurig gegenereerde kamers te navigeren met de mogelijkheid om externe objecten (dozen, verplaatsbare muren, speciale hellingen) te gebruiken die verspreid lagen en die zowel konden worden gebruikt om dekking te creëren als om erin te infiltreren. .

OpenAI leert AI-teamwerk in een spel van verstoppertje

Via een langdurig leerproces leerden de AI-agenten zes unieke strategieën, die hen elk hielpen door te gaan naar de volgende fase van het spel. In eerste instantie renden de zoeker- en onderduikersteams gewoon weg en achtervolgden elkaar, maar na ongeveer 25 miljoen wedstrijden leerde het onderduikersteam doorgangen te blokkeren met dozen en er schuilplaatsen van te bouwen. Na nog eens 75 miljoen wedstrijden ontdekte het team manieren om hellingen te gebruiken om deze schuilplaatsen binnen te komen. Na nog eens 10 miljoen rondes leerden onderduikers om hellingen naar de rand van het speelveld te slepen en ze op hun plaats te vergrendelen om te voorkomen dat tegenstanders ze gebruiken.

OpenAI leert AI-teamwerk in een spel van verstoppertje

Na 388 miljoen wedstrijden hebben zoekers geleerd om geblokkeerde hellingen te gebruiken om op kratten te klimmen die naar hen toe zijn gebracht, en vervolgens, rechtstreeks daarop te gaan, vijandelijke schuilplaatsen binnen te dringen die zijn gemaakt van draagbare muren. En uiteindelijk, na 458 miljoen wedstrijden, kwam het onderduikteam tot de conclusie dat ze alle objecten moesten blokkeren en vervolgens een schuilplaats moesten bouwen, wat blijkbaar tot hun uiteindelijke overwinning leidde.

Wat vooral indrukwekkend is, is dat de agenten na 22 miljoen wedstrijden leerden hun acties te coördineren en dat de efficiëntie van hun samenwerking in de toekomst alleen maar toenam. Zo bracht ieder zijn eigen doos of muur mee om een ​​schuilplaats te creëren en koos hij zijn deel van de voorwerpen uit. blokkeren, om het moeilijkheidsspel voor tegenstanders ingewikkelder te maken.

OpenAI leert AI-teamwerk in een spel van verstoppertje

Wetenschappers merkten ook een belangrijk punt op met betrekking tot de invloed van het aantal trainingsobjecten (de hoeveelheid gegevens die door het neurale netwerk wordt doorgegeven - "Batchgrootte") op de leersnelheid. Het standaardmodel vereiste 132,3 miljoen wedstrijden gedurende 34 uur training om het punt te bereiken waarop het onderduikteam leerde hellingen te blokkeren, terwijl meer gegevens resulteerden in een merkbare vermindering van de trainingstijd. Door het aantal parameters (een deel van de gegevens verkregen tijdens het gehele trainingsproces) te verhogen van 0,5 miljoen naar 5,8 miljoen is de bemonsteringsefficiëntie bijvoorbeeld 2,2 keer zo groot geworden, en door de omvang van de invoergegevens te vergroten van 64 KB naar 128 KB is de training verminderd. tijd bijna anderhalf keer.

OpenAI leert AI-teamwerk in een spel van verstoppertje

Aan het einde van hun werk besloten de onderzoekers te testen hoeveel in-game training agenten kon helpen bij het uitvoeren van soortgelijke taken buiten het spel. In totaal waren er vijf tests: bewustzijn van het aantal objecten (begrijpen dat een object blijft bestaan, zelfs als het uit het zicht is en niet wordt gebruikt); "vergrendelen en terugkeren" - het vermogen om de oorspronkelijke positie te onthouden en ernaar terug te keren na het voltooien van een extra taak; “opeenvolgende blokkering” - 4 dozen waren willekeurig geplaatst in drie kamers zonder deuren, maar met hellingen om binnen te komen, agenten moesten ze allemaal vinden en blokkeren; plaatsing van dozen op vooraf bepaalde locaties; het creëren van een schuilplaats rond een object in de vorm van een cilinder.

Als gevolg hiervan leerden bots die een voorbereidende training in het spel hadden gevolgd, bij drie van de vijf taken sneller en lieten betere resultaten zien dan AI die was getraind om problemen vanaf het begin op te lossen. Ze presteerden iets beter bij het voltooien van de taak en het terugkeren naar de startpositie, waarbij ze achtereenvolgens dozen in gesloten kamers blokkeerden en dozen in bepaalde gebieden plaatsten, maar presteerden iets zwakker bij het herkennen van het aantal objecten en het creëren van dekking rond een ander object.

Onderzoekers schrijven gemengde resultaten toe aan de manier waarop AI bepaalde vaardigheden leert en onthoudt. “Wij denken dat de taken waarbij in-game pre-training het beste presteerde het hergebruiken van eerder geleerde vaardigheden op een vertrouwde manier inhield, terwijl het beter uitvoeren van de resterende taken dan de AI die helemaal opnieuw was getraind, zou vereisen dat ze op een andere manier zouden worden gebruikt, wat veel ingewikkelder”, schrijven de co-auteurs van het werk. “Dit resultaat onderstreept de noodzaak om methoden te ontwikkelen voor het effectief hergebruiken van door training verworven vaardigheden bij de overdracht van de ene omgeving naar de andere.”

Het verrichte werk is werkelijk indrukwekkend, aangezien het vooruitzicht om deze lesmethode te gebruiken ver buiten de grenzen van welk spel dan ook ligt. De onderzoekers zeggen dat hun werk een belangrijke stap is in de richting van het creëren van AI met ‘natuurkundig’ en ‘mensachtig’ gedrag dat ziekten kan diagnosticeren, de structuren van complexe eiwitmoleculen kan voorspellen en CT-scans kan analyseren.

In de onderstaande video kun je duidelijk zien hoe het hele leerproces plaatsvond, hoe de AI teamwerk leerde en zijn strategieën steeds sluwer en complexer werden.



Bron: 3dnews.ru

Voeg een reactie