🥇OpenAI léiert AI Teamwork am Spill vu Verstoppen

E gutt al-äusgeleiert Spill vu Verstoppen kann e super Test fir kënschtlech Intelligenz (AI) Bots sinn fir ze weisen wéi se Entscheedungen treffen an interagéieren mateneen a verschiddenen Objeten ronderëm si.

An hir neien Artikel, publizéiert vu Fuerscher vun OpenAI, eng non-profit kënschtlech Intelligenz Fuerschungsorganisatioun déi berühmt ginn ass Victoire iwwer Weltmeeschter am Computerspill Dota 2 beschreiwen d'Wëssenschaftler wéi d'Agenten, déi vu kënschtlecher Intelligenz kontrolléiert goufen, trainéiert gi fir méi raffinéiert ze sichen an sech vuneneen an engem virtuellen Ëmfeld ze verstoppen. D'Resultater vun der Studie weisen datt e Team vun zwee Bots méi effektiv a méi séier léiert wéi all eenzel Agent ouni Alliéierten.

Wëssenschaftler hunn eng Method benotzt déi laang seng Ruhm gewonnen huet Maschinn Léieren mat Verstäerkung, an deem d'kënschtlech Intelligenz an engem deem onbekannte Ëmfeld plazéiert ass, während se bestëmmte Weeër hunn fir domat ze interagéieren, wéi och e System vu Belounungen a Geldstrofe fir dat eent oder anert Resultat vu sengen Handlungen. Dës Method ass zimmlech effektiv wéinst der Fäegkeet vun AI fir verschidden Handlungen an engem virtuellen Ëmfeld mat enormer Geschwindegkeet auszeféieren, Millioune Mol méi séier wéi eng Persoun sech virstellen kann. Dëst erlaabt Test a Feeler déi effektivst Strategien ze fannen fir e bestëmmte Problem ze léisen. Awer dës Approche huet och e puer Aschränkungen, zum Beispill d'Schafe vun engem Ëmfeld a vill Trainingszyklen duerchzeféieren erfuerdert enorm Rechenressourcen, an de Prozess selwer erfuerdert e genee System fir d'Resultater vun AI Aktiounen mat sengem Zil ze vergläichen. Zousätzlech sinn d'Fäegkeeten, déi den Agent op dës Manéier erfaasst huet, limitéiert op déi beschriwwe Aufgab, a wann d'AI léiert et ze këmmeren, gëtt et keng weider Verbesserungen.

Fir AI ze trainéieren fir verstoppt a sichen ze spillen, hunn d'Wëssenschaftler eng Approche genannt "Undirected Exploration" benotzt, dat ass wou d'Agenten komplett Fräiheet hunn hir Verständnis vun der Spillwelt z'entwéckelen a Gewënnstrategien z'entwéckelen. Dëst ass ähnlech wéi d'Multi-Agent Léier Approche déi Fuerscher bei DeepMind benotzt hunn wa verschidde kënschtlech Intelligenz Systemer goufen trainéiert fir de Fändelmodus an der Quake III Arena ze spillen. Wéi an dësem Fall, goufen d'AI Agenten net virdru an de Spillregelen trainéiert, awer mat der Zäit hunn se Basisstrategie geléiert a konnten souguer d'Fuerscher mat net-triviale Léisungen iwwerraschen.

An engem Verstoppespill waren e puer Agenten, deenen hir Aarbecht et war ze verstoppen, gefuerdert fir d'Siichtlinn vun hire Géigner no engem liichte Virsprong ze vermeiden, während d'Equipe vun de Sichagenten immobiliséiert war. Ausserdeem ass d'"Sichtlinn" an dësem Kontext eng 135 Grad Kegel virun engem individuellen Bot. Agente konnten sech net ze wäit ausserhalb vum Spillberäich venturen a ware gezwongen, zoufälleg generéiert Zëmmeren ze navigéieren mat der Fäegkeet fir e puer extern Objeten ze benotzen (Këschten, bewegbar Maueren, speziell Rampen), déi ronderëm verspreet kënne ginn, déi souwuel benotzt kënne fir Cover ze kreéieren an an hinnen ze infiltréieren .

Duerch e laange Léierprozess hunn d'AI-Agenten sechs eenzegaarteg Strategien geléiert, déi all hinnen gehollef hunn op déi nächst Etapp vum Spill weiderzekommen. Am Ufank sinn d'Sicher- an d'Hider-Equipen einfach fortgelaf an hunn sech géigesäiteg gejot, awer no ronn 25 Millioune Matcher huet d'Hider-Team geléiert Passagen mat Këschten ze blockéieren an Ënnerdaach aus hinnen ze bauen. No weideren 75 Millioune Matcher huet d'Team Weeër entdeckt fir Rampen ze benotzen fir an dës Verstoppt ze kommen. No weideren 10 Millioune Ronnen hunn d'Verstopper geléiert Rampen op de Rand vum Spillberäich ze zéien an se op der Plaz ze spären fir ze verhënneren datt Géigner se benotzen.

No 388 Millioune Mätscher hunn d'Sicher geléiert blockéiert Rampen ze benotzen fir op d'Këschten ze klammen déi hinnen bruecht goufen, an dann, direkt op si plënneren, feindlech Hideouts erstallt aus portable Maueren penetréieren. A schlussendlech, no 458 Millioune Matcher, huet d'Verstoppequipe ofgeschloss datt se all Objete musse blockéieren an dann en Ënnerstand bauen, wat anscheinend zu hirer definitiver Victoire gefouert huet.

Wat besonnesch beandrockend ass, ass datt no 22 Millioune Matcher d'Agente geléiert hunn hir Handlungen ze koordinéieren an d'Effizienz vun hirer Zesummenaarbecht nëmmen an der Zukunft eropgaange sinn, zum Beispill, jidderee huet seng eege Këscht oder Mauer bruecht fir en Ënnerdaach ze kreéieren an huet säin Undeel un Objeten gewielt fir blockéieren, fir d'Schwieregkeetsspill fir Géigner ze komplizéieren.

D'Wëssenschaftler bemierken och e wichtege Punkt am Zesummenhang mam Afloss vun der Unzuel vun Trainingsobjekter (d'Quantitéit vun Daten, déi duerch den neurale Netzwierk passéiert - "Batch Size") op d'Léiergeschwindegkeet. De Standardmodell erfuerdert 132,3 Millioune Matcher iwwer 34 Stonnen Training fir de Punkt z'erreechen wou d'Verstoppt Team geléiert huet Rampen ze blockéieren, während méi Daten zu enger merkbarer Reduktioun vun der Trainingszäit gefouert hunn. Zum Beispill, d'Erhéijung vun der Unzuel vun de Parameteren (Deel vun den Donnéeën, déi während dem ganzen Trainingsprozess kritt goufen) vun 0,5 Milliounen op 5,8 Milliounen erhéicht d'Probeeffizienz ëm 2,2 Mol, an d'Erhéijung vun der Gréisst vun den Inputdaten vu 64 KB op 128 KB reduzéiert Training Zäit bal annerhallef Mol.

Um Enn vun hirer Aarbecht hunn d'Fuerscher decidéiert ze testen wéi vill In-Game Training Agenten hëllefe mat ähnlechen Aufgaben ausserhalb vum Spill ze këmmeren. Et goufen fënnef Tester am Ganzen: Bewosstsinn vun der Zuel vun Objeten (Versteesdemech datt en Objet weider existeiert och wann et aus Vue ass an net benotzt); "Spär a Retour" - d'Fähigkeit fir seng ursprénglech Positioun ze erënneren an zréckzekommen nodeems Dir eng zousätzlech Aufgab ofgeschloss huet; "sequenziell Blockéierung" - 4 Këschte ware zoufälleg an dräi Zëmmeren ouni Dieren, awer mat Rampen fir dobannen ze kommen, waren Agenten néideg fir se all ze fannen an ze blockéieren; Placement vun Këschte op virbestëmmten Siten; en Ënnerdaach ronderëm en Objet a Form vun engem Zylinder ze kreéieren.

Als Resultat, an dräi vu fënnef Aufgaben, hunn Bots, déi virausbildung am Spill erlieft hunn, méi séier geléiert a besser Resultater gewisen wéi AI, déi trainéiert gouf fir Problemer vun Null ze léisen. Si hunn e bësse besser gemaach fir d'Aufgab ofzeschléissen an zréck an d'Startplaz zréckzekommen, sequenziell Këschte an zouenen Zëmmeren ze blockéieren, a Këschte a bestëmmte Beräicher ze placéieren, awer liicht méi schwaach gemaach fir d'Zuel vun den Objeten z'erkennen an de Cover ronderëm en aneren Objet ze kreéieren.

Fuerscher schreiwen gemëschte Resultater un wéi AI bestëmmte Fäegkeeten léiert an erënnert. "Mir denken datt d'Aufgaben, wou am Spill Pre-Training am Beschten gesuergt huet, d'Wiederbenotzen vun virdru geléierte Fäegkeeten op eng vertraute Manéier involvéiert, wärend déi verbleiwen Aufgaben besser ausféieren wéi d'AI, déi vun Null trainéiert ass, se op eng aner Manéier ze benotzen, wat vill méi schwéier", schreiwen d'Co-Auteuren vum Wierk. "Dëst Resultat beliicht d'Noutwendegkeet Methoden z'entwéckelen fir effektiv Fäegkeeten, déi duerch Training erfaasst ginn, ze entwéckelen wann se vun engem Ëmfeld an en anert transferéiert ginn."

D'Aarbecht gemaach ass wierklech beandrockend, well d'Perspektiv fir dës Léiermethod ze benotzen ass wäit iwwer d'Grenze vun all Spiller. D'Fuerscher soen datt hir Aarbecht e bedeitende Schrëtt ass fir AI ze kreéieren mat "Physik-baséiert" a "mënschähnlech" Verhalen, déi Krankheeten diagnostizéieren, d'Strukturen vu komplexe Proteinmoleküle viraussoen an CT-Scans analyséieren.

Am Video hei drënner kënnt Dir kloer gesinn wéi de ganze Léierprozess stattfonnt huet, wéi d'AI Teamwork geléiert huet, a seng Strategien ëmmer méi lëschteg a komplex ginn.

Source: 3dnews.ru

OpenAI léiert AI Teamwork an engem Spill vu verstoppt a sichen

Setzt e Commentaire annuléieren reply