E gutt al-äusgeleiert Spill vu Verstoppen kann e super Test fir kënschtlech Intelligenz (AI) Bots sinn fir ze weisen wéi se Entscheedungen treffen an interagéieren mateneen a verschiddenen Objeten ronderëm si.
An hir
Wëssenschaftler hunn eng Method benotzt déi laang seng Ruhm gewonnen huet
Fir AI ze trainéieren fir verstoppt a sichen ze spillen, hunn d'Wëssenschaftler eng Approche genannt "Undirected Exploration" benotzt, dat ass wou d'Agenten komplett Fräiheet hunn hir Verständnis vun der Spillwelt z'entwéckelen a Gewënnstrategien z'entwéckelen. Dëst ass ähnlech wéi d'Multi-Agent Léier Approche déi Fuerscher bei DeepMind benotzt hunn wa verschidde kënschtlech Intelligenz Systemer
An engem Verstoppespill waren e puer Agenten, deenen hir Aarbecht et war ze verstoppen, gefuerdert fir d'Siichtlinn vun hire Géigner no engem liichte Virsprong ze vermeiden, während d'Equipe vun de Sichagenten immobiliséiert war. Ausserdeem ass d'"Sichtlinn" an dësem Kontext eng 135 Grad Kegel virun engem individuellen Bot. Agente konnten sech net ze wäit ausserhalb vum Spillberäich venturen a ware gezwongen, zoufälleg generéiert Zëmmeren ze navigéieren mat der Fäegkeet fir e puer extern Objeten ze benotzen (Këschten, bewegbar Maueren, speziell Rampen), déi ronderëm verspreet kënne ginn, déi souwuel benotzt kënne fir Cover ze kreéieren an an hinnen ze infiltréieren .
Duerch e laange Léierprozess hunn d'AI-Agenten sechs eenzegaarteg Strategien geléiert, déi all hinnen gehollef hunn op déi nächst Etapp vum Spill weiderzekommen. Am Ufank sinn d'Sicher- an d'Hider-Equipen einfach fortgelaf an hunn sech géigesäiteg gejot, awer no ronn 25 Millioune Matcher huet d'Hider-Team geléiert Passagen mat Këschten ze blockéieren an Ënnerdaach aus hinnen ze bauen. No weideren 75 Millioune Matcher huet d'Team Weeër entdeckt fir Rampen ze benotzen fir an dës Verstoppt ze kommen. No weideren 10 Millioune Ronnen hunn d'Verstopper geléiert Rampen op de Rand vum Spillberäich ze zéien an se op der Plaz ze spären fir ze verhënneren datt Géigner se benotzen.
No 388 Millioune Mätscher hunn d'Sicher geléiert blockéiert Rampen ze benotzen fir op d'Këschten ze klammen déi hinnen bruecht goufen, an dann, direkt op si plënneren, feindlech Hideouts erstallt aus portable Maueren penetréieren. A schlussendlech, no 458 Millioune Matcher, huet d'Verstoppequipe ofgeschloss datt se all Objete musse blockéieren an dann en Ënnerstand bauen, wat anscheinend zu hirer definitiver Victoire gefouert huet.
Wat besonnesch beandrockend ass, ass datt no 22 Millioune Matcher d'Agente geléiert hunn hir Handlungen ze koordinéieren an d'Effizienz vun hirer Zesummenaarbecht nëmmen an der Zukunft eropgaange sinn, zum Beispill, jidderee huet seng eege Këscht oder Mauer bruecht fir en Ënnerdaach ze kreéieren an huet säin Undeel un Objeten gewielt fir blockéieren, fir d'Schwieregkeetsspill fir Géigner ze komplizéieren.
D'Wëssenschaftler bemierken och e wichtege Punkt am Zesummenhang mam Afloss vun der Unzuel vun Trainingsobjekter (d'Quantitéit vun Daten, déi duerch den neurale Netzwierk passéiert - "Batch Size") op d'Léiergeschwindegkeet. De Standardmodell erfuerdert 132,3 Millioune Matcher iwwer 34 Stonnen Training fir de Punkt z'erreechen wou d'Verstoppt Team geléiert huet Rampen ze blockéieren, während méi Daten zu enger merkbarer Reduktioun vun der Trainingszäit gefouert hunn. Zum Beispill, d'Erhéijung vun der Unzuel vun de Parameteren (Deel vun den Donnéeën, déi während dem ganzen Trainingsprozess kritt goufen) vun 0,5 Milliounen op 5,8 Milliounen erhéicht d'Probeeffizienz ëm 2,2 Mol, an d'Erhéijung vun der Gréisst vun den Inputdaten vu 64 KB op 128 KB reduzéiert Training Zäit bal annerhallef Mol.
Um Enn vun hirer Aarbecht hunn d'Fuerscher decidéiert ze testen wéi vill In-Game Training Agenten hëllefe mat ähnlechen Aufgaben ausserhalb vum Spill ze këmmeren. Et goufen fënnef Tester am Ganzen: Bewosstsinn vun der Zuel vun Objeten (Versteesdemech datt en Objet weider existeiert och wann et aus Vue ass an net benotzt); "Spär a Retour" - d'Fähigkeit fir seng ursprénglech Positioun ze erënneren an zréckzekommen nodeems Dir eng zousätzlech Aufgab ofgeschloss huet; "sequenziell Blockéierung" - 4 Këschte ware zoufälleg an dräi Zëmmeren ouni Dieren, awer mat Rampen fir dobannen ze kommen, waren Agenten néideg fir se all ze fannen an ze blockéieren; Placement vun Këschte op virbestëmmten Siten; en Ënnerdaach ronderëm en Objet a Form vun engem Zylinder ze kreéieren.
Als Resultat, an dräi vu fënnef Aufgaben, hunn Bots, déi virausbildung am Spill erlieft hunn, méi séier geléiert a besser Resultater gewisen wéi AI, déi trainéiert gouf fir Problemer vun Null ze léisen. Si hunn e bësse besser gemaach fir d'Aufgab ofzeschléissen an zréck an d'Startplaz zréckzekommen, sequenziell Këschte an zouenen Zëmmeren ze blockéieren, a Këschte a bestëmmte Beräicher ze placéieren, awer liicht méi schwaach gemaach fir d'Zuel vun den Objeten z'erkennen an de Cover ronderëm en aneren Objet ze kreéieren.
Fuerscher schreiwen gemëschte Resultater un wéi AI bestëmmte Fäegkeeten léiert an erënnert. "Mir denken datt d'Aufgaben, wou am Spill Pre-Training am Beschten gesuergt huet, d'Wiederbenotzen vun virdru geléierte Fäegkeeten op eng vertraute Manéier involvéiert, wärend déi verbleiwen Aufgaben besser ausféieren wéi d'AI, déi vun Null trainéiert ass, se op eng aner Manéier ze benotzen, wat vill méi schwéier", schreiwen d'Co-Auteuren vum Wierk. "Dëst Resultat beliicht d'Noutwendegkeet Methoden z'entwéckelen fir effektiv Fäegkeeten, déi duerch Training erfaasst ginn, ze entwéckelen wann se vun engem Ëmfeld an en anert transferéiert ginn."
D'Aarbecht gemaach ass wierklech beandrockend, well d'Perspektiv fir dës Léiermethod ze benotzen ass wäit iwwer d'Grenze vun all Spiller. D'Fuerscher soen datt hir Aarbecht e bedeitende Schrëtt ass fir AI ze kreéieren mat "Physik-baséiert" a "mënschähnlech" Verhalen, déi Krankheeten diagnostizéieren, d'Strukturen vu komplexe Proteinmoleküle viraussoen an CT-Scans analyséieren.
Am Video hei drënner kënnt Dir kloer gesinn wéi de ganze Léierprozess stattfonnt huet, wéi d'AI Teamwork geléiert huet, a seng Strategien ëmmer méi lëschteg a komplex ginn.
Source: 3dnews.ru