DeepMind AI meistert Teamplay und übertrifft Menschen in Quake III

„Capture the Flag“ ist ein recht einfacher Wettbewerbsmodus, der in vielen beliebten Shootern zu finden ist. Jedes Team hat einen Marker an seiner Basis und das Ziel besteht darin, den Marker des gegnerischen Teams zu erobern und ihn erfolgreich zu sich selbst zu bringen. Was für Menschen jedoch leicht zu verstehen ist, ist für Maschinen nicht so einfach. Um die Flagge zu erobern, werden Nicht-Spieler-Charaktere (Bots) traditionell mithilfe von Heuristiken und einfachen Algorithmen programmiert, die eine begrenzte Wahlfreiheit bieten und den Menschen deutlich unterlegen sind. Doch künstliche Intelligenz und maschinelles Lernen versprechen, diese Situation völlig zu ändern.

В Artikel, veröffentlicht diese Woche in der Zeitschrift Science etwa ein Jahr später Vordruckund so in dein blogForscher von DeepMind, einer in London ansässigen Tochtergesellschaft von Alphabet, beschreiben ein System, das nicht nur lernen kann, auf den Quake III Arena-Karten von id Software die Flagge zu erobern, sondern auch völlig neue Teamstrategien entwickeln kann, die einem Menschen in nichts nachstehen.

DeepMind AI meistert Teamplay und übertrifft Menschen in Quake III

„Niemand hat der KI gesagt, wie sie dieses Spiel spielen soll, sie hatte nur das Ergebnis – ob die KI ihren Gegner besiegt hat oder nicht.“ Das Schöne an diesem Ansatz ist, dass man nie weiß, welches Verhalten sich zeigen wird, wenn man Agenten trainiert“, sagt Max Jaderberg, ein Forschungswissenschaftler bei DeepMind, der zuvor am maschinellen Lernsystem AlphaStar gearbeitet hat (in jüngerer Zeit). übertroffen menschliches Team von Profis in StarCraft II). Er erklärte weiter, dass die Schlüsselmethode ihrer neuen Arbeit erstens verstärktes Lernen sei, das eine Art Belohnungssystem nutzt, um Software-Agenten dazu zu bringen, gesetzte Ziele zu erreichen, und dass das Belohnungssystem unabhängig davon funktionierte, ob das KI-Team gewann oder nicht , aber zweitens wurden Agenten in Gruppen trainiert, was die KI zwang, die Teaminteraktion von Anfang an zu beherrschen.

„Aus Forschungssicht ist das ein Novum für einen algorithmischen Ansatz, der wirklich spannend ist“, fügte Max hinzu. „Die Art und Weise, wie wir unsere KI trainiert haben, zeigt gut, wie wir einige klassische Evolutionsideen skalieren und umsetzen können.“

DeepMind AI meistert Teamplay und übertrifft Menschen in Quake III

Die Agenten von DeepMind tragen den provokanten Namen For The Win (FTW) und lernen direkt aus Bildschirmpixeln mithilfe eines Faltungs-Neuronalen Netzwerks, einer Reihe mathematischer Funktionen (Neuronen), die in Schichten angeordnet sind, die dem menschlichen visuellen Kortex nachempfunden sind. Die empfangenen Daten werden an zwei Netzwerke mit mehreren Kurzzeitgedächtnissen (englisch Long Short-Term Memory – LSTM) übertragen, die in der Lage sind, langfristige Abhängigkeiten zu erkennen. Einer von ihnen verwaltet Betriebsdaten mit hoher Reaktionsgeschwindigkeit, während der andere langsam an der Analyse und Formulierung von Strategien arbeitet. Beide sind mit dem Variationsgedächtnis verbunden, das sie gemeinsam nutzen, um Veränderungen in der Spielwelt vorherzusagen und Aktionen über den emulierten Gamecontroller auszuführen.

DeepMind AI meistert Teamplay und übertrifft Menschen in Quake III

Insgesamt trainierte DeepMind 30 Agenten, gab ihnen eine Reihe von Teamkollegen und Gegnern zum Spielen und wählte zufällig Spielkarten aus, um zu verhindern, dass sich die KI an sie erinnert. Jeder Agent hatte sein eigenes Belohnungssignal, das es ihm ermöglichte, seine eigenen internen Ziele zu schaffen, wie zum Beispiel die Eroberung der Flagge. Jede KI spielte einzeln etwa 450 Capture the Flag-Spiele, was etwa vier Jahren Spielerfahrung entspricht.

Vollständig ausgebildete FTW-Agenten haben gelernt, Strategien anzuwenden, die für jede Karte, Teamaufstellung und Teamgröße gelten. Sie lernten menschliche Verhaltensweisen, wie zum Beispiel Teamkameraden zu folgen, in einer feindlichen Basis zu campen und ihre Basis vor Angreifern zu verteidigen, und verloren nach und nach weniger vorteilhafte Muster, wie zum Beispiel einen Verbündeten zu genau zu beobachten.

Welche Ergebnisse wurden also erzielt? In einem 40-Personen-Turnier, bei dem Menschen und Agenten zufällig sowohl zusammen als auch gegeneinander spielten, übertrafen FTW-Agenten die Siegquote menschlicher Spieler deutlich. Die Elo-Bewertung der KI, also die Gewinnwahrscheinlichkeit, lag bei 1600, verglichen mit 1300 für „starke“ menschliche Spieler und 1050 für den „durchschnittlichen“ menschlichen Spieler.

DeepMind AI meistert Teamplay und übertrifft Menschen in Quake III

Dies ist nicht verwunderlich, da die Reaktionsgeschwindigkeit der KI deutlich höher ist als die eines Menschen, was ersterer in den ersten Experimenten einen deutlichen Vorteil verschaffte. Aber selbst wenn die Genauigkeit der Agenten verringert und die Reaktionszeit dank der eingebauten Latenz von 257 Millisekunden erhöht wurde, war die KI immer noch besser als der Mensch. Fortgeschrittene und Gelegenheitsspieler gewannen nur 21 % bzw. 12 % der gesamten Spiele.

Darüber hinaus beschlossen die Wissenschaftler nach der Veröffentlichung der Studie, Agenten auf vollwertigen Quake III Arena-Karten mit komplexer Level-Architektur und zusätzlichen Objekten wie Future Crossings und Ironwood zu testen, wo die KI begann, Menschen in Testspielen erfolgreich herauszufordern . Als die Forscher die Aktivierungsmuster der neuronalen Netzwerke der Agenten untersuchten, also die Funktionen der Neuronen, die für die Bestimmung der Ausgabe basierend auf eingehenden Informationen verantwortlich sind, fanden sie Cluster, die Räume, den Status von Flaggen, die Sichtbarkeit von Teamkollegen und Gegnern usw. darstellen die Anwesenheit oder Abwesenheit von Agenten an der feindlichen Basis. oder teambasiert und andere wichtige Aspekte des Gameplays. Die trainierten Agenten enthielten sogar Neuronen, die bestimmte Situationen direkt kodierten, etwa wenn eine Flagge von einem Agenten erobert wurde oder wenn ein Verbündeter sie hielt.

„Ich denke, eines der Dinge, die es zu beachten gilt, ist, dass diese Multi-Agenten-Teams äußerst leistungsfähig sind, und unsere Studie zeigt das“, sagt Jaderberg. „Das ist es, was wir in den letzten Jahren immer besser machen können – wie wir das Problem des verstärkenden Lernens lösen können.“ Und das erweiterte Training hat wirklich hervorragend funktioniert.“

Thore Graepel, Professor für Informatik am University College London und DeepMind-Wissenschaftler, ist davon überzeugt, dass ihre Arbeit das Potenzial des Multi-Agenten-Lernens für die Zukunft der KI hervorhebt. Es kann auch als Grundlage für die Erforschung der Mensch-Maschine-Interaktion und sich ergänzender oder zusammenarbeitender Systeme dienen.

„Unsere Ergebnisse zeigen, dass Multi-Agent-Verstärkungslernen ein komplexes Spiel so erfolgreich meistern kann, dass menschliche Spieler sogar glauben, dass Computerspieler die besseren Teamkollegen sind. Die Studie liefert auch eine äußerst interessante und detaillierte Analyse darüber, wie sich geschulte Agenten verhalten und zusammenarbeiten, sagt Grapel. „Was diese Ergebnisse so spannend macht, ist, dass diese Agenten ihre Umgebung in der Ich-Perspektive wahrnehmen, [also] genau wie ein menschlicher Spieler.“ Um zu lernen, wie man taktisch spielt und mit seinen Teamkollegen zusammenarbeitet, mussten sich diese Agenten auf das Feedback zu den Spielergebnissen verlassen, ohne dass ihnen ein Lehrer oder Trainer zeigte, was sie tun sollten.“



Source: 3dnews.ru

Kommentar hinzufügen