🥇OpenAI lehrt KI-Teamarbeit im Versteckspiel

Ein gutes altmodisches Versteckspiel kann ein großartiger Test für Bots mit künstlicher Intelligenz (KI) sein, um zu zeigen, wie sie Entscheidungen treffen und miteinander und mit verschiedenen Objekten in ihrer Umgebung interagieren.

in seinem neuer Artikel, veröffentlicht von Forschern von OpenAI, einer gemeinnützigen Forschungsorganisation für künstliche Intelligenz, die berühmt geworden ist Sieg über Weltmeister Im Computerspiel Dota 2 beschreiben Wissenschaftler, wie von künstlicher Intelligenz gesteuerte Agenten darauf trainiert wurden, in einer virtuellen Umgebung raffinierter zu suchen und sich voreinander zu verstecken. Die Ergebnisse der Studie zeigten, dass ein Team aus zwei Bots effektiver und schneller lernt als jeder einzelne Agent ohne Verbündete.

Wissenschaftler haben eine Methode angewendet, die seit langem berühmt ist Maschinelles Lernen mit Verstärkung, bei dem künstliche Intelligenz in einer ihr unbekannten Umgebung platziert wird und über bestimmte Arten der Interaktion mit ihr sowie ein System von Belohnungen und Geldstrafen für das eine oder andere Ergebnis ihrer Handlungen verfügt. Diese Methode ist aufgrund der Fähigkeit der KI, verschiedene Aktionen in einer virtuellen Umgebung mit enormer Geschwindigkeit auszuführen, millionenfach schneller, als sich ein Mensch vorstellen kann, sehr effektiv. Dies ermöglicht es, durch Ausprobieren die effektivsten Strategien zur Lösung eines bestimmten Problems zu finden. Dieser Ansatz weist jedoch auch einige Einschränkungen auf. Beispielsweise erfordert die Erstellung einer Umgebung und die Durchführung zahlreicher Trainingszyklen enorme Rechenressourcen, und der Prozess selbst erfordert ein genaues System zum Vergleich der Ergebnisse von KI-Aktionen mit seinem Ziel. Darüber hinaus beschränken sich die auf diese Weise erworbenen Fähigkeiten des Agenten auf die beschriebene Aufgabe und es wird keine weiteren Verbesserungen geben, sobald die KI gelernt hat, damit umzugehen.

Um der KI das Versteckenspielen beizubringen, verwendeten Wissenschaftler einen Ansatz namens „Ungerichtete Erkundung“, bei dem Agenten völlige Freiheit haben, ihr Verständnis der Spielwelt zu entwickeln und Gewinnstrategien zu entwickeln. Dies ähnelt dem Multi-Agenten-Lernansatz, den Forscher von DeepMind bei mehreren künstlichen Intelligenzsystemen verwendeten wurden darauf trainiert, den Capture-the-Flag-Modus in der Quake III Arena zu spielen. Wie in diesem Fall wurden die KI-Agenten zuvor nicht in die Spielregeln eingewiesen, lernten aber im Laufe der Zeit grundlegende Strategien und konnten Forscher sogar mit nicht trivialen Lösungen überraschen.

Bei einem Versteckspiel mussten mehrere Agenten, deren Aufgabe es war, sich zu verstecken, nach einem leichten Vorsprung der Sichtlinie ihrer Gegner ausweichen, während das Team der Suchagenten bewegungsunfähig war. Darüber hinaus ist die „Sichtlinie“ in diesem Zusammenhang ein 135-Grad-Kegel vor einem einzelnen Bot. Агенты не могли удаляться слишком далеко за пределы игровой площадки и были вынуждены перемещаться по случайно сгенерированным комнатам с возможностью использовать некоторые внешние объекты (ящики, передвижные стены, специальные пандусы), разбросанные вокруг, которые можно было использовать как для создания укрытий, так и для проникновения darin.

Durch einen langwierigen Lernprozess lernten die KI-Agenten sechs einzigartige Strategien, die ihnen jeweils dabei halfen, in die nächste Phase des Spiels zu gelangen. Anfangs rannten die Sucher- und Versteckteams einfach weg und jagten sich gegenseitig, aber nach etwa 25 Millionen Spielen lernte das Versteckteam, Durchgänge mit Kisten zu blockieren und daraus Unterstände zu bauen. Nach weiteren 75 Millionen Spielen entdeckte das Team Möglichkeiten, über Rampen in diese Verstecke zu gelangen. Nach weiteren 10 Millionen Runden lernten die Versteckspieler, Rampen an den Rand des Spielfelds zu ziehen und dort zu verriegeln, um zu verhindern, dass Gegner sie benutzen.

Nach 388 Millionen Spielen haben Sucher gelernt, über blockierte Rampen auf die ihnen gebrachten Kisten zu klettern und dann, indem sie sich direkt darauf bewegen, in feindliche Verstecke einzudringen, die aus tragbaren Wänden bestehen. Und schließlich kam das Versteckteam nach 458 Millionen Spielen zu dem Schluss, dass es alle Objekte blockieren und dann einen Unterschlupf bauen musste, was offenbar zu seinem endgültigen Sieg führte.

Besonders beeindruckend ist, dass die Agenten nach 22 Millionen Spielen lernten, ihre Aktionen zu koordinieren, und dass die Effizienz ihrer Zusammenarbeit in Zukunft nur noch zunahm. Beispielsweise brachte jeder seine eigene Kiste oder Wand mit, um einen Unterschlupf zu schaffen, und wählte seinen Anteil an Objekten aus Blockieren, um den Gegnern den Schwierigkeitsgrad des Spiels zu erschweren.

Wissenschaftler stellten auch einen wichtigen Punkt fest, der mit dem Einfluss der Anzahl der Trainingsobjekte (der durch das neuronale Netzwerk übertragenen Datenmenge – „Stapelgröße“) auf die Lerngeschwindigkeit zusammenhängt. Das Standardmodell erforderte 132,3 Millionen Spiele über 34 Trainingsstunden, um den Punkt zu erreichen, an dem das versteckte Team lernte, Rampen zu blockieren, während mehr Daten zu einer spürbaren Reduzierung der Trainingszeit führten. Beispielsweise erhöhte die Erhöhung der Anzahl der Parameter (Teil der während des gesamten Trainingsprozesses erhaltenen Daten) von 0,5 Millionen auf 5,8 Millionen die Stichprobeneffizienz um das 2,2-fache und die Erhöhung der Größe der Eingabedaten von 64 KB auf 128 KB reduzierte das Training Zeit fast eineinhalb Mal.

Am Ende ihrer Arbeit beschlossen die Forscher zu testen, wie viel Training im Spiel Agenten dabei helfen könnte, ähnliche Aufgaben außerhalb des Spiels zu bewältigen. Insgesamt gab es fünf Tests: Bewusstsein für die Anzahl der Objekte (Verstehen, dass ein Objekt auch dann weiter existiert, wenn es außer Sichtweite ist und nicht verwendet wird); „Sperren und Zurückkehren“ – die Fähigkeit, sich an die ursprüngliche Position zu erinnern und nach Abschluss einer zusätzlichen Aufgabe dorthin zurückzukehren; „Sequentielles Blockieren“ – 4 Kisten befanden sich zufällig in drei Räumen ohne Türen, aber mit Rampen, um hineinzukommen, die Agenten mussten sie alle finden und blockieren; Platzierung von Kisten an vorgegebenen Standorten; Schaffung eines Schutzes um ein Objekt in Form eines Zylinders.

Infolgedessen lernten Bots, die zuvor im Spiel trainiert worden waren, bei drei von fünf Aufgaben schneller und zeigten bessere Ergebnisse als KI, die darauf trainiert wurde, Probleme von Grund auf zu lösen. Beim Erledigen der Aufgabe und beim Zurückkehren in die Ausgangsposition, beim Blockieren von Kisten in geschlossenen Räumen und beim Platzieren von Kisten in bestimmten Bereichen waren sie etwas besser, beim Erkennen der Anzahl von Objekten und beim Erstellen von Deckung um ein anderes Objekt waren sie jedoch etwas schwächer.

Forscher führen gemischte Ergebnisse darauf zurück, wie KI bestimmte Fähigkeiten lernt und sich daran erinnert. „Wir glauben, dass die Aufgaben, bei denen das Vortraining im Spiel am besten funktionierte, darin bestanden, zuvor erlernte Fähigkeiten auf vertraute Weise wiederzuverwenden, während eine bessere Ausführung der verbleibenden Aufgaben als die von Grund auf trainierte KI eine andere Verwendung erfordern würde, was viel bedeutet.“ schwieriger“, schreiben die Co-Autoren des Werks. „Dieses Ergebnis unterstreicht die Notwendigkeit, Methoden zu entwickeln, um durch Schulungen erworbene Fähigkeiten effektiv wiederzuverwenden, wenn sie von einer Umgebung in eine andere übertragen werden.“

Die geleistete Arbeit ist wirklich beeindruckend, denn die Einsatzmöglichkeiten dieser Lehrmethode liegen weit über den Grenzen eines Spiels. Die Forscher sagen, ihre Arbeit sei ein wichtiger Schritt hin zur Entwicklung einer KI mit „physikbasiertem“ und „menschenähnlichem“ Verhalten, die Krankheiten diagnostizieren, die Strukturen komplexer Proteinmoleküle vorhersagen und CT-Scans analysieren kann.

Im Video unten können Sie deutlich sehen, wie der gesamte Lernprozess ablief, wie die KI Teamarbeit lernte und ihre Strategien immer raffinierter und komplexer wurden.

Source: 3dnews.ru

OpenAI lehrt KI-Teamarbeit in einem Versteckspiel

Kommentar hinzufügen Отменить ответ