DeepMind AI はチヌムプレむをマスタヌし、Quake III で人間を䞊回るパフォヌマンスを発揮

キャプチャヌ・ザ・フラッグは、倚くの人気シュヌタヌに芋られるかなりシンプルな察戊モヌドです。 各チヌムの拠点にはマヌカヌがあり、目暙は盞手のマヌカヌを捕らえ、うたく自分たちのずころに持ち蟌むこずです。 しかし、人間にずっお理解しやすいこずは、機械にずっおはそれほど簡単ではありたせん。 フラッグを捕捉するために、ノンプレむダヌ キャラクタヌ (ボット) は䌝統的にヒュヌリスティックず単玔なアルゎリズムを䜿甚しおプログラムされおおり、遞択の自由が限られおおり、人間よりも著しく劣っおいたす。 しかし、人工知胜ず機械孊習は、この状況を完党に倉えるこずを玄束したす。

В статье、玄XNUMX幎埌に今週サむ゚ンス誌に掲茉されたした。 プレプリント、および あなたのブログ、ロンドンに本拠を眮くAlphabetの子䌚瀟DeepMindの研究者らは、id SoftwareのQuake III Arenaマップ䞊でキャプチャ・ザ・フラッグをプレむする方法を孊習できるだけでなく、たったく新しいチヌム戊略を開発するこずもできるシステムに぀いお説明しおいる。

DeepMind AI はチヌムプレむをマスタヌし、Quake III で人間を䞊回るパフォヌマンスを発揮

「誰もAIにこのゲヌムのプレむ方法を教えたわけではなく、AIが察戊盞手に勝぀かどうかずいう結果だけを持っおいたした。 このアプロヌチを䜿甚する利点は、゚ヌゞェントをトレヌニングするずきにどのような動䜜が珟れるか決しお分からないこずです」ず、以前は機械孊習システム AlphaStar に携わっおいた DeepMind の研究科孊者 Max Jaderberg 氏は蚀いたす (最近では 超えた StarCraft II の専門家の人間チヌム)。 同氏はさらに、圌らの新しい取り組みの重芁な手法は、たず匷化孊習であり、䞀皮の報酬システムを䜿甚しお゜フトりェア゚ヌゞェントに蚭定された目暙を達成するよう促すものであり、報酬システムはAIチヌムが勝ったかどうかに関係なく機胜したず説明した。しかし、第二に、゚ヌゞェントはグルヌプで蚓緎されたため、AIは最初からチヌムむンタラクションを習埗する必芁がありたした。

「研究の芳点から芋るず、これは非垞に゚キサむティングなアルゎリズムのアプロヌチずしおは目新しいものです」ずマックス氏は付け加えた。 「私たちが AI をトレヌニングした方法は、叀兞的な進化のアむデアをどのように拡匵しお実装するかをよく瀺しおいたす。」

DeepMind AI はチヌムプレむをマスタヌし、Quake III で人間を䞊回るパフォヌマンスを発揮

For The Win (FTW) ずいう挑発的な名前が付けられた DeepMind の゚ヌゞェントは、畳み蟌みニュヌラル ネットワヌク (人間の芖芚野をモデルにしたレむダヌに配眮された䞀連の数孊関数 (ニュヌロン)) を䜿甚しお、画面のピクセルから盎接孊習したす。 受信したデヌタは、長期䟝存関係を認識できる耇数の短期蚘憶 (英語の長期短期蚘憶 - LSTM) を備えた XNUMX ぀のネットワヌクに送信されたす。 XNUMX぀は応答速床が速く業務デヌタを管理し、もうXNUMX぀はゆっくりず分析しお戊略を策定したす。 どちらも倉分メモリに関連付けられおおり、ゲヌム䞖界の倉化を予枬し、゚ミュレヌトされたゲヌム コントロヌラを通じおアクションを実行するために䞀緒に䜿甚されたす。

DeepMind AI はチヌムプレむをマスタヌし、Quake III で人間を䞊回るパフォヌマンスを発揮

合蚈で、DeepMind は 30 人の゚ヌゞェントを蚓緎し、さたざたなチヌムメむトず察戊盞手を䞎えお、AI が蚘憶しないようにゲヌム カヌドをランダム化したした。 各゚ヌゞェントには独自の報酬信号があり、旗をキャプチャするなどの独自の内郚目暙を䜜成できたす。 各 AI は個別にキャプチャ ザ フラッグの玄 450 䞇ゲヌムをプレむしたした。これは玄 XNUMX 幎のゲヌム経隓に盞圓したす。

十分に蚓緎された FTW ゚ヌゞェントは、あらゆるマップ、チヌム名簿、チヌム芏暡に共通の戊略を適甚するこずを孊びたした。 圌らはチヌムメむトを远跡する、敵の基地でキャンプする、攻撃者から基地を守るなどの人間の行動を孊習し、味方を泚意深く監芖しすぎるなど、あたり有益ではないパタヌンを埐々に倱いたした。

それで、どのような結果が埗られたのでしょうか 人間ず゚ヌゞェントがランダムに䞀緒にプレむしたり、お互いに察戊したりする 40 人トヌナメントでは、FTW ゚ヌゞェントは人間のプレむダヌの勝率を倧幅に䞊回りたした。 AI の Elo レヌティング (勝利の確率) は 1600 でした。これに察し、「匷力な」人間プレヌダヌの堎合は 1300、「平均的な」人間プレヌダヌの堎合は 1050 でした。

DeepMind AI はチヌムプレむをマスタヌし、Quake III で人間を䞊回るパフォヌマンスを発揮

AI の反応速床は人間の反応速床よりもはるかに速く、初期の実隓では前者が倧幅に有利だったため、これは驚くべきこずではありたせん。 しかし、組み蟌みの 257 ミリ秒の遅延のおかげで゚ヌゞェントの粟床が䜎䞋し、反応時間が増加した堎合でも、AI は䟝然ずしお人間を䞊回りたした。 䞊玚プレむダヌずカゞュアルプレむダヌは、それぞれゲヌム党䜓の 21% ず 12% しか勝ちたせんでした。

さらに、研究の発衚埌、科孊者たちは、耇雑なレベルのアヌキテクチャず、Future Crossings や Ironwood などの远加オブゞェクトを備えた本栌的な Quake III Arena マップで゚ヌゞェントをテストするこずを決定し、そこで AI はテストマッチで人間にうたく挑戊し始めたした。 。 研究者らが゚ヌゞェントのニュヌラル ネットワヌクの掻性化パタヌン、぀たり、入っおくる情報に基づいお出力を決定する圹割を担うニュヌロンの機胜を調べたずころ、郚屋、旗の状態、チヌムメむトず察戊盞手の可芖性、および敵基地における゚ヌゞェントの有無、チヌムベヌス、およびゲヌムプレむのその他の重芁な偎面。 蚓緎された゚ヌゞェントには、゚ヌゞェントが旗を取ったずきや味方がそれを保持しおいたずきなど、特定の状況を盎接゚ンコヌドするニュヌロンも含たれおいたした。

「泚目すべき点の XNUMX ぀は、これらのマルチ゚ヌゞェント チヌムが非垞に匷力であるずいうこずだず思いたす。私たちの研究はそれを実蚌しおいたす」ずゞェむダヌバヌグ氏は蚀いたす。 「それが、私たちがここ数幎、より良いやり方で、匷化孊習の問題を解決する方法を孊んできたこずです。」 そしお、匷化されたトレヌニングは本圓に芋事に効果を発揮したした。」

ナニバヌシティ・カレッゞ・ロンドンのコンピュヌタ・サむ゚ンス教授でディヌプマむンドの科孊者でもあるトヌア・グレヌペル氏は、圌らの研究がAIの将来におけるマルチ゚ヌゞェント孊習の可胜性を浮き圫りにしおいるず信じおいる。 たた、人間ず機械の盞互䜜甚や、盞互に補完したり連携したりするシステムに関する研究の基瀎ずしおも機胜したす。

「私たちの結果は、マルチ゚ヌゞェント匷化孊習が、人間のプレむダヌがコンピュヌタヌプレむダヌの方がより良いチヌムメむトになるず信じるたでに、耇雑なゲヌムを銖尟よくマスタヌできるこずを瀺しおいたす。 この研究では、蚓緎された゚ヌゞェントがどのように行動し、連携するかに぀いお、非垞に興味深い詳现な分析も提䟛されおいるず Grapel 氏は述べおいたす。 「これらの結果が非垞に興味深いのは、゚ヌゞェントが自分たちの環境を䞀人称で、぀たり人間のプレむダヌず同じように認識しおいるこずです。 戊術的にプレヌし、チヌムメむトず協力する方法を孊ぶために、これらの゚ヌゞェントは、教垫やコヌチが䜕をすべきかを指瀺するこずなく、詊合結果からのフィヌドバックに頌らなければなりたせんでした。」



出所 3dnews.ru

コメントを远加したす