DeepMind Agent57 AI は人間よりも Atari ゲームに勝つ

シンプルなビデオ ゲームでニューラル ネットワークを実行することは、完了結果を簡単に評価できるため、トレーニングの有効性をテストする理想的な方法です。 DeepMind (Alphabet の一部) によって 2012 年に開発された、57 の象徴的な Atari 2600 ゲームのベンチマークは、自己学習システムの機能をテストするためのリトマス試験紙となりました。そしてこちらは、先進的な RL エージェント (強化学習) DeepMind である Agent57 です。 示した 以前のシステムからの大きな進歩であり、人間のプレイヤーのベースラインを超えた最初の AI の反復でした。

DeepMind Agent57 AI は人間よりも Atari ゲームに勝つ

Agent57 AI は、同社の以前のシステムの経験を考慮に入れ、環境を効率的に探索するためのアルゴリズムとメタ制御を組み合わせています。特に、Agent57 は、以前のニューラル ネットワークを厳しくテストしたゲームである Pitfall、Montezuma'sリベンジ、Solaris、Skiing で超人的なスキルを証明しました。研究によると、ピットフォールとモンテズマの復讐により、AI はより良い結果を達成するためにさらに実験することになります。 Solaris と Skiing は、成功の兆候があまりないため、ニューラル ネットワークにとって困難です。AI は、自分が正しいことをしているかどうかを長い間知りません。 DeepMind は従来の AI エージェントを基盤として構築されており、Agent57 が環境の探索やゲームのパフォーマンスの評価についてより適切な意思決定を行えるようにするとともに、スキーなどのゲームにおける短期的な動作と長期的な動作の間のトレードオフを最適化できるようにしています。

その結果は素晴らしいものですが、AI の進歩にはまだ長い道のりがあります。これらのシステムは一度に XNUMX つのゲームしか処理できませんが、開発者によれば、これは人間の能力に反しており、「人間の脳に簡単に与えられる真の柔軟性は、依然として AI には及ばないのです。」



出所: 3dnews.ru

コメントを追加します