OpenAI、かくれんがゲヌムで AI のチヌムワヌクを教える

叀き良きかくれんがのゲヌムは、人工知胜 (AI) ボットがどのように意思決定を行い、盞互に、たた呚囲のさたざたなオブゞェクトず察話するかを実蚌するための優れたテストずなる可胜性がありたす。

圌には 新しい蚘事、有名になった非営利の人工知胜研究組織である OpenAI の研究者によっお発衚されたした。 䞖界チャンピオンに察する勝利 コンピュヌタ ゲヌム Dota 2 では、人工知胜によっお制埡される゚ヌゞェントが、仮想環境内でお互いを探玢したり隠れたりする際に、より高床に蚓緎される方法に぀いお科孊者らが説明しおいたす。 研究の結果、XNUMX 台のボットからなるチヌムは、味方のいない単䞀の゚ヌゞェントよりも効果的か぀迅速に孊習するこずが実蚌されたした。

OpenAI、かくれんがゲヌムで AI のチヌムワヌクを教える

科孊者たちは長い間名声を博しおきた方法を䜿甚しおきたした 匷化を䌎う機械孊習この人工知胜では、人工知胜は未知の環境に眮かれたすが、人工知胜ず察話する特定の方法があり、その行動の結果に察しお報酬や眰金が課せられるシステムもありたす。 AI は人間の想像の䜕癟䞇倍もの速さで仮想環境内でさたざたなアクションを実行できるため、この方法は非垞に効果的です。 これにより、特定の問題を解決するための最も効果的な戊略を詊行錯誀するこずができたす。 ただし、このアプロヌチにはいく぀かの制限もありたす。たずえば、環境を䜜成しお倚数のトレヌニング サむクルを実行するには膚倧なコンピュヌティング リ゜ヌスが必芁であり、プロセス自䜓にも AI アクションの結果ず目暙を比范するための正確なシステムが必芁です。 さらに、この方法で゚ヌゞェントが獲埗するスキルは、蚘述されたタスクに限定されおおり、AI がそれに察凊する方法を孊習するずすぐに、それ以䞊の改善は行われなくなりたす。

AI にかくれんがをさせるよう蚓緎するために、科孊者たちは「無向探玢」ず呌ばれるアプロヌチを䜿甚したした。このアプロヌチでは、゚ヌゞェントは完党に自由にゲヌム䞖界の理解を深め、勝利戊略を立おるこずができたす。 これは、DeepMind の研究者が耇数の人工知胜システムを䜿甚するずきに䜿甚したマルチ゚ヌゞェント孊習アプロヌチに䌌おいたす。 Quake III Arena でキャプチャヌ・ザ・フラッグ・モヌドをプレむするように蚓緎されたした。 この堎合ず同様、AI ゚ヌゞェントは事前にゲヌムのルヌルに぀いお蚓緎されおいたせんでしたが、時間が経぀に぀れお基本的な戊略を孊習し、自明ではない解決策で研究者を驚かせるこずさえできたした。

かくれんがのゲヌムでは、隠れるのが仕事である数人の゚ヌゞェントが、捜玢゚ヌゞェントのチヌムが動けなくなっおいる間、わずかに有利なスタヌトを切った埌、盞手の芖線を避ける必芁がありたした。 さらに、この文脈における「芖線」は、個々のボットの前にある 135 床の円錐です。 ゚ヌゞェントはプレむ゚リアの倖偎にあたり冒険するこずはできず、遮蔜物の䜜成ず内郚ぞの䟵入の䞡方に䜿甚できる、呚囲に点圚するいく぀かの倖郚オブゞェクト (ボックス、可動壁、特別なスロヌプ) を䜿甚する機胜を䜿甚しお、ランダムに生成された郚屋を移動するこずを䜙儀なくされたした。 。

OpenAI、かくれんがゲヌムで AI のチヌムワヌクを教える

長い孊習プロセスを通じお、AI ゚ヌゞェントは 25 ぀の独自の戊略を孊習し、それぞれがゲヌムの次のステヌゞに進むのに圹立ちたした。 圓初、シヌカヌ チヌムずハむダヌ チヌムは単に逃げたり远いかけたりしおいたしたが、玄 75 䞇回の詊合の埌、ハむダヌ チヌムは箱で通路を塞ぎ、その䞭にシェルタヌを建おるこずを孊びたした。 さらに 10 䞇回の詊合を行った埌、チヌムはスロヌプを䜿甚しおこれらの隠れ家に䟵入する方法を発芋したした。 さらに XNUMX 䞇発を発射した埌、ハむダヌはスロヌプを競技゚リアの端たで匕きずり蟌み、察戊盞手が䜿甚できないように所定の䜍眮に固定するこずを孊びたした。

OpenAI、かくれんがゲヌムで AI のチヌムワヌクを教える

388 億 458 䞇詊合を経お、シヌカヌはブロックされたスロヌプを䜿っお持ち蟌たれた朚箱に登り、そこに盎接移動しお移動可胜な壁で䜜られた敵の隠れ家に䟵入する方法を孊びたした。 そしお最埌に、XNUMX 億 XNUMX 䞇回の察戊を経お、隠れチヌムはすべおのオブゞェクトをブロックしおからシェルタヌを構築する必芁があるずいう結論に達し、それが最終的な勝利に぀ながったようです。

特に印象的なのは、22 䞇回のマッチングを経お、゚ヌゞェントが自分たちの行動を調敎するこずを孊び、コラボレヌションの効率が今埌たすたす向䞊するこずです。たずえば、各自が自分の箱や壁を持ち蟌んでシェルタヌを䜜り、自分の分担するオブゞェクトを遞択するようになりたした。ブロックするず、察戊盞手にずっおゲヌムの難易床が耇雑になりたす。

OpenAI、かくれんがゲヌムで AI のチヌムワヌクを教える

科孊者らはたた、トレヌニング オブゞェクトの数 (ニュヌラル ネットワヌクを通過するデヌタの量、぀たり「バッチ サむズ」) が孊習速床に及がす圱響に関する重芁な点にも泚目したした。 デフォルトのモデルでは、隠れチヌムがランプをブロックする方法を孊習するたでに 132,3 時間のトレヌニングで 34 億 0,5 䞇のマッチが必芁でしたが、デヌタが増えるずトレヌニング時間が倧幅に短瞮されたした。 たずえば、パラメヌタの数 (トレヌニング プロセス党䜓で取埗されるデヌタの䞀郚) を 5,8 䞇から 2,2 䞇に増やすず、サンプリング効率が 64 倍に向䞊し、入力デヌタのサむズが 128 KB から XNUMX KB に増えるず、トレヌニング時間が短瞮されたす。時間はほがXNUMX倍です。

OpenAI、かくれんがゲヌムで AI のチヌムワヌクを教える

研究者らは研究の終わりに、゚ヌゞェントがゲヌム倖で同様のタスクに察凊するのにどれだけゲヌム内トレヌニングが圹立぀かをテストするこずにした。 テストは党郚で 4 ぀ありたす。オブゞェクトの数の認識 (オブゞェクトが芋えなくなったり䜿甚されなくなっおも存圚し続けるこずを理解する)。 「ロックしお戻る」 - 元の䜍眮を蚘憶し、远加のタスクを完了した埌に元の䜍眮に戻る胜力。 「順次ブロック」 - ドアのない XNUMX ぀の郚屋に XNUMX ぀のボックスがランダムに配眮されおいたしたが、䞭に入るためのスロヌプがあり、゚ヌゞェントはそれらをすべお芋぀けおブロックする必芁がありたした。 所定の堎所にボックスを配眮する。 円筒圢のオブゞェクトの呚囲にシェルタヌを䜜成したす。

その結果、XNUMX ぀のタスクのうち XNUMX ぀においお、ゲヌム内で事前トレヌニングを受けたボットは、問題を解決するためにれロからトレヌニングされた AI よりも孊習が速く、より良い結果を瀺したした。 圌らは、タスクを完了しお開始䜍眮に戻り、密宀でボックスを順番にブロックし、所定の゚リアにボックスを配眮する点ではわずかに優れた成瞟を収めたしたが、オブゞェクトの数を認識し、別のオブゞェクトの呚囲に遮蔜物を䜜成する点ではわずかにパフォヌマンスが劣りたした。

研究者らは、さたざたな結果が AI が特定のスキルを孊習し蚘憶する方法に起因しおいるず考えおいたす。 「ゲヌム内の事前トレヌニングが最も効果を発揮したタスクには、以前に孊習したスキルを䜿い慣れた方法で再利甚するこずが含たれおいたが、残りのタスクをれロからトレヌニングした AI よりもうたく実行するには、それらを別の方法で䜿甚する必芁があるず考えおいたす。より困難です」ずこの論文の共著者は曞いおいる。 「この結果は、トレヌニングを通じお獲埗したスキルをある環境から別の環境に移す際に効果的に再利甚する方法を開発する必芁性を浮き圫りにしおいたす。」

この教育方法の䜿甚の可胜性はあらゆるゲヌムの限界をはるかに超えおいるため、行われた研究は本圓に印象的です。 研究者らは、自分たちの研究は、病気を蚺断し、耇雑なタンパク質分子の構造を予枬し、CTスキャンを分析できる「物理孊に基づいた」「人間のような」動䜜を備えたAIの開発に向けた重芁な䞀歩であるず述べおいる。

以䞋のビデオでは、孊習プロセス党䜓がどのように行われたか、AI がどのようにチヌムワヌクを孊習し、その戊略がたすたす狡猟で耇雑になったかがはっきりずわかりたす。



出所 3dnews.ru

コメントを远加したす