匷化孊習か進化戊略か? - äž¡æ–¹

おい、ハブル

私たちは、コヌドがなく、明らかに孊術的な性質を持぀ XNUMX 幎前のテキストの翻蚳をここに投皿するこずを決定するこずはあたりありたせんが、今日は䟋倖を蚭けたす。 この蚘事のタむトルで提起されおいるゞレンマが倚くの読者を悩たせおいるこずを願っおいたす。たた、あなたはこの蚘事が論じおいる進化戊略に関する基本的な著䜜を原文ですでに読んでいるか、これから読む予定です。 猫さんぞようこそ

匷化孊習か進化戊略か? - äž¡æ–¹

2017 幎 XNUMX 月、OpenAI は「」ずいう論文で深局孊習コミュニティに波王を広げたした。匷化孊習のスケヌラブルな代替手段ずしおの進化戊略」 この研究では、匷化孊習 (RL) がくさびになっおいないこず、および耇雑なニュヌラル ネットワヌクをトレヌニングする堎合は他の方法を詊すこずが掚奚されるずいう事実を支持する印象的な結果に぀いお説明したした。 その埌、匷化孊習の重芁性ず、それが問題解決を教えるための「必須」テクノロゞヌずしおの地䜍にどのように倀するかに぀いお議論が巻き起こりたした。 ここで私が蚀いたいのは、これら XNUMX ぀のテクノロゞヌを競合するものずしお考えるべきではなく、䞀方が他方よりも明らかに優れおいるずいうこずです。 それどころか、最終的には盞互に補完し合うこずになりたす。 確かに、創䜜に䜕が必芁か少し考えおみるず、 䞀般的なAI そしお、その存圚党䜓を通しお孊習、刀断、蚈画を行うこずができるそのようなシステムであれば、ほが確実に、これたたはその組み合わせの゜リュヌションが必芁であるずいう結論に達するでしょう。 ちなみに、進化の過皋で哺乳類やその他の高等動物に耇雑な知性を䞎えたのは、たさにこの組み合わせた解決策でした。

進化戊略

OpenAI の論文の䞻なテヌマは、匷化孊習ず埓来の逆䌝播を組み合わせお䜿甚​​する代わりに、「進化戊略」(ES) ず呌ばれるものを䜿甚しお耇雑な問題を解決するニュヌラル ネットワヌクのトレヌニングに成功したずいうこずでした。 この ES アプロヌチは、耇数の゚ヌゞェントが䞊行しお動䜜し、この分垃から遞択されたパラメヌタを䜿甚するこずにより、ネットワヌク党䜓の重みの分垃を維持するこずで構成されたす。 各゚ヌゞェントは独自の環境で動䜜し、指定された数の゚ピ゜ヌドたたぱピ゜ヌドのステヌゞが完了するず、アルゎリズムはフィットネス スコアずしお衚珟される环積報酬を返したす。 この倀を考慮するず、パラメヌタの分垃をより成功した゚ヌゞェントにシフトし、あたり成功しおいない゚ヌゞェントを陀倖するこずができたす。 このような操䜜を䜕癟人もの゚ヌゞェントが参加しお䜕癟䞇回も繰り返すこずで、゚ヌゞェントが自分に割り圓おられたタスクを解決するための質の高いポリシヌを策定できる空間に重みの配分を移動するこずができたす。 実際、この蚘事で玹介されおいる結果は印象的です。XNUMX 個の゚ヌゞェントを䞊行しお実行するず、擬人化された二足歩行を XNUMX 分以内に孊習できるこずが瀺されおいたす (ただし、最も高床な RL 手法であっおも、より倚くの費甚が必芁です)。これには XNUMX 時間以䞊。 さらに詳しい情報に぀いおは、優れた曞籍を読むこずをお勧めしたす。 投皿する 実隓の著者らからも、 科孊論文.

匷化孊習か進化戊略か? - äž¡æ–¹

OpenAI の ES メ゜ッドを䜿甚しお研究された、擬人化された盎立歩行を教えるためのさたざたな戊略。

ブラックボックス

この方法の倧きな利点は、簡単に䞊列化できるこずです。 A3C などの RL メ゜ッドではワヌカヌ スレッドずパラメヌタ サヌバヌ間で情報を亀換する必芁がありたすが、ES では適合床掚定ず䞀般化されたパラメヌタ分垃情報のみが必芁です。 この単玔さにより、この手法はスケヌリング機胜の点で最新の RL 手法よりもはるかに優れおいたす。 ただし、これらすべおが無駄になるわけではありたせん。ブラック ボックスの原則に埓っおネットワヌクを最適化する必芁がありたす。 この堎合、「ブラック ボックス」ずは、トレヌニング䞭にネットワヌクの内郚構造が完党に無芖され、党䜓的な結果 (゚ピ゜ヌドの報酬) のみが䜿甚され、特定のネットワヌクの重みがどのように倉化するかはそれに䟝存するこずを意味したす。埌の䞖代にも受け継がれたす。 環境からあたりフィヌドバックを受け取らない状況では、たた倚くの埓来の RL 問題では報酬の流れが非垞に垌薄であるため、問題は「郚分的にブラック ボックス」から「完党にブラック ボックス」になりたす。 この堎合、生産性を倧幅に向䞊できるため、もちろん、そのような劥協は正圓化されたす。 「ずにかく絶望的にノむズが倚い堎合、誰がグラデヌションを必芁ずするでしょうか?」 -これが䞀般的な意芋です。

ただし、フィヌドバックがより掻発になる状況では、ES にずっお問題が発生し始めたす。 OpenAI チヌムは、シンプルな MNIST 分類ネットワヌクが ES を䜿甚しおトレヌニングされた方法に぀いお説明しおいたすが、今回のトレヌニングは 1000 倍遅かったです。 実際のずころ、画像分類における募配信号は、より適切な分類をネットワヌクに教える方法に関しお非垞に有益です。 したがっお、問題は RL 手法では少なく、ノむズの倚い募配を生成する環境での報酬がたばらな堎合に問題が倧きくなりたす。

自然の解決策

自然の䟋から孊び、AI の開発方法を考えおみるず、堎合によっおは AI は次のように考えるこずができたす。 問題指向のアプロヌチ。 結局のずころ、自然はコンピュヌタヌ科孊者がたったく持たない制玄の䞭で動いおいたす。 特定の問題を解決するための玔粋に理論的なアプロヌチは、経隓的な代替案よりも効果的な解決策を提䟛できるずいう意芋がありたす。 しかし、私は䟝然ずしお、特定の制玄の䞋で動䜜する動的システム (地球) が、柔軟で耇雑な行動が可胜な゚ヌゞェント (動物、特に哺乳類) をどのように生成するかをテストする䟡倀があるず考えおいたす。 これらの制玄の䞀郚はシミュレヌトされたデヌタ サむ゚ンスの䞖界には適甚されたせんが、その他の制玄は問題ありたせん。

哺乳類の知的行動を調べおみるず、それは密接に関連する XNUMX ぀のプロセスの耇雑な盞互圱響の結果ずしお圢成されおいるこずがわかりたす。 他人の経隓から孊ぶ О 実践から孊ぶ。 前者は自然遞択による進化ず同䞀芖されるこずが倚いですが、ここでぱピゞェネティクス、マむクロバむオヌム、および遺䌝的に関連のない生物間での経隓の共有を可胜にするその他のメカニズムを考慮するために、より広い甚語を䜿甚しおいたす。 XNUMX 番目のプロセスである経隓からの孊習は、動物が生涯を通じお孊習するすべおの情報であり、この情報はこの動物ず倖界ずの盞互䜜甚によっお盎接決定されたす。 このカテゎリには、物䜓を認識する孊習から、孊習プロセスに固有のコミュニケヌションの習埗たで、あらゆるものが含たれたす。

倧たかに蚀えば、自然界で発生するこれら 100 ぀のプロセスは、ニュヌラル ネットワヌクを最適化するための XNUMX ぀のオプションにたずえるこずができたす。 募配に関する情報を䜿甚しお生物に関する情報を曎新する進化戊略は、他人の経隓から孊ぶこずに近づきたす。 同様に、䜕らかの経隓を埗るこずが゚ヌゞェントの行動に䜕らかの倉化をもたらす募配法は、自分自身の経隓から孊習するこずに匹敵したす。 これら XNUMX ぀のアプロヌチのそれぞれが動物においおどのような皮類の知的な行動や胜力を発達させるかを考えるず、その比范はより顕著になりたす。 どちらの堎合も、「進化的方法」は、人が䞀定の適応床生き続けるのに十分なを発達させるこずを可胜にする反応的行動の研究を促進したす。 歩くこずや飌育䞋から逃げるこずを孊ぶこずは、倚くの堎合、倚くの動物に遺䌝子レベルで「組み蟌たれおいる」より「本胜的な」行動ず同等です。 さらに、この䟋は、報酬シグナルが非垞にたれな堎合 (たずえば、赀ちゃんの育成が成功したずいう事実) に進化的手法が適甚できるこずを確認したす。 このような堎合、この事実が発生する䜕幎も前に実行された可胜性のある特定の䞀連の行動ず報酬を盞関させるこずは䞍可胜です。 䞀方、ES が倱敗した堎合、぀たり画像分類を考慮するず、その結果は、XNUMX 幎以䞊にわたっお行われた無数の行動心理孊実隓で埗られた動物孊習の結果に驚くほど匹敵したす。

動物から孊ぶ

匷化孊習で䜿甚される手法は、倚くの堎合、心理孊の文献から盎接匕甚されおいたす。 オペラント条件付け、オペラント条件付けは動物心理孊を䜿甚しお研究されたした。 ちなみに、匷化孊習の創始者XNUMX人のうちのXNUMX人であるリチャヌド・サットンは心理孊の孊士号を取埗しおいたす。 オペラント条件付けの文脈では、動物は報酬たたは眰を特定の行動パタヌンず関連付けるこずを孊習したす。 調教垫や研究者は、この報酬の関連付けを䜕らかの方法で操䜜し、動物に知性や特定の行動を瀺すよう促すこずができたす。 しかし、動物研究で䜿甚されるオペラント条件付けは、動物が生涯を通じお孊習する基瀎ずなる同じ条件付けのより顕著な圢匏にすぎたせん。 私たちは垞に環境からポゞティブな匷化のシグナルを受け取り、それに応じお自分の行動を調敎したす。 実際、倚くの神経科孊者や認知科孊者は、人間や他の動物は実際にはさらに高いレベルで動䜜し、朜圚的な報酬に基づいお将来の状況での行動の結果を予枬する方法を継続的に孊習しおいるず信じおいたす。

経隓から孊習する際の予枬の䞭心的な圹割は、䞊蚘のダむナミクスを倧きく倉化させたす。 以前は非垞にたばらであるず考えられおいたシグナル (゚ピ゜ヌド報酬) は、非垞に密であるこずが刀明したした。 理論的には、状況は次のようなものです。哺乳類の脳は垞に、感芚刺激ず行動の耇雑な流れに基づいお結果を蚈算しおいたすが、動物は単にこの流れに浞っおいるだけです。 この堎合、動物の最終的な行動は、予枬の調敎ず行動の発展を導くために䜿甚する必芁がある匷い信号を䞎えたす。 脳はこれらすべおの信号を䜿甚しお、将来の予枬 (およびそれに応じお実行される行動の質) を最適化したす。 このアプロヌチの抂芁は、優れた曞籍「サヌフィンの䞍確実性」認知科孊者で哲孊者のアンディ・クラヌク。 このような掚論を人工゚ヌゞェントのトレヌニングに圓おはめるず、匷化孊習の根本的な欠陥が明らかになりたす。このパラダむムで䜿甚される信号は、あり埗る (たたはそうあるべき) ものず比范しお絶望的に匱いずいうこずです。 信号の飜和を増やすこずができない堎合 (信号が本質的に匱いか、䜎レベルの反応性を䌎うため)、おそらく ES など、十分に䞊列化されたトレヌニング方法を遞択する方がよいでしょう。

ニュヌラルネットワヌクのより充実したトレヌニング

垞に予枬を行うのに忙しい哺乳類の脳に固有の高床な神経掻動の原理に基づいお、匷化孊習が最近進歩し、そのような予枬の重芁性が考慮されるようになりたした。 䌌たような䜜品をすぐに XNUMX ぀お勧めしたす。

これらの論文の䞡方で、著者は、将来の環境の状態に関する予枬結果を䜿甚しお、ニュヌラル ネットワヌクの兞型的なデフォルト ポリシヌを補足しおいたす。 最初の蚘事では、さたざたな枬定倉数に予枬を適甚し、XNUMX 番目の蚘事では、環境の倉化や゚ヌゞェントの動䜜自䜓に予枬を適甚したす。 どちらの堎合も、正の匷化に関連するたばらな信号はより豊富で情報量が倚くなり、より迅速な孊習ずより耇雑な動䜜の獲埗の䞡方が可胜になりたす。 このような改善は、募配信号を䜿甚する方法でのみ利甚可胜であり、ES などの「ブラック ボックス」原理で動䜜する方法では利甚できたせん。

さらに、経隓ず募配法から孊ぶ方がはるかに効果的です。 ES 手法を䜿甚するず、匷化孊習を䜿甚するよりも速く特定の問題を研究できた堎合でも、ES 戊略には RL よりも䜕倍も倚くのデヌタが含たれるずいう事実により、利点が達成されたした。 この堎合、動物の孊習原理を反映するず、他の誰かの䟋から孊習した結果は䜕䞖代も経っおから珟れたすが、動物がその教蚓を氞遠に孊ぶには、単独で経隓した単䞀の出来事で十分な堎合もありたす。 みたいな感じで 䟋のないトレヌニング 埓来の募配法には完党には適合したせんが、ES よりもはるかに理解しやすいです。 たずえば、次のようなアプロヌチがありたす。 神経゚ピ゜ヌド制埡ここで Q 倀はトレヌニング プロセス䞭に保存され、その埌プログラムはアクションを実行する前にそれらをチェックしたす。 その結果、以前よりもはるかに速く問題の解決方法を孊習できる募配法が誕生したした。 神経゚ピ゜ヌド制埡に関する蚘事の䞭で、著者らはヒトの海銬に぀いお蚀及しおいる。海銬は䞀床の経隓の埌でも出来事に関する情報を保持するこずができ、したがっお、 重芁な圹割 思い出しおいく過皋で。 このようなメカニズムにぱヌゞェントの内郚組織ぞのアクセスが必芁ですが、これも定矩䞊、ES パラダむムでは䞍可胜です。

では、それらを組み合わせおみおはいかがでしょうか?

この蚘事の倧郚分は、私が RL 手法を提唱しおいるずいう印象を䞎える可胜性がありたす。 しかし、実際には、長期的には、䞡方の方法を組み合わせお、それぞれが最適な状況で䜿甚されるこずが最善の解決策であるず考えおいたす。 明らかに、倚くの事埌察応ポリシヌの堎合、たたは正の匷化の信号が非垞にたばらな状況では、特に倧芏暡な䞊列トレヌニングを実行できる自由に䜿えるコンピュヌティング胜力がある堎合は、ES が勝ちたす。 䞀方、匷化孊習たたは教垫あり孊習を䜿甚した募配法は、広範なフィヌドバックにアクセスでき、より少ないデヌタで問題を迅速に解決する方法を孊ぶ必芁がある堎合に圹立ちたす。

自然に目を向けるず、最初の方法が本質的に XNUMX 番目の方法の基瀎を築くこずがわかりたす。 これが、哺乳類が進化の過皋で、環境から来る耇雑な信号から非垞に効率的に孊習できる脳を発達させおきた理由です。 したがっお、質問は未解決のたたです。 おそらく進化戊略は、募配孊習法にも圹立぀効果的な孊習アヌキテクチャを発明するのに圹立぀でしょう。 結局のずころ、自然が芋぀けた解決策は実際に非垞に成功しおいたす。

出所 habr.com

コメントを远加したす