🥇強化學習還是演化策略？ — 兩者

嘿哈布爾！

我們通常不會決定在這裡發布兩年前的、沒有代碼且明顯具有學術性質的文本翻譯 - 但今天我們將破例。我們希望文章標題中提出的困境能讓我們的許多讀者感到擔憂，並且您已經閱讀了本文在原文中爭論的有關進化策略的基礎著作，或者現在將閱讀它。歡迎來到貓！

2017年XNUMX月，OpenAI以論文《演化策略作為強化學習的可擴展替代方案」。這項工作描述了令人印象深刻的結果，有利於強化學習（RL）尚未成為楔子，並且在訓練複雜的神經網路時，建議嘗試其他方法。隨後爆發了一場關於強化學習的重要性以及它如何值得作為解決教學問題的「必備」技術的爭論。這裡我想說的是，這兩種技術不應該被認為是競爭，其中一種明顯優於另一種；相反，它們最終是相輔相成的。事實上，如果你稍微思考如何創造通用人工智慧以及這樣的系統，它們在整個存在過程中都能夠學習、判斷和規劃，那麼我們幾乎肯定會得出這樣的結論：需要這種或那種組合解決方案。順便說一句，正是大自然的這種組合解決方案，在演化過程中賦予了哺乳動物和其他高等動物複雜的智慧。

演化策略

OpenAI 論文的主要論點是，他們沒有將強化學習與傳統的反向傳播相結合，而是使用他們所謂的「演化策略」（ES）成功地訓練了一個神經網路來解決複雜的問題。這種 ES 方法包括維護網路範圍內的權重分佈，涉及多個代理並行工作並使用從此分佈中選擇的參數。每個代理在自己的環境中運行，並且在完成指定數量的情節或情節的階段後，演算法返回累積獎勵，以適應度分數表示。考慮到這個值，參數的分佈可以向更成功的代理轉移，而剝奪不太成功的代理。透過在數百個智能體的參與下重複這樣的操作數百萬次，可以將權重分佈移動到一個空間，使智能體能夠制定高品質的策略來解決分配給他們的任務。事實上，文章中呈現的結果令人印象深刻：它表明，如果並行運行XNUMX 個智能體，那麼可以在不到半小時的時間內學會兩條腿的擬人化運動（而即使是最先進的RL方法也需要花費更多時間）超過一小時）。有關更詳細的信息，我建議閱讀優秀的郵寄來自實驗的作者，以及科學文章.

使用 OpenAI 的 ES 方法研究了擬人直立行走教學的不同策略。

黑盒子

這種方法的巨大好處是可以輕鬆並行化。雖然 RL 方法（例如 A3C）需要在工作執行緒和參數伺服器之間交換訊息，但 ES 僅需要適應度估計和廣義參數分佈資訊。正是由於這種簡單性，該方法在擴展能力方面遠遠領先於現代 RL 方法。然而，這一切並沒有白費：你必須根據黑盒原理來優化網路。在這種情況下，「黑盒子」意味著在訓練過程中完全忽略網路的內部結構，只使用整體結果（每集的獎勵），並且取決於它是否會影響特定網路的權重。被後代繼承。在我們沒有從環境中收到太多回饋的情況下——並且在許多傳統的強化學習問題中，獎勵流非常稀疏——問題就會從「部分黑盒子」變成「完全黑盒子」。在這種情況下，您可以顯著提高生產力，因此，這樣的妥協當然是合理的。 “如果梯度實在是太吵了，誰還需要梯度呢？” - 這是普遍意見。

然而，在回饋更加活躍的情況下，ES 的事情就會開始出錯。 OpenAI 團隊描述如何使用 ES 訓練一個簡單的 MNIST 分類網絡，這次訓練速度慢了 1000 倍。事實上，影像分類中的梯度訊號對於如何教會網路更好地進行分類提供了非常豐富的資訊。因此，問題不在於強化學習技術，而是在產生噪音梯度的環境中獎勵稀疏。

自然的解決方案

如果我們嘗試學習自然的例子，思考如何開發人工智慧，那麼在某些情況下人工智慧可以被認為是以問題為導向的方法。畢竟，自然的運作受到電腦科學家根本沒有的限制。有一種觀點認為，解決特定問題的純理論方法可以提供比經驗替代方案更有效的解決方案。然而，我仍然認為測試在某些約束（地球）下運行的動態系統如何產生能夠靈活且複雜行為的代理（動物，特別是哺乳動物）是值得的。雖然其中一些限制不適用於模擬數據科學世界，但其他限制則很好。

在研究了哺乳動物的智力行為後，我們發現它是兩個密切相關的過程複雜相互影響的結果： 學習他人的經驗 и 邊幹邊學。前者通常等同於自然選擇驅動的演化，但在這裡我使用更廣泛的術語來考慮表觀遺傳學、微生物組和其他能夠在遺傳無關的生物體之間分享經驗的機制。第二個過程是從經驗中學習，是動物一生中設法學習的所有訊息，這些訊息直接取決於該動物與外界的互動。這個類別包括從學習辨識物件到掌握學習過程中固有的溝通的一切。

粗略地說，自然界中發生的這兩個過程可以與優化神經網路的兩種選擇進行比較。演化策略使用梯度資訊來更新有機體的信息，接近從他人的經驗中學習。類似地，在梯度方法中，獲得一種或另一種經驗會導致智能體行為的一種或另一種變化，類似於從自己的經驗中學習。如果我們考慮這兩種方法在動物身上發展出的智慧行為或能力的類型，這種比較就會變得更加明顯。在這兩種情況下，「演化方法」都促進了對反應行為的研究，這些行為使人們能夠發展出一定的適應性（足以維持生命）。在許多情況下，學習行走或逃離圈養相當於許多動物在基因層面上「固有」的更多「本能」行為。此外，這個例子證實了演化方法適用於獎勵訊號極為罕見的情況（例如，成功撫養嬰兒的事實）。在這種情況下，不可能將獎勵與在該事實發生之前許多年可能已執行的任何特定行動集合關聯起來。另一方面，如果我們考慮 ES 失敗的情況，即圖像分類，其結果與 100 多年來進行的無數行為心理學實驗中所取得的動物學習結果非常相似。

向動物學習

強化學習中所使用的方法在許多情況下直接取自心理學文獻操作性條件反射，並利用動物心理學研究了操作性條件反射。順便說一句，強化學習的兩位創始人之一理查德·薩頓擁有心理學學士學位。在操作性條件反射的背景下，動物學會將獎勵或懲罰與特定的行為模式連結起來。訓練員和研究人員可以以某種方式操縱這種獎勵關聯，激發動物表現出智力或某些行為。然而，動物研究中使用的操作性條件反射只不過是動物一生學習的相同條件作用的更明顯形式。我們不斷地從環境中接收積極強化的訊號，並相應地調整我們的行為。事實上，許多神經科學家和認知科學家認為，人類和其他動物實際上在更高的水平上運作，並不斷學習根據潛在的獎勵來預測他們在未來情況下的行為結果。

預測在從經驗中學習中的核心作用極大地改變了上述動態。以前被認為非常稀疏的訊號（情境獎勵）結果非常密集。從理論上講，情況是這樣的：在任何給定時間，哺乳動物的大腦都根據複雜的感官刺激和動作流來計算結果，而動物只是沉浸在這股流中。在這種情況下，動物的最終行為給出了強烈的信號，必須用來指導預測的調整和行為的發展。大腦使用所有這些訊號來優化未來的預測（以及相應的行動品質）。優秀的書中對這種方法進行了概述“衝浪的不確定性” 認知科學家和哲學家安迪克拉克。如果我們將這種推理推斷到人工智慧體的訓練中，那麼強化學習的一個根本缺陷就會暴露出來：這種範式中使用的信號與它可能（或應該）的信號相比是無可救藥的弱。在無法增加訊號飽和度的情況下（可能是因為它本身很弱或與低水平反應性相關），最好選擇並行化良好的訓練方法，例如 ES。

更豐富的神經網路訓練

基於哺乳動物大腦固有的高級神經活動原理（不斷忙於做出預測），強化學習取得了最新進展，現在考慮了此類預測的重要性。我可以立即向您推薦兩部類似的作品：

在這兩篇論文中，作者都以有關未來環境狀態的預測結果補充了神經網路的典型預設策略。在第一篇文章中，預測應用於各種測量變量，而在第二篇文章中，預測應用於環境和代理行為的變化。在這兩種情況下，與正強化相關的稀疏訊號變得更加豐富且資訊量更大，從而可以更快地學習並獲得更複雜的行為。這種改進僅適用於使用梯度訊號的方法，而不適用於基於「黑盒子」原理操作的方法，例如 ES。

此外，從經驗中學習和梯度方法要有效得多。即使在使用 ES 方法比使用強化學習更快地研究特定問題的情況下，也能取得增益，因為 ES 策略涉及的數據比 RL 多很多倍。反思動物的學習原理，我們注意到，從別人的例子中學習的結果會在許多世代之後顯現出來，有時，動物本身經歷的單一事件就足以讓動物永遠吸取教訓。雖然喜歡沒有例子的訓練雖然它不太適合傳統的梯度方法，但它比 ES 更容易理解。例如，有以下方法：神經情景控制，其中 Q 值在訓練期間存儲，之後程序在採取行動之前檢查它們。結果是梯度方法可以讓您比以前更快地學習如何解決問題。在一篇關於神經情景控制的文章中，作者提到人類海馬體，即使在一次經歷之後也能夠保留有關事件的信息，因此，關鍵作用在回憶的過程中。這種機制需要存取代理的內部組織，根據定義，這在 ES 範式中也是不可能的。

那麼，為什麼不將它們結合起來呢？

這篇文章的大部分內容可能會給人留下我在提倡強化學習方法的印象。然而，我實際上認為，從長遠來看，最好的解決方案是將這兩種方法結合起來，以便每種方法都用在最適合的情況下。顯然，在有許多反應性策略或正增強訊號非常稀疏的情況下，ES 會獲勝，特別是如果您擁有可以運行大規模並行訓練的運算能力。另一方面，當我們能夠獲得廣泛的回饋並且需要學習如何用更少的數據快速解決問題時，使用強化學習或監督學習的梯度方法將非常有用。

轉向自然，我們發現第一種方法本質上是第二種方法的基礎。這就是為什麼在進化過程中，哺乳動物已經發展出大腦，使它們能夠極其有效地從來自環境的複雜訊號中學習。所以，這個問題仍然懸而未決。也許演化策略將幫助我們發明有效的學習架構，這對於梯度學習方法也很有用。畢竟大自然找到的解決方案確實非常成功。

來源： www.habr.com

強化學習還是演化策略？ - 兩個都

演化策略

黑盒子

自然的解決方案

向動物學習

更豐富的神經網路訓練

那麼，為什麼不將它們結合起來呢？

添加評論取消回复

強化學習還是演化策略？ - 兩個都

演化策略

黑盒子

自然的解決方案

向動物學習

更豐富的神經網路訓練

那麼，為什麼不將它們結合起來呢？

添加評論 取消回复

添加評論取消回复