嘿哈布爾!
我們通常不會決定在這裡發布兩年前的、沒有代碼且明顯具有學術性質的文本翻譯 - 但今天我們將破例。 我們希望文章標題中提出的困境能讓我們的許多讀者感到擔憂,並且您已經閱讀了本文在原文中爭論的有關進化策略的基礎著作,或者現在將閱讀它。 歡迎來到貓!
2017年XNUMX月,OpenAI以論文《
演化策略
OpenAI 論文的主要論點是,他們沒有將強化學習與傳統的反向傳播相結合,而是使用他們所謂的「演化策略」(ES)成功地訓練了一個神經網路來解決複雜的問題。 這種 ES 方法包括維護網路範圍內的權重分佈,涉及多個代理並行工作並使用從此分佈中選擇的參數。 每個代理在自己的環境中運行,並且在完成指定數量的情節或情節的階段後,演算法返回累積獎勵,以適應度分數表示。 考慮到這個值,參數的分佈可以向更成功的代理轉移,而剝奪不太成功的代理。 透過在數百個智能體的參與下重複這樣的操作數百萬次,可以將權重分佈移動到一個空間,使智能體能夠制定高品質的策略來解決分配給他們的任務。 事實上,文章中呈現的結果令人印象深刻:它表明,如果並行運行XNUMX 個智能體,那麼可以在不到半小時的時間內學會兩條腿的擬人化運動(而即使是最先進的RL方法也需要花費更多時間)超過一小時)。 有關更詳細的信息,我建議閱讀優秀的
使用 OpenAI 的 ES 方法研究了擬人直立行走教學的不同策略。
黑盒子
這種方法的巨大好處是可以輕鬆並行化。 雖然 RL 方法(例如 A3C)需要在工作執行緒和參數伺服器之間交換訊息,但 ES 僅需要適應度估計和廣義參數分佈資訊。 正是由於這種簡單性,該方法在擴展能力方面遠遠領先於現代 RL 方法。 然而,這一切並沒有白費:你必須根據黑盒原理來優化網路。 在這種情況下,「黑盒子」意味著在訓練過程中完全忽略網路的內部結構,只使用整體結果(每集的獎勵),並且取決於它是否會影響特定網路的權重。被後代繼承。 在我們沒有從環境中收到太多回饋的情況下——並且在許多傳統的強化學習問題中,獎勵流非常稀疏——問題就會從「部分黑盒子」變成「完全黑盒子」。 在這種情況下,您可以顯著提高生產力,因此,這樣的妥協當然是合理的。 “如果梯度實在是太吵了,誰還需要梯度呢?” - 這是普遍意見。
然而,在回饋更加活躍的情況下,ES 的事情就會開始出錯。 OpenAI 團隊描述如何使用 ES 訓練一個簡單的 MNIST 分類網絡,這次訓練速度慢了 1000 倍。 事實上,影像分類中的梯度訊號對於如何教會網路更好地進行分類提供了非常豐富的資訊。 因此,問題不在於強化學習技術,而是在產生噪音梯度的環境中獎勵稀疏。
自然的解決方案
如果我們嘗試學習自然的例子,思考如何開發人工智慧,那麼在某些情況下人工智慧可以被認為是
在研究了哺乳動物的智力行為後,我們發現它是兩個密切相關的過程複雜相互影響的結果: 學習他人的經驗 и 邊幹邊學。 前者通常等同於自然選擇驅動的演化,但在這裡我使用更廣泛的術語來考慮表觀遺傳學、微生物組和其他能夠在遺傳無關的生物體之間分享經驗的機制。 第二個過程是從經驗中學習,是動物一生中設法學習的所有訊息,這些訊息直接取決於該動物與外界的互動。 這個類別包括從學習辨識物件到掌握學習過程中固有的溝通的一切。
粗略地說,自然界中發生的這兩個過程可以與優化神經網路的兩種選擇進行比較。 演化策略使用梯度資訊來更新有機體的信息,接近從他人的經驗中學習。 類似地,在梯度方法中,獲得一種或另一種經驗會導致智能體行為的一種或另一種變化,類似於從自己的經驗中學習。 如果我們考慮這兩種方法在動物身上發展出的智慧行為或能力的類型,這種比較就會變得更加明顯。 在這兩種情況下,「演化方法」都促進了對反應行為的研究,這些行為使人們能夠發展出一定的適應性(足以維持生命)。 在許多情況下,學習行走或逃離圈養相當於許多動物在基因層面上「固有」的更多「本能」行為。 此外,這個例子證實了演化方法適用於獎勵訊號極為罕見的情況(例如,成功撫養嬰兒的事實)。 在這種情況下,不可能將獎勵與在該事實發生之前許多年可能已執行的任何特定行動集合關聯起來。 另一方面,如果我們考慮 ES 失敗的情況,即圖像分類,其結果與 100 多年來進行的無數行為心理學實驗中所取得的動物學習結果非常相似。
向動物學習
強化學習中所使用的方法在許多情況下直接取自心理學文獻
預測在從經驗中學習中的核心作用極大地改變了上述動態。 以前被認為非常稀疏的訊號(情境獎勵)結果非常密集。 從理論上講,情況是這樣的:在任何給定時間,哺乳動物的大腦都根據複雜的感官刺激和動作流來計算結果,而動物只是沉浸在這股流中。 在這種情況下,動物的最終行為給出了強烈的信號,必須用來指導預測的調整和行為的發展。 大腦使用所有這些訊號來優化未來的預測(以及相應的行動品質)。 優秀的書中對這種方法進行了概述“
更豐富的神經網路訓練
基於哺乳動物大腦固有的高級神經活動原理(不斷忙於做出預測),強化學習取得了最新進展,現在考慮了此類預測的重要性。 我可以立即向您推薦兩部類似的作品:
在這兩篇論文中,作者都以有關未來環境狀態的預測結果補充了神經網路的典型預設策略。 在第一篇文章中,預測應用於各種測量變量,而在第二篇文章中,預測應用於環境和代理行為的變化。 在這兩種情況下,與正強化相關的稀疏訊號變得更加豐富且資訊量更大,從而可以更快地學習並獲得更複雜的行為。 這種改進僅適用於使用梯度訊號的方法,而不適用於基於「黑盒子」原理操作的方法,例如 ES。
此外,從經驗中學習和梯度方法要有效得多。 即使在使用 ES 方法比使用強化學習更快地研究特定問題的情況下,也能取得增益,因為 ES 策略涉及的數據比 RL 多很多倍。 反思動物的學習原理,我們注意到,從別人的例子中學習的結果會在許多世代之後顯現出來,有時,動物本身經歷的單一事件就足以讓動物永遠吸取教訓。 雖然喜歡
那麼,為什麼不將它們結合起來呢?
這篇文章的大部分內容可能會給人留下我在提倡強化學習方法的印象。 然而,我實際上認為,從長遠來看,最好的解決方案是將這兩種方法結合起來,以便每種方法都用在最適合的情況下。 顯然,在有許多反應性策略或正增強訊號非常稀疏的情況下,ES 會獲勝,特別是如果您擁有可以運行大規模並行訓練的運算能力。 另一方面,當我們能夠獲得廣泛的回饋並且需要學習如何用更少的數據快速解決問題時,使用強化學習或監督學習的梯度方法將非常有用。
轉向自然,我們發現第一種方法本質上是第二種方法的基礎。 這就是為什麼在進化過程中,哺乳動物已經發展出大腦,使它們能夠極其有效地從來自環境的複雜訊號中學習。 所以,這個問題仍然懸而未決。 也許演化策略將幫助我們發明有效的學習架構,這對於梯度學習方法也很有用。 畢竟大自然找到的解決方案確實非常成功。
來源: www.habr.com