性能提升!Google 實現兩種新型強化學習演算法

reinforce learning

【為什麼我們要挑選這篇文章】強化學習(RL)是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。近日,Google Research 的研究員實現了兩種新的強化學習演算法,讓它們能推展到更複雜的環境,實現更多應用。(責任編輯:郭家宏)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處
作者:量子位

強化學習(RL)演算法持續「進化」中……

來自 Google Research 的研究人員,證明可以使用圖表示(graph representation)和 AutoML 的優化技術,來學習新的、可解析和可推廣的 RL 演算法!

他們發現的其中兩種演算法可以推廣到更複雜的環境中,比如具有視覺觀察的 Atari 遊戲。

這一成就使得 RL 演算法越來越優秀!

具體怎麼個「優秀法」,請看下文:

透過將損失函數表示為計算圖,來元學習 RL 演算法

首先,對於強化學習演算法研究的難點,研究人員認為,一種可能的解決方案是設計一種元學習(Meta-Learning)方法。

該方法可以設計新的 RL 演算法,從而自動將其推廣到各種各樣的任務中。

受神經架構搜索(NAS)在表示神經網絡結構的圖空間中搜尋的思想啟發,研究人員透過將 RL 演算法的損失函數表示為計算圖(computational graph),來元學習 RL 演算法。

其中使用有向無環圖來表示損失函數,該圖帶有分別表示輸入、運算符、參數和輸出的節點。

該表示方法好處有很多,總的來說就是可用來學習新的、可解析和可推廣的 RL 演算法。

並使用 PyGlove 庫實現這種表示形式。

用基於進化的元學習方法來優化 RL 演算法

接下來,研究人員使用基於進化的元學習方法來優化他們感興趣的 RL 演算法。

其過程大致如下:

新提出的演算法必須先在障礙環境中表現良好,然後才能在一組更難的環境中進行訓練。演算法性能被評估並用於更新群體(population),其中性能更好的演算法進一步突變為新演算法。在訓練結束時,對性能最佳的演算法在測試環境中進行評估。

本次實驗中的群體(population)規模約為 300 個智慧體,研究人員觀察到在 2 到 5 萬個突變後,發現候選損失函數的進化需要大約 3 天的訓練。

為了進一步控制訓練成本,他們在初始群體中植入了人類設計的 RL 演算法,eg. DQN(深度 Q 學習演算法)。

兩種表現出良好泛化性能的演算法

最終,他們發現了兩種表現出良好泛化性能的演算法:

一種是 DQNReg,它建立在 DQN 的基礎上,在 Q 值上增加一個加權懲罰(weighted penalty),使其成為標準的平方 Bellman 誤差。

第二種是 DQNClipped,儘管它的支配項(dominating term)有一個簡單的形式——Q 值的最大值和平方 Bellman 誤差(常數模),但更為複雜。

這兩種演算法都可以看作是正則化 Q 值的一種方法,都以不同的方式解決了高估 Q 值這一問題。

最終 DQNReg 低估 Q 值,而 DQNClipped 會緩慢地接近基本事實,更不會高估。

性能評估方面,通過一組經典的控制環境,這兩種演算法都可以在密集獎勵任務(CartPole、Acrobot、LunarLander)中持平基線,在稀疏獎勵任務(MountainCar)中,性能優於 DQN。

其中,在一組測試各種不同任務的稀疏獎勵 MiniGrid 環境中,研究人員發現 DQNReg 在訓練和測試環境中的樣本效率和最終性能都大大優於基線水平。

另外,在一些 MiniGrid 環境將 DDQN(Double DQN)與 DQNReg 的性能進行視覺化比較發現,當 DDQN 還在掙扎學習一切有意義的行為時,DQNReg 已經可以有效地學習最優行為了。

最後,即使本次研究的訓練是在基於非圖象的環境中進行的,但在基於圖象的 Atari 遊戲環境中,也觀察到 DQNReg 演算法性能的提高!

這表明,在一組廉價但多樣化的訓練環境中進行元訓練,並具有可推廣的演算法表示,可以實現根本的演算法推廣。

此研究成果寫成的論文,已被 ICLR 2021 接收,研究人員門未來將擴展更多不同的 RL 設置,如 Actor-Critic 演算法或離線 RL。

參考資料

Google AI Blog》、《arXiv

(本文經 AI 新媒體量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈谷歌实现 2 种新的强化学习算法,“比肩”DQN,泛化性能更佳!|ICLR 2021〉。首圖來源:flickr CC Licensed

延伸閱讀

資訊碎片化時代,行銷難題不再只有 SEO!AI 智慧寫手一站式優化廣告文案與投放
用「翻譯機」概念開發資料轉換 AI,新創 Flatfile 讓不熟 coding 的人也能處理大數據!
首度整合 AI 加速架構,英特爾第三代 Xeon 同時滿足效能與資安要求!


點關鍵字看更多相關文章: