Open AI 發布最新研究:演算法超強大,教會螞蟻認路走出迷宮!

【我們為什麼挑選這篇文章】  Open AI 是馬斯克創立的一間非營利人工智慧研究公司,致力於公開人工智慧最新研究。這次在 Open AI 最新公布的研究報告中,成功改善了人工智慧在複雜環境中的反應,用演算法讓螞蟻 AI 成功走出迷宮,而非隨機做出各種嘗試不斷撞牆。他們是如何做到的?這篇文章不只解釋了運算過程,還呈現出 AI 運作成效,非常有趣!(責任編輯:劉庭瑋)

OpenAI 的研究人員們這次就開發了一個層次化的強化學習算法,它可以學習到高階的行動,用來解決一系列不同的任務,同時也可以快速學會解決總共需要上千個步驟的任務。當這個算法用來解決導航問題時,它能夠為不同方向的走或者爬行學到一系列高級別的動作,這也讓智能體能夠快速掌握新的導航任務。

雷鋒網 AI 科技評論把 OpenAI 部落格的介紹文章編譯如下。

方法思路

人類應對複雜問題的方法是把它們分解成一系列小的、可控的步驟。比如「做餡餅」就是由一系列高級別的行為組成的,取麵粉、打雞蛋、攤在平底鍋內、設定烤箱等等。人類能夠快速學到新任務,靠的就是把已經學過的步驟組合起來,即便每個步驟都可能需要百萬個低級別的行動組成,像讓不同的肌肉做不同的動作這樣。

然而, 當前的強化學習算法的運行方式都是在低層次的行動中做暴力搜索,解決新問題的時候需要大量的嘗試 。對於那些需要依次執行很多個步驟的任務來說, 這種搜索方法的效率就會變得非常低。

OpenAI 的研究人員們提出了一種基於層次化強化學習的解決方案。這種方法中,智能體用幾個高層次動作組成的序列表徵複雜的行為。這樣一來,智能體就可以解決複雜得多的任務:整個解決方案中可能需要 2000 步左右的低層次動作,層次化策略就可以把它們轉化成 10 個高層次動作組成的序列 ,那麼在這個 10 步動作的序列中進行搜索就比在 2000 步的序列中進行搜索高效得多。

共享層次的元學習

OpenAI 提出的算法 meta-learning shared hierarchies(共享層次的元學習,MLSH),能學到一個層次化的策略,其中的主策略可以在一系列子策略中進行切換。每經過 N 個時間步長,主策略就會選擇一個動作;這裡的 N 可以等於 200。一個執行 N 個時間步長的子策略就構成了一個高級別的動作。在研究員們研究的導航問題中,一個子策略就對應了在一種不同的方向下走路或者爬行。

在最開始的研究中,層次化策略都是顯式地手工編寫的。後來,他們把研究方向轉變為讓模型在與環境的互動中自動學到層次化結構。從元學習的角度,研究者們把好的層次結構定義為能夠在以前未見過的任務中迅速達到高回報的結構。這樣,MLSH 算法的目標就變成了學到能夠在以前未見過的任務中快速學習的子策略。

研究員們在許多不同的任務中訓練算法,其中的子策略是共享的,然後對於每個樣本任務學到一個新的主策略。在反複訓練新的主策略的過程中,它也能自動找到與主策略的學習表現最符合的子策略。

實驗結果

類似這個螞蟻機器人的智能體可以高效地探索空間,它能在向下、向右、向上三個策略之間切換,而不是隨機地做出各種嘗試。

這個高層次策略都學會了利用一個敵人(子策略從未見過)來讓它更快地達到目標。採用的層次強化學習方法把大約需要 3000 個時間步長的迷宮問題簡化成了一個 10 步的子策略選擇問題。

在訓練一整晚後,一個訓練用於解決 9 種不同迷宮的 MLSH 的智能體就學到了分別對應著向上、向右和向下的動作,然後它就可以用這些動作幫牠走出迷宮。

在「螞蟻迷宮」環境中,一個 Mujoco 螞蟻機器人被放在了 9 種不同的迷宮中,然後要從開始位置找到出口。OpenAI 的新算法僅僅通過與環境互動就成功找到了一組各有不同的子策略,把它們組成序列後走出迷宮。這些訓練得到的子策略之後就可以用來解決更大的任務。

論文地址:https://arxiv.org/abs/1710.09767

GitHub 地址:https://github.com/openai/mlsh  (包含訓練智能體的代碼和評估算法用到的 Mujoco 環境)

(本文經合作夥伴 雷鋒網    授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 OpenAI 提出層級強化學習,給長序列動作學習帶來新的曙光  〉。)

延伸閱讀

【馬斯克說對了!】Open AI 最新研究:AI 真的會失控,太執著得分,不停相撞引起火
OpenAI 讓 17 歲少年實習、寫期刊論文,在台灣可能嗎:學習「如何學習」成永遠課題
連馬斯克的 OpenAI 都用它!WordPress 的最強對手,開源部落格架站系統 Ghost 正式登場
自爽經濟學:當 Maker 只是好玩!—— 專訪 OpenLab.Taipei 共同創辦人鄭鴻旗

點關鍵字看更多相關文章: