【我們為什麼挑選這篇文章】AI 要強就需要做強化學習。強化學習就是一種教小孩的概念。如果 AI 做錯了處罰,好比扣分,做對了給獎勵,例如加分。利用這種循序漸進的方式,讓 AI 可以成長。AlphaGo Zero 也是使用強化學習利用自己跟自己的對弈強化西洋棋的技術,最後以佳績擊敗打贏西洋棋世界冠軍的 AlphaGo。
Google 推出一個強化學習設計「多巴胺」,這個新框架有什麼特別的地方嗎?(責任編輯:陳伯安)
上周那個在 DOTA2 TI8 賽場上「裝逼失敗」(TO 編按:中國用語,假裝很厲害的意思)的 OpenAI Five,背後是強化學習的助推。
其實不僅僅是 OpenAI Five,下圍棋的 AlphaGo 和 AlphaGo Zero、玩雅達利街機遊戲的 DeepMind DQN(deep Q-network),都離不開強化學習(Reinforcement Learning)。
現在,Google 發佈了一個基於 TensorFlow 的強化學習開源框架,名叫 Dopamine。
另外,還有一組 Dopamine 的教學 colab。
和它的名字 Dopamine(多巴胺)一樣,新框架聽上去就令人激動。
多巴胺基於 ALE 基準設計,框架不只簡潔還具程式可視性
新框架在設計時就秉承著清晰簡潔的理念,所以代碼相對緊湊,大約是 15 個 Python 文件,基於 Arcade Learning Environment(ALE)基準,整合了 DQN、C51、 Rainbow agent 精簡版和 ICML 2018 上的 Implicit Quantile Networks。
新框架中代碼被完整的測試覆蓋,可作為補充文檔的形式,也可以用 ALE 來評估。
為了讓研究人員能快速比較自己的想法和已有的方法,該框架提供了 DQN、C51、 Rainbow agent 精簡版和 Implicit Quantile Networks 的玩 ALE 基準下的那 60 個雅達利遊戲的完整訓練數據,以 Python pickle 文件和 JSON 數據文件的格式存儲,並且放到了一個可視化網頁中。
另外,新框架中還有訓練好的深度網絡、原始統計日誌,以及 TensorBoard 標注好的 TensorFlow 事件文件。
傳送門
開源框架資源
相關資料
Implicit Quantile Networks(ICML 2018)
(本文經合作夥伴 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈新框架!谷歌推出「多巴胺」用于强化学习丨附Github〉,首圖來源:Pxhere, CC Licensed。)
延伸閱讀
如何打造用戶黏著度超高的軟體:做好這三點,剩下交給多巴胺吧!
今天是漢堡機器人 Flippy 快樂的上班的第一天,…… 然後他就壞了馬上爽放四天假
演算法成 21 世紀海洛因:人類深陷「多巴胺經濟」,上癮卻不自知