扎實你的 AI Coding 基礎!GitHub 大神整理了一份新手易懂的學習課程

【為什麼我們要挑選這篇文章】大數據時代下,AI 工程師的地位水漲船高。 你是否聽到 AI 兩個字就覺得門檻高?別怕,GitHub 神人幫你推薦了 AI 菜鳥工程師的學習菜單。(責任編輯:陳伯安)

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息 
快將你的履歷自傳寄至 [email protected]

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請聯繫出處

作者:量子位/魚羊

自從有了強化學習(RL),AI 上能星海爭霸,下能雅達利(Atari)稱王,讓內行人沈醉,讓外行人驚奇。

這裡恰有一份標星過萬的強化學習資源,既有教程推薦,又有配套練習,網友學了都說好,並且還在實時更新。

入學要求並不高,只需要一些基礎的數學和機器學習知識。

紮實學習 AI 強化學習,大神推薦這兩個資源

想要入門強化學習,一份優質的課程必不可少。

強化學習資源千千萬,項目作者 Denny Britz 大力推薦這兩個:

David Silver 的強化學習課程

以及 Richard Sutton 和 Andrew Barto 的《強化學習:簡介(第二版)

Denny Britz 表示,這兩本書幾乎涵蓋了入門強化學習需要瞭解的大部分研究論文,基礎決定高度,理論知識還是要扎扎實實學起來。

理論有了,可書裡並沒有演算法練習。

別擔心,幫人幫到底,送佛送到西,Denny Britz 親自動手,用 Python,OpenAI Gym 和 Tensorflow 實現了大多數標準強化演算法,並把它們都共享了出來,方便大家配合教材使用。

簡直太貼心。

在這份萬星資源里,每個文件夾都對應著教材的一個或多個章節。除了練習和解決方案之外,每個文件夾下還包含了一系列學習目標,基礎概念摘要,以及相關連結。

以基於模型的強化學習:使用動態規劃的策略迭代和值迭代這一章為例。

這一章配套的是 David Silver RL 課程的第三講,動態編程規劃。

首先是學習目標:

瞭解策略評估和策略改進之間的區別,以及這些流程如何相互作用

理解策略迭代演算法

理解值迭代演算法

瞭解動態規劃方法的局限性

設定好學習目標,這份教程還替你划了重點概念。

最後,奉上實戰演練。

大框架已經搭好,只需專注重點思考如何填空:

文後附標準答案:

循序漸進的學習課綱,新手老手都適合

這份教程現在涵蓋了以下演算法實現。

動態規劃策略評估

動態規劃策略迭代

動態規劃值迭代

蒙特卡洛預測

Epslion-Greedy 策略的蒙特卡洛控制

具有重要性抽樣的蒙特卡洛非策略控制

SARSA(策略 TD 學習)

Q 學習(非策略 TD 學習)

線性函數逼近的 Q 學習

雅達利遊戲的深度 Q 學習

雅達利遊戲的雙重深度 Q 學習

優先經驗回放的深度 Q 學習(施工中)

策略梯度:基線強化

策略梯度:基線 Actor-Critic 演算法

策略梯度:具有連續動作空間的基線 Actor-Critic 演算法

連續動作空間的確定性策略梯度(施工中)

DDPG(施工中)

異步優勢 Actor-Critic 演算法(A3C)

學習路徑如此清晰,這樣的優質資源,不存起來嗎?

GitHub 傳送門

(本文經 AI 新媒體 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈GitHub 万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划 〉,首圖來源:Unsplash, CC Licensed。)

延伸閱讀

工程師殺手級工具!一秒自動補齊後續程式碼,還支援 23 種程式語言

給自學機器學習的工程師:沒有學歷光環卻想找到工作,千萬注意履歷十大雷區!

工程師好用資源來了!超完整 Python 查詢表,程式碼複製貼上不用自己寫


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: