Deepmind 團隊最新力作:不需人類的 AlphaGo Zero,左右互搏練成 AI 版周伯通

在今年 5 月,AlphaGo 以 3:0 的橫掃成績擊敗「人類最後希望」的世界冠軍柯潔,便宣布退役。

不過,Deepmind 團隊的冒險並沒有停止。第二篇關於 AlphaGo 的論文已經正式登上《Nature》期刊。而這篇期刊也是 Deepmind 創辦人 Hassabis 承諾的,將公布 AlphaGo 在演算法方面的進展,以及擴展到其他領域的近用性。

為此,便是為了讓更多開發者能夠接棒,利用這些技術開發出屬於自己,應用於不同領域的 AlphaGo。

AlphaGo Zero 只要 36 小時,就能達到李世石的程度

而本次在《Nature》期刊所揭露的,是被稱為 AlphaGo Zero 的技術,AlphaGo Zero 最強之處,在於「完全脫離人類知識」,論文名稱即為:《Mastering the game of Go without human knowledge》。

根據替 AlphaGo 下棋,號稱 AlphaGo 的進藤光, 台灣教授黃士傑在臉書上所公布 ,這份 AlphaGo Zero 的學術報告包含:

1. AlphaGo Zero 從零開始自我學習下圍棋。

2. 僅僅 36 小時後,AlphaGo Zero 靠著自我學習,就摸索出所有基本且重要的圍棋知識,達到了與李世石九段對戰的 AlphaGo v18 的相同水平。

3. 3 天後,AlphaGo Zero 對戰 AlphaGo v18 達到 100% 的勝率。

4. 不斷進步的 AlphaGo Zero 達到了 Master 的水平。Master 即年初在網路上達成 60 連勝的 AlphaGo 版本。

5. 40 天後,AlphaGo Zero 對戰 Master 達到近 90% 勝率,成為有史以來 AlphaGo 棋力最強的版本。

而黃世傑教授也提到,AlphaGo Zero 完全自學的圍棋知識,包含打劫、征子、棋形、局部先下在角部,開局定式等等,與人類千年累積下來的圍棋智慧相同,呼應了人類在圍棋領域投入的價值。

最大亮點:無需任何人類指導

透過自己左右互搏的方式,AlphaGo Zero 並沒有使用人類對弈的數據,而這個新方式的訓練時間更短,僅僅三天就能完全達到先前擊敗李世石的程度,21 天可以達到擊敗柯潔的 AlphaGo Master 水平。

AlphaGo Zero 從一個完全不知道圍棋遊戲規則的神經網路開始,然後將這個神經網路與強大的搜尋演算法結合,開始自我對弈。更新版的神經網路再次與演算法組合,不過重複這個過程。

只要 40 天,就能夠達到人類目前可能完全無法企及的圍棋程度。

而在訓練的前三天,達到李世石程度前,AlphaGo Zero 進行了 490 萬次自我練習,可以知道它的對弈累積量非常龐大。

而 Alpha Zero 與之前版本有如下最大的不同:

1. AlphaGo Zero 使用一個神經網路而不是先前版本的兩個。以前版本的 AlphaGo 使用一個「策略網路」來選擇落子的位置,並使用另一個「價值網絡」來預測遊戲的輸贏結果。而在 AlphaGo Zero 中下一步落子的位置和輸贏評估在同一個神經網路中進行

2. AlphaGo Zero 無需進行隨機推演(Rollout)——這是一種在其他圍棋人中智慧中廣泛使用於勝負的快速隨機策略,透過比較每一手之後輸贏的機率來選擇最佳落子位置。相反,AlphaGo Zero 依賴於高質量的神經網路來直接評估落子位置。

附上 AlphaGo Zero 的 80 局對弈棋譜 ,是否會成為最新一代的圍棋聖經呢?

此外,如果針對本篇論文與 AlphaGo 有興趣的讀者,AlphaGo 團隊的 David Silver 與 Julian Schrittwieser 將在 reddit 進行問答活動

完整論文下載: 請點我

——

參考資料來源: 100:0!Deepmind Nature 論文揭示最強 AlphaGo Zero,無需人類知識黃世傑臉書 。圖片來源:Wiki, CC Licensed。

延伸閱讀

【有片】人類對上電腦棋王唯一一勝:《AlphaGo》電影預告熱血登場!
不下圍棋改打電動!發明 AlphaGo 的 DeepMind 與暴雪合作,讓《星海爭霸》變成 AI 實驗室
【輸了你,贏了世界又如何】柯潔哽咽著說:我會繼續改變自己,而 AlphaGo 將會改變世界


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: