不過半年 AlphaGo 已經像古董了:DeepMind 最新 AI,一天訓練就能稱霸東西方三種棋類!

【我們為什麼挑選這篇文章】如果你還不知道最新的 AlphaZero 厲害在哪,先聽我娓娓道來。

第一,過去人工智慧只能專注在單一任務,AlphaZero 能夠跨棋類進行學習。第二,學習速度之快,一天內就稱霸了三種棋類。不過,也不是沒有缺點,就是目前所需要的硬體數量太大,需要 5000 顆 TPU,這也是未來將要精進之處。令人感概的是,不過就半年時間,當初跟柯潔對弈的 AlphaGo,現在已經像古董一樣了啊!(責任編輯:陳君毅)

作者:姜范波、Aileen、Yawei Xia、龍牧雪、魏子敏

在用 AlphaGo 和 AlphaGo Zero 稱霸圍棋世界後,12 月初,DeepMind 的研究組宣布已經開發出一個更為廣泛的 AlphaZero 系統,它可以訓練自己在棋盤,將棋和其他規則化遊戲中實現「超人」技能,所有這些都在一天之內完成,並且無需其他干預,戰績斐然:

  • 4 個小時成為了世界級的國際象棋冠軍;
  • 2 個小時在將棋上達到世界級水平;
  • 8 個小時戰勝 DeepMind 引以為傲的圍棋選手 AlphaGo Zero。

這不禁讓文摘菌想到了落入乾坤一氣袋的張無忌瞬間精進的場景:

在各路高手的真力激蕩之下打通數十處玄關,練成了獨步天下的九陽神功,從此化身武林學霸。短短幾個時辰內就練成了第七層乾坤大挪移,無論是太極拳劍還是聖火令武功都手到擒來,成為武林的百科全書。

儘管如此,AlphaZero 距離一個真正的通用目標,獨立 AI,還有一定的距離。國際象棋和將棋是比較容易的測試,因為它們比圍棋簡單。而像「星海爭霸 2」這樣複雜的視頻遊戲完全是另一碼事,更不用說散步、藝術或抽象思維等模糊的概念了。

另外還有速度的問題:雖然用來學習棋盤遊戲的時間少於 24 小時,但對於 AI 需要現場適應的情況,速度太慢。DeepMind 報告也說,訓練該軟件使用了 5064 台功能強大的定制機器學習處理器(被稱為 TPU)。(簡直野蠻暴力)

但仍然不可否認,這是人工智能邁出的重要一步。

原本的人工智慧只能專注單一棋類,AlphaZero 則精通多項

回憶人工智能的歷史,很多人的印像都是一堆「各類技能」冠軍——井字棋、跳棋和國際象棋。幾十年來,研究人員已經研製了一系列超級專業的程序,在越來越高難度的遊戲中擊敗人類。近期在圍棋上,Deepmind 的 AlphaGo 也超越了人類。但是, 這些人造冠軍們的共同弱點是——都只能玩某一種精心設計的遊戲。而人類即使在某些技能上輸了,在精通多種技藝這一點上,仍然完爆人工智能

近日,DeepMind 官方宣布了第一個多技能的 AI 棋類游戲冠軍程序。當地時間週二晚,Deepmind 發布的一篇論文描述了一款名為 AlphaZero 的軟件,它可以在三種具有挑戰性的遊戲中自學,表現超越人類:國際象棋,圍棋或將棋(亦稱日本像棋)。

DeepMind 在文章中描述了 AlphaZero 的學習過程。人類不再是國際象棋,圍棋和將棋中最好的選手,所以 AlphaZero 就用最好的專業人工選手 (計算機程序 Stockfish、Elmo、AlphaGo Zero) 進行測試。這個新程序很快就打敗了這三個人工棋手:

只用了 4 個小時成為了世界級的國際象棋冠軍;用 2 個小時在將棋上達到世界級水平;只花了 8 小時戰勝 DeepMind 引以為傲、也是之前已知最好的圍棋選手 AlphaGo Zero 。

經過 70 萬步訓練的 AlphaZero。它的對手是國際象棋的 2016TCEC 世界冠軍程序 Stockfish,將棋的 2017CSA 世界冠軍程序 Elmo,和大家都知道的 AlphaGo Zero。每一手棋雙方只有 1 秒的反應時間。

DeepMind 也表示,新程序 AlphaZero 模仿 AlphaGo Zero,通過同樣的自我對練機制學習。AlphaZero 核心的算法是它的升級版本,能夠搜索更廣泛的可能策略以適應不同的遊戲。

AlphaZero 可以從頭開始學習三個遊戲中的每一個,儘管它需要按照每個遊戲的規則進行編程。該程序通過與自己對練提高技能成為專家,嘗試不同的玩法來發現獲勝的途徑。

人類常用的國際象棋的開局方式解析

AlphaZero 還沒有辦法學會同時參加三場比賽。但是,一個程序學習三種不同的複雜遊戲,能達到如此高的水平,還是驚人的,因為 AI 系統——包括那些可以「學習」的——通常是非常專業的,需要經歷磨練來解決特定的問題。即使是最好的人工智能係統也不能在兩個問題之間進行泛化——因此,許多專家認為機器要取代人還有很長一段路要走。

AlphaZero 可能是 AI 系統走向非專門化的一小步。紐約大學教授 Julian Togelius 在周二發布的推文中指出,真正泛化的 AI 還道阻且長,但稱 DeepMind 的論文「非常出色」。

AlphaZero 的最大問題:用了太多 TPU,難以普及

而 DeepMind 的這一研究進展對於業界來說也非常重要 更靈活的機器學習軟件可以幫助 Google 加速在業務內部擴展人工智能技術。DeepMind 最新發明中的技術也可能幫助團隊挑戰視頻遊戲「星海爭霸」(StarCraft),後者已經成為它的下一個目標。一個流行的商業視頻遊戲似乎沒有正式而抽象的棋盤遊戲那麼令人生畏。但「星海爭霸」被認為複雜度更高,因為它各種變量和特徵的安排自由度更大,玩家必須預見對手不可見的行為。

相比可以學習三個以上的棋盤遊戲,並能解決各種空間,常識,邏輯,藝術和社會難題的人腦,AlphaZero 的智力水平仍然有限。

DeepMind 論文中顯示,AlphaZero 在三種遊戲中使用了同樣的算法設置、神經網絡結構和超參數。訓練過程包括 70 萬步(4096 大小的 mini-batch),從隨機生成的參數開始,使用了 5000 台 TPU 生成自對抗的棋局,接著使用 64 台 TPU 訓練神經網絡。

一共 5064 台 TPU!文摘菌不得不感慨「何以解憂,唯有暴富」。

相較於 AlphaGo Zero 用到的 64 台 GPU 和 19 台 CPU,AlphaZero 的算力可謂得到了指數級提升。算法的訓練時間也從 AlphaGo Zero 的「幾天」提升到了現在的「8 小時」。

回頭看看戰勝了李世石和柯潔的驚天動地的 AlphaGo,已經顯得像原始人了。它用到了 1920 台 CPU 和 280 台 GPU,需要訓練幾個月。

人工智能的發展,有 3 個驅動力——數據、算法、算力。神經網絡的「左右互搏」在數據和算法上做出了突破,而 Google 的 TPU 計算資源支持更是 AlphaZero 致勝的秘訣之一。

從 10 月底圍棋超人 AlphaGo Zero 的誕生,到 12 月進化成三種棋類超人 AlphaZero,不過只用了短短一個多月的時間。

——

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈完爆阿爾法狗元,DeepMind 用 5000 台 TPU 訓練出新算法,1 天內稱霸 3 種棋類 〉。圖片來源:Pixabay, CC Licensed。)

關於 AlphaGo,你也許還想看:

AlphaGo 技術負責人專訪:無師自通的 AlphaGo Zero 煉成術是什麼?
【有片】人類對上電腦棋王唯一一勝:《AlphaGo》電影預告熱血登場!
不下圍棋改打電動!發明 AlphaGo 的 DeepMind 與暴雪合作,讓《星海爭霸》變成 AI 實驗室


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: