柯潔被讓兩子仍輸給了騰訊 AI「絕藝」,應該沒有假賽吧??

【我們為什麼挑選這篇文章】AlphaGo 之於 AI 與圍棋領域真的太重要了。最新打敗柯潔的騰訊圍棋 AI 絕藝,在讓柯潔兩子的情況下還是獲得勝利,必須要知道,兩個同等實力的棋士,讓兩字的勝率只有 7%。而絕藝邁向完美的關鍵,就是參考了 DeepMind 推出的 AlphaGo 論文。不知道柯潔有沒有在絕藝後面看到 AlphaGo 的影子啊。(責任編輯:陳君毅)

2018 年 1 月 17 日晚八點半,在騰訊野狐圍棋平台的 1059 號對弈房,迅速聚集了 7000 多名圍觀棋友。如此火爆,只因這裡正發生著一場圍棋史上極為罕見的對弈——作為國際圍棋界職業頂尖棋手,而且是最頂尖的那個,柯潔首次在公開對戰中成為被讓子的一方,而且是讓二子。

與柯潔對弈的是騰訊 AI Lab 研發的圍棋 AI「絕藝」(絕藝指導 A)。但是很快,儘管被讓二子,柯潔仍在第 77 手或許是對自己的表現太過不滿而直接認輸。這場意義重大的對決,就這樣猝然終結。

隨後,超級銀冠棋手劍過無聲(連笑九段)登場挑戰「絕藝」,但苦戰 247 手後仍然無奈認輸。

「絕藝」對弈柯潔九段(即「潛伏」)和連笑九段(即「劍過無聲」)。對弈中,柯潔追殺白棋右上未果,僅弈 77 手,便爽快認輸;一個小時後連笑九段跟進,鏖戰 247 手後中盤告負

圍棋界的人士可能對「絕藝」的大名已經耳熟能詳了;而非圍棋界的人士,可能還不是很了解此「中國 AlphaGo」。

相比於日本的 DeepZenGo 和英國的 AlphaGo,中國在 Computer Go(電腦圍棋)的投入起步較晚。騰訊公司從 2016 年 2 月才開始著手研製圍棋 AI。但很快,「絕藝」人工智能的第一個版本便於 2016 年 3 月 4 日完成了。

隨後,「絕藝 AI」在騰訊圍棋的野狐平台上開設了多個帳號,包括虎虎有生氣、野狐掃地僧、天下無狗 20、絕藝、驪龍、刑天等。其中「絕藝」帳號使用時間最久,對弈盤數最多,名氣也最大。目前在野狐平台上有「絕藝指導」A、B、C、D 等各個小號,分別用於對弈不同段位的棋手。

「絕藝」藝名來源:

重送絕句(杜牧)

絕藝如君天下少,閒人似我世間無。

別後竹窗風雪夜,一燈明暗覆吳圖。

騰訊圍棋 AI 與日本 DeepZenGo 的愛恨糾結

雖然起步晚,但是絕藝 AI 發展卻很快。僅僅經過 4 個月的時間,在 2016 年 6 月下旬,絕藝已經突破了業餘 6 段;同年 8 月便開始在騰訊旗下的野狐圍棋網絡對弈平台測試,8 月 23 日首次戰勝職業棋手, 11 月 2 日第一次戰勝世界冠軍江維杰,11 月 19 日首次交手柯潔取勝。

絕藝第一次大範圍引起關注,是 2017 年 3 月初在野狐平台上晉升為「十段」高手。但實際上在此之前,它已經戰勝了包括古力、連笑、樸廷桓等高手;甚至在 2 月 14 日至 2 月 24 日期間,和柯潔交手十次,無一敗績。

隨後,絕藝在 2017 年 3 月 18-19 日的第 10 屆 UEC 杯世界電腦圍棋大會上戰勝了當時電腦圍棋界的「第二」AI——DeepZenGo,奪得冠軍。由於這次奪冠,絕藝獲得了參加第 5 屆電聖戰的資格,在 2017 年 3 月 26 日對弈來自日本棋院的新銳棋手一力遼,並執黑 157 手中盤勝。

事情總是無挫不勇。2017 年 8 月在鄂爾多斯舉辦的中國圍棋大會首屆世界智能圍棋公開賽上,「絕藝」半決賽對弈 DeepZenGo 不幸落敗,未能進入決賽。此役之後,「絕藝」臥薪嘗膽,不斷迭代。

2017 年 11 月 15 日野狐平台上出現了一個暱稱為「符合預期」的賬號,數日內鏖戰 99 局,除了第 40 局被柯潔擊敗外,餘者全勝。同時「符合預期」還對戰了絕藝指導 A(UEC 杯奪冠版),在讓二子的情況下,以 60 連勝完成版本升級。

12 月 10 日在日本秋葉原舉辦 的 2017 圍棋龍星戰(AI RYUSEI)決賽中,升級版「絕藝」相繼以平穩的表現戰勝 MayoiGo、Raynz 和 AQ,並在決賽中再會老對手 DeepZenGo 並輕鬆獲勝。知名棋手劍過無聲(連笑)甚至評論說「絕藝可讓 Zen 兩子」。

進入 2018 年後,從本月 9 日開始,裝備了最強公開版本的「絕藝」(野狐平台帳號為「絕藝指導 A」),開始了讓二子(黑貼 6 目半)對決職業棋手的行程。 截止到與柯潔對弈前,事實上「絕藝」已經與職業棋手對弈了 31 局 27 勝 4 負。與柯潔和連笑的兩場讓二子對弈更是讓這輪對決的意義推上了巔峰。

讓 2 子有多難?讓 2 子的初始勝率只有 7%

雷鋒網了解到,就圍棋 AI 對弈中讓二子的問題騰訊 AI Lab 做了以下回應:

包括 AlphaGo 在內的圍棋 AI 都存在贏棋退讓的問題,原因是 AI 以贏棋為目標,勝率過高時下哪裡都贏,不一定會選擇贏最多的下法。

而讓子棋就是另外一種勝率過低的極端情況,以絕藝海南挑戰賽版本為例,這是一個分先版本的 AI,如果要求其以讓 2 子開始對局,則初始勝率為 7%(讓 3 子則初始勝率 1%,讓 4 子則初始勝率 0.1%)。並且實力越強的版本,下讓子棋時的初始勝率就越低(因為 AI 下棋時會假設對手跟自己一樣)。

初始勝率過低將導致 AI 不能發揮出真正的實力,這也是現在絕藝讓 2 子還不能全勝的原因。我們最近在嘗試優化算法,來解決勝率過低帶來的負面影響,爭取以後在讓子棋裡有更好的表現。

據騰訊 AI Lab 的公開新聞介紹,此次與柯潔等職業棋手對弈的「絕藝」挑戰賽版, 參考了 2017 年 10 月公開的 AlphaGo Zero 論文 ,並在實踐中做出了改進;使用了 40 block dual-resnet 模型,以老版本的「絕藝」為基礎進行強化學習,自對弈了數百萬棋局,在有限的資源和時間內,通過把強化學習和監督學習相結合來加速訓練,快速提升了棋力。

絕藝:參考 DeepMind 神級論文,才能達到今日地位

為了了解「絕藝」如此迅猛發展背後的技術細節,雷鋒網特地採訪了「絕藝」團隊的成員。

AI 科技評論:這次「絕藝」在與柯潔、連笑等職業選手的對弈中,均取得不錯的成績。請問柯潔等職業棋手是否參與了「絕藝」的開發?在「絕藝」的成長中他們起到了什麼樣作用?

答: 柯潔沒有參與絕藝的開發,但是柯潔等幾十位職業棋手可以使用絕藝內測網站,「絕藝」也在騰訊野狐圍棋上與棋手對弈,所以很多棋手共同見證了整個「絕藝」的成長過程。

羅洗河九段是絕藝的技術顧問,給絕藝團隊圍棋技術方面的指導。

AI 科技評論:通過您們的新聞了解到,這個版本的絕藝技術上主要參考了 2017 年 10 月份 deepmind 發表的關於 AlphaGo Zero 的文章。您們對這篇文章的內容怎麼評價?在具體實踐中,您們做了哪些方面的改進?

答: AlphaGo Zero 是非常讓人震撼的研究成果,除了讓圍棋水平達到一個新的高度,它還不依賴人類知識,讓 zero 的算法具備更高的推廣價值。

絕藝學習了 Zero 的 dual-resnet 模型,和絕藝老版本相比有更高效的強化學習算法。

因為絕藝還在不斷參加比賽進行鍛煉,比如 2017 年 12 月騰訊棋牌的「絕藝挑戰賽」等,所以我們沒有選擇從「零」開始,而是以絕藝老版本為基礎進行強化學習。這樣可以大幅減少訓練時間,在有限的資源和時間內完成。目前我們已經在開發從零開始的版本了。

AI 科技評論:相比 11 月底的「符合預期」以及 12 月中旬的「絕藝」,挑戰賽版的「絕藝」有哪些方面的改進?開發這個版本的「絕藝」花費了多少時間?

答: 絕藝近期公開亮相的三個版本之間的主要差異:

  •  2017 年 11 月符合預期:20 block dual-resnet,自對弈了數十萬棋局
  •  2017 年 12 月日本 AI 龍星戰:20 block dual-resnet,自對弈了數百萬棋局
  •  2017 年 12 月三亞絕藝挑戰賽:40 block dual-resnet,自對弈了數百萬棋局

從 10 月下旬開始,用了 1 個多月時間完成了上述三個版本的開發。

AI 科技評論:「絕藝」在多個比賽中戰勝了國際上一些歷史悠久的電腦圍棋,請問與 DeepZenGo 等電腦圍棋相比,「絕藝」有哪些方面的優勢和不足?(例如技術、理念、團隊等)

答: 我們很難簡單把「絕藝」和其他圍棋 AI 進行比較,如果回顧「絕藝」從研發到成長過程中,始終與柯潔、古力和騰訊圍棋上的職業和業餘棋手密切交流與切磋。

AI 科技評論:「絕藝」團隊已經在「絕藝」的研發上做了很久的工作,請問您們對「絕藝」的定位是什麼?現在絕藝已經達到能夠讓二子與人類的職業選手進行比賽了。再開發下去的意義在哪?

答: 我們認為在研究、應用和社會價值上,「絕藝」都有其特定意義。

圍棋 AI 研究由來已久,相關的算法也不斷推陳出新。「絕藝」涵蓋了人工智能最熱門的研究領域——深度學習和強化學習,我們在不斷研發中受益良多。

從應用價值上,騰訊野狐圍棋是國內最大、最活躍的的圍棋平台之一,「絕藝」目前已經有還開發了指導棋、棋賽講解等功能,也深受廣大棋迷喜愛和關注。

而在社會意義上,圍棋是國粹運動,「絕藝」是騰訊推進前沿科技賦能國粹文化的代表,我們看到 AI 的每一次進步,不僅挖掘圍棋的潛力與邊界,也在展現著人類的智慧與進步。這也是 AI Lab 對於絕藝的期待——希望它能與人類棋手積極互動,從而激發更多關注並傳承圍棋這一中國傳統文化。這是我們的一種科技責任感。

AI 科技評論:在去年三月份 UEC 世界杯大賽中的絕藝總體框架遵循的是 AlphaGo 在 2017 年 1 月份發表的文章;而這次則主要依據 2017 年 10 月份 AlphaGo Zero 的文章。現在 Deepmind 已經不再繼續開發 AlphaGo 了。所以您們打算以後如何進一步開發絕藝的性能呢?

答: 絕藝會一直堅持開發下去,除了不斷提高棋力,我們也會研究解決一些有趣的問題,比如現在的 AI 以獲勝為目標,勝率過高時可能會退讓,不一定會選擇最優的下法。

騰訊將繼續加大對 AI 的研究與投入,打造世界級圍棋 AI 能力與推廣,更在 AI 上推進深度學習等前沿 AI 科技的研究與應用。

——

(本文經合作夥伴 雷鋒網 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈柯潔再次成為圍棋 AI 的 benchmark,這次讓二子也落敗 〉。圖片來源:Wiki, CC Licensed。)

更多關於 AlphaGo 的精彩文章

以後圍棋都給 AI 玩?圍棋世界冠軍柯潔:AlphaGo Zero 太強,人類太多餘了
Google 正式公布 AlphaGo 圍棋教學工具,想成為下一個棋靈王的還不快來學?
不過半年 AlphaGo 已經像古董了:DeepMind 最新 AI,一天訓練就能稱霸東西方三種棋類!


微軟精華 AI 實踐課程來啦!

超過 100 堂專業課程、350 位原廠專家技術交流

2/17、18 與微軟技術夥伴面對面,破解最新、最前沿的 AI 轉型解決方案

免費報名

點關鍵字看更多相關文章: