人類連「星海爭霸 II」都守不住了!DeepMind AI 新作 Alphastar 10:1 血洗職業玩家

【我們為什麼挑選這篇文章】最近崛起的新興 Youtuber 老高在近期影片裡分享了一個有趣的假說:「人類創造 AI 的過程,和聖經中上帝給予人類智慧的過程驚人的相似」,而這又讓人聯想到:會不會人類過往就是由另外一個種族創造、給予智慧、最後放到地球這個環境上來生存,而隨著人類智慧演進,我們也本能性的開始研究創造「智慧」、測試到最後,也會將它放到一個和人類完全隔絕的環境進行觀察,例如火星,就像最初的人類一樣。縱然其中的科學成分很低,但這個假說無疑是非常吸引人的。

人類歷史上並沒有一個針對「智慧如何誕生」的確實證據,目前的 AI 依然是模仿、是數據分析的成果,若哪天我們創造出確實懂得思考、擁有智慧的 AI,那又會如何呢?在看 Deepmind 攻略星海爭霸的過程裡,確實會讓人產生強烈的既視感。(責任編輯:林子鈞)

5 分 36 秒,10:1,人類完敗。

這是在星際爭霸 2 遊戲中,DeepMind AI——AlphaStar 對戰人類的最新戰局。

一共 11 場比賽,其中 10 場是事先錄製的,只有1場是現場交手。現場交手的雙方是AlphaGo的「哥哥」AlphaStar與 2018 WCS Circuit 排名13、神族最強10人之一的MaNa。在 11 場比賽中,也只有現場交手這一次,由於比賽限制了 AI 的「視覺」能力,MaNa 幫人類贏了一場。

另外 10 場比賽,代表人類出戰的是職業選手 TLO 和 MaNa。兩位選手分別與 AlphaStar 打了五場。如果說與 TLO 對戰時 AlphaStar 還是萌新的話,那麼與 MaNa 的對戰則完全顯示出了其戰術的老辣。畢竟,兩個比賽才相隔 2 周,AI 自學成才的能力已經初步顯示了可以超越人類極限的潛力。

比賽的錄像,DeepMind 也在其官網給出,星迷們可以從這邊回顧賽事

比賽概況

前 10 場分別是在 12 月份的 BOD 賽舉行的,比賽地圖是 Catalyst,中文名叫「匯龍島」。比賽所採用的版本也是專門為了進行人工智能研究所開發的。雖然 TLO 在比賽之前表示完全有信心打敗 AI,但是不得不說,5 場比賽中 AI 獨特的戰術似乎讓 TLO 始料不及,最後 TLO 以 5:0 輸掉比賽。

AlphaStar 在對抗 TLO 的時候在比賽制度的設置上還是有些優勢。首先,這場比賽雙方都只能使用 Protoss(神族),這並非 TLO 主族(在天梯上,職業玩家的主族和副族之間往往相差一千分以上)。此外,AlphaStar 與普通玩家的比賽視角不同,雖然AI 也受到戰爭迷霧的限制,但它基本上可以看到整個小地圖。這意味著它可以快速處理可見的敵方及其自身基礎的等信息,所以其不必像人類玩家那樣將需要將時間分配到地圖的不同區域。

在今天的現場直播中,比賽限制了AI的「視覺」能力,MaNa 對戰 AlphaStar,幫人類玩家拿下一勝,一雪前恥。這也顯示雖然 AlphaStar 僅僅經過幾週的自我學習就能與頂級玩家交手,但也存在很多漏洞和可以改進的地方。

儘管如此,AlphaStar 並沒有如人們想像的那樣,從優勢中獲得大的收益。雖然在理論上 TLO 和 MaNa 在遊戲中的 APM 不如 AI 快,但AlphaStar實際上每分鐘執行的操作數比他的人類對手還少,並且明顯少於普通職業玩家的操作次數。AI也有大約350毫秒的反應時間,顯然這比大多數職業玩家要慢。不過,整體來看,雖然人工智能花費了更多時間,但卻能夠做出更聰明,更有效的決策,從而更佔優勢。

AlphaStar 只用一週就玩了 200 年的星際爭霸 II

AlphaStar 在遊戲中的專業能力主要來自 DeepMind 稱之為 AlphaStar 聯盟的深入培訓計畫。DeepMind 通過重播大量的人類遊戲錄像,並基於這一數據訓練神經網絡。由人類數據組成的代理分叉創建新的對手,並且這些競爭者在一系列比賽中相互匹配。同時,鼓勵原始數據的那些分支去學習特殊技能,並掌握遊戲的不同部分以創造獨特的遊戲體驗。

AlphaStar 聯盟運行了一週,每場比賽都產生了新的信息,有助於改進 AI 的戰略。在那一週,AlphaStar 相當於玩了整整 200 年的星際爭霸 II。結束時,DeepMind 選擇了五個最不容易被利用、獲勝幾率最高的 agent 對戰 TLO,在5場比賽中全部勝利。

看到人工智能成功地打敗非對手,DeepMind 決定讓 AlphaStar 對抗神族專家 MaNa(雖然在職業賽場上 MaNa 這樣的歐美籍草雞神族並不代表人類的最高水平和最先進的戰術體系)。AlphaStar 在比賽前進行了另一週的訓練,吸取了包括在和 TLO 比賽中所獲得的知識。評論員們指出,人工智能在比賽中發揮得更像人類,在調整決策和風格的同時放棄了一些比較不穩定和意想不到的行動。

就像他之前的 TLO 一樣,儘管 MaNa 表現出了十足的英勇,但仍然在每場比賽中都輸給了 AlphaStar。人工智慧再次贏得了所有五場比賽。這場人機大戰,在與職業人類選手的前 10 場比賽中以 10 比 0 結束。

在播放錄製的比賽後,DeepMind 推出了新版 AlphaStar,MaNa 在現場直播中和再次與 AI 交鋒。這一次 AlphaStar 無法享受頭頂攝像頭的好處,它必須決定將視線焦點放在哪裡(像人類玩遊戲的方式一樣)。 DeepMind 表示,在一週之內 AlphaStar 已經快速掌握了遊戲的新視覺觀感,但還沒有機會在對陣 MaNa 之前和人類專業玩家進行測試。

隨著對 AlphaStar 視覺觀感的新限制,MaNa 能夠利用 AI 的一些缺點並取得勝利,所以 AlphaStar 輸給了人類玩家。

AlphaStar 在整場比賽中展示了令人印象深刻的微操作能力。很快將受損的部隊移回,將較強的部隊帶入戰鬥的前線。AlphaStar 還控制著戰鬥的速度,讓單位前進並在正確的時間略微回拉以造成更多傷害,同時減少收到的傷害。這不是 APM 的優勢,與人類玩家相比,AlphStar 的 APM 反而更低。AlphaStar 的優勢主要在於更優化的策略和更聰明的決定。

確實,AlphaStar 的專業水準與在遊戲上的學習速度對每一位星際玩家來說可能都不是什麼好消息。但是,在遊戲領域,遊戲玩家可以從 AI 身上學到非常多有用的策略。

星際爭霸——挑戰人類智力的遊戲

「星際爭霸 2」由暴雪娛樂公司製作,以虛構的科幻宇宙為背景,具有豐富的、多層次的遊戲體驗,其目的在於挑戰人類的智力。超過 20 年的時間裡,玩家們連續不斷的舉辦比賽,參加比賽,在賽場上拋灑熱血。

這個遊戲有幾種不同的遊戲模式,比賽中最常見的是 1v1 比賽。首先,玩家必須選擇玩三個不同的外星「種族」,即蟲族,神族或人族,每一個種族都有獨特的能力和特點。每個玩家開局都會有控制單位,通過收集基本資源來構建更多的單位,從而開發新的戰術和技能。通過新的戰術和技能收集新的資源,建立更加牢固、複雜的基地。如此循環往復,直到打敗對手為止。

所以說,要想獲勝,玩家必須有全局把控能力,強大的戰略佈局能力以及對單個單位的「微觀」控制能力。

玩遊戲的過程中,要做到短期目標和長期目標的兼容。還需要強大的靈活調整能力,能夠應對遊戲過程中的突發情況。為瞭解決這幾點,總的來說,人工智能的需要突破的技術點是:

博弈論

星際爭霸是一種像石頭剪刀一樣的遊戲,沒有單一的最佳策略。因此,在對人工智慧進行訓練的時候,需要不斷探索戰略層面的知識。

不完全的信息

在國際象棋或圍棋這種棋牌遊戲中,玩家可以對比賽一覽無餘。在星際中,玩家關鍵的信息是隱藏的,必須通過「偵察」才能發現。

長遠佈局

和許多現實世界的問題一樣,因果關係並不是那麼容易達成。在遊戲的任何地方你都可以花費時間,但這也意味著在遊戲早期採取的行動可能在很長一段時間內沒有回報。

實時

不同於傳統棋盤遊戲,玩家輪流行動,星際爭霸玩家必須在遊戲中不斷進行操作。

巨大操作空間

必須實時控制數百個不同的單元和建築物,從而形成巨大的可能性組合空間。除此之外,操作是分層的,可以修改和擴充。 對遊戲的參數化允許在每個時間步長平均有大約 10 到 26 個合法操作。

由於這些難點,星際爭霸已成為人工智慧研究的「巨大挑戰」。星際爭霸和星際爭霸 II 正在進行的比賽評估了自 2009 年 BroodWar API 推出以來的進展,包括 AIIDE 星際爭霸 AI 比賽,CIG 星際爭霸比賽,學生星際爭霸 AI 比賽和星際爭霸 II AI 排名賽。為了幫助社區進一步探索這些問題,在 2016 年和 2017 年與暴雪合作發佈了一套名為 PySC2 的開源工具,包括迄今為止發佈的最大的匿名遊戲回放集。我們現在在這項工作的基礎上,結合工程和算法的突破製造了AlphaStar。

AlphaStar 怎麼訓練的?

訓練能力比較

AlphaStar 的工作原理是首先獲取原始遊戲數據,並通過遊戲中複製的指令學習遊戲規則。但是為了理解如何玩,DeepMind 必須做大量的訓練。

為 AlphaStar 提供支持的神經網絡學習了暴雪公司提供的約 50 萬場匿名人類真實遊戲。然後 AlphaStar 能夠通過模仿學習策略,雖然它只是觀察人類如何玩遊戲。很快,該項目可以在 95% 的遊戲中擊敗「精英」級遊戲 AI。

然而,這些信息用於訓練各種 Agent,每個 Agent 在一個龐大的虛擬 AlphaStar 聯盟中相互競爭。人工智能與人工智能對決,只為了一個目標:精通遊戲。

這項技術被稱為多智能體強化學習過程,通過集體經驗學習。隨著新的Agent加入到聯盟中,他們分叉並參與越來越多的比賽,通過強化學習在每個階段採用新策略,同時不忘記如何擊敗早期的策略。

隨著聯盟的擴大,新戰略開始出現。然後,隨著時間的推移,這些策略的反制策略被開發出來,直到該計畫在獲得了在戰術上對如何獲勝的不同的理解,無論其在遊戲中面臨的怎樣具體的挑戰。在 AlphaStar 聯盟的早期比賽中,該計畫偏愛有風險的「All-in」戰略。但是,隨著時間的推移,它學會了更具戰略性,每個 Agent 實際上都在試圖擊敗它之前看到的每一個 Agent。

聯盟中的每個 Agent 也有自己的目標:例如,一個可能需要擊敗一種競爭者,而另一個可能需要通過使用特定的遊戲單元來專注於獲勝。聯盟運行了 14 天,每個 AI Agent 使用 16 個張量處理單元(谷歌的 AI 晶片組)。總體而言,每個Agent經歷了長達 200 年的實時星際爭霸遊戲,並且數千個並行運行的遊戲實例。

最終的 AlphaStar Agent 將通過數千小時遊戲玩法發現的所有最佳策略的精華融入到可以在單個桌面 GPU 上運行的程序中。

點擊次數比較

除了複雜性,星際爭霸挑戰對人工智慧系統的主要吸引力還在於它的廣泛性和競爭性。在眾多競賽中,有超過 240 萬名玩家,因此 DeepMind 能夠在大量數據上訓練 AlphaStar。

在基準測試中,它每分鐘能夠執行大約 280 個動作,遠低於專業人類玩家可以實現的動作,但是,重要的是,DeepMind 認為,AlphaStar 更精確。這也反映在了對抗人類對手的比賽中,例如,在對陣 Wünsch 的第一場比賽中,AlphaStar 每分鐘完成 277 次動作,而人類玩家則為 559 次。AlphaStar 輕鬆贏得了比賽。

這一點為什麼重要呢?DeepMind 希望這些通過研究星際爭霸所完成的無數突破可以擴展到其他不那麼瑣碎的應用當中。

例如,AlphaStar 的神經網絡架構可以模擬和理解可能行為的長序列,並使用混亂和不完全的信息來實現。在影像遊戲中,這允許 AI 快速找到獲勝策略並在必要時進行調整。在現實世界中,基於大量數據進行複雜的預測是人工智慧的基本挑戰。

AlphaStar 所取得的成就在這一挑戰中向前邁出了重要一步。該計畫能夠在星際爭霸中取得優異成績,以後也可能有助於更精準的天氣預報,氣候建模和語言理解。「我們對利用AlphaStar項目的學習和發展在這些領域取得重大進展的潛力感到非常興奮」DeepMind 團隊表示。

拭目以待!

Deepmind Blog

AI 打電競

【AI 版國定殺戮日】DeepMind 將直播 AI 血洗人類玩家、稱霸《星海爭霸 II》!

Open AI 用 DOTA2 血洗玩家不是真實力!網民:有種不要讀 API、用人類視覺跟我打

免費電競 AI 教練「Visor」登場,讓你菜鳥也能練成老司機

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa〉。)