【為什麼我們要挑選這篇文章】OpenAI 去年聲名大噪,AI 竟能打贏電競專業玩家實在無法想像。不過當時 AI 大戰人類的話題的確引來龐大人潮觀看,而不出一年電玩迷又有新賽事可以看了。DeepMind 近日於推特下戰帖,宣告 AI 將直播暴打星海爭霸 II 玩家。星海爭霸號稱史上最複雜的遊戲之一,AI 真有機會獲勝嗎?(責任編輯:陳伯安)
半年前,OpenAI Five 在 Ti8 賽事中與人類職業選手大戰 DOTA 的盛況還歷歷在目,年前,DeepMind AI 也要在遊戲界搞大事情了。
這次,AI 要挑戰的是暴雪的經典遊戲——星海爭霸 II。
AI 即將進攻星海爭霸 II
DeepMind 23 日在 Twitter 上公開發佈了「戰帖」,表示要在兩天後當地時間週四下午 6 點,也就是台灣時間週五凌晨 2 點,直播打星海 II。
這不是一次簡單的直播,更像是一場特別的「發佈會」,DeepMind 想要通過這場比賽,公開展示 AI「學到的新戰術」。
本次的將要出戰的 AI 是由 DeepMind 和暴雪聯合培養的,經過了「特別的訓練方式」,似乎對這次比賽的勝利很有信心。
比賽將會在星海的 Twitch 頻道和 DeepMind 的 Youtube 頻道同步直播,先給出網址,星海 II 的玩家們,你們準備好對抗 AI 了嗎?
Twitch 直播點這。
YouTube 直播點這。
以餵食「數十萬」遊戲畫面不斷成長
暴雪在最近的 BlizzCon 上,總結了自己 2018 年的工作,並相當低調地發佈了「與 DeepMind 合作正在繼續 」的更新:
DeepMind 一直在努力訓練他們的 AI 更好地瞭解星海爭霸 II。一旦它開始掌握遊戲的基本規則,它開始展示「有趣」的行為,例如立即衝向對手。目前,即時在「瘋狂」難度下的星海爭霸 II,AI 的成功率已經可以達到 50%!
而且它還在學習:「在向它提供了更多真實玩家的遊戲錄影之後,AI 開始執行標準的宏觀策略,以及防禦諸如加農炮衝擊等激進戰術。」

暴雪的新年總結
經過三個月的訓練,顯然這只 AI 取得了不錯的進展,而 DeepMind 和暴雪都認為現在已經到了將其公諸於眾的時候。
暴雪 23 日也發佈聲明稱,這場比賽將提醒我們,所有 AI 都在以幾何速度學習。「星海爭霸遊戲已經成為人工智慧社區的「巨大挑戰」,因為它們是針對諸如規劃,處理不確定性和空間推理等問題的進展基準的完美環境。」
其實早在 2016 年,DeepMind 已經立下 Flag 要教會 AI 玩兒星海爭霸 II,也已經有包括 facebook、阿里巴巴等不少科技公司或者研究機構開拓過「星海」這片競技場,但 DeepMind 這樣專治人類各種不服的公司正式宣佈與暴雪合作,還是讓一票星海玩家大呼「熱血」。 暴雪承諾將持續發佈從「星海爭霸 II」天梯中收集的數十萬個匿名遊戲影片,這會將訓練變得更加容易。
2017 年 7 月份,DeepMind 已經官宣正式與暴雪娛樂合作,共同開發可以在星海爭霸 II 中與人類玩家對抗的 AI,並且發佈了 SC2LE,一個旨在加速即時戰略遊戲當中 AI 應用的工具集。
這次訓練的 AI 所採用的數據,很可能是暴雪承諾過的「星海爭霸 II」天梯中收集的數十萬個匿名錄影。有了這些數據,相信 AI 的能力也會有突飛猛進的提升。
超過 10 萬種配置可能,Alpha Go 也應付不來
不要以為有了優質數據就能訓練出來超強的 AI。其實這並不是一項輕鬆的任務,因為遊戲的複雜性和更多可能性也讓 AI 戰勝人類要遠比在棋盤遊戲上複雜。
星海爭霸和星海爭霸 II 是史上最大和最成功的遊戲之一,它們見證了許多玩家從青蔥歲月到為人父母的 20 多年。其原始遊戲早已被 AI 和 ML 研究人員使用,並在每年的 AIIDE 機器人大賽中進行角逐。
更多 AIIDE 機器人大賽競賽點這。
使用 AI 在星海爭霸中對戰人類玩家會比圍棋艱難得多,對於 AI 來說,最大的難點在於,每一場對決都存在大量可能的方式。
據估計,每場對決有 101,685 種可能的配置,為了給大家一個直觀感受,Alpha Go 的配置層是 10,170。
此外,不同於棋類遊戲的輪流依次進行走步,並且擁有決策的時間,在星海爭霸中,玩家會同時出招,且不能看到對方玩家的狀態,也就是說,所有決定需要在「不完整信息」的情況下做出。所有這些都意味著,你不能僅靠邏輯和一些步驟找到贏得對決的最優方式,玩家更需要的是策略和直覺。
採用 PySC2 模型訓練,應付多種可能性
星海爭霸 II 的玩家在同一時間可能有 300 多種基本行動可以選擇,因此策略集及策略選擇也對 AI 構成了巨大的挑戰。與此形成鮮明對比的是雅達利遊戲,大概只有 10 種選擇(例如,下,左,右等)。除此之外,星海爭霸中的很多操作是分級的,可以進行修改和擴充,其中很多都需要操作螢幕上的一個點進行。即使一個小 84X84 的屏幕也會產生大約 1 億種可能的行動選擇。
之前發佈的 PySC2 可以幫助研究人員利用暴雪自己的工具來解決這些挑戰,並且構建自己的任務和模型。
PySC2 環境提供了一個靈活的,易於使用的 RL 代理遊戲界面。在最初的版本中,遊戲被分解為「特徵層」,其中的遊戲元素,如單元類型、單位的健康度和地圖的可見性彼此隔離,同時保留遊戲的核心視覺和空間元素。
之前發佈的 PySC2 還包括一系列的迷你遊戲,一種將遊戲分解成小模塊的技術,可以用來測試特定任務的代理,比如移動視角、收集礦物碎片或選擇單位。DeepMind 希望研究人員可以測試他們的技術,並且開發新的迷你遊戲,以供其他研究人員進行使用和評估。
簡單的RL迷你遊戲可以讓研究者測試代理在一些特定任務上的表現

訓練過和未訓練過的代理在玩迷你遊戲
起於 Alpha Go,行至 OpenAI
1997 年,國際象棋 AI 第一次打敗頂尖的人類;2006 年,人類最後一次打敗頂尖的國際象棋 AI。
在 2016 年年底,一個名為「Master」的神秘在線圍棋玩家出現在了熱門的亞洲遊戲服務器 Tygem 上。在接下來的幾天里,這個神秘的玩家橫掃世界範圍內的許多一流玩家。
2017 年 5 月,AlphaGo「Master」在對戰世界排名最高的圍棋選手柯潔中屢屢得分。在三場比賽中,人工智慧穩操勝券。
2017 年 12 月,DeepMind 發佈了一個更新版本的系統。這款名為「AlphaZero」的新人工智慧可以在短短幾個小時內掌握各種遊戲。經過僅僅 8 個小時的自我訓練,這個系統不僅能打敗 AlphaGo Zero 的早期版本,而且還可以成為象棋大師和將棋(shogi,又稱日本象棋,一種流行於日本的棋盤遊戲)的冠軍。
在拿到棋牌類的王者之後,人工智慧向更複雜的實時對戰遊戲領域進發。
2018 年,OpenAI Five 與 DOTA2 半職業玩家團隊交手,比賽結果是 2:1,人類輸掉了比賽。在 2017 年,比較原始版本的 AI 在 1v1 戰鬥中就擊敗了人類職業玩家 Dendi。
2018 年 8 月份,人工智慧在 Ti8 賽事中與職業玩家交手,比賽結果是兩場比賽,人類玩家守住了 DOTA 這一高地。其中,第二場與中國玩家交手,在第 45 分鐘的時候,AI 直接認輸。
2018 年 9 月,騰訊 AI Lab 發佈論文稱,他們構建的 AI 首次在完整的蟲族 VS 蟲族比賽中擊敗了星海 2 的內置機器人 Bot。
(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈DeepMind携手暴雪发战帖:周五直播AI打星际II,发布研究新进展〉。)
AI 血洗電競圈
OpenAI Five 止步 T18!大敗頂尖人類戰隊,「規則改變」成主因