【為什麼我們要挑選這篇文章】OpenAI 去年聲名大噪,AI 竟能打贏電競專業玩家實在無法想像。不過當時 AI 大戰人類的話題的確引來龐大人潮觀看,而不出一年電玩迷又有新賽事可以看了。DeepMind 近日於推特下戰帖,宣告 AI 將直播暴打星海爭霸 II 玩家。星海爭霸號稱史上最複雜的遊戲之一,AI 真有機會獲勝嗎?(責任編輯:陳伯安)

半年前,OpenAI Five  Ti8 賽事中與人類職業選手大戰 DOTA 的盛況還歷歷在目,年前,DeepMind AI 也要在遊戲界搞大事情了。

這次,AI 要挑戰的是暴雪的經典遊戲——星海爭霸 II

AI 即將進攻星海爭霸 II

DeepMind 23 日在 Twitter 上公開發佈了「戰帖」,表示要在兩天後當地時間週四下午 點,也就是台灣時間週五凌晨 點,直播打星海 II

這不是一次簡單的直播,更像是一場特別的「發佈會」,DeepMind 想要通過這場比賽,公開展示 AI「學到的新戰術」。

本次的將要出戰的 AI 是由 DeepMind 和暴雪聯合培養的,經過了「特別的訓練方式」,似乎對這次比賽的勝利很有信心。

比賽將會在星海的 Twitch 頻道和 DeepMind 的 Youtube 頻道同步直播,先給出網址,星海 II 的玩家們,你們準備好對抗 AI 了嗎?

Twitch 直播點這

YouTube 直播點這

以餵食「數十萬」遊戲畫面不斷成長

暴雪在最近的 BlizzCon 上,總結了自己 2018 年的工作,並相當低調地發佈了「與 DeepMind 合作正在繼續 」的更新:

DeepMind 一直在努力訓練他們的 AI 更好地瞭解星海爭霸 II。一旦它開始掌握遊戲的基本規則,它開始展示「有趣」的行為,例如立即衝向對手。目前,即時在「瘋狂」難度下的星海爭霸 IIAI 的成功率已經可以達到 50%!

而且它還在學習:「在向它提供了更多真實玩家的遊戲錄影之後,AI 開始執行標準的宏觀策略,以及防禦諸如加農炮衝擊等激進戰術。」

暴雪的新年總結

經過三個月的訓練,顯然這只 AI 取得了不錯的進展,而 DeepMind 和暴雪都認為現在已經到了將其公諸於眾的時候。

暴雪 23 日也發佈聲明稱,這場比賽將提醒我們,所有 AI 都在以幾何速度學習。「星海爭霸遊戲已經成為人工智慧社區的「巨大挑戰」,因為它們是針對諸如規劃,處理不確定性和空間推理等問題的進展基準的完美環境。」 

其實早在 2016 年,DeepMind 已經立下 Flag 要教會 AI 玩兒星海爭霸 II,也已經有包括 facebook、阿里巴巴等不少科技公司或者研究機構開拓過「星海」這片競技場,但 DeepMind 這樣專治人類各種不服的公司正式宣佈與暴雪合作,還是讓一票星海玩家大呼「熱血」。 暴雪承諾將持續發佈從「星海爭霸 II」天梯中收集的數十萬個匿名遊戲影片,這會將訓練變得更加容易。 

2017 年 月份,DeepMind 已經官宣正式與暴雪娛樂合作,共同開發可以在星海爭霸 II 中與人類玩家對抗的 AI,並且發佈了 SC2LE,一個旨在加速即時戰略遊戲當中 AI 應用的工具集。

這次訓練的 AI 所採用的數據,很可能是暴雪承諾過的「星海爭霸 II」天梯中收集的數十萬個匿名錄影。有了這些數據,相信 AI 的能力也會有突飛猛進的提升。

超過 10 萬種配置可能,Alpha Go 也應付不來

不要以為有了優質數據就能訓練出來超強的 AI。其實這並不是一項輕鬆的任務,因為遊戲的複雜性和更多可能性也讓 AI 戰勝人類要遠比在棋盤遊戲上複雜。

星海爭霸和星海爭霸 II 是史上最大和最成功的遊戲之一,它們見證了許多玩家從青蔥歲月到為人父母的 20 多年。其原始遊戲早已被 AI 和 ML 研究人員使用,並在每年的 AIIDE 機器人大賽中進行角逐。

更多 AIIDE 機器人大賽競賽點這

使用 AI 在星海爭霸中對戰人類玩家會比圍棋艱難得多,對於 AI 來說,最大的難點在於,每一場對決都存在大量可能的方式。

據估計,每場對決有 101,685 種可能的配置,為了給大家一個直觀感受,Alpha Go 的配置層是 10,170

此外,不同於棋類遊戲的輪流依次進行走步,並且擁有決策的時間,在星海爭霸中,玩家會同時出招,且不能看到對方玩家的狀態,也就是說,所有決定需要在「不完整信息」的情況下做出。所有這些都意味著,你不能僅靠邏輯和一些步驟找到贏得對決的最優方式,玩家更需要的是策略和直覺。

採用 PySC2 模型訓練,應付多種可能性

星海爭霸 II 的玩家在同一時間可能有 300 多種基本行動可以選擇,因此策略集及策略選擇也對 AI 構成了巨大的挑戰。與此形成鮮明對比的是雅達利遊戲,大概只有 10 種選擇(例如,下,左,右等)。除此之外,星海爭霸中的很多操作是分級的,可以進行修改和擴充,其中很多都需要操作螢幕上的一個點進行。即使一個小 84X84 的屏幕也會產生大約 億種可能的行動選擇。

之前發佈的 PySC2 可以幫助研究人員利用暴雪自己的工具來解決這些挑戰,並且構建自己的任務和模型。

PySC2 環境提供了一個靈活的,易於使用的 RL 代理遊戲界面。在最初的版本中,遊戲被分解為「特徵層」,其中的遊戲元素,如單元類型、單位的健康度和地圖的可見性彼此隔離,同時保留遊戲的核心視覺和空間元素。

之前發佈的 PySC2 還包括一系列的迷你遊戲,一種將遊戲分解成小模塊的技術,可以用來測試特定任務的代理,比如移動視角、收集礦物碎片或選擇單位。DeepMind 希望研究人員可以測試他們的技術,並且開發新的迷你遊戲,以供其他研究人員進行使用和評估。

簡單的RL迷你遊戲可以讓研究者測試代理在一些特定任務上的表現

訓練過和未訓練過的代理在玩迷你遊戲

起於 Alpha Go,行至 OpenAI

1997 年,國際象棋 AI 第一次打敗頂尖的人類;2006 年,人類最後一次打敗頂尖的國際象棋 AI

在 2016 年年底,一個名為「Master」的神秘在線圍棋玩家出現在了熱門的亞洲遊戲服務器 Tygem 上。在接下來的幾天里,這個神秘的玩家橫掃世界範圍內的許多一流玩家。

2017 年 月,AlphaGoMaster」在對戰世界排名最高的圍棋選手柯潔中屢屢得分。在三場比賽中,人工智慧穩操勝券。

2017 年 12 月,DeepMind 發佈了一個更新版本的系統。這款名為「AlphaZero」的新人工智慧可以在短短幾個小時內掌握各種遊戲。經過僅僅 個小時的自我訓練,這個系統不僅能打敗 AlphaGo Zero 的早期版本,而且還可以成為象棋大師和將棋(shogi,又稱日本象棋,一種流行於日本的棋盤遊戲)的冠軍。

在拿到棋牌類的王者之後,人工智慧向更複雜的實時對戰遊戲領域進發。

2018 年,OpenAI Five 與 DOTA2 半職業玩家團隊交手,比賽結果是 2:1,人類輸掉了比賽。在 2017 年,比較原始版本的 AI 在 1v1 戰鬥中就擊敗了人類職業玩家 Dendi

2018 年 月份,人工智慧在 Ti8 賽事中與職業玩家交手,比賽結果是兩場比賽,人類玩家守住了 DOTA 這一高地。其中,第二場與中國玩家交手,在第 45 分鐘的時候,AI 直接認輸。

2018 年 月,騰訊 AI Lab 發佈論文稱,他們構建的 AI 首次在完整的蟲族 VS 蟲族比賽中擊敗了星海 的內置機器人 Bot

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈DeepMind携手暴雪发战帖:周五直播AI打星际II,发布研究新进展〉。)

AI 血洗電競圈

OpenAI Five 止步 T18!大敗頂尖人類戰隊,「規則改變」成主因

OpenAI 用《Dota 2》示範血虐人類:砍瓜切菜偷推塔,職業選手被當菜打

馬斯克 OpenAI 打 Dota 2:玩爆平民玩家後,世界賽專業電競手也是同樣下場?