完虐《星海爭霸 2》99.8% 人類玩家!DeepMind AI 輕鬆登上人、神、蟲族的宗師段位

【為什麼我們要挑選這篇文章】DeepMind 就是不放過《星海爭霸 2》,繼上次 10:1 血洗職業電競玩家後;這次增加 AI 限制,以人類遊戲同等狀況,一較高下。結果還是慘不忍睹啊……(責任編輯:陳伯安)

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息 
快將你的履歷自傳寄至  [email protected]

星海爭霸 2 上達到了最高的 Grandmaster 段位(Grandmaster 為宗師排名,「是一個讓每個地區的前 200 強優秀排名好手競爭最高殊榮的舞台。」)。

AlphaStar 成為了第一款在無限制情況下躋身電子競技頂級聯賽的 AI。

10 月 31 日,Deepmind 在《自然》雜誌發佈最新研究:在不設限制的情況下,以 Grandmaster 級別玩一場完整遊戲,並放出了相關遊戲影片和論文,相關數據顯示,AlphaStar 在暴雪平台上的排名已超越 99.8%的活躍玩家。

論文傳送門《點我

超越 99.8% 遊戲玩家,技術直達宗師等級

年初,由 DeepMind 構建的另一演算法 AlphaStar 擊敗了《星海爭霸 Ⅱ》的頂級人類選手 MaNa 和 TLO。不同於圍棋,《星海爭霸 Ⅱ》是一款即時戰略而非回合制的遊戲, 玩家的訊息隱蔽性和移動自由性較圍棋更高 。之後,Deepmind 設立了更宏偉的目標:在不設限制的情況下,以 Grandmaster 級別玩一場完整遊戲。

Deepmind 也發佈了相關文章,詳細敘述了這次的新研究,稱在幾個關鍵方面超越了先前的工作:

一、AlphaStar 現在通過與人類相同的攝像頭視野觀察地圖,以及對 AI 動作頻率進行了更嚴格限制(與星際爭霸專業 Dario「TLO」Wünsch 合作)。

二、AlphaStar 現在可以與星際爭霸中三大種族——人族、神族和蟲族進行一對一的對抗。

三、訓練過程完全自動化,並且僅從通過監督學習培訓的智慧體開始,而不是從以前的實驗中受過培訓的智慧體。

四、AlphaStar 在官方遊戲服務器 Battle.net 上使用與人類玩家相同的地圖和條件進行遊戲。所有遊戲重播均已釋出。

Deepmind 稱,使用通用的機器學習技術(包括神經網路,通過自己與自己遊戲進行強化學習,多智慧體學習和模仿學習)。從《自然》雜誌中發表的論文可以看到,AlphaStar 在 Battle.net 平台上排名高於 99.8% 的活躍玩家,並且在星海爭霸 II 的神族、人族和蟲族都達到了宗師級水平。

星海爭霸是博弈 AI 的最佳試驗場

基於學習的系統和自我博弈是很好的研究概念,這促進了人工智慧的顯著進步。1992 年 IBM 的研究人員開發了 TD-Gammon,它將基於學習的系統與神經網路相結合來玩西洋雙陸棋。TD-Gammon 並非根據編碼規則或無窮舉例法來玩遊戲,而是被設計為使用強化學習,通過反覆試驗來找出如何以最大化獲勝概率的方式玩遊戲。

它的開發人員使用自玩博弈的概念來使系統變得更加穩定:通過與自身進行對抗,系統越來越精通遊戲,當與數據結合起來時,基於學習的系統和自我遊戲的概念將提供開放式學習的強大範例。

自那時以來的許多研究取得的進展表明,這些方法可以擴展到其他有待突破的領域。例如,AlphaGo 和 AlphaZero 確立了一種系統,可以在圍棋、國際象棋上實現超越人類的表現,而 OpenAI Five 和 DeepMind 的 FTW 則在 Dota 2 和 Quake 的現代遊戲中展示了全新的能力。

DeepMind 研究了開放式學習的潛力和局限性,進而能夠開發穩定而靈活的 AI,以應對更加複雜的領域。《星際爭霸》就是驗證並發展這些方法的絕佳訓練場,因為玩家必須使用有限的訊息來做出實時且關鍵的決定,從而在多個層次和時間尺度上對戰局產生影響。

訓練博弈 AI 可能陷入的「無效輪迴」

儘管取得了成功,但自玩遊戲仍存在眾所周知的缺點。其中最大的問題是——遺忘:一個與自博弈爭的智慧體可能會不斷進步,但也可能會很快忘記如何與先前的自身競爭。遺忘會造成不斷「追逐尾巴」的循環,而永遠不會收斂或取得真正的進步。

例如,在遊戲剪刀石頭布中,智慧體目前可能更喜歡出「石頭」。隨著自我玩法的發展,新的智慧體將選擇轉用「布」,因為它會贏得勝利。稍後,智慧體將切換到「剪刀」上,最後回到「石頭」,從而形成一個循環。虛擬自我遊戲-與以前所有策略綜合對抗-是應對這一挑戰的一種解決方案。

Deepmind 稱,在首次將 StarCraft II 開源作為研究環境之後發現,即使虛擬的自玩技術也不足以產生強大的智慧體,因此著手開發更好的通用解決方案。

打遊戲不只要變強,也要懂得找弱點

Deepmind 在《自然》雜誌發佈論文的中心思想,是將虛構的自學遊戲這一概念擴展到一組智慧體–聯盟。

通常,在自學遊戲中,每個智慧體都希望最大程度地贏得對手。但這其實只是解決方案中的一部分。現實世界中,嘗試在《星海爭霸》中精進的玩家一般會選擇與朋友合作,訓練特定的策略,一起獲取勝利。因此,你的戰友不一定在與所有對手對抗中競爭,而是幫助你發現你的缺點,以使整個團隊更加強大。合作的主要策略是,不僅僅要贏得勝利。一隻強大的團隊不僅需要與所有人抗衡的「核心」智慧體,也需要「剝削者」智慧體,他們專注於 通過揭示其缺陷而不是最大程度地幫助「核心」智慧體變得更強大 。通過這種訓練方法,整個隊伍以端到端的全自動方式學習了複雜的《星海爭霸 II》策略。

在星海爭霸的複雜環境中,探索是另一個關鍵挑戰。每個智慧體在每個步驟中最多可以執行 1026 種操作,並且該智慧體必須先進行數千次操作之後,然後才能知道它是贏了還是輸了。

在如此龐大的方案處理領域中,尋找制勝戰略確實是一項挑戰。即使擁有強大的自我博弈系統,如果沒有一些先驗知識,在如此複雜的環境中,系統幾乎就不可能制定出成功的策略。

厲害的 AI 終究還是得模仿人

學習人的策略,並確保智慧體在整個遊戲過程中不斷學習這些策略,這是提升 AlphaStar 能力的關鍵。為此,Deepmind 使用了模仿學習,再加上基於語言建模的高級神經網路的體系結構和技術,來制定初始策略,使智慧體把遊戲玩得比 84% 的活躍玩家更好。

另外 Deepmind 還使用了一個潛在變量,該變量確定了策略並對人類遊戲的開局動作分布進行編碼,這有助於保留一些開局的高級策略。然後,AlphaStar 在整個自我遊戲過程中使用一種 distillation 手段,這種方法使 AlphaStar 可以在單個神經網路中展現許多策略(每個種族一個)。在評估過程中,神經網路不以任何特定的開局動作為條件。

此外,Deepmind 稱,由於星海爭霸具有巨大的動作空間,許多先前的強化學習方法均無效。尤其是 AlphaStar 使用了一種新的演算法進行政策外強化學習(Off-Policy),使其能夠在遊戲中有效地更新策略。

五角大廈印象深刻,博弈 AI 受親睞

利用自我學習智慧體的開放式學習系統在越來越具有挑戰性的領域中取得了令人印象深刻的結果。Deepmind 稱,這多虧了模仿學習,強化學習和聯盟的進步,才得以訓練出 AlphaStar Final,這是在整個《星海爭霸 II》完整遊戲中達到宗師級水平的智慧體,如上面的影片所示。該智慧體使用遊戲平台戰網匿名在線玩遊戲,並通過三場《星海爭霸 II》競賽達到了宗師級水平。

AlphaStar 通過界面錄影進行播放,具有與人類玩家類似的信息,並且對其動作速度有所限制,以使其與人類玩傢具有可比性。界面和限制都已獲專業玩家批准,因此這些結果為證明通用學習技術可以擴展 AI 系統提供了有力的證據,它們能夠在涉及多個參與者的複雜動態環境中工作。

總體而言,Deepmind 稱,用於開發 AlphaStar 的技術將有助於進一步提高 AI 系統的安全性和魯棒性,並且可能有助於推進在現實世界中的研究。比如,五角大廈中負責開發商業技術的國防創新部主任 Michael Brown 表示,利用 AI 實現「戰略推理」是他們的重點研究方向之一。

(本文經合作夥伴 大數據文摘 授權轉載,並同意  TechOrange 編寫導讀與修訂標題,原文標題為 〈Alphastar 再登 Nature!星际争霸任一种族,战网狂虐 99.8%人类玩家 〉。)

你可能想知道

6 週練出血洗星海爭霸的超強 AI!DeepMind 推出簡單、好學的機器學習新手菜單

人類連「星海爭霸 II」都守不住了!DeepMind AI 新作 Alphastar 10:1 血洗職業玩家

【AI 版國定殺戮日】DeepMind 將直播 AI 血洗人類玩家、稱霸《星海爭霸 II》!


人類陷入空前數據絕境

量子運算數秒瓦解所有加密技術!企業毫無抵擋之力 搶先報名 11/6《2019 未來科技展》量子加密場次 找到資安機制一線希望

點關鍵字看更多相關文章: