【我們為什麼挑選這篇文章】週末最狂熱的新聞,大概就是 Elon Musk 的 OpenAI 在自我訓練兩個星期後,在一對一的單挑中擊敗了 Dota2 的最強選手,瞬間震驚了整個電競與 AI 產業。

雖然 OpenAI 尚未公佈訓練的細節,目前得知應該不是用腳本(script)的方式進行。值得注意的是,研究人員並非事先替 AI 設定好目標:擊殺小兵、施放技能、閃躲技能,甚至是用假動作(施放技能時瞬間按 S 取消)欺騙玩家,都是 AI 藉由自我學習的方式習得。僅僅兩個星期,就把人類最強玩家比在腳底下。

事後,Elon Musk 也得意洋洋的在 Twitter 上發廢文慶祝,認為 OpenAI 的成就比 AlphaGo 更加困難,在次重申了監管 AI 的重要性。不過,前 Google 大腦、史丹佛研究員就出來狠狠打了 Elon Musk 一巴掌。不管如何,AI 的確又達成了一小步里程碑,下一個被攻破的遊戲會是?(責任編輯:陳君毅)

這個週末的科技圈再次被「AI 恐懼」刷屏,這次打敗人類的 AI 來自 Elon Musk 的 OpenAI。週末凌晨的 DOTA2 人機大戰中,頂級人類玩家 Danylo “Dendi” Ishutin 被 AI 完敗。

到底這次人機大戰意義何在?這次在一對一 DOTA2 中打敗 Dendi 到底比 AlphaGo 更難還是更容易?

眾說紛紜中,我們認為前 Google 大腦和史丹佛研究員 Denny Britz 的這篇評論文章相對中肯和理性,也得到了不少學者的力挺:「這個問題實際上比擊敗人類圍棋冠軍容易得多。我們並沒有在 AI 中突然進步」。

DOTA 界的大神們在昨天受到了暴擊,在堪稱「DOTA 屆世界杯」的 T17 邀請賽中,頂級人類選手被 OpenAI 訓練了兩週的 AI 打敗。各類如「攻陷 DOTA2」、「完虐人類」的字眼紛紛出現,不免讓人想起之前 AlphaGo 大戰柯潔的盛況。

Elon Musk 本人也在推特上強推了這次人機大戰,他認為 DOTA2 比圍棋複雜很多,所以這次獲勝的機器人也比 AlphaGo 要厲害。當然,馬斯克也沒忘記再次提起 AI 和所有事物一樣需要被監管。重提幾個星期前和眾多技術大佬吵得沸沸揚揚的舊梗,讓不少人懷疑這是為了媒體炒作吸引眼球。

Elon Musk 認為擊敗人類選手的 OpenAI 比 AlphaGo 更複雜,且 AI 需要被「監管」。

前 Google 大腦和史丹佛研究員 Denny Britz 就這件事發表了自己的看法:

「這是一個令人讚嘆的成就,但也不是媒體想讓你相信的 AI 大突破。」

「過度炒作 AI 進展真的是危險的,Elon Musk 的推特會誤導大家。」

Denny Britz 相對客觀的羅列了這件事的成就和浮誇之處,以下是全文的編譯:

當我看到今天 OpenAI 的 DOTA2 機器人在國際(The International)電競大賽上擊敗人類玩家的消息時,我興奮得跳起來。

該錦標賽的獎金池超過了二千四百萬美元,作為一名電競運動迷,我雖然從來沒有玩過 DOTA 2,但是我經常在線上觀看其他電競比賽,高中時還是半​​專業選手。但更重要的是,像 DOTA 這樣的多人在線戰術競技遊戲(MOBA),以及「星海爭霸 2」這樣的實時戰略(RTS)遊戲,被視為超越了當前人工智能技術的能力。

這些遊戲需要長期的戰略決策,多人合作,並且相比 AI 技術在過去幾十年中「解決」了的西洋棋、圍棋或撲克類游戲,具有明顯更複雜的狀態和動作空間。

DeepMind 已經在星海爭霸 2 上工作了一段時間,幾天前發布了他們的研究環境。

到目前為止,研究人員還沒有取得重大突破。據認為,我們仍需要至少 1-2 年才能在星海爭霸 2 上打敗人類。

這就是為什麼OpenAI今天這條消息如此令人震驚。怎麼會這樣呢?難道我錯過了最近 AI 發展的重大突破?當我開始更多地了解 DOTA 2 機器人正在做什麼,它是如何訓練的,以及它的遊戲環境後,我得出的結論是,這是一個令人讚嘆的成就,但也不是媒體想讓你相信的 AI 大突破

本文的目的是: 對於哪些才是真正的新東西,我願意提供一個理性清醒的解釋。過度炒作 AI 進展非常危險,比如 Elon Musk 昨天誤導人的推特。

首先我要說明,炒作或不正確的假設並非 OpenAI 研究人員的錯誤, OpenAI 傳統上一向對其研究貢獻的局限性非常直觀明了,我相信在他們今天也一如既往。OpenAI 還沒有公佈他們方案的技術細節,所以對於外行而言,很容易就得出錯誤的結論。

我們先來看看 DOTA 2 機器人解決的問題實際上有多困難。跟 AlphaGo 相比怎麼樣?

1. 1 對 1 與 5 對 5 是沒有可比性的。在 DOTA 2 的一個基本遊戲中,一隊 5 名選手對陣另外 5 人。這些遊戲需要高級戰略制定,團隊溝通和合作,通常需要 45 分鐘左右的時間。

而 1 對 1 的遊戲受到更多限制,兩名選手基本上沿著單線行駛,並試圖殺死對方,通常在數分鐘內結束。在 1 對 1 中擊敗對手需要機械技能和短期戰術,但沒有任何對當前的 AI 技術來說具有挑戰性的需求,如長期規劃或團隊協調。事實上,你需要採取的有效操作數量少於圍棋遊戲。有效的狀態空間(玩家對遊戲中當前局面的掌控),如果以比較聰明的方式表示,應該比圍棋還要小。

2. 機器人可以訪問更多信息:OpenAI 機器人(很可能)構建在遊戲機器人 API 之上,可以訪問人類無法訪問的各種信息。即使 OpenAI 研究人員限制其訪問某些類型的信息,機器人仍然可以訪問比人類更準確的信息。

例如,某項技能只能在一定範圍內擊中對手,而人類玩家必須觀看屏幕並且估計當前與對手的距離,這需要練習。機器人知道確切的距離,並可立即決定是否使用技能。獲得各種精確的數字信息是一個很大的優勢。事實上,在遊戲過程中,可以看到機器人數次在最大距離上使用技能。

3. 反應時間:機器人可以立即反應,人類卻不能。再加上上述的信息優勢,這是另一大優勢。例如,一旦對手超出特定技能範圍,機器人可以立即取消某項技能的使用。

4. 學習使用一個特定的角色:遊戲中有 100 個不同的角色,具有不同的天賦能力和優勢。機器人學習玩的唯一的角色是 Shadow Fiend,通常會立即進行攻擊(而不是在一段時間內持續的更複雜的技能),作為機器人,得益於信息優勢和快速的反應時間。

鑑於 1 對 1 主要是機械技能的遊戲,AI 擊敗人類玩家並不奇怪。對 OpenAI 而言,由於環境受到嚴格限制,(很大可能)可用的操作也受到限制,而且很少或者完全沒有進行長期規劃或協調的需要,我得出的結論是,這個問題實際上比擊敗人類圍棋冠軍容易得多。我們並沒有在 AI 中突然進步。它的成功,是因為我們的研究人員用正確的方式,聰明地設置了需解決的問題,把當前技術用到極致。據說機器人的訓練時間大概是 2 週左右,也說明真相確實如此。AlphaGo 需要在 Google 的 GPU 集群上進行數月高強度的大規模培訓。從那以後我們取得了一些研究進展,但並沒有將計算要求降低一個數量級。

現在,批評夠多啦。新聞炒作可能有點過度,但不妨礙這次人機大戰的勝利依然很酷的事實。顯然,大量具有挑戰性的工程和合作建設才實現這一切。下面這次 DOTA 機器人很厲害的地方:

1. 完全通過自我訓練:這個機器人不需要任何訓練數據,它也不會從人類的演示中學習。它完全隨機開始,並且不斷地跟自己對練。雖然這種技術並不是什麼新鮮事物,但令人驚訝的是(至少對我來說),機器人自己就學習到了人們使用的技術,如 RedditYcombinator 上評論中所提出的。我不太了解 DOTA 2,所以無法判斷這一點,但是我覺得非常酷。機器人可能還有其他人類不知道的技術。這與我們在 AlphaGo 中看到的類似,人類玩家開始從其非常規的動作中學習,並調整了自己的遊戲方式。

2. AI +電競需要邁出的一大步:在具有挑戰性的環境(如 DOTA 2 和 Starcraft 2)上來測試新的 AI 技術非常重要。如果我們可以說服電子競技社區和遊戲發行商,我們可以通過將 AI 技術應用於遊戲來提供價值,我們可以期待得到大力支持,這會加速 AI 進展。

3. 部分可觀察的環境:雖然 OpenAI 研究人員如何用 API 處理這個問題的細節尚不清楚,但是人類玩家只會看到屏幕上的內容,並且可能在視角上會有一些限制,比如上坡下坡的樹林陰影。這意味著,與圍棋或像棋或 Atari(更像撲克)這樣的遊戲不同,我們處於部分可觀察的環境中——我們無法訪問有關當前遊戲狀態的完整信息。

這些問題通常難以解決,是急需更多進展的研究領域。話雖如此,目前還不清楚 1v1 DOTA2 比賽的部分可觀察性是多麼重要——這裡也沒有太多可以策劃的。

所有這些中,最重要的是,我非常期待可以看到 OpenAI 的技術報告,看看他們到底是怎麼搭建這個系統的。

——

(本文經 大數據文摘(ID:BigDataDigest)授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈在 DOTA2 中獲勝的 AI 真的比 AlphaGo 厲害嗎?〉。圖片來源:Sergey Galyonkin, CC Licensed 。)

延伸閱讀

為什麼現在站在電競巔峰的是 LOL 的 Riot,而不是擁有 WOW、星海的暴雪?
打網咖的回憶都回來啦!Blizzard 宣布《星海爭霸》與《怒火燎原》合輯免費下載
不下圍棋改打電動!發明 AlphaGo 的 DeepMind 與暴雪合作,讓《星海爭霸》變成 AI 實驗室