DeepMind 打贏人類靠作弊?星海爭霸勝利的真相:滑鼠按得比人類快兩倍

【為什麼我們要挑選這篇文章】上週, DeepMind 開發的電競 AI AlphaStar ,在星海爭霸 II 的比賽中,以 10:1 的戰績打敗職業玩家。然而,這真的是因為 AlphaStar 的智慧比人類高嗎?

在電競中,除了戰略、戰術等智慧層面,滑鼠鍵盤的操作技術也是決勝關鍵。操作技術包含指令輸入的速度和準確度,在激烈的交戰場景,決定競技的成敗,操作速度準度會比智慧更關鍵。下文作者將從操作技術層面來分析 AlphaStar ,分析它打敗人類玩家的原因,是它的智慧比人類高,還是它的速度和精度,超過了人類的生理極限。(責任編輯:郭家宏)

作者:乾明、銅靈

幾天前,DeepMind 開發的 AlphaStar 以 10:1 的戰績打敗星海爭霸 II 職業高手,引發了極大的關注。

AlphaStar 能夠打贏人類玩家,關鍵在手速

DeepMind 表示,自己能夠贏,全靠策略。

但這個說法,遭到了大量的質疑,無論是的 Reddit 和 Twitter 上,還是知乎和微博上,大多人都持有的觀點是:

AlphaStar 能贏,全靠手速(每分鐘動作數)。

比賽中的一些時間段, AlphaStar 的 APM(actions per minute)能夠達到 1000+ ,而最頂級的人類選手不過 500+ 。更何況, AlphaStar 的有效操作也幾乎是炸裂的。

雖然這種情況沒有持續多久,但 手速快慢以及精確度,對於星海爭霸 II 太重要了。

在這些質疑中,有一篇文章引發了很多人的關注, Medium 上的鼓掌(類似 FB 的按讚)超過了 1.3K, Reddit 上的 Vote 也已經逼近 700 。

這篇文章的作者是一名來自芬蘭的小哥,名為 Aleksi Pietikäinen ,目前在芬蘭最大的金融公司 OP Financial Group 工作,自稱是星海爭霸 II  粉絲,對開發 AI 也有研究。

他在文章中以充分的論據指出,在比賽中, AlphaStar 在操作速度和精準度上遠遠超過了人類,這在很大程度上影響了戰局。 DeepMind 聲稱已經限制 AI 執行超越人類能力的行為,但他們沒有成功做到這一點。

AlphaStar 的手速遠勝人類玩家

通常情況下, APM 是反映玩家水平的一個重要標準。

目前,星海爭霸 II 中公認的頂尖人類高手是芬蘭的職業選手 Serral ,在 2018 年 WCS 上, 9 場重要比賽贏得了 7 場,一舉奪冠,創造了歷史記錄。

他的手速很快。很多人都認為他應該是世界上最快的。有多快呢?看下面的動圖:

但即便如此, Serral 也不能夠長時間將 APM 維持在 500 以上。雖然有個 800+ 的爆發,但也只是持續了幾分之一秒,也很可能是垃圾操作。

AlphaStar 呢?爆發後 APM 能夠達到 1500+ ,有時候能夠在 APM 達到 1000+ 的時候維持 5 秒鐘,而且大部分是有效操作。

一分鐘 1500 個操作,就相當於一秒鐘 25 個操作。這對於人類來說,是不可能做到的。

而且, 5 秒鐘的時間在星海爭霸 II 中,也是一段非常長的時間。尤其是在重要的場景中, 5 秒的高效快速操作,將會為後期贏得勝利奠定關鍵的基礎。

下面的動圖,是第三場比賽中, AlphaStar 對 Mana 的一場交戰場景, AlphaStar 的 APM 達到了 1000+ ,並維持了 5 秒。

在第四場比賽中, APM 達到了 1500+:

雖然不乏有人說, AlphaStar 的平均 APM 只有 277 ,仍然是可以接受的。但無論如何, 它持續的爆發,是人類遠遠做不到的。

AlphaStar 的有效操作數遠勝人類玩家

如果把有效操作和垃圾操作考慮在內,AlphaStar 就更逆天了。

人類玩家的 APM 中,有很多都是無效操作,這些操作並不會遊戲產生有效影響。

考慮了這些因素之後,衡量一個玩家手速與精確度時,就有了一個新指標: EPM(effective actions per minute)。

剔除掉無效操作之後, Serral 的 EPM 能夠達到 344 ,每秒鐘有 5 ~ 6 次有效操作。這幾乎是聞所未聞的,以至於很多人都不敢相信這是真的。

如果, AlphaStar 能在沒有垃圾操作的情況下進行遊戲的,這就意味著它的峰值 APM 就等於它的 EPM 了。速度能達到最頂尖的人類選手的 4 倍!

雖然 AlphaStar 團隊表示,這些 APM 並不全是有效操作。但無論如何,人類都是沒辦法複製 AlphaStar 這些操作的。

在敗給 AlphaStar 之後, MaNa 談到了比賽的感受。他說, AI 最好的一面是單位控制,在我們情況差不多的時候, AlphaStar 能輕鬆獲勝。

但最糟糕的一面也是如此, AI 非常確信自己能夠通過單位控制獲勝,以至於沒有做其他任何事情,導致最後一場失利,比賽中沒有多少關鍵的時刻,它能贏在於機制。

這也不是 DeepMind 想要看到的情形。

AlphaStar 團隊也致力於開發不超越人類操作能力的智能體。聯合負責人 David Silver 反覆表示, AlphaStar 不會超過人類選手的表現。

首席設計師也說,讓系統能夠「像人一樣」訓練是可取的,如果只是通過很高的 APM 來將遊戲推向極限,聽起來可能很酷,但這並不能用來評估智能體的真實能力。

AlphaStar 拿自由 APM 做實驗,提升操作精確度

如上所述, AlphaStar 的研發團隊對 AI 系統的 APM 進行了限制的。 Aleksi Pietikäinen 推測,可能會限制以下方面:

1、整個遊戲中的平均 APM。

2、短時間內的爆發 APM。將 APM 限制在每秒 4 ~ 6 次是一個合理值。 Serral 有效操作每秒鐘還不到 6 次。但與 Mana 對戰的 AlphaStar 最高每秒操作 25 次左右,這比人類選手最快情況還要高,因此 Aleksi Pietikäinen 認為出現這種情況是不合理的。

3、點擊間隔。即使 AI 的點擊速度被限制了,它仍然可以在瞬間執行完動作,不用去考慮人類面臨的滑鼠點擊間隔問題。

三個原則確定後,接下來需要去訓練模型了。 DeepMind 的方法是,下載了上萬條人類高級玩家打遊戲的影片,開始模仿學習。

在這個階段, AI 會試圖模仿人類在遊戲中所做的一切,包括無效操作。因為在輸入給模型的視頻中,人類確實進行了很多無效操作, AI 也會學到。

AlphaStar 的最大爆發 APM ,最初與人類在同一起跑線。 上面也說到過,因為此時 AlphaStar 執行的大多數操作都是無效的,因此在對戰中沒有有效的 APM 支撐,並不占優勢。

但無效操作太多會一直拖慢訓練進度, 為了加速開發, DeepMind 團隊改變了對 APM 的限制,允許出現高爆發 , Oriol Vinyals 在 Reddit 的 AMA 中也提到了這一點:

5 秒的時間段內 APM 最大為 600 , 15 秒內 APM 為 400 , 30 秒時間內為 320 , 60 秒內為 300 。如果 AI 在此期間內執行了更多操作,系統會選擇刪除/忽略操作。

乍一看 DeepMind 對星海爭霸 II 的 AI 的設置合情合理,但如果細想前面討論過的人類的爆發速度及操作精確度與點擊間隔時間,又不是那麼回事。

舉個人類無效操作的最典型例子:想指揮單位移動、攻擊,就要用滑鼠點擊地圖上某個位置,這時候,人類的點擊速度會儘可能最快,這些點擊中也就有很多是無效的。

AI 也會跟著學到這些無效操作。

人類的點擊速度是有限的 ,所以 AI 一開始學到的操作速度也會受到同樣的限制。而 它後來表現出的超人手速和人類速度相比,之間差了很多額外的「自由」APM 。 AI 可以在這些自由 APM 上隨意實驗。

在交戰的時候, AI 就會拿這些自由 APM 來實驗,從中學會能得到更好成績的新行為模式,捨棄原本的無效操作。

這對人類來說,似乎是非常不公平的事情。

既然 AI 學會了更有效的操作,為什麼 DeepMind 沒有重新啟用推出 SC2LE 環境時的 180 APM 嚴格限制呢?

這可能是因為, AI 偶爾還是會有無效操作出現,這會明顯吃掉它的 APM 資源,在交戰時傷害到它的表現。

在 DeepMind 給出的官方資料中還有一些疑點。

在 APM 統計中看出,雖然 Mana 的 APM 平均值更高,但 AlphaStar 的「長尾」遠遠高於人類,在這些情況下, AI 用人類無法企及的精確度完成任何操作足矣。

可以看到, TLO 的 APM 甚至到了 2000 ,這個數值高得似乎有些離譜,這種情況可能是通過加速鍵盤實現的,這也會帶來無效操作。

但 DeepMind 並沒有解釋 TLO 的 APM 是怎麼來的,但這樣會讓人誤以為 AlphaStar 的操作是合理的。

最後需要說明的一點是,這篇文章只是 Aleksi Pietikäinen 的觀點。

也有一些人認為,就算 AlphaStar 的 APM 爆發突破了人類範疇,但它帶來的突破性進展及其背後的意義,也是毋庸置疑的。

對此,你怎麼看?

(本文經 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 DeepMind 作弊?被质疑干翻星际 2 顶尖高手全靠手速 〉 。首圖來源:Youtube AlphaStar 對戰人類玩家直播

更多 DeepMind AI 消息

人類連「星海爭霸 II」都守不住了!DeepMind AI 新作 Alphastar 10:1 血洗職業玩家
【AI 版國定殺戮日】DeepMind 將直播 AI 血洗人類玩家、稱霸《星海爭霸 II》!
DeepMind 之父自曝:每天工作至凌晨 4 點,帶領 400 位博士鞏固 AlphaGo 霸主地位


科技報橘 2019 全面徵才 ── 跟我們一起找到台灣在國際中的創新產業定位

我們正在找「社群編輯 3 名」、「資深採訪編輯 2 名

來信請將履歷與文字作品寄至 [email protected],信件名稱:應徵 TechOrange 社群編輯:(您的大名)

 

 

點關鍵字看更多相關文章: