OpenAI 用《Dota 2》示範血虐人類:砍瓜切菜偷推塔,職業選手被當菜打

 

【我們為什麼會挑選這篇文章】OpenAI 在今年六月時首次在五人制的對戰中,輾壓路人選手,但對於訓練有素的團隊,AI 還沒那麼大的把握。不過從誕生到對戰,AI 成長速度超過人類想像,以每天 180 次對戰經驗,一年左右的時間,已能技壓人類業餘選手。打完這場緊接著就是 Dota 的年度國際賽事,人類派出頂尖戰隊有機會扳回一城嗎?(責任編輯:鄧天心)

台灣時間早上 5 點 58 分,人類半職業 Dota 高手隊對戰 OpenAI Five 第二局接近尾聲,被稱為大老師的 dota plus 大數據對人類戰隊宣判了死刑。

它說,AI 勝率 100%。

6 點整,人類第二次打出 GG(good game,投降),AI 宣告勝利。

這是 OpenAI Five 首次在 5v5 戰局中,對上職業選手。

今天的人類代表隊由職業和半職業選手組成,在舊金山和 AI 展開三局兩勝的廝殺。

一方是從未輸給過人類職業選手的 OpenAI Five,另一邊,人類戰隊中的現役職業選手 MoonMeander 也在 Twitter 上高調宣布「從未輸給過 bot,這次也不會」。


事實證明,這個 Flag 立得太高。

AI 以碾壓之勢,連勝兩局。加上正賽前,AI 已經碾壓了兩局現場觀眾玩家,整個對戰 AI 的過程中,人類陣營可謂一敗塗地。

最後一局,改了規則。 AI 一方的英雄,由現場觀眾共同選出,最後得到一個奇葩陣容。人類玩家靠這種方式,勉強扳回一局。但這也無法改變 AI 大獲全勝的事實。

總有人把 OpenAI 的勝利,歸功於已經退出董事會的 Elon Musk。對於今天的勝利,鋼鐵俠怎麼說?我們最後揭曉,先說正事兒。

4 局被碾壓,1 局險勝

正式比賽之前先進行了兩場 OpenAI Five 對觀眾的娛樂賽,毫無懸念,均以人類失敗告終,AI 拆塔如入無人之境。其中第二場比賽 9:28 分人類上路高地塔告破,不到 14 分鐘,觀眾隊就輸給了 AI。人類先折兩陣。

不過,後面職業選手的比賽也沒有強多少。

正賽第一局

由於只有 18 個英雄,正式的比賽雖然有 BP,但大家只是像徵性的 BAN 了一些 18 個英雄之外的英雄。夜魘的人類選了小牛、瘟疫法師、冰女、剃刀和影魔,天輝的 AI 選了巫妖、飛機、火槍、DP 和萊恩。

一開始,merlini 的剃刀越塔送了一血,AI 在各路拿下 5 個人頭後,人類終於拿下一個,此時 AI 勝率 94%。一波團戰後,人頭變為 AI 9:3,勝率給到了 AI 勝 99%,象徵性的給人類留下了 1%的尊嚴。

之後,AI 開始了瘋狂的推塔進程,四一分帶,巫妖一人推掉上路一塔,其餘 4 人滅掉人類對手,推掉下路一塔。隨後,野區爆發一波團戰,AI 前後夾擊,將被包圍在中間的三人統統滅掉,旁邊的一人也殘血逃命不及被補刀,此時已進行到 13 分鐘,人頭數 22: 4,AI 經濟領先 5k。

1 分鐘後,下路 2 塔告破。隨後,人類終於認真配合,四人包圍抓了一個巫妖,然而就在此時,AI 隊其餘 4 人推掉了上路高地塔,人類趕回家救塔,blitz 的影魔完成本場人類唯一亮點操作,完成雙殺。然而無濟於事,AI 已經開始醞釀最後一波團戰了,他們衝上中路高地塔前,越過人類小牛的阻礙,越塔拿下 2 個人頭後,淡定拆塔。
最終,人類 gg,以 8:30 慘敗。

這一場彷彿人類完全沒有配合,彷彿被割韭菜一樣推掉。惹得直播間彈幕驚嘆:這哪是排名 1000 名左右的高手,簡直像新手一樣被虐。

正賽第二局

這次人類在天輝一方,選擇了巫醫、影魔、小牛、死亡先知(DP)和隱刺,夜魘 AI 選擇的是巫妖、火槍、萊恩、冰女和飛機。
第二局的人類似乎稍微有出息了一點,拿下一血,人頭屬於影魔,甚至還推掉了一個塔。 AI 的勝率成功被堅強抵抗的人類壓低了……1 個百分點,降到了 98%,甚至開始時,人類經濟都領先了 1k。

AI 被人類拖到了 20 分鐘才開始推中路高地塔。然而這點優勢沒有持續多久,AI 如拆遷隊一般,推完中路後迅速去推下路,緊接著趕去了上路,開局 25 分鐘,上路塔被拆,人類本局終於沒有機會了。

三局兩勝下,也意味著這場比賽人類還是輸給了 AI。而且人類和 AI 之間的差距,實在是太大、太明顯。

正賽第三局

既然 AI 已獲兩勝,第三場就變成了娛樂局,由人類觀眾來刁難 OpenAI Five,為他們選出 5 個英雄。人類選手 MoonMeander 為了一雪前恥,號召大家選 5 個脆皮(防禦力低、但攻擊強的角色)來噁心一下它們。


所以,人類觀眾們給 AI 選出了小魚、斯溫、斧王、隱刺和痛苦女王這樣的陣容,而人類則拿到了絕對優勢的死靈法、萊恩、飛機、DP 和巫妖。

這套陣容勝率怎麼樣?

沒開打之前,預測勝率為 2.9%……
一開場,5 個脆皮的劣勢陣容果然很有用,至少在經濟上人類狠狠地壓過了 AI。


可憐的 AI 斧王辛苦賺錢養家,不但沒有突破經濟限制,甚至還從全場第三掉到了全場第四。

開始的十幾分鐘裡,AI 還在努力的拿人頭,取得了比分上的暫時領先。不過很快,被人類選了 5 脆皮陣容的 AI 自知團戰打不過,只好選擇猥瑣帶線,悄悄偷塔。

比賽進行到 14 分鐘,人類終於追評了比分,14:14 平;2 分鐘後,人類在草叢堵死了一隻小魚,終於獲得了優勢比分 16:15,AI 勝率跌到了 8%。

22 分鐘,人類 27:16,AI 終於被大老師判了死刑,勝率只有 1%,而經濟也被人類壓了 8k。

絕望的 AI 拼死一搏,無腦帶線,以 1 人換 1 塔的精神,義無反顧衝上人類的塔下,被人類狠狠的包圍,群毆一頓。

29 分鐘,人類終於開始推高地;5 分鐘後,人類推掉中路高地塔,AI 還不放棄,悄咪咪搏命偷塔(未果);2 分鐘後,人類終於推掉 AI 的基地,以絕對壓制的陣容取得了唯一的一場胜利。
整個比賽過程中,不斷有圍觀群眾質疑著人類選手的段位。

這支被 AI 虐殺的人類隊伍,按照 OpenAI 的描述是 99.95%以上。如果看 MMR(匹配分,約等於天梯積分),都在 6500 以上,天梯排名最低的也只有 1000 名出頭。

他們是:

William Blitz Lee:Dota2 解說,前職業選手、教練。
Austin Capitalist Walsh,簡稱 Cap:Dota2 解說,曾經與 Gamer University、Vegetables Esports Club 等戰隊打過半職業比賽。
Ioannis Fogged Loucas:曾經是職業戰隊 Steak Gaming、半職業戰隊 Vegetables Esports Club 選手。
Ben Merlini Wu:前職業選手,退休解說。
David MoonMeander Tan,加拿大戰隊 compLexity Gaming 的職業選手。 MoonMeander 是本次人類戰隊中的唯一一名現役職業選手,也是 OpenAI Five 對戰的第一個職業選手。

一日打兩百場的 AI 將在 Dota 稱霸?

OpenAI 一路贏得輕鬆,現場觀眾的呼聲幾乎全是送給 AI 的。

看直播的小伙伴裡,則有人對 AI 全程摩擦人類的贏法表示失望。

懷疑 OpenAI 請了群演的,不止一人。
可被按在地上摩擦的人類,也很絕望啊。

來自人類戰隊的 MoonMeanderated 發推說,AI 一天能打 200 萬場比賽呢。

人肉訓練的強度,真的沒有那麼大。
與此遙相呼應,中國網友的表達,就更直接一點。
大意可能是,AI 學了 180 年,每天 200 萬,比人類厲害不意外,比人類菜就是真菜了。

另外,關於賽前 OpenAI 宣布把智慧體的反應速度,降到與人類接近的 200 毫秒,這件事……。
看了比賽的觀眾,似乎並不買賬,強烈質疑官方宣傳的反應速度有假。
Reddit 也這樣說。

對於同胞的戰敗,人類心有不甘。

也有人擔心,DotA 終究會是 AI 的天下。
好在第三局贏了,雖說有些小人得志。刷彈幕的小伙伴們已如願,可以洗洗睡了。

目前已知的情報是這樣的:

OpenAI 訓練 Dota 選手的方式,是讓 AI 從隨機狀態開始,依靠自我對局來優化。

這支 AI 隊伍長這樣:
簡單來說,每個選手,也就是每個智慧體(agent),都是一個包含 1024 個節點的單層 LSTM(長短時記憶網絡),能夠通過 V 社(Valve)的 Bot API 觀察當前遊戲狀態,控制英雄去移動、攻擊、施放技能、使用道具。

智能體能夠觀察到的信息和人類差不多,包括自身、隊友和敵人的狀況,比如位置、血量、攻擊力、護甲、攜帶物品、能力等等。

這些訊息,對於智能體來說是一個包含 20000 數值的列表,而它判斷之後發出的行動指令,是 8 個值的列表。

選手們的訓練,使用的是擴展版的近端策略優化(PPO)方法,這也是 OpenAI 現在默認的強化學習訓練方法。這些智能體的目標是最大化未來獎勵的指數衰減和。

去年訓練 1v1 AI 的時候,OpenAI 針對卡兵的操作專門設置了獎勵,在 5v5 版本中取消了。不過,5v5 模型還是藉助其他獎勵信號學會了卡兵。

AI 選手們在訓練中飯量驚人,承載它們需要 256 塊 P100 GPU 和 12.8 萬個 CPU 核心。


上面的 5v5 版本與 1v1 版本對比,有一個令人欣慰的結果:OpenAI Five 需要的 CPU 和 GPU 計算力,與去年擊敗 Dendi 的 1v1 版相比,並沒有翻到 5 倍。

OpenAI 說,AI 每天的訓練量,都相當於人類打 180 年遊戲。來自人類戰隊的 MoonMeanderated 說,AI 們每天要打 200 萬局 Dota。

AI 怎麼訓練團隊默契?

5 個智慧體訓練出來,它們之間又是怎樣配合的呢?總不能像我們人類開黑一樣互相喊話吧?

答案是,他們之間沒有那種人類可以理解的溝通渠道,而是由一個團隊精神超參數來統一控制。這個超參數的範圍在 0 到 1 之間,決定了選手對與自身獎勵函數和隊友平均獎勵函數的關注程度分配。

OpenAI 操作也一樣是通過 bot API,能夠移動位置、攻擊、使用道具,根據獲勝、血量和補刀情況得到獎勵。

從誕生到對戰職業選手,這只 AI 走過了一年半的成長之路。

從 1v1 版本算起的話,它最早誕生於 2017 年 3 月,去年 8 月在 TI7 上一鳴驚人。只訓練了兩週的 AI,影魔中單 1v1 完敗頂級職業選手 Dendi。

質疑之聲也不少,最核心的吐槽在於,1v1 的難度根本不能和 5v5 相提並論,而且這個 AI 會用的英雄,也只有一個。

當然,AI 進化得比人類選手快得多。

時隔不到一年,AI 在今年 6 月掌握了 5v5 技能。 6 月 26 日,OpenAI Five 出現了,它掌握了 5 個英雄,能在做了各種限制的 5v5 Dota 裡,擊敗 MMR 4000-6000 分的強大路人隊,但面對 MMR 4000-5500 分、有團隊訓練的隊伍,就沒能取勝。

過了一個月,這個 AI 掌握的英雄數量增加到了 18 個,遊戲的限制也只剩下沒有召喚單位和幻象、沒有聖劍和瓶子、沒有掃描、依然需要 5 只無敵信使。

另外,OpenAI 還把 AI 的反應時間從原來的 80 毫秒拉長到了 200 毫秒,不在反射弧上佔人類便宜。

7 月 24 日,離直播還有不到兩週,OpenAI Five 和 5 位 MMR 在 5000 到 6500 的選手打了 4 場,2 勝 2 負。

gdb 說,他們的團隊分析了比賽中的失誤原因,在 AI 的訓練中做了一些調整。比如說,去掉那些 1v1 時代遺留的腳本寫下來的邏輯,除一除 bug,增加一些隨機選擇。

然後就有了這場對決。

向 AI 圈的世界杯進發!

這場對戰之後,OpenAI Five 就邁進了下一個階段:向著 Dota 圈的世界杯,頂級賽事 TI8(The International)進發。

之前,GDB 說想通過這次比賽,看看有沒有希望在 8 月底之前達到 TI(The International)大賽上頂級職業選手的水平。

現在看來,我們只能寄希望於頂尖人類戰隊,來與 AI 一戰了。

催生 OpenAI 的鋼鐵俠仍「支持人類」

每次 OpenAI 取得進展,AI 在 Dota2 戰場斬獲勝利,總有人將其歸功於伊隆·馬斯克。中外概莫能外。畢竟,馬斯克是 OpenAI 的創始人之一。

不過今年 2 月,鋼鐵俠已經退出 OpenAI 董事會。

2015 年,馬斯克與 YC 董事長 Sam Altman、天使投資人 Peter Thiel 等一起創立了 OpenAI,對標 DeepMind。然而眾所周知,馬斯克對於 AI 發展的態度,十足悲觀,是地球上知名的「AI 威脅論」持有者。

對於今天的勝利,Sam 等公開表達了祝賀。

而馬斯克看起來內心毫無波瀾,甚至都沒有想笑一下。話癆一般的他,沒在 Twitter 上主動提一句這件事,只是悶頭說特斯拉 Model 3。

當然,有人問他支持誰,馬斯克只是簡單地回復了兩個字:

「人類」

___

(本文經合作夥伴 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈人類一敗塗地! OpenAI 血虐 Dota2 半職業戰隊 〉,首圖來源:YouTube。)

延伸閱讀

別說電玩害了你兒子:經過設計的電玩世界,和你親手幫兒子設計的人生有何不同?

「台灣電競製造」狂搶豪賺四兆,秒勝中國

馬斯克 OpenAI 打 Dota 2:玩爆平民玩家後,世界賽專業電競手也是同樣下場?

 

 

點關鍵字看更多相關文章: