OpenAI Five 止步 T18!大敗頂尖人類戰隊,「規則改變」成 主因

【我們為什麼挑選這篇文章】OpenAI Five 在八月時曾對戰過半職業人類戰隊,中國網媒用「血虐人類」形容人工智慧取得的勝利,然就在取得關鍵性的一勝後,在近日 TI8(The International DOTA2 Championships)中卻慘敗給職業玩家。

其實 AI 直接靠 API 讀取遊戲中的數據,這些數據帶給 AI 的是相較人類用經驗、手感、視覺沒辦法勝過的 100% 的精確性,不過這次遊戲規則改變,成為人類主要取勝的關鍵。(責任編輯:鄧天心)

剛剛,OpenAI Five 在 DOTA 2 全球頂級賽事 TI8(The International DOTA2 Championships)中完成了與人類玩家的第二場「表演公開賽」。

沒有意外,45 分鐘的激戰後,OpenAI Five 再次打出 GG(GOOD GAME ,意味認輸)。

不過,本場比賽給了中國玩家一個驚喜,本次 OpenAI Five 對戰的是來自中國的五位前職業選手——中國 DOTA2 圈元老級人物:

Burning(徐志雷)、Ferrari.430(駱非池)、xiao8(張寧)、sansheng(王兆輝)、rOtk(白帆)。

OpenAI CTO,同時也是 OpenAI Five 的工程領隊 Greg Brockman 在賽前表示,遵守三局兩勝的戰局。

也就是說,OpenAI Five 與人類團戰的本輪對決以失敗告終,本次的 TI8 之旅也畫上了句號。

賽后,Greg Brockman 依然發推祝賀中國五位選手獲勝,OpenAI 官方也發布博文,總結了兩場比賽。

 

比賽速覽

比賽規則與昨日與第一場比賽的規則一樣,都是選擇範圍都限定在 18 個英雄中,並且兩隊所使用的人物都是機選。

這樣就充分照顧到了英雄陣容的勝率問題。

遊戲中的限制也和昨天的一樣,沒有聖劍,沒有分身和幻象,中單英雄不允許出魔瓶;沒有掃描;依然是一隻信使。

比賽採用了和昨天一樣的陣容,不過 AI 和人類進行了互換。(通過猜硬幣決定選擇哪隊英雄)

人類陣容:矮人直升機、巫妖、死亡先知、寒冰室女、潮汐獵人

OpenAI 的陣容:惡魔巫師、瘟疫法師、巫醫、狙擊手、斧王

OpenAI Five 開局很強勢,對人類玩家一直壓制,除了開場人類玩家拿下一血,比賽進行到了 32 分鐘才將人頭數拉平。

其實,在對線和出裝上面人工智慧有著非常大的缺陷,這一點在第一場比賽就已經看出來了。

整個比賽過程,人類隊打的還是比較輕鬆,畢竟是專業玩家,打出了專業水準。

OpenAI Five 在比賽過程中,上場比賽的 AI 操作帶來的疑惑也帶到了這一場,例如不知何故在自家高地插眼,比賽後期在自家門口插了一排眼。

從開場到結束,人類雖然在中前期人頭數落後,但是在經濟上的優勢卻貫穿全場,這也是人類能最後獲勝的一個重要原因。

例如最初的經濟差距只有兩千左右,中期後期的經濟差距達到了一萬左右,並且還有一些經驗優勢。

在如此大經濟差距下,OpenAI Five 也放棄了掙扎,給自己得出了只有 1% 的勝率。

到最後 45 分鐘的時候,不出所料,人類打爆遺跡,獲得勝利。

賽后,圈內普遍認為 AI 的反應確實很快,而且他們對血量的把握遠勝人類玩家,可以更好的掌握進退的時機。

但這其實是一些 low level 的動作,AI 在這方面做的比人類好毋庸置疑,但是因此贏得先機會讓人覺得賴皮。

這樣的打法在前期可以和人類抗衡,而且打的還算可以,但是到了中後期的明顯弱勢,說明了 AI 的全局觀還差很遠,在策略這種高層次的動作上,是還有很大的改進空間。

因此,OpenAI 後期肯定要改進 AI 的 高層次的策略和大局觀

以 AlphaGo 為例,它的搜索樹 (Search Tree) 可以在下棋的時候搜的很深,也就是說可以看到當前局面後面的很多步的各種情況。

OpenAI 目前在這一點上顯然還不夠好,這也是由於遊戲的複雜度要遠遠高於圍棋。

經過這次比賽,OpenAI 下一步應該會注重在 DOTA 多智能體協作 (multi-agent system) 的探究,包括多智能體模型如何構建和如何訓練的問題。

比如多智能體這個領域的最新進展、博弈論領域的最新進展和其他一些相關領域的最新進展去獲取靈感。

總結:規則改變限制了 Five 發揮

賽后,OpenAI 發布了一篇文章,講述了組織這兩場比賽的原因,也詳細敘述了近日的兩次失敗,以及接下來的目標。

OpenAI 在博文中稱,與之前相比,本次比賽失敗的最大原因是規則的改變

之前的 Benchmark 比賽配備了一項重要的限制條件:允許每個英雄一個自身的安全信使(一個向你的英雄傳遞道具的單位)。

而在這兩日的比賽中解除了這項限制。

針對這一規則變化,一位不願透露姓名的相關研究者認為這對 AI 的表現有很大影響。

「首先是訓練時間短。短的話,訓練的局數不夠,AI 沒見過的局面多,很多情況會不知道怎麼辦,也就是說並沒有收斂。

所謂收斂就是說 AI 的表現會趨於穩定,達到一個最優解或較優解。」

可以回顧 AlphaGo 自己給自己下棋,他是見過了各種局面,才可以應對的比較好。

像這種即時戰略遊戲,動作空間更大,所需要的訓練成本也會更高,這是比較顯然的

另一位相關學者給出了一個通俗的解釋:

「可以拿職業運動員和業餘運動員作類比,職業運動員相當於訓練了很久的 AI(總體來說比賽結果相對穩定)。

業餘運動員相當於訓練了很短時間的 AI(他可能在某一次比賽中結果不錯,但總體上來看比賽結果是不穩定的,時好時壞)

從另一個角度來說,訓練時間由短到長對應於:從偶然到必然。」

以下為 OpenAI 博文全文:

OpenAI Five 在 DOTA 2 全球頂級賽事 TI8(The International DOTA2 Championships)中與人類職業玩家打了兩場,輸了兩場。

其實在比賽過程中,人工智慧在前期,特別是在前 20~35 分鐘,一直佔據著上風。

這次比賽與 17 天前的 Benchmark 賽相比,有以下特點:

○這次的對手更加強大

○英雄陣容由第三方提供

○比賽規則的一些限制對 AI 不利

因為 OpenAI Five 的五名 AI「隊員」是從零開始訓練的,所以這場專業比賽中,AI 的表現仍然令人興奮。

與人類頂級選手對決,如果贏得了比賽當然是非常好,如果比賽輸了也會給我們帶來非常寶貴的經驗,幫助 OpenAI Five 更上一層樓。

(從五月份開始,OpenAI Five 的進步曲線圖)

規則變化

這次比賽的目的是想看看 OpenAI Five 的能力與世界頂級玩家的差距在哪裡,與之前的比賽相比,這次的比賽更加正式也更加真實。

在比賽之前,我們並不知道將會與誰交手,因為這取決於有誰願意與我們比賽。

很高興有如此強大的隊伍與我們比賽,相對於之前的 Benchmark,我們這兩天獲得了更多的寶貴經驗。

OpenAIFive 的第一場比賽是昨天與 paiN 的對決,雖然這支戰隊在角逐冠軍的時候被淘汰了,但是作為 Dota2 18 支頂級戰隊中的一支,仍然有著強大的實力。

並且,這支隊伍在職業錦標賽中平均贏得了 35 萬美元(約合新台幣 1050 萬)。

第一場比賽持續了 51 分鐘,這個時間有些略長,因為一局遊戲平均下來只有 45 分鐘。

在遊戲的中期 OpenAI Five 重新獲得了一些優勢,但是最終還是輸給了人類玩家的策略搭配。

第二場比賽的對手是中國名人堂的選手,他們每一位都身經百戰,這場比賽持續了 45 分鐘,和上一局一樣,在中前期 OpenAI Five 佔據著上風,但是在一系列激烈團戰後,OpenAI Five 由優勢轉為劣勢,然後輸掉了比賽。

在之前的 Benchmark 比賽中,我們配備了一項重要的限制條件:

允許每個英雄一個自身的安全信使(一個向你的英雄傳遞道具的單位),而不是一個團隊的可被破壞的信使。

而我們在這兩日的比賽中解除了這項限制。

信使可以不斷運送英雄的恢復品,使得 OpenAI 更容易保持英雄的狀態,頻繁的參與到對敵方的進攻中。

在一場 Dota 比賽中,狀態較差的英雄可能會放棄進攻,選擇回家補充狀態。 很多觀眾認為,附加的信使會讓遊戲看起來不像「真正的 Dota」。

我們在六天之前展開訓練(信使和其他項目一樣,是代碼中的一項)。 當我們認為單一信使會暫時降低 Five 的表現時,Dota 社區則認為單一信使會讓比賽更加激動人心。

接下來的目標

我們不認為信使的變化是失敗的原因。

我們認為,我們還需更多的訓練,進行漏洞修復,以及將模型中最後一塊照本宣科的部分移除。 我們期待著將 OpenAI Five 推向下一個等級。

這兩日的對戰重新讓我們認識到了 Dota 人機對戰中的差異,也給了我們更多的想像空間。

但是 OpenAI Five 的設計並不只是針對 Dota 2 這樣一個遊戲,它更多的技術探討是如何將 AI 技術建立在一個安全的沙盒中,而這個沙盒會幫助我們在未來建立先進性的系統。

__

(本文經公眾號 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈再而衰!对战中国大神再次战败,OpenAI Five 发文告别 TI8〉。)

延伸閱讀

Open AI 用 DOTA2 血洗玩家不是真實力!網民:有種不要讀 API、用人類視覺跟我打

從圍棋、西洋棋、到 Dota2,人類喜歡跟 AI 單挑「遊戲」原因為何?

OpenAI 用《Dota 2》示範血虐人類:砍瓜切菜偷推塔,職業選手被當菜打


科技報橘 2019 全面徵才 ── 跟我們一起找到台灣在國際中的創新產業定位

我們正在找「社群編輯 3 名」、「資深採訪編輯 2 名

來信請將履歷與文字作品寄至 [email protected],信件名稱:應徵 TechOrange 社群編輯:(您的大名)

 

 

點關鍵字看更多相關文章: