【我們為什麼挑選這篇文章】為何最近 OpenAI Five 打敗了人類業餘玩家組成的戰隊這件事情,大家會這麼關注?其實大眾想要了解目前 AI 發展的趨勢,「電競」是最快、最容易能夠掌握概況的方式。

對入門玩家來說,想要練功成為老手,在精密的關卡設計跟合作無間的團隊協作上,都花下不少工夫。我們真正關注的,不只是在遊戲技巧上的取勝而已,而是從中發現,人類賴以為生的技藝,在 AI 快速的學習下,將有多少領域被更低成本的機械取代?(責任編輯:鄧天心)

工程師為何痴迷於用人工智慧攻克各種遊戲? 是對網癮少年的嘲諷,還是對科技未來的探索? 這一切的背後,是人性的扭曲還是道德的淪喪? 敬請關注本期的走進大數據文摘!

8月5日,人工智能係統OpenAI Five迎戰了由5名專業電子競技玩家組成的隊伍,這次的戰場是Dota2,這個遊戲需要快速的反應力,淵博的遊戲策略知識,更重要的是團隊協作

在這個電子遊戲中,兩支五人隊伍會被安排在競技場的兩端,與對方戰鬥並利用物理或者法術攻擊摧毀對方的營地。

這是當今最賺錢的電子競技項目之一,今年最大規模錦標賽的獎池已經積累超過2300萬美金。 研究人員開發的軟件想要贏過經過千錘百煉的職業選手,就跟讓機器人學著在邁克爾∙喬丹(Michael Jordan)頭上扣籃一樣難。

遊戲是一個讓我們這些沒有博士學位的人了解人工智能研究已經到達何種程度的好方法:在複雜環境下,人工智慧可以擊敗人類嗎?

我們知道IBM的深藍在國際象棋比賽中擊敗了Garry Kasparov,以及DeepMind的AlphaGo在圍棋比賽中戰勝李世石,這意味著什麼——數十年來人類的練習與技巧被電腦打敗了。

除了這些廣為人知的比賽以外,幾十年來人工智能研究人員還致力於創造人工智慧代理(AI agents),這些代理可以在Atari遊戲、西洋棋、甚至是明星大亂鬥中成為超級玩家(Super Smash Bros)。

連結:

https://qz.com/917221/a-super-smash-bros-playing-ai-has-taught-itself-how-to-stomp-professional-players/

出了實驗室,很多電子遊戲的人工智慧研究也許就無法真正有用了,但是OpenAI證明了其名下的研究在競技之外也有很大的應用空間。 比如說用來打Dota 2遊戲的算法也可以教機械手如何移動。

正向強化

強化學習是最流行的教機器人玩遊戲的方法之一,伊隆∙馬斯克(Elon Musk)和山姆∙奧特曼(Sam Altman)主導創立的OpenAI人工智慧研究實驗室也使用了這種技術。 你交給機器人一個任務,比如拾取金幣,然後在機器人完成任務時給予獎勵。

一開始機器人的行動是完全隨機的,直到它意外發現如何完成任務。 相對於那些無法得到獎勵的行動來說,那些能夠完成任務的行動被系統認為是更好的選擇,由此一來機器人下一次執行任務時就更願意採取這些行動。 在經歷數百次、數千次,甚至數百萬次的嘗試之後,機器就能逐漸學習到完成任務時所需的策略。

在兩週的時間內,OpenAI的Dota 2遊戲機器人與自己對戰了數百萬次。 每次遊戲中,機器人的獎勵機制也有所改變,從開始的為自己獲得積分轉變為後來的提高團隊的總積分。 在Quartz之前的報導中,研究團隊將其稱為團隊精神。

連結:

https://qz.com/1311732/openai-built-gaming-bots-that-c​​an-work-as-a-team-with-inhuman-precision/

紐約大學的Julian Togelius向Quartz表示,遊戲其實是對真實世界的一種模擬,一種只有一個具體目標的模擬,這正是人工智慧學習的好地方。

「真實世界可沒有有趣的任務,」Togelius笑著說。 「遊戲簡直太完美了,無論你是輸是贏,無論你得了多少分,都有獎勵等著你。」

遊戲可以玩無數次——畢竟它們只是程序而已,並且可以讓數以千計的機器人同時玩,從而使得找到解決方案或策略的速度成倍增加。

但是這個方法裡面有個陷阱,機器人的學習完全依賴於它們得到的獎勵。 算法對於遊戲該如何工作毫無概念,所以當遊戲出現問題和故障時,機器人就會做最簡單的事情來得到獎勵。

德國弗萊堡大學的研究人員在今年初在用Atari遊戲Q*bert來進行強化學習算法訓練時發現了這一問題。

連結:

https://www.theverge.com/tldr/2018/2/28/17062338/ai-agent-atari-q-bert-cracked-bug-cheat

機器人並沒有學習像人類一樣玩遊戲,而是學會了跳下檯面誘使敵人自殺,因為它知道敵人會跟著來。 遊戲把這算作成功清除敵人,還會給機器人多一條命和額外的積分,這可是個淨賺的買賣。

機器人還發現了一個問題,當它從一個平台跳到另一個平台的時候,可以破壞遊戲而得到幾十萬積分。 從技術上講,它的確是在做它該做的事情:得分。 但是他並沒有真正學會怎樣玩遊戲。

Togelius最近致力於通過隨機配置每次機器人玩的遊戲難度來創造更好的遊戲機器人。 由於機器人不會把同一難度級別的遊戲玩兩遍,Togelius表示,機器人不僅僅是要學會找到破解方法或者制定某種策略,事實上它們是要學會如何在不同場景下完成任務。

不僅是遊戲

OpenAI並不只是想在電子遊戲中擊敗專業隊伍,而是在學習如何通過做上千個小決定來達成更大的終極目標。

例如OpenAI就在另外一個項目中再次使用了和Dota 2機器人相同學習系統與算法:研究人員設計了一個算法來控制機械手握住一個積木,並且用機械手的指頭來操控它指向一個特定的方向。

OpenAI的技術人員Jonas Schneider告訴Quartz,這兩個項目是同時開始的。但是去年當Dota 2的團隊展示出在遊戲中擊敗人類職業選手的進展時,機器人技術團隊才了解到強化學習系統的潛力。

「我們用和Dota實驗相同的代碼達到了基本同樣的性能水平」 Schneider說道。「只用了幾個星期它就就能達到我們之前幾個月嘗試達到的效果。這讓我們十分驚訝。」

這些實驗都採用了OpenAI開發的Rapid程序,這一程序協調了同時運行上百種強化學習算法的數以千計的處理器。 每種算法驅動一個機器人玩遊戲或者模擬手部動作,試驗結束後學到的東西會同步給其他機器人。

利用幾千倍於普通筆記本電腦的計算力,機械手已經不必通過人類對每個手指的移動進行編碼,也可以擁有出色的靈巧度。

一招鮮

儘管OpenAI用相似的代碼來訓練遊戲人工智慧和機器人,一個重要的區別在於他們是分別在各自學習如何完成任務。 你想讓Dota 2機器人來控制一隻手是不可能的:算法總體來說是可以同時學習多個技能的,但這種跨度大、毫不相關的技能還是不行的。

「我們還沒見過哪些遊戲訓練出來的模型能夠轉型直接用於真實世界的,」Togelius說。 「是我們可以看到有些為了玩遊戲而發明出來的方法成功應用到了現實世界。」

OpenAI的Rapid強化學習系統並非是第一個為了電子遊戲而開發進而應用到真實世界的技術。 Togelius提到,蒙特卡洛樹搜索是一個十幾年前為了下圍棋而開發的算法,現在被應用於規劃和優化類的任務。 歐洲太空總署運用了這一算法來規劃太空探測器的星際軌跡,它也是2016年DeepMind的AlphaGo擊敗世界冠軍李世石的算法支柱。

蒙特卡洛樹搜索論文連結:

https://www.aaai.org/Papers/AIIDE/2008/AIIDE08-036.pdf

對於OpenAI機器人技術團隊來說,Dota 2是這項技術可以在未來應用於複雜工作的一個驗證。 Dota 2系統運用的計算力是機械手的20倍之多,其訓練時間長達兩星期,而機械手只用了兩天——這意味著機器人技術團隊有更多的時間和資源來處理那些需要更長時間來學習的新問題。

「我們已經對現在的算法能走這麼遠感到十分驚訝,所以某種程度上我們希望Dota可以成為AI遊戲探索上的最後一個里程碑,」Schneider說。 「很明確的是,如果這樣一個複雜的遊戲可以通過強化學習來解決,那這將是強化學習和電子遊戲的終極考驗。」

相關報導:

https://qz.com/1348177/why-are-ai-researchers-so-obsessed-with-games/

__

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈人類又輸了? AI研究為何如此痴迷遊戲對決?〉)

延伸閱讀

OpenAI 用《Dota 2》示範血虐人類:砍瓜切菜偷推塔,職業選手被當菜打
2018 世足賽最大輸家:高盛, 賠上名聲害慘無數賭徒的 AI 冥燈
真・八爪博士要誕生了?日本研究院研發出可以用「腦」控制的機械手臂