從圍棋、西洋棋、到 Dota2,人類喜歡跟 AI 單挑「遊戲」原因為何?

【我們為什麼挑選這篇文章】為何最近 OpenAI Five 打敗了人類業餘玩家組成的戰隊這件事情,大家會這麼關注?其實大眾想要了解目前 AI 發展的趨勢,「電競」是最快、最容易能夠掌握概況的方式。

對入門玩家來說,想要練功成為老手,在精密的關卡設計跟合作無間的團隊協作上,都花下不少工夫。我們真正關注的,不只是在遊戲技巧上的取勝而已,而是從中發現,人類賴以為生的技藝,在 AI 快速的學習下,將有多少領域被更低成本的機械取代?(責任編輯:鄧天心)

工程師為何痴迷於用人工智慧攻克各種遊戲? 是對網癮少年的嘲諷,還是對科技未來的探索? 這一切的背後,是人性的扭曲還是道德的淪喪? 敬請關注本期的走進大數據文摘!

8月5日,人工智能係統OpenAI Five迎戰了由5名專業電子競技玩家組成的隊伍,這次的戰場是Dota2,這個遊戲需要快速的反應力,淵博的遊戲策略知識,更重要的是團隊協作

在這個電子遊戲中,兩支五人隊伍會被安排在競技場的兩端,與對方戰鬥並利用物理或者法術攻擊摧毀對方的營地。

這是當今最賺錢的電子競技項目之一,今年最大規模錦標賽的獎池已經積累超過2300萬美金。 研究人員開發的軟件想要贏過經過千錘百煉的職業選手,就跟讓機器人學著在邁克爾∙喬丹(Michael Jordan)頭上扣籃一樣難。

遊戲是一個讓我們這些沒有博士學位的人了解人工智能研究已經到達何種程度的好方法:在複雜環境下,人工智慧可以擊敗人類嗎?

我們知道IBM的深藍在國際象棋比賽中擊敗了Garry Kasparov,以及DeepMind的AlphaGo在圍棋比賽中戰勝李世石,這意味著什麼——數十年來人類的練習與技巧被電腦打敗了。

除了這些廣為人知的比賽以外,幾十年來人工智能研究人員還致力於創造人工智慧代理(AI agents),這些代理可以在Atari遊戲、西洋棋、甚至是明星大亂鬥中成為超級玩家(Super Smash Bros)。

連結:

https://qz.com/917221/a-super-smash-bros-playing-ai-has-taught-itself-how-to-stomp-professional-players/

出了實驗室,很多電子遊戲的人工智慧研究也許就無法真正有用了,但是OpenAI證明了其名下的研究在競技之外也有很大的應用空間。 比如說用來打Dota 2遊戲的算法也可以教機械手如何移動。

正向強化

強化學習是最流行的教機器人玩遊戲的方法之一,伊隆∙馬斯克(Elon Musk)和山姆∙奧特曼(Sam Altman)主導創立的OpenAI人工智慧研究實驗室也使用了這種技術。 你交給機器人一個任務,比如拾取金幣,然後在機器人完成任務時給予獎勵。

一開始機器人的行動是完全隨機的,直到它意外發現如何完成任務。 相對於那些無法得到獎勵的行動來說,那些能夠完成任務的行動被系統認為是更好的選擇,由此一來機器人下一次執行任務時就更願意採取這些行動。 在經歷數百次、數千次,甚至數百萬次的嘗試之後,機器就能逐漸學習到完成任務時所需的策略。

在兩週的時間內,OpenAI的Dota 2遊戲機器人與自己對戰了數百萬次。 每次遊戲中,機器人的獎勵機制也有所改變,從開始的為自己獲得積分轉變為後來的提高團隊的總積分。 在Quartz之前的報導中,研究團隊將其稱為團隊精神。

連結:

https://qz.com/1311732/openai-built-gaming-bots-that-c​​an-work-as-a-team-with-inhuman-precision/

紐約大學的Julian Togelius向Quartz表示,遊戲其實是對真實世界的一種模擬,一種只有一個具體目標的模擬,這正是人工智慧學習的好地方。

「真實世界可沒有有趣的任務,」Togelius笑著說。 「遊戲簡直太完美了,無論你是輸是贏,無論你得了多少分,都有獎勵等著你。」

遊戲可以玩無數次——畢竟它們只是程序而已,並且可以讓數以千計的機器人同時玩,從而使得找到解決方案或策略的速度成倍增加。

但是這個方法裡面有個陷阱,機器人的學習完全依賴於它們得到的獎勵。 算法對於遊戲該如何工作毫無概念,所以當遊戲出現問題和故障時,機器人就會做最簡單的事情來得到獎勵。

德國弗萊堡大學的研究人員在今年初在用Atari遊戲Q*bert來進行強化學習算法訓練時發現了這一問題。

連結:

https://www.theverge.com/tldr/2018/2/28/17062338/ai-agent-atari-q-bert-cracked-bug-cheat

機器人並沒有學習像人類一樣玩遊戲,而是學會了跳下檯面誘使敵人自殺,因為它知道敵人會跟著來。 遊戲把這算作成功清除敵人,還會給機器人多一條命和額外的積分,這可是個淨賺的買賣。

機器人還發現了一個問題,當它從一個平台跳到另