完爆人類!微軟 AI 打破《Pac-Man》遊戲紀錄,創下歷史最高 999990 分

【我們為什麼挑選這篇文章】AI 會在越來越多領域打敗人類,這基本上就是全世界都認同的概念了。如果要知道這件事到底多真實,你可以去算今年的畢業演講有多少人講到這個話題(不管是真的懂的還是不懂裝懂的)。

雖然微軟也開發出了打爆人類的小精靈 AI,可是他跟 AlphaGo 基本上是不太一樣的原理跟概念,文末提到的應用,將會是很重要的未來趨勢。(責任編輯:林子鈞)

今年年初,微軟收購了一家人工智慧初創公司 Maluuba,Maluuba 公司團隊運用強化學習技術(機器學習的分支),在吃豆人小姐遊戲 Atari 2600 版本中表現完美。使用這種方法,該團隊在這個遊戲中得到的分數高達 999,990。

位於加拿大蒙特婁的麥基爾大學(McGill University),從事電腦科學研究的 Doina Precup 副教授表示,AI 研究人員的常常使用各種電子遊戲來測試他們研發的系統,但研究人員發現吃豆人小姐遊戲是最難攻克的

但是,Precup 表示,相比於研究人員所取得的成就而言,她對於研究人員獲得成果的過程更加感興趣。為了在小精靈遊戲中獲得更高的分數,Maluuba 公司團隊將操控小精靈遊戲的大問題分解成若干個小問題,然後將小問題分發給 AI 代理解決。

Precup 說「這個分治策略的想法讓 Maluuba 公司的研究人員使用不同的系統來實現同一個目標,這是一件非常有趣的事情」,她還說到:「這個想法類似於一些大腦如何工作的理論,它可以更大程度地影響 AI 代理教學,從而利用有限的資訊來完成更為複雜的任務。倘若能夠完美利用分治策略,那人工智慧將向前跨越一大步 ,這真的令人感到尤為興奮。」

Maluuba 團隊將這種分治策略稱之為 混合式獎賞架構 (Hybrid Reward Architecture),這個方法使用了 150 多名人工智慧代理,每個代理與其他代理相互獨立地精通小精靈。比如,一些代理成功找到一個豆子將獲得的獎勵,而另外一些代理由於幽靈的存在必須待在原處。

然後,研究人員在小精靈中創建了一個頂級代理,就像一家公司的高級經理一樣,頂級代理能夠獲得所有代理的建議,綜合分析後由頂級代理來決定吃豆人小姐該如何移動。

頂級代理會根據選擇各個方向前進的代理數量的大小來決定移動方向,但同時也需要考慮到代理想要往某個方向移動的反應強度。例如,如果 100 個代理想向右邊移動,因為向右邊走是他們的最佳路徑,但有 3 個人想要向左邊移動,因為右邊有一個致命的幽靈,那這 3 個代理向左邊移動的反應強度明顯強於其他代理,考慮到幽靈的存在,頂級代理應該決定向左移動。

Maluuba 公司的研究室經理 Harman Van Seijen,對於他們的最新研究成果發表了一篇文章,文章中寫到,當每位元代理都果斷地做出選擇,頂級代理綜合利用每個代理的資訊後做出最佳選擇,那麼在小精靈遊戲中就可以獲得最好的結果。Harman Van Seijen 說:「雖然每個代理只關心一個特定的問題,但是他們之間有很好的相互作用」。

圖為 Harman Van Seijen

為什麼 AI 主要研究攻克小精靈

需要運用最先進的 AI 研究方法來擊敗類似於上世紀 80 年代 Atari 小精靈這樣的簡單遊戲,這看上去很匪夷所思。但是 Maluuba 公司的專案經理 Rahul Mehrotra 表示, 使用演算法來贏得這些簡單的電子遊戲其實非常困難 ,因為在玩遊戲的過程中可能會遇到的各種各樣的情況。

Mehrotra 表示:「許多從事人工智慧的公司構建遊戲智慧演算法,因為公司希望人工智慧能夠像人類一樣擁有打遊戲的技能。」

Steve Golson 是小精靈街機版的創始人之一,他說到,小精靈最初定位是街機遊戲,希望遊戲對人們有持續吸引力而走出宿舍,所以小精靈遊戲必須掌握人類不可完全征服的遊戲程式。

圖為 Steve Golson

運營諮詢公司 Trilobyte Systems 的 Golson 說到,他們故意設計了比普通小精靈更加不可預測的遊戲,所以玩家們很難打通關。複雜的遊戲使得研究人員試圖使用 AI 代理來對隨機環境做出理想的反應。Golson 還說到:「使用 AI 代理來通關小精靈是可行的,但由於遊戲的隨機性,所需要設計的 AI 程式將尤為複雜。」

強化學習

對於在不斷發展的強化學習領域工作的研究人員來說,這種不可預測性極有價值。在 AI 研究中, 強化學習是監督學習的副本,是一種更常用的人工智慧方法 ,它能夠讓系統在做任務時變得更好。

通過強化學習,代理對其每個動作都採取積極或消極的反應,通過不斷地試驗和犯錯誤來最大限度地獲得積極反應或獎賞。

具有監督學習的 AI 系統,通過給出良好和不恰當的示例,來學習如何在對話中做出適當的回應。而強化學習系統則是通過系統在對話中做出正確的回應,而後獲得更高級別回饋的方式來學習對話。

AI 專家認為,強化學習可以用於創建 AI 代理,這樣的代理可以做出更多的決定,能夠完成更複雜工作,為人們提供更高水準的服務。Mehrotra 表示,他們開發的能夠通關小精靈的系統,就可以為人們提供更好的服務。它 可以在特定時間或任意時間幫助公司的銷售部門預測商品的潛在客戶 。該系統可以使用多個代理,每個代理代表一個客戶,可以預測很多重要因素,例如:哪些客戶會續簽合約,哪些合約對於公司是有價值的。

有了 AI 系統預測的説明,銷售主管可以把更多的時間放在潛在客戶身上,如此會提高出售機會,因為銷售人員的目光已經瞄準了最容易下訂單的客戶。

Van Seijen 表示,他希望這種分治策略可以被用在 AI 的其他研究領域,如自然語言處理領域。他還說到:「分治策略使人們在解決真正複雜的問題的方式上取得進步 。」


延伸閱讀

【Google 李飛飛再發威】攜手史丹佛、CMU 團隊,機器學習的動作識別和預測能力大突破!
看完一堆病歷與 X 光後,AI 學會了一件挺殘忍的事情:預言死亡
別小看你手機裡的語音助手,他其實比打爆柯潔的 AlphaGo 還要艱深複雜

(本文經合作夥伴雷鋒網授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈你以為只是下圍棋能贏人類?微軟的 AI 在吃豆人遊戲上也超越人類了〉。)


科技報橘 LinkedIn 上線!

最新科技產業動態、技術新突破、專業職能技巧提升 ....... 鎖定 TO  LinkedIn 專業品牌,提升職能與產業 Know-how,躋身產業菁英之列 https://www.linkedin.com/showcase/techorange

點關鍵字看更多相關文章: