近日,DeepMind 發表新一代的 AI 系統 MuZero,能在不知道遊戲規則的狀態下,精通西洋棋、圍棋、將棋,以及 57 款 Atari 遊戲,而且性能與 AlphaGo Zero 相當,並超越現有現有最佳的 DQN、R2D2、Agent57 系統。

MuZero 能在不知道規則的狀態下自行摸索

MuZero 最特別的地方,就是能在不知道規則的狀態下,自行摸索規則,並達到高效能產出。過去,DeepMind 團隊透過超前搜尋與基於模型的規畫能力,讓 AI 學習該能力。然而這兩個方式皆有限制,因此在研發 MuZero 時,DeepMind 採用不同的方式,讓 MuZero 只針對系統決策程序的重要因素建模。MuZero 模型著重能夠協助規劃的環境變動因素,例如目前位置、最佳行動、以及上個行動的成效,了解採取行動產生的結果,並據此展開規劃。

DeepMind 解釋,知道雨傘能讓人不被淋濕,比對雨滴建模更有用,而這就是 MuZero 的思考邏輯。MuZero 之所以高效能,是因為它只嘗試對決策重要的資訊建模,而不是採用更廣泛的作法。

DeepMind 測試 MuZero 西洋棋、圍棋、將棋、Atari 遊戲上的性能,發現 MuZero 在棋類遊戲的性能與 AlphaZero 相當,更在 Atari 遊戲上大幅超越現有的最佳系統 DQN、R2D2 與 Agent57。

MuZero 已被應用於研究影片壓縮,有望降低 YouTube 的成本

其實人類也要時常面對沒有規則可循的狀況。DeepMind 的首席研究科學家 David Silver 表示,現實世界混沌且複雜,沒有人提供手冊,說明這世界是如何運行的,然而人類卻有規劃的能力,能夠制定下一步該怎麼做的策略,「這是我們第一次打造這種系統,它能建立對世界如何運作的理解,並用這種理解做複雜的規劃,例如下西洋棋。」

MuZero 目前已有商業應用。Silver 表示,MuZero 已被應用於研究串流影音的壓縮。由於影音佔據網路數據的極高比例,若能有效壓縮,將能節省 YouTube 等平台的大量成本。此外,MuZero 也被用於解決化學或量子物理等問題,而新一代虛擬助理、個人化醫療則是 MuZero 的潛在應用領域。

然而南安普敦大學電腦科學教授、人工智慧委員會成員 Wendy Hall 認為,雖然 MuZero 是 AI 領域的大進步,但也是個隱憂。Hall 表示,DeepMind 不斷提升演算法性能,但可能沒有太多思考這可能造成的意外後果,「這很像是噴射機的發明者,他可能沒考慮過汙染問題,我們必須要在發展與風險中取得平衡。」

參考資料

DeepMind》、《BBC

(本文提供合作夥伴轉載。首圖來源:DeepMind

延伸閱讀

【生物界的 AlphaGo 更強大】DeepMind 宣布 AI 能成功預測蛋白質結構,有機會翻轉未來醫療面貌
完虐《星海爭霸 2》99.8% 人類玩家!DeepMind AI 輕鬆登上人、神、蟲族的宗師段位
DeepMind 推出首款商業化 AI 產品:眼科 AI 準度 94% 超越人類醫師!