【AI 當賭神】懂賽局理論的撲克牌 AI 打敗人類職業牌手,更關鍵的是「AI 學會掌握隨機性」

2016 年,AlphaGo 以 4:1 的成績打敗人類職業九段棋手李世乭,人工智慧受到全世界的關注;1 年後,一個名為 Libratus 的撲克牌 AI 在 20 天的馬拉松式比賽中,打敗 4 個人類德州撲克職業選手。相對於 AlphaGo 對李世乭, Libratus 的比賽受到的關注少得多了。然而,這場比賽對 AI 發展的重要性可不輸 AlphaGo,因為 AI 學會了賽局理論與隨機性的概念。

AI 慘電人類牌手,Libratus 贏得 20 萬美元獎金

2017 年 1 月,展開了一場長達 20 天的德州撲克人機大賽,四名職業選手 Jason Lee、Dong Kim、Daniel McAulay 和 Jimmy Chou 分別與 Libratus 單挑。 Libratus 是卡內基梅隆大學的 Tuomas Sandholm 教授和他的研究團隊開發的 AI 系統。最後 Libratus 打敗人類牌手,獲得 20 萬美元(約新台幣 600 萬元)的獎金。

雖然這場撲克牌比賽的關注度不如 AlphaGo,但對 AI 來說,撲克牌的難度更高。在圍棋比賽上,AI 可以看到棋盤上的布局,那是個公開資訊,對手手中的棋子也是已知的,所以圍棋比賽屬於「完整資訊博弈」,AI 可以根據布局,去推算最恰當的落子位置。

但撲克牌比賽中,對手的牌是隱藏的,屬於「非完整資訊」,所以 AI 只能根據手中的牌和對手的出牌特性,推算對手的牌,並做出恰當的決策。

圍棋是比較單純的比賽,但撲克牌不能得知彼此手中的牌,所以有更多「bluff」的操作空間,也就是虛張聲勢、誤導等技術;牌手需要恰當的掌控「隨機性」,讓對手不能猜到自己手中的牌。 要如何掌握環境的隨機性,並在出牌時也表現出隨機性,對 AI 是個不小的挑戰。

用賽局理論訓練 AI,Libratus 的隨機性表現勝過人類

Libratus 的特點是使用賽局理論訓練,採用 納許均衡 的對戰策略,在納許均衡,只要其他玩家的策略保持不變,單一玩家就無法透過變換策略獲益。Libratus 跟 AlphaGo 一樣,也是藉由強化學習去提升自己的牌藝, Libratus 學習識別沒有希望的策略,從而更快地找到納許均衡點,也就是賽局中的「平衡」,找出最適合的策略,算出該以怎樣的機率出掉手中的牌,也就是知道該如何「隨機」出牌。

Duke 大學的 Vincent Conitzer 教授表示:「出牌的好壞取決於無法觀察到的事情,這也代表參與遊戲者需要變得不可預測。如果你從未虛張聲勢,那麼你不是個好牌手;如果你總是虛張聲勢,你也不是好牌手。賽局理論則是教你如何隨機化你的出牌,並找到最適點。」

百度首席科學家吳恩達也說:「撲克曾經是 AI 最難攻克的遊戲之一,因為只能看到部分資訊。撲克並沒有單一的最優下法。相反, AI 必須讓自己的行動隨機化,這樣對手才無法猜出牌路。」

Libratus 的技術可在真實世界廣泛應用

雖然 Libratus 打敗人類牌手,但它只能在特定的遊戲規則中(例如雙人德州撲克)打敗人類,如果換個玩法(例如多人德州撲克、牌七、橋牌、大老二), Libratus 就無法使用,需要再重新學習。

但 Libratus 的技術在真實世界中有更多的應用。一方面是賽局理論被廣泛應用在交通分析、資安防護、導航與機器人等領域,此 AI 可以提升相關領域的分析成效。

二方面是世界的運作充滿隨機性,而人類面對世界有時也需要用隨機性去應對,而 Libratus 在這方面做得比人類好,具有在不確定性的環境中的決策能力。這樣技術可用於金融市場的交易策略,更可用於外交和軍事博弈上,但這點就讓人很不安了。

參考資料來源:
1.《MIT Technology Review》:〈Why Poker Is a Big Deal for Artificial Intelligence
2.《數位時代》:〈 玩德州撲克的「AlphaGo」來了,擊敗它可以拿走 20 萬美元!
3.《每日頭條》:〈9 個問答告訴你,為什麼 AI 在德州撲克上打敗人類是個大事件
4.《INSIDE》:〈 人工智慧 Libratus 是如何擊敗德州撲克高手的?
(本文提供合作夥伴轉載。首圖來源: 維基百科

更多 AI 撲克牌與賽局理論知識

趨勢科技鍛鍊菁英工程師妙招:辦一場只由「AI」參加的德州撲克賽
【賽局的思考技術】巴菲特如何運用囚徒困境,加入「一條規則」就讓法案順利通過?
賽局理論可以拿來減肥?美國廣播公司的啟示:簽下這種合約讓你減肥成功率大增


全球醫學矚目焦點

人類逼近打破年齡、健康限制的臨界點! 搶先報名 12/6《2019 未來科技展 》再生醫療場次

點關鍵字看更多相關文章: