【世足全預測】AI 鐵口直斷冠軍獎落西班牙、巴西,德國球迷認同嗎?

世界盃, AI, 世足預測, 運彩, 世足賽程
德國隊在 2014 年擊敗阿根廷,拿下冠軍。這次世界盃依然相當被看好,但自家 AI 卻不挺他們。

【我們為什麼挑選這篇文章】又到了四年一度複習越位的世界盃嘉年華,無論你是資深球癡還是一日球迷,看看預測是一定要的。

還記得四年前準到突破天際的章魚保羅吧?今年,我們有更科學的方式來預測,Yes,人工智慧。以下是量子位對德國 AI 預測的介紹,看完就可以來去買運彩啦!(責任編輯:康陳剛)

作者/量子位 栗子李根

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請聯繫出處

可能是由於人類預測不靠譜,前幾屆世界杯預測戰況和冠軍的任務,常常交給動物完成。

比如,章魚哥保羅。

如果保羅活到現在,應該驚喜的發現,它的工作,現在有人工智慧系統可以替代了。

在 2018 俄羅斯世界杯即將開打之際,德國 4 位科學家聯手打造了一個世界杯 AI 預測模型。

綜合各種應有盡有的因素:國際足聯排名、平均年齡、頂級聯賽球員數量、國家人口比率、GDP、教練國籍等等,AI 建模、大數據應用,雲端計算加持。輕輕鬆鬆,當前準確率不知比運彩公司高到哪裡去。

最後他們鄭重其事地推出結論: 西班牙勝率最大

只是萬萬沒想到,比賽尚未開始,人類就給了 AI 意想不到的一擊。正所謂人算不如雲計算,雲計算難料人使絆。 就在世界杯開戰前 24 小時,西班牙炒掉了帶隊 2 年的不敗戰績主教練

AI 看了都傻眼。

不過這個 AI 模型就這樣了嗎?太天真了。

這 4 位嚴謹德國科學家自然考慮到了可能存在的變量,在 10 萬次比賽模擬後,他們認為: 如果德國人打入八強決賽,那西班牙就呵呵了

好一個神奇的 AI

一般而言,大數據預測為導向的 AI,最常使用的方法有泊松回歸、排序算法以及隨機森林,都比較經典。

而這次在綜合比較了幾種方法後,4 位德國科學家決定主採用 隨機森林 建模,該方法誕生於 2001 年,比起傳統的回歸和排序,預測效果更勝一籌。

更重要的是,隨機森林附上排序算法裡的一個協變量,再經過合體進化,就能變成更加強大的算法,甚至比運彩公司預測的還要準。

數據準備

具體如何實現呢?首先要談到數據,往年世界杯對戰數據自然是題中之義,但光有比賽維度的數據又怎麼夠?

所以這個 AI 還把 經濟因素、球隊實力、主場優勢、球隊結構教練因素 等納入其中。

經濟因素參考人口和人均 GDP 。前者參考 各國人口數據 ,並與全球總人口對比,看球隊所屬國對全球人口增長的貢獻。 人均 GDP 則重在增長 ,用球隊所屬國的人均 GDP,以及全球平均的人均 GDP,來看 2002 至 2014 年的經濟增長情況。

球隊實力也從兩方面考量。一是 歷史進程 ,使用國際足聯排名,可管窺球隊過去 4 年的核心表現;二是 博奕彩金賠率 ,把博彩公司 ODDSET 提供的賠率,轉換為球隊勝率納入模型。

主場優勢則有玄學意味 。一看是否東道主(比如在俄羅斯舉辦),二看是否與東道主來自同一大陸,三看屬於國際足聯六大足球協會(CAF,AFC,UEFA,CONCACAF,OFC,CONMEBOL)中的哪一個。

球隊結構重點針對 默契度 。共 4 項:

  1. 最大隊友數:每支國家隊,在同一個俱樂部效力的隊員最多和第二多的人數
  2. 平均年齡:每支國家隊裡,所有隊員的平均年齡
  3. 歐冠隊員數:每支國家隊,進入歐冠或歐洲聯盟杯半決賽的人數
  4. 海外隊員數:每支國家隊,在國外俱樂部效力的人數。

最後是教練因素。 比如教練的年齡,以及在本隊職教時間的長短,都被計算在內 。另外,教練的國籍是否與職教的國家隊歸屬一致,也是接近玄學的考量 —— 但肯定沒想過會有臨陣換帥的情況。

綜上,差不多每隻參賽球隊都會有 16 個維度的變量。

然後就可以進入 競技演化 篇了。

算法模型

就像開頭所言,這個預測 AI 核心主打算法模型是隨機森林。

這種方法是 Breiman 在 2001 年提出的,如今已成了統計學模型和機器學習之間的橋樑。

法如其名,隨機森林需要建起許多的 決策樹(Decision Trees),讓它們來預測每場比賽雙方的進球數。

當然,系統要服用上文提到的所有變量。

先讓每一棵樹都獨立生長,再把所有樹的判斷集合到一起,進而隨機森林再做出的預測,這樣就不容易有太多偏見。

其間關鍵所在,是把樹與樹之間的相關性降到最低——

第一,樹並不是種在原始樣本上,而是在有放回抽樣(BootStrap Sample)的基礎上生長的。

第二,在每一個節點,所有變量中,一個隨機子集被提取出來,用於分出最完美的樹杈。

有了這兩步,每棵樹之間的相關性就變得很弱,隨機森林的不變性 (invariance) 就比一棵樹更強了。

另外,除了進球數,隨機森林也可以給出勝、平、負這樣的結果。

緊接著進入 算法融合 階段

雖然一開始所說的泊松回歸模型,以及排序算法,德國科學家認為沒有隨機森林的預測效果那麼好。

但他們覺得,這些算法身上依然有隨機森林可以汲取的營養。畢竟預測勝負和預測進球數,是兩項不同的任務。

於是,數據篇說到的新變量,在這裡登場——

之前排序算法裡用到的、謎一般的 球隊實力 參數,就在合體過程中以新變量的身份出現了。

如此融合進化完成後,再拿幾種方法出來測一下,新算法顯得更優秀—— 預測的準確度,已超過了博彩公司

如果更早一點推出,這個 AI 估計能賺不少錢。

不過現在也為時未晚,2018 世界杯已開盤等你。

實戰預測

拿 2018 世界杯演練,這個 AI 結果如何?

這是 AI 給出的結果,前三名的球隊(拋開順序)和許多其他算法的預測也是一致的。

它覺得,西班牙和德國的奪冠概率相差不大,不過還是更偏愛西班牙一點點。

此外,這裡不光有每支球隊的奪冠概率,還有每一輪的晉級可能性。

有趣的是,西班牙和德意志,小組賽晉級概率非常接近,但十六強決賽的勝率就有點拉開了。

德國科學家們說,這是因為從分組來看,德國隊更有可能在十六強決賽遭遇勁旅,比如巴西,但西班牙更輕鬆一些。

另外,論文還給出了小組出線可能性最大的組合——

還需要指出的是, 如果用每場比賽的勝負概率排列出結果,最後贏得金杯的將是德國人。

在這個維度裡,之前奪冠概率最大的西班牙,不幸止步於準決賽。

也就是說,這個 AI 給出的終極結果是: 西班牙勝率最大,但只要德國進 8 強,呵呵

所以你聽懂德國科學家們的潛台詞了嗎?

無獨有偶,足球世界也一直流傳著這樣一句話:足球是 22 個人 90 分鐘的比賽,但最後贏得勝利的 always 是德國人。

2014年德國隊奪冠的大功臣馬利歐・格策(Mario Gotze)。
2014 年德國隊奪冠的大功臣馬利歐・格策(Mario Gotze)。

其他預測

當然,也有其他同樣使用機器學習方案預測世界杯的例子。

數據科學家 Gerald Muriuki 就利用 2 個來自 Kaggle 的數據集,使用 1930 年第一屆世界杯以來的所有參賽隊的歷史賽事結果,打造了一個 AI 模型,同樣預測了所有小組賽結果,還模擬了八強、四強賽和決賽。

整個過程和完整代碼,Muriuki 已經在 GitHub 公開,我們不再詳細介紹,希望上手的同學可直接前往:github.com/itsmuriuki/F 

直接說這個 AI 模型的最後預測結果: 巴西將奪冠

另外,高盛今年也繼續打造了一個機器模型預測大力神杯歸屬,在進行了 100 萬次比賽模擬後,最終結果也是 巴西奪冠

高盛的 AI 模型顯示:法國、巴西、葡萄牙和德國將打入準決賽,巴西最終將在決賽中擊敗德國。

但擅長分析和報告的高盛,在世界杯預測方面有歷史包袱,上一屆世界杯 —— 2014 年,他們也是 高調預測巴西本土奪冠 ,然而誰料等到了一個半決賽 1:7 慘敗德國的結果。

(本文經 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈德国 AI“算个球”:西班牙是冠军,只要别让德国进八强(严谨推理) 〉;首圖來源:himanisdas,CC Licensed。)

延伸閱讀

報告教練:我用 AI 分析出怎麼守住 LeBron James 了!
賭海明燈來了!Google 用 AI 即時預測 NCAA 決賽,投進幾個三分球都要猜
【知識創造預測力】火箭隊總管莫瑞用 NBA 與生活紀錄,打造球員專屬訓練菜單


【徵求產業線編輯 3 名】

工作內容與需求:

1. 高度關注國際科技趨勢、台灣產業新聞
2. 根據月度編輯台企劃,執行編輯、採訪與撰稿工作
3. 進行線上、線下媒體策展
4. 根據不同策展專案進行跨部門溝通
5. 針對網站數據做解讀與優化分析
6. 具有 2~3 年工作經驗的媒體工作者
7. 習慣閱讀《彭博社》、《財富雜誌》、《金融時報》、《Fast Company》者更佳
8. 目標導向思考,對準目標、彈性工作

【應徵方式】

意者請提供履歷自傳以及「相關文字作品」,寄至 [email protected]。來信主旨請註明:【應徵】TechOrange 社群編輯:您的大名

點關鍵字看更多相關文章: