為何英國每週日的死亡人數都會下降?4 個新冠肺炎教我的數據科學知識

【為什麼我們要挑選這篇文章】新冠肺炎全球大爆發,近 200 個國家的疫情數據不斷更新,但我們看到的資訊都是正確的嗎?

本文作者透過英國、中國的疫情數據案例,讓我們了解數據分析時的 4 大知識與注意事項。(責任編輯:郭家宏)

雖然現在大家很容易獲取機器學習和數據科學的學習工具,但是除了學習如何使用工具以外,往工具裡輸入數據之前如何有效地探索數據,並找出其侷限性也同樣重要。

最令人驚訝的是,總有很多人經常不看數據就開始構建模型,這很明顯是一個錯誤行為。想構建一個有效的模型,就必須了解如何收集數據,以及數據之間在哪些地方存在差距。無論你是要處理 Excel 表格裡的幾百行數據還是 TB 級別的圖像分類數據集,這都同樣重要。

因為數據是從現實世界中收集而來的,而現實世界充滿了怪誕奇葩的事,所以每一個現實世界的數據集也都充滿了不確定性。目前在 COVID-19 流行期間,人們日常關注的疫情數據就是如此:每天收集整理並修正來自全世界的數據,這並不是一件容易的事。因此,你現在看到的報告數字,就顯示出了你在其他現實世界的數據集中也能看到的差別和問題。

現在,讓我們一起來看看 COVID-19 的報告數據,感受一下如果不提前檢查數據就開始構建模型,我們將會出現哪些錯誤。

第 1 課:不同的數據收集方式,會創造出不真實的數據趨勢

COVID-19 的國際報告標準是要求每個國家或地區報告醫院的每天死亡人數,這樣就可以比較出該疾病是如何影響不同的國家的。

我們來看看英國報導的每日數字:

英國因 COVID-19 導致的每日死亡人數:每個週日/週一死亡人數都會大幅下降!

請注意,該報告的死亡人數遵循著完美的每週週期:死亡人數在每個星期之初(即週日和週一)發生顯著下降。這是一個非常有趣的發現,對模型可能會產生巨大影響。讓我們猜測一下,是否是因為那兩天人們的物資待遇或生活方式有所不同,所以才會導致不同的結果?

然而,這個每週的週期是假的,它只是一個涉及到數據如何收集和報告的人工產物。

每個醫療機構每天向中央機構報告一次死亡總數,英國報告的總死亡人數就是用這些數字的總和減去昨天的數字。

這會導致兩個明顯的問題:

▌一天的總和可能是(甚至通常是)不完整的。如果有醫療機構未能及時報告或報告不全,那麼這些死亡人數就不會計入英國當天的死亡總數,而是彙總到未來一天的總數中。
▌每個醫療機構報告的死亡人數總和,以及英國範圍內向公眾報告的死亡人數總和之間,存在了 1 天的延遲。

那麼解釋這個每週的週期就很簡單了。週末時醫院人手不夠,他們沒法及時報告自己的全部死亡人數。延遲報告就會導致週末時死亡人數下降,而週末之後死亡人數相應上升。由於報告滯後了一天,因此數據中是週日和週一顯示死亡人數下降,而不是週六和週日。

這就是數據集的常見問題:不同的數據收集方式會製造出真實數據本身並不存在的數據趨勢。再舉個例子,許多免費的圖像數據集是由攻讀博士學位的研究生建立的。因此,如果你想從網上獲取帶有汽車圖像的隨機數據集,那麼你可能會獲得很多校園停車場中的小汽車圖片,而不會有很多大型卡車的圖片。但是在美國,皮卡車與小汽車的銷量卻幾乎是 3 比 1。

第 2 課:一定要探究離群值

數據集裡幾乎總是會存在離群值(也叫極端值,是指數據中有一個或幾個數值超出了其餘數值的範圍),但你絶不會希望你的數據分析裡一直出現離群值,這是因為離群值可能只是簡單疏忽或異常事件發生的結果。所以,探究離群值是一件很重要的事,

這樣就可以確定在數據分析中是否應當包括它們,還是將它們排除出去。

這是全球實時數據統計網站 worldometers.info 提供的中國 COVID-19 新增病例報告的比率:

每日新增病例

2 月 12 日有一個巨大的離群值,中國報告了 14,108 例新增 COVID 病例,這一天的增加量是前一天新增病例的好幾倍。

如果你盲目地用這些數據建立模型,那麼這個離群值會把整個模型的結果弄亂。相反,如果你認為這個離群值代表真實事件,則可能會誤導你以為 2 月 12 日左右發生了一些特殊情況,所以導致感染增加。

然而事實上,出現這種大幅度躍升情況的真正原因,是中國於 2 月 12 日更改了報告方法。在此之前,中國僅報告由 RNA 病毒測試方法確認的病例。但是由於測試瓶頸,醫生同時也透過胸部 X 光片來檢查患者的肺部症狀,以此篩查 COVID-19 病患。2 月 12 日,中國將之前所有透過 X 光片確診的病例也進行了報告,這才導致報告病例激增。也就是說,這些病例並不是全在 2 月 12 日這一天發生,只是在那天將他們全部添加到了報告總數中。

只要你做一下搜尋,很容易為這個離群值找到解釋。而有了這些資訊,你就可以決定如何處理這個離群值。但如果你在開始建模之前沒有真正仔細查看數據,就不會發現這些。

第 3 課:對地理數據進行標準化

大家特別容易忘記的一個基本技巧是,用人口或其他具有代表性的因素對數據進行標準化後,按地理區域收集的數據總是更有意義。畢竟,一個擁有 500 人的村莊,與一座 800 萬人口的城市相比,300 例病例代表的發生機率要大得多。

例如,下面這張地圖使用了政府提供的統計數據,截至 2020 年 4 月 8 日為止,以倫敦每個區的 COVID 病例數為陰影:

倫敦各區的 COVID 病例數分佈圖,顏色更深 = 病例更多

然而問題在於,不同的行政區有不同的人口數量。當我們在地圖上僅僅使用病例數進行著色時,最終不可避免地還是要重新繪製人口圖。

在這個地圖上,位於城市最南端的克羅伊登(Croydon)和位於市中心的南華克(Southwark)具有相同的顏色。但是克羅伊登的人口比南華克多 20%,而且面積更大。如果僅僅因為這兩個地區的病例數相同,就說這兩個地區受到同樣的影響,這是沒有道理的,因為克羅伊登的感染率相對更低。

那麼解決方案就是透過人口等其他因素對地圖進行標準化。只需要簡單地將每個區的病例數除以該區的總人口數,就可以得出發病率。使用發病率來繪製,我們將獲得一個更容易理解的地圖,從而評估受影響最嚴重的區域:

倫敦各個區按 2018 年人口標準化的 COVID 病例數分佈圖,顏色更深 = 病例更多

如果按人口劃分,我們會發現克羅伊登(Croydon)的發病率只是中等水準,而泰晤士河邊的南沃克(Southwark)是受災最嚴重的地區之一。

在美國這樣人口分佈非常不均的國家查看國家或地區級數據時,這種影響甚至更大。在美國,幾乎所有人都居住在東海岸、西海岸或德克薩斯州附近。相比之下,其他大部分地區都人口稀少。如果我們對數據不進行標準化就繪製美國地圖,最終可能只是按照人口密閉度畫了地圖。

第 4 課:對出乎意料的結果保持懷疑並多次檢查

無論你多麼努力地去理解數據然後建立正確的模型,總會有無數種方式導致模型意外出錯。因此,如果你將數據輸入模型後,得出了一個出乎意料的特殊結果,那麼你應該考量一下,是否要對數據有所懷疑,並且仔細檢查是否遺漏了數據。

IHME 建立的模型是報告美國 COVID-19 疫情的模型之一,該模型預測了 COVID-19 的流行高峰期和對醫療保健系統的總需求。他們預計在美國將造成約 6 萬人死亡:

IHME 預測的美國 COVID 死亡人數

他們最近還增加了對英國的預測,儘管只是初步預測,但預測的死亡人數甚至更高,達到 66,000:

IHME 預測的英國 COVID 死亡人數(舊)

這是一個非同尋常的預測。該模型表示,人口約為 3.3 億的美國,將比人口約為 6600 萬(美國的 1/5)的英國死亡人數更少。由於差異如此之大,在我們搞清楚原因之前,應當對此有所懷疑。

這種懷疑與建立該模型的團隊的能力或工作品質無關,畢竟非常確定性地去預測一個罕見事件,這本就是一件難事。模型可以幫助我們了解不同的變數是如何驅動結果的,但它們也僅僅只是模型。所以我們不能盲目地相信模型,每當我們看到比較極端的預測結果時,都應當去嘗試了解到底發生了什麼。

新模型發佈後的頭幾天,英國報告的實際數字都低於該模型的最低預測範圍。於是幾天後,IHME 就用更大的信賴區間更新了這張圖,這代表該預測具有更多的不確定性:

IHME 預測的英國 COVID 死亡人數(新)

即使有了新的信賴區間,該模型仍然預測出了比其他團隊類似模型預測的更高的數字。倫敦帝國理工學院的 Neil Ferguson 教授在媒體上引用了這個模型,他認為這個模型在英國的預測是有缺陷的,因為 IHME 錯誤地模擬了醫院利用率,而他的模型則預測出了更低的數字。因此,現在我們就能看到這樣的案例,兩個單獨的模型給出了兩個完全不同的預測範圍。

當然這並不是什麼壞事。探究別人的模型,本就是檢驗自己的假設和模型中是否存在未考慮因素的好方法。真正糟糕的情況是我們盲目地相信任何特定的模型,因為沒有一個模型可以完美地處理所有的極端情況。

同樣,我們也要對自己的模型保持懷疑,如果你覺得結果令人匪夷所思,那麼就假設你的模型犯了一個錯誤,去探究,去查看,直到你搞清楚為什麼會得到這樣的結果。總而言之,不要盲目相信自己的模型。

當作者發表這篇文章幾小時後,IHME 更新了他們的英國模型並將其對英國死亡人數的預測從 66,314 大幅度降低至 37,494(降低了近 50%)。然而這個數字仍然比其他模型的預測值還要高一些,不過已經接近多了。因此,這個故事的寓意是正確的:對意外的結果要始終保持懷疑。

原文報導 傳送門

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈我从新冠数据里学到的四个数据科学基础知识 〉。首圖來源: 大數據文摘

更多關於數據分析的資訊

Kaggle 發布新冠病毒數據分析挑戰賽,邀請全球工程師破解病毒資訊
想提升數據分析技能?由淺入深,10 堂 Coursera 精選課程推薦給你
只會用 Excel 還不夠!七大主題,教你如何用 Python 優化數據分析效能

點關鍵字看更多相關文章: