【萬能工程師】完全沒醫學背景,MIT 資料科學家做出比研究機構更準的疫情預測模型!

【我們為什麼挑選這篇文章】2020 年疫情重創美國的經濟與生活,面對日益增多的確診數與死亡數,除了各大藥廠加緊疫苗的開發腳步,如何掌握疫情發展也是 CDC 亟欲部署的任務,但在龐大的數據中怎麼找到可用的資訊,建立準確的模型。這位非醫療背景出生的數據科學家,如何應用他過去跨領域的經驗,打造出比專業研究機構更精準的模型呢?(責任編輯:何泰霖)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處
作者:量子位

年僅 27 歲的他,被彭博評價為「新冠病毒數據的超級明星」。為什麼?

憑一己之力,僅用一周時間打造的新冠預測模型,準確度方面碾壓那些數十億美元、數十年經驗加持的專業機構。

他就是 Youyang Gu ,擁有 MIT 電氣工程和電腦科學碩士學位,以及數學學位。但值得注意的是,他在醫學和流行病學等方面卻毫無經歷。

他的模型,甚至被著名數據科學家 fast.ai 創始人 Jeremy Howard 高度評價:「唯一看起來合理的模型。」、「他是唯一一個真正查看數據,並且做得正確的人。」

不僅如此,他的模型還被美國疾病管制與預防中心採用。到底是個什麼樣的預測模型?

時間點要追溯到去年年初。當時疫情已在全球蔓延開來,於是公眾試圖用模型建立的方式,來預測接下來疫情會帶來的影響。而大多數的目光都將希望投向了 2 家專業機構打造的預測系統——倫敦帝國理工學院、總部位於西雅圖的健康指標與評估研究所(IHME)。

但 2 家機構給出的預測結果卻是天差地別:

▪️倫敦帝國理工學院:到夏天,美國因新冠病毒而死亡的人數將達到 200 萬。
▪️IHME:預計到 8 月,死亡人數將達到 6 萬。
(後來的事實證明,死亡人數是 16 萬。)

2 家專業機構給出的預測數據,差距為何如此之大?這就讓當時年僅 26 歲的 Youyang Gu 引起了注意。雖然他沒有任何醫學或流行病方面的經驗,但他堅信,數據預測在此時將派上大用場。於是,大約在 4 月中旬, Youyang Gu 便在家裡僅花了一周時間,打造出了自己的預測器,以及一個可以顯示相關訊息的網站。

但 Gu 在這個過程中所用到的方法,並不是多高級,反而是較簡單的那種。他首先考慮的是新冠病毒檢測數、住院人數和其他因素之間的關係,但在這個過程中, Gu 卻發現各個州和聯邦政府所提供的數據有不一致的現象。

此時,問題就來了——什麼樣的數據才是可靠的? Gu 認為,最可靠的數據,似乎就是每天的死亡人數:「其他的模型用了很多數據源,但我決定用過去的死亡人數,來預測未來的死亡人數。」至於這樣做的原因, Gu 給出的解釋是「將它作為唯一的輸入,有助於在雜訊中過濾出有用的資訊」。

那麼,預測結果如何?可說是相當精準!在模型剛剛完成時,他預測在 5 月 9 日,美國將有 8 萬人死亡,當天的實際死亡人數為 79,926 。而同樣來自 IHME 的預測數據卻是「2020 一整年的死亡人數將不超過 8 萬」。

Gu 還預測在 5 月 18 日,死亡人數將達到 9 萬; 5 月 27 日,死亡人數將達到 10 萬。事實證明,他再次「神預測」!除了精準預測數字外, Gu 基於許多州從封鎖狀態逐步轉為開放狀態,預測將出現第二波大規模的感染和死亡。

而在 Gu 發出這樣的預測當天,川普所發表的言論卻是「IHME 所預測的 6 萬死亡人數表明,疫情將很快結束」……

或許正是因為 Gu 的模型預測之精準,越來越多人開始關注他的作品。
在 Twitter 上, Gu 不僅 @ 了各家記者,還發 Email 給流行病學專家,讓他們核對自己的數據。

去年 4 月底,華盛頓大學著名生物學家 Carl Bergstrom 便在 Twitter 上發布了 Gu 的模型。

不久之後,美國疾病管制與預防中心,也在其新冠預測網站上發布了 Gu 的數據。不僅如此,隨著疫情的發展,身為中國移民的 Gu ,還參與了由美國專家團隊組織的定期會議,想更好的改善他的模型。此後,他的網站造訪量也呈現爆炸式成長,每天都有數百萬人來看他的數據,而 Gu 的模型所預測的數據,通常在幾週後便會達到,與實際的死亡人數非常接近。

隨著類似的預測模型逐漸增多,阿默斯特麻薩諸塞大學生物統計學和流行病學系的副教授 Nicholas Reich ,便統計了 50 個這樣的模型:Gu 的模型仍一直位居前列。

但到了去年 11 月, Gu 卻做出了一個令人意外的決定——結束他的預測任務。對此, Reich 這樣評價道: Youyang Gu 是一個非常謙卑的人,他看到其他人的模型也做得很好,便覺得自己的工作已經完成了。

而在 Gu 決定停止的前一個月,他預測 11 月 1 日死亡人數將達到 231,000 人,而實際人數為 230,995 人。但 IHME 的 Chris Murray 認為: Gu 使用的機器學習方法,在短期預測方面的效果比較好,但不太能看出「大局中發生了什麼事」。

對此, Gu 沒有針對模型的評價做出回應,相反,他這樣表態:「我非常感謝 Chris  Murray 醫生和他的團隊所做的工作;沒有他們,我就不會有今天的成就。」在休息了一段時間之後, Gu 重新投入到了這份工作當中。

這一次,他要做的預測是「美國有多少人感染了新冠病毒」、「疫苗推出的速度有多快」、「美國何時(如果可能的話)能達到群體免疫」等。他的預測表明,到今年 6 月,大約 61% 的美國人口應該能獲得某種形式的免疫力——無論是疫苗還是因過去的感染。

Gu 一直希望能夠找到一份能對社會產生巨大影響的工作,同時避免政治、偏見以及大型機構有時會帶來的負擔。他認為:在這個領域,有很多缺點可以透過我這種背景的人來改善。

這位精準預測的資料科學家是什麼背景?

Youyang Gu 出身於美國華裔移民家庭,在伊利諾州和加州長大。 Gu 從小喜歡數學和科學,直到高中畢業時,才真正接觸電腦科學。而他能夠進入這個行業得益於他的父親,因為他的父親是一名電腦從業者。

Gu 大學和碩士都在 MIT 就讀,在那裡他獲得了電腦科學與數學雙學士學位,以及電腦科學的碩士學位。畢業後他繼續在 MIT 著名的 CSAIL 實驗室中 NLP 組進行了一年的研究,同年在 EMNLP 2016 上發表了論文。

這也是他第一次接觸大數據,並由此建立統計模型對數據進行預測。不過他沒有因此繼續學術研究,而是進入產業界。從 MIT 離開後,他加入了金融行業,為高頻交易系統編寫算法。

在那裡,他的數據建模能力得到了進一步磨練,因為在金融交易中,數據必須量化並儘可能精準。之後,他又進入了體育界,繼續進行大數據方面的研究。這也為他提供了豐富的跨學科經驗,使他能夠成功應對新地領域,懂得如何更加準確地建模。

用他自己的話來說,他的專長是使用機器學習來理解數據,將資訊與雜訊分離並做出準確的預測。在建立新冠死亡模型時,他起初考慮了確診數量、住院數量和其他因素之間的關係,然後他發現各州和聯邦政府報告的數據不一致,最可靠的數字是每天的死亡人數。

Gu 認為,如果輸入數據質量很低,那麼數據越多,輸出的性能就越差。在一周的時間裡,他就根據死亡數據建立了一個簡單模型,並將預測網站上線。從去年 4 月以來,Gu 已經自願在這個工作中投入了幾千個小時,而且是無償的。

在接受醫學網站 Medscape 主編 Eric Topol 採訪時, Gu 表示自己現在全職投入到新冠預測網站上,沒有兼職、沒有收入,他靠著過去的積蓄生活。

然而這樣一個公益項目卻遭到了一些 Twitter 網友的非議,但是他還是堅持了下來。
從 12 月開始, covid19-projections.com 接受網友的捐贈幫助,現在已經完成了 5 萬美元的集資目標。

除了感染人數外, Gu 的新冠網站又有了一個新的功能。從去年 12 月起, covid19-projections.com 開始跟蹤和模擬疫苗接種情況以及群體免疫的途徑。這個月, Gu 又將「群體免疫」改成了「恢復常態」,因為他的模型預測表明,美國不太可能在 2021 年達到理論上的群體免疫。

未來的路怎麼走?疫情結束後, Gu 的職業規劃如何?他說現在還為時過早,雖然他現在的工作是預測疫情發展,但是他很難預測自己 3 個月或 1 年後要做什麼。因為這項工作,世界各地的高校和企業已經紛紛和他接洽,提供研究與工作機會。

(本文經 AI 新媒體量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈27 歲華裔小伙一戰成名!搞出美國新冠最準預測模型,一人幹翻專業機構,彭博:Superstar〉)

你可能有興趣

沒有相關工作經驗,要如何取得數據分析師的 offer?
【AI 訓練路上的絆腳石】數據長尾問題如何解,原來要讓數據「自我監督」?
【是用 Excel 算的嗎?】史丹佛大學稱用 AI 演算分配疫苗接種對象,僅 0.1 % 醫護人員獲選遭批


提升工作效率,你需要一台高效電腦

一台高效能的電腦不只幫你省錢、省時,還會提升你的工作效率! 換電腦選擇軍規等級的 Lenovo 最划算 #好用 #耐摔 #高 CP>>>https://pse.is/3dqb66 只要點選連結並完成註冊,就能收到限定的「折扣碼」! 最高享市價 88 折

點關鍵字看更多相關文章: