Google 首席工程師是這樣理解數據的!8 分鐘教會你什麼叫真正的「統計學」

【我們為什麼挑選這篇文章】Google 的工程師到底是怎麼理解數據的?這件事應該有很多人都很感興趣,在未來資料、數據為王的時代,這樣的技能和理解絕對會幫助你站在更好的起跑點上。(責任編輯:林子鈞)
台灣優勢產業「製造、資訊、零售、金融」AI 創新動能起飛!
TO 年度 CONNECT with AI 論壇
25 位國內外專家分享機器學習應用實戰心得
7/6、7/7 @三創 12 F
貼心老闆五人票,現正特價中!
假設檢驗,P 值,顯著性水平,信賴區間,功效分析到底是什麼呢?這裡有一份通俗易懂的講解指南。本文介紹了統計學兩大學派:頻率學派和貝葉斯學派的基本觀點,一起來看看大咖是如何講解統計學術語的。

統計學的意義是什麼?這份懶人指南將用 8 分鐘,告訴你統計學所有的基本思想!如果你特別趕時間,只看加粗內容,一分鐘就可以啦!

相關鏈接

統計學是什麼?有人會說,統計學是一門有關數據處理和分析的科學。沒錯!從定義上來看,這樣的解釋完全正確。現在讓我們深入瞭解一下它的具體內容。

統計學是一門關於改變既定觀念的學科

一般情況下,我們根據事件(統計參數)進行決策尚有難度,更何況有時候我們連對應的事件都沒有。相反,我們已知的部分事件(統計樣本)與我們所希望知道的整體事件(統計總體)之間可能會存在很大的差異。這就意味測量本身是存在著不確定性的。

統計學是一門能在充滿不確定性的情況下改變你對事物看法的科學。當然,首先要確定的是:你目前的看法從何而來?是基於假設檢驗還是基於先驗信念?或者也有可能你沒有任何看法,大腦一片空白。

貝葉斯學派從先驗信念的角度看待問題

貝葉斯統計學通過結合數據來更新人們對事物的先驗信念(無需經驗或 於經驗獲得的知識,簡單來說就像是「直覺」。)。貝葉斯學派傾向於使用信賴區間(即介於兩個數字之間的區間)來表示結果。

頻率學派則主張從頻率的角度看待問題。

頻率學派統計學著重於改變一個人的選擇。人們不需要任何先驗信念就可以做出下意識的選擇,也無需分析任何數據。頻率學派統計學(也被稱為古典統計學)大多出現在日常生活中或者像 STAT101 這種統計學入門課程中,因此本文也對這類經典的理論進行介紹。

假設是對現實世界的一種「可能的」描述

零假設描述的是一種缺省的情況,即默認的選擇;備擇假設(又稱:對立假設)則是與零假設對立的其他一種或者多種情況。如果我用數據證明了「零假設」並不成立,那麼你就可以拒絕「零假設」從而接受備擇假設。

例如:如果你每天早上用於準備的時間少於 15 分鐘(零假設),我們就可以一起去上課(默認情況)。但是,如果事實(數據)證明你得花更長的時間(對立假設)才能準備好的話,你就只能自己一個人去了,因為在你準備好之前我已經走了(備選情況)。

簡而言之,假設檢驗的目的在於:「我們的事實證據能否拒絕零假設?」

所有的假設檢驗都在問這樣一個問題:我們的證據能否拒絕零假設?拒絕零假設意味著我們學到了一些東西,我們應該改變自己的觀念。不拒絕零假設意味著我們沒有學到任何新的東西。

就像我們在樹林裡徒步旅行的時候,在周圍沒有看到其他人並不能證明地球上沒有人類,只是意味著我們沒有學到有關人類活動範圍的新知識。如果沒有學到新知識,你也不必沮喪,因為你已經知道確切的應對方法。既然你沒有學到新知識,也就沒有理由改變觀念,所以繼續採取默認做法就可以了。

那麼我們怎麼判斷我們是否學到了新內容?所謂“新內容”,就是與默認選擇完全相悖,可以讓我們新知識。為了得到上面問題的答案,我們可以查看兩個統計參數,P 值和置信區間。

P 值理論是統計學中重要的一部分

P 值闡述了這樣一個統計參數:如果接受原假設,觀察樣本對原假設的支持程度。通過 P 值可以判斷假設是否成立。P 值越小,意味著默認結果出現的概率越小,「新內容」出現的可能性越大,統計越顯著,說明你應該改變先前的觀念。

進行假設檢驗,我們只需要將 P 值與顯著性水平進行比較。這就像是一個旋鈕,可以用來控制我們承受風險的大小。顯著性水平指當原假設正確時,人們卻因拒絕它而犯錯的上限概率。如果你將顯著性水平設置為 0,那麼就意味著你拒絕了備擇假設。那麼停下筆吧!別分析數據了,直接按默認方法去做吧。(但堅持默認做法也有可能是錯誤的。)

如何使用 P 值來獲取假設檢驗的結果。如果 P 值小於顯著性水平,拒絕原假設;如果 P 值大於顯著性水平,接受原假設。

信賴區間可以用來表示假設檢驗的結果。它的用法是,檢驗其是否與零假設重疊。如果重疊,那麼就意味著我們沒有得到任何新結論。如果不重疊,請改變你的看法吧。

信賴區間與零假設不重疊的話,就改變你的看法吧

雖然信賴區間的定義晦澀難懂,但它有兩大優點有助於描述數據特性:(1)區間總是包含最合理的假設(2)數據量越大,區間範圍越窄。請注意,置信區間和 P 值並沒有簡練精闢的定義,因為當初設計這兩個統計參數的目的不在於方便教學。它們只是總結檢驗結果的方法。(如果你上了一節統計課,發現根本記不住這些的定義,原因就在於此。我來代表統計學說一句:不是你的鍋,是我自己的鍋。)

這樣做的意義是,如果你按照我剛才描述的方法進行測試,數學可以保證你犯錯誤的風險被限制在你選擇的顯著性水平以內(這就是為什麼你親自設置顯著性水平很重要……數學計算就是為了保證你所選擇的風險設置得以實現,如果你不費心選擇就沒有意義了。)

數學理論是建立零假設的基礎,這也是 P 值理論的來源

數學可以製造和檢驗零假設這個「玩具宇宙」(親愛的統計學家們,這多麼的酷啊!?簡直太酷了!),並生成數據,從而與已有的數據集進行相似度對比。如果你的零假設玩具宇宙與現實數據相似的可能性太低,你的 P 值將會很低,你最終會拒絕零假設…… 那就改變主意接受備擇假設吧!

那些瘋狂的公式、概率、分佈是用來做什麼的呢?它們讓我們得以描述那些統治零假設世界的一系列規則,從而判斷零假設是否與真實世界相符。如果不是,你就可以大喊:「太荒唐了!拉出去砍了!」如果相符,你聳聳肩,遺憾沒學到新知識。以後我們再深入討論這個話題。

就目前而言,只需將數學的作用看作是幫我們建立了多個小的玩具世界,幫助我們進行檢驗,看看真實數據如果放進玩具世界中是否合理。P 值和信賴區間是幫你總結的方法,讓你不需要眯眼費力來閱讀關於這個世界的冗長描述。他們代表著終極判斷:用它們來查看是否採取你默認的做法。任務完成!

我們做準備工作了嗎?這是功效所衡量的內容

等一下,我們是否做足了準備工作,確保我們實實在在的收集了足夠的證據,讓我們有足夠的把握地改變觀念了嗎?這個問題的答案是由功效這個概念所衡量的。不改變觀念很簡單,只要不去尋找支持它的證據就好了。你的功效越大,說明你給自己更多機會來改變觀念。功效是拒絕原假設且結果正確的概率。

當繼續採取默認做法,我們雖然沒學到什麼,如果用功效對原假設進行衡量也能讓我們感覺更好。至少我們做了足夠的準備,也進行了嘗試。如果沒有用功效進行衡量,我們肯定不會改變自己的觀念。這樣甚至不需要去分析數據了。

功效分析用於檢查在著手之前你是否準備了足夠的數據

功效分析是對給定數量的數據檢測預期功效大小的一種方法,你可以借助功效分析制定研究計畫。

不確定性意味著,即使你擁有世上最棒的數學方法,也可能得出錯誤的結論。

統計是什麼?在不確定性中找確定性的神奇魔法。但沒有哪種魔法可以做到這一點,人們總會犯錯誤。提到錯誤,在頻率統計中有兩類經常出現的錯誤。

第一類錯誤是指原假設是對的,我們卻拒絕了原假設。大概就是,老兄,雖然你對這個默認做法很滿意,但你的數學計算說服你放棄它。第二類錯誤是指原假設是錯的,我們卻接受了原假設。(我們統計學家對命名真是有創意。猜一猜哪一個錯誤更糟糕?第一類?沒錯,很有創意吧。)

第一類錯誤就像是給一個無辜的人定罪,而第二類錯誤則是未能給一個有罪的人定罪。犯這兩類錯誤的概率是平衡的(提高抓住壞人的概率也同時提高了錯判好人的概率),除非你擁有更多證據(數據!),可以使犯兩類錯誤的概率都變小,整體結果都會變得更好。這就是為什麼統計學家希望你擁有大量、豐富的數據!當你擁有更多的數據時,一切都變得更好了!

數據越多越容易杜絕錯誤的結論

什麼是多重比較校正(multiplecomparisons correction)呢?如果你打算對同一個受試群體詢問多個問題時,那麼你必須以不同的、不斷調整的方式詢問。如果你一遍又一遍地審訊無辜的嫌疑人(當你持續探測你的數據),最終某個隨機事件總會讓案子看起來有罪。

「統計顯著」(statistically significant)這個術語並不意味著在零假設的世界裡發生了重要的事情,它僅僅意味著我們改變了看法。這種改變也可能是錯誤的,都怪煩人的不確定性!

別浪費你的時間來嚴謹地回答錯誤的問題了,試試統計學的方法吧!

那什麼是第三類錯誤呢?這是一個統計學的笑話:它指的是正確地拒絕了錯誤的零假設。換句話說,運用的數學方法都是正確的,卻回答了錯誤的問題。

解決這個錯誤的問題的一個方法可以在「智能決策工程」(Decision Intelligence Engineering)這個視頻中找到。智能決策工程是一個使用數據科學解決商業問題和優化決策的新學科。通過掌握智能決策這種方法,你可以避免犯第三類錯誤和無用的數據分析。

總而言之,統計學是一種改變你的觀念的科學。目前分為兩種流派,更常見的是頻率統計派——檢驗你是否應該拒絕你的原假設。貝葉斯統計派則是根據數據更新先驗信念。如果你在開始分析數據之前大腦一片空白,那就先看看你的數據,然後跟著直覺走吧。

相關報導

Google 人是這樣學習的

Google AI 研究營一開跑就 5000 人參加,簡立峰:台灣人不知道自己有多優秀

Google 推出「進階版」機器學習課程,畢業證書難拿到讓我懷疑人生

和 Google 頂尖工程師一起研究機器學習一整年,這是我的精華筆記

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈統計學速成班:谷歌首席決策工程師的一分鐘入門指南 〉,首圖來源:Youtube。)


【徵求產業線編輯 3 名】

工作內容與需求:

1. 高度關注國際科技趨勢、台灣產業新聞
2. 根據月度編輯台企劃,執行編輯、採訪與撰稿工作
3. 進行線上、線下媒體策展
4. 根據不同策展專案進行跨部門溝通
5. 針對網站數據做解讀與優化分析
6. 具有 2~3 年工作經驗的媒體工作者
7. 習慣閱讀《彭博社》、《財富雜誌》、《金融時報》、《Fast Company》者更佳
8. 目標導向思考,對準目標、彈性工作

【應徵方式】

意者請提供履歷自傳以及「相關文字作品」,寄至 [email protected]。來信主旨請註明:【應徵】TechOrange 社群編輯:您的大名

點關鍵字看更多相關文章: