統計學基礎遭質疑!p 值、信賴區間為何被 800 名科學家連署反對?

【為什麼我們要挑選這篇文章】在很多統計方法裡都會看到 p 值, 通常在許多期刊表格的下方都會看到 p<0.05、p<0.01 等標示, p 值檢定的結果已經常被視為研究是否有價值的決定性因素。

正因為多數的讀者們習慣上以檢定 p 值小於 0.05 來選擇該研究是否有參考價值,p 值掌握了一個研究的生死,所以下文介紹統計學專家如何呼籲大家不要只專注在 p 值的大小,而是肯定統計背後不確定性。(責任編輯:黃穗懷)

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息
快將你的履歷自傳寄至 [email protected]

顯著性這一概念是支撐統計學發展的大廈。

統計學課本中寫到:沒有統計顯著性則不能「證明」零假設(關於兩組之間無差或者兩個實驗組和對照組的假設)。同時,統計顯著性也不「證明」其他假設。

三位統計學教授主張:反對統計學意義、停用 p 值為判斷標準。

近日 Nature 雜誌發表了三位統計學家的一封公開信表示: 這種誤解用誇大的觀點扭曲了文獻,而且導致了一些研究之間的衝突。

注:這三位統計學家是:Valentin Amrhein,瑞士巴塞爾大學的動物學教授;Sander Greenland,加州大學洛杉磯分校的流行病學和統計學教授;Blake McShane,伊利諾州埃文斯頓西北大學的統計學方法學家和行銷學教授。

這篇公開信名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。 正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的 p 值作為判斷標準。

因為 p 值可能會誤導科學決策

首先明確必須停止的事:我們不應該僅僅因為 p 值大於某個臨界值,比如 0.05 或者因為零在信賴區間,而下結論說兩組之間「沒有差異」或者「沒有關聯」。  也不應斷定,因為一個研究的假設檢驗的結果有統計顯著,而另一個假設檢驗沒有,因此這兩個研究存在衝突。  這些錯誤會浪費研究工作並誤導科學決策。

比如說,在一系列研究消炎藥的服用效果的研究中,因為這些研究的結果沒有呈現統計的顯著性,一些研究人員就下結論說服用這些藥物與新發的心房顫動(最常見的干擾心跳頻率的症狀)沒有關聯,同時這一結果與那些早期呈現統計顯著的研究相悖。

我們不如一起來看看實際的資料。 研究學者聲稱他們的沒有呈現統計顯著性的結果的風險比(相對危險程度:暴露組的發病率與未暴露組的發病率之比,用於說明前者是後者的多少倍)是 1.2(服用藥物比沒有服用的風險高 20%)。

他們還發現 95% 的信賴區間跨越了從微不足道的風險降低 3% 到非常顯著的風險增加 48%(p 值為 0.091)。 而對比前一組,聲稱結果呈現顯著性的研究,風險比也是 1.2。 他們的研究只是更加精確,風險間隔區間在 9% 到 33% 之間(p 值為 0.0003)。

沒有呈現統計顯著性的結果表示「沒有關聯」,而信賴區間卻包含一定程度上風險是非常可笑的。 同理,因此斷言這些結果是矛盾的但是結果卻相同(風險比都是 1.2)也是滑稽的。 但是這些習以為常的做法說明依賴于統計臨界值會誤導我們。

這些相似的錯誤到處都有:對數以百計的文章的調查已經發現,統計上不顯著的結果被解釋為表示「無差異」或「無影響」在一半左右。

800 位學者連署呼籲停止使用 p 值定義假設

2016 年,美國統計協會(ASA)發佈了一篇聲明警告那些不恰當的使用假設檢定和 p 值的學者。 這個月,nature 期刊發佈了特刊試圖進一步推進這方面的改革,並刊登超過 40 篇關於「21 世紀統計推斷:P <0.05 以外的世界」 的學術論文(附上 論文位址)。

另一篇文章與幾十位簽署者呼籲作者和研究者停止使用這些詞語。 我們也同樣贊成這個號召,並呼籲這個統計概念被禁止。

我們並不是孤身一人,這個活動發起後, 在最初的 24 小時已經有 250 人簽下了名字。 一周以後,簽署者增加到了 800 位 ,這些簽名的人來自學術機構或者之前或現在從事著統計建模相關的領域。

除南極洲以外的各個洲的統計學家,臨床或藥物研究人員,生物學家,心理學家也都簽下了名字。 一名宣導者稱,這是「對統計意義輕率測試的外科手術式打擊」,也是「一個為更好的科學實踐發聲的機會」。

統計學家並非全盤否定 p 值,而是保留偏差性

同時,三位統計學家也強調, 我們並不禁止 p 值的使用,也沒有說  p 值不能在某些領域當做決策標準,比如決定生產過程符合某些品質控制標準。 我們也不提倡什麼都可以,不可信的證據突然變可信。 我們僅僅只是提議在常規的,二分法的情況下不用 P 值來決定一個結果是否反駁一個科學假設。

問題不是出在於統計,而在於人類和認知: 將結果分為「統計顯著」和「統計不顯著」讓人以為這種方式的分類的結果或者專案是完全不同的。 任何提出的涉及二分法的統計替代方案都可能出現同樣的問題,無論是頻率論,貝葉斯方法還是其他的方法。

不幸的是,科學家和期刊編輯們錯誤地認為,超過統計意義的臨界值就足以證明一個結果是「真實的」,這導致他們對這類結果給予了特權,從而扭曲了研究結果。 統計上有意義的估計值在大小上向上偏倚,而且可能偏差的幅度很大,而統計上不顯著的估計值是向下偏倚的。

因此, 任何側重于為其重要性選擇的估計的討論都會有偏差 。 除此之外,對統計學意義的嚴格關注鼓勵研究人員選擇資料和方法,這些資料和方法對某些期望的(或簡單可發表的)結果產生統計學意義,或者對不希望的結果產生統計學上的無意義,例如潛在的副作用。

預先登記研究和承諾公佈所有分析的所有結果可以減輕這些問題。 然而,也可能會因分析計畫中始終存在的決定而產生偏見。 即使是出於好意,這也會發生。

「相容區間」取代 p 值和信賴區間,接受不確定性

同樣, 我們並不主張放棄 P 值,信賴區間或其他統計措施,只是我們不應該武斷對待它們。  包括統計上的二分法,以及基於其他統計測量(例如貝葉斯因數)的分類。

避免這種「二分法」的一個原因是所有的統計資料,包括 P 值和信賴區間,在各個研究之間自然會有所不同,並且差異通常會達到令人驚訝的程度。 事實上,單獨的隨機變化很容易導致 P 值的大幅度波動,遠遠超 過 0.05 閾值的任何一側。

例如,即使研究人員可以對一些真實效應進行兩次完美的複製研究,每次都有 80% 的力量(偶然性)達到 P <0.05,一個獲得 P <0.01 而另一個  P> 0.30 就不足為奇了。 無論 P 值是小還是大,都需要謹慎。

我們必須學會接受不確定性。  一種實用的方法是將信賴區間重命名為「相容區間」,並以避免過度自信的方式解釋它們。 具體而言,我們建議作者描述區間內所有值的實際含義,尤其是觀察到的效應(或點估計)和上下限。

在這樣做時,他們應該記住,在給定用於計算區間的統計假設的情況下,區間上下限之間的所有值都與資料合理地相容。 因此,在區間中挑出一個特定值(例如空值)為「顯示」是沒有意義的。

我們厭倦了在演示文稿,研究文章,評論和教學材料中看到這種荒謬的「無效證明」和非關聯主張。 包含空值的區間通常還包含具有高實用重要性的非空值。 也就是說,如果你認為區間內的所有值實際上並不重要,那麼你可能會說「我們的結果非常具有相容性,但重要性並不高」。

「相容區間」四大應用,讓推論超出統計決定論

在談論相容性區間時,請記住四件事。  首先,給定假設的條件下,僅僅因為區間給出了與資料最相容的值是不恰當的,因為這並不 意味著它之外的值是不相容的;其他值只是相容性較差。 實際上,區間之外的值與區間內的值沒有實質性差異。 因此聲稱區間顯示了所有可能的值是錯誤的。

其次,根據假設,並非所有內部值都與資料同等相容。 點估計是最相容的,其附近的值比接近上下限的值更相容。 這就是為什麼我們敦促作者討論點估計,即使它們具有較大的 P 值或較寬的區間,以及討論該區間的上下限。

例如,上述作者可能寫道:與以前的研究一樣,我們的研究結果表明,給予抗炎藥物的患者新發房顫的風險增加了 20%。 儘管如此,根據我們的假設,風險差異從 3% 增加  20% 和從 48% 增加 20%,影響顯然是不一樣的,也與我們的資料合理地相容。 解釋點估計,同時承認其不確定性 ,將阻止你做出「無差異」的虛假結論,並避免過度自信的論斷。

第三,與它來自的 0.05 閾值一樣,用於計算區間的預設 95% 本身就是一種任意約定。  計算的區間本身有 95% 的可能性包含真值是錯誤的,再加上模糊的感覺,這是一個信賴區間決定的基礎。 根據應用,可以證明不同的信賴水準是合理的。 並且,如在抗炎藥物實例中,當它們施加的二分法被視為科學標準時,區間估計可以使統計顯著性的問題永久存在。

最後,最重要的是要保持謙虛: 相容性評估取決於用於計算區間的統計假設的正確性。實際上,這些假設充其量只有很大的不確定性。盡可能清楚地做出這些假設並測試你可以做的假設,例如繪製資料並擬合替代模型,然後報告所有結果。

無論統計資料顯示什麼,都可以提出可能的原因,但應當討論所有潛在的解釋,而不僅僅是有利的解釋。 推論應該是科學的,並且遠遠超出統計。背景證據,研究設計,資料品質和對潛在機制的理解等因素通常比統計指標(如 P 值或區間)更重要。

統計學退休,是盼統計方法和資料清單更加周全

我們聽到的讓統計學退休的觀點是,我們必須做出是或否的決定。但對於監管,政策和商業環境中經常需要做出的選擇,往往是基於所有潛在後果的成本、收益和可能性的決策,而不是僅基於統計顯著性的決策。 此外,對於是否進一步追求研究思想的決定,P 值與後續研究的可能結果之間不是簡單的聯繫。

讓統計學退休意義是什麼呢?我們希望統計方法和資料清單更加詳細和細緻。作者應該強調他們的估計和不確定性。 例如,明確地討論它們的區間的下限和上限。這不會依賴重要性測試。

當報告 P 值時,它們將以合理的精度給出(例如,P = 0.021 或 P = 0.13),沒有星形或字母之類的裝飾來表示統計顯著性而不是二元不等式(P < 0.05 或 P> 0.05)。 解釋或發佈結果的決定不會基於統計閾值。人們花在統計軟體上的時間會更少,而且更多的時間在思考。

我們要求停止濫用統計學意義,信賴區間作為相容性區間並不是靈丹妙藥。 雖然信賴區間會消除許多不良做法,但它很可能會引入新的做法。 因此,監測文獻中的統計濫用應該是科學界的一個優先事項。

但是,當原始和複製研究的結果高度相容時,根除分類將有助於制止過度自信的主張,無差別的「無差異」聲明以及關於「複製失敗」的荒謬聲明。

濫用統計意義對科學界和依賴科學建議的人造成了很大的傷害。 P 值、區間和其他統計測量都有它們的作用,但現在是統計意義真正引起大家注意的時候了。

(本文經 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈Nature 评论:800 名科学家联名反对统计学意义,放弃 P 值“决定论”〉 。首圖來源:大數據文摘

更多有趣的統計學

理科太太智商真的 170?從統計學的角度,讓你知道智商 170 是什麼意思

2008 年當選、2012 年連任,歐巴馬怎麼靠「統計學」打贏總統選戰?

Google 首席工程師是這樣理解數據的!8 分鐘教會你什麼叫真正的「統計學」


量子運算的出現,是現行安全機制的「轉機」還是「末日」?

搶先報名《2019 未來科技展》量子加密場次 2019 年正式進入量子運算應用元年,技術成熟後就能破解現有密碼系統,入侵企業電腦,干擾工廠運作與竊取商業機密! 找到可以抵禦量子運算的加密技術,是強化企業、國家資安的必修主題。 《即刻點我報名》,掌握量子加密趨勢!

點關鍵字看更多相關文章: