如何看出數據造假?數據科學家要知道的 3 個數學定律

數據科學家必須透過各樣工具處理海量數據,這些工具、演算法則是以基礎數學作為根基。因此,若數據科學家能掌握手中的工具,了解它們的理論前提假設、能解決的問題,以及應用限制,將能提升數據分析的品質與效能。

金融集團安聯(Allianz)的資料科學家 Cornellius Yudha Wijaya 在《medium》上 分享 3 個數據科學家要知道的數學定律,讓我們認識數據分析的本質。

Cornellius Yudha Wijaya 的《medium》傳送門

班佛定律(Benford’s Law)

班佛定律(Benford’s law),又稱為異數定律(the law of anomalous numbers)或首位數定律(the first-digit law),探討數據集當中,首位數的數學規律。

首位數指的是數字的第 1 個數,例如 12 的首位數是 1, 932 的首位數是 9。根據直覺,在一個自然產生,範圍不限的數據集中,若我們隨機取一個數字,該數字的首位數為 1、為 2、…為 9 的機率應該都要一樣,都是 11.1%。然而在現實世界中,首位數為 1 的機率大於 2 的機率,2 的機率又大於 3 的機率,依此類推。

若首位數 d(𝑑∈1,……,9) 的出線機率滿足以下等式:

該數據集就滿足班佛定律。

而滿足班佛定律的數據集,首位數的出現機率如下:

班佛定律的主要應用,在檢測數據是否造假。 例如 2000 年代初的安隆財報造假案,研究人員就發現上面的數據不符合班佛定律。2020 年美國總統大選,研究人員也透過班佛定律,判斷拜登是否有做票。

TO 相關文章:
【到底什麼是班佛定律】網傳:拜登得票數不符合「班佛定律」所以是作票?

大數法則(Law of Large Numbers,LLN)

大數法則指的是,隨著隨機過程的試驗次數增加,結果的平均值會愈來愈接近期望值或理論值。例如丟骰子,每個數字出現的機率都是 1/6,因此數字的期望值是 3.5。如果我們只丟 1 次骰子,它可能會出現 1 或 6 等數字,離 3.5 很遠;但如果我們丟了 100 次,這些數字的平均值會更接近 3.5;如果丟 1 萬次,數字的平均值又再更接近 3.5。因此,隨著試驗次數增加,試驗結果會趨近於期望值。

大數法則的應用難處在於,研究者必須做大量的實驗與觀察。好處是,若研究者握有大量數據,對於預測的穩定性很有幫助。

要注意的是,大數與平均法則(the Law of Average)不同。平均法則指的是,一個事件的發生頻率(frequency)與它的機率(probability)相當。以丟骰子為例,實際丟出點數為 1 的比例,要等於點數為 1 的理論機率,也就是 1/6。

平均法則的概念容易引發賭徒謬誤(gambler’s fallacy)。賭徒謬誤指的是,人們傾向於認為,若一個隨機事件連續發生(或是連續不發生),它下一次的發生機率就會較低(較高)。以丟骰子為例,若已經連續丟出 10 個 1,人們傾向於認為,下一次再丟出 1 的機率很低,但實際上,丟出 1 的機率也還是 1/6。

齊夫定律(Zipf’s Law)

齊夫定律指的是,在自然語言庫裡,一個單字的出現頻率與它在頻率表裡的排名成反比。也就是說,頻率最高的單字出現頻率,大約是頻率第 2 高的單字出現頻率的 2 倍,頻率第 3 高的單字出現頻率的 3 倍,依此類推。

Cornellius Yudha Wijaya 以 Spotify 的數據集為例,列出常見的 12 個詞:

Spotify 語料庫中的所有單字加總為 759,389,而出現最多的單字是 – ,有 32,258 個,占 4%;其次是 The,占 2%。

透過數學定律,數據科學家得以了解統計學與數據分析工具的背後原理,進而提升數據分析的品質。因此,若想要成為優秀的數據分析師,有必要對數學有基礎的認識。

參考資料

medium

(本文提供合作夥伴轉載。首圖來源:Piqsels CC Licensed

延伸閱讀

想當數據分析師?你可以先去考這 6 個證書
沒有相關工作經驗,要如何取得數據分析師的 offer?
光有熱忱和技術還不夠!想從事數據分析,你還需具備「業務能力」


訂閱《TechOrange》每日電子報!

每天一早,需要來根知識能量棒? TechOrange 與你一起,吸收世界新知識、消化科技新局勢。點我訂閱電子報 ,取得最新深度報導。

點關鍵字看更多相關文章: