數據科學家必讀的五本書:重要的不是會打 Code,而是背後的資料邏輯思維

數據科學 數學 書 閱讀 深度 邏輯

【我們為什麼挑選這篇文章】學會工具背後的理論很重要嗎?很重要,因為這些知識邏輯會轉化成為你工作、學術研究的專業養分。工程師當然也可以只會用程式語言而不懂背後概念;不過,這就像一個調酒師不懂酒品知識、不知道原料釀造過程,他很會調,但也職涯發展也不過如此。

因此要成為有價值的工程師,你需要懂原理,而這裡有五本書強化一下你的背景概念與自身邏輯。(責任編輯:陳伯安)

2010 年,我在華盛頓大學的一節課上寫了我的第一行 R 語言。當我意識到程式比電子錶格更強大時,我立馬就迷上了。在過去十年中,我目睹了「數據科學」一詞的廣泛使用,並看到了大數據、商業智慧、數據分析和現在的人工智慧等流行語的興衰。

在華盛頓大學開啓我人生新階段的這一課程是「金融計量學」,就像今天的深度學習課程一樣,很大的教室也坐的滿滿當當。當時,金融危機在每個人心中仍然歷歷在目。對於工程師來說,這也是一種微妙的信息: 如果你想獲得一份報酬豐厚的工作,那麼就進入金融領域,成為一名金融計量分析師,就像今天的數據科學一樣。

現代工程師擁有技術盲目,程式語言會用但不懂背後理論

在業務運營中直接使用數學的概念很有趣,不僅僅是為了決策支持,更是為了做出實時決策。然而,金融危機也暴露了,即使是最複雜的模型來應對現實世界的混亂也有不足之處。

許多人認為,金融危機的核心是獲得過諾貝爾獎的布萊克-舒爾斯模型(Black-Scholes)期權定價模型。這個模型在不瞭解其固有局限性和隱含假設的情況下,來衡量大型投資的風險。這種技術盲目性造成了災難性經濟損失的條件。

如今,有抱負的數據科學家們都需要去學習一系列令人難以置信的建模技術。每種方法背後都有自己的一套理論,例如線性回歸,你通過使用它就可以知道這些理論的實用性,不管你瞭解其背後的理論也好,不瞭解也罷。

這已經創造了一大批準備使用模型而不瞭解模型背後理論的新工人。年輕社區沒有解決技術盲目性問題,而是參與有關工具的代理爭論(R 與 Python!)。

為了幫助解決這個問題(我也受到了影響),我這裡提供了一份簡短的閱讀清單,這份清單可以為數據科學家們奠定理論基礎。此外,這些書還將激發你思考在使用模型之前有關模型技術假設的問題。

五本專攻「金融工程」的書籍:讓你深入了解數據科學背後的邏輯理論

此列表並非詳盡無遺,書籍主題也會從入門到深入研究。其對金融工程的影響是巨大的,因為相比比任何其他學科,金融工程更多的產生的是通用數據科學家。

《不確定性》:這套書是 Nassim Taleb 的著作集,其中最著名的是《黑天鵝事件》,最好的是《反脆弱》。Taleb 是風險、不確定性和定量問題方面最偉大的現代思想家。

他也是一個推特大 V(TO 編按:中國用語,代表粉絲 10 萬以上。),以炮轟那些他稱為 「有知識卻仍然是白痴」(簡稱 IYI)的人而聞名。在背景方面,他原本是一位移民衍生品交易員,之後成為了數學哲學家。

你要麼愛他,要麼恨他,因為他會在他的所有寫作中不斷挑戰你的假設。如果他新寫了任何東西,你都應該立即把它放在你的閱讀清單上。

《財富公式》:這是關於凱利標準早期在麻省理工誕生的故事。凱利標準據說產生於一次巨大的財務成功。您將瞭解信息理論之父(Claude Shannon)以及後來在 Ed Thorpe 所著的《擊敗莊家》中出名的記牌惡作劇的源頭。

Thorpe 現在被認為是定量對衝基金的教父。最重要的是,這本書展示了一個好的模型如何永遠不會被忽視,但是壞的模型可能會毀掉你。這個故事也是歷史上計算機科學和數學第一次合作解決現實世界的問題 —— 賭博。這個故事是數據科學產業誕生 60 年前的一個預示。

TO 延伸閱讀:賭場搞死你的數學機率遊戲:就算獲勝機率是 99.9999999%,你也不該下注

《混沌:開創新科學》:這本書包含了最新興科學的詳細歷史。既有混沌理論的歷史,也有關於該主題的評論。本書將讓讀者瞭解我們模擬現實世界的能力的局限性。由於非線性過程的性質,許多正在開發和已經使用的深度學習模型無法真正被理解。

本書將幫助您理解這些局限性。此外,光是對 Benoit Mandelbrot 的生活和工作進行全面評價,就使這本書對於任何數據科學家來說都是必讀的。James Gleick 是一位出色的作家,還有許多其他優秀的書籍可以添加到你的閱讀列表中。

《暗池交易》:本書講述了一個工程師改變了股市交易的故事。現在預測模型被部署在高頻交易的世界中,其中決策以納秒速度進行。本書介紹了這個隱蔽但強大的生態系統的誕生。關於這個故事的奇妙之處在於它闡明瞭當你知道一些代碼時如何解決許多問題。它還表明創造真正的價值是做一些真正創新的事情,而不是依賴現有的假設。有時你必須有點瘋狂才能解決一個難題。

《不會死的理論》:本書主要講述貝葉斯公式和貝葉斯統計的歷史以及它的競爭對手 —— 頻率統計。統計歷史和用平實的語言評論關鍵技術主題使得本書變得至關重要。你將瞭解歷史上一些最偉大的思想家,如 Pierre Laplace 和 R.A. Fischer,以及他們的哲學在幾個世紀以來如何塑造了世界的數據處理方法。

這五本書雖然不詳盡,但將有助於為處理現實問題的數據科學家建立哲學基礎。使其不再犯十年前那些金融計量學家們所犯的錯誤。尋求理解技術和模型的哲學,而不僅僅是機械地使用他們,我們的專業將變得無價。

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈业界 | 每个数据科学家都该读的五本无关技术的书〉,首圖來源:Pxhere, CC Licensed。)

延伸閱讀

巴菲特公式:賣給自己一個小時閱讀時間,知識就會像「複利」一樣無限累積
【全球最美書店】蔦屋書店創辦人心路談:重點是如何創造「被想要」的價值
【哥學的不是邏輯,是深度】讀完 6 本數學書,讓你深度與眾不同