【IT 轉職全攻略】數學不學好也想當數據科學家?想轉型,你會需要這份攻略

【我們為什麼挑選這篇文章】數據科學家是近年來特別夯的一項職業,不僅蘋果、LinkedIn等跨國大企業需要,也有愈來愈多的工作機會,薪水當然也很優秀。除了要對數據很有一套之外,數據科學家還得要有很好的邏輯思考,然而最基礎的,則是要有數學和資訊工程的能力!但是數學理論這~麼多,好像有點令人卻步⋯⋯別擔心,這篇文章整理了成為數據科學家必備的數學基礎知識,免除瞎子摸象的困擾,讓我們一起看下去!(責任編輯:杜維)

數據科學家需不需要有紮實的數學基礎呢?

隨著越來越多優秀開源項目的湧現,各類數據科學工具都實現了「半自動化」,數據分析的背後數學原理似乎不再是數據科學家的必備技能。

而在近期,諸如 Google Cloud AutoML 之類的人工智能自動化平台也不斷趨於成熟,甚至讓人可以不用編程就能建立機器學習模型(點擊閱讀《谷歌重磅:不用寫代碼也能建模調參,Cloud AutoML要實現全民玩AI》)。

這麼看來,數據科學家確實不再需要紮實的數學基礎了?

著名數據科學論壇 KDnuggets 的網紅博主 Tirthajyoti Sarkar 表示,當然不是啦,強烈反對!

為什麼數據科學依舊離不開數學?我們又需要會哪些數學知識?讓我們聽這位大咖一一道來。

聲明

首先,我不是一名 IT 工程師,我在半導體領域工作,更確切的說是高功率半導體領域。作為一名技術開發工程師,我的日常工作內容主要涉及半導體物理,矽製造過程的有限元模擬,以及電子電路理論。當然,這其中會涉及一些數學,但令人難過的是,我並沒有用到過數據科學家們所需要的那些數學。

我有不少朋友在 IT 行業工作,我也目睹了不少傳統 IT 工程師充滿激情的學習或者參與到令人激動的數據科學和機器學習/人工智能領域。我現在涉足這個領域是為了學習一些這行所需要的技術,希望把這些技術應用在半導體裝置或工藝設計領域。但當我開始通過自學深入了解這些令人激動的內容時,我很快發現我在大學裡學的那些基礎的數學知識,我已經記不清了。

雖然我擁有美國一所著名大學的電氣工程博士學位,但在沒有複習一些必須的數學知識的前提下,想要牢固的掌握機器學習或者數據科學技術還是有一些困難。

我必須要說的是 IT 工程師工作內容和長期的培訓使得他們遠離了應用數據領域。他們雖然每天處理大量的數據和信息,卻並沒有對這些數據建立嚴謹的模型。通常,由於巨大的時間壓力,他們工作的重點是「立即處理完當前需求然後處理下一個」而不是科學性的深度挖掘這些數據。遺憾的是,數據科學永遠是一門科學,而僅僅有數據是遠遠不夠的

這些工具和技術包括了,模擬物理或信息過程從而探尋潛在動力學過程,嚴格地評價數據來源的質量,訓練人們從信息流中識別隱藏模式的識別能力,或者理解模型的局限性。這些內容都是科學過程中的標誌。

應用科學或者應用工程學課程中通常包含這些內容,一些相似領域中的高水平研究工作中也包含了這些內容。遺憾的是,即便是工作超過十年的傳統 IT 工程師(開發運營,數據庫或者 QA/測試)都缺乏對這些知識的學習。原因很簡單,用不到。

變革的時代

現在不一樣了!

在大多數情況下,擁有完美的 SQL 查詢知識,清晰的商業需求,以及一定的 RDBMS 知識就足夠完成提取-轉換-裝載(ETL)循環的工作,這就是一名 IT 工程師在公司中所產生的價值。

但如果有人突然開始問你一些奇怪的問題,例如,你怎麼知道人工生成的測試數據是否足夠隨機?你怎麼知道下一個數據點是否分佈在 3-sigma 的範圍內?遇到這些問題,你該怎麼辦?或者,僅是隔壁計算機科學的研究生偶爾的打趣–計算機進行任何有意義的數學運算的數據表(即:矩陣)的運算負荷會隨矩陣大小(行或者列)的增加呈非線性增長,也會讓 IT 工程師感到困惑和惱火。

數據成為了風口上的話題,這些問題出現的頻率越來越高,也越來越緊急。

主管、技術經理以及決策者們已經不再滿足傳統 ETL 工具給出的乾巴巴的表格描述了。他們想要看到表格下面隱藏的模式以及列與列之間的相關關係。他們希望得到完整的描述和推論統計,這些描述和統計可能有助於預測建模,並擴展出遠遠超出數據集所包含數據范圍的投射能力。

今天的數據必須講述一個故事、或者唱一首美妙的歌。但是,要聽懂它優美的旋律,你必須精通音樂的基本音符,而這些音符就是數學。

不再囉嗦,讓我們來找出問題的癥結所在。一名普通的 IT 工程師要