二十一世紀最性感的職業:Data Scientist

所謂性感,既代表著難以名狀的誘惑,又說明了大家都不知道它幹的是什麼;《哈佛商業評論》宣布,「Data Scientist, 數據科學家」是二十一世紀最性感的職業。

  • 人才需求大量攀升,但什麼是「數據科學家」?

不管老闆懂不懂數據科學家是幹什麼的,反正最近幾年,這個崗位的需求數正在快速攀升,Indeed.com 的數據可以為證

但是其性感在什麼地方? 什麼是數據科學家? 他們是科學家嗎? 還是工程師? 程序員? 抑或是一個商業決策與創新者的新血統?

Indeed.com 的數據沒有反應出來的一個事實是:儘管這個職業對應的學科在學術界經過長期的醞釀,但終究沒有成為一個新的學科;而這段時間很長的學術孵化期,也許跟今天的數據科學實踐有著很大的關係。

  • 從計算機科學衍生而成,關鍵在於成功管理數據

我們首先來簡要回顧一下這段歷史。

早在上世紀六十年代,Peter Naur 就首次提議要用「數據科學(data science、Datalogy)」來替代「計算機科學(computer science)」,後來在上世紀九十年代中期為國際分類社團聯盟所用。

2001 年,William S. Cleveland 提議將其設立為一個新的學科,吸收「計算在數據方面取得的進展」作為統計學的延伸。《數據科學(Data Science Journal  )》及《The Journal of Data Science》分別於 2002 年與 2003 年發行;2005 年,國家科學委員會發表了《數字數據收集萬歲:促進二十一世紀的研究與教育》,文中將數據科學家定義為「訊息與計算機科學家,資料庫與軟體工程師及程序員,學科專家,成功管理數字數據收集的關鍵人物。」

  • 從學術邁向新職業,支撐海量數據研究與應用

到了本世紀前十年的中期,數據科學不再屈尊於僅列為其他學科的細目清單,開始走出學術殿堂。 從學術邁向新職業走出的這半步是 Troy Sadkowsky 於 2009 年完成的, 他在澳大利亞的一個學術性崗位工作,但卻有一個「科學性程序員」的頭銜,其職責是開發支撐「大規模」、「大數據」科學性研究的應用。

2009 年 1 月,數位化數據跨機構工作組發表了一份名為《駕馭科學與社會數字化數據之力》的報告,Sadkowsky 從中了解到「數據科學家」這個詞,認為該詞是自己所從事工作的最好描述。

2009 年 6 月,他在 LinkedIn 建立了一個數據科學家小組,做為其 datascientists.net 網站的輔佐。

但是數據科學從學術向行業的大規模遷移,更早前 就在美國發生了。那時候 Web 公司正在開發大資料技術,需要定量分析員對其收集到的海量數據進行挖掘利用,那些不願待在像牙塔裡的數據分析專家都會跑到華爾街;不過 2008 年的時候,這個地方的誘惑力下降了。

Greylock Partners 的資料科學家 DJ Patil 跟 Jeff Hammerbacher 一起在 Facebook 和 LikedIn 上建立了資料與分析小組,這一舉動被視為是數據科學走向職業化的標誌,小組的職能是致力於對業務能夠產生即時的、大規模影響的資料應用。

  • 所謂數據科學家就是:運用數據和科學,創造新東西的人

而數據科學家這個職位的頭銜則是 2009 年由 Natahn Yau 首次提及的,他認為數據科學家就是能夠從大型數據集中析取出數據,並提供某些可供非數據專家使用的東西的人。

數據科學家、創業家 Mike Driscoll 則認為數據有三個性感之處:建模、轉換、可視化。

而一種比較有詩意的表述方式是:數據科學家好比是哥倫布遇上科倫坡,目光如炬的探險家與懷疑一切的大偵探的合體。

而在《數據科學家:二​​十一世紀最性感的職業》一文中,設計 LinkedIn 的「你可能認識的人」功能的數據科學家 Jonathan Goldman 的工作,也許是對數據科學家工作方式的最好詮釋:首先構建理論、印證預感,然後尋找出模式,對應該推出某人的哪一個網絡做出預測。

  • 統計知識 +  科學經驗 +  工程經驗,成就性感數據科學家

文章最後對數據科學家的工作進行如下概括:

數據科學家做的,就是在數據中遨遊的同時進行探索,其顯著特點是強烈的好奇--他們渴望尋找問題核心,追究問題實質,並把這些東西提煉為一組非常清晰、可以驗證的假設。

這往往會讓人聯想到這些都是任何一個領域忠,最有創意的科學家所具備的特質,很顯然,科學家這個頭銜適合於這一新興角色。 他們實現的價值,並不是靠做報表或者 PPT 給高階主管,而是靠在面向客戶的產品與流程方面,所做出的創新。

不過,這一大段的闡述仍然不夠簡潔明瞭,在上述的基礎上,我們來給數據科學家一個簡明版定義:

  • 數據科學家就是採用科學方法、運用數據挖掘工具尋找新的數據洞察的工程師。

科學辦法就是構思假設、測試想法、精心設計實驗、經由他人驗證,這些是他們從統計身上掌握的知識,經科學訓練出來的經驗; 而工具的運用則是來自其工程經驗,或者更確切地說,來自於其計算機科學與編程背景。

最好的數據科學家是產品與流程的創新者,有時候還是新的數據挖掘工具的開發者。

何謂性感,這就是。

(圖片來源:36 氪

點關鍵字看更多相關文章: