【為什麼我們要挑選這篇文章】現在是大數據時代,數據的重要性勝過以往,行銷、投資、 AI 都靠數據優化,數據科學家因此成為炙手可熱的職位,年薪至少 150 萬的誘惑下,現代人飛蛾撲火般地闖入學習數據科學的熱潮。
但反向思考,越來越多人的加入,會不會造成泡沫現象呢?媒體炒作下的「夯」,會不會在等我們拿到學位、上完昂貴的訓練班後,這個「數據科學」的技能,已經是人人在手,造成供過於求的現象?
這篇文章作者整理了未來數據科學將面臨的難題,並提供入門數據科學家三種必學的技能,讓你自由走跳數據科學界。(責任編輯:黃穗懷)
數據科學剛剛度過了它的黃金五年。
自 2012 年以來,這個行業發展迅速。它幾乎完整經歷了 Gartner 技術成熟度曲線的每個階段。
度過了初期使用階段、有關 AI 和偏見的負面新聞、Facebook 等公司的第二三輪風投。現在的數據科學正處於高增長使用階段:即使是銀行、醫療保健公司和落後市場五年的其他 100 強企業,也在招聘機器學習中的數據科學崗位。
但現實正在發生巨大的變化。
來自 captech 基金的資深數據科學家 Vicki Boykis 發佈了一篇《數據科學不一樣了》的文章,引起了廣泛討論。五年前被譽為「最性感」職業的數據科學家,正在進入一個新的階段。
我們該如何應對?一起看看。
大數據(還記得 Hadoop 和 Pig 嗎?)已經出局,R 語言的採用率急劇上升,Python在《經濟學人》雜誌中被表揚多次,「雲端」已經再次改變了一切。
不幸的是,大眾媒體在數據科學領域的炒作始終沒有改變。
直到今天,在各類不負責任的媒體口中,數據科學家依然是「21 世紀最性感最容易找工作的職業」。而事實上,希望進入這個行業的初級數據科學家已經供過於求,他們一旦獲得夢寐的「數據科學家」稱號後,實際展現出來的能力並不能達到預期的那樣。
數據科學行業將僧多粥少,引起供過於求風暴
首先,我們來談談初級數據科學家的供過於求。
圍繞數據科學的媒體炒作極大地提高了過去五年市場上的初級人才數量。
這純粹是傳聞,你大可不必相信。但是,基於我參與篩選簡歷、做剛入門的數據科學家的導師、做採訪者和受訪者以及與處於類似職位的朋友和同事們對話的經歷,可以初步感受到,每個數據科學職位而言,特別是入門級的職位,候選人都已經從 20 個增加到 100 個或更多。
我最近和一個朋友談話,他的一個開放職位收到了 500 份簡歷。
這並不奇怪。更多的傳聞是來自像機器學習教父吳恩達的職位空缺,他的 AI 創業公司每週要求 70 – 80 小時的工作時間。
即便如此,他依然收到了很多人試圖免費為他志願工作。截止到目前,據他所說,他的辦公室已經全部坐滿。
正確估計市場供需當然不容易,但Wired的一篇文章可以提供一些線索:
對 2018 年 4 月份招聘廣告的研究發現,美國有超過 10000 個職位空缺,傾向有人工智能或機器學習技能的人。
文章繼續表明:
超過 10 萬人開始學習 Fast.ai 提供的深度學習課程,Fast.ai是一家專注於擴大人工智能應用的創業公司。
讓我們做一道簡單的數學題。
假設 MOOC(慕課)的平均完成率約為 7%,那意味著,這一年會有 7000 人可以填補這 10000 個工作崗位。這一年如此,但明年又如何呢?我們是否假設數據科學的就業率穩定?如果是這樣,數據科學的就業市場看起來就會縮小很多。
我們再來看一項更廣泛的研究,LinkedIn 表示市場上缺少 151717 個具有數據科學技能的人才。雖然目前還不清楚這是指數據科學家還是僅具有部分技能的人,但我們假設是前者。那樣的話,該國數據科學家有 150000 個職位空缺。
鑒於有 100000 人已經開始了數據科學課程,我們假設其中有 7000 人能完成課程。
但是,這些數字還都沒有考慮到所有創造新的數據科學候選人的計劃和途徑:有像Coursera 這樣的 Fast.ai 之外的MOOC,有超過 10 個像 Metis 和 GA(General Assembly)這樣的每季度25人參加的全國性訓練營,還有像加州大學洛杉磯分校等地的遠程學位——分析和數據科學的學士學位,YouTube 等,還有大量無法在極其緊張的就業市場找到工作、正從學術界轉向數據科學的博士們。
這裡有第三個確鑿證據,來自 PWC,它指出 2015 年數據科學家有 4 萬個職位空缺。它還從總體上估計,認為分析技能的市場供應(再次說明,它比數據科學範圍更大,但也是一個比較點)到 2018 年將會使市場過度擁擠。
將此與數百個數據科學課程的訓練營相結合,如果有人要進入某個行業,你將看到一場大風暴。
未來數據科學行業,入門者將一職難求
根據我在業內工作並與 100 多名同事交談的直覺,這兩條 Twitter 最終使我確信數據科學行業存在供應泡沫。
首先, 1. 是這個有關入門數據科學課程的 Twitter :
Cal 的入門數據科學課程是 Data 8,這門課很受歡迎,位於澤勒巴哈教室。開課時間是 2018 年秋季學期第一天。
2. UVA 開設數據科學學院的消息:

由於在適應工業界的新趨勢上,學術界通常是滯後的,因此這個趨勢真的該引起初級數據科學家們的重視,所有人都希望找一個數據科學的職位。考慮到他們在市場上的競爭者數量,剛獲得數據科學學位的人很難找到真的入行。
在三、四年前情況還並非如此,然而現在數據科學已經從一個流行詞彙轉變為矽谷泡沫外更大的公司招聘的職位,相關的職位不僅更加正式化,而且有著更嚴格的準入要求(即傾向於曾經具備數據科學工作經驗的人)。數據科學職位的面試仍然難以把握,並且與工作完全不匹配。
正如許多部落客文章指出的那樣,你未必在第一次嘗試時就能找到理想工作。 因此,就業市場相當艱難,對於大量入門者來說更加困難重重。

Hinton對於機器學習領域現狀的想法:
「我們應該採取全新的想法。我們都知道從長遠來看,一個全新的想法將比一個個微小的改進更有效。當我們這個群體只有一些資深人士和一大批青少年時,這就是缺點。」
破除錯誤數據科學認知,工作內容大多不是寫code,而是「清洗數據」
第二個問題是,一旦這些初學者進入市場,他們會對數據科學的工作模式產生不切實際的期望。每個人都認為他們將進行機器學習、深度學習和貝葉斯模擬。
這並不是他們的錯,這正是一些數據科學課程和技術媒體們一直以來強調的內容。自從很久之前我第一次過分樂觀地瀏覽 Hacker News 上邏輯回歸的帖子以來,情況並沒有發生多大變化。
現實情況是,「數據科學」從未像機器學習那樣關注數據清洗,數據轉換以及將數據從一個地方移動到另一個地方。
我最近進行的極其非科學的調查問卷證實了這一點:
作者2019年1月在推特上做的調查溫暖:
近一段時間以來對此非常好奇,所以我決定創建一個調查問卷:
「作為2019年被稱為『數據科學家』的人,我花了大部分時間在(60%以上):」選擇了(「其他」)也歡迎在回覆中添加。
調查結果:
6% 選擇特性/模型
67% 清理數據/移動數據
4% 在產品中部署模型
23% 分析/呈現數據
「在我最近的幾個機器學習項目中,複雜的地方不再是建模或培訓裡;而是在輸入預處理中。我發現自己耗盡的是 CPU 而不是GPU,並且在一個項目中我真的不確定如何進一步優化 python(我也正在考慮c++)。」— mat kelcey「我在初級 ML/ CV工程師身上看到的最失敗的一面是對構建數據集完全缺乏興趣。雖然這是一項無聊的工作,但我認為在整理數據集時能夠學習到很多東西。這就像是問題的一半。」— Katherine Scott
「機器學習工程師」崛起,變相導致數據科學家聲望薪水銳減
忠告:避免偏食「數據科學」,整合多方技能
- 不要一味追求數據科學的工作
- 為成為數據科學家做好準備,而不是單單為了數據科學。調整你的技能組合。這些聽起來真是令人沮喪!
但是,讓我來詳細說明這兩個問題,希望它們看起來不那麼黯淡。
直接從事相關人員,不僅學習數據科學,也提升 IT 技能
當今數據科學所需技能懶人包
- 創建 Python 包
- 將 R 語句投入實際生產
- 優化 Spark 工作,使其更有效地運行
- 版本控制數據
- 使模型和數據可複製
- 版本控制 SQL
- 在數據湖中建立和維護乾淨的數據
- 大規模時間序列預測工具
- 擴展 Jupyter 筆記本的共享
- 考慮清洗數據的系統 大量的 JSON
入門到專精的三種技能,讓你輕易hold住數據科學和軟件開發兩種職業
1.學習SQL
SQL 非常強大且受歡迎,以至於 NoSQL 和鍵值存儲解決方案也重復出現它。只需查看 Presto、Athena,它們由 Presto、BigQuery、KSQL、Pandas 和 Spark 等等提供支持。如果你發現自己被大量的數據工具所淹沒,那麼很可能有 SQL 是適合你的。而且,一旦你理解了SQL範式,就能更容易理解其他查詢語言,從而開闢一個全新的領域。
在學好SQL之後,下一步是瞭解數據庫如何工作以及為什這樣就可以學習優化查詢。你不會成為數據庫開發人員,但是許多概念將延續到你的其他編程生活中。
2.學好編程語言、學習編程概念
前文我們談論過如何學習 SQL 的問題,當你使用 SQL 的時候,你會有這樣一個疑問,這樣的數據庫處理軟件,它是不是一個編程語言呢?答案是肯定的,不過它屬於聲明式編程。你可以指定所需要的輸出(就是你想從數據表中把哪幾列提取出來),但沒法控制它用什麼方式把結果反饋。SQL 抽象出大量發生在數據庫內的信息。
與之相對的,如果你需要一種可以指定數據從哪裡、用什麼方式被選取出來。像Java、Python、Scala、R、Go 等等這些都是現在流行的面向對象的過程化語言。
大家現在對用哪種語言去做數據科學依舊有很多爭論,當然也不會在這裡指定一種語言是最合適的。但我想說的是,在我的日常工作中,Python 對我的幫助真的很大。作為一個初學者來說,Python 很容易上手,而且也是數據領域裡最流行的編程語言。為什麼這麼說呢,因為它可以處理很多數據問題,如構建一個模型放入到 scikitlearn裡、訪問 AWS API 雲端平台服務接口、製作網頁服務應用、清洗數據、創建深度學習模型等等。而在統計領域裡,R 還是更為廣泛使用。
但同樣的,我還是建議不用去深究統計領域,Python 基本可以滿足編程需求了。
當然 Python 在大規模應用、打包依賴關係、一些特定數字處理、特別是時間序列和 R 那樣開包即用(Python 不像 R 有很多成型的功能包、更細緻的統計功能模型) 等等問題上也不是很適用。
如果你不選擇 Python,那也沒什麼問題。但你應該選擇一門語言讓你在數據科學之外的領域,一樣可以大展拳腳。舉個例子來說,如果你的第一份工作是數據分析師、質量保障員、初級的軟件開發人員或者其他崗位,這都將是作為你進入這個行業的敲門磚。
如果說一旦你選擇掌握某種編程語言,就會開始學習它的範式,研究它與整個計算機生態系統的關係。
在開始研究之後,你就會面對這樣一系列問題。如何用你掌握的編程語言進行面向對象編程(OOP)?什麼是面向對象編程?如何讓你的代碼更簡化?你使用的語言是通過什麼樣依賴關係工作的?對你寫好的代碼如何打包,怎樣進行版本控制、持續整合、模型部署?到哪裡去找這種語言社區去交流學習,他們什麼時候進行交流研討會?
然後你需要做的就是不斷地瞭解這門語言,知道它的優缺點,然後用這門語言做些有趣的編程,找到其中的樂趣。
然後就像武俠小說裡練就奇功一樣,當你打通任通二脈,這種編程語言能力成為你身體的一部分,然後你就去學習第二種編程語言,它將會教給你更多關於語言設計、算法和模式的內容,瞭解這個更豐富有趣的語言世界。
3.學會如何在雲端平台進行操作
現在你知道如何進行編程,那下一步要做的就是把這些能力和理論推廣到雲端平台上,跟其他編程者進行共享。
現在雲端服務無處不在,很有可能你的下一份工作就是需要在雲端平台上完成的。有了雲端技術,如果能夠搶先一步,就越容易走到前列,就比如現在有越來越多的機器學習範例轉移到了雲端服務供應商(如亞馬遜的 SageMaker、谷歌的 Cloud AI、微軟的 Azure Machine Learning),那上面會有更多現成的模板來實現你想要的算法、也有更多的公司數據會存儲在雲端上。
當然你也有機會跟 AWS 行業領導者合作,但越來越多的地方開始使用 Google Cloud雲端服務,還有一些較為保守的傳統企業也開始用 Microsoft Azure 雲端服務。我的建議是對這上文提到的三家雲端服務公司做一個用戶調查,然後選擇一個更適合你們的。雲端設計範式是通用的,所以你應該更關心如何將服務連接在一起、如何將你使用的部分與雲端上其他應用做邏輯隔離,以及如何解析處理大量的 JSON。
一個很酷的事情是,現在三家雲端服務供應商都開始提供他們的產品認證。我通常不太相信認證是知識獲取的標誌,但是你可以通過認證學到雲端平台很重要的工作原理,這也是工程裡另一個組成部分——網絡。
所以在你找到下一份工作之前,可以有時間充分學習一下這三家的證書,並且在雲端平台上自由發揮一下,也是不錯的選擇。
還有一大部分我們沒有講到,就是「軟技能」(知道如何構建、知道如何在工作環境下交流、知道其他人的需求)。這種能力與技術能力同樣重要,也有很多部落格專門提到這種能力。
4、保有信心,跬步以至千里
現在深呼吸,我知道你已經做好準備了。
如果說上面說的內容已經足夠打動你,說明在 2019 年,你已經做好成為一名數據科學家、或機器學習工程師、或雲端專家、AI法師的準備了。
請記住,遵循這些建議的最終目標是打敗那些具有數據科學學位、通過訓練營和通過教程的工作人員。
你想進入這個行業,得到一個數據相關職位,朝你期待的工作而努力,並且儘可能多的瞭解整個科技行業的發展。
我的最後一點誠懇建議和鼓勵是:這些東西對任何一個人來說都相當困難,而且看起來你需要瞭解成百上千的事情,永遠不要失去信心。(不忘初心)
就像上面這個部落格裡,這個作者學習 MOOC 一開始都是出於好奇,每個都是新東西,而且並沒有接觸過除了Windows以外其他操作系統,也沒有接觸過終端,但是經過努力終於做出了自己想要的分類器。
所以她也說到,在這個領域對於每個人來說都不容易,任何事情都是挑戰,但是最終你都會克服並且一點點解決掉,你會發現車到山前必有路,柳暗花明又一村。
不要被分析問題的困難所擊倒。從一個小問題入手,積跬步以至千里,最終問題會迎刃而解。告訴大家請記住,你的第一份在數據科學領域的工作不一定就是數據科學家。
我最喜歡的其中一本書是安妮‧拉莫特的《Bird By Bird》,是一本關於寫作的書。很有趣的是,這本書的書名是作者的哥哥當年不得不寫的一份讀書報告。
「三十年前,我十歲的哥哥正在努力寫一份關於鳥類的研究報告。他本來有三個月的時間進行寫作,但是明天就要交了。我們在柏林阿斯的家裡小屋裡,哥哥他絞盡腦汁地寫那份報告,幾乎要留下眼淚,而他被這艱鉅的任務禁錮在廚房餐桌旁,周圍散落著活頁紙、鉛筆和一些沒有開封過的鳥類書籍。這時候父親來到旁邊坐下,抱住哥哥的肩膀說道,『ird by bird,孩子。就是把鳥一個個列出來』」
後來他就完成了。
不要讓天花亂墜宣傳信息壓倒你。不要因為那些時髦的詞或者帶著 MacBook 那種時尚人士形象所矇蔽。集中在一隻鳥的身上,從那裡開始。
(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈被挤爆的数据科学行业!五年前“最性感的职业”怎么了?〉。)
想成為 數據科學家 必看
最新「數據科學」自學清單:六個月無師自通,菜鳥新手趕快存起來
【年末轉行指南】無經驗也能做數據科學家?其實學會 Python 後什麼都好談