【我們為什麼挑選這篇文章】我的業師曾經告訴我一件非常重要的事:「有40%的把握就要出手了,不然你穩失敗」。這句話我過了很久才懂箇中含意。

當你凡事務求完美,過度執著,什麼都別玩了,因為世上沒有讓你根本這個絕世高手出手的情境。如果凡事能如你想像那也太容易了。所以想當什麼,做就對了,想老半天也不會讓你比較厲害。(責任編輯:林子鈞)

對於資料科學家這一職業,你瞭解多少?

——這是個被大公司追捧的職位,供不應求,待遇特別高。職場裡「資料科學家」的招聘相當火爆,各種線上線下的培訓課程野蠻生長。

這是大多數人對「資料科學家」的印象。

但是,怎樣才能成為資料科學家?或者說,一個合格的資料科學家需要具備哪些技能和素養?

具有十年從業經驗的亞馬遜資深資料分析師 Karolis Urbonas,經常被人請教這一問題。這促使他回顧自己的職業生涯——「我是怎麼一步步走到現在的?」「我是怎麼成為資料科學家的?」以及,從自我定位和自省的角度反思:「我是一名資料科學家嗎?」

自我反思的答案,被他總結成了這篇文章。由雷鋒網(公眾號:雷鋒網)獻給想要入門資料科學的同學們。

Karolis Urbonas

亞馬遜人生資深資料學家:當我成為一個資料學家,我才開始想要怎麼當一個資料學家

Karolis Urbonas:我的職業生涯從投資公司的證券分析師起步,那時候主要用的還是 Excel;之後轉到銀行業做商務智能(BI,即 business inelligence);再之後去做諮詢;最後才來搞所謂的『資料科學』——開發預測模型,擺弄大資料,寫代碼來做資料分析和機器學習。那時大多數人把這工作稱之為資料採擷。

當資料科學變成一股熱潮,我開始試著思索,它和我一直在做的工作有什麼不同。也許我應該學習一些新技能,成為真正的『資料科學家』,而不是一個『搞分析』的人?

和所有人一樣,我開始修習多門課程,讀很多書,修習資料科學專業(和大多數人一樣,沒有一樣是最終做到底的),寫了一堆代碼。我當時的目標並不只是成為資料科學家,而是成為下面這副資料科學韋恩圖中間的『那個』資料科學家:

這幅圖在資料科學圈子裡稱得上是大名鼎鼎。三個大色塊分別是:綠色—數學、統計學知識,紫色—資深專家水準,粉色—駭客技術。中間的小色塊是三大領域的重合區域,分別代表:中上黃綠色塊—機器學習,右下墨綠色塊—傳統研究,左下紫色塊—危險地帶,中央灰色塊—資料科學家。

但我後來瞭解到,圖中央的那一撮『獨角獸』(中間『資料科學家』色塊裡的這幫人在圈內被稱為獨角獸)在現實中極其稀少。即便真存在這種人,也大概會是對各個領域都有涉獵、但沒有一門精通的『通才』,而非專家。

如何從巨量資料中找到商機?用對工具,資料精煉術一點都不難!
企業需要的是高效率軟體輔助!

想當資料學家?行,先看看這四步驟

如今,我在亞馬遜帶領一支極富才華的資料科學團隊,每天搞所謂的大資料。因此我已把自己看做是一名資料科學家。但我認為,這行的水太渾(指的資訊方面)、尤其對於新人來說很多問題不夠清楚明白。當然,資料科學有很多高深複雜的分支,比如 AI 、機器人學、電腦視覺、語音辨識等等(雷鋒網注:AI 出身的學者恐怕會把這些全都看做是 AI 的分支,學科視角不同)。鑽研這些領域全都需要相當高的技術、數學造詣,經常還需要一兩個 PhD 學位。但如果你只是想要進入幾年前被稱為商業/資料分析師的資料科學角色,並在企業工作,這是四條幫助你在這個行當生存下去的建議:

第一步

明確你的優先目標和動機,客觀評估所掌握的技能,並據此設立現實的目標。

資料科學中有各種職業角色,清楚你現在的知識技能儲備,以給自己一個合理的定位十分重要。假設你是一個想要改變職業軌跡的 HR,或許你應該學習 HR 資料分析。假設你是律師,則可鑽研法學界的資料應用。事實上,現在所有的行業和商務職能都迫切需要更深層次的洞察力,資料科學技術正在被普遍地採用。

如果你已經有一份工作,可以想辦法理解工作中哪些環節可用資料優化,哪些問題可利用資料解決,然後去學習怎麼做。這會是一個逐步推進、相對漫長的過程。但你能保住飯碗,並且能從現實任務中學習。如果你是應屆生或者在校生,你學習資料科學的時機堪稱完美:你有大把機會找出自己最喜歡、最感興趣的領域——電影?音樂?汽車?普通人想像不出來這些行業雇傭了多少資料科學家。但最重要的,這些人都對所處領域心懷大愛。

第二步

打基礎。

資料科學的各個細分領域之間差異很大,但底層技能都是差不多的。有三個領域你必須學好,並打下牢固基礎:資料分析,統計學和寫代碼。你並不需要在每個學科都成為大師,但要牢固掌握這三個領域的基礎知識和技巧。

(a)關於資料分析

你需要理解基本的分析技巧,並進行大量練習——比如資料表是什麼;怎麼合併資料表;對於按照特定方式而組織的資料,主流分析技巧是什麼;怎麼創建資料集的摘要視圖(summary views),怎麼從中得出初步結論;探索性資料分析是什麼;哪種視覺化方法能幫你理解資料並從中學習。這些都很基礎,但相信我——掌握了這些之後,你就有了任何資料科學工作所必須的基本技能。

b)關於統計學

要掌握統計學入門知識——比如,什麼時候用平均數,而什麼時候要選擇中位數;什麼情況下用標準差,什麼情況下用它完全沒意義;為什麼平均值會「騙人」,但仍然是最常用的總計價值。

我說「入門知識」的時候,我真的指的是入門。除非你是個數學家,有志成為計量經濟學家——那麼,請盡情學習高級統計學。如果你沒有數學專業 PhD,你只需要花一些時間,保持耐心,直到對基礎統計學和概率論有一個不錯的掌握

(c)寫代碼

學程式設計是最老套的建議,但的確很靠譜。

你應該從學習用 SQL 查詢資料庫開始——不管你信不信,資料科學團隊的大部分工作時間,是花費在資料的「pulling」和準備上,而這需要通過 SQL 完成。你還需要學一門資料分析語言(從一門語言開始),R 或 Python 都很合適——對其中一門語言的掌握,會給你的職業選擇帶來很大不同,許多職位的招聘要求會有這兩門語言,雖然不是全部。一開始,你可以聚焦於學習語言的基礎,然後再專注鑽研如何用它來搞資料分析。另外,在這行立足並不需要你成為一個程式專家——你只需要知道怎麼用程式語言來對資料進行分析和視覺化。

第三步

資料科學是一門解決實際問題的學問——你需要找到問題並解決它。

職業生涯中我逐漸體會到,成為一名合格資料科學家的最基本要求,是要不停問問題,不停尋找需要解決的問題。我不建議你每時每刻都去尋找問題——這或許會對心理健康造成負面影響。但若下決定幹這一行,你就要做好準備成為一個「問題解決專業戶」,並且像福爾摩斯或者柯南一樣鍥而不捨。

我建議從小問題開始,找出你的生命中能受益於資料分析的東西——你會為生活中的各種資料之豐富感到驚訝(即便是難以啟齒的資料)。或許你會開始分析你的購物習慣,找出你 email 中的情感流露模式,或者創建漂亮的圖表追蹤家鄉城市的財政狀況。資料科學家的責任是「質疑一切,不斷發問」:比如,這個市場行銷項目是否有效?有沒有值得注意的行業趨勢?公司產品是否表現不佳需要下馬?合作夥伴給的折扣是否合理?這些問題會成為資料科學家眼中的假設,需要用資料分析進行證實或者證偽。假設( hypotheses)是資料科學工作的原材料,你能解決、解釋的假設越多,你的能力越高。

第四步

開始實做,而不是把時間精力浪費在計畫「做什麼」和「怎麼做」上面。

這適用於任何學習活動,但對資料科學來說尤其貼切。新人們,請確保從學習的第一天開始你就在「做」。在這一行,把真正的學習晾在一邊,而只是「讀關於資料科學的東西」,「讀應該怎麼做」,是個非常普遍、非常容易犯的錯誤(我自己一開始也是這樣)。很多人複製黏貼書裡的資料分析代碼,然後在非常簡單的資料集上運行,把這作為練習。相信我,現實世界裡你永遠不會遇到這麼簡單的資料集。

對於你所掌握的知識和技能,確保把它們用於你所感興趣的領域,然後,你會體會到資料科學的奇妙之處:

寫下你的第一行代碼,看到它如何失敗,陷入僵局,不知道下一步怎麼做,尋找解決方法,找了很多卻沒有一個管用,艱難地自己摸索,結果突然間闖到了下一階段……這一刻,你大叫一聲淚流滿面。

這才是真正的學習過程。

「 Learning by doing」,即從實踐中學習,是掌握資料科學的唯一方法。你學騎自行車的時候,並不是靠研讀《教你怎麼騎自行車》,而是直接上去騎,是吧?差不多的道理在這裡也適用。不管你學的是什麼,要確保你立刻去用它,用真實資料解決真實問題。

「如果你花費過多時間思考一件事,你永遠也無法將它完成。」這是李小龍的一句名言。雖然我們不鼓勵資料科學家讀雞湯,但是——你明白我的意思

via cyborgus

不再讓數據孤島阻擋企業創新!
該如何統合各部資料,從資料中分析價值?

人人都能上手的軟體分析解決方案,30 天 免費試用