不脫光,我們靠大腦耍性感!資料科學家「內裝」解密

330687_243276372396307_2060741034_o

很多人都渴望有份光鮮亮麗的工作,一說出來頭上彷彿會出現 spotlight 的那種,那麼在《哈佛商業評論》2012 年 10 月號中,被譽為「二十一世紀最性感職業」的資料科學家(Data Scientist)絕對是求職首選。

IBM 對資料科學家這個職位的定義 是:「分析師」的進化版。

他對商業有高度的敏銳,並能將資料分析的結果與企業主管和 IT 人員溝通,協調整個組織來面對挑戰。好的資料科學家不僅能夠找出企業的問題,他還能挑出對組織來說最具價值的問題。

IBM Big Data 計畫的開發副總 Anjul Bhambhri 更把資料科學家比作文藝復興時期的人們 ── 他們真切地渴望學習,並為這個組織帶來改變。

看了這麼多形容詞,或許你對這個職位開始有了莫名的崇拜,不過今天我們要拉近這個看似高高在上的職位與大家的距離,讓大家近距離瞧瞧,資料科學家究竟都做了些什麼事。

  • 預測、分類、群集三個應用,發揮資料價值

今天的主角陳昇瑋是台灣少見的資料科學家,也是中研院資訊科學研究所研究員。篤信資料能為企業增加競爭力的他,近年來頻繁接觸業界,以獲取業界內擺著而不用、又不願分享給他人的 Real Data 來做研究,近期最知名的就是與來電辨識服務 whoscall 合作,找出行銷電話、詐騙電話的 Call Pattern,而 whoscall 也因為找到資料的價值,2013 年底獲韓國最大網路服務公司 NAVER 以 5.29 億台幣收購。(詳情可見:〈Gogolook 怎麼快速累積新台幣 5.29 億的價值?專訪中研院陳昇瑋談「如何培養資料科學家」〉)

談資料分析首先要知道的是,資料分析主要有三種應用,分別是: 預測(Predict)、分類(Classification)、群集(Clustering)。拿常見的商業化案例來看,就是觀察並分析一個使用者屬於高消費族群、低消費族群,以及他的年齡層、購買商品類別、喜好等等,最後預測他可能會對什麼樣的商品感興趣,並推薦給他。

Amazon 日前推出「預先送貨服務」就是這樣的應用,Google Ads 把廣告推播給使用者也是基於這個方法。

  • 資料科學家第一個難題:蒐集資料、處理資料

但上述這些都只在「分析」階段,在「資料哪裡來」的難題還沒解決之前,根本不可能進到分析這一步,更無法做出偉大的應用。但是,最難的就是蒐集資料。

在下圖「資料科學家工作流程真實版」裡可以看出,資料科學家要負責蒐集資料,其中包括決定要蒐集哪些資料、怎麼蒐集資料、建立資料架構,當資料進來之後,還要做前處理、除錯等步驟,接下來才是開始觀察、分析、應用於解決問題。製圖者更大膽推估,蒐集資料這個過程占去資料科學家 70%~85% 的時間,是相當可觀的人力成本。

一般人或許無法想像蒐集資料的難度有多高,陳昇瑋以一個包含購物、新聞、遊戲、音樂多項服務的大型入口網站來舉例,假設資料科學家要蒐集使用者的使用習慣、閱讀偏好,那就得跟每個服務的工程師要資料,這對工程師來講是一件額外要費心的工作;此外,不同服務都是在不同時間點由不同工程師所開發的,因此統一資料格式更是難上加難。

再來,假設資料科學家想要「使用者在什麼地點使用這些服務」的資料,那可能要調整每個服務的程式,過程中或許會有工程師反映這樣使得 App 耗電力大增、吃流量,法務也說明這樣有個資風險,那資料科學家又得想辦法解決,或是想另一個可以達到相同目的的資料會是什麼。

陳昇瑋說,「一位任職於服務跨足全球的網路公司的資料科學家告訴我,他光是在蒐集資料的步驟,就用了 60% 的時間。不是做分析、不是做 Machine Learning,都是在整理資料、溝通跟協調。」

也因為蒐集資料這第一步又難又很費工,所以很多想挖掘資料價值的公司都還卡在這裡;更使得那些原先以電子商務、電信、遊戲起家的公司,只願做好眼前具有核心競爭力的事,不願做短時間內難收成效的資料分析,相當可惜。

  • 資料科學家第二個難題:解決問題、開發賺錢的資料導向產品

蒐集完資料,資料科學家終於要進入資料分析的步驟,透過探索資料、Machine Learning、演算法、統計等方式找出模型後,他就能解讀出這些資料代表的意義,並把結果應用於決策,或者是根據結果做出一個產品,也就是 Anjul Bhambhri 所說的,「為這個組織帶來改變」。

例如一款遊戲的玩家玩到某個關卡都會卡關、卡關兩天之後就放棄了,那就要考慮調整關卡難度、或在關卡裡增加 BONUS。

而資料導向的產品就例如 Google Ads,使用者一顯現出什麼樣的特性、一搜尋哪類的關鍵字,系統就立即投放出他可能感興趣的廣告,而且隨時可以依最新的分析結果調整分類、投放標準。根據市調機構 eMarketer 於 2013 年底的調查,Google 在 2013 年的數位廣告營收達 370 億美金 ,相當於台幣 1 兆 1000 億台幣,佔全球數位廣告市場 31.91%,排名第一,可見資料為 Google 帶來多麼龐大的價值。

  • 資料科學家及三個角色於一身:處理者、分析者、策略者

蒐集資料、分析資料、解決問題就是資料科學家的工作。你會發現,集好奇心、敏銳觀察力、精準分析力、解決問題的能力於一身,同時又有創新的眼界,更擅於溝通協調,「性感」一詞,資料科學家當之無愧。

你,是否也躍躍欲試?

只要有心,這個職位就沒有你想像中的難,你可以參考陳昇瑋與我們分享的自學三部曲,如何自我訓練成一位資料科學家:「資料科學家養成三部曲」讓你躋身 21 世紀最性感的職業

———-
所以你有一顆「性感」的心要當資料科學家了嗎?
感性建議您!
快來報名橘子學院的 GA 流量分析課程吧~
上完課,一定性感(但不會被脫光)

GA_600x100

(參考資料:IBM資料科學團隊人才培育分享 ─ 以 DSP 為例 ;圖片來源:The Girl with the Dragon Tattoo

 

點關鍵字看更多相關文章: