【成為「超級」資料科學家】13 項技巧懶人包,硬、軟實力都要有!

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息
快將你的履歷自傳寄至 [email protected]

資料科學家(Data scientists)是 2012 年 《哈佛商業評論》宣布「21 世紀最性感的職業」,而若要在這個性感行業中脫穎而出,需要什麼技巧?

名叫 Admond Lee 的資料科學家曾在 LinkedIn 上提出疑問:「一名優秀的資料科學家和一位超級資料科學家有什麼差別」?得到來自不同行業資料科學家的回應及討論,最後列出了 13 項能幫助人們在該項職業進步或者得到更多成就的辦法。

雖然一名資料科學家沒辦法具備所有「超級資料科學家」的技能,但這些小技巧也能對一個資料科學家的職業生涯有所幫助。來看看這 13 項有哪些吧!

1. 教育

要成就資料科學家所需的知識深度,幾乎都需要強力的教育背景。在資料科學家中,至少 88% 擁有碩士學位,46% 擁有博士學位。 人們可以通過計算機科學、社會科學、物理科學或統計學的學士學位成為一名資料科學家,其中最常見的研究領域是數學和統計學(32%),其次是計算機科學(19%)以及工程學(16%)。在這些學位中能培養處理和分析大數據所需的技能。

但大多數的資料科學家不僅擁有碩、博士學位,他們還會繼續學習如何使用 Hadoop 等大數據查詢等技能,還可以透過架設應用程式、部落格或進行數據探勘來檢驗在課堂上所學習到的知識。在業界,能解決業務問題是首當其衝,能完成任務會比博士學位更加實用。

資料分析的程式語言相關技能

2. R 語言編程

R 語言通常是對資料分析工具深入了解的首選,它可以解決在資料科學中遇到的任何問題。43% 的資料科學家習慣用 R 語言來解決統計問題。雖然 對於已經掌握了程式語言的人來說,學習 R 語言可能有些困難,但網路上有非常多關於 R 語言的教學管道,例如 Simplilearn 的資料科學訓練。想要自我提升的資料科學家千萬不要錯過。

3. Python 編寫

Python 最常見的資料科學的程式語言中最常見的,還有 Java、Perl 或 C/C++。對於在 O’Reilly 對於資料科學的一項調查中,40% 的受訪者使用 Python 作為他們主要的程式語言。Python 可以用於各種格式的數據,也可以導入 SQL 資料表到程式中。可以建立資料組(Dataset)或在 Google 上找到所需類型的資料組。

4. Hadoop 平台

根據一項 Crowdflower 對 inkedIn 上 3490 個資料科學職缺的調查發現,有 49% 將 Apache Hadoop 列為第二大重要技能。

當數據量超過了系統容量,或者需要將數據發送到不同 的伺服器, Hadoop 都是你的好幫手。Hadoop 可以快速地將數據傳輸到系統上的各個點上,也可以用於資料探索、資料過濾、數據取樣和 總。

 5. SQL 資料庫

雖然 NoSQL 和 Hadoop 已經成為資料科學的一個重要部分,資料科學家有時仍需要在 SQL 中編寫或查詢。SQL 能在數據庫中進行增加、刪減或摘錄程式語言,也可以協助分析或轉換資料庫結構。

6. Apache Spark

Apache Spark 正在成為世界最流行的大數據技術。它和 Hadoop 一樣是大數據 運算框架, 但是 Spark 的速度更快。當 Hadoop 要讀取資料寫入磁碟, Spark 允許使用者將資料載入至叢集記憶體, 更快地運行計算。它 的優勢在於其速度和平台能使執行資料科學項目的執行更加容易,從資料採集到 分散式運算的分析都可以在 Apache Sark 上執行。

機器學習等 AI 領域能使你脫穎而出

7. 機器學習與人工智慧

許多資料科學家並不熟悉機器學習領域,包括神經網路、強化學習、對抗性學習等。如果想在資料科學家中脫穎而出,可以從了解機器學習技術下手,如有監督式學習、決策樹、邏輯回歸等。這些技能將幫助您解決基於 預測組織結果 的不同資料科學問題。根據 Kaggle 平台的調查,只有一小部分資料專業人員能夠勝任進階機器學習技巧。

8. 數據視覺化

商業活動中會產生大量的數據,而這些數據需要轉換成容易理解的圖表。資料科學家能夠借助數據視覺化工具(如 ggplot、d3.js、matplotlib 和 tableau)實現數據視覺化。當對方不了解序列相關或 p 值,就能直觀地向他們展示這些術語代表的資料結果。透過數據視覺化,企業能夠加速掌握新商機並保持領先地位。

9. 非結構化數據

處理非結構化式資料的能力對資料科學家至關重要。影片、部落格文章、客戶評論、社群貼文、音檔等難以進行排序的資料,無法做成資料庫圖表,因為這些 非結構化式資料的複雜性,大多數人將其稱為「暗箱分析」。資料科學家要能理解和操作來自不同平台的非結構化式資料,洞察出有助於決策的見解。

除了必備技能,還有這些軟實力

10. 好奇心

「我沒有特殊的才華,只有極強的好奇心。」— 愛因斯坦

好奇心代表對更多知識的渴望。資料科學家通常會花費 80% 的時間在發現和準備數據,因此要能夠提出關於數據的問題。資料科學是一個發展非常迅速的領域,必須更深、更廣地學習才能跟上步伐。

可以透過閱讀有關資料科學趨勢的書籍或文章更新知識,但不要被線上大量的數據淹沒,必須知道如何理解這些數據。好奇心是驅動資料科學家通過篩選數據找到答案的重要技能之一。

11. 商業敏銳度

資料科學家必須要對所從事的行業紮實了解,並知道任職的公司正試圖解決什麼類型的商業問題。必須了解所解決的問題會如何影響業務,才能將其資料分析的努力導向正確的方向。

12. 溝通技能

一個優秀的資料科學家要能清楚、流暢地將他們分析上的發現,傳達給其他如行銷、業務等非資料科學相關部門的人員。最好還要能以 storytelling 的方式將數據講解給公司其他人聽,讓包括老闆的所有人都能輕鬆聽懂。大多數人對資料科學家分析的內容不感興趣,他們只想知道這些數據能如何影響、提升他們的業務成果。因此良好的溝通技巧也至關重要。

13. 團隊合作

資料科學家在職場上不能當獨行俠,必須要和公司高層一起制定戰略;與產品經理和設計師一起創造更好的產品;與行銷人員一起提升策略,與客戶和伺服器軟體開發人員一起建立數據流程和改善工作流程。實際上,資料科學家必須與組織中的每個人合作。

以上就是 13 個成幫助你成為超級資料科學家的技巧,從本質上來說,資料科學家必須知道解決業務問題的目標和所需數據,並能用正確辦法分析,最後要能將結果翻譯成相關部門人員都能理解的語言,才能用資料成就業務上的成長。

參考資料:

1.《Towards Data Science》:〈Top 13 Skills To Become a Rockstar Data Scientist
2.《KDnuggets》:〈9 Must-have skills you need to become a Data Scientist, updated

(本文提供合作夥伴轉載。首圖來源:首圖來源:Pxhere CC Licensed)

延伸閱讀

Google 人資團隊從「資料科學」角度解密:為什麼某些團隊績效就是特別突出?
智慧工廠最關鍵執行問題:把所有數據送到 MES 就是智慧化嗎?
想當資料科學家?除了 Python 之外,你還應該要認識這 6 個資料界的超強 coding 語言


無法突破「智慧製造」升級瓶頸?

回答 5 個關鍵大哉問,找出問題癥結點!

馬上破解

 

點關鍵字看更多相關文章: