數據科學家技能趨勢解析:PyTorch 職缺大漲 108%,SQL 將成為需求第二大的程式語言

【為什麼我們要挑選這篇文章】2019 年快結束了,過去一年,職場所需的程式語言技術有何變化?調查結果發現,Python 依然是職場最後歡迎的程式語言,然而也有一些語言,市場需求正在竄起,例如 SQL、PyTorch、AWS、Azure。

展望 2020 年,工程師可以培養哪些程式技能呢?(責任編輯:郭家宏)

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息 
快將你的履歷自傳寄至 [email protected]

2018 年 medium 上一篇文章分析了數據科學家最需要的技能,那篇文章引起了很大的反響,在 medium 上有超過 11000 次點讚,並被翻譯成多種語言,成為了 2018 年 11 月 KD Nuggets 最受歡迎的文章。

2018 年文章 連結

一年多過去了,2019 的作者也發佈了最新的分析,讓我們看看有什麼變化。

2018 年的文章考察了對統計和溝通交流等一般技能的需求,以及對 Python 和 R 等技術的需求。軟體技術的變化一定快於一般技能需求上的變化,所以在本更新中只包括技術部分。

我們搜尋了 SimplyHired、Indeed、Monster 和 LinkedIn,以查看美國工作的列表中,哪些關鍵字和「數據科學家」共同出現。這一次,我們決定用 Request 和 Beautiful Soup 包來獲取工作列表,而不是手動搜尋。

事實證明,LinkedIn 的爬取要困難得多,因為查看工作列表的準確數字需要身份驗證。我決定使用 Selenium 進行無頭瀏覽。2019 年 9 月,美國最高法院對 LinkedIn 做出了判決,允許其數據被爬取。儘管如此,在幾次抓取嘗試後,還是無法訪問帳戶,這個問題可能源於刷新率限制。

不管怎麼說,微軟擁有 LinkedIn,Randstad Holding 擁有 Monster,Recruit Holdings 擁有 Indeed 和 SimplyHired。

無論如何,LinkedIn 的數據可能無法提供從去年到今年的蘋果公司職位對比。今年夏天,LinkedIn 的一些技術職位搜尋詞,每週都會出現大幅波動。這可能是由於他們試圖透過使用自然語言處理來衡量搜尋目的,因而對他們的搜尋結果演算法進行了實驗。相比之下,另外三個搜尋網站在過去兩年中出現的「數據科學家」相關職位列表數量則相對接近。

基於這些原因,LinkedIn 被排除在本文 2019 年和 2018 年的分析之外。

對於每個工作搜尋網站,我們計算了該網站中出現的每個關鍵詞在所有數據科學家工作列表中所占的百分比。然後,在三個站點上為每個關鍵字取這些百分比的平均值。

同時手動調查了新的搜尋詞以及那些看起來很有前途的詞。在 2019 年,沒有新的搜尋詞達到占全體 5% 的佔有水平,這是下述結果中使用的截斷指標。

PyTorch 職位需求翻倍,成長了 108.1%

我們採用四種方法來查看每個關鍵字的結果:

▌方法 1:對於每個求職網站,在每個年度用包含關鍵詞的列表數量除以包含 data scientist 的搜尋詞總數。然後取三個網站的平均值。
▌方法 2:看看 2018 年至 2019 年這些列表的平均比例變化的絶對值。
▌方法 3:看看 2018 年至 2019 年這些列表的平均比例變化的相對百分比。

在完成上面的第一個步驟之後,計算每個關鍵字相對於該年度其他關鍵字的排名,然後計算每一年的排名變化。

觀察前三個帶有柱狀圖的選項,然後我們將展示一個包含數據的表並討論結果。

這是上文中方法 1 對應的 2019 年圖表,顯示 Python 出現在近 75% 的列表中。

這是上文中方法 2 的圖表,顯示了 2018 年至 2019 年職位列表中某項技能需求的變化。AWS 顯示上升了 5%。在 2019 年和 2018 年上市的公司中,這一比例分別為 19.4% 和 14.6%。

這是上文方法 3 對應的圖表,顯示了每年的百分比變化。2018 年,PyTorch 上榜職位需求數平均成長了 108.1%。

以下是上述圖表中的資訊用表格形式展示的結果,按 2018 年至 2019 年上榜職位比例在三家網站平均後的變化百分比排序。

Python 穩居榜首,SQL 快速竄升

在不到 14 個月的時間內技術需求發生了相當大的變化!

優勝者

Python 仍然排名第一。到目前為止,它是最常用的語言。幾乎霸佔了四分之三的榜單,與 2018 年相比,Python 使用量有了可觀的成長。

SQL 使用量快速提升。它幾乎快要超過第二高平均分數的 R 語言。如果繼續保持該趨勢,SQL 很快將成為真正的第二。

傑出的深度學習框架得到了廣泛使用。PyTorch 在所有關鍵字中的增幅最大,Keras 和 TensorFlow 也表現出色。Keras 和 PyTorch 在排名中均上升了 4 位,TensorFlow 上升了 3 位。請注意,由於 PyTorch 的起始平均值較低,TensorFlow 的當前平均值仍是 PyTorch 平均值的兩倍。

數據科學家對端雲平台技能的需求越來越大。AWS 的出現頻率高達 20%,Azure 約 10%。Azure 在排名中躍升了四位。

落敗者

R 語言的總體平均下降幅度最大。基於其他調查,這一趨勢不足為奇。Python 顯然已經取代 R,成為數據科學的首選語言。 儘管如此,R 仍然非常受歡迎,出現在 55% 的榜單中。如果您熟悉 R 語言,請不要沮喪,但如果您想要掌握需求量更大的技能,請考慮學習 Python。

許多 Apache 產品受到歡迎,包括 Pig、Hive、Hadoop 和 Spark。Pig 的排名下降了 5 位,比任何其他技術都下降得多。Spark 和 Hadoop 仍然是人們普遍希望掌握的技能,但是我認為,轉向其他大數據技術已經成為一種趨勢。

專有的統計軟體包 MATLAB 和 SAS 使用量急劇下降。 MATLAB 在排名中下降了四位,而 SAS 從第六位下降到第八位。與 2018 年的平均水準相比,兩種語言均大幅下降。

推薦一個學習路徑給你!建議:一次只能專心學一種技能

如果你剛開始從事數據科學,我建議你專注於需求成長和有發展潛力的技術,並且每次只專心學習一種技能

以下是我推薦的學習路徑:

▌學習 Python 以掌握常規編程
▌學習 pandas 來進行數據操作
▌透過 Scikit-learn 庫學習機器學習
▌學習用於高效查詢相關數據庫的 SQL
▌學習 Tableau 以進行數據視覺化
▌關於雲端計算平台,基於 AWS 的市佔率,它是一個不錯的選擇
▌學習一個機器學習框架,Keras 現在與 TensorFlow 緊密結合,因此它是一個很好的起點,PyTorch 也在迅速發展。

這是我的總體學習路徑建議。按照你的需要各取所需吧。

原文 傳送門

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈2019 数据科学家最需要的技能盘点,Python 大火,Pytorch 职位需求翻番 〉。首圖來源:Flickr CC Licensed)

更多工程師的技能資訊

5G 產業崛起,數位 IC 設計工程師身價暴漲!平均年薪 118.6 萬
在家從零自學沒問題!22 歲數據工程師大推 3 本必看的機器學習入門書
不想要一輩子只寫程式?當了 5 年的工程師後,你可以考慮往這 5 個職位發展

點關鍵字看更多相關文章: