1.6 萬名工程師共同定義「資料科學家」:用 Python、30 歲、年薪 150 萬 ……,你符合幾項?

【我們為什麼挑選這篇文章】在文章開始之前,你應該先認識 Kaggle。

Kaggle 是一個數據建模和數據分析競賽平台。企業和研究者可在其上發布數據,統計學者和數據科學專家可在其上進行競賽以產生最好的模型。簡單來說就是數據科學家們的集散地。

因此由 Kaggle 所製作的調查,擁有一定程度的公信力,趕快往下看,看看自己跟全球數據科學家們是否站在同一個基準點上吧!(責任編輯:陳君毅)

全球最大的數據科學社群 Kaggle 發布了第一份數據科學與機器學習業界現狀調查報告。 這份調查問卷的受訪者囊括了來自 50 多個國家的 16,000+  位從業者,根據他們的問卷結果,Kaggle 給出了一些有趣的結論:

1、Python 可能是機器學習最常用的編程語言,而統計學家更多地使用 R 語言;

2、數據科學家的年齡中位數是 30 歲,而各國差異巨大,比如,印度的受訪人比澳大利亞平均年齡年輕 9 歲;

3、受訪者中碩士學位所佔比重最大,但薪水最高的從業者($150k)多數擁有博士學位。

Kaggle 同時為這份數據集設置了 1,000 美金的獎項 ,如果你有新發現,可以將自己的分析上傳至 Kaggle。

數據科學從業者大概是什麼人?

定義數據科學從業者的方式很多,Kaggle 將從工作和背景的兩個方向進行統計:

你的年齡多大?

平均來看,問卷調查填寫者的年齡中位數在 30 歲左右,但不同國家的這一數值也不盡相同,比如印度的受訪者就比澳大利亞年輕 9 歲。

你的性別是什麼?

在性別這一欄,這份報告給了我們比較符合預期的結論,男女比例不均。

在全球的問卷填寫者中,共有 13,427 位男性和 2,714 位女性,男女比 4.9:1。

你的就業情況如何?

數據科學從業者的崛起讓自由職業者和兼職工作成為一種新潮流,而這一報告也應證了這一結論。 在全球,僅有 65% 的數據玩家擁有全職工作,而 8% 是自由職業

你的職位是什麼?

自從「數據科學家」被譽為全球最性感的職位後,這個職位也成為了很多從業者的奮鬥目標。而從調查結果看,全球範圍內,使用「數據科學家」作為自己 Title 的從業者比例最高,占到 24.4%。

你的年薪是多少?

如果看薪酬,最高一級薪酬是年收入 20 萬美元以上,這一檔全球有 166 人,全球數據相關從業者平均年薪 55,441 美元(約 170 萬台幣)。

收入上也有男女不均:男性比女性多收入 3,000 美金/年。

你的最高學歷?

全球範圍內,取得碩士學位的從業者最多。

按薪酬來看,年薪 150k-200k 美金和 200k+ 美金的人群多數取得了博士學位。

數據科學從業者日常工作內容

Kaggle 給數據科學家的定義是,「寫代碼並且分析數據的人群」。通過問詢問卷填寫者的日常工作,報告得到瞭如下結論:

你的工作中用到哪些數據科學方法?

邏輯回歸在數據科學從業者中最常被用到,佔 63.5%。

工作中最常用到的工具?

python python python

但職位是「統計學家」的人還是顯著地喜歡用 R。

工作中常用的數據類型是?

工作中用到的數據主要是關係型數據,主要使用 Git 共享代碼。

工作中遇到的最大的困難?

髒數據!看來數據科學領域最大的問題還是髒數據。排名第二的困難是「缺少數據科學人才」。正在學習數據科學的小伙伴們,你們前途無量呀!請帶文摘菌一起飛!

新手如何入行數據科學領域?

作為一個數據科學學習社區,Kaggle 在這份報告中也提出了一些數據科學老司機給新手學習者的建議,可以說是非常良心了!(這一部分可能是本份報告中最有價值的部分, 文摘菌敲黑板劃重點啦!)

你們會推薦新手先學哪門語言?

先學 Python!這是 Kaggle 綜合了超一萬名老司機的意見給出的結論。

你最常使用哪種數據科學學習資源?

數據科學是一個日新月異的領域,保持持續的學習能力非常重要。據調研問卷顯示,數據科學老司機最常用到的學習資源包括 Stack Overflow Q&A,相關論壇,以及 Podcasts。而關於開源內容,數據科學從業者更多使用官方文檔和觀看 Youtube 視頻。

你從何獲取開源數據?

沒有數據就沒有數據科學,所以提到數據科學學習技能,不得不提到獲取開源優質數據的能力。報告中提到了一些優質數據獲取渠道,包括 Dataset aggregator、Google Search 等。

怎麼找工作?

數據科學從業老司機在找工作上的忠告也非常有趣:去公司官網或相關網站的技術板塊乃下下策,他們更建議的方式是, 直接聯繫招聘人 ,或建立自己的關係網。

最後,對所有正在閱讀問卷結果的人,文摘菌想特意說明 Kaggle 在問卷中備註的一句話: 每個人都是獨特的,不是一個個平均數就能代表的 。問卷的結論建立在 1.6 萬名 Kaggle 使用者的答案上,但他們只是數據從業者的一小部分——年齡、性別、所在地區、職位、薪酬、經驗和所受教育的不同都無法阻止我們對數據科學的熱愛!

——

(本文經 大數據文摘 授權轉載 ,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈Kaggle 首次定義數據科學家:30 歲, 年薪 5 萬刀, 愛 Python, 最恨臟數據 〉。圖片來源:justgrimes, CC Licensed。)

延伸閱讀

想當資料科學家?除了 Python 之外,你還應該要認識這 6 個資料界的超強 coding 語言
【寫啥語言與國家經濟有關?】高收入國家喜歡 R、Python;低收入國家喜歡 PHP 與 Android 開發
附範例與完整程式碼!手把手帶著你用 Python 做出爬蟲、抓取網頁資料

點關鍵字看更多相關文章: