傑出的數據科學家不會用一般人的方式學習,他會掌握這 5 個訣竅!

【為什麼我們要挑選這篇文章】現在是大數據時代,行銷、投資、 AI 都靠數據優化,數據的重要性勝過以往,數據科學家因此成為火熱又迷人的職位,平均年薪至少 150 萬。許多人心生嚮往,加入學習數據科學的行列。

但本文作者觀察,多數人學習方式大同小異,並無法讓他們成為傑出的數據科學家,只會讓他們陷入求職碰壁的迴圈裡。作者用第一人稱敘述,述說成為傑出數據科學家的秘訣。(責任編輯:郭家宏)

本文經 大數據文摘 授權轉載

如果你聚集演算法、業務、電腦知識這三顆龍珠,那麼你就可以召喚小一級的「神龍」。但是想要召喚全能「神龍」,除了硬技術之外,你還需要獨立思考能力和洞察力。我們要如何擁有獨立思考能力?

不隨波逐流

有著豐富的數據科學經驗的 SharpestMinds 聯合創始人 Jeremie Harris 將從一個比特幣買賣的例子為你講述,為什麼是一個數據科學英雄最大的挑戰。

下文是作者第一人稱敘述:

流行可能是炒作或泡沫,它不會讓你變得更優秀

我還記得我的兄弟決定出售他的比特幣的那一刻。那是 2017 年,我們在星巴克。一位阿姨正在接近我們,她向我們贈送了一本小冊子。 在這些冊子的頂部用粗體字寫著:「BITCOIN :提前退休之路」。

我很好奇,所以我詢問她對加密貨幣市場的看法,但她除了比特幣之外,不知道其他加密貨幣。

現在,有這麼一條經驗法則,如果當普通阿姨向你展示最新的科技潮流,那麼你可能正在陷入最火熱的炒作之中。或者,如果深入思考的話,其中還有泡沫。

當然,這不是一個新的發現。每個人都有這樣的共識:在投資方面,如果你正在做其他人正在做的事情,你不可能得到任何回報。

但奇怪的是,人們在投資自己時卻沒有這樣的意識。

假設你想成為一名數據科學家。如果你正在做所有標準的「我想成為一名數據科學家」的事情,那麼這意味著你得不到夢寐以求的工作。

市場目前充滿了初級人才,因此新手不太可能獲得高品質的職位。所以,如果你想變得更優秀,為什麼要做別人正在做的事情呢?

多數人學數據分析的方式大同小異,不想陷入平均值就要有新思維

這不是巧合

問題是,大多數人在開始他們的數據科學旅行時都不這麼想。我在 SharpestMinds(工作已經和數百名有抱負的數據科學家進行了交談,其中大約 80% 的人有相同的故事:

1. 首先,他們都是按照這條路線學習(Python + sklearn + Pandas + SQL 等等)
2. 然後在線上課程平台找學習資源
3. 看了一些工作要求的描述,並擔心著自己沒有這個能力
4. 也許換一個平台繼續聽課,也許開始透過求職網站申請工作
5. 沒有得到回應(最好的情況也只是有屈指可數的面試)
6. 感到沮喪,考慮讀碩士,申請更多的工作
7. 得出一個起決定作用的點:重複上述第 2 條到第 7 條,直到奇蹟出現

如果這種情況發生在你身上,那麼你也可能處於一個自我改善的泡沫中:你正在做其他人正在做的事情,但如果期待和別人不一樣。你需要做的第一件事就是停下來。

如果你想要高於平均水準,你就不能做平均水準所做的事情。所以為了避免做平均水準的事情,你需要知道平均水準是什麼。

以下是一些例子:如果你要透過平台來學習所需知識,那很好。但是要知道:平台課程幾乎是為普通人設計的,所以就算大量學習,你也不能成為一個出色的數據科學工作的候選人。同樣地,如果你的 GitHub 上有 4 或 5 款 Jupyter 筆記本,上面有相同的 sk./Pandas/sea./Keras 堆疊,不要再重設計一份。

總的來說,規則是:如果事情的下一步非常明顯,那麼停下吧,因為其他人都在這樣做,那是性價比非常低的事情。相反,你需要找到其他人沒有做過的事情,並儘快做好這些事情。

這 5 個方式,讓你建立異於常人的數據科學實力

這些異於常人做法的思路是什麼?基於我所瞭解到的,大概有 5 個:

1. 復刻論文。如果你是一個深度學習愛好者,這一步是必須要做的。人們通常不這樣做,是因為它比抓取數據集並使用簡單的 ANN 或 XGBoost 進行千篇一律的分類更難。在 arXiv 上找到與你的領域相關的最有趣的論文(理想情況下是一篇相對較新的論文)閲讀它並理解它。然後在新數據集上復刻它,寫一篇關於它的文章。

2. 別在舒適圈懶惰。如果你開始一個新項目,最好是學習一些新的框架 / 庫 / 工具。 如果你正在構建以 df = pd.read_csv(文件名)開頭並以 f1 = f1_score(y_true,y_pred)結尾的第 6 個 Jupyter 筆記本,那麼就該改變你的策略了。

3. 做點無聊的事情。其他人沒有這樣做,因為沒有人喜歡無聊的事情。但是學習一個合適的 Git 流程,如何使用 Docker ,如何使用 Flask 構建應用程序,以及如何在 AWS 或 Google Cloud 上部署模型,這些都是公司迫切希望應徵者擁有的技能。

4. 做讓人感到厭煩的事。 1、提議在當地數據科學會議上發表論文。或者,至少參加當地的數據科學會議。 2、向 LinkedIn 上的人發送建議訊息。儘量提供價值(例如:我剛注意到你網站上的錯誤)。然後讓你的問題儘可能具體(我很想在我的文章中得到你的反饋)。 3、參加大型會議並構建社交網絡。 4、開始一個研究組。

5. 做一些看似瘋狂的事情。每個人都使用 UCI 資料庫,或使用一些庫存數據集來構建他們的項目。不要那樣做,瞭解如何使用 Web 抓取庫或一些不受重視的 API 來構建自定義數據集。數據很難獲得,公司通常需要依靠他們的工程師為他們提供數據。你應該以作為數據科學痴迷的瘋子為目標。

這些步驟中的每一條都是能夠使面試官眼前一亮。雖然,它們都不是具有驅魔功效的武器的銀色子彈,但它們確實有助於你在數據科學就業市場上獲得更大的吸引力,並成為一個更有能力的數據科學家。

在一天結束時,請記住,當你痛苦的學習技能時,你就是在為自己投資。這意味著所有適用於投資的經濟原則都適用於此:如果你想要一個出色的結果,你必須做出傑出的事情。

(本文經 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈为什么说,随波逐流是成为一个数据科学英雄最大的阻碍 〉;首圖來源: Pxhere, CC Licensed。)

如何成為數據科學家?

數據科學家必讀的五本書:重要的不是會打 Code,而是背後的資料邏輯思維

給想從事人工智慧和數據科學的你:這是來自業界溫柔、實用的建議

如何成為一名數據科學家?來聽聽 Netfix 資深工程師的入門攻略


摩爾定律會被改寫嗎?

半導體關鍵一戰開打在即,台灣如何佈局國際分工優勢? 馬上報名 12/8《2019 未來科技展 》半導體論壇

點關鍵字看更多相關文章: