最新「數據科學」自學清單:六個月無師自通,菜鳥新手趕快存起來

【為什麼我們要挑選這篇文章】學習數據科學永遠沒有盡頭,2019 年想無師自學精通數據科學嗎?本文作者整理了一份數據科學自學手冊,源源不絕的學習資源,一定要速速存起來啊~(責任編輯:陳伯安)

優質大型的公司對於數據分析以及機器學習類崗位的需求高居前列。本文給出了針對菜鳥和有簡單數據科學基礎的同學的學習計劃,可以讓你在浩如煙海的數據科學學習資料中找到自己的興趣。

萬事開頭難。我先假設你是一個超級菜鳥,你可以做出一個六個月學習計劃以及讀書清單進度表來給自己首先樹立自信。

六個月無師自通:按部就班、立即見效

Dataquest—2 個月

這裡有個網站對於初學者瞭解,從零開始 python  的程式碼還是很友好的。不過它後期的進階學習部分有可能需要付費訪問,但對於新手來說,它可以引導你真正打出程式碼,它給出了一些公開的真實數據,然後學習整理和操作數據。

Automate The Boring Stuff— 1 個月

這本書是一個很好的材料,它讓我開始接觸 Python  的實際應用。它教會您如何使用 python  自動化手動任務,如重命名文件、移動文檔和創建用於數據操作的 csv  文件。

這個網站的內容儘管是全英文的,但它的內容都是由簡單的英語句式組成,這點好處就是你不能一步到位去理解標準化的科學術語,但你可以通過形象化的語言瞭解到這門學科的大概,同時不至於讓你喪失興趣。如果你具備基本的英文知識你就可以自己學下去。

Machine Learning AZ™: Hands-On Python & R In Data Science– Udemy— 3 

當你有了初步基礎的時候(懂高中數學就行),你可以在一個集中的課堂中加強你自學的內容。你不喜歡寫程式碼卻仍然對機器學習有很大的興趣,那麼推薦這個視頻,評論說這個視頻非常適合初學者上手真正的機器學習項目,它包括了大多數機器學習程式碼。它是 Udemy 上最受歡迎的機器學習課程,不過它現在已經要收費大概 11 美元。(仔細找找會有免費的)

Andrew Ng’s Machine Learning Course – Coursera— 2 個月

這個課程不用詳細介紹啦,幾乎人人知道,這是 Coursera  上最受好評的機器學習課程。雖然吳恩達(Andrew Ng)說在他的機器學習課程上已經盡量減少放入數學公式,更多的是介紹原理與思路,然而很多人覺得它是有相當的難度的。不過已經有了上面的學習基礎,你會更有信心看完全部的視頻。我強烈推薦您學習這門課程,它填補了上一個「A-Z 機器學習」所沒有的空白,加深了你的理解。本課程著重於基礎概念,數學和機器學習的關鍵。你將學習如何手寫推到公式,計算損失函數和成本函數的含義。非常直觀和刺激。

Kaggle— 1 個月

企業或者研究者可以將數據、問題描述、期望的指標發佈到 Kaggle  上,以競賽的形式向廣大的數據科學家徵集解決方案,類似於 KDD-CUP(國際知識發現和數據挖掘競賽)。Kaggle  上的參賽者將數據下載下來,分析數據,然後運用機器學習、數據挖掘等知識,建立算法模型,解決問題得出結果,最後將結果提交,如果提交的結果符合指標要求並且在參賽者中排名第一,將獲得比賽豐厚的獎金。

來到這裡意味著你已經可以開始解決實際問題了。我強烈建議你在上手之前,先學習已經處理過的問題,因為有很多指導和答案,你需要通過複製重現這些材料中的所有項目練手。Kaggle  是免費的。

當然「書單」也為你準備好了

大量閱讀:不論是有關該主題的書籍,觀看教學還是收聽關於該主題的 Podcast 等。

模仿:反覆閱讀教程,按照作者的步驟自己執行一遍。最好從頭開始自己寫程式碼,動手做是對你大量閱讀後汲取技術訣竅最好的方法。

想法社區分享:向大師提問。一般大師文章的撰寫作者可以在 RedditDiscordSlack  或 Twitter  上看到其身影。尋求導師、夥伴。

重複動手:就算是一個小小的項目、教科書上的練習,Kaggle  比賽或修復錯誤,一定要動手去做。

別追著潮流跑,現在的你需要「打底」

現在,你已經給新的一年定下了基調。每天結束前你都能學到點東西,讓大腦只關注今日所學的 code  和如何操作這些任務。即便在工作中,你的大腦也能快速重現並消化你剛學的概念。

除了滿懷希望讓自己在這個月里能解決一個 Kaggle  的問題以外,你還需要掌握自己的學習的思維和習慣。這個學科有大量的內容和概念需要學習和記憶,有一大堆的練習要做,你一定會倍感壓力。更大的阻力也來自你本身,有的時候你很容易喪失堅持下去的動力,很可能因為針對一個問題就已經讓你一遍又一遍的重復,但卻沒有任何效果。

此外,我們還有一個不良習慣:看到一個標題有意思的文章或者課程總是先把它收藏下,準備以後再看。但問題是,我們壓根不會去回放和反覆看,而且思路往往被這些新書、新的研究力量、最新的科學數據帶著跑,我可不是反對接受多樣時新的資源,而是說 應該避開這些紛擾,專注的做好你自己的計劃,排好要學習的內容的優先性

隨時堅持一定的時間,你一定會發展你已經悄悄的有了質的飛躍。到了後期,你就可以天天跑去看大神的 blog  和能夠讀懂他們底下的評論。

你現在完全都沈浸在自己定好的計劃的流程裡。我知道就算你把這些目標都寫下來你也不一定會完成,因為上班時候的你真的非常忙。但我肯定保證,能照著它做出來一丁點事都會放大你的成就感,從而堅定你的信念,別學著學著又去看社交媒體了,又去看什麼新熱點。

進階版訓練:給數據科學相關科系的學生

其次也有不少人是 data science  以及相關專業的科班出身的畢業生,即將走向社會去找到心儀的工作。在 AI  領域里你可能會有這樣的頭銜,數據工程師、數據科學家、開發者。所以最好你有一個電子工程、電腦科學碩士博士的背景。大家剛剛從研究生畢業或者正準備選擇想要深造的領域。本文也可以給出一點點建議。

如果你是科班出身的,你肯定比我更瞭解去哪裡尋找更多的學習資料,不過我可以提出別的建議和想法供參考。

  • 大膽一點

如果你做學術最重要是要找到自己的方向。不要總步入前人步履,作為年輕人應有雄心勃勃,你有什麼好害怕失去的呢。舉個例子, Jakub Langr  在牛津大學物聯網數據科學課程上教授 GAN。(部落格傳送門)三年前他將職業賭注下在研究 GAN  上面,而很多人沒有這個魄力做這個決定,三年後,Jakub  寫了我見過的關於 GAN  的最好的書籍之一。

  • 瞭解市場

很多人都不覺得 AI  能作為一個「市場」,但實際上它已經和其他蓬勃發展的行業一樣,商業知識的細分領域一般會被低估,但現在 AI  應用這麼廣泛,你懂得如何利用這個潮流投資是很重要的事情。它在每一個非常細分和差異化的市場的人才都非常稀缺。現在有英國倫敦劍橋牛津等大學組織的傑出人才中心,以色列的內蓋夫大學的網絡安全中心,印度班加羅爾以及中國各個機構都在蓬勃發展。

  • 做一些大項目練手

因為  AI  的進入門檻已經提高。你不能還在用 Mnist 數據集,因為它很老套了已經被用了無數次。(MNIST  數據集 傳送門)所以你要出類拔萃你還是多學習做一些更難的項目,可以看  Piotr Skalski’s  的部落格(傳送門)。

  • 強化你的研究能力

我在做學術研究時一直都不會脫離現實產業。所以 AI  領域的研究對現實會起到什麼作用非常重要。所以當你花費大量時間在這些研究論文上,你可以把它和實際結合起來。

  • 小公司 or  大公司

前者,你去一些專門建立在 AI  技術上的新創公司也會學到很多東西。後者,找一些很重視 AI  技術的公司,像微軟、谷歌、亞馬遜、臉書、英偉達等等,因為其他公司雖然可能產值很大,但它最終將落伍。

想做一個數據工程師,你也得學會分辨哪些項目是此刻急需要完成的。才能在未來有幸游到這片藍海的岸邊。所以你現在訓練的思維一定能給你未來的工作帶來很好的效果。有眼光的人們都會立刻行動起來!

(本文經 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈数据工程师进阶计划,这有一份 2019 开年自学清单 〉 。)

你可能感興趣

訓練 AI Debug 卻刪了整個數據庫,美國評論網 Yelp:至少現在 100% 沒 Bug 啦

【年末轉行指南】無經驗也能做數據科學家?其實學會 Python 後什麼都好談

傑出的數據科學家不會用一般人的方式學習,他會掌握這 5 個訣竅!


摩爾定律會被改寫嗎?

半導體關鍵一戰開打在即,台灣如何佈局國際分工優勢? 馬上報名 12/8《2019 未來科技展 》半導體論壇

點關鍵字看更多相關文章: