【內附資源】轉職資料科學家,實際成本可能不到 7000 台幣

Image via www.vpnsrus.com

【為什麼我們挑這篇文章】當你下定決心要從零開始學習「機器學習」或「數據科學」,卻又擔心自己時間不夠、甚至也沒有足夠的銀彈來負擔一個學位或課程,或許你會參考網路資訊。本文 原文 作者 Santiago Víquez Segura 原先是物理學家,後來轉資料科學家,他的線上學習軌跡,或許能給你一些明確的指引。(責任編輯:鍾佳瑀)

幾天前,我開始考慮如果必須重新開始學習機器學習和數據科學,我將從哪裡開始?有趣的是,我如今想象的路徑與我剛開始時實際走的路徑完全不同。

我知道我們每個人都以不同的方式學習。有些人喜歡影片,有些人只喜歡看書,很多人需要參加付費課程去感受更多的壓力。沒關係,重要的是真的去學習並且享受其中。

如果我不得不重新開始學習數據科學,從我自身的角度為了能夠更好地學習,我設計了一下這條道路,供大家參考。

如你所見,我最喜歡的學習方法是從簡單入手,逐漸研究複雜的內容。這意味著從實際示例開始,然後轉向更抽象的概念。

Kaggle 微課程:從實用跟應用角度了解機器學習

我知道從這裡開始可能很奇怪,許多人希望從最沈重的基礎和數學影片開始,以充分瞭解每種 ML 模型背後發生的事情。但是從我的角度出發,從實用和具體的角度出發有助於更好地瞭解整個情況。

此外,每門小課程需要只大約 4 個小時才能完成,因此預先設定達到這些小目標會增加額外的動力。

Python

如果你熟悉 Python,則可以跳過此部分。在這裡,你將學習基本的 Python 概念,這些概念將幫助你開始學習數據科學。雖然關於 Python 的很多事情對你來說仍然是個謎,但是隨著我們的前進,你將通過實踐學習它。

價格:免費
連結:https://www.kaggle.com/learn/python

Pandas

Pandas 將為我們提供開始使用 Python 處理數據的技能。我認為 4 小時的微課程和實際示例足以使人們對可以做的事情有一個概念。

價格:免費
連結:https://www.kaggle.com/learn/pandas

數據可視化

數據可視化也許是最被低估的技能之一,但它也是最重要的技能之一。它將使你完全瞭解要使用的數據。

價格:免費
連結:https://www.kaggle.com/learn/data-visualization

機器學習入門

令人興奮的部分開始了!你將學習基本的概念,以開始訓練機器學習模型。這些在未來之路上至關重要的概念,你必須瞭解的非常清楚。

價格:免費
連結:https://www.kaggle.com/learn/intro-to-machine-learning

中級機器學習

這是對前面的補充,但是在這裡,你將第一次使用分類變量,並處理數據中的空字段。

價格:免費
連結:https://www.kaggle.com/learn/intermediate-machine-learning

應該清楚的是,以上這 5 個微課程不是線性過程,你可能必須在它們之間反反覆覆才可以記住這些概念。當你在 Pandas 上工作時,你可能必須回到 Python 課程以記住你學到的一些知識,或者轉到 pandas 文檔以瞭解在「機器學習入門」課程中看到的新功能。所有這一切都很好,真正的學習就是這樣發生的。

現在,如果你意識到前 5 門課程將為你提供進行探索性數據分析(exploratory data analysis,EDA)和創建基礎模型(以後你將可以對其進行改進)的必要技能,因此,現在是開始簡單的 Kaggle 競賽並將你學到的知識付諸實踐的最佳時機。

Kaggle 數據科學競賽:Playground 等級

更多關於 Kaggle 數據科學競賽平台介紹,可以參考這個 網頁

泰坦尼克號

在這裡,你將把在入門課程中學到的知識付諸實踐。剛開始時可能有點嚇人,不要關心是否在排行榜中排名第一,而是學習。在本競賽中,你將學習有關這類問題的分類和相關指標,例如精度(precision),召回率(recall)和準確性(accuracy)。

連結:https://www.kaggle.com/c/titanic

房價

在本競賽中,你將應用回歸模型並瞭解諸如 RMSE 之類的相關指標。

連結:https://www.kaggle.com/c/home-data-for-ml-course

至此,你已經具有豐富的實踐經驗,並且會覺得自己可以解決很多問題,但很有可能是你不完全瞭解所使用的每種分類和回歸算法背後的情況。因此,這是我們必須學習所學知識的基礎的原因。

可以參考的書籍和課程

許多課程都是從這裡開始的,但是至少我以前做過一些實踐性的工作後,我才能更好地吸收這些信息。

《數據科學從零開始》(Data Science from Scratch)

此時,我們將暫時將自己與 pandas,scikit-learn 和其他 Python 庫分開,以務實的方式瞭解這些算法「背後」的知識。

這本書讀起來很輕鬆,它帶了每個主題的 Python 示例,並且沒有太多數學運算。我們想瞭解算法的原理,但是從實踐的角度來看,我們不想因閱讀大量密集的數學符號而灰心。

價格:26 美元(約台幣$780)

如果你學到這裡,我會說你很有能力從事數據科學工作,並且瞭解瞭解決方案背後的基本原理。因此,在這裡我建議你繼續參加更複雜的 Kaggle 競賽,參加論壇討論並探索在其他參與者解決方案中發現的新方法。

在線課程:吳恩達《機器學習》

在這裡,我們將看到許多我們已經學到的東西,但是我們將觀看該領域一位引領者的解釋,他的方法將更加數學化,因此這將是深入理解我們模型的絕佳方法。

價格:無證書免費,附上證書 79 美元(約台幣 2370)
連結:https://www.coursera.org/learn/machine-learning

《統計學習的要素(The elements of Statisitcal Learning)》

繁重的數學部分現在才開始。

(想象一下,如果我們從一開始學習數據科學就讀這本書,那將一直是一條多麼艱難的道路!我們可能會早早的就放棄了。)

價格:60 美元(約台幣 1800)

史丹佛大學網頁上有官方免費版本:https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12.pdf

在線課程:吳恩達《深度學習》

此時,你可能已經讀到過深度學習和使用過某些深度學習模型。但是在這裡,我們將學習神經網絡的基礎,它們是如何實現和應用現有的不同體系結構的。

價格:49 美元/月(約台幣 1470)
連結:https://www.deeplearning.ai/deep-learning-specialization/

至此,之後的路很大程度上取決於你自己的興趣,你可以專注於回歸和時間序列問題,或者可以更深入地學習深度學習。

相關報導

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈从何开始学习数据科学?小哥用亲身经历告诉你如何少走弯路 〉,首圖來源:Flickr

你可能有興趣

讓 AI 決策「歪樓」很容易,捷克新創用機器學習反擊,奪下 8 千萬台幣融資
【內附資源】Adobe 工程師開發只用「一張圖」就能訓練 GAN 的機器學習技術 
將量子運算結合機器學習,Google 開源 TensorFlow Quantum 訓練框架


科技報橘 LinkedIn 上線!

最新科技產業動態、技術新突破、專業職能技巧提升 ....... 鎖定 TO  LinkedIn 專業品牌,提升職能與產業 Know-how,躋身產業菁英之列 https://www.linkedin.com/showcase/techorange

點關鍵字看更多相關文章: