【21 世紀最性感工作】上完這 24 堂課,你也可以成為資料科學大師

【我們為什麼挑選這篇文章】資料科學專家是近年最夯的職業之一,《哈佛商業評論》將資料科學專家譽為「21 世紀最性感工作」,且年薪直逼 250 萬台幣 !然而想踏進這行、或是想了解資料科學奧秘的初學者,常一頭霧水找不到門路,或是在眾多的網路資源中看花了眼。本文參考使用者評分精選了 24 堂資料科學開放課程,讓想成為資料科學大師的有心人,現在就能馬上行動。(責任編輯:曾宜婷)

本文盤點了 24 個高品質的線上資料科學入門教程,原作者 David Venturi 獲有化學工程和經濟學的雙學位,熱衷於數學、資料科學和統計學,同時也是一位程式設計愛好者。更具傳奇色彩的是,他本來就讀於一所名校的電腦科學專業,但覺得對資料科學更感興趣——於是果斷退學,從 Coursera、edx、Udemy 等開放課程平台開始自學,終邁入專家行列。

他的經歷說來也並不特別,世界上又多了一個開放課程代言人而已。但雷鋒網認為,他的經歷具有兩點價值:首先,最好的教學資源已經在那兒了——很多還是免費的,取不取,只是我們自己的選擇。第二點,David Venturi 或許不是權威的資料科學專家,但他是開放課程達人——最好的公開課有哪些?當然還是開放課程達人的推薦最靠譜。 

因此,這篇源於 David Venturi 長期的學習經驗總結,同時結合了線上開放課程社區 Class Central 成千上萬的課程評分和評論資料的盤點文章,自然對資料科學的入門學習具有非常重要的參考價值。

下面,我們一起來看看這位達人的課程推薦。(入選課程的截止日期為 2017 年 1 月,按照優先順序降冪排列)

David Venturi

關於評選標準

首先,所有的入選課程都必須滿足三個必要條件:必須主要教授資料科學,並且越相關越好。

  1. 必須主要教授資料科學,並且越相關越好。
  2. 必須有人維護,例如根據使用者需求或者按照計畫每月更新。
  3. 必須是一個互動性的線上教程,因此以下列出的不包括書籍或是其他唯讀教程。

此後,我們收集了來自 Class Central 和其他評論網站的關於這些課程的評分資料,計算了每個課程的加權平均得分,然後閱讀了課程的使用者評論資訊,綜合兩者,得到了以下列表。這裡,我們主要考慮了以下兩個關鍵因素:

  1. 教程的涵蓋範圍是否合理。例如,教程不能跳過一些科目,也不能在某些科目上糾纏過多的細節。
  2. 教程是否採用了通用工具。例如,我們優先選擇了那些通過流行的程式設計語言(Python 或 R 語言)實現的教程。

最後需要說明的是,這裡我們只考慮了評分最高和評論最多的課程,而且由於資源和時間有限,難免會有遺漏,歡迎各位讀者在留言區補充。

關於資料科學

為了更好地選擇和梳理課程,首先要簡單瞭解資料科學是什麼,以及資料科學家平常都在做哪些研究。這裡,我們給出一張資料科學的處理過程概覽,原作者是哈佛大學的 Joe Blitzstein 和 Hanspeter Pfister 教授。

我們認為,一個優秀的資料科學入門教程,應該涵蓋上圖的每個方面,解釋其中的關鍵概念,介紹研究中常用的工具,而且最好能提供一些簡單示例(動手實作的示例)。

另外,由於本文的主題是「入門」教程盤點,因此這裡不包括約翰·霍普金斯大學放在 Coursera 上的資料科學專業課程,也不包括 Udacity(優達學城)提供的資料分析師奈米學位課程,這裡我們只為資料科學的每個科目提供最好的個人入門教程盤點。

最後需要指出的是,以下列出的某些課程可能需要統計學和程式設計基礎,讀者可以自行學習這些基礎科目,也可以參考這兩個推薦課程列表。

統計學:The Best Statistics & Probability Courses for Data Science — Class Central Career Guides

程式設計:The Best Intro to Programming Courses for Data Science — Class Central Career Guides

下面是課程推薦部分。

重點推薦

  1. Data Science A-Z:Real-Life Data Science Exercises Included

講師:Kirill Eremenko
平臺:Udemy
花費:15 美元
時長:21 小時
詳情:https://www.udemy.com/datascience/

在我們選的 20 多門課程中,Data Science A-Z 在知識點涵蓋寬度和廣度方面是當之無愧的王者。在高達 3071 份課程評論之中,它的加權平均星級達到了 4.5 星(滿分 5 星),是評價最高和評論數量最多的課程之一。

該課程完整涵蓋了資料科學的各項子科目,並貼心地提供了現實生活中的例子作為示例。另外,21 小時也是一個非常適當的時長,從評價來看,大部分訂閱者都認為講師的課程安排非常合理。價格方面,由於 Udemy 平台經常推出打折促銷活動,因此變動比較頻繁,目前的售價是 15 美元。

需要指出的是,該課程並不滿足我們上文提及的「採用通用工具」的評選要求(課程中沒有採用 Python 或 R 語言的相關工具,而是採用了 gretl,Tableau,Excel 等工具)。關於這一點,講師 Kirill Eremenko 做了如下說明。

在 gretl 中,用戶將可以像在 R 或者 Python 環境中那樣進行類似的建模操作,而且不用編寫代碼。這一點對於 Data Science A-Z 教程至關重要。因為訂閱者的程式設計水準可能參差不齊,而我希望通過這個課程傳達一個框架性的東西,一個健壯的模型,使用者可以自由選擇他們喜歡的工具。gretl 可以幫助我們避免陷入程式設計相關的難題。

  1. Intro to Data Analysis

講師:Caroline Buckey
平台:Udacity
花費:免費
時長:每週 6 小時,持續 6 周,共 36 小時
詳情:https://cn.udacity.com/course/intro-to-data-analysis–ud170/

Intro to Data Analysis 是一個相對較新的產品,是 Udacity 旗下資料分析師奈米學位的一個細分課程。該課程的特點是完整並且清晰地涵蓋了資料科學的整個處理過程,儘管它在建模方面略有欠缺,但仍不失為一個優秀的資料科學課程,甚至有訂閱者對它評價為 5 星級別。

該課程的視頻製作精良,講解清晰明瞭,並且許多知識點都搭配了實作測驗題。另外,由於這些配套測驗題都是基於 NumPy 和 Pandas 等框架的,因此訂閱者通過該課程的學習,除了能學到完整的大資料知識之外,還能順便提升自己對各種 Python 庫的應用能力。課程的最後一章涉及 Udacity 旗下的奈米學位授予,雖然並不是免費的,但考慮到各大企業對奈米學位的認可度,因此仍不失為一個很好的投資。

  1. Data Science Fundamentals

講師:多人授課
平台:Big Data University
花費:免費
時長:13 小時,如果包括課程最後介紹 R 語言的「R 101」章節,則需要 18 小時
詳情:https://bigdatauniversity.com/learn/data-science/

Data Science Fundamentals 由 IBM 旗下 Big Data University 提供的四個子章節組成,這四個子章節分別是:3 小時的「Data Science 101」,5 個小時的「Data Science Methodology」,5 個小時的資料科學開源工具實作,以及最後 5 個小時的 R 語言入門「R 101」。

該課程完整涵蓋了資料科學的整個處理過程,並介紹了 Python、R 語言和其他幾個開源工具。總體上說,課程更貼近實際應用,具有巨大的生產參考價值。但由於它在 Class Central 等評分網站中沒有太多資料,因此目前還不清楚訂閱者對它的評價如何。

其他課程

介紹完以上三個重點推薦的高品質課程之外,下面按照加權平均的評分結果降冪排列,推薦一些其他的大資料科學入門參考課程。

  1. Python for Data Science and Machine Learning Bootcamp

講師:Jose Portilla
平台:Udemy
詳情:https://www.udemy.com/python-for-data-science-and-machine-learning-bootcamp/

該課程基於 Python 語言,完整涵蓋了資料科學的整個處理過程。其主要特點是更偏重基於大資料處理的 Python 語言實現,與下面將會提到的 Jose 的 R 語言課程一樣,本課程同時可以作為 Python 語言以及資料科學的入門教程。課程總時長 21.5 小時,通過計算 1644 名訂閱者的加權評分結果,該課程的得分高達 4.7 星級。同樣,與 Udemy 旗下其他的課程一樣,該課程的售價也變動頻繁,目前的售價是 15 美元。

  1. Data Science and Machine Learning Bootcamp with R

講師:Jose Portilla
平台:Udemy
詳情:https://www.udemy.com/data-science-and-machine-learning-bootcamp-with-r/

該課程基於 R 語言,同樣完整涵蓋了資料科學的整個處理過程。與上一個課程不同的是,本課程是基於 R 語言的,可同時作為 R 語言以及資料科學的入門教程。課程總時長 18 小時,通過計算 847 名訂閱者的加權評分結果,該課程的得分為 4.6 星級。目前該課程在 Udemy 的售價同樣是 15 美元。

  1. Data Science and Machine Learning with Python — Hands On!

講師:Frank Kane
平台:Udemy
詳情:https://www.udemy.com/data-science-and-machine-learning-with-python-hands-on/

該課程基於 Python 語言,並未全部涵蓋資料科學的完整處理過程,而是更專注於統計和機器學習領域。課程總時長 9 小時,通過計算 3104 名訂閱者的加權評分結果,該課程的得分為 4.5 星級。目前的售價是 15 美元。

  1. Introduction to Data Science

講師:Data Hawk Tech 資料科學諮詢公司
平台:Udemy
詳情:https://www.udemy.com/learn-data-science/

該課程的時長很短,只有 3 個小時,因此雖然其涵蓋的範圍很全,但深度卻不足,同時也簡單涵蓋了 R 和 Python 語言。通過計算 62 名訂閱者的加權評分結果,該課程的得分為 4.4 星級。目前的售價是 10 美元。

  1. Applied Data Science: An Introduction

講師:Syracuse University
平台:CourseSites by Blackboard
詳情:https://www.class-central.com/mooc/1806/open-education-by-blackboard-applied-data-science-an-introduction

該課程雖然完整涵蓋了資料科學的整個處理過程,但其涵蓋深度並不平均。它的講述重點放在基本的統計學原理和 R 語言的應用。整個課程的組織並不系統,通過計算 6 名訂閱者的加權評分結果,該課程的得分為 4.33 星級。免費。

  1. Introduction To Data Science

講師:Nina Zumel 和 John Mount
平台:Udemy
詳情:https://www.udemy.com/introduction-to-data-science/

該課程基於 R 語言,僅涵蓋了部分資料科學的處理過程,在資料準備和建模方面有很好的講述深度。課程總時長 6 小時,通過計算 101 名訂閱者的加權評分結果,該課程的得分為 4.3 星級。目前的售價是 50 美元。

  1. Applied Data Science with Python

講師:V2 Maestros 大資料公司
平台:Udemy
詳情:https://www.udemy.com/applied-data-science-with-python/

該課程基於 Python 語言,完整涵蓋了資料科學的整個處理過程,並且對每個細分科目都有很好的涵蓋深度。課程總時長為 8.5 小時,通過計算 92 名訂閱者的加權評分結果,該課程的得分為 4.3 星級。目前的售價是 15 美元。

  1. Want to be a Data Scientist?

講師:V2 Maestros 大資料公司
平台:Udemy
詳情:https://www.udemy.com/want-to-be-a-data-scientist/

該課程的時長很短,只有 3 個小時,因此雖然其涵蓋的範圍很全,但深度卻不足,簡單提到了幾個開源工具。通過計算 790 名訂閱者的加權評分結果,該課程的得分為 4.3 星級。免費。

  1. Data to Insight: an Introduction to Data Analysis

講師:University of Auckland
平台:FutureLearn
詳情:https://www.futurelearn.com/courses/data-to-insight?utm_campaign=Courses+feed&utm_medium=courses-feed&utm_source=courses-feed

該課程的涵蓋範圍目前並不清楚,根據官方介紹,課程更專注於資料採擷、發現和視覺化。課程時長 24 小時(每週 3 小時,共 8 周),不提供點播。通過計算 2 名訂閱者的加權評分結果,該課程的得分為 4 星級。目前該課程可免費試聽,進階內容需要付費 59 英鎊,可提供證書。

  1. Data Science Orientation

講師:Microsoft
平台:edX
詳情:https://www.edx.org/course/data-science-orientation-microsoft-dat101x-1

該課程只部分涵蓋了資料科學的處理過程,並且缺少建模方面的內容。由於是微軟提供的課程,因此大部分的資料處理工具都使用了 Excel。課程的時長為 12-24 小時不等(每週 2-4 小時,共 6 周)。通過計算 40 名訂閱者的加權評分結果,該課程的得分為 3.95 星級。課程本身免費,但訂閱者可以選擇支付 25 美元獲取一份完課證書。

  1. Data Science Essentials

講師:Microsoft
平台:edX
詳情:https://www.edx.org/course/data-science-essentials-microsoft-dat203-1x-2

該課程基於 R 、Python 和 Azure ML 等工具,完整涵蓋了資料科學的整個處理過程,並且對每個細分科目都有很好的涵蓋深度。時長為 18-24 小時不等(每週 3-4 小時,共 6 周)。通過計算 67 名訂閱者的加權評分結果,該課程的得分為 3.81 星級。課程本身免費,但訂閱者可以選擇支付 49 美元獲取一份完課證書。

  1. Applied Data Science with R

講師:V2 Maestros 大資料公司
平台:Udemy
詳情:https://www.udemy.com/applied-data-science-with-r/

該課程是第 10 條推薦的 R 語言版,完整涵蓋了資料科學的整個處理過程,並且對每個細分科目都有很好的涵蓋深度。課程時長 11 小時。通過計算 212 名訂閱者的加權評分結果,該課程的得分為 3.8 星級。目前的售價是 15 美元。

  1. Intro to Data Science

講師:Dave Holtz 和 Cheng-Han Lee
平台:Udacity
詳情:https://cn.udacity.com/course/intro-to-data-science–ud359/

該課程基於 Python,雖然只涵蓋了部分資料科學的處理過程,但對於每個課程範圍內的知識點都做了詳細介紹。雖然 Udacity 具有業內公認的一個非常棒的探索性資料分析(Exploratory Data Analysis,EDA)課程,但總體上本課程缺乏資料探索性方面的介紹。課程時長共 48 小時(每週 6 小時,8 周)。一些評論認為該課程缺乏高階內容,並且組織混亂。通過計算 18 名訂閱者的加權評分結果,該課程的得分為 3.61 星級。免費。

  1. Introduction to Data Science in Python

講師:University of Michigan
平台:Coursera
詳情:https://www.coursera.org/learn/python-data-analysis/

該課程基於 Python,只涵蓋了部分資料科學的處理過程,而且沒有資料建模和視覺化的相關內容(更深入的內容在密西根大學開設的另一個名為「Applied Data Science with Python Specialization」的系列課程中,感興趣的同學可以在詳情頁面中詳細瞭解)。本課程時長為 4 週。通過計算 15 名訂閱者的加權評分結果,該課程的得分為 3.6 星級。可免費試聽,高階內容需要付費。

  1. Data-driven Decision Making

講師:PwC
平台:Coursera
詳情:https://www.coursera.org/learn/decision-making

該課程基於 R、Python、Excel、SAS 和 Tableau 等工具,只涵蓋了部分資料科學的處理過程,缺乏建模的相關內容,更注重業務實現。課程時長為 4 週。通過計算 2 名訂閱者的加權評分結果,該課程的得分為 3.5 星級。可免費試聽,高階內容需要付費。

  1. A Crash Course in Data Science

講師:Johns Hopkins University
平台:Coursera
詳情:https://www.coursera.org/learn/data-science-course/

該課程是關於資料科學整個處理過程的完整概述,涵蓋了幾乎所有細分科目,但教授深度都不足。時長為 4-6 小時,大約需要 1 週完成。通過計算 19 名訂閱者的加權評分結果,該課程的得分為 3.4 星級。可免費試聽,高階內容需要付費。

  1. The Data Scientist’s Toolbox

講師:Johns Hopkins University
平台:Coursera
詳情:https://www.coursera.org/learn/data-scientists-tools/

該課程同樣涵蓋了資料科學的完整過程,但教授深度不足。更多的是作為霍普金斯大學「Data Science Specialization」課程的一個預熱班。官方介紹稱課程的時長為每週 1-4 小時,共需要 4 週,但有網友指出只需要兩個小時就能全部完成。通過計算 182 名訂閱者的加權評分結果,該課程的得分為 3.22 星級。可免費試聽,高階內容需要付費。

  1. Data Management and Visualization

講師:Wesleyan University
平台:Coursera
詳情:https://www.coursera.org/learn/data-visualization/

該課程基於 Python 和 SAS 工具,只涵蓋了部分資料科學的處理過程,缺少建模方面的內容,更注重實際應用。課程時長為 4 週,每週需要 4-5 小時。通過計算 6 名訂閱者的加權評分結果,該課程的得分為 2.67 星級。可免費試聽,高階內容需要付費。

以下課程沒有評論資料可供參考,但也值得關注。

  1. CS109 Data Science

平台:Harvard University
詳情:http://cs109.github.io/2015/

該課程基於 Python,完整涵蓋了資料科學的整個處理過程,並且對每個細分科目都有很好的涵蓋深度(而且有些內容對於「入門」這一主題可能會顯得太過深入)。該課程是哈佛大學的大資料公開課,完全免費,只是由於並非針對線上消費設計,因此課程導航設計可能不會太友好。整個課程的學習大約需要 12 週,所有視頻都是在哈佛大學的課堂上實錄的。值得一提的是,上文關於資料科學的概述圖表就是來自本課程。

  1. Introduction to Data Analytics for Business

講師:University of Colorado Boulder
平台:Coursera
詳情:https://www.coursera.org/learn/data-analytics-business/

該課程只涵蓋了部分資料科學的處理過程,缺少資料建模和視覺化的相關內容,更注重業務實現。資料科學過程在該課程中被稱為「資訊-行為的價值鏈」(Information-Action Value chain)。課程時長為 4 週,較深入的內容都基於 SQL 實現。可免費試聽,高階內容需要付費。

  1. Introduction to Data Science

講師:Barton Poulson
平台:lynda
詳情:https://www.lynda.com/Big-Data-tutorials/Introduction-Data-Science/420305-2.html

該課程基於 R 語言和 Python,時長很短,只有 3 個小時,因此雖然其涵蓋的範圍很全,但深度卻不足。可免費試聽,高階內容需要付費。

延伸閱讀

【台灣最美資料科學家】專訪林郁珊: 美國資工學生不只在意分數,更會思考如何學以致用
年薪可達 250 萬台幣,台灣資料科學家缺額:10 萬
Airbnb 裡的老鳥來回答:矽谷最性感的工作,資料科學家都在做些什麼?

(本文經合作夥伴雷鋒網授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈資料科學入門難?老司機為你盤點 24 門精品課程 〉。首圖來源:Pixabay,CC Licensed)


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: