隔離在家可以做什麼?數據科學家推出「14 天數據分析挑戰」,讓你每天練 coding

【為什麼我們要挑選這篇文章】若你不幸需要隔離在家 14 天,你可以做些什麼呢?有數據科學家在《Medium》上分享 14 天數據分析挑戰 ,裡面有 14 道情境題,讓隔離在家的人分析,透過自主學習強化數據分析的實力。

14 道關卡,你想要挑戰看看嗎?(責任編輯:郭家宏)

首先,我想向所有的護士、醫生、超市員工、公共管理人員,以及其他冒著生命危險為我們服務的人致敬。

不要把這一切當成理所當然的,他們做出了很大的貢獻,而我們能做的是儘可能在此期間花些時間學習新技能、讀書和提升自己。對於那些對數據分析或數據科學感興趣的人,我提供了一份可以利用業餘時間完成的數據科學項目清單,一共 14 個。

項目分為三種類型:

▌視覺化項目
▌探索性數據分析(EDA)項目
▌預測建模

視覺化項目:可分析新冠病毒與澳洲野火,程度簡單

最容易上手的就是數據視覺化, 以下三個數據集可以用於建立一些有意思的的視覺化化效果,並加到你的履歷中。

▌新冠病毒視覺化

學習如何使用 Plotly 建構動態視覺化數據,展示冠狀病毒是如何在全球範圍內傳播的。Plotly 很好用,它可以做動態視覺化,好看且操作簡單。

難易程度:簡單

數據集 傳送門

教學 傳送門

▌澳洲大火數據視覺化

2019 – 2020 年的叢林大火季,也稱為黑色夏天,由 2019 年 6 月開始的幾場極端野火組成的。據維基百科統計,這場大火燒毀了約 1,860 萬公頃的土地和 5,900 多座建築物。

這是一個有趣的項目,可以利用 Plotly 或 Matplotlib 數據視覺化工具來視覺化野火的規模和對地理的影響。

難易程度:簡單

數據集 傳送門

▌地表溫度可視化

你是否懷疑過全球暖化的觀點?創建一些數據視覺化效果,顯示地球表面溫度如何隨時間變化,並可以透過建立折線圖或其他動畫的 Choropleth 貼圖來實現;也可以建立一個預測模型來預測未來 50 年內地球的溫度。

難易程度:介於簡單到中等之間

數據集 傳送門

探索性數據分析項目:能研究員工績效,還可以分析寶可夢的數據

探索性數據分析(EDA),也稱為數據挖掘,意思是數據分析過程中使用了多種技術來更好理解數據。

▌紐約 Airbnb 數據挖掘

自 2008 年以來,Airbnb 使遊客和房東出行更方便,提出更多個性化的體驗世界的方式。該數據集包含有關 2019 年紐約出租的資訊,以及包含其地理資訊、價格、評論數量等。

可以分析的一些角度如下:

哪些區域生意最好,為什麼?
哪些區域的流量比其他區域大,為什麼?
價格,評論數量和預訂天數之間是否存在一些關係?

難易程度:中等

數據集 傳送門

▌哪些因素與員工離職和績效有關

IBM 公開了一個綜合數據集,可以使用它來了解各種因素如何影響員工的流失率和滿意度。一些變數包括教育程度、工作相關性、績效評估和工作生活平衡程度等。

分析此數據集,找到任何確實影響員工滿意度的變數;另外,還可以看看是否可以對變數進行重要程度排名。

難易程度:簡單

數據集 傳送門

▌世界大學排名

你認為你的國家擁有世界上最好的大學嗎?成為「最好」大學的衡量標準是什麼?該數據集包含三個全球大學排名方式。使用此數據,你是否可以回答以下問題:

頂尖的大學都在哪些國家?
決定世界排名的主要因素是什麼?

難易程度:簡單

數據集 傳送門

▌飲酒與在校表現

喝酒會影響學生的成績嗎?如果不會,那有什麼別的影響嗎?這個數據是從中學數學和葡萄牙語課程的學生進行的一項調查中獲得的。它包含幾個變數,例如飲酒量、家庭人數、參與課外活動。

利用這些數據,挖掘學校成績與各種因素之間的關係。另外,看看是否可以根據其他變數來預測學生的成績。

難易程度:簡單

數據集 傳送門

▌寶可夢數據挖掘

對所有遊戲玩家來說,這是一個包含來自七代 802 個 Pokemon 的資訊數據集。試著回答以下幾個問題!

哪一代寶可夢最強?哪代最弱?
哪種類型神奇寶貝最強?哪種最弱?
能否建立分類器來識別神奇寶貝?
身體特徵與力量狀態(進攻,防守,速度等)之間是否有相關性?

難易程度:簡單

數據集 傳送門

▌探索影響預期壽命的因素

世衛組織建立了一段時間內所有國家健康狀況的數據集,其中包括預期壽命,成人死亡率等方面的統計數據。使用此數據集,探索各種變數之間的關係,預測對預期壽命的最大影響因素是什麼?

請嘗試回答以下問題:

最初選擇的各種預測因素是否真的影響預期壽命?實際影響預期壽命的預測變數有哪些?
預期壽命值低於(<65)的國家是否應該增加其醫療保健支出以改善其平均壽命?
嬰兒和成人死亡率如何影響預期壽命?
預期壽命與飲食習慣、生活方式、運動、吸煙、飲酒等是正相關還是負相關?
是否接受教育對人類壽命有何影響?
預期壽命與飲酒是正相關還是負相關?
人口稠密的國家的預期壽命是否有降低的趨勢?
免疫覆蓋率對預期壽命有什麼影響?

難易程度:簡單

數據集 傳送門

預測模型:皮膚癌圖象檢測的難度最高,你能破解嗎?

▌能源消耗的時間序列預測

該數據集由美國區域傳輸組織 PJM 網站上的功耗數據組成,使用此數據集,查看是否可以建構時間序列模型來預測能耗。除此之外,還可以查看是否可以找到一天中每個小時的趨勢,假日用電量以及長期趨勢!

難度:中高級

數據集 傳送門

▌貸款預測

該數據集取自 Analytics Vidhya,包括 615 行和 13 列有關已批准和尚未批准的歷史貸款資訊。你是否可以建立一個模型來預測貸款是否會獲批。

難易程度:簡單

數據集 傳送門

▌二手車價格計算器

Craigslist 是全球最大的二手車經銷商,該數據集由 Craigslist 的抓取數據組成,每隔幾個月更新一次。使用此數據集,查看是否可以建立一個數據集來預測一輛汽車價格是否被高估或低估了。

難易程度:中等

數據集 傳送門

▌信用卡欺詐檢測

該數據集顯示了兩天內發生的交易,其中 284,807 筆交易中有 492 筆欺詐。數據高度常態分佈,欺詐占所有交易的 0.172%。學習如何使用不常態的數據集並建立信用卡欺詐檢測模型。

難易程度:中高級

數據集 傳送門

▌皮膚癌圖象檢測

透過 10,000 多張圖像來建構神經網絡來檢測皮膚癌。這絶對是最難的項目,需要有關神經網絡和圖像識別的儲備知識。

難易程度:難

數據集 傳送門

相關報導 傳送門

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈隔离太无聊?每天一个数据科学项目,数据集都准备好了!〉。首圖來源:Pixabay CC Licensed

更多關於數據分析的資訊

從工程師轉行數據科學家後需要做什麼?前輩建議:趕快把 SQL 練熟吧
Kaggle 發布新冠病毒數據分析挑戰賽,邀請全球工程師破解病毒資訊
GitLab 數據經理經驗分享:工程師當上主管,該專注於團隊還是 coding 技能?

點關鍵字看更多相關文章: