【資料人福利來囉!】30+ 免費平台大公開!機器學習數據庫、政府企業報表全整理給你

(本文經 數據分析那些事 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 資料人的福利來嘍!30 個可靠資料來源平台分享 〉。)

【我們為什麼挑選這篇文章】做資料分析需要大量資料為基礎,但要去哪裡找有用又可靠的資料呢?本篇文章由聚集一群數據分析愛好者、專注數據分析的部落格 數據分析那些事 所撰,分享多個領域的開放資源平台。(責任編輯:賴佩萱)

資料分析學習和從業人士常會遇到這個問題:想做資料分析、資料視覺化但是手上沒有高質量的資料。為此,小編花了兩天時間整理了一些日常工作、學習、研究中可能會用到的資料來源網站和平台,希望能給大家一些幫助~~

一、網際網路資料

1. 世界網際網路統計資料

網際網路世界統計(Internet World Stats,簡稱 IWS)是一個國際性的網際網路資料統計網站。網際網路世界統計為全世界 233 個國家和世界區域提供最新的世界網際網路使用、人口統計、旅遊統計和網際網路市場調研資料等。

2. StatCounter

StatCounter 是美國一家網站通訊流量監測機構,提供各種類型的統計報告以及網站流量統計服務。使用者嵌入 StatCounter 程式碼後,可以檢視網站訪問量、訪問來源、訪問地區、瀏覽器類型等。StatCounter 統計功能強大、頁面比較簡潔,還可以當做計數器使用,使用者也可以隱藏統計圖示。

3. Netmarketshare

二、新冠肺炎統計資料

1. 霍普金斯

約翰霍普金斯大學是全球醫學、公共衛生領域的知名研究機構,也是新冠疫情期間比較官方權威的統計機構。

2. 微軟 COVID-19 資料追蹤

微軟啟動的一個入口網站,以跟蹤全球 COVID-19 感染。 該網站可通過 bing.com/covid 訪問,為每個國家提供最新的感染統計資料。

三、官方類統計資料庫

1. 各國政府公開資料

各國政府都在瘋開放資料,不僅開放資料量大增,資料的質量也在改善。台灣的政府開放資料已經非常的多,人口、經濟、醫療、旅遊、氣候等等能夠很輕鬆的在相關部門的網站上獲取到。但我們常常會拿這些資料和其他國家的狀況作對比,所以掌握幾個常用國家的資料平台也非常必要。這裡列舉幾個比較常用到的:

沒有列舉出來的國家可以通過搜尋 國家+開放資料 去具體獲取。另外,每個國家不同部門也會開放資料在官網上,比如台灣除了政府資料開放平台外,還有台北市開放資料平台、台灣氣象資料開放平台······,可以去搜尋對應的內容。

如果你不願意在 google 的海洋里搜索,你也可以使用這個網站:Open Data Inception。這是一個導航性質的門戶網站,彙集了全球 2600 多個開放數據門戶,可以按照地圖去查找。

2. BvD 系列數據庫

BvD 為各國政府金融監管部門、銀行與金融機構、證券投資公司等提供國際金融與各國宏觀經濟走勢分析等專業資料。提供如下 5 個專業子庫:

  • Osiris — 全球上市公司分析庫
  • Zephyr — 全球併購交易分析庫
  • EIU Countrydata — EIU 國家資料
  • BankScope — 全球銀行與金融機構分析庫
  • Oriana — 亞太企業分析庫

3. IMF Data(IMF 統計資料庫)

IMF 收集、加工、釋出的一系列有關國際貨幣組織借貸、匯率以及其他經濟和金融指標的資料和統計資訊,並提供多種版本格式,包括紙本、CD-ROM 版,線上版,部分資料同時以年刊/年鑑的形式出版,是世界最權威經濟資料和分析報告來源之一。
4. Compustat 資料庫

提供美加地區超過 24000 家上市公司的詳細季度和年度財務報表與財務指標的歷史資料。收錄北美及全球上市公司近 20 年的財務資料,提供約 180 種模板報表、上市或下市公司財務資料等資訊;並可整合最新的或歷史性的主要財務資料以製作所需的報表和圖表。

應用的研究領域包括:資產分析、計量分析、競爭者分析、公司資本結構、財務比率、合併與購併、R&D、資本及存貨投資、股市報酬、及資本市場效率等主題。

5. WRDS 資料庫

WRDS(全稱:Wharton Research Data Services)是由賓夕法尼亞大學沃頓商學院於 1993 年開發的金融領域的跨庫研究工具,被學術界、政府機構、非營利性組織以及公司的使用者廣泛使用。

該平臺可以整合 Compustat(標準普爾)、CRSP(芝加哥大學)、TFN(THOMSON)、TAQ(紐約交易所)等多個著名資料庫產品,同時還提供包括 CBOE 在內的十個公開資料庫。該平臺可使資料庫檢索更便利,並提供驗證資料正確性以及資料庫的整合等功能。

6. World Bank Open Data(世界銀行)

這個網站的知名度可能會高一點,目前包含了 238 個全球發展資源資料集,都是來自世界銀行成員國的統計系統,資料更新的頻率也挺高。

世界銀行公開資料收錄了世界銀行資料庫的七千多個指標,可以按國家、指標、專題和資料目錄瀏覽資料。

  • World Bank E-library — — World Development Indicators(世界發展指數)

資料庫是對全球經濟發展各方面基本經濟資料的彙總,包含了 695 種發展指數的統計資料,以及 208 個國家和 18 個地區與收入群從 1960 年至今的年度經濟資料。資料包括了社會、經濟、財政、自然資源和環境等各方面的指數。

  • World Bank E-library — — Global Development Finance(全球金融發展)

資料庫涵括 136 個國家的外債與金融流程資料資料,收錄了從 1970 年以來 217 種參數的統計資料,這些國家定期向世界銀行債權人報告系統通報該國國家債券和國家保證債券的情況。此資料庫覆蓋了外債總計和流向、全球主要的經濟整合、基本的債務比率、新協議的常規條件、長期債務中的貨幣構成、債務重組等等。

  • World Bank E-library — — Global Economic Monitor(全球經濟監控)

資料庫是早期世界銀行為了便於銀行成員內部監控和報告每日全球經濟狀態而建立的,是一個能夠分析當前經濟趨勢以及經濟與金融指數的「一站式」平臺。將幾個早期的「內部」銀行產品整合為單一的單介面產品,可連結至優質的高頻率更新的(每日、每月)經濟和金融資料資源。

7. OECD:世界經濟貿易合作組織資料庫

可以按照國家和主題來搜索,比如一個國家的人口、稅收、進出口等經濟資料,全球經濟狀況等等。如果你需要一次性對比幾個國家的資料,在 OECD 上獲取比一個一個國家開放資料平台搜尋要方便許多。

8. 世界衛生組織

健康醫療等資料都可以在這裡獲取。近幾年智慧醫療興起,關於免疫、疾病預治、藥物、營養等方面的資料分析越來越多,WHO 提供了非常多類別的最新資料。

還有諸如世界婦女兒童基金會、美國航空局等組織都有提供資料,可以根據需要獲取。

四、資料集導航合集

1. Google Dataset Search

它可以讓你搜索到已經根據 http://schema.org 標準進行正確標記的可用資料集。雖然這可以被視為一站式資料集商店,包括像來自 NASA 和 ProPublica 等來源的資料,但對於一些特定目標來說,其它資料集可能更好用。

你可以看到所有搜尋結果,每個結果包括:資料集名稱、最近更新時間、資料集簡介,其中一些結果可以讓你獲得更多資訊,例如資料集中可用的格式。

2. Google Trends

使用此工具,你可以搜尋關鍵字並檢視有關它們的各種資訊,包括:

  • 按照時間的搜尋熱度
  • 按照地區的搜尋熱度
  • 相關主題
  • 相關搜尋

你可以選擇不同的選項,包括要檢視的國家(或全球),將其縮小到各個類別,或將搜尋範圍限制在所有網站、圖片、新聞、購物或 YouTube 上;你還可以將搜尋結果與另一主題進行對比。

3. Hadoopilluminated.Com

提供國外開放資料網站相關資訊,目前已集合 35 個查詢途徑。

五、其他公開資源

1. UCI 機器學習資料庫

UCI 機器學習庫是機器學習社區用於機器學習算法的經驗分析的數據庫,領域理論和數據生成器的集合。被全世界的學生,教育工作者和研究人員廣泛用作機器學習數據集的主要來源。

2. 研究論文學習網站:Figshare.Com

研究論文上傳網站,已有 2600 萬+ 瀏覽量、750 萬+下載、80 萬+上傳、200 萬+文章。

3. 社會學研究數據:Pew Internet

需要註冊,和下載資料集,但是免費。如果你需要的是社會學資料,這是一個很好的資料來源。你還可以通過瀏覽找到一些有趣的文章。

4. 新聞工作室:ProPublica’s Data Store

ProPublica 是一個獨立的非營利新聞工作室。他們提供了許多免費的資料集,比如川普政府的財務披露、Facebook 上顯示的廣告類型資訊等等…

5. 全球最大的開放資料庫: Open Corporates

號稱「全球最大的開放資料庫」,裡面包含了 1.38 億家企業和 1.76 億員工的資訊,而且還在不斷更新。

6. 政府財務:OpenSpending

使用簡單且免費,目前可以搜尋到 78 個國家 5900 萬份政府財政記錄。

7. 政府公開資料:Global Open Data Index

這裡集合了各國的政府公開資料,比如政府預算、國家法律、空氣質量、水質等等,不過目測不含中國大陸。

8. 政界商界領袖: LittleSis


這裡可以找到許多關於商界領袖、政治家、金融家及其附屬機構資訊的資料,資料可以免費下載。

9. 國際援助: IATI registry

IATI 是一個致力於國際援助款透明化與開放化的研究機構網站,目前有 5760 個數據集。如果你想了解國際援助方面的資料,這個網站會幫你很大忙。

10. NRGI ResourceData 自然資源治理

自然資源治理研究所(NRGI)的網站,提供了 58 個各國能源方面的資料集。

11. MNIST 手寫數字數據庫

手寫數據圖像識別數據集,MNIST 手寫數據庫具有 60,000 個示例的訓練集和 10,000 個示例的測試集。

12. 免費圖像資源

13. NASA 的 Earth Data

地球觀測系統資料和資訊系統包含了美國宇航局的地球觀測資料,其中包含如 NC 地表溫度和碳通量等資訊。

14. 爬蟲

還有很多資料是沒有現成的可以使用,需要用到爬蟲工具去爬取,例如網站資料的爬取。這方面的工具和方法也很多,有這種需要的可以自行學習。

(本文經 數據分析那些事 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 資料人的福利來嘍! 30 個可靠資料來源平台分享 〉。)

你可能會有興趣


科技報橘 LinkedIn 上線!

最新科技產業動態、技術新突破、專業職能技巧提升 ....... 鎖定 TO  LinkedIn 專業品牌,提升職能與產業 Know-how,躋身產業菁英之列 https://www.linkedin.com/showcase/techorange

點關鍵字看更多相關文章: