資料新聞學如何開始?問問題、用電腦、靠網路!

近來被視為媒體業金礦的資料新聞學,到底我們該從何學起呢?

為了找尋這個答案,我參加了連續二年舉辦的 青平台 Open Campus 營隊,在短短兩天的充實課程中,發現資料新聞學是一門充滿變化的學問,要入門並不難,但是要能夠找到對的提問與資料之間的關聯,並加以處理、分析和解讀,卻是相當困難的。 接著將透過兩天課程所學和大家分享,資料新聞學可以從「問問題、靠網路、用電腦」開始!

  • 問問題

第一天下午由講師 CK 劉嘉凱(城市格局數說台灣御言堂)帶我們「從實例看資料新聞學的工作流程」,CK 強調,「用資料說故事,技巧永遠學不完」,然而技術和技巧可以慢慢累積,但是「問題意識」卻很難培養。如何從問問題開始,找到對的命題與假設,是一件 非常難訓練的事情,就如同研究生做研究一般,問對問題就等於做對了一半,之後再找到數據去驗證你的假設,便能完成研究、說一個好故事。

根據張錦華教授之前於台大新聞所大眾傳播理論課程講綱的定義 ,問題意識指的是,為什麼要關心這個議題,而不是別的?為什麼要用這個角度,而不是其他觀點? 問題意識之所以重要,在於一旦我們問不一樣的問題、換個問題意識、換個報導框架,看新聞事件的角度就會不同。

政大新聞系的陳百齡教授 在營隊中提到,問題意識與連結力很難養成,只能一點一滴從日常生活中累積,需要常觀察、常思考,會技術還不夠,要能夠看到一個現象然後連結到相關的資料。

資料新聞學從問問題開始!想想你對什麼東西有興趣?對哪一塊特別好奇?

→ 範例分享:《學校可能不想讓你知道的選系指南

→ 書籍分享:《問對問題,找答案

  • 靠網路

找到有興趣的主題,開始問問題後,接著就是要盡可能地蒐集到用得上的資料。但在這之前,別忘了把一切都記錄是很重要的事情,可利用 hackpadGoogle DocEtherpad 或自己架一個 Wiki 網站做共筆討論,另外也可用 Diigo 做網路書籤的編輯與共享,而這些工具的重點是,可以開放他人參與共同編輯。 提到上網搜尋,想必大家大都是使用 Google 吧!

但其實除了用 Google 搜尋指令外,還有其他 不會儲存你的搜尋紀錄的好用搜尋引擎 ,例如 DuckDuckGoStartpageIxquickBlekkoAsk 等 。

可多多利用開放資料與網路資料庫,目前 各國政府開放資料平台世界銀行 都已釋出龐大的開放資料,雖然上網搜尋 open data portal 或 open data catalog,不一定會找到想要的資料,但可確定的是,可以擁有更多的資料。

目前台灣 政府資料開放平台 公開測試中,大家可上去搜尋看看,若想要的資料尚未開放或不好應用,皆可寫信給相關單位做反應,好讓政府知道民間的意見與回饋,未來才能有更多有效的政府開放資料。

  • 用電腦

收集到資料後,先把資料轉為電腦可處理的格式(PDF → OCR → 試算表),再來就要做資料清洗,把資料中不正確的內容(可能是格式錯誤,可能是單位錯誤或是輸入錯誤)刪除或是修復,藉此得到一個我們可以進一步處理,運算,轉換且彼此有關連的資料集。

資料清洗工具:

1. Google OpenRefine

2. Data Wrangler

3. 直接使用試算表程式(MS Excel、LibreOffice 的 calc 等)

儘管資料清洗與處理是個很耗時間的程序,但是若沒有一個好的資料集,便不能繼續往下走了。此外,你也可以想辦法找以下兩種人來幫忙!

1. 鄉民 : Crowdsourcing 群眾外包 一起來補充資料,修正資料

2. 駭客 : 有能力寫程式幫你處理問題,協助爬資料,自動化處理資料(相關組織:零時政府 g0v.tw

「Let data speak !」

資料新聞學的重點還是讓資料說話,因此,最重要的一點仍舊是問問題,問的問題有沒有價值,能否有效的查證假設,將不同的資料與資訊做連結,輔助回答自身的問 題。資料新聞學不只記者用得上,而是每個人都用得到,藉由資料新聞學,我們得以用嚴謹的方法,辨別網路謠言的真偽,發掘事件的的真相。

  • 延伸閱讀:

媒體業的革命從這裡開始:資料新聞學

(資料來源:Open Data / TW | 開放資料 ;圖片來源:jungmoon, CC Licensed)