資料有看沒有到》台灣資料科學教父:輕忽 Data 力量,電商落後美國 20 年

DDDB2820-0291-4C9A-B8D0-AB81619C52A5

文 / 今週刊

戴著細框眼鏡以及一臉自信的笑容,陳昇瑋一談到「資料」就滔滔不絕。在今年夏末舉辦的台灣資料科學愛好者年會上,他可以從早上 9 點聊到下午 4 點,讓台下聽眾無不凝神聆聽,信手拈來好幾個案例,靠的全是 10 多年來扎下的基本功。

2003 年,就讀台大電機系博士班的陳昇瑋,在思考論文題目時發現,相較於寫出一套完美的理論模型,他更喜歡研究貼近現實的資料。他認為:「模型雖然漂亮,但你一定沒辦法完整描述這個世界;相較之下 data driven(沒有先入為主的直覺,而是純用數據佐證)比較 ugly(不好看),但是它是從現實資料來的。」

但是,要取得業界的資料談何容易?在台灣,除了業界、學界鮮少合作外,業界都對自己的資料保密到家。更何況,當時「資料」一詞,不像現在有大數據的加持,許多廠商雖空有資料,卻不清楚重要性。「所以,那時候很辛苦,都要求人『施捨』資料給我,就像窮人借錢,只能一個、一個朋友問。」陳昇瑋無奈地表示。

把所有朋友都問過一輪後,終於靠朋友牽線,認識了宇峻奧汀遊戲公司(旗下知名遊戲包含:〈絕代雙驕〉、〈神舟 online〉)的員工,願意提供資料給他做博士論文。經過分析,陳昇瑋發現這款線上遊戲,在伺服器設定上出了問題,導致原先應該輪流輸送的流量,變成同時輸送,反而讓總流量變少。在那之前,遊戲公司雖發現網路不穩,卻一直認為是品管出了問題。

「直到那時,我才知道資料的威力,那個遊戲我只玩過 1 小時,卻比日夜泡在遊戲裡的開發人員還懂,」陳昇瑋補充:「透過資料,可以發現『大家都在看,卻沒有人看到』的東西。

  • 在不疑處有疑, 分析資料 找出捐款金額落差原因

但可別認為,要成為一位資料科學家,就要做一堆阿宅才會想做的事。其實,比起程式能力,對周遭事物產生好奇心,才是資料科學家最須具備的能力。自 03 年起,《蘋果日報》成立慈善基金會,替台灣貧困弱勢族群募款,至今已 12 個年頭,卻從沒人分析過,為什麼每個個案的捐款金額差異這麼大?

直到有一天,陳昇瑋無意間找到了這個公開的資料庫,一經分析後,發現不少有趣的現象,更清楚描繪了台灣人民捐款的動機。在一整年裡,1、2 月募到的金額特別高,而後慢慢遞減,直到 7、8 月跌至谷底後,又漸漸回升。

仔細推敲,1、2 月是領年終獎金的時候,大家希望過年能多做點善事,剛好也有點閒錢,所以出手特別闊;而 7、8 月是旅遊旺季,旅行花費已讓手頭吃緊,自然無暇再顧及他人。

更出乎意料的是,就連一星期內的不同日子,也會影響捐款的金額。整體來說,周 2、周 3 收到的捐款最多,周末收到的捐款則最少。陳昇瑋分析,周 2、周 3 捐款額最高,可能是因為大家上班很辛苦,所以也對弱勢族群有更多的同理心;但是到了周末,大家忙著去玩,可能對這些議題沒那麼關注。

此外,只要《蘋果日報》的標題含「老弱」、「單身」、「婦女」等字眼,收到的捐款就比較多;但是,若將體型分成七分,受款人(身材)每「胖」一分,平均捐款人數就少 20 個。這樣的研究結果,擁有 10 幾年採訪經驗的記者或許都不曾發現,透過資料科學,只要短短 1、2 個星期,就能挖掘出經驗也無法比擬的洞見。

  • 台灣輕忽資料科學 ,態度過於保守落後美國 20

然而,台灣廠商至今仍不知道資料的力量。「10 幾年來我接觸了至少 50 家公司,但大部分的人都不理我,因為台灣從來就不把資料放進 priority(優先順位)。」陳昇瑋感嘆,知名電商亞馬遜從 1995 年就開始使用推薦系統,台灣電商卻只注重物流速度,「真的是落後別人 20 年!」句句道出台灣企業的保守心態。

為了不落人後,去年起,陳昇瑋開始策畫「台灣資料科學愛好者年會」,希望能提升業界對資料科學的重視。第一屆年會,吸引了 800 多人參加,其中更不乏金融業、零售業的高階主管,都來一睹資料的龐大威力。

除了舉辦活動,陳昇瑋還收了不少弟子,甚至有知名企業送員工來「練功」。跟了他 4 年的博士後研究員許懷中憶起,當時他會應徵,就是看到陳昇瑋網頁上,一張鮮奶油蛋糕與貓的照片,底下寫著短短一句:你也想一起來體會貓得到奶油的感覺嗎?許懷中說:「老師對我的啟發不只是 believe in data(相信資料),還有培養你對探索世界的胃口、對精進自己的一種渴望。」

不僅僅只是一位出色的資料科學家,陳昇瑋還要再培養一批批優秀的資料科學人才。因為,他視資料科學為一種信仰,要將它發揚光大。

  • 好的資料科學家  必備的 4種能力

陳昇瑋認為,一位好的資料科學家具備 4 種能力,但 4 種能力都有的人就是獨角獸 (指不存在)。 想進入這個熱門行業,要在程式語言、數理統計、領域知識及溝通能力,起碼要具備其中兩項,之後努力統整出 3 種,就可以成為企業間炙手可熱的人才。

就算具有領域知識,也懂得使用統計工具,若沒有好的溝通能力,將難以說服老闆,好的計畫也可能因此胎死腹中。因此,陳昇瑋認為,好的溝通能力是資料科學家亟需的個人特質。

寫程式的人如何具備領域知識?陳昇瑋引述阿里巴巴數據委員長車品覺的說法,「就是『混』出商業敏感度。」車品覺認為,每周起碼要與第一線做業務的人吃飯,還有周工作報告內容,不能遺漏對接商業部門的主要專案。

另外擁有金融、零售領域知識的人,要如何接近資料分析領域?陳昇瑋建議,至少要熟悉基本的統計工具,譬如 R 語言等。

(本文由合作夥伴《今周刊》授權,未經同意不得轉載)

這幾年機器學習、AI 人工智慧等詞彙人人琅琅上口,想要了解人工智慧的基礎,就是資料科學嗎?講座將會開放與會、讀者直接面對面請教專家,更深入地了解相關名詞與實際操作,千萬別錯過跟上 AI 人工智慧趨勢!

AI_600x100--for web 

延伸閱讀:

沒有找不到工作的問題:台灣 3 年內資料人才缺口近 6 萬,領域專家年薪上看 175 萬

2015 資料科學愛好者年會》:用數據、圖片說故事,設計出讓人「關心」的新聞

他二度歸零 把討厭的工作做到第一

自以為是的心態會阻止你成功

有魅力女性長什麼樣子?

點關鍵字看更多相關文章: