來自科學促進會的嚴正警告!為什麼機器學習正在對「科學」造成毀滅性危機?

【為什麼我們要挑選這篇文章】科技業越發依賴的數據,但在「做研究」也能依賴數據嗎?機器學習存在盲點,單純透過數據學習的方式,所面對的不是真實世界的親身觀察,很可能會導致錯誤的研究結論。

正因為,研究團隊使用已發表研究的原作者所提供的材料、設計與程序,來偵測已發表的研究結果能否被再現。結果發現,大部份的研究無法成功地被複製!也就是研究紀錄出的數據準確性堪憂,如此一來,數據分析下得出的研究結果,還值得一信嗎?(責任編輯:黃穗懷)

科學家正越來越依賴機器學習技術,雖然這一技術的解釋性自誕生以來就廣受質疑,但當這一問題出現在科學領域,將產生非常危險的結果。

來自休斯頓萊斯大學的 Genevera Allen 博士說,對這一體系日益增長的使用導致了「科學危機」。

她警告科學家,如果不改進技術,他們就會浪費時間與金錢。

越來越多的科學研究涉及使用機器學習軟件來分析已經被收集的數據——從生物醫學研究到天文學的許多學科領域都是如此,所使用的數據集非常龐大,並且昂貴。

機器學習研究結果無法再現,可能引爆一場「科學危機」

但是,根據 Allen 博士的說法,他們提出的答案很可能是不準確甚至錯誤的, 因為軟件識別到的是僅存在於該數據集中而非現實世界中的規律。

「通常人們也不會發現這些研究並不準確,直到有人在一個真正的大型數據集上應用這些技術,並說『天哪,這兩項研究的結果並不一致』」,她說。

「現在人們普遍認識到科學中的再生性危機了。我冒昧地說一句,這一危機很大一部分都來自於科學中機器學習技術的使用。」

科學中的「再現性危機」指的是,當另一組科學家嘗試相同的實驗時,許多研究結果壓根無法被再現。這意味著最初的結果是錯誤的。一項分析表明,在世界範圍內進行的生物醫學研究中,高達 85%是浪費精力。

這是一場已經持續了 20 年的危機,緣起於實驗設計得不夠好,無法確保科學家們不會自欺欺人、只看到自己想得到的實驗結果。

催命毒藥:機器學習系統、大型數據集,導致研究結果錯誤

Allen 博士表示,機器學習系統和大型數據集的使用加速了危機。 這是因為機器學習算法專門用於在數據集中查找有趣的東西,因此當他們在大量數據中進行搜索時,不可避免地會找到某種規律。

「問題是,我們真的可以相信這些發現嗎?」她告訴 BBC 新聞。

「這些新發現是真實的嗎?它們能夠代表科學嗎?它們是否可重複?如果我們有一個額外的數據集,我們能夠在其上看到相同的科學發現或原理嗎?不幸的是,答案通常是否定的。」

Allen 博士正與休斯敦貝勒醫學院的一組生物醫學研究人員合作提高他們結果的可靠性。她正在開發下一代機器學習和統計技術;該技術不僅可以為科學發現篩選大量數據,還可以報告結果有多高的不確定性以及再現性。

「收集這些龐大的數據集非常昂貴。我告訴科學家,與我合作的話,你的成果可能需要更長時間才能發佈,但最終你的結果將經得起時間的考驗。」

「它將幫助科學家節約資金。此外,幫助避免前沿科技誤入歧途也是非常重要的。」

(本文經 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈美国科学促进会:机器学习“正在导致科学危机”〉 。)

更多機器學習的相關消息

AWS 全球大會 re:Invent:機器學習專用推論晶片上場,AWS 打算稱霸了嗎?
聯發科最新 Autus 車載晶片:導入機器學習與毫米波偵測,不小心恍神也能掌握任何路況
【一個都別想留】臉書擴大打擊假新聞,機器學習自動刪光光


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: