數據是客觀的,但數據的搜集和解釋卻是主觀的,要建構一個完整的資料數據集需要各領域付出極大的努力,而許多專家學者使用規模較大的資料庫是因為可以從中訓練出更強大的機器模型。

少數機構主導人工智慧研究領域

Benchmark Datasets 基準數據集是公平比較和驗證計算方法的基礎,基準數據集用於基準測試,是一個算法模型性能的衡量基準,很多特定機器學習問題都需要基準測試數據來支撐。簡單來說,基準數據集就是作為一個評價標準的數據集,是用來評價一個算法模型好壞的資料庫。

而近日由一項加州大學(University of California)和 Google Search 合作的新論文就發現,有部分 Benchmark Datasets 基準數據集主要都來自於少數幾個有影響力政府組織以及菁英機構,他們正日益主導人工智慧的研究領域。

TO 推薦閱讀:舉止、判斷都能被描繪!元宇宙來臨,我們準備好迎接大監控時代了嗎?

「默認傾向」引發道德擔憂

論文 < Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research > 得出的結論是,這種「默認」使用主流開源數據集 (如ImageNet 的傾向,引發了許多道德,甚至是政治方面的擔憂。

作者表示「廣泛使用的數據集只被少數精英機構引入」,且這種「整合」現象在近年來已經增長到近 80%,在全球範圍內,數據集的不平等程度越來越嚴重,例如在論文中的 43,140 個樣本中,就有超過 50% 的數據集只使用來自 12 個菁英機構,大多都是西方機構。

佔主導地位的包括史丹佛大學(Stanford University)、Microsoft、普林斯頓(Princeton)、Facebook、Google、馬克斯·普朗克研究所(Max Planck Institute)和 AT&T 等,且佔據前十名的數據集來源中就有四個是企業機構。

TO 推薦閱讀:【人類登入元宇宙第一步】活生生的人成為數據產品,心甘情願上傳所有數據

避免對現有數據庫過度擬合

如果通過現有的基準數據集,許多研究團體的問題都會導向一致的結果,因此考慮到基準數據集高度集中於少數研究機構,多樣化的評估形式在避免對現有數據庫的過度擬合與領域進展是非常重要的。

研究中還提及在計算機視覺領域中,尤其是在臉部辨識方面,企業、國家和私人利益經常會發生衝突,作者表示:「企業和政府機構的目標可能會與個人隱私發生衝突(比如監視),他們可能會忽略了人工智慧的社會利益。」

TO 推薦閱讀:解決 AI 模型開發的數據困境,MLCommons 打造全球共享資料庫!

專家呼籲學術界必須增加數據集的多樣性

Google 深度學習研究團隊聯合創始人、百度首席科學家,有「AI大神」、「Google Brain之父」稱呼的機器學習領導人物吳恩達 Andrew Ng 在近年來也呼籲學術界必須增加數據集的多樣性和多元策劃,該論文的作者也支持這種觀點,除了呼籲勢必得開發更多的機構,讓他們得到重視和相對的獎勵,除了激勵數據集的開發人員之外,還提倡以公平為導向的政策干預,優先以資源較少的研究學者來提供大量資金,協助他們從社會和文化的不同角度來推進領域之發展。

TO 推薦閱讀:鎖定台灣企業攻擊的勒索軟體「ColdLock」,五月初發動多起攻勢,加密企業資料庫

本文開放合作夥伴轉載,參考資料:Unite.Ai,圖片來源:Unsplash