An AI robot undergoing machine learning algorithms.

【為什麼我們要編譯這篇文章】「合成資料」(synthetic data)指的是透過電腦模擬或演算法,人為產生的加註資訊。近年,越來越多企業採用合成資料來訓練人工智慧模型,正因為它的優勢是「物美價廉」。

下文將帶你認識合成資料,以及隨著合成資料市場的成長,市場上有哪些領導者。(責任編輯:游絨絨)

成功部署任何 AI 應用之前,企業組織需要先取得大量資料,用以訓練演算模型,然而取得合適且充足的機器學習數據並不容易,因此成本合理且有效的「合成資料」(synthetic data)越來越受到業界重視和採用。

♦ TO 延伸閱讀:【給 AI 產業工作者的 2023 預言書】五大趨勢與問題,等你們替全世界人類解決!

什麼是合成資料?

合成資料指的是透過電腦模擬或演算法,人為產生的加註資訊;換言之,合成資料是數位世界的生成物,而非取自真實世界的數據蒐集或量測

AI 實務領域中,用合成資料來建立精確人工智慧模型的比例愈來愈高,尤其當既有資料集在品質、數量或多樣性方面有所不足時,就會選用合成資料來填補訓練數據的缺口。

儘管此資料類型是「合成的」,它在演算或統計上,仍舊足以反映真實世界的數據,相關研究也證明在 AI 模型訓練歷程中,比起代表實際物體、事件或群體的數據,合成資料可能表現一樣好,甚至可能更好

日前 Gartner 發表了一份相關報告,預測到了 2030 年,合成資料將成為絕大多數的 AI 模型訓練基礎,數據來源可能是演算法規則、統計模型、電腦模擬等方式;報告更直接指出,未來「倘若沒有合成資料參與,將無法打造出高品質、高價值的 AI 模型」。

面對國際市場快速發展的 AI 技術趨勢,台灣企業應當採取什麼策略?

→ 立即下載《TechOrange 2023 趨勢觀察報告

♦ TO 延伸閱讀:盤點 4 個機器學習資源,晉升 2023 年高薪熱門職業!

為什麼合成資料如此受到重視?

軟體開發歷程中,大量且經妥善標註的數據集不可或缺,當學習數據越多元,最終訓練出的 AI 模型往往也會越精確,然而這類資料取得和數據標註,通常耗時且所費不貲,相比之下,合成資料顯得物美價廉──若使用數據標註服務,一張圖像的報價可能是 6 塊美金,選擇人工合成的話,約莫只要 0.06 元

數據取得成本之外,合成資料的優勢還在於能保護原始資料所可能帶有的隱私或機敏資料,避免因法規或現實之限制而無法取得或利用研究所需資料的情況,也降低資安外洩的風險

再者,由於真實環境資料並不能確保原始(pristine)無雜質,甚或出現人為蓄意操弄的情形,相比之下,合成資料能移除數據偏見,更有助於工作流程自動化,以及賦能預測性模型(predictive modeling)。

♦ TO 延伸閱讀:全球景氣大蕭條,OpenAI 卻大舉投資千萬美元!OpenAI CEO:沒有比現在更好的創業時機

市場領導者有哪些?

隨著合成資料的市場需求增長,有越來越多家技術供應商投入此領域的開發,例如創立於 2017 年,總部位於奧地利的「Mostly AI」、去年被 Facebook 母公司 Meta 收購的新創平台「 AI.Reverie」、專精於生成式模擬、雲端技術與深度學習的「Sky Engine AI」,以及為電腦視覺提供合成圖像資料集的「Datagen」等。

最新加入的還有全球數據工程領先品牌「Innodata」,不僅為企業端提供合成資料解決方案,更針對一般消費者推出電商入口網站,往後消費者將能依照個人需求,購買可立即用來訓練模型之合成資料集。

♦ TO 延伸閱讀:【人工智慧 vs. 人類天才】回到 AlphaGo 打敗棋王那天,AI 戰勝人腦的內幕是什麼?

日益豐富的合成資料應用場景

Innodata 之所以推出合成資料交易網站,最終目的是要推展第三方 AI 訓練資料集,且類型不限於文件,還會包含圖像、影視、音訊,以及迎接對話式 AI 趨勢的語音數據;這些資料集應用也將橫跨多元產業,例如通訊設備、運輸物流、能源服務、製藥、旅宿、保險、零售、健康照護等,在語言支援上也將更不受限,未來世界各地的數據科學家都能借助合成資料,催生出更多人工智慧領域創新。

♦ TO 延伸閱讀:AI 領域創新腳步不停歇,跟上專家一致看好的 2023 年三項趨勢!

》下載 TechOrange 2023 趨勢觀察報告《

(本文開放夥伴轉載,參考資料:VentureBeatnvidia,圖片來源:Shutterstock