如何在 AI 發展時期保護數據隱私?新加坡新創 Betterdata 的解決方案值得一看

【TechOrange 編輯部導讀】
「合成數據」(synthetic data)指的是透過電腦模擬或演算法,人為產生的加註資訊。近年,越來越多企業採用合成數據來訓練 AI 模型,正因為它的優勢是「物美價廉」,且能幫助企業保護敏感資訊。
一起來看,新加坡新創 Betterdata 如何利用可編程的合成數據來保障真實數據的安全性,同時因應越來越嚴格的數據保護法規。

Betterdata 成立於 2021 年,是一間位於新加坡的科技新創,利用可編程(programmable)的合成數據來保障真實數據的安全性,由執行長 Uzair Javaid 博士、技術長 Kevin Yee 共同創立,旨在使數據共享更快速、更安全,以應對全球日益增加的數據保護法規。

該公司日前宣布已成功籌集到 155 萬美元的種子輪融資,此次融資超額認購,由澳洲創投公司「Investible」領投,參與名單上還有富蘭克林鄧普頓基金集團、由 TA 台灣創速團隊成立的創投基金「Xcel Next」、新加坡科技與設計大學、矽谷創新平台「Plug and Play」等機構,目前也正在與新加坡和美國的兩所知名大學進行研發合作,客戶包括上海浦東發展銀行。

Gartner 預測:2030 絕大多數 AI 訓練將使用合成數據集

人工智慧領域不斷出現突破性創新之際,資料科學家如何在不影響數據質量、平衡性和準確性的情況下,取得訓練模型所需的大量數據?答案之一就是合成數據(synthetic data):合成數據生成是經由數學和統計、機器學習過程,使用真實物體、人和環境訓練的模型,所輸出的數據不攜帶任何敏感數據,卻能保留真實數據的行為特徵

對於資料科學家而言,究竟數據是真實的還是合成的並不重要——真正重要的是數據內部的特徵(characteristics)和模式(pattern),也就是訓練數據的質量好壞、是否取得平衡,以及是否具有偏見,在這樣的考量下,合成數據具備三種關鍵優勢,可以幫助資料科學家優化和豐富數據庫,進而提升 AI、ML 模型之訓練品質。

  1. 提高數據質量:通過合成數據生成,可以改善或增強數據的質量、多樣性和平衡性;從自動完成缺失值到自動標記,都能有效提高數據可靠性和準確性。
  2. 可擴展性:透過合成數據補充現有數據,能快速擴展現有數據,或僅擴展有關子集,以從中獲取更有參考價值的觀察洞見,辨識出數據模式以推斷未來趨勢。
  3. 簡潔易用性:科學家可以自由控制生成數據的結構、格式和標籤,創建出一個品質高又可靠的即用型數據庫。

Betterdata 獨樹一幟的可編程合成數據

不同於傳統的數據共享方法,使用數據匿名化(data anonymization)破壞數據,Betterdata 採用的是生成式 AI 與隱私工程:在與科技媒體《TechCrunch》專訪中,技術長 Yee 表示,可編程合成數據使用的是深度學習等生成模型,包括用於深偽技術(deepfake)的生成對抗模型、用於 ChatGPT 的轉換器(transformer),以及用於穩定擴散的擴散模型(diffusion),以創建和擴充新數據集。

這些合成數據集具有與現實世界數據相似的特徵和結構,而不會披露有關個人的敏感或私人訊息,賦能開發人員更靈活地使用數據。Yee 指出:「我們的目標是打造出真實數據的虛構版本,可安全用於多種目的,包括保護機密數據、減少偏見以及改善機器學習模型。」

合成數據能幫助企業保護敏感資訊,符合 GDPR 和 HIPAA 等數據保護法規,同時增加組織內、外部的數據可用性,創建更多數據以訓練、測試和驗證機器學習模型,並藉由在資料集中增加偏差,來解決數據不平衡或深度學習偏見等問題

延伸閱讀:從通訊設備到保險業都在用的「保密」AI 創新推手:合成資料

合成數據應用:擬真且安全的視覺解決方案

Anyverse 是一間總部位於西班牙馬德里的合成數據新創,主要產品「Anyverse™」是一個全面的合成資料平台,從設計或原型的初期階段,通過層層訓練和測試,最終調整基於電腦的視覺解決方案來最大化其性能。該平台集成了高光譜渲染、準確的傳感器模擬、內置數據庫和可擴展的雲端數據生產流程,為產品開發週期生成保真度高,且獨立於顧客隱私資訊的合成數據。

*本文開放夥伴轉載,參考資料:TechCrunchDatomizeAnyverse,圖片來源:unsplash

(責任編輯:游絨絨)

TechOrange LINE 好友募集中
TechOrange 徵才
AD