Search
Close this search box.

AI 被汙染恐走向自我毀滅?研究揭「模型崩潰」不可避免,給你的答案會是胡說八道

隨著 AI 生成的內容鋪天蓋地的出現在網路上,未來人工智慧模型的訓練數據也正在被這些內容腐蝕。一旦出現被汙染的數據,未來的 AI 模型就無法準確精準地學習以及模擬人類的各種行為。

即使是少量的 AI 生成內容,最終也會將錯誤內容擴散至正在訓練的模型,再隨著每一代模型的迭代,這些錯誤會逐漸累積,導致所謂的「模型崩潰」(model collapse)。例如,經過多次迭代後的模型可能會失去對文字或圖像的準確理解,甚至生成出完全無關的內容。

「模型崩潰」將導致訓練模型性能大幅下降

不過這種現象並非無迹可循,牛津大學的機器學習團隊觀察到,即使是最簡單的模型也已經出現了這種「模型崩潰」的跡象。他們的研究表示,隨著 AI 模型越來越依賴於自身生成的數據進行訓練,錯誤的累積將導致模型的性能大幅下降

主因是其模型的訓練是廣泛採用「合成數據」,也就是由其他 AI 生成的數據,而非採用更獨特、更精準的人工數據內容。即使讓 AI 在最佳的學習條件下,模型崩潰也是不可避免的。

且研究還透露,這種由 AI 生成的有毒數據不限於文字。牛津大學團隊也在一種 AI 圖像生成器上發現,即使是圖像數據也會隨著模型的迭代而逐漸失去清晰度和識別度。這意味著,不論是文字還是圖像,AI 生成的數據都可能對未來任何模型的訓練造成不利影響。

掌握 AI 趨勢 & 活動資訊一點都不難!訂閱電子報,每週四一起《AI TOgether》

感謝訂閱!隨時注意信箱的最新資訊

學界一直在找解方──由人類打造標準化數據庫

其實數據濫用與模型崩潰的現象,在 ChatGPT 等 AI 技術變得主流前就一直在發生,學界也一直在尋找解決方案,目前較可能被實現的應用即是創建由人類規劃的標準化數據庫,以確保訓練數據的正確性。不過它還不是最佳解,主要是它沒有辦法徹底避免 AI 受到數據的影響,甚至還可能限制模型學習的多樣性。

除此之外,隨著 AI 技術的不斷發展,區分人類生成的數據和 AI 生成內容也變得越來越困難。例如,在 Adobe Photoshop 使用 AI 工具進行圖像編輯在現今已經很普遍,但我們根本難以區分這張圖到底是完全由人類所創作的還是由 AI 生成或只是經過 AI 修改。

為了確保 AI 技術能夠健康、永不間斷地發展,科研界早已開始采取積極的對策來應對這些挑戰,這也將是 AI 領域中所有研究者和開發者必須一起解決的共同任務。

【推薦閱讀】

歐盟通過全球首部人工智慧監管法案,前 NCC 主委詹婷怡:有規範才有 AI 產業發展

AI 重新定義企業流程!SAP:2024 年 AI 應用場景將新增超過 100 個

【AI 研究員異想天開】把類 GoPro 綁嬰兒頭上!為何要 AI 牙牙學語不跟科技巨頭作法走?

*本文開放夥伴轉載,參考資料:《SCI AM》《The Atlantic》《The Conversation》OpenAI,首圖來源:OpenAI

(責任編輯:廖紹伶)

透過 Amazon Bedrock,發掘 Claude 3 系列模型的無窮潛能

【立即試用 Claude 3 系列模型,24 小時內免費體驗!】