柏克萊大學教授示警!聊天機器人很快就會「無話可說」

隨著 ChatGPT 的熱潮漸漸退去,生成式 AI 的問題開始浮現。有創作者擔心他們的作品在未經他們同意的情況下被複製,社群論壇 reddit 也對他們的平台數據被隨意使用表示不滿。

延伸閱讀:【這理由很幽默】ChatGPT 用戶量首下跌因為學生放暑假了,但更可怕的還在後頭

ChatGPT 和其他聊天機器人收集數據的方式審查將會越來越嚴格,加州大學柏克萊分校的計算機科學教授 Stuart Russell 表示,ChatGPT 和其他 AI 驅動的機器人可能很快就會「耗盡文本」,沒有數據再拿來訓練它們該說什麼。

不講理的數據收集方式非常粗暴,但講理的做法可能讓機器人「無話可說」

目前 OpenAI 和其他生成式 AI 的開發人員,利用各種數據收集方式來訓練大型語言模型,例如搜尋、email、社群媒體、電話和面談等。不同的數據收集方式可以納入不同群體的特徵,進而提高數據的全面性;然後,再利用自然語言處理技術和學習技術來分析內容,理解用戶所送出的訊息,將輸入文字轉換成對應詞彙並組成語句,進一步回應訊息。

雖然ChatGPT在幾個月內成長快速,但因此而產生出了很多問題,包括,有許多人覺得被侵犯。

過去幾週針對 OpenAI 提起的幾起訴訟中,包含使用個人數據和受版權保護的資料數據集來訓練 ChatGPT。其中規模最大的,是由 16 位匿名的原告提起的長達 157 頁的訴訟,他們表示 OpenAI 使用了私人對話和醫療紀錄等敏感數據;喜劇演員 Sarah Silverman 和另外兩位作者的律師指控 OpenAI 侵犯了他們的版權。

訂閱《AI TOgether》趨勢週報!
每週幫你精選 AI 主題報導

感謝訂閱!隨時注意信箱的最新資訊

對此 OpenAI 也在 2023 年 6 月 14 日更新了他們的數據使用政策:

1. 在默認的情況之下,OpenAI 「不會使用」客戶透過他們的 API 所提供的數據來訓練模型或改進產品,除非你明確決定與他們共享數據。但是在 2023 年 3 月 1 日以前提供的數據,如果客戶沒有選擇不共享數據,則可能已經被使用在訓練模型。

2. 為了避免濫用,客戶透過 API 所發送的任何數據最多只會保留 30 天,30 天之後數據會被刪除。

OpenAI 更新他們的數據使用政策,是基於用戶隱私的考量以避免節外生枝,但這樣的方式導致 OpenAI 的語言模型只能從一些公開資訊蒐集資料,像是書籍、新聞、科學論文和維基百科等,資訊非常有限。

AI 研究人員小組 Epoch 去年 11 月進行的一項研究預估,機器學習數據集可能會在 2026 年之前耗盡所有「語言數據」。

Stuart Russell 表示,雖然未經過官方的證實,但有許多報導詳細指出 OpenAI 有從一些私人來源購買文本數據集,但這些數據仍然不足以支援機器進行推論。

立即取得「免費」AWS 證照輔考服務&備考課程資格!

參加活動,還能以 5 折考 AWS 證照、再抽 10 位全額免費(價值 $ 4,500)

*本文開放夥伴轉載,參考資料:《INSIDER1》《INSIDER2》《The Verge》OpenAI,圖片來源:flickr

(責任編輯:鄒家彥)