AI 檢測器變成冤案產生器:200 年前完成的美國憲法竟被冤枉是 AI 寫的?

生成式 AI 為人類帶來了許多方便,但也帶來了一些道德上的疑慮。對軟體工程師來說,生成式 AI 可以提升工作的效率,也可以確保程式運作的穩定性;但是對教育界來說,生成式 AI 所產生的內容可能會有抄襲、作弊的嫌疑。

在傳統的經驗中,教授通常依靠論文來判斷學生對某個主題的掌握程度。如果論文是由生成式 AI 所產出,就會被視為作弊,因此而判定學生該科目不及格。但要如何判定論文內容是否由 AI 生成的呢?

將「美國憲法」上傳到檢測器,竟發現 96.21% 由 AI 編寫???

網路上有些 AI 書寫檢測器,例如 GPTZero、ZeroGPT 和 OpenAI 的文本分類器。只要把文章內容書寫或上傳到檢測器,它就會告訴你這個內容是否由 AI 生成的。但 AI 書寫檢測器的判斷準確嗎?

如果你將「美國憲法」上傳到檢測器,它會告訴你有 96.21% 肯定是由生成式 AI 編寫——但美國憲法在 200 年前就寫好了,這是不可能由生成式 AI 產出的。這樣的誤判有可能會冤枉了許多人的努力。

AI 檢測器為何會產生誤判呢?我們來先來了解一下 AI 檢測器的運作原理。不同的檢測器使用的檢測方法略有不同,但都是基於「大型語言模型」進行訓練,而這些大型語言模型又是經過閱讀大量文本訊息訓練出來的。

在一段文章中,聊天機器人會根據上下文,一步一步推測出符合邏輯的答案;而 AI 檢測器的判斷邏輯與聊天機器人生成內容的方法類似:如果一段文章非常順暢,沒有讓系統產生「困惑」或「突發性」的狀況,檢測器就很容易判斷其為 AI 生成的內容。

延伸閱讀:聊天機器人總是「不懂裝懂」?因為它有幻覺、它不是故意的

什麼叫做產生「困惑」或「突發性」呢?舉例來說,我想要一杯 __。在大部分的狀況下空格會填入「水、咖啡」等等,而經過訓練的語言模型也會產出類似的答案。但如果在空格填寫「蜘蛛」,這句話不符合邏輯,系統就會感到「困惑」或是具有「突發性」,判斷為非生成式 AI 產出的內容。

不過,人類時常利用低困惑度或是低突發性的方式來寫作。例如法律相關的正式文件,具有高度結構化、一致型的書寫方式讓系統容易造成誤判;由非英語母語人士所撰寫出來的文章,有 98% 被 AI 檢測器標記為機器人生成的內容;也有大學學生被教授指控,期中考利用生成式 AI 作答,但經過調查後發現是 AI 檢測器判斷錯誤。

訂閱《AI TOgether》趨勢週報!
每週幫你精選 AI 主題報導

感謝訂閱!隨時注意信箱的最新資訊

目前還沒有有效方法能檢測生成式 AI 產出的內容

現在由生成式 AI 所產出的內容可以盡量接近人類的寫作,語氣自然而且帶有節奏感,而人類的寫作也會盡量像機器人,段落明確而且邏輯清晰;這兩者之間的界線越來越模糊,讓工具來判定是否由 AI 所生成的內容將會越來越困難。

換個角度想,與其利用檢測工具和學生諜對諜,不如接受生成式 AI 成為輔助工具呢?

沃頓商學院的教授 Ethan Mollick 和一些教育工作者已經接受生成式 AI 的輔助,甚至積極推廣使用。 Ethan Mollick 認為生成式 AI 除了提升效率之外,可以讓學生更了解資訊的準確性和判斷錯誤訊息的能力。

成為 AI 時代下的雲端人才:立即取得「免費」AWS 證照輔考服務&備考課程資格!

參加活動,還能以 5 折考 AWS 證照、再抽 10 位全額免費(價值 $ 4,500)

*本文開放夥伴轉載,參考資料:《arstechnica》《INSIDER》《USATODAY》One Useful Thing,圖片來源:pixabay

(責任編輯:鄒家彥)