Alexa 首席科學家大膽表態:「圖靈測試」已過時!AI 應追求新的衡量標準

首圖來源:Pixabay

(本文經合作夥伴 品玩 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈Alexa 首席科學家:圖靈測試對 AI 沒啥意義了 〉;首圖來源:Pixabay)

【我們為什麼挑選這篇文章】你是否曾經思考過,人工智慧的終極目標究竟是成為什麼,是成為一個「人」嗎?亞馬遜副總裁兼 Alexa 首席科學家帶出一個極為突破性的觀點,或許,我們都重新定義 AI 是什麼、適合用在什麼目的,以及我們對「它」的期待?(責任編輯:徐宇儂)

圖靈測試,不再適用了嗎?

近日, 亞馬遜副總裁兼 Alexa 首席科學家 Rohit Prasad 在《快公司》上發表了文章,做出了一項大膽的表態: 圖靈測試已經失去了意義,是時候建立一個新的 AI 衡量標準了

「機器能否思考?」 這是加密學和人工智能先驅 阿蘭.圖靈在 70 年前論文 Computing Machinery and Intelligence 的核心問題。他在論文中 提出了一個 思想實驗,叫做「模仿遊戲」(imitation game), 用於檢測電腦是否能表現出與人等價或無法區分的智慧

測試的內容,簡單來說是這樣的:如果一個測試者對無法確認身份的兩個對象(一人、一機器)提出相同的一系列問題,得到的答案讓他無法區分究竟誰是機器,誰是人,那麼則認定機器通過圖靈測試。當然在實際中測試規則更加複雜,比如需要引入更多的測試者等等。

這個思想實驗被後人歸納為圖靈測試,也成為了衡量人工智慧的「智能性」的最常用標準 。「機器能否思考」這個問題,也橫跨了一整個世紀,指導了後世的電腦和人工智慧技術革新。

圖靈測試(圖片來源:維基百科)

但為什麼在今天,有人要站出來說圖靈測試已經失去意義?

首先,Prasad 指出,圖靈在他的論文中就曾經預測,到 2000 年,一個普通人能夠在圖靈測試中正確區分出人和機器的可能性將降到 70% 甚至更低。然而,AI 研究者們也紛紛有話要說:你們能不能別光看圖靈測試了?那完全沒有意義啊!

圖靈測試無法體現 AI 進步

Prasad 表示,圖靈當年提出的這個目標對於像他這樣的 AI 科學家來說,並不是很有意義。AI 派上更大用場的地方是 植入到 手機、汽車和家裡 人們更關心的是 AI 能夠帶來哪些更新的互動體驗和技術進步 ,而不是通過測試的分數有多高。

從根本上,強行追求機器和人類無差別的概念,已經過時了。

機器和人有著天生的差別。人能夠隨機應變,舉一反三,都是機器普遍缺乏的能力。但機器也有它的長處,也就是快速計算和資訊查詢的能力遠強於人類,而 Prasad 指出正是這些能力構成了現代 AI 的核心。

電腦不如人類的地方,它用自己的長處去彌補,也能夠取得不錯的結果。 我們已經看到,在諸如視覺、自然語言處理等領域,最強的算法已經取得遠超人類的結果。

很多 AI 科學家都發現,其實讓 AI 在圖靈測試裡取得更好成績,要做的很簡單,只是讓電腦給出的答案盡量像人的答案就行了。比如在回答時插入停頓、優化語法等等。

正如剛才提到的,電腦的長處就是快速計算和資訊查詢。這些毫無難度的問題,計算機不到一秒鐘就已計算出或者查到答案。 只是回答得如果慢一點,甚至故意答錯,也許就通過測試了 …… Prasad 認為,圖靈測試所追求的,並非對 AI 長處的最佳利用 。AI 明明可以被用來做更多的事情去幫助人類,為何還要限制自己,去強行追求和人無差別呢?

以及, 圖靈測試在這麼多年裡都是基於文本的 ,而機器學習各領域的技術進步已經讓 AI 在視覺、聽覺、多感測器融合、決策規劃等諸多方面取得了長足發展 。一個最經典的例子就是以 AlphaGo 為代表的,足以在各種高難度博弈項目上擊敗最頂級人類選手的 AI。這些重大進展,很難在一成不變的圖靈測試當中得到體現。

新的衡量標準應該如何設計?

有了前面這些鋪墊,Prasad 進一步指出,新的衡量標準應該體現機器在效率上的優勢,比如 計算、搜索、代人完成任務 等等,應 綜合評價 AI 對人類智慧帶來的幫助,而不是執迷於抹平 AI 和人的區別

比如 亞馬遜舉辦的 Alexa 大獎賽 ,該獎項考察的是讓參賽者開發社交機器人,在一些社會層面熱門話題上和人類進行連貫、有價值對話的能力。 一個社交機器人的對話連貫性、自然程度越高,讓人類評審接下來更願意繼續對話,得到的分數就越高。 在所有的評判標準中,如果 AI 能夠表現出同理心和幽默,那麼可能會得到加分;但不論如何,AI 都不需要假裝成人類

另一個例子是機器學習算法平台 Kaggle 的「抽象和推理挑戰」,它考察的是參賽算法解決前所未有的推理任務的能力,也體現了 AI 在知識儲備、學習、決策推理等方面的長處。

當然,每年都會召開的眾多 AI 領域學術會議,特別是這些會議的獎項,也可以幫助人們評價一篇論文的優劣。

Prasad 指出,以 Alexa 為例 ,作為一個虛擬助手,它正在超越對話式的基礎,朝著 環境 AI(ambient AI) 的方向前進。 當需要時,AI 可以回答人類的請求,當不需要時,AI 可以消失在背景當中 ,但仍在主動地工作著 ,完成一些人類可能意識到或者意識不到的重要任務,比如基於多感測器融合的安防監控等等。

在眾多科幻電影的烘托下,人們嚮往著更加強大的「通用人工智能」。不過隨著 AI 技術進步和更多被應用到現實生活中,人們一邊對 AI 改善自己生活有了更多的期待,另一邊又對 AI 的使用甚至濫用所造成的道德困境提高了警惕。

正因為此,新的 AI 衡量標準,也應該在 道德、公平層面 有所顧及。畢竟,如果固化的遵從圖靈測試的標準的話,那麼 DeepFake 可能是全世界最優秀的 AI 了。

Prasad 最後強調,他並不想詆毀圖靈的初衷。但人們需要明白的是,被稱為圖靈測試的「模仿遊戲」,從始至終都是一個思想實驗,而非作為實用性人工智慧的終極測試。 在今天,圖靈測試已經成為老古董,被過度使用的弊端已經顯現,是時候把它放在一邊了。

(本文經合作夥伴 品玩 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈Alexa 首席科學家:圖靈測試對 AI 沒啥意義了 〉;首圖來源:Pixabay)

看更多人工智慧

• DeepMind 巨虧 180 億、加拿大獨角獸遭 3 折賤賣,AI 公司為何難有「好下場」?
• 【你敢說 AI 都能畫】OpenAI 新模型把文字變成超現實畫作,連「酪梨躺椅」都生出來!
• 實現用 AI 助人的願景!華碩 AICS 智慧工業安全防護平台的幕後推手


《TechTaiwan》國際版 2021 正式上線

國外都在關注台灣的哪些科技消息呢? 立即至 Facebook 按讚、Twitter 及 LinkedIn 追蹤,第一手國際趨勢、科技洞察都會在 TechTaiwan 官方網站 哦!

點關鍵字看更多相關文章: