
【我們為什麼挑選這篇文章】GLUE 的全名是通用語言理解評估(General Language Understanding Evaluation),一種用於評估 NLP 模型的基準,先前微軟、Google和 Facebook 的模型陸續刷新了 GLUE 測試成績。為推動技術進一步發展,Facebook、DeepMind、紐約大學和華盛頓大學等機構於 2019 年 8 月提出的新 NLU 測試基準SuperGLUE,這次巨頭們的 AI 模型測試結果如何呢?(責任編輯:徐宇儂)
本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處
作者:量子位
自然語言理解(NLU)迎來新的里程碑。
在最新的 NLU 測試基準 SuperGLUE 中,人類首次被 AI 超越了。
SuperGLUE 相比「前輩」GLUE 大大提升了問題的難度,提出一年多以來,人類一直處於第一位。如今,人類一下子被兩家 AI 超越。
一個是來自微軟的 DeBERTa,一個是來自谷歌的 T5+Meena。
超越人類的兩大 NLU 模型
對 NLP 領域的人來說,微軟 DeBERTa 模型並不陌生,早在去年 8 月微軟就開源了該模型的程式碼,並提供預訓練模型下載。
最近,最近微軟訓練了更大規模的模型,該版本由 15 億參數的 48 個 Transformer 層組成。增大規模帶來的性能提升,使單個 DeBERTa 模型 SuperGLUE 上的得分(90.3)首次超過了人類(89.8),居於榜單首位。
DeBERTa(注意力分離的解碼增強 BERT)是一種基於 Transformer 的神經語言模型,使用自監督學習對大量原始文本語料庫進行預訓練。
和其他預訓練語言模型(PLM)一樣,DeBERTa 旨在學習通用語言表示形式,適應各種下游 NLU 任務。DeBERTa 使用三種新技術 — 分離的注意力機制、增強的掩碼解碼器和一種用於微調的虛擬對抗訓練方法。改進了以前的最新 PLM(如 BERT、RoBERTa、UniLM)。這項研究是由微軟研究團隊的四位華人學者完成。
另一超越人類的 AI 是由 CMU 博士生王子瑞提交的 T5+Meena,這兩項技術均來自谷歌。
其中,Meena 是一個 26 億參數端到端訓練的神經對話模型,它具有一個演進 Transformer 編碼器塊和 13 個演進 Transformer 解碼器塊。
編碼器負責處理對話上下文,幫助 Meena 理解對話中已經說過的內容。然後,解碼器使用該資訊來製定實際回應。
T5 是谷歌去年提出的「文本到文本遷移 Transformer」,也就是用遷移學習讓不同的 NLP 任務可以使用相同的模型、損失函數和超參數,一個框架在機器翻譯、文檔摘要、問答和情感分析上都能使用。
T5 最大的模型具有 110 億個參數,早在推出之時就取得了 SuperGLUE 上的最高水平,至今仍僅次於榜單前二模型和人類。
關於 SuperGLUE
SuperGLUE 是由 Facebook、紐約大學、華盛頓大學和 DeepMind 四家機構於 2019 年 8 月提出的新 NLU 測試基準,以取代過去的 GLUE。
由於之前微軟、谷歌和 Facebook 的模型連續刷新 GLUE 基準測試得分,已有不少 AI 模型超越了人類的表現,因此 GLUE 已不能順應 NLU 技術的發展,SuperGLUE 應運而生。
我們從最初的 GLUE 基準測試中吸取的經驗教訓,並推出了 SuperGLUE,這是一個採用了 GLUE 的新基準測試,具有一系列更加困難的語言理解任務、改進的資源和一個新的公共排行榜。
四家機構在 SuperGLUE 的官方文檔中如圖示。
SuperGLUE 總共包含 10 項任務,用於測試系統因果推理、識別因果關係、閱讀短文後回答是非問題等方面的能力。SuperGLUE 還包含 Winogender,一種性別偏見檢測工具。
這些問題用當前最先進的算法還不能很好地解決,卻很容易被人類理解。
尤其是「選擇合理的替代方案」(COPA)這一項因果推理任務。它要求系統能根據給出的句子,在兩個選項中找出可能的原因或結果。比如:
那個男人的腳趾斷了。這是什麼原因造出的?
備選答案 1:他的襪子上有一個洞。
備選答案 2:他把錘子掉在腳上了。
人類可以在 COPA 上獲得了 100% 的準確率,而 BERT 只有 74%,這表明了 NLU 還存在巨大的進步空間。
現在 SuperGLUE 上超越了人類表現,微軟的研究人員認為:「這是通向通用 AI 的重要里程碑」。
◆ 微軟 DeBERTa 開源程式碼與預訓練模型:
https://github.com/microsoft/DeBERTa
◆ 谷歌 T5 和 Meena:
https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
https://ai.googleblog.com/2020/01/towards-conversational-agent- that-can.html
參考來源:《VentureBeat》、《Microsoft》
(本文經 AI 新媒體量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 AI在這張“問卷”上首次超越人類,SuperGLUE被微軟谷歌兩家“攻破”〉;首圖來源:)
看更多人工智慧
• 《Nature》一期連登兩篇!光子加速 AI 運算,速度達每秒數萬億次
• Alexa 首席科學家大膽表態:「圖靈測試」已過時!AI 應追求新的衡量標準
• DeepMind 巨虧 180 億、加拿大獨角獸遭 3 折賤賣,AI 公司為何難有「好下場」?