美國科學家開發有推理能力的「學霸 AI」,能夠答對 90% 以上的國中科學考題!

【為什麼我們要挑選這篇文章】對人類來說,邏輯推理並不難,對 AI 來說則是大工程。近期美國科學家研發具有邏輯推理能力的 AI,通過了美國八年級的科學考試,研究團隊表示,雖然「比不過人類」,但這代表 AI 具備了推理分析能力。

研究團隊使用怎樣的模型與演算法,打造這款「學霸 AI」?它對科學發展又有什麼意義?(責任編輯:郭家宏)

一個名叫亞里斯多德的人工智慧,近期通過了美國八年級的科學測試,這條新聞佔據了美國多家新聞網站的首頁。

美國八年級大概相當於中國初二(在台灣是國二程度),國二小朋友的科學測驗有多難呢?

要回答這個問題,我們先來一起看兩道美國八年級的科學測驗多選題。

1、人體中能夠協同完成某一項具體機能的組織被稱為:
A. an organ
B. an organism
C. a system
D. a cell

2、以下哪一種變化最有可能導致某一區域的松鼠數量減少?
A. 捕食者的數量減少
B. 松鼠內部的競爭減少
C. 可獲取的食物減少
D. 森林火災數量的增加

很顯然,這兩道題分屬兩類不同類型。第一題屬於知識題,只要背過書就能回答;第二道則屬於邏輯推理題。

多數小朋友可能更願意回答第二題這種邏輯推斷的題目,但對於人工智慧來說,情況可能恰恰相反。

人工智慧做八年級程度的考卷,正確率超過 90%

上週三,坐落於西雅圖的著名實驗室「艾倫人工智慧研究所」發佈了一款名為「亞里斯多德(Aristo)」的人工智慧系統,它正確地回答了超過 90% 的八年級科學測驗題,並在十二年級的考試中獲得了 80% 以上的準確率。

這款能夠通過測試能力的人工智慧表明,研究人員在幾個月中取得了巨大的進展,人工智慧系統可以理解語言並能模擬人類的決策邏輯。

Aristo 的設定是只用來作答多項選擇題。它參加了幾場紐約考生的標準考試,只不過艾倫研究所去除了那些包含圖片和圖表的題目,回答這些問題需要額外的技能——將語言理解和電腦視覺邏輯相結合的能力。

有些測試問題只需要一些資訊提取的能力,比如上文中的第一題,這種題目是人工智慧擅長的。

然而科學測試不是那種只靠記住規則就能完成的事情,它需要使用邏輯來建立聯繫。比如第二題,森林火災數量的增加會直接導致松鼠的死亡,或食物來源的減少使它們無法繁衍。人工智慧需要理解這樣的邏輯,才能回答正確這道題目。

其實在 Aristo 成功之前,AI 已經陣亡多次。

2016 年,700 多名電腦科學家參加了一場設有 80,000 美金(約新台幣 248 萬元)的挑戰賽,題目是「八年級科學測驗」——不過答題人不是這些科學家,而是他們建立的人工智慧系統。

結果出乎意料,考生全數「陣亡」,就連最成熟的人工智慧系統都無法答對超 60% 的題目,其語言和邏輯水準遠遠趕不上八年級的學生。

運用 BERT 模型打造學霸 AI

2016 年,當 AlphaGo 擊敗人類職業圍棋選手李世石後,許多人認為人工智慧的轉折點來臨。

然而,華盛頓大學前教授、現任艾倫人工智慧研究所技術總監 Oren Etzioni 博士的興奮之情很快平息了。他說,人工智慧並沒有它看上去那麼先進。他提到了艾倫研究所之前參加的那場比賽,一個八年級的科學測試就難住了人工智慧系統。

艾倫研究所迅速改良了之前的工作,著手於打造 Aristo,其速度超出了包括 Etzioni 博士在內的許多專家的預期。

Aristo 的應試能力來自於神經網絡,近幾年以來,世界頂尖的人工智慧實驗室,如 Google、Facebook 等企業的實驗室都利用神經網絡進行自然語言處理(NLP),它可以透過分析人類的文章和書籍來學習語言的複雜變化。

去年年底,谷歌 AI 團隊發佈了 BERT 模型,在機器閲讀理解頂級水平測試 SQuAD1.1 中表現出驚人的成績:全部兩個衡量指標上全面超越人類,並且還在 11 種不同 NLP 測試中創出最佳成績,包括將 GLUE 基準推至 80.4%,MultiNLI 準確度達到 86.7% 等。

BERT 的全稱是 Bidirectional Encoder Representation from Transformers,即雙向 Transformer 的 Encoder,模型的主要創新點在於模型的預訓練,用 Masked LM 和 Next Sentence Prediction 兩種方法分別捕捉語句的表述。

BERT 模型架構

Etzioni 博士很快就意識到,可以在 BERT 基礎之上建立 Aristo 系統,他們利用 BERT 模型對覆蓋面極廣的問題和答案數據進行訓練。

Aristo 根據題目的不同類型,採用了八種類型的 agent 來回答問題——包括數據庫中尋找答案的 agent、檢查相關概念列表的 agent、執行定性推理的 agent 等。

每個 agent 都會對多項選擇答案產生正確與否的機率,而 Aristo 會對不同的選項的機率進行加權,以選擇最可能的一項或多項,該模型透過多輪訓練和校準進行優化。

例如,有一個問題是:當固體融化時,鐵塊中的鐵原子是如何受到影響的?
A. 鐵原子增加質量。
B. 鐵原子含有較少的能量。
C. 鐵原子移動得更頻繁。
D. 鐵原子體積增加。

為了回答這個問題,Aristo 先尋找出「鐵原子隨著熱量增加而運動加快」的知識,將術語「融化」與「熱量」聯繫起來,將術語「快」與「頻繁」聯繫起來,並將 C 評定為正確選擇。

結合不同解決問題的方法,為 Aristo 將測試分數從 2016 年的大約 60% 提高到今年的 91.6% 開了道路。在 12 年級考試中,該模型得分率為 83.5%。

Aristo 不斷提升的答題準確率

AI 單純處理語言還好,還要同時邏輯推理就是大挑戰

部分科學家對 Aristo 取得的進展並沒有抱以太大熱情,他們認為機器離完全掌握自然語言還有很長一段路要走,更不用說真正像一個人類學生那樣思考了。

「我們不能拿這項技術和真正的學生,以及他們的邏輯推理能力相比。」已在微軟參與多項類似技術研發的研究員 Jingjing Liu 講道。

Liu 和她的微軟同事曾嘗試建立一個可以通過 GRE 考試的系統——GRE 是美國研究生入學的必考測試。

Liu 表示,處理語言部分是可行的,但是建立可用於處理數學問題的邏輯推理能力就是另外一回事了。「這實在是一項太有挑戰性的工作了。」

但從商業角度來看,從網路搜尋引擎到醫院的文檔記錄系統,Aristo 的這一進展將對很多產品和服務產生廣泛影響。

根據紐約時報的報導,Etzioni 博士表示:「這項技術會帶來重要的商業成果。目前我能自信的說,你們將會看到這一進展帶來的新一代產品,可能來自創業公司,也可能來自大公司。」

「這項技術仍處於初級階段,」Fast.ai 的技術總監 Jeremy Howard 說道,「但是其技術的潛能是無限的,我們離充分發掘這項技術的潛能還很遙遠。」

Aristo 也是艾倫研究所創辦人的遺願

艾倫研究所命名自微軟的聯合創辦人保羅.艾倫(Paul Allen),他在 2013 年成立了艾倫人工智慧研究所,希望能夠著手解決人工智慧發展的重大問題。

把「八年級科學測驗」作為題目的人工智慧科學挑戰賽,其實源自於這位西雅圖億萬富翁的一個私心:他希望研究人員設計出一個足夠聰明、能夠通過八年級科學考試的人工智慧程式。

自創立後,艾倫研究所的研究人員便一直致力於建造這個聰明的人工智慧程式:Aristo。

這不是一件容易的事,五年來研究者們嘗試了無數次,但是一直沒有達到艾倫希望的效果。

然而去年 10 月份,還沒有來得及見證 Aristo 的誕生,享年 65 歲的艾倫去世了。

在不同的電子郵件中,Aristo 的作者 Etzioni 和 Clark 都對保羅.艾倫表示了敬意。當被問到「這樣的系統艾倫是否可以滿意」的時候,兩人都表示:不會。

「保羅會非常高興,但不會讓我們滿足於現有的榮譽,」Etzioni 說,「他會問:NLP 的下一個重要階段是什麼?」

「我可以想像他會說『恭喜你!但下一步是什麼?』」

原文報導:
A Breakthrough for A.I. Technology: Passing an 8th-Grade Science Test
Allen Institute’s Aristo AI system finally passes an eighth-grade science test

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈模仿人类逻辑,首个 BERT 模型 AI 通过初二科学考试!研究人员:完成了老板遗 愿〉。首圖來源:Pixabay CC Licensed)

更多厲害的 AI

【特斯拉自駕車晶片大揭密】一台車安裝兩個 AI 晶片,馬斯克誇口全世界最強
從量子物理轉戰 AI 醫療,這個清大博士挑戰醫界超高難度領域:病理學影像 AI 分析
機器學習演算法的三大陷阱:人類看不到,但 AI 看得一清二楚的「隱藏變數」


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: