期末報告有救了!中國留學生研發 AI 論文機器人,讀文獻、寫摘要跟下結論都難不倒它

【為什麼我們要挑選這篇文章】寫論文是個大工程,除了要閱讀上百篇文獻、找出關聯性,還要調整論文的格式,讓它符合規範。因此有中國的留學生開發 PaperRobot,實現了用 AI 寫論文的技術,而且摘要、結論寫得比人類還好。快來認識這款強大的機器人吧!(責任編輯:郭家宏)

期末季,誰的身上不背著十幾個 deadline?

面對浩如煙海,怎麼讀也讀不完的文獻,提不出的問題,想不出的創新點,還有繁瑣的論文格式,你可能也在幻想,「如果這時候能有一個論文機器人,幫我寫論文就好了」。

有一群大學生,正在把幻想變成現實。

最近,幾個在美國的中國留學生在聯合撰寫的論文《PaperRobot: Incremental Draft Generation of Scientific Ideas 》,提出並初步實現了運用 AI 寫論文的想法,這篇論文已經被 ACL 2019 收錄。

論文傳送門
GitHub 傳送門

中國留學生開發 PaperRobot,摘要、結論寫得比人類更好

本文的作者分別來自壬色列理工學院、DiDi 實驗室、伊利諾伊大學香檳分校、北卡羅來納大學教堂山分校和華盛頓大學。

其中,論文一作 Qingyun Wang (王清昀)是壬色列理工學院的大四本科生,正準備攻讀電腦科學的博士學位。

他們開發的 AI 學術助手叫做 PaperRobot,可以幫助構建論文的背景知識圖,寫摘要、關鍵內容和標題,梳理結論並給出進一步的研究方向的建議。

工作流程

論文機器人的誕生有其現實必要性,PaperRobot 目前主要應用於生物醫學領域,這個領域已有的論文數已超過二千六百萬份,近年來更是持續呈現爆發式的成長,每年發表的論文超過一百萬份。

論文越寫越多,但是人類的閲讀能力卻原地踏步。

在 2012 年,美國科學家提出,人類平均每年只能閲讀 264 篇論文,這個數字與他們在 2005 年進行的同樣調查中報告的數據是一致的。而論文機器人能幫助學者快速從海量的已有研究中,篩選出寫論文需要的材料,讓你真正站在巨人的肩膀之上,節約大量的時間。

測試結果

研究者使用圖靈測試來檢驗了 PaperRobot 生成的論文部分(摘要,結論和進一步研究建議)。

結果表明,喜歡 PaperRobot 生成摘要的讀者要比喜歡人類寫的摘要的讀者多 30% 以上,結論部分投給 PaperRobot 的讀者要多 24%,研究建議部分 12%

當 AI 進入學術領域,會如何影響國家的科研發展?

8/10(六) 【科技報橘 2019 年度論壇】CONNECT 2030 What’s The Future,一次掌握未來十年 AI 最重要趨勢!

PaperRobot 能大量閱讀文獻、找出關聯,還能生成新標題

PaperRobot 主要是借助自然語言處理(NLP)和自然語言理解(NLU)的最新進展而設計和開發的。主要工作流程是從已有的論文中提取知識,構建知識圖譜,然後提出新的想法並協助寫出論文。

快速閲讀已有論文

PaperRobot 可以快速閲讀已有論文,對指定領域的大量已發表的論文進行深入的理解,構建背景知識圖(KG)。

研究者應用的是 Wei 等人在 2013 年提出的實體和關係提取系統,他們輸入生物醫學領域的已發表論文,PaperRobot 從中提取出 3 類知識概念:疾病、化學和基因。然後進一步將所有知識概念類型連結到 CTD(比較遺傳毒理學數據庫),提取出 133 個子類型的關係,例如標記/機制、治療和提高表達。

之後 PaperRobot 就構建出如下的背景知識圖。其中每個節點代表不同的知識概念,邊表示這些實體之間的關係。

新靈感的萌芽

新的科學發現可以看作是在已有的知識圖中創建新的節點或連結。創建新節點意味著在實驗室實打實地通過一系列的實驗發現新的概念(如新類型的蛋白質),這對 PaperRobot 來說有一些困難。但是以背景知識圖,也就是現有的知識概唸作為起點,發現新的連結還是可以實現的。

已有研究表明,在 640 萬篇生物醫學和化學論文中,60% 以上是增量式,也就是創造新連結的工作。所以 PaperRobot 所做的,通過背景知識圖(KGs)中的新連結來自動地增加新想法和新假設是有意義的,可以成為科學進步的重要起點。

在這裡論文提出了一種新的實體表示方法,也就是結合了背景知識圖和非結構化上下文文本來進行連結預測,從背景知識庫中連結已有知識而產生新的想法。

上圖中的虛線就是 PaperRobot 預測的新的連結,由於鈣和鋅在上下文文本訊息和圖結構上都相似,PaperRobot 預測了與鈣可以發生關係的兩個新鄰居:CD14 分子和神經纖毛蛋白 2 (neuropilin 2),它們在背景知識圖中與鋅相關聯。

寫作階段:解決你最頭疼的格式

把新想法清晰地傳達給讀者是一件非常困難的事情,許多科學家可能想法很好,卻表達不出來。PaperRobot 使用一個新穎的 memory-attention 網路架構,基於輸入的標題和預測的相關實體,可以自動寫出了一篇新論文的摘要,還可以寫出結論部分和建議部分,甚至還可以生成新的標題。

範例:PaperRobot 寫的部分論文

論文機器人 SCIgen 生成假論文和假教授,騙過多個學術機構

論文機器人的幻想早已有之,早在 2005 年,麻省理工學院(MIT)電腦科學與人工智慧實驗的三個學生 Dan Aguayo、Max Krohn 和 Jeremy Stribling 就曾經一起開發過一款自動生成論文的小程式 SCIgen。

SCIgen 是一個網頁程式,只需輸入作者名,就可以自動生成一篇「SCI 等級」的電腦論文。摘要、背景介紹、實驗結果、圖表、討論以及結論一應俱全。生成的論文格式可能比一些學生寫的論文還要規範。

當 AI 進入學術領域,會如何影響國家的科研發展?

8/10(六) 【科技報橘 2019 年度論壇】CONNECT 2030 What’s The Future,一次掌握未來十年 AI 最重要趨勢!

但是,與 PaperRobot 不同,SCIgen 根本無法通過圖靈測試,因為它生成的論文只有格式正確,內容完全是不知所云。

SCIgen 的原理很簡單,類似於填字遊戲。因為學術論文的格式非常固定,而且基本都是固定的專業詞彙和句式,SCIgen 只需要從固定的詞庫中,隨機抽取出這類計算機領域內的專業術語,以符合語法的方式生成文本,再加上一些漂亮的圖表和詳細的參考文獻等,形式上就可以非常規範,從而能騙過不少外行。

例如這篇生成的論文名為《Rooter:處理接入點與冗餘的典型合一方法》,看起來用詞非常深奧,但是內行人仔細閲讀就會發現文章只是語言和術語的堆砌,沒有什麼實質性的內容。

但是諷刺的是,WMSCI(系統論、控制論與信息論多學科國際會議)會議不但接受了這篇假論文,還邀請作者出席會議作報告。

MIT 三個大學生開發這款軟件的目的其實就不是為了幫自己寫論文,而是為了揭露 WMSCI 之類的不認真審查論文的期刊和會議。

在他們把 SCIgen 攻陷 WMSCI 的事情經過發到網上之後,WMSCI 顏面掃地,迅速刪除了論文,IEEE(美國電氣和電子工程師協會)還撤回了對該會議的贊助。SCIgen 因此也被戲稱為「學術釣魚軟件」。

之後又有德國學生發現了這個神器,分別於 2008 和 2009 年向在中國武漢舉辦的兩個 IEEE 國際會議投稿,結果機器虛擬的 Schlangemann 教授還被當成了知名學者,被邀請作為會議的主持人。

這之後康乃爾大學數學系博士後 Nate Eldredge 又根據 SCIgen 進行了改編,做出了名為 Mathgen 的電腦論文自動生成器。並在 2012 年用一個北達科他大學霍普分校的 Marcie Rathke 教授的假身份,向期刊《理論數學進展》(Advances in Pure Mathematics)投遞了一篇論文,這篇論文正是用 Mathgen 自動生成的。

雖然論文摘要每句話都看起來很厲害的樣子,但實際上就是在一本正經地胡說八道。但是 10 天之後,這篇論文就被接受了,編輯還像模像樣地寫了 5 點修改意見。

現在 SCIgen 的訪問量依然驚人,每年的瀏覽量超過 60 萬次,無數假論文源源不斷地產出,導致這個頁面隔幾個月就要崩潰一回。

2013 年,法國格勒諾布爾大學的研究員 Cyril Labbé 透露,他在 IEEE 和 Springer 出版公司旗下的期刊中,發現了超過 120 篇 SCIgen 生成的假論文。

SCIgen 傳送門

論文機器人只能用於輔助,不該將寫論文的任務全權交給它

機器自動生成的假論文卻被真的學術會議收錄,這背後暴露的是學術審查的不嚴謹。

對於 PaperRobot,也有人提出質疑,如果 AI 繼續發展,寫出的論文到了無可挑剔的地步,未來學生可以完全借助 AI 的幫助,自己不用動腦筋地寫論文,教授該怎麼打分呢?

從學術釣魚軟體 SCIgen 到靈感提供者 PaperRobot,從假論文到真助手。技術的進步可以幫助科研人員節約時間,也可以被學生用於學術造假。

翟天臨最近又上了熱搜,原因是繼 2 月「學術不端事件」爆發後,教育部加強對於學術論文的檢查力度。這讓畢業季和期末季改論文改到心力憔悴的學生們怒從心起,紛紛衝向了翟天臨的微博評論區開始發洩痛苦。

這也引起了一些網友的批評,翟天臨學術不端時被全網唾棄,可對學術成果的嚴格要求放在自己身上卻不情願了,做好學術論文難道不應該是一個學生的本職嗎?

當初每一個年輕人都是都懷抱著以學術為業的初心,受到學術理想的旗幟的感召進入學術圈。我們在一個問題想不明白的時候會整夜整夜地輾轉反側,在靈感迸發的時候會欣喜若狂,在受到不公正的待遇,不客觀的審查的時候會忿忿不平想要高聲吶喊。

回到柏拉圖《理想國》第七卷的開頭:那些被鐵鏈鎖著的岩洞裡的人只能看到光線透在岩石上的影子,直到有個人掙脫了腳鐐,回身看到了太陽。他在目眩中四處摸索,逐漸適應了注視光明,此後他的任務便是爬回岩洞的囚徒那兒,率領他們回到光明之中。

科技不斷進步,也許有一天借助 AI 每個人都可以寫出完美的論文,但是只有背後的研究者真正知道它是怎麼寫出來的。技術的進步可以安排好我們的生活,但只有科學的進步才能讓我們透視技術的本質,在影子之外看到太陽,不理會幻覺和影子,找到真正的存在。

開發論文機器人也只能用作輔助,不可能讓他代替寫論文。學術圈生態的維護需要從寫作者本身到審查者都端正態度,安心做好冷板凳。

所以還是好好寫論文吧!

(本文經 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈拯救期末!大四留学生发“论文机器人”,替你读文献给方向调格式,已被ACL2019收录〉 。首圖來源:大數據文摘

更多 AI 機器人相關消息

10 美元訓練機器人!麻省理工學院發布低成本感測器手套,物體識別率可達 76%
童子賢:現在的機器人只有「小學程度」,不必擔心人類工作被取代
【專訪】台灣新創 AI 寶寶攝影機 Cubo 進軍美國,背後強大的 AI 技術是怎麼鍊成的?

AD