每天審查 100 篇論文!辭掉醫藥研發總監之後,她成了一名「學術警察」

【為什麼我們要挑選這篇文章】學術論文很常有錯誤與造假的狀況,因此就會有熱心的人士去抓錯、打假。Elisabeth Bik 做了 15 年的學術研究後,意外發現論文的錯誤,從此踏上了「打假之路」,還邀請朋友、網友一起來找錯。

以下是 Bik 的神奇故事。(責任編輯:郭家宏)

密集警告!

先來感受下這場地獄級別的連連看:這是 16 小塊實驗數據圖,你能看出哪些塊存在相似的地方嗎?

文摘菌(本文作者)看了一會兒就頭昏眼花,但是,你相信嗎?有人可以用肉眼一下子看出其中相似的地方,而且,這就是她每天的日常工作。

這位「連連看高手」就是 Elisabeth Bik,人稱跨國論文打假王,專門尋找論文中的異常,目前已經對超過 49 個國家的研究學者公開發表的論文提出質疑。

她的特殊技能是,可以用肉眼瀏覽數十篇生物醫學類的論文,並尋找其中重複使用的圖像,這些重複圖像包括通過複製、翻轉、移動或旋轉圖像的一部分來建立「新」的實驗數據。

2019 年 11 月,在 PubPeer(可匿名討論論文的網站)上,南開大學的校長曹雪濤教授,有超過 40 篇論文的實驗圖像數據,被質疑存在重複異常。(事後曹教授被質疑的論文已進行更正)

2020 年 2 月,來自中國三甲醫院的 400 多篇論文被她質疑是論文工廠代寫,論文中的實驗圖像數據以及寫作邏輯都存在問題。

本月初,Bik 質疑中國醫學科學院動物研究所所長秦川團隊,在 Nature 上發佈的論文存在重複圖像,5 天后秦川團隊回應:誤用一張病理學實驗數據圖片,已向 Nature 提交更正。

沒錯,這些異常都是她憑著火眼金睛找到的。

走上打假之路之前,Bik 也是一名普通的研究者。

1997 年,Bik 在荷蘭的烏得勒支大學(Utrecht University)結束了她從理學碩士到博士後的研究學習生涯,並於 2002 年去史丹佛大學做助理研究員,此後 15 年都在研究人類以及哺乳動物的微生物群方向,直到 2019 年開始「全職」進行論文打假工作。

意外發現論文怪異之處,讓 Bik 走上打假之路

Bik 論文打假工作開始於 2013 年的一次小意外。當時 Bik 出於好奇,去搜尋了一下自己已發表論文中引用的參考文獻,沒想到其他人沒有按照學術規範表明,進行引用文獻說明。

接著,她在審核一篇博士論文的時候,發現其中的一張實驗圖像:蛋白質印跡的分佈規律十分奇怪,更為奇特的是她在論文的另外一章裡也看到了這張圖像,論文裡是將這張圖像作為兩次不同的實驗結果,但 Bik 認為該圖像不僅本身存在問題,而且還用在兩個不同的實驗中。

由於該論文已經公開發表了,她為了不讓其他研究者因為這篇有錯誤的論文,而開始錯誤研究的路,就向該期刊的編輯發送郵件說明這個問題,並在同年 6 月在 PubPeer 網站上對該論文進行匿名評價。

經過一番調查,相關論文被撤回,而這篇涉嫌篡改數據的論文,讓 Bik 一戰成名。

接下來,Bik 開始對尋找造假實驗圖著迷了,由於看論文非常耗費時間,所以她辭掉了醫藥公司的研發總監工作,專心進行論文打假。

Bik 對論文打假比本職工作更有激情,她每次提出質疑不止一篇而是好幾篇,甚至是幾百篇打包式質疑,並及時通過和期刊編輯聯繫,對存在異常的論文進行更正或者撤稿。

Bik 邀請朋友合作,建立「打假流水線」

由於論文數量比較多,她還找到志同道合的朋友一起合作,Bik 負責篩查論文,並將篩查出的問題論文結果,傳給兩位朋友:微生物學家 Arturo 和 Fang 進行審核,儼然一條論文打假流水線。

他們一共對 2 萬多篇論文進行抽樣調查,結果發現了 782 篇論文存在圖像重複的情況。Fang 表示:「Bik 就像是魔術師,論文中的問題只有經她指出,我們才看得到。」

Bik 的日常是從早上開始看論文。有天她收到了來自比利時的科學家的求助信,信中聲稱:請幫忙看看附件裡的實驗圖像是否存在問題?

Bik 仔細看了圖像,發現該蛋白質印跡圖像屬於存在異常的,通常蛋白質印跡條帶分佈圖(一種檢測生物樣品中蛋白質的通用測試結果)是模糊,而且類似圓滑的黑色毛毛蟲狀,但圖像上是邊緣非常尖鋭,而且像素化的特徵非常明顯。

正常的實驗圖像可能會存在類似的印跡分佈,但不大可能出現完全相同的分佈。

當然也可能存在圖片被壓縮後的痕跡,或者是研究者在準備圖像數據時不小心上傳了重複圖像,以及舊顯微鏡上的斑點導致每張圖上都有奇怪的斑點。她還需要參考論文的其它地方再來判斷是否存在重複圖像的問題。

不僅自己打假,還將論文發到 twitter 讓網友一起「找碴」

雖然她在自傳裡評價自己是直率又刻薄,但她同時又極度內斂。

在她打假成名之後,有非常多的人給她發郵件、發消息,希望她能幫忙看看已發佈的論文是不是存在問題。由於數量太多,讓她忍不住發推聲明:因為詢問的人數太多,所以她可能無法及時跟進。並且在這些求助資訊裡,還存在團隊或同事之間的不信任,「做一個誠實的科學家真難。」

雖然 Bik 對於目前的打假工作充滿熱情,但還是會受到威脅和騷擾。比如經常收到私訊被罵,推特頻繁被下線,寫郵件給前同事說壞話之類的情況。

要知道,論文打假行業不是只有她一位論文警察,但只有她是公開使用真名發佈打假資訊。

她開始在每篇文章的開頭寫上:這篇文章不是對學術不端的批評。

由於 Bik 持續打假,她的粉絲量在一年內翻了三倍。她不僅自己尋找問題,還將發現有問題的論文提前發到推特上,看誰能先找出來問題,並號召大家一起來找碴,第一個答對的人有獎勵,甚至還有粉絲找到了她都沒有找到的隱藏彩蛋。

她保守估計,自己至少導致了 172 次論文退稿,以及超過 300 次修改。

每天看 100 篇論文,建構重複圖像查詢系統

Bik 一天可以精讀大約 100 篇論文,並向她的數據庫中添加 1 到 20 個配對數據。當一張重複的問題圖像反覆出現,以及一張熟悉的問題圖像再次出現時,系統就會出現提示。當收集的圖像數據足夠多時,系統就可以自我總結規律,比如多次出現問題的研究者就會重點審核。(敲黑板警告)

雖然 Bik 表示她不針對任何人,但數據庫裡問題最多的研究者的國籍是中國和印度,低影響力的期刊有更多的重複圖像。

根據這個數據庫,Bik 在和電腦科學家合作開發一款自動查詢重複圖片的軟體,希望可以在數百萬篇論文中發現重複使用的圖片。

「很遺憾,我們不能複製 Elisabeth Bik,」紐約雪城大學的電腦科學家 Daniel Acuna 說,他的小組是專門研究問題圖像檢測演算法,儘管 Bik 擅長在單篇論文裡尋找複製的圖像,但電腦可以透過比較數十萬篇或數百萬篇論文,來幫助找到兩篇論文之間的更多的重複,這對人類來說幾乎是不可能的任務。

2018 年,Acuna 的團隊在 bioRxiv 預印伺服器上發佈了分析的初步結果,該分析結果從 760,000 篇論文中提取了 200 萬張圖像。

AI 能替代人類打假嗎?

事實證明,計算量太大,根本無法將每張圖像彼此進行對比,但是該團隊研究了同一作者在論文內部和跨論文的圖像重複,在手動檢查了軟體標記的 3,700 多個配對圖像的樣本後,研究人員確認了 40 篇異常論文,其中幾乎一半涉及同一張圖像,用於在不同的論文中代表不同的結果。

當前的技術擅長檢測複製,翻轉或旋轉的完全相同的副本。Resis 公司有款軟體,可以檢測論文是否使用重複圖像。比較麻煩的是,例如兩張圖像共享一小塊重疊區域,但在其它方面完全不同。這時,軟體就失效了。

Bik 給 Acuna 提供了更多的樣本數據來訓練機器學習演算法,其中包含了大量重複的圖像數據。愛思維爾(Elsevier)也在研發同類型的數據庫,現有 500 個生物醫學方面的樣本數據,主要是來自撤回論文的圖像數據。

Bik 對目前能用的軟體都不滿意。她相信未來會有電腦程式來進行篩選,但人們將始終需要審核結果,尤其是要審核在某些情況下的圖像,存在部分相似的情況。

就這樣,Bik 倒了一杯咖啡,坐在桌旁繼續看論文,落地窗外是滿滿的果樹和植物。

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈日读论文 100+,AI 都替代不了!辞去医药研发总监后,她成为了一名全职学术警察 〉。首圖來源: 大數據文摘

延伸閱讀

【算力 = 500 台超級電腦】研究人員集結百萬台電腦算力,解析新冠病毒的蛋白質結構
電動車將產生 1,100 萬噸的電池垃圾,「回收技術」是未來的研究重點
因為全世界人類被禁足,地震科學的研究數據瞬間變精準了

點關鍵字看更多相關文章: