deep learning

【為什麼我們要挑選這篇文章】AlphaFold2 預測蛋白質結構的準確度高達 92.4,逼近滿分,遠高於 AlphaFold 的 60,解決困擾分子生物學家幾十年的蛋白質結構預測問題。為什麼 AlphaFold2 的準確度可以大幅提升?下文,我們來了解 AlphaFold2 的技術轉變:Attention 模型。(責任編輯:郭家宏)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處
作者:量子位

最近,DeepMind 開源 AlphaFold2,讓學術圈再一次沸騰了。

這意味著,對於普通研究人員曾需要花幾年時間才能破解的蛋白質結構,現在用 AlphaFold2,幾小時就能算出來了!

那麼,如此厲害的 AlphaFold2 究竟如何做到的呢?

DeepMind 團隊已經將它的詳細資訊在《Nature》上公開發表。

現在,就讓我們來看看 AlphaFold2 的魔法是怎麼實現的吧。

TO 相關文章:
兩大頂級 AI 演算法開源!AlphaFold2 蛋白質預測準度逼近滿分,將顛覆生醫產業樣貌

AlphaFold2 採用 Attention 新模型,替換 AlphaFold 的卷積神經網絡

研究人員在論文強調,AlphaFold2 是一個完全不同於 AlphaFold 的新模型。

的確,它們使用的模型框架都不一樣,這也是 AlphaFold2 準確性能夠突飛猛進的主要原因。

此前 AlphaFold 中所有的卷積神經網絡,現在都被替換成了 Attention。

為什麼要這樣做呢?

我們首先要瞭解一下 AlphaFold 的工作原理:

它主要是透過預測蛋白質中每對胺基酸之間的距離分佈,以及連接它們的化學鍵之間的角度,然後將所有胺基酸對的測量結果彙總成 2D 的距離直方圖。

然後讓卷積神經網絡對這些圖片進行學習,從而建構出蛋白質的 3D 結構。

AlphaFold 主要架構

但這是一種從局部開始進行預測的方式,很有可能會忽略蛋白質結構資訊的長距離依賴性。

而 Attention 的特點剛好可以彌補這一缺陷,它是一種模仿人類注意力的網絡架構,可以同時聚焦多個細節部分。

這樣可以使得框架預測的結果更加全面、準確。

在 CASP13 中,AlphaFold 預測的準確性還只有不到 60 分。

但是在 CASP14 中,AlphaFold2 就將準確性直接飆到了 92.4/100。

TO 相關文章:
【生物界的 AlphaGo 更強大】DeepMind 宣布 AI 能成功預測蛋白質結構,有機會翻轉未來醫療面貌

使用多序列比對,將蛋白質結構與生物資訊整合到深度學習演算法

具體來看,AlphaFold2 主要利用多序列比對(MSA),把蛋白質的結構和生物資訊整合到了深度學習演算法中。

它主要包括兩個部分:神經網絡 EvoFormer 和結構模組(Structure module)。

在 EvoFormer 中,主要是將圖網絡 (Graph networks)和多序列比對 (MSA)結合完成結構預測。

圖網絡可以很好表示事物之間的相關性,在這裡,它可以將蛋白質的相關資訊建構出一個圖表,以此表示不同胺基酸之間的距離。

研究人員用 Attention 機制建構出一個特殊的「三重自注意力機制(Triangular self-attention)」,來處理計算胺基酸之間的關係圖。

三重自注意力機制(Triangular self-attention)

然後,他們將這一步得到的資訊與多序列比對結合。

多序列比對主要是使相同殘基的位點位於同一列,暴露出不同序列之間的相似部分,從而推斷出不同蛋白質在結構和功能上的相似關係。

計算出的胺基酸關係與 MSA 進行資訊交換,能直接推理出空間和進化關係的配對表徵。

機器學習與 AI 讓醫療應用加速創新,但醫療上雲還有哪些問題需克服?報名 AWS 台灣雲端大會邀請一線產業專家解惑!

使用 Attention 機制,預測所有原子的 3D 結構

架構的第二部分是一個結構模組 (Structure Module),它的主要工作是將 EvoFormer 得到的資訊轉換為蛋白質的 3D 結構。

結構模組(Structure module)

在這裡,研究人員同樣使用了 Attention 機制,它可以單獨計算蛋白質的各個部分,稱為「不變點注意力(invariant point attention)」機制。

它以某個原子為原點,建構出一個 3D 參考場,根據預測資訊進行旋轉和平移,得到一個結構框架。

不變點注意力(invariant point attention)

然後 Attention 機制會對所有原子都進行預測,最終彙總得出一個高度準確的蛋白質結構。

研究人員還強調,AlphaFold2 是一個「端到端」的神經網絡。

他們會反覆把最終損失應用於輸出結果,然後再對輸出結果進行遞歸,不斷逼近正確結果。

這樣做既能減少額外的訓練,還能大幅提高預測結構的準確性。

AlphaFold2 為破解蛋白質摺疊謎題帶來希望,加速新藥研發效率

Alphafold2 的出現,能更好地預判蛋白質與分子結合的機率,從而極大地加速新藥研發的效率。

此次 Alphafold2 開源,將進一步推動科學界前進。

據了解,目前 DeepMind 已經與瑞士的一些研究團隊合作,通過預測蛋白質結構開展藥物方面的研究。

事實上,研究 Alphafold2 預測程式本身,也為探索蛋白質結構摺疊原理帶來了希望。

芝加哥大學的計算生物學家 Jinbo Xu 就表示:

「這些工具的開源,意味著科學界能夠在此基礎上開發出更加強大的軟體。」

▌論文地址
▌補充材料
▌參考資料

延伸閱讀

兩大頂級 AI 演算法開源!Alphafold2 蛋白質預測準度逼近滿分,將顛覆生醫產業樣貌
【生物界的 AlphaGo 更強大】DeepMind 宣布 AI 能成功預測蛋白質結構,有機會翻轉未來醫療面貌
DeepMind 巨虧 180 億、加拿大獨角獸遭 3 折賤賣,AI 公司為何難有「好下場」?

(本文經 AI 新媒體量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈AlphaFold2成功秘诀:注意力机制取代卷积网络,预测准确性提升超30%〉。首圖來源:Piqsels CC Licensed