【TechOrange 編輯部導讀】「蛋白質設計」是價值十億美元的產業,到 2024 年市場規模預計達到 39 億美元。

而現在,這個市場規模更可能因為生成式 AI 的助攻更快速地飛漲——因為只要一個「指令」,AI 幾乎就能生成無數的設計,成功率甚至比人類更高,且更快速。

當 AI 碰上蛋白質工程,還有什麼樣的突破值得我們期待?我們又正在見證怎樣的一場革命?

生成式 AI 的應用百花齊放,正在擴展到醫學和生技領域之中,科學家發現能透過這類工具建構研發出新蛋白質,用來對抗癌症、流感、 COVID-19 等疾病,還會激盪出哪些前所未有的可能性?

生成式 AI 的創作能力不只是純藝術,已可以用在蛋白質設計

2022 年全世界掀起一波用生成式 AI 工具生成藝術圖像的熱潮,像是 Midjourney、Stable Diffusion、OpenAI 實驗室推出的 DALL-E 等工具,但這股潮流不只是流於我們較常看見的「純藝術」應用,還正在滲透到不同的產業領域之中。

生成藝術圖像之外,科學家近期發現,生成式 AI 可以用在創建「新蛋白質結構」,以幫助人類研發新的癌症與疾病治療方法、新疫苗、新藥丸等契機。

人工設計蛋白質領域的頂尖實驗室之一的美國華盛頓大學 Baker Lab 所長 David Baker 表示:「我們需要的是可以解決現代問題的新蛋白質,比如癌症和大流行的病毒。現在,我們可以更快的設計出這些蛋白質,而且成功率更高,並創造出更複雜的分子。」

不過即便是像 Baker 這樣投入蛋白質設計多年的科學家,原本也幾乎沒預料到,新的 AI 技術的興起會突然加速了這項研究工作的推進,把生成新蛋白質所需的時間從數年大幅縮短到數週,這對於相關領域的學者、科學家都是一個值得關注的巨大變革。

耗時又繁複的蛋白質工程,AI 是用什麼原理去拆解並創造的?

2022 年底由華盛頓大學發佈的一篇論文,展示了如何利用技術去驅動 DALL-E 等生成式 AI 工具,來生成新蛋白質,研究人員表示:「這項技術最強大的地方之一是,就像 DALL-E 一樣,只要輸入一個指令(prompt),它就可以生成無數的設計……令人興奮的不僅是 AI 富有創造力並探索意想不到的可能性,還能夠在滿足某些設計目標或約束的同時發揮創造力。」

就原理來看,為了利用文字生成圖像,DALL-E 這類的 AI 圖像生成器需仰賴神經網路,經由分析大量數據資料來學習,在分析數百萬張圖像和描述每張圖像的文本說明時尋找模式(pattern),然後學會識別圖像和文字之間的關聯。

當我們向 DALL-E 描述圖像時,神經網路會生成該圖像包含的關鍵特徵,接著擴散模型(diffusion model)會生成實現這些特徵所需的圖像並保留細節。

而擴散模型是在一系列圖像數據上被訓練出來的,訓練過程中,噪聲(noise)會被逐漸添加到圖像之中,直到數據無法被識別,模型再把圖像退回到原始形式,於是模型就學會了反向運作,多次迭代之後,模型能夠對圖像進行良好的去噪處理,轉換成連貫的圖像數據,最終生成得到的圖像結果應該要與我們輸入指令的文本資訊接近。

》下載 TechOrange 2023 趨勢觀察報告《

基於這樣的原理,科學家就可以針對想要的蛋白質提供一個粗略的輪廓描述,擴散模型可以接著產生蛋白質的立體形狀;科學家也能要求一種蛋白質以特定方式與另一種蛋白質結合,或其他一些設計約束,來讓模型協助構建。

以往完成蛋白質工程的方法是在實驗室中反複試驗,達到設計規格的典型成功率不到 1%。為了增加成功機率,科學家通常會使用 Rosetta 或 AlphaFold 等軟體工具根據序列預測蛋白質結構,但由於預測折疊模式是一個極其複雜的問題,因此仍需要多年的訓練和數千台電腦才能運作和執行。

生成式 AI 驅動蛋白質設計,將加快實現新疫苗、治療方法、碳捕獲解法

蛋白質設計是價值數十億美元的產業,到 2024 年,市場規模預計將達到 39 億美元,假如蛋白質設計可以變得更為快速,還存在拓展到合成生物學等其他領域的巨大潛力,市場規模則可能比預期更大。

除了學術實驗室之外,一些新創企業跟大企業的研發部門也正在投入不同於以往的創新技術,來加速推進蛋白質設計、突破常見的既有限制。

2022 年獲得 550 萬歐元種子輪融資的新創 Cradle 也是藉由像 DALL-E 這樣的生成模型,對蛋白質進行「逆向工程」,來創造新的蛋白質結構,並強調即便不是 AI 或機器學習專家同樣能使用其工具操作,Cradle 執行長表示:「我們希望幫助團隊們透過更少但更成功的實驗來設計蛋白質。」

掌握 2023 全球最新技術、科技趨勢,擬訂最佳企業行動方案!

→ 立即下載《TechOrange 2023 趨勢觀察報告》

NVIDIA 與生物技術新創公司 Evozyne 也在 2022 年共同發表生成式 AI 模型 BioNeMo,同樣可以用來生成新蛋白質,目前正在研究的蛋白質作用包括用來減少二氧化碳、用來治療先天性疾病等用途,該模型未來有望促進改善人類健康,甚至因應氣候變化,也有助於未來發現材料、能源和綠色飲食方面的新解法。

具有權威性的《Science》期刊上已發表了數篇相關論文,暗示了這會是一場蛋白質設計革命,生成式 AI 可用於比以前更準確、更快速創建蛋白質,這可能會催化許多新疫苗、疾病與癌症治療方法、碳捕獲工具、永續生物材料的出現,為科學家突破過往的瓶頸,為醫學、能源和技術領域長期存在的挑戰找到解法與出路。

參考資料:The New York TimesForbesTechCrunchVenturBeatBaker Lab,首圖來源:Image by Gerd Altmann from Pixabay

(責任編輯:藍立晴)