【為什麼我們要挑選這篇文章】人類的產生的資訊呈指數成長,除了現有的硬碟和快閃記憶體,科學家正在研究另外一種儲存技術:DNA。近期微軟取得 DNA 儲存技術的突破,不僅容量翻了 5 倍,也能夠讀取 DNA 內的檔案訊息,讓商用成為可能。
用 DNA 儲存資料,除了有耗電量低,資料保存期限長的特性外,最重要的是資料密度高,是現有硬碟的 1 百萬倍,現有快閃記憶體的 1 千倍,若成功商用,將會改寫現有的資訊產業。(責任編輯:郭家宏)
現代儲存技術已經無法滿足資料量的海嘯式成長,但是大自然或許已經為這個難題提供了解決方案。
例如:DNA。
上個月,來自微軟和華盛頓大學的研究人員宣佈:以人工合成為 DNA 為載體的儲存和讀取數據的全自動系統研製成功,邁出了該技術從研究實驗室走進商業應用關鍵的一步。
在一次概念驗證測試中,該研究團隊成功地在人工合成的 DNA 片段中編碼了「hello」一詞,並使用全自動端到端系統將其轉換回數位內容。
微軟取得 DNA 訊息儲存的技術突破
其實早在 2016 年 7 月,微軟和華盛頓大學的研究人員就已經宣佈,利用 DNA 儲存技術完成了約 200 MB 數據的保存,相對於當時最大儲存容量為 739 KB 的 EBI 文件來說,已經實現了訊息儲存的飛躍式進展。
該研究聲稱,如果訊息封裝密度像大腸桿菌的基因那麼高,全世界的儲存需求用 1 千克的 DNA 即可滿足。
這一結果發佈在當年 9 月份的《自然(Nature)》雜誌上。

兩年多的時間過去了,微軟和華盛頓大學的研究人員又取得了新突破:不僅容量翻了 5 倍——能夠在 DNA 中儲存 1000 MB 的數據,還實現了從儲存到讀取訊息的重大突破。也就是說,用 DNA 儲存數據已經成為可能。
該研究結果發表在一篇名為《DNA 自動儲存端到端自動化演示》的論文中,並於 3 月 21 日出版在 Nature Scientific Reports 。
論文傳送門
微軟目標:建立 DNA 儲存的自動化系統
DNA 儲存訊息的空間比目前建造的數據中心要小好幾個量級。我們每天都在生產海量數據,從商業訊息到可愛的動物影片,再到醫學掃瞄圖像和外太空圖像,因此 DNA 非常適合用來儲存大規模的數據。
微軟首席研究員 Karin Strauss 表示:「我們的最終目標是將一個全自動系統投入到實際應用。對終端用戶來說,這類似於雲端儲存服務——將數據上傳到數據中心並儲存在那裡,用戶隨時可以查看並下載雲端數據。要做到這一點,我們首先需要從自動化角度證明這是可用的。」
華盛頓大學的高級研究科學家 Chris Takahashi 說:「訊息儲存在人工合成的 DNA 分子中(而不是人類或其它生物的 DNA 分子),並且可以在發送到系統之前進行加密。 雖然這個過程的關鍵部分可以由 DNA 合成器和 DNA 測序儀等機器完成,但到目前為止,許多中間步驟都需要在研究實驗室中進行人工操作,這在實際應用中是很難實現。」
「總不能讓一群人帶著移液器(一種用於定量轉移液體的小型器具)在數據中心裡四處奔跑,而且移液器在使用過程中容易出現人為錯誤,成本也很高。」
從訊息儲存商業化的角度來看,人們需要降低合成 DNA 的成本,包括合成儲存訊息的 DNA 雙鏈和提取信息的 DNA 測序。
自動化是 DNA 儲存的商用關鍵
微軟的研究人員說,自動化是另一個關鍵因素,因為它可以實現商業級規模的儲存並極大降低成本。
現有的存檔技術在幾十年內將不再適用,而 DNA 儲存訊息的時間要比它長得多。例如:DNA 可以在猛獁象牙和原始人骨骼中存在數萬年。
值得強調的是,這還不是理想的儲存條件。DNA 包含的遺傳密碼是通用的,也就是說自然界所有生物共用同一套遺傳密碼,基於此,理論上來說人類可以解讀所有生物的遺傳訊息。
DNA 是由四個鹼基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鳥嘌呤(G)構建而成的。微軟和華盛頓大學聯合開發了一套 DNA 數據自動儲存系統,將 1 和 0 位元轉換為構成 DNA 的 A、T、C 和 G ,然後將其它必要反應液注入合成器,合成器就能合成 DNA 片段並將其推入儲存器。

當系統需要檢索訊息時,它會添加其它化學物質來提取所需的 DNA,並使用微流體泵將液體推入系統的其它部分。接著「讀取」DNA 序列並將其轉換回電腦可以理解的訊息。
研究人員表示,研究項目的目標不是要證明系統能夠以多快的速度或多低的成本運作,而只是為了證明自動化是可行的。
DNA 自動化存儲系統的一個直接好處是,它可以讓研究人員從繁複的實驗中解脫,去解決更高層次的問題。
微軟研究員 Bichlien Nguyen 說:「自動化系統能進行重複性的工作,這使得人們能夠從更宏觀的角度制定新策略,從根本上進行更快的創新。」
分子訊息系統實驗室的團隊已經證明 DNA 可以儲存寵物照片,文學作品,流行影片和檔案資訊,並且在檢索數據的過程中不出錯。
研究人員還開發了一些技術來執行很有意義的計算任務——比如只搜尋包含蘋果或綠色自行車的圖像,使用的是 DNA 分子本身,而不必將文件轉換回數位格式。
華盛頓大學的 Luis Ceze 教授說:「我們肯定會看到一種新型電腦系統的誕生,人們可以使用 DNA 分子儲存數據,用電子設備進行控制和處理。將 DNA 和電腦結合到一起為未來提供了無限的可能。」
人類的 DNA 儲存研究
人類對 DNA 數據儲存能力的探索早已有之。
1988 年,藝術家喬.戴維斯與哈佛的學者合作,第一個將數位訊號 0 和 1 對應到 DNA 的四個鹼基。他們把 DNA 序列插入到大腸桿菌裡,僅僅編碼了 35 個位元組。當排列成一個 5 x 7 的矩陣時,1 對應到暗像素,0 對應到亮像素,它們組成了一幅古代日耳曼如尼字母圖畫,代表生命和女性的地球。
現在戴維斯已經加入了丘奇的實驗室,該實驗室 2011 年起開始探索 DNA 數據儲存。哈佛團隊希望該應用可以減少合成 DNA 的成本,就像基因組學的測序成本已經降低了許多。丘奇與加州大學洛杉磯分校的瑟裡.庫蘇里(Sri Kosuri)以及約翰.霍普金斯大學的基因組專家高原(Yuan Gao)於 2011 年 11 月實施了概念證明性實驗。
他們的團隊使用了很多短 DNA 片段編碼了一本丘奇與他人合寫的 659 KB 數據的書。每個片段的一部分用來進行排序後片段組裝順序,剩餘部分用於編碼數據。將數據保存在 DNA 之中需要將二進制 0 和 1 數據轉換為 4 種核苷酸,其中 0 用腺苷酸或胞嘧啶來編碼,而 1 則用鳥苷酸或胸腺嘧啶。
這種靈活性幫助團隊設計序列,避免測序中高 GC 區讀取錯誤、重複序列或發卡結構導致的綁定彼此的片段發生序列摺疊。他們沒有做嚴謹的糾錯,而是依靠每個片段擁有多個複製的訊息冗餘。結果對片段測序後,他們發現了 22 個錯誤,大大高於可靠儲存的要求。
同時在 EBI,高德曼、伯尼和他們的同事也在使用很多 DNA 片段來編碼一個 739 KB 的數據儲存,包含一個圖片、ASCII 文本、音檔文件和一個 PDF 版的華生和克里克標誌性的雙螺旋結構。為了避免重複鹼基和其他來源的錯誤,EBI 領導的這個團隊使用了一個更加複雜的系統。
一方面是將 0 和 1 組成的二進制數據編碼修改成以 3 個數為基礎,即 0、1 和 2,然後持續地輪換使用每一個數的代表,因此而避免在讀取數據時序列可能出現的問題。透過利用序列重疊,100 個鹼基長度的片段持續位移 25 個鹼基,EBI 的科學家們確保有 4 個版本的片段來做錯誤檢查和互相比較。
DNA 儲存的困難點:必須使用液體轉移 DNA 分子
與基於矽的計算系統不同,基於 DNA 的儲存和計算系統必須使用液體來轉移 DNA 分子。流體本質上與電子不同,這意味著我們需要全新的技術解決方案。
華盛頓大學的團隊與微軟正在合作開發一種可編程系統,利用電和水的特性在電極網格上移動水滴,從而實現實驗自動化。名為 Puddle 和 PurpleDrop 的一整套軟硬體可以混合、分離、加熱或冷卻不同的液體並按標準實驗步驟進行實驗。
MISL 團隊下一步要做的是將簡單的端到端自動化系統與 PurpleDrop 等技術,以及能夠使用 DNA 分子進行搜尋的技術相結合。研究人員專門設計了模組化的自動化系統,使其能夠隨著新的 DNA 技術的出現而發展。
微軟報導
(本文經 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 让DNA说Hello!微软成功研制用DNA存储读取数据的全自动系统〉 。首圖來源:Flickr CC Licensed)
更多有趣的生物科技
【微軟砸錢買了人工 DNA】在微軟眼中,這可是 1024×1024 TB 的超級大硬碟
生物界 AlphaGo 誕生!DeepMind 用 AI 找「蛋白質折疊」規律,比人類判斷還精準
【生物課本沒教的事】《Nature》雜誌公布驚人發現:肺是造血器官