Search
Close this search box.

運算15萬兆數據,雲端計算解開人類基因奧秘

雲端計算不只為大公司帶來好處,也有助於解開人類基因奧秘!

  • 雲端計算助陣  一口氣發表30篇基因解碼

9月5號當天,ENCODE一口氣發表了30篇關於人類基因解碼的論文,有別於過去認為99%的基因是不帶訊息的垃圾基因,該計畫揭開了大約80%人類基因所表現的運作功能

ENCODE為Encyclopedia of DNA Elements的縮寫,設立該計畫就是為了解開人類基因密碼,然而想實現這龐大的願景就必須集眾人之力。

來自世界各地共32個研究團隊加入了該計畫,共同在147個以上的組織樣品做了1600多個實驗,可想而知實驗的數據量必定相當龐大,光從論文所釋出的數據就有15兆位元組。

為了讓不同實驗室都能產出正確且有價值的數據,ENCODE有個數據統整部門(ENCODE Data Coordination Center),從ENCODE的新聞稿中可一窺該部門的運作模式:

對Kent(該部門的負責人)和他在加州大學聖克魯茲分校(UNSC)的團隊來說,計畫的規模帶來許多挑戰,像是在計畫初期,他們就需組織起各個參與計劃的研究團隊。

Kent表示:「為了能讓各研究團隊協同運作,我們有五位負責前往各實驗室進行數據統整的人員,每週還可能有最多四次的研討會,並外加一年兩次的大型會議,更別提無數次的email往返及視訊會議。

除了上述的討論模式,ENCODE的研究團隊還開發了許多雲端運算的軟體及討論平台

1. ENCODE-motifs: 能在資料庫中根據不同主題做系統性歸類。
2. Factorbook::參考維基百科的運作方式,提供由使用者共同編譯所有相關資訊的平台。
3. HaploReg and RegulomeDB: 對資料庫中未編碼的基因進行分析、比對及歸納。
4. Tutorials on using ENCODE data and the ENCODE portal at UCSC: ENCODE的資料庫使用教學模組。
5. ENCODE Virtual Machine:雲端式虛擬作業系統。

  • 臉書每天500兆數據,企業也要靠雲端找出數據價值

這已不再只是個跟大量數據有關的故事,還參雜了雲端運算與科學應用的情節。

然而不只有ENCODE面對著大量數據與四散各地的子部門,大型(國際)企業也常在諸如此類的狀況中掙扎著,像是Facebook就曾說每天會收集到500兆位元組的數據,如何挖掘出數據的價值就顯得非常重要。

ENCODE的運作模式及發展軟體的用途已勾勒出分散式合作與管理的未來,誠如雲端計算服務商Appistry的副總裁Sultan M. Meghji所言:

「數據的品質及科學深度才是這堆數據中的重點,這也是我們著重於科學式作業的原因,若能有前瞻性的運作過程,並收集到高品質且具可重複性的數據,才能最有效地發揮數據的價值。」

(資料來源:GigaOM;圖片來源:KEXINO,CC Licensed)