(本文作者為醫療數據分析公司 Anolinx 共同創辦人 Reid J. Robison,以下文字以作者為第一人稱撰寫)

  • 擁抱 Google 光纖的十億位元高速度

我已經在家裡裝 Google 光纖寬頻網路超過一個月了,而它的效能,簡單來說,就是無與倫比。你看看它的下載速率:

不需要再多作解釋,讓我們靜靜欣賞這個傑作。而下圖是我用 Macbook Air 連結蘋果的 AirPort Extreme 基地台 Wi-fi 所做的下載速度測試:

 

才 600 Mbps?你沒看錯,羨慕吧。

讓你對 google 光纖在基因組學術研究帶來的無限潛能有個大略的概念,看看這個:

這是我在辦公室的普通網路上,試著要下載一個小小的 200MB 檔案,結果速率是 736.9 KB/s = 5.9 Mbps。

然後再看看這邊… 這是我用 Google 光纖網路,輕鬆戰勝 200GB 的人類基因序。

注意,這裡 1 MB/s = 8 Mbps,所以速率是 16.5 MB/s = 132 Mbps,超快!而我不再成為傳送資料的瓶頸。

以上是我在家裡用 Google 光纖網路下載幾個基因序,以及我從辦公室用遙遠的大學伺服器 (一般的小企業網路組) 下載資料的螢幕截圖,而比較之後,後者輸的一敗塗地。曾經需要費時好幾天的下載傳輸,現在只需要短短的幾小時就能完成。

  • Google Fiber 如何顛覆基因學的?

身為一個需要處理大量資訊的遺傳基因學家,我手邊的檔案都非常龐大。一般來說,每一個人類基因序都有大約 200GB,呈現於從定序儀出來原始數據格式。若是以上述的下載流量來計算的話,這樣的基因序在 Google 光纖網路 (132 Mbps) 只需要約 3 小時就能全部下載完畢,相反的,普通網路 (5.9 Mbps) 卻需要超過 77 個小時來下載一模一樣的東西。

雖然我以前是造成瓶頸的傳輸關卡,但現在已經全然不同,擁有 132 Mbps 的高速率,要我連到別州的 FTP 伺服器也不是問題。

看看下圖,我同時打開多項連結到別州的大學,並試著下載 200GB 的人類基因序,而下載的流量竟然達到十億位元,我可以輕鬆的在一個小時之內傳輸一整個人類基因序列組。(注意,我在螢幕截圖中只打開了四個連結,我可以再開啟更多)

Google 光纖秒殺了傳送基因組醫療研究資料時的瓶頸與等待的痛苦。

 

 

  • 對基因組學來說,資料重送速度為何如此重要?

這些需要被傳送到各地建檔或做研究的的基因序,是來自許多擁有嚴重自閉症、發展遲緩或癲癇的病患和家族成員。基因序的資料若能快速傳送到醫療分析管道,分析結果便能更快產生。我們能夠更快的讓焦急的病患和他們的家人得知重要病情。

若你覺得傳輸一組基因序的資訊量就算多,那你就錯了。

一組人類基因序相對來說還算是小檔案,一個研究的合作夥伴近期請我幫忙,要將上千組的基因序從這州移動到另外一個州,上千組?

這用舊的網路速度是絕對辦不到的,但現在我們可以。上千組基因序大約是數百兆兆位元 (hundreds of terabytes) 的資料,以前可能還會選擇用郵寄的方式,寄送上百個硬碟到目的地,因為當時我們能夠連接的網路系統和頻寬,無法承受如此龐大的數據量。整個傳送的過程會耗費好幾周的時間,而且或許還會多次中斷,永遠傳不完。

快速的基因序傳送可以得到即時的分析結果、創造更多的公開跨區合作、促進科學新發現,增加診斷的知識,甚至是治療疾病的方法。

  •  針對新生兒,承諾快速且準確的基因診斷

讓我們來看看這樣一個案例,高速的基因組傳輸是非常有幫助的,甚至還能救命:

關於新生兒重症加護病房。最近一家大型的醫院組織與我聯絡,因為他們看到了我們的研究人員在堪薩斯城兒童慈善醫院,用快速的基因組排序分析,拯救了一個新生兒的性命。這家大型醫院也想做類似的事情。Kingsmore 博士和他的同事們在兒童慈善醫院,新生兒重症加護病房做的事令人佩服。甚至厲害到讓美國電子政務宣布展開一個 2500 萬美元的計劃,從去年年底開始,推動這類的研究發展。

這是去年,美國兒童健康和人類發展國家學院院長 Alan Guttmacher 所說的:

「人們可以想像未來,在出生時,每個新生兒的基因組都將被定序,它會成為電子健康記錄的一部分,這個孩子一生都可以使用這個紀錄,讓他們有預防遺傳疾病的意識,並能夠對早期的病徵有警覺心。」

檢驗基因組蛋白質編碼部分的費用約一千美元 (或更少),而定序一個完整的人類基因組則要價五千美元,所以讓每個新生兒都基因定序建檔的這一天,可能很快就會到來。過去一年發表的研究發現,基因定序或許能夠從 15-50%未診斷出疾病的病童中,找到造成這些疾病的遺傳基因。而今年,期待已久的一千美元基因組裝置終於送到了,在以下的「定序技術」會再加以解釋。

 

以下是關於新生兒重症加護病房基因組定序的一些基本概念:

背景資料

1. 每年在美國出生的新生兒少於 4 百萬民。

2. 每 20 個新生兒就有一民會進入新生兒重症加護病房 (newborn ICU)。

3. 進入新生兒重症加護病房的嬰兒,高達三分之一都擁有遺傳性疾病。

4. 超過 3500 的單基因疾病有發現徵狀,但傳統的基因測試只適用於其中的一些。即使他們可以進行測試,醫生應該如何選擇出正確基因測試?而且,這些測試大多需要花費幾百,甚至幾千美元。但值得欣慰的是,有至少 500 種遺傳性疾病,是已經知道治療方法的。

5. 在新生兒重症加護病房住一晚就要超過一萬美元。而 Kingsmore 博士也表示:「住院一晚超過一百萬也是很常見的。」

為何要定序新生兒的基因組序?

1. 透過快速的定序和詮釋,Kingsmore 博士說,醫生可以實際活用診斷結果,來量身訂做不同嬰兒和兒童的治療方法。

2. 例如,嬰兒天生的罕見遺傳性疾病苯丙酮尿症(PKU),是因為無法分解某種特定氨基酸,而導致腦部損傷和癲癇發作。如果發現的夠早,PKU 是很容易被治癒的,而孩子們則可以健康的成長。

3. 因墨蝶呤还原酶基因 (sepiapterin reductase gene) 突變而造成的肌肉收縮,就算它跟其他運動障礙性疾病看似相同,卻要用不同的藥物來治療,因為它有不同的基因組成。

4. 許多遺傳疾病,如腓骨肌萎縮(CMT),時常要等到病患成年,症狀才會出現,因此提早做基因測試可以挽救許多人的生命。

整體而言,定序新生兒的基因組序不但可以節省時間、救人性命、還能免去痛苦折磨,Kingsmore 博士表示。

 

定序技術

1. 在兒童慈善醫院研究中使用了 Illumina 公司的 HiSeq 2500 定序儀,它可以在 27 小時內產生 120 億個鹼基。以上是 2012 年的舊款,今年發表的新 Illumina HiSeq X 10,又名一千美元基因組裝置,可以在同樣的時間內,處理大於 1.6 兆兆位元 (Terabases) 的數據,相較於舊款,10 倍以上的序列數據。這是每三天就能處理完 16 人的基因序,也太快了吧!

2. 在有目標且以症狀為根據的數據分析中增加了時間參數之後,Kingsmore 博士的研究小組能夠在濃縮的 50 小時內,得到定序和分析詮釋結果。

 

注意事項

1. 兒童慈善醫院的 50 個小時周轉時間,不包括運輸或數據傳輸的時間。而很多醫院或甚至大型醫療中心,都沒有自己的基因組定序儀。這其實並不奇怪,因為 Illumina 公司的 HiSeq X 10 要價一千萬美元,一千萬美元!

2. 當你回想我之前的基因序傳輸測試,用傳統網路速度的許多狀況中,將一個基因序從定序儀器傳送到客戶手中要花好幾天,或取決於你的網路速度而花費更久時間。實際上,郵寄滿裝基因組的硬碟,比用電子傳輸,更來的普遍。

  • 我們準備好要接受客製化藥物了嗎?

每個新生兒早晚都會進行基因組定序,這包含了沒有在新生兒重症加護病房的所有嬰兒。這是非常合理的,Kingsmore 博士最具代表性的研究結果在 2012 年發表,一年後 2013 年底,美國的電子政務就宣布編列 2500 萬美元,要推進新生兒定序。即使我們現在在基因序革命的開端,而基因組醫學也還處於起步階段,但這些技術所帶來的好處是相當明顯的。現在面臨的挑戰就是取得生物信息學分析數據,以及數據傳輸的問題。

以前在我開始分析資料之前,要花費一整天的時間,只為了從我的實驗室下載一個基因組。現在,隨著 Google 光纖寬頻網路,不到一個半小時我就可以下載整個人類基因組。當資料數據關係到一個人的健康與生死,這樣的時間差是一個巨大且關鍵的差異。

直到那一天,當每家醫院都有一個(或多個)桌上型或手持式基因組定序儀,數據傳輸還會繼續成為一大瓶頸。為了實現在 ICU 實施快速基因組定序的承諾,我們急需擁有千兆位元的超強網路傳輸連結。

 

延伸閱讀:

百倍網速太強大了!有了 Google Fiber 的堪薩斯市,將成為下一個矽谷?

(資料來源:medium;圖片來源:mediumNerd NestHarry Lipson, CC Licenced)