硬碟突然被拔資料會不會掰掰?TO 給你科普何謂 RAID 磁碟陣列

近日,中國國務院總理李克強到貴州貴安考察騰訊的貴安七星數據中心,卻因隨意從伺服器中抽出了一塊硬碟引發網友熱議,究竟硬碟可不可以在伺服器運作中被突然拔起(也就是「熱插拔」(Hot plugging))呢?是否會造成資料遺失,或者當機?

在 TechOrange 昨日貼出 〈 李克強巡數據中心隨便「抽出硬碟」端詳一番,網友:資料啊啊啊啊 〉,收到不少讀者的留言,例如:「資料中心應該都至少是 RAID 6,這樣拉不會出問題啦」、「雖然說是 RAID 一顆硬碟 Failed 不會有問題但是還是覺得幹嘛拔人家硬碟 = =?」、「RAID 組假的是不是= =」,那麼 TO 乾脆來介紹一下什麼是 RAID 吧。

RAID 概念從 1987 年就誕生!硬碟壞掉,資料不會直接不見

所謂的 RAID,是 Redundant Array of Independent Disks 的縮寫,中文叫做「磁碟陣列」,是一種 具有容錯機制、有分散風險能力 的硬碟。

單顆硬碟因為沒有容錯機制,只要零件壞了就會故障,造成正在運作的服務中斷、資料消失,因此有了 RAID 機制的誕生。

RAID 的概念是透過至少 2 顆硬碟,利用虛擬化儲存技術組合為一個「邏輯硬碟」,無論有幾顆硬碟,作業系統只會將這個組合當作一個實體硬碟(一個可用空間)。

RAID 經常被用在伺服器電腦上,不過,近年由於硬碟價格的不斷下降,RAID 功能更能與主機板整合,因此會使用到大容量儲存空間的個人使用者(如從事影音內容的工作者)也會選擇使用 RAID。

RAID 的概念最早是在 1987 年由加州柏克萊大學的研究人員提出,並在當時定義了 5 種等級的 RAID:RAID 0、RAID 1、RAID 0+1、RAID 3、RAID 4、RAID 5,之後其他團隊研究出 RAID 6、RAID 7 等規格。

RAID 帶來的兩大效能:讀寫效能、資料保護

不同級別的 RAID,具有不一樣的效能,有些可以提升硬碟的「讀寫效能」,另一個就是關鍵的「資料保護」功能了,當然也有「兩者兼具」的 RAID。

而所謂的資料保護/容錯功能,指的就是 當一顆硬碟故障時,資料不會因此遺失 ,像是 RAID 1 級別的磁碟陣列,就是資料會同時寫入第一組和第二組,其中一組硬碟的資料就屬於備份用途。當第一組硬碟,有故障、毀損情況發生,那麼只要將故障硬碟更新,接著再利用儲存在第二組硬碟的資料,還原到第一組硬碟即可;而像是 RAID 0,就只有讀寫效能,而沒有資料保護功能,也就是若碰到一個硬碟異常,全部硬碟都會異常。

那麼問題來了,李克強考察數據中心到一半,心血來潮拔了顆硬碟起來看,有問題嗎?

後方工程師的表情說明一切

先來了解一下這座數據中心吧。

首先我們 Google 一下這個「騰訊貴安七星數據中心」,根據《香港 01》報導,這座數據中心坐落於中國貴州省貴安新區兩座山的山體之中(一個隧道的概念),而且是一座「綠色高效災備數據中心」,數據中心占地約 47 萬平方公尺,可以塞下 4 個足球場, 裡頭更存放了 30 萬台伺服器。

騰訊貴安七星數據中心的樣子。(圖片來源:「騰訊」微信公眾號)
騰訊數據中心的外貌。(圖片來源:「騰訊」微信公眾號)

騰訊在今年 5 月 29 日宣布這座數據中心開始試運行,未來將被運用於儲存騰訊最核心的大數據,具備突發防護能力,發生突發事件時可以自動切換到防護模式,不間斷運行。

而「企業備份用」的磁碟陣列,通常是 RAID 1、RAID 5、RAID 6;大型資料庫、伺服器通常是使用 RAID 10,而按照騰訊「數據中心的規模」(文末另有補充)來看,可能真的不怕李總理這樣突如其來的一拔。

PTT 上則有 鄉民 表示,「這東西水很深,韌體都會影響硬碟出錯率跟使用壽命,硬碟韌體影響一顆,儲存器影響的就是一整台啊~~~我當然不會怕這樣抽有啥問題… 是怕你人品不好被你抽了之後出事倒楣的是你 。」

也有鄉民在推文表示,「為這件事(李克強拔硬碟)護航的拜託滾出機房,備援都是做保險的,不是讓你直接試試看的。」

最主要的問題是:李兄這樣突然拔出硬碟「端詳一番」,還仔細閱讀上頭的文字說明,難道是要看看是不是 Made In Taiwan 嗎?

但是瑞凡,大規模的數據中心用的不是 RAID…

TO 粉絲專頁上有讀者留言指出,數據中心一櫃硬碟數量最少超過 200 顆,並不是走傳統的 Raid 5、Raid 6、Raid 10 的架構。

根據《Western Digital》,RAID 技術已經存在很長一段時間,但隨著數據中心儲存系統不斷擴大,RAID 的優勢也開始減少,因為它當初並非設計給這種 PB(petabytes)為單位的數據中心使用的 ,做為參考:Google 的伺服器叢集在 2004 年時容量就大約有 5.625 PB 了。

如果數據中心使用 RAID,那麼資料重建的時間不會是好幾小時,而是好幾天,而且數據遺失的風險相當大,而以騰訊這種擁有至少 30 萬台伺服器的超大規模數據中心來說,的確不可能使用 RAID 這種架構。

參考資料來源:

1.《鉅亨科技》:〈RAID 基本介紹 – 什麼是 RAID(磁碟陣列)?
2.《香腸炒章魚》:〈RAID 種類的介紹與分析
3.《香港 01》:〈 騰訊貴州山洞大數據中心試運行 聲稱能防核彈攻擊
4.《維基百科》:〈RAID
5.《PTT》:〈Re: [新聞] 考察數據中心!李克強突然「抽硬碟」…
6.《Western Digital》:〈Hyperscale? Why RAID Systems Are Dangerous – And Why You Should Stop Using Them
7.《Quora》:〈Do large companies like Google and Microsoft use RAID in their data centers?

(本文提供合作夥伴轉載,首圖截自 中國政府網

延伸閱讀

李克強巡數據中心隨便「抽出硬碟」端詳一番,網友:資料啊啊啊啊
傳統硬碟 vs. SSD 固態硬碟,你該怎麼選?
【這比玻璃心還脆弱】對著電腦一聲吼,然後硬碟就死掉了?

點關鍵字看更多相關文章: