存儲數(shù)據(jù)恢復環(huán)境&故障:
某單位一臺EMC某型號存儲中有12塊STAT接口的硬盤,其中10塊硬盤組建了一組RAID5陣列,剩下2塊設置為熱備盤使用。
RAID5陣列中的2塊硬盤出現(xiàn)故障離線,但是只有一塊熱備盤成功激活,導致RAID5陣列不可用,上層LUN無法使用。
存儲數(shù)據(jù)恢復過程:
1、將故障存儲設備中所有硬盤編號后取出,硬件工程師對所有磁盤做檢測后沒有發(fā)現(xiàn)有硬盤存在物理故障。使用壞道檢測工具檢測也沒有發(fā)現(xiàn)有硬盤存在壞道。
2、將所有磁盤以只讀方式進行全盤鏡像,由于源磁盤的扇區(qū)大小為520字節(jié),鏡像完成后將所有備份數(shù)據(jù)做520字節(jié) to 512字節(jié)的轉(zhuǎn)換,便于后續(xù)的數(shù)據(jù)恢復。
3、上述步驟的檢測并沒有發(fā)現(xiàn)有磁盤存在物理故障或者是壞道,北亞企安數(shù)據(jù)恢復工程師推斷導致故障發(fā)生的原因是某些磁盤讀寫不穩(wěn)定。由于EMC存儲的控制器針對磁盤的檢查策略比較嚴格,一旦檢測到某些磁盤性能不穩(wěn)定,EMC存儲上的控制器就很大可能性將這些磁盤識別為壞盤,并踢出RAID。一旦RAID中掉線的盤數(shù)到達到該級別RAID所允許掉盤的最大數(shù)量,RAID就會崩潰,上層基于RAID的LUN也將不可用。本案例中基于RAID的LUN只有一個,分配給SUN小機使用,上層文件系統(tǒng)為ZFS。
4、EMC存儲的LUN是基于RAID的。分析每一塊磁盤,發(fā)現(xiàn)其中有2塊盤完全沒有數(shù)據(jù)。從存儲管理系統(tǒng)上發(fā)現(xiàn)這2塊盤都是熱備盤,其中一塊盤替換了一塊壞盤。雖然該塊熱備盤成功激活,但級別為RAID5的RAID中還缺失一塊硬盤,導致數(shù)據(jù)沒有同步到這塊激活的熱備盤中。分析其他10塊硬盤,分析數(shù)據(jù)在硬盤中分布的規(guī)律、RAID條帶的大小、盤序等重組raid所需的raid相關信息。
5、根據(jù)分析獲取到的RAID信息虛擬重組RAID。但由于RAID中有兩塊盤掉線,因此需要分析這兩塊硬盤掉線順序。分析每一塊硬盤中的數(shù)據(jù),發(fā)現(xiàn)有一塊硬盤在同一個條帶上的數(shù)據(jù)和其他硬盤明顯不一樣,因此初步判斷此硬盤是先掉線的,通過RAID校驗程序校驗這個條帶,確定先掉線的硬盤。
6、LUN是基于RAID的,根據(jù)上述分析出來信息重組RAID。分析LUN在RAID中的分配信息和LUN分配的數(shù)據(jù)塊MAP。根據(jù)這些信息使用北亞企安自主開發(fā)的raid恢復程序,解釋LUN的數(shù)據(jù)MAP并導出LUN的所有數(shù)據(jù)。
7、使用ZFS文件系統(tǒng)解釋程序?qū)ι傻腖UN做文件系統(tǒng)解釋,解釋某些文件系統(tǒng)元文件的時候程序報錯。北亞企安開發(fā)工程師對ZFS文件系統(tǒng)解釋程序做debug調(diào)試,分析程序報錯原因。經(jīng)過數(shù)小時的分析與調(diào)試,發(fā)現(xiàn)存儲突然出現(xiàn)故障導致ZFS文件系統(tǒng)中某些元文件損壞,從而導致正常解釋。
8、由于ZFS文件系統(tǒng)部分元文件損壞,因此需要先修復這些損壞的文件系統(tǒng)元文件,然后才能正常解析ZFS文件系統(tǒng)。北亞企安數(shù)據(jù)恢復工程師手工修復這些損壞的元文件,直到ZFS文件系統(tǒng)能夠正常解釋。對修復好的ZFS文件系統(tǒng)做解析,解析所有文件節(jié)點及目錄結構。
9、用戶方工程師對恢復出來的數(shù)據(jù)進行驗證,經(jīng)過驗證確認恢復出來的數(shù)據(jù)完整可用。本次數(shù)據(jù)恢復工作完成。
審核編輯 黃宇
-
服務器
+關注
關注
13文章
9793瀏覽量
87945 -
數(shù)據(jù)恢復
+關注
關注
10文章
649瀏覽量
18144
發(fā)布評論請先 登錄
raid5數(shù)據(jù)恢復—Raid陣列重建后如何恢復原陣列的數(shù)據(jù)?
服務器數(shù)據(jù)恢復—raid5陣列中硬盤壞道導致陣列崩潰的數(shù)據(jù)恢復案例

服務器數(shù)據(jù)恢復—Raid5陣列熱備盤上線失敗的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—RAID5陣列熱備盤同步數(shù)據(jù)失敗的數(shù)據(jù)恢復案例

服務器數(shù)據(jù)恢復—raid5陣列崩潰導致上層lun無法正常使用的數(shù)據(jù)恢復案例

服務器數(shù)據(jù)恢復—華為OceanStor存儲中RAID5陣列數(shù)據(jù)恢復案例

服務器數(shù)據(jù)恢復—用5盤RAID5陣列中的4塊盤重建RAID5陣列后如何恢復原始數(shù)據(jù)?
服務器數(shù)據(jù)恢復—Raid5陣列兩塊硬盤指示燈亮黃色的數(shù)據(jù)恢復案例

服務器數(shù)據(jù)恢復—雙循環(huán)RAID5陣列崩潰,數(shù)據(jù)如何恢復?
服務器數(shù)據(jù)恢復—raid5陣列熱備盤未全部成功啟用的數(shù)據(jù)恢復案例

服務器數(shù)據(jù)恢復—硬盤離線導致Raid5陣列熱備盤上線失敗的數(shù)據(jù)恢復案例

評論