盡管NVMe SSD硬盤是一種高度可靠的存儲(chǔ)技術(shù),但它們?nèi)匀蝗菀装l(fā)生故障。以下是使SSD硬盤保持最佳狀態(tài)的一些最佳做法。
與機(jī)械硬盤相比,SSD硬盤十分可靠。然而,沒有一種存儲(chǔ)技術(shù)是完美的。即使是最新的NVMeSSD硬盤,也可能會(huì)突然損壞或逐漸崩潰。
人們需要了解即將發(fā)生的SSD硬盤故障的跡象,以及了解如何對(duì)出現(xiàn)故障的SSD進(jìn)行故障排除,可以標(biāo)記出永久性數(shù)據(jù)丟失和無故障恢復(fù)之間的區(qū)別。像任何存儲(chǔ)設(shè)備一樣,NVMeSSD最終將失敗。唯一的變量是何時(shí)。與機(jī)械硬盤不同,固態(tài)硬盤無法發(fā)出聲音警告,以提示可能出了問題。然而,雖然SSD硬盤可能已經(jīng)損壞,但不一定全部丟失數(shù)據(jù)。
這里介紹了SSD硬盤故障的四個(gè)主要原因,以及如何解決這些問題。
1. 過熱
NVMeSSD硬盤雖然是新興產(chǎn)品,但困擾它們最多的問題卻是計(jì)算技術(shù)中最古老的問題之一:熱量。IT管理軟件和監(jiān)視工具提供商Solar Winds公司首席技術(shù)官Leon Adato表示:“NVMeSSD硬盤可能會(huì)瘋狂運(yùn)行,特別是如果正在執(zhí)行諸如高級(jí)計(jì)算之類的密集操作時(shí)。即使在常規(guī)操作下,NVMeSSD硬盤也會(huì)產(chǎn)生引起問題的溫度?!?/p>
提供足夠的冷卻可以確保SSD硬盤不會(huì)過熱,從而防止其發(fā)生故障或節(jié)流到較低的速度。其挑戰(zhàn)在于尋找一種從驅(qū)動(dòng)器中散熱的方法。有多種解決此問題的方法。Adato說,“您可以使用大型機(jī)箱,在其中可以確保芯片上有大量直接的外部氣流,或者可以安裝散熱器,風(fēng)扇或液體冷卻系統(tǒng)?!?/p>
將室溫降低到較低的溫度還可以顯著解決與SSD硬盤熱量相關(guān)的問題。Adato說:“無論采用哪種方法,其想法都是要采取一些措施來增加冷卻和/或降低系統(tǒng)機(jī)箱內(nèi)部的環(huán)境溫度?!?/p>
2. 固件故障
SSD硬盤固件異常復(fù)雜,許多SSD硬盤故障往往只是一個(gè)極端情況,僅在正常運(yùn)行參數(shù)范圍之外才會(huì)出現(xiàn)此問題。幸運(yùn)的是,當(dāng)出現(xiàn)嚴(yán)重的固件問題時(shí),大多數(shù)SSD硬盤會(huì)自動(dòng)進(jìn)入故障保護(hù)模式。英特爾公司高級(jí)戰(zhàn)略規(guī)劃師兼產(chǎn)品經(jīng)理,負(fù)責(zé)開發(fā)NVMe規(guī)范的財(cái)團(tuán)NVMExpress的工作組聯(lián)合主席JonmichaelHands說,“如果SSD硬盤無法保證數(shù)據(jù)的完整性,那么通常賣方會(huì)實(shí)施'斷言'或其他故障模式,使名稱空間脫機(jī)或置于只讀模式,以保護(hù)主機(jī)軟件免于讀取不良數(shù)據(jù)。”
固件問題時(shí)有發(fā)生。例如,去年11月,惠普企業(yè)發(fā)布了客戶公告,警告其SSD硬盤固件版本HPD8需要嚴(yán)重修復(fù)。無法應(yīng)用此修復(fù)程序的組織將在32,768小時(shí)的運(yùn)行時(shí)間下看到其驅(qū)動(dòng)器發(fā)生故障。結(jié)果,恰好在3年270天零8個(gè)小時(shí)后,存儲(chǔ)在驅(qū)動(dòng)器上的所有數(shù)據(jù)都將丟失。
3. 濫用
SSD硬盤濫用最常見的形式是硬盤過早磨損,因?yàn)樗c數(shù)據(jù)中心的工作負(fù)載不匹配。Hands說:“例如,具有較低耐久性的[四級(jí)單元]驅(qū)動(dòng)器用于橫向擴(kuò)展存儲(chǔ)或?qū)ο蟠鎯?chǔ),而不用作具有大量隨機(jī)寫入的緩存硬盤?!?/p>
幸運(yùn)的是,可以準(zhǔn)確地預(yù)測(cè)和建模耐久性,因此很容易提前計(jì)劃以減輕SSD硬盤故障。Hands說:“知道SSD硬盤支持什么DWPD(硬盤每天寫入的數(shù)據(jù))和TBW(寫入的兆字節(jié))。對(duì)企業(yè)的工作量進(jìn)行建模,并確定哪種SSD硬盤最好?!睘榱祟A(yù)測(cè)驅(qū)動(dòng)器的失效日期,可以使用有用的工具,例如英特爾的SSD硬盤久性估算器。
4. 潛在問題
在開始引起重大麻煩之前,SSD硬盤問題通常不會(huì)變得明顯。越早知道存在問題,企業(yè)就可以更快地響應(yīng)情況并最大程度地減少影響。阿達(dá)托說:“確保使用硬件監(jiān)視軟件來跟蹤...組件的I/O速度,壞塊和其他故障模式,以便在出現(xiàn)問題時(shí)盡快知道?!?/p>
Adato指出,創(chuàng)建一個(gè)商業(yè)環(huán)境也很重要,在該商業(yè)環(huán)境中,最終用戶可以輕松地報(bào)告運(yùn)行不佳,欠佳或異常的基于SSD硬盤系統(tǒng)。他說:“IT部門需要迅速了解故障,而解決故障遠(yuǎn)比找罪責(zé)方重要得多?!?/p>
當(dāng)涉及SSD硬盤故障時(shí),快速解決問題是防止過多損壞的關(guān)鍵。Adato說:“企業(yè)所希望的最好的結(jié)果是失去了對(duì)該驅(qū)動(dòng)器進(jìn)行寫入的能力,但保留了對(duì)其進(jìn)行讀取的能力。因此,企業(yè)可以在將設(shè)備發(fā)送到廢料堆之前將所有數(shù)據(jù)復(fù)制到另一個(gè)SSD硬盤?!?/p>
-
存儲(chǔ)技術(shù)
+關(guān)注
關(guān)注
6文章
756瀏覽量
46448 -
固態(tài)硬盤
+關(guān)注
關(guān)注
12文章
1546瀏覽量
58660 -
SSD硬盤
+關(guān)注
關(guān)注
0文章
66瀏覽量
12035
原文標(biāo)題:SSD硬盤故障的4個(gè)原因及處理方法
文章出處:【微信號(hào):D1Net11,微信公眾號(hào):存儲(chǔ)D1net】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Odyssey電池ODS-AGM28/PC925如何保持最佳狀態(tài)

評(píng)論