99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

存儲磁盤故障預(yù)測和性能容量預(yù)測技術(shù)

浪潮存儲 ? 來源:浪潮存儲 ? 作者:浪潮存儲 ? 2020-09-08 11:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著“新基建”的逐步發(fā)展落地,現(xiàn)代數(shù)據(jù)中心迅速崛起,數(shù)據(jù)量呈指數(shù)級增長,同時各種新存儲介質(zhì)和技術(shù)的應(yīng)用,使得存儲系統(tǒng)變得越來越復(fù)雜。用戶需要一套穩(wěn)定、高性能且簡單易用的存儲系統(tǒng)。 AI技術(shù)可以解決存儲系統(tǒng)使用的復(fù)雜性問題,提供簡單易用、智能化的存儲系統(tǒng)。AI會不斷地從存儲及其運(yùn)行環(huán)境中采集存儲的各種狀態(tài)信息和性能數(shù)據(jù),用機(jī)器學(xué)習(xí)算法分析,學(xué)習(xí)用戶的存儲使用情況,進(jìn)而自動化的調(diào)整并優(yōu)化存儲系統(tǒng),使存儲服務(wù)能更好地適應(yīng)用戶的需求。有AI加持的智能化存儲可以增強(qiáng)系統(tǒng)的可靠性,降低存儲的復(fù)雜性和維護(hù)成本。 因此,在前期的文章中,我們提出”客戶的未來,從AI加持的新存儲開始”的觀點(diǎn),并介紹了存儲AIOps的五大關(guān)鍵技術(shù):監(jiān)控、學(xué)習(xí)、預(yù)測、推薦、實(shí)施。 今天我們來具體探討一下被客戶重點(diǎn)關(guān)注的存儲磁盤故障預(yù)測和性能容量預(yù)測技術(shù)。

1

磁盤故障預(yù)測和性能容量預(yù)測

給復(fù)雜的存儲管理做“減法”

存儲本身很復(fù)雜,數(shù)據(jù)中心環(huán)境和客戶應(yīng)用也很復(fù)雜,預(yù)測性分析技術(shù)是準(zhǔn)確預(yù)測存儲風(fēng)險和故障,解決存儲的復(fù)雜性的重要一部分。預(yù)測性分析技術(shù)是通過分析歷史的日志、告警、報錯等信息,AI算法可以自動分析出問題出現(xiàn)前的頻繁出現(xiàn)的數(shù)據(jù)模式,之后在從正常存儲系統(tǒng)上匹配這些AI學(xué)習(xí)到模式就能形成預(yù)測。 對于一個復(fù)雜的存儲系統(tǒng)來說,用戶關(guān)注最多的是硬盤、性能和容量的預(yù)測分析,磁盤故障預(yù)測和性能容量預(yù)測則成為兩大關(guān)鍵功能。 為什么關(guān)注硬盤故障預(yù)測?

公開數(shù)據(jù)顯示百度數(shù)據(jù)中心4年29萬次硬件故障中,硬盤故障占比高達(dá)81.84%。對于傳統(tǒng)的存儲廠商來說,雖然磁盤的絕對故障率不高,但是在所有的存儲部件中,如CPU、內(nèi)存、主板、網(wǎng)卡、HBA卡、電源等,磁盤的故障率是最高的。

雖然傳統(tǒng)存儲有RAID、副本等機(jī)制,但是數(shù)據(jù)重建過程中使用了大量IO資源,這導(dǎo)致存儲性能嚴(yán)重下降,而且重建時間很長往往以天計。因此,數(shù)據(jù)重建對客戶的業(yè)務(wù)影響很大。如果我們可以提前預(yù)測磁盤故障,用戶可以選擇業(yè)務(wù)不繁忙的時間來重建數(shù)據(jù),那么重建帶來的影響可以忽略不計。同時,預(yù)測可以把突發(fā)事件變?yōu)橛媱澥录步档土舜鎯Φ木S護(hù)成本。

為什么關(guān)注容量性能預(yù)測?

除故障外,用戶在日常使用存儲的過程中關(guān)注最多的就是容量和性能。系統(tǒng)容量不足會導(dǎo)致系統(tǒng)不可用,客戶業(yè)務(wù)中斷。性能指標(biāo)主要指時延、帶寬、IOPS,隨著用戶業(yè)務(wù)的發(fā)展,給存儲帶來的性能壓力越來越大,性能不足會讓客戶的應(yīng)用變慢甚至無響應(yīng)。

利用AI技術(shù),對存儲的性能、容量變化趨勢進(jìn)行準(zhǔn)確預(yù)測,一方面可以告知客戶進(jìn)行擴(kuò)容、軟硬件升級的時間點(diǎn),另一方面也能提供存儲規(guī)劃的具體參考指標(biāo)。

2

存儲磁盤故障預(yù)測技術(shù) 同典型的AI系統(tǒng)一樣,先對歷史數(shù)據(jù)進(jìn)行訓(xùn)練,生成AI模型,最后在新的數(shù)據(jù)到來時形成預(yù)測。具體說包括以下五個部分:輸入數(shù)據(jù)、預(yù)處理、模型訓(xùn)練、優(yōu)化集成和預(yù)測。對于軟件系統(tǒng)來說關(guān)鍵點(diǎn)有:數(shù)據(jù)來源、算法選擇和評估指標(biāo)。

磁盤故障預(yù)測系統(tǒng)整體架構(gòu) 數(shù)據(jù)來源

硬盤本身提供了SMART數(shù)據(jù)(Self-Monitoring Analysis andReporting Technology)。SMART是90年代定義的硬盤狀態(tài)檢測和預(yù)警系統(tǒng)的規(guī)范,提供了磁頭、磁盤、電機(jī)、電路等硬盤硬件的運(yùn)行數(shù)據(jù)。目前幾乎所有的硬盤廠商都已經(jīng)支持了該規(guī)范。下表列出了與故障相關(guān)的SMART值。

表1:故障相關(guān)的SMART值

絕大多數(shù)的廠商和科研院校都是基于SMART數(shù)據(jù)進(jìn)行磁盤故障預(yù)測,且都取得了不錯的效果。但是在2020年2月的存儲頂會FAST(USENIXConference on File and Storage Technologies)上發(fā)表的最新論文表明,SMART再加上存儲性能數(shù)據(jù)可以進(jìn)一步提升預(yù)測準(zhǔn)確率。作者采用了12個磁盤IO性能指標(biāo)、18個服務(wù)器性能指標(biāo)、4個位置信息,基于CNN和LSTM的AI算法實(shí)現(xiàn)了提前10天故障預(yù)測誤報率0.5%、漏報率5.1%。我們期待著存儲產(chǎn)品上能應(yīng)用最新的技術(shù)來進(jìn)一步提高預(yù)測的準(zhǔn)確性。

算法選擇

可用于磁盤故障預(yù)測的AI算法有很多,如傳統(tǒng)算法決策樹、經(jīng)典的SVM(Support Vector Machine)、在各種競賽上大放異彩的XGBoost(Gradient Tree Boosting)以及深度學(xué)習(xí)算法CNN和LSTM。實(shí)際效果及頂級會議KDD、ATC、FAST的論文實(shí)驗(yàn)結(jié)果都表明,XGBoost、CNN、LSTM的效果比傳統(tǒng)算法有明顯優(yōu)勢。

評價指標(biāo)在完成了歷史數(shù)據(jù)訓(xùn)練,故障預(yù)測之后,我們需要對預(yù)測的效果進(jìn)行評估。表2描述了機(jī)器學(xué)習(xí)中標(biāo)準(zhǔn)的評價指標(biāo)。

表2:機(jī)器學(xué)習(xí)模型評價指標(biāo)

基于表2中的定義,評價磁盤故障預(yù)測的主要有準(zhǔn)確率、漏報率和誤報率:

準(zhǔn)確率=:判定正確的盤(含好盤和壞盤)占所有盤的比例

誤報率=:好盤被誤判成壞盤占所有好盤的比例

漏報率=:沒有識別出的壞盤占所有壞盤的比例

準(zhǔn)確率高,誤報和漏報低,是我們追求的目標(biāo)。這相當(dāng)于我們在發(fā)現(xiàn)幾乎壞盤的同時沒有把好盤誤判成壞盤。但是從算法調(diào)優(yōu)的角度看,誤報率和漏報率是一對矛盾,誤報率的降低會引起漏報率的上升,漏報率的降低會引起誤報率的上升。對于同一個算法來說,如果誤報和漏洞同時降低,很可能發(fā)生了過擬合現(xiàn)象,當(dāng)換一類盤后,誤報和漏報都會大幅上升。

3

存儲性能容量預(yù)測技術(shù) 對于存儲來說,性能和容量預(yù)測是兩件不同的事情,都為客戶帶來不同的價值。但是站在技術(shù)角度,兩者都屬于數(shù)據(jù)挖掘中時間序列預(yù)測問題(Time Series Prediction)。時間序列,也叫時間數(shù)列、歷史復(fù)數(shù)或動態(tài)數(shù)列。它是將某種統(tǒng)計指標(biāo)的數(shù)值,按時間先后順序排到所形成的數(shù)列。預(yù)測的基本原理是:統(tǒng)計分析過去的時間序列數(shù)據(jù),形成擬合函數(shù)或者AI算法模型,以擬合的函數(shù)結(jié)果或模型來預(yù)測未來的趨勢。

時間序列預(yù)測法可用于短期、中期和長期預(yù)測。造成時間序列數(shù)據(jù)發(fā)生變化的因素主要有以下四個:

趨勢性:時間序列曲線呈現(xiàn)出一種緩慢而長期的持續(xù)上升、下降、不變的整體趨勢。

周期性:由于外部的影響,隨季節(jié)的交替,時間序列曲線有明顯的周期性的高峰、低谷。

隨機(jī)性:個別的數(shù)據(jù)變化為隨機(jī)變動,但整體呈現(xiàn)出統(tǒng)計規(guī)律。

綜合性:以上幾種變化因素的疊加或組合。預(yù)測時可以過濾除去不規(guī)則的隨機(jī)因素,最終展現(xiàn)出趨勢性和周期性變動。

經(jīng)典的時間序列預(yù)測算法有ARIMA、線性回歸、深度學(xué)習(xí)算法等。這些算法有各自的優(yōu)劣勢,產(chǎn)品會根據(jù)不同的客戶應(yīng)用場景來選擇不同的算法。下圖展示了各個算法的實(shí)際效果。

時間序列算法效果比較

對于存儲來說,除核心算法外,存儲還有自身的容量和性能指標(biāo)。表3列出了浪潮智能存儲管理平臺InView支持的未來1天、7天、30天、90天的3個容量趨勢指標(biāo),15個性能趨勢指標(biāo)。

表3:浪潮存儲性能容量預(yù)測指標(biāo)

4

存儲AIOps的產(chǎn)業(yè)落地浪潮智能存儲管理平臺InView 存儲產(chǎn)業(yè)界中,作為新數(shù)據(jù)時代“新存儲”引領(lǐng)者,浪潮存儲推出了領(lǐng)先且獨(dú)具特色的智能存儲管理平臺InView,提供了預(yù)測性分析、端到端的故障定位、性能洞察等一系列的智能化功能,幫助用戶分析復(fù)雜應(yīng)用環(huán)境下從虛擬機(jī)到后端存儲端到端的性能瓶頸,確定影響性能瓶頸的主要因素,并最終給出可行的優(yōu)化或解決問題的建議。 其中磁盤故障預(yù)測、性能容量預(yù)測的智能化功能,可以幫助客戶預(yù)防硬件故障帶來的損失,并給出具體的擴(kuò)容建議,為客戶提供更穩(wěn)定、高性能、智能化的存儲服務(wù),使存儲服務(wù)能更好地適應(yīng)用戶需求,同時降低存儲的復(fù)雜性和維護(hù)成本。 注:感謝我的同事葉毓睿對本篇文章提供啟發(fā)。

原文標(biāo)題:【科技放大鏡】AI加持,給復(fù)雜存儲管理做“減法”

文章出處:【微信公眾號:浪潮存儲】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲
    +關(guān)注

    關(guān)注

    13

    文章

    4533

    瀏覽量

    87464
  • 磁盤
    +關(guān)注

    關(guān)注

    1

    文章

    390

    瀏覽量

    25835
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279983

原文標(biāo)題:【科技放大鏡】AI加持,給復(fù)雜存儲管理做“減法”

文章出處:【微信號:inspurstorage,微信公眾號:浪潮存儲】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何統(tǒng)計蜂鳥E203的分支預(yù)測率?

    想請問大家如何統(tǒng)計蜂鳥E203的分支預(yù)測率,我嘗試在exu_commit模塊里統(tǒng)計,但是發(fā)現(xiàn)預(yù)測率都有寫問題,想請教以下大家
    發(fā)表于 06-10 07:05

    提早預(yù)見問題:預(yù)測性維護(hù)有效降低企業(yè)停機(jī)風(fēng)險

    (Predictive Maintenance)。預(yù)測性維護(hù)是整合傳感器、物聯(lián)網(wǎng)(IoT)與人工智能(AI)等技術(shù),即時監(jiān)測設(shè)備運(yùn)行的狀態(tài),收集并分析設(shè)備健康數(shù)據(jù),在問題發(fā)生前的時機(jī)進(jìn)行維修或保養(yǎng)。相較于傳統(tǒng)維護(hù)方式只能被動回應(yīng)故障
    的頭像 發(fā)表于 05-06 16:32 ?153次閱讀
    提早預(yù)見問題:<b class='flag-5'>預(yù)測</b>性維護(hù)有效降低企業(yè)停機(jī)風(fēng)險

    邊緣計算網(wǎng)關(guān)的實(shí)時監(jiān)控與預(yù)測性維護(hù)都有哪些方面?適合哪些行業(yè)使用?

    邊緣計算網(wǎng)關(guān)的實(shí)時監(jiān)控與預(yù)測性維護(hù)都有哪些方面?適合哪些行業(yè)使用? 有實(shí)施過得案例的介紹嗎? 深控技術(shù)的不需要點(diǎn)表的邊緣計算網(wǎng)關(guān)如何?
    發(fā)表于 04-01 09:44

    預(yù)測性維護(hù)實(shí)戰(zhàn):如何通過數(shù)據(jù)模型實(shí)現(xiàn)故障預(yù)警?

    預(yù)測性維護(hù)正逐步成為企業(yè)降本增效的核心手段,通過數(shù)據(jù)驅(qū)動的故障預(yù)警邏輯框架,可以預(yù)測設(shè)備是否正常運(yùn)行,提前預(yù)警并避免損失。案例中,通過振動傳感器采集數(shù)據(jù),發(fā)現(xiàn)軸承故障,通過隨機(jī)森林模型
    的頭像 發(fā)表于 03-21 10:21 ?966次閱讀
    <b class='flag-5'>預(yù)測</b>性維護(hù)實(shí)戰(zhàn):如何通過數(shù)據(jù)模型實(shí)現(xiàn)<b class='flag-5'>故障</b>預(yù)警?

    深控技術(shù)工業(yè)網(wǎng)關(guān)通過集成邊緣AI引擎與多源數(shù)據(jù)融合技術(shù),實(shí)現(xiàn)設(shè)備健康狀態(tài)的實(shí)時預(yù)測與能效優(yōu)化

    深控技術(shù)不需要點(diǎn)表的工業(yè)網(wǎng)關(guān)通過集成邊緣AI引擎與多源數(shù)據(jù)融合技術(shù),實(shí)現(xiàn)設(shè)備健康狀態(tài)的實(shí)時預(yù)測與能效優(yōu)化: 多維數(shù)據(jù)采集:實(shí)時采集設(shè)備振動、溫度、電流、壓力等參數(shù)(如電機(jī)電流波動±5%閾值監(jiān)測
    的頭像 發(fā)表于 03-06 11:12 ?384次閱讀
    深控<b class='flag-5'>技術(shù)</b>工業(yè)網(wǎng)關(guān)通過集成邊緣AI引擎與多源數(shù)據(jù)融合<b class='flag-5'>技術(shù)</b>,實(shí)現(xiàn)設(shè)備健康狀態(tài)的實(shí)時<b class='flag-5'>預(yù)測</b>與能效優(yōu)化

    設(shè)備管理系統(tǒng):如何實(shí)現(xiàn)預(yù)測性維護(hù)與故障預(yù)防?

    設(shè)備管理系統(tǒng)通過數(shù)據(jù)收集與分析、智能算法和維護(hù)策略制定,實(shí)現(xiàn)預(yù)測性維護(hù)與故障預(yù)防。通過建立設(shè)備模型,預(yù)測設(shè)備性能變化趨勢。設(shè)定預(yù)警閾值,確定關(guān)鍵指標(biāo)。通過數(shù)據(jù)分析,發(fā)現(xiàn)設(shè)備潛在
    的頭像 發(fā)表于 02-13 09:56 ?637次閱讀
    設(shè)備管理系統(tǒng):如何實(shí)現(xiàn)<b class='flag-5'>預(yù)測</b>性維護(hù)與<b class='flag-5'>故障</b>預(yù)防?

    信道預(yù)測模型在數(shù)據(jù)通信中的作用

    在現(xiàn)代通信系統(tǒng)中,數(shù)據(jù)傳輸?shù)目煽啃院托适呛饬肯到y(tǒng)性能的關(guān)鍵指標(biāo)。信道預(yù)測模型作為通信系統(tǒng)中的一個核心組件,其作用在于預(yù)測信道條件的變化,從而優(yōu)化數(shù)據(jù)傳輸策略,提高通信質(zhì)量。 信道預(yù)測
    的頭像 發(fā)表于 01-22 17:16 ?798次閱讀

    MVTRF:多視圖特征預(yù)測SSD故障

    固態(tài)硬盤( Solid State Drive,SSD )在大型數(shù)據(jù)中心中發(fā)揮著重要作用。SSD故障會影響存儲系統(tǒng)的穩(wěn)定性,造成額外的維護(hù)開銷。為了提前預(yù)測和處理SSD故障,本文提出了
    的頭像 發(fā)表于 12-30 11:04 ?587次閱讀
    MVTRF:多視圖特征<b class='flag-5'>預(yù)測</b>SSD<b class='flag-5'>故障</b>

    服務(wù)器數(shù)據(jù)恢復(fù)—磁盤出現(xiàn)故障導(dǎo)致Mdisk成員盤上線失敗的數(shù)據(jù)恢復(fù)案例

    。 服務(wù)器存儲故障: V7000存儲磁盤出現(xiàn)故障,管理員發(fā)現(xiàn)問題后立即更換磁盤。新更換的硬
    的頭像 發(fā)表于 12-20 14:22 ?537次閱讀
    服務(wù)器數(shù)據(jù)恢復(fù)—<b class='flag-5'>磁盤</b>出現(xiàn)<b class='flag-5'>故障</b>導(dǎo)致Mdisk成員盤上線失敗的數(shù)據(jù)恢復(fù)案例

    EEPROM存儲容量選擇技巧 EEPROM的故障排查與維修

    EEPROM存儲容量選擇技巧 選擇合適的EEPROM存儲容量需要考慮多個因素,以確保所選型號能夠滿足應(yīng)用需求并具備良好的性能和可靠性。以
    的頭像 發(fā)表于 12-16 16:47 ?1783次閱讀

    什么是raid磁盤冗余陣列

    讀寫、如實(shí)現(xiàn)數(shù)據(jù)備份。 ? raid技術(shù)的作用 ? - 提高IO能力,磁盤并行讀寫 - 提高耐用性,磁盤冗余算法來實(shí)現(xiàn)- 具備冗余功能,節(jié)約成本 ? raid級別的作用、以及區(qū)別 ? - raid0 最小
    的頭像 發(fā)表于 12-16 16:41 ?932次閱讀
    什么是raid<b class='flag-5'>磁盤</b>冗余陣列

    服務(wù)器數(shù)據(jù)恢復(fù)—EVA存儲磁盤磁盤掉線的數(shù)據(jù)恢復(fù)案例

    服務(wù)器存儲數(shù)據(jù)恢復(fù)環(huán)境: 一臺EVA某型號控制器+EVA擴(kuò)展柜+FC磁盤。 服務(wù)器存儲故障&檢測: 磁盤
    的頭像 發(fā)表于 11-06 13:46 ?484次閱讀
    服務(wù)器數(shù)據(jù)恢復(fù)—EVA<b class='flag-5'>存儲</b><b class='flag-5'>磁盤</b>組<b class='flag-5'>磁盤</b>掉線的數(shù)據(jù)恢復(fù)案例

    一種創(chuàng)新的動態(tài)軌跡預(yù)測方法

    本文提出了一種動態(tài)軌跡預(yù)測方法,通過結(jié)合歷史幀和歷史預(yù)測結(jié)果來提高預(yù)測的穩(wěn)定性和準(zhǔn)確性。它引入了歷史預(yù)測注意力模塊,以編碼連續(xù)預(yù)測之間的動態(tài)
    的頭像 發(fā)表于 10-28 14:34 ?1097次閱讀
    一種創(chuàng)新的動態(tài)軌跡<b class='flag-5'>預(yù)測</b>方法

    電梯按需維保——“故障預(yù)測”算法模型數(shù)據(jù)分析

    梯云物聯(lián)的智能AI終端在故障預(yù)測算法模型數(shù)據(jù)分析中扮演著核心角色,其工作流程涵蓋了數(shù)據(jù)采集、特征提取、模型構(gòu)建、故障預(yù)測與預(yù)警等多個環(huán)節(jié),形成了一套完整的電梯
    的頭像 發(fā)表于 10-15 14:32 ?1143次閱讀

    什么是開關(guān)設(shè)備溫升預(yù)測預(yù)警解決方案

    蜀瑞創(chuàng)新科普:電力開關(guān)設(shè)備溫升預(yù)測預(yù)警解決方案是一種針對電力設(shè)備在運(yùn)行過程中可能因溫度升高而引發(fā)故障或事故的問題,通過先進(jìn)的預(yù)測和預(yù)警技術(shù)來提前識別并采取措施的解決方案。這一解決方案旨
    的頭像 發(fā)表于 09-13 09:39 ?698次閱讀
    什么是開關(guān)設(shè)備溫升<b class='flag-5'>預(yù)測</b>預(yù)警解決方案