99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

華為云Stack發(fā)布用于虛擬網(wǎng)絡監(jiān)控的主動鏈路監(jiān)控系統(tǒng)

華為開發(fā)者社區(qū) ? 來源:華為開發(fā)者社區(qū) ? 作者:華為開發(fā)者社區(qū) ? 2021-12-07 10:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景

在云數(shù)據(jù)中心環(huán)境下,IAAS云網(wǎng)絡是數(shù)據(jù)中心所有業(yè)務的通信基礎;云網(wǎng)絡的穩(wěn)定保障,需要全面、高性能、實時的監(jiān)控能力,能夠覆蓋所有轉(zhuǎn)發(fā)網(wǎng)元、路徑和業(yè)務,這套能力一定是多手段的、多維度的和多層次的,目前還沒有一種監(jiān)控方案或工具能滿足所有的監(jiān)控訴求,我們在一些實際案例中發(fā)現(xiàn)由于缺失網(wǎng)元/云服務的某些監(jiān)控指標,無法及時發(fā)現(xiàn)一些業(yè)務故障。

案例1:某客戶進行新版本的云平臺網(wǎng)絡組件升級,升級后各組件的指標監(jiān)控以及其他監(jiān)控測試方法沒有發(fā)現(xiàn)異常,但是由于升級導致EndPoint轉(zhuǎn)發(fā)網(wǎng)元的某個組件異常,小概率場景使用到這個網(wǎng)元的時候會導致流量中斷,當前監(jiān)控體系沒有做到能力覆蓋,導致當客戶的實際業(yè)務使用時發(fā)生業(yè)務故障,而阻塞業(yè)務超過1個小時。

案例2:某項目物理網(wǎng)絡進行了變更,物理網(wǎng)絡變更引入一個路由拒收問題,從物理網(wǎng)絡的監(jiān)控沒有發(fā)現(xiàn)問題,但是實際影響了業(yè)務流量,導致業(yè)務故障長達2小時。

案例3:某項目站點某租戶突發(fā)流量導致網(wǎng)關(guān)轉(zhuǎn)發(fā)性能到達瓶頸,影響其他租戶的時延高達20ms,網(wǎng)絡監(jiān)控無法及時發(fā)現(xiàn)此時延問題,直到其他租戶業(yè)務報障。

上面的案例都有一個共同特點:單個網(wǎng)元和交換機的指標正常,但是綜合用到這些網(wǎng)元和交換機的網(wǎng)絡服務有問題,華為云Stack不斷致力于在網(wǎng)絡監(jiān)控上增加監(jiān)控指標,不斷補充監(jiān)控手段,我們發(fā)布了用于虛擬網(wǎng)絡監(jiān)控的主動鏈路監(jiān)控系統(tǒng),通過點-》線-》面的邏輯構(gòu)建整個網(wǎng)絡服務監(jiān)控系統(tǒng)。

“點”:包括物理網(wǎng)元和軟件網(wǎng)元,主要監(jiān)控單個網(wǎng)元的CPU、內(nèi)存、收發(fā)報文、錯包處理/丟包、轉(zhuǎn)發(fā)相關(guān)的表項、規(guī)格和資源占用情況等?!包c”的監(jiān)控能夠監(jiān)控當前網(wǎng)元的KPI是否正常,是否具備符合預期的業(yè)務能力。

“線”:包括監(jiān)控物理鏈路,虛擬鏈路和租戶業(yè)務流。

1)物理鏈路監(jiān)控:是指從一個計算節(jié)點到另外一個計算節(jié)點的物理轉(zhuǎn)發(fā)路徑的KPI是否正常,或者從一個物理交換機到另外一個物理交換機的路徑KPI是否符合預期。

2)虛擬鏈路監(jiān)控:是從云服務的維度,檢測某個網(wǎng)絡服務的服務通道是否正常,云網(wǎng)絡下的網(wǎng)絡服務鏈路是物理網(wǎng)元和軟件網(wǎng)元配合完成的一個整體鏈路。

3)租戶業(yè)務流監(jiān)控:將物理鏈路和虛擬鏈路比作道路,那么租戶業(yè)務流可以認為是這條路上跑的汽車。物理鏈路和虛擬鏈路的監(jiān)控可以保證大部分的汽車運行正常,不會有大規(guī)模的阻塞問題,但是并不代表某輛汽車的運行一定是正常的。租戶業(yè)務流監(jiān)控是在物理物理監(jiān)控和虛擬物理監(jiān)控的基礎上補充對某個業(yè)務實例的監(jiān)控。

“面”:是從云服務的維度對網(wǎng)絡監(jiān)控進行統(tǒng)一的整理和展示,一個標準網(wǎng)絡服務的組件包括管理面組件,數(shù)據(jù)面組件和租戶實例。以華為云Stack為例,其支持的云服務數(shù)量眾多,網(wǎng)絡服務就有10多種,每種網(wǎng)絡服務有不同的組件,為了幫助運維管理員管理好這些服務,按照云服務的角度,把資源、拓撲、告警、性能、規(guī)格、日志、配置、撥測等進行統(tǒng)一整理和分類,做到一站式監(jiān)控整個云服務的運維能力。

表1 網(wǎng)絡監(jiān)控對比

f773e318-5541-11ec-b2e9-dac502259ad0.png

虛擬鏈路監(jiān)控殺手锏:主動鏈路監(jiān)控

云網(wǎng)絡大部分都是軟件化部署,僅僅監(jiān)控物理網(wǎng)絡的質(zhì)量是不夠的,更重要的是監(jiān)控虛擬網(wǎng)絡端到端的質(zhì)量,比如VPC服務網(wǎng)絡質(zhì)量(從ECS到ECS),VPC-Peer服務網(wǎng)絡質(zhì)量(ECS-vRouter-ECS),ELB服務網(wǎng)絡質(zhì)量(client-LVS-member)等,虛擬網(wǎng)絡鏈路是云網(wǎng)絡的本質(zhì)轉(zhuǎn)發(fā)路徑,云網(wǎng)絡下的虛擬網(wǎng)絡監(jiān)控對于網(wǎng)絡轉(zhuǎn)發(fā),應用質(zhì)量保障非常重要。

華為云Stack面向政企市場,為了監(jiān)控虛擬鏈路質(zhì)量,提供了智能化的主動鏈路監(jiān)控系統(tǒng),客戶不需要理解復雜的云網(wǎng)絡/的內(nèi)部原理,只需要傻瓜式的啟動這個系統(tǒng),主動鏈路監(jiān)控系統(tǒng)能夠根據(jù)項目業(yè)務場景和客戶組網(wǎng),自動計算需要監(jiān)控的虛擬網(wǎng)絡對象,主動規(guī)劃學習監(jiān)控路徑,自動上報網(wǎng)絡監(jiān)控指標和告警網(wǎng)絡故障。

通過主動鏈路監(jiān)控,可以及時發(fā)現(xiàn)前面案例中的各種故障,故障發(fā)現(xiàn)時間從不確定走向確定,故障定界定位時間從小時級變成分鐘級。

一、黃金指標:丟包率和時延

網(wǎng)絡監(jiān)控的指標很多,但是最能代表網(wǎng)絡質(zhì)量的是丟包率和時延兩個指標。丟包率和時延是網(wǎng)絡轉(zhuǎn)發(fā)能力和業(yè)務質(zhì)量體驗的最直接指標,丟包會導致報文重傳,會引起網(wǎng)絡震蕩,對業(yè)務的影響表現(xiàn)為業(yè)務不平穩(wěn),有抖動。時延高會導致網(wǎng)絡傳輸慢,導致頁面卡頓、應用反應遲緩。丟包率和時延的檢測需要通過主動或者被動的方式來動態(tài)測量,不能通過直接查詢或者采集交換機或者服務器的某個指標獲取,相關(guān)的網(wǎng)絡測量技術(shù)有很多,在此不做過多贅述。為了獲取到設備級、Fabric級、整個DC和跨DC的時延和丟包率指標,各個廠家都設計了自己的工具系統(tǒng),比如微軟的Pingmesh,F(xiàn)acebook的NETNORAD,百度的NetRadar,阿里的vTrace等,都是為了監(jiān)控整個數(shù)據(jù)中心網(wǎng)絡質(zhì)量的系統(tǒng)方案,其中最重要的輸出指標就是丟包率和時延。

二、鏈路檢測根技術(shù)

黑盒檢測方法是計算時延和丟包率最常用,最簡單的方法。傳統(tǒng)的黑盒撥測通常只關(guān)注最后撥測的結(jié)果通或者不通,如圖1所示,通過發(fā)送ICMP request和TCP SYN,關(guān)注 ICMP replay和TCP ACK報文是否有回應,發(fā)送和接受報文間RTT時延,由此計算整條探測路徑的丟包率和時延。如果中間某個交換機或者網(wǎng)元有了故障,并且網(wǎng)元已經(jīng)自我隔離了,對外的服務質(zhì)量并沒有中斷,這種情況下通過普通的黑盒探測是無法探測的?;谌旧珗笪牡膿軠y常用于出現(xiàn)問題后對問題進行復現(xiàn)時候的故障定界定位,如圖2所示,在每個網(wǎng)元,包括物理網(wǎng)元和軟件網(wǎng)元,都具備對染色報文進行鏡像和統(tǒng)計的能力,可以精確定位每個監(jiān)測點接收和發(fā)送的報文數(shù),以及每個點的時延信息,是一種高精度的黑盒檢測方法?;谌旧膿軠y方法,我們主動鏈路監(jiān)控進行主動配置探針,主動編排策略,達到覆蓋所有網(wǎng)元節(jié)點的探測目的,可以監(jiān)控網(wǎng)絡服務經(jīng)過所有網(wǎng)元的服務可用性,同時得到全量網(wǎng)元的時延和丟包率指標。主動鏈路監(jiān)控以染色報文的撥測作為測量方法,可以做到比傳統(tǒng)黑盒監(jiān)控更精細化的監(jiān)控效果,不僅監(jiān)控云服務的質(zhì)量,更能覆蓋的所有網(wǎng)元的轉(zhuǎn)發(fā)質(zhì)量,更大化的保障租戶業(yè)務流質(zhì)量。

f79ce31c-5541-11ec-b2e9-dac502259ad0.png

圖1 傳統(tǒng)黑盒撥測

f7c1c74a-5541-11ec-b2e9-dac502259ad0.png

圖2 基于染色報文的撥測

三、系統(tǒng)架構(gòu)

主動鏈路監(jiān)控整體系統(tǒng)架構(gòu)如圖3所示,主要包括Server端和Agent端。Server端用于根據(jù)云服務維度和監(jiān)控場景生成策略列表和創(chuàng)建撥測任務,agent端用于報文注入和鏡像報文收集。

f7e2c788-5541-11ec-b2e9-dac502259ad0.png

圖3 主動鏈路監(jiān)控系統(tǒng)架構(gòu)

監(jiān)控場景:包括日常監(jiān)控場景和升級監(jiān)控場景,日常監(jiān)控是一個持續(xù)監(jiān)控的過程,主要側(cè)重于監(jiān)控面廣,持續(xù)迭代和優(yōu)化;升級監(jiān)控,側(cè)重于快速給出某個網(wǎng)絡服務的監(jiān)控結(jié)果,需要針對某個網(wǎng)絡服務進行快速迭代和升級前后對比。

網(wǎng)絡拓撲:數(shù)據(jù)中心的網(wǎng)絡拓撲,包括所有的交換機和所有的計算節(jié)點,軟件網(wǎng)元的網(wǎng)口連接信息。

策略列表:包含所有要探測的鏈路的集合,一個策略對象是一個五元組信息,包括源探針I(yè)P,目的探針I(yè)P,協(xié)議,源端口和目的端口。

撥測Controller:按照策略列表下發(fā)撥測任務。

撥測Analyzer:收集撥測結(jié)果,并根據(jù)撥測結(jié)果對策略進行正向反饋優(yōu)化,策略優(yōu)化后可以覆蓋更全的鏈路。

撥測Agent:對探針注入染色報文,并收集OVS的鏡像報文。在所有的計算節(jié)點和網(wǎng)元節(jié)點部署。

ERSPAN:物理交換機通過ERSPAN的方式,把染色的撥測報文鏡像到Analyzer,供Analyzer進行虛擬網(wǎng)絡和物理網(wǎng)絡的統(tǒng)一路徑檢測和分析。

四、關(guān)鍵技術(shù)

亮點1:策略優(yōu)化

按照用戶輸入的監(jiān)控場景和云服務列表,Server會生成一個默認的策略列表,但是每個客戶現(xiàn)網(wǎng)的情況都不盡相同,初始創(chuàng)建的策略難點在于如何覆蓋所有的網(wǎng)元,比如下面的圖4,網(wǎng)元1_3和網(wǎng)元2_3并沒有被探測到,達不到鏈路覆蓋的效果。我們基于染色報文的撥測方法,提出策略優(yōu)化的方案,Analyzer得到撥測結(jié)果后會進行分析,不斷的迭代策略的五元組信息,按照不斷的反饋和補償,可以達到一條策略能夠覆蓋所有網(wǎng)元的目的,如圖5所示。策略從圖4的結(jié)果到圖5的結(jié)果就是一個策略優(yōu)化的過程。策略優(yōu)化還有另外一種結(jié)果,那就是嘗試了所有的可能后,始終無法覆蓋到某個網(wǎng)元,比如圖6中的網(wǎng)元1_3,出現(xiàn)這種情況我們有理由懷疑,網(wǎng)元1_3業(yè)務出現(xiàn)某種問題后觸發(fā)了自身的自動隔離,這種情況不影響這個網(wǎng)絡服務整體對外的可用性,只是性能或者服務等級下降,主動鏈路監(jiān)控一樣可以發(fā)現(xiàn)網(wǎng)絡服務的亞健康問題。因此主動鏈路監(jiān)控的策略優(yōu)化機制,監(jiān)控的不僅包括云服務的可用性,而且包括網(wǎng)元的可用性,監(jiān)控粒度和精度比傳統(tǒng)的黑盒監(jiān)控要高很多。

f80f2080-5541-11ec-b2e9-dac502259ad0.png

圖4 初始策略

f84333de-5541-11ec-b2e9-dac502259ad0.png

圖5 優(yōu)化后策略-1

f875a472-5541-11ec-b2e9-dac502259ad0.png

圖6 優(yōu)化后策略-2

亮點2:告警匯聚

f8afd55c-5541-11ec-b2e9-dac502259ad0.png

圖7 故障場景在網(wǎng)元故障場景下,某個網(wǎng)元出現(xiàn)故障,由于網(wǎng)元是被所有節(jié)點和所有租戶共同使用的,大量的主動鏈路監(jiān)控撥測任務會定位到此網(wǎng)元,如何不做任何過濾直接上報,Server會產(chǎn)生大量的告警,這些告警的問題溯源是重復的,告警處理效率低。告警匯聚的過程,會把所有的故障點信息進行匯總分析,匯聚成統(tǒng)一故障點之后再上報,避免了大量重復告警上送,運維管理員根據(jù)上報的匯聚告警快速定界到故障點,得到故障的影響范圍。

亮點3:可視化指標

為了展示測量數(shù)據(jù)和異常檢測結(jié)果,主動鏈路監(jiān)控設計可視化指標,包括兩部分,虛擬鏈路的時延、丟包率指標和網(wǎng)元的時延、丟包率指標。虛擬鏈路是包含多個路徑的,比如VPC的服務,包括的是計算節(jié)點的虛擬交換機到其他計算節(jié)點的虛擬機交換機的路徑。圖8中的每個原點表示某個計算節(jié)點的探針,兩個網(wǎng)點之間的線表示兩個探針之間的路徑,這個路徑是包括兩邊的OVS和中間的物理交換機,同時通過策略優(yōu)化,每個網(wǎng)卡和每個物理交換機也會被覆蓋到。線是綠色表示指標正常,如果指標異常,圖8中的連線會紅色展示。點擊其中的某條路徑,可以查看這個路徑的丟包率和時延指標,可以查看最近30分鐘,近一小時,近一天以及最長最近一個月的指標。

f8ea1db6-5541-11ec-b2e9-dac502259ad0.png

圖8 VPC服務鏈路質(zhì)量展示

f90f1468-5541-11ec-b2e9-dac502259ad0.png

圖9 路徑指標展示圖10和圖11展示的是網(wǎng)元的丟包率和時延指標,如果一種網(wǎng)元類型有多個,會分別展示每個的時延和丟包率指標。

f93dedce-5541-11ec-b2e9-dac502259ad0.png

圖10 網(wǎng)元丟包率

f95bb30e-5541-11ec-b2e9-dac502259ad0.png

圖11 網(wǎng)元時延

最后

主動鏈路監(jiān)控基于染色報文的探測方案,改善了傳統(tǒng)黑盒監(jiān)控,只能監(jiān)控網(wǎng)絡服務SLA,沒法監(jiān)控網(wǎng)元級服務SLA的弊端,采取主動探測和策略優(yōu)化的方法,做到盡可能覆蓋每個服務和每條路徑,最大可能的探測到客戶實際業(yè)務流的每條路徑,盡早的發(fā)現(xiàn)網(wǎng)絡質(zhì)量問題,切實保障客戶業(yè)務質(zhì)量。

原文標題:【大架光臨】云網(wǎng)絡的守護神,主動鏈路監(jiān)控

文章出處:【微信公眾號:華為開發(fā)者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:【大架光臨】云網(wǎng)絡的守護神,主動鏈路監(jiān)控

文章出處:【微信號:Huawei_Developer,微信公眾號:華為開發(fā)者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    網(wǎng)絡化多電機伺服系統(tǒng)監(jiān)控終端設計

    信息,并計算系統(tǒng)各項性能指標。實驗結(jié)果表明,系統(tǒng)響應速度快、運行穩(wěn)定,可靠性高。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:網(wǎng)絡化多電機伺服系統(tǒng)
    發(fā)表于 06-23 07:15

    移動基站遠程集中監(jiān)控系統(tǒng)與基站電力遠程監(jiān)控系統(tǒng)是什么監(jiān)控系統(tǒng)

    物聯(lián)網(wǎng)智能配電室監(jiān)控系統(tǒng)包含哪些:綜合監(jiān)控系統(tǒng)、安全監(jiān)控系統(tǒng)、環(huán)境監(jiān)測
    的頭像 發(fā)表于 05-26 15:19 ?242次閱讀
    移動基站遠程集中<b class='flag-5'>監(jiān)控</b><b class='flag-5'>系統(tǒng)</b>與基站電力遠程<b class='flag-5'>監(jiān)控</b><b class='flag-5'>系統(tǒng)</b>是什么<b class='flag-5'>監(jiān)控</b><b class='flag-5'>系統(tǒng)</b>

    明遠智睿SSD2351核心板助力智能監(jiān)控系統(tǒng)升級

    連接各類報警傳感器,如紅外人體傳感器、煙霧傳感器等。當傳感器檢測到異常情況時,通過I2C接口將信號傳輸至核心板,核心板迅速做出響應,觸發(fā)報警系統(tǒng),同時將相關(guān)信息傳輸至監(jiān)控中心。PWM接口可用于控制
    發(fā)表于 04-14 18:28

    南京市政務基于華為Stack成功部署DeepSeek滿血版大模型

    近期,南京市政務基于華為Stack成功部署上線滿血版DeepSeek-R1-671B,實現(xiàn)了“南京+DeepSeek滿血版”的人工智能政務應用一體化賦能升級。
    的頭像 發(fā)表于 03-31 09:30 ?428次閱讀

    華為發(fā)布DeepSeek本地部署方案

    華為正式推出基于華為Stack混合的DeepSeek本地部署方案。
    的頭像 發(fā)表于 02-18 10:05 ?1078次閱讀

    華為Stack助力統(tǒng)計信息化智能升級

    經(jīng)過充分調(diào)研和考察,華為Stack平臺、數(shù)據(jù)庫、大數(shù)據(jù)的全棧自主創(chuàng)新能力和在政務領域的持續(xù)積淀,獲得了國家統(tǒng)計局的認可。國家統(tǒng)計局聯(lián)合華為
    的頭像 發(fā)表于 02-07 10:22 ?497次閱讀

    云端監(jiān)控新體驗,打造強大的 Zabbix 主機監(jiān)控解決方案

    前言**** 華為服務器 Flexus X 實例,以革命性柔性算力與卓越性能,重塑云端監(jiān)控體驗。攜手 Zabbix 主機監(jiān)控解決方案 ,為您打造前所未有的強大
    的頭像 發(fā)表于 01-07 17:23 ?552次閱讀
    云端<b class='flag-5'>監(jiān)控</b>新體驗,打造強大的 Zabbix 主機<b class='flag-5'>監(jiān)控</b>解決方案

    樓宇安防智能監(jiān)控系統(tǒng)

    技術(shù)深度融合。由周邊防盜報警系統(tǒng)、閉路電視監(jiān)控系統(tǒng)、電子防盜報警系統(tǒng)、樓宇對講系統(tǒng)、出入控制及門禁系統(tǒng)
    的頭像 發(fā)表于 12-02 16:50 ?597次閱讀

    倉儲環(huán)境監(jiān)控系統(tǒng)方案

    倉儲環(huán)境監(jiān)控系統(tǒng),作為現(xiàn)代物流與供應管理中的重要組成部分,扮演著確保食品、藥品等易腐、易變質(zhì)商品在儲存和運輸過程中保持恒定溫度、濕度等關(guān)鍵環(huán)境參數(shù)的關(guān)鍵角色。隨著科技的進步和消費
    的頭像 發(fā)表于 11-29 16:48 ?584次閱讀

    如何利用zabbix進行網(wǎng)絡監(jiān)控

    了解Zabbix的基本概念 在開始使用Zabbix進行網(wǎng)絡監(jiān)控之前,我們需要了解一些基本概念。Zabbix主要由以下幾個部分組成: Zabbix Server:負責收集監(jiān)控數(shù)據(jù)并存儲在數(shù)據(jù)庫中
    的頭像 發(fā)表于 11-08 10:39 ?1409次閱讀

    zabbix監(jiān)控系統(tǒng)使用指南

    1. Zabbix簡介 Zabbix是一個企業(yè)級的開源監(jiān)控解決方案,用于監(jiān)控IT基礎設施,包括網(wǎng)絡、服務器、虛擬機和應用程序。它可以實時
    的頭像 發(fā)表于 11-08 10:37 ?1474次閱讀

    什么是動環(huán)監(jiān)控系統(tǒng)?

    ,利用物聯(lián)網(wǎng)、計算、大數(shù)據(jù)等技術(shù),集成采集器/傳感器、動環(huán)主機、動環(huán)監(jiān)控平臺等部分,對機房的環(huán)境系統(tǒng)、供電動力、網(wǎng)絡、安防、消防等
    的頭像 發(fā)表于 10-12 16:12 ?1551次閱讀

    醫(yī)院智慧冷監(jiān)控系統(tǒng)

    物資管理水平、保障醫(yī)療安全的重要手段。 一、基本原理 醫(yī)院智慧冷監(jiān)控系統(tǒng),基于物聯(lián)網(wǎng)、大數(shù)據(jù)、計算等現(xiàn)代信息技術(shù)構(gòu)建的物聯(lián)網(wǎng)解決方案。通過安裝在冷
    的頭像 發(fā)表于 09-09 18:02 ?660次閱讀