服務(wù)器異常會出現(xiàn)那些可能性預(yù)警
提到服務(wù)器宕機檢測,大家會想到,宕機能夠很快知道,這個有什么可做的?實際上,很多時候服務(wù)器宕機,并不總是被及時感知。服務(wù)器宕機,ping或者ssh這是最簡單的做法,但真正的工程實踐,沒這么簡單。
想要獲知服務(wù)器宕機怎么辦?可以通過服務(wù)器宕機實時檢測:
1)發(fā)現(xiàn)宕機。
2)提前告警。
3)告知宕機的詳細(xì)原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。
4)自動報修生成工單。
我們知道,進(jìn)行全網(wǎng)物理機宕機準(zhǔn)確探測與實時發(fā)現(xiàn),可以給宕機分析提供現(xiàn)場,獲取現(xiàn)場的移動學(xué)習(xí)日志。也可以盡早將宕機數(shù)據(jù)推送給業(yè)務(wù)或運營感知并處理,如自動報修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降低。
更重要的是,準(zhǔn)確的宕機發(fā)現(xiàn)數(shù)據(jù)可以為宕機預(yù)測提供準(zhǔn)確的標(biāo)注數(shù)據(jù),為后期宕機預(yù)測提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運營部門進(jìn)行整體分析,提升處理效率。
那么,如何可以準(zhǔn)確發(fā)現(xiàn)宕機,減少誤報呢?我們可以有以下操作,比如:
心跳源檢測異常
顧名思義,通過心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報一次,但當(dāng)NC異常時,長連接感知后,立即上報異常,并修改路由表。所以心跳異常做到秒級感知。
update消息,在有心跳發(fā)生變化情況下都會有,心跳異常和心跳恢復(fù)正常時都會發(fā)起,是主要的心跳來源。
delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長。
insert消息,在新增加機器, 或者重裝后重新上位的機器發(fā)起,該消息對宕機發(fā)現(xiàn)價值不大,配合uptime使用。
心跳源檢測任務(wù)邏輯,主要是監(jiān)聽并緩存uptime消息,同時避免時間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
服務(wù)器異常會出現(xiàn)那些可能性預(yù)警下載
相關(guān)電子資料下載
- “協(xié)同發(fā)展,生態(tài)聚合” 開放原子1024程序員節(jié)圓滿落幕 53
- 監(jiān)控云服務(wù)器怎么架設(shè)? 55
- 服務(wù)器數(shù)據(jù)恢復(fù)-服務(wù)器藍(lán)屏重啟仍然藍(lán)屏的數(shù)據(jù)恢復(fù)案例 59
- 服務(wù)器硬盤通用基礎(chǔ)知識 19
- 三星電子和SK海力士計劃四季度全面提高DDR5產(chǎn)量 49
- 致遠(yuǎn)電子新一代8路串口服務(wù)器 83
- 服務(wù)器數(shù)據(jù)恢復(fù)-2盤raid0磁盤陣列數(shù)據(jù)恢復(fù)案例 24
- 物聯(lián)網(wǎng)網(wǎng)絡(luò)設(shè)計實用的步驟和見解 42
- Bumping工藝流程工作原理 光刻工藝原理和流程 22
- 用勤哲Excel服務(wù)器實現(xiàn)學(xué)生營養(yǎng)改善計劃食堂管理平臺 68