故障現(xiàn)象
某運(yùn)營商TECS資源池的一臺主機(jī)內(nèi)存故障,進(jìn)行關(guān)機(jī)、內(nèi)存更換操作,虛機(jī)自動遷移到其他主機(jī)上,同時做了其他虛擬機(jī)的手動遷移操作。后續(xù)在TECS上出現(xiàn)虛機(jī)內(nèi)核異常告警,如下圖所示。
故障分析
1. 檢查告警,確認(rèn)是一臺虛擬機(jī)的多次告警,如下圖所示。
2. 經(jīng)排查,服務(wù)器SRV-09有內(nèi)存更換和下電操作,00:39 虛機(jī)全部自動遷移成功,其中包含了XXX0012虛機(jī),同時還包括其他網(wǎng)元的虛機(jī),其他網(wǎng)元未出現(xiàn)異常。
3. 現(xiàn)場進(jìn)行虛機(jī)重啟、遷移等操作,未成功恢復(fù)XXX00012虛機(jī)。分析虛機(jī)CPU都沖高到100%,虛機(jī)操作系統(tǒng)顯示軟鎖,如下圖所示。
4. 經(jīng)操作系統(tǒng)分析,是有大量外部報文沖擊導(dǎo)致CPU沖高到100%,系統(tǒng)得不到調(diào)度。
5. 將該網(wǎng)元中除XXX00012外的其他虛機(jī)都shutdown后,再重啟XXX00012虛機(jī),XXX00012虛擬機(jī)恢復(fù)正常。
6. 逐一開啟其他虛機(jī),發(fā)現(xiàn)XXX00012虛機(jī)異常,其余虛機(jī)均正常啟動。3分鐘后XXX00012虛機(jī)CPU再次沖高到100%。
7. 分析XXX00012虛機(jī),發(fā)現(xiàn)該虛機(jī)存在I/O Error,數(shù)據(jù)盤不能正常讀寫,如下圖所示。
8. 分析虛機(jī)殘留問題,原主機(jī)SRV-09故障下電后,虛機(jī)自動遷移,第一次自動遷移失敗,自動遷移落地的節(jié)點(diǎn)是SRV-10,如下圖所示。
9. SRV-10節(jié)點(diǎn)上因?yàn)閹捹Y源不足落地失敗,XXX00012虛機(jī)重新自動遷移到SRV-12,自動遷移成功,如下圖所示。
10. 自動遷移異常導(dǎo)致虛機(jī)實(shí)例在SRV-10和SRV-12同時啟動,如下圖所示。
11. 綜上分析,產(chǎn)生該問題的原因是殘留虛機(jī),導(dǎo)致網(wǎng)元異常。
故障處理
1. 關(guān)閉SRV-12服務(wù)器上XXX0012虛機(jī),同時刪除SRV-10服務(wù)器上該虛機(jī)殘留的實(shí)例。
2. 重啟XXX0012虛機(jī),虛機(jī)啟動正常,CPU恢復(fù)正常。觀察半小時未再出現(xiàn)異常。
3. 總結(jié):異地重生階段建議不要做其他互斥或者相同的操作,容易造成集群中數(shù)據(jù)不一致等問題。
-
內(nèi)核
+關(guān)注
關(guān)注
3文章
1416瀏覽量
41424 -
cpu
+關(guān)注
關(guān)注
68文章
11080瀏覽量
217050 -
內(nèi)存
+關(guān)注
關(guān)注
8文章
3124瀏覽量
75266 -
主機(jī)
+關(guān)注
關(guān)注
0文章
1038瀏覽量
35985 -
虛擬機(jī)
+關(guān)注
關(guān)注
1文章
966瀏覽量
29358
原文標(biāo)題:TECS OpenStack-資源池虛機(jī)殘留導(dǎo)致網(wǎng)元異常的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
RCS融合通信系統(tǒng)設(shè)計方案解析

OpenStack資源調(diào)度和現(xiàn)狀分析

電力云資源池的建立

OpenStack云平臺監(jiān)控數(shù)據(jù)采集及處理的實(shí)踐與優(yōu)化
線程池中如何獲取和處理異常
TECS資源池上報存儲設(shè)備離線的問題處理

TECS資源池SSH控制節(jié)點(diǎn)虛機(jī)提示connection refused的問題處理

TECS資源池上報BFD會話DOWN和網(wǎng)絡(luò)流量異常告警的問題處理

資源池后端存儲服務(wù)狀態(tài)異常的問題處理

資源池虛擬機(jī)時鐘跳變異常的問題處理

TECS OpenStack資源池時間同步失敗的故障分析

TECS OpenStack資源池虛機(jī)寫磁盤時延高告警的問題處理

TECS OpenStack資源池虛擬機(jī)網(wǎng)絡(luò)二層地址無法互通的問題處理

評論