告警產生
4月16日上午7:30分左右,福州某市醫院20多臺伺服器批次重啟,通知現場工程師。
故障分析定位
1、透過批次重啟告警資訊,發現內網esxi53主機硬體告警,初步判斷是X86裝置esxi53發生故障,導致esxi53上的虛擬伺服器進行遷移重啟。
查開啟esxi53裝置詳情,檢視磁碟執行資訊,顯示2塊磁碟執行正常。
基本可以排除磁碟故障。
2、在9:20左右,伺服器再次發生批次重啟現象,在批次重啟資訊中,有“內網ESXi54 主機硬體-x86-溫度狀態異常告警”
檢視ESXi54硬體故障告警詳情,可以看到記憶體,PCH和PCLe同時溫度狀態異常告警,推測ESXi54硬體故障,導致esxi54上的虛擬伺服器進行遷移重啟.
大膽假設,謹慎求證。
於是LinkSLA二級工程師,登入客戶主機管理,發現esxi53、esxi54兩臺主機的虛擬機器伺服器重啟時和平臺監控到的記憶體PCH和PCLe同步存在溫度異常告警。
因此,可以初步判斷,當esxi53、esxi54兩臺主機在記憶體狀態異常時,記憶體發現異常。因此出現虛擬機器批次遷移到其它主機的現象。
三、後續處理措施和建議
故障修復,建議跟換記憶體條。通過後續系統檢測,此類故障再也沒有發生,問題得到解決。
系統的健康穩定,需要時時掌握系統的執行狀態,根據AI趨勢性演算法,做好提前預防,將問題扼殺在搖籃中。
LinkSLA智慧運維管家,提供一站式運維服務