最近遇到一件很讓人郁悶的事情,CX3-10C上分配給一台服務器的虛擬磁盤老是掉線,原因起先不明,不過現在正常了,讓人難以琢磨?
這台視頻服務器上面的兩個虛擬磁盤沒有了,存儲陣列管理端提示光纖未連接,然後我就猜測是網通的人把線碰掉了或者是拔掉了,因為他們最近在摸線,准備機房搬遷,碰掉也很有可能。電話告訴陳乾,可能原因,我去機房檢查服務器光纖連接情況,處理這起故障。去了之後發現確實是光纖松掉,指示燈都不亮了。插好之後重啟,一切正常。
但是第二天早上,也就是昨天早上又出現這樣的問題就是這台視頻服務器上面的兩個虛擬磁盤沒有了,但是存儲陣列管理端顯示連接一切正常,服務器端的powerpath一切也正常,也沒有提示任何錯誤,只是系統日志裡有幾個提示錯誤。
此時問題原因不明啊,服務器端也提示正常,但是確實是沒有磁盤,很讓人意外。然後我就重啟服務器,因為windows系統好多問題一重啟就正常了,重啟之後果然正常,但是這時不知道原因,至少我認為在存儲陣列上是沒有問題的,光纖交換機肯定也是沒有問題的,即使有問題也是某個端口的問題,我懷疑最大的是網通又把線碰了,打電話問網通那邊的負責人問有沒有人去機房,他們說沒有人去機房,我很懷疑,但是沒有辦法,因為我們那機房暫時沒有門禁系統,也無從判斷,我就暫時把這個問題放在這裡,日志也看不出是什麼原因。
郁悶的是兩個小時之後又那樣了,磁盤又沒有了,提示都正常,錯誤日志也和上次一樣,我想會不會是光纖的問題,去了機房把光纖和光纖交換機端口都換了,重啟機器又正常了,但是還是沒有用,下午三點鐘又出現原問題,又重啟恢復正常,待進一步觀察問題,每次提示的錯誤都是一樣的,就是數量上稍微有區別。
由於還有一件事情比這個重要,下午下班趕緊去辦另外一件事情,回來之後八點,那會在路上同事打電話說又出問題,我說你先重啟一下,又恢復正常,回來之後立即研究,時刻監控,同時備份上面的數據,防止磁盤數次卸載掛上出現問題,但是備份途中又壞掉,由於已很晚,這台服務器訪問量也不是很高,晚上就沒有加班處理,說實話即使加班也不知道該怎麼做,回家想了想,斷定剩下的只能是HBA卡的問題了,端口也換過了,光纖也換過了,還是重復性出現這個問題,時斷時續,真的很煩人……
早上重啟之後和dell售後服務工程師聯系,商討問題解決方案,咨詢了類似的問題,他看了一下存儲陣列spa、spb、系統日志、光纖交換機的 supportshow命令的輸出(那個我看不懂,他讓我抓下來給他的)。然後也斷定是HBA壞掉,我當時已經在機房,由於這台服務器上面有兩塊HBA,我把光纖接到另外一塊HBA卡上面,然後重新再管理端注冊這個hba卡,形成對存儲陣列的有效訪問鏈接。切換過程不用多說,就是一般的注冊過程,很簡單,就這樣問題解決。一切恢復正常。整個就一神奇的烏龍事件!