如今,談及X86服務器平台的CPU,很多人可能對英特爾和AMD兩大芯片巨頭的產品如數家珍,從之前的至強5400到主流的至強5600、至強7500,以及AMD強勁的12核心x86處理器“Magny-Cours”(馬尼庫爾)等等。同時,服務器的另外兩個核心在CPU的基礎上作用不容小視,以帶ECC、ChipKill、熱插拔技術的內存,防止數據異常丟失的RAID硬盤等組件共同打造出一個堅若磐石的X86服務器。
但由於X86服務器和台式機有著很多相似之處,無論是從前期部署、中期維護到後期管理都有著眾多相似之處。因此,X86服務器盡管有著成熟穩定的架構體系,也不免出現“罷工”。特別是企業負載應用得多了,遇到的故障是很平常的事情,以三大組件出現的故障與大家共同分享,可以有效避免大家在以後的業務平台上出現。
服務器核心——CPU
危害程度:★
故障回放:做過測試的朋友知道,一台基於Intel至強服務器,開機無顯示,系統指示燈瘋狂的閃爍,最直接懷疑是CPU與主板的接觸不良,但將其更換到多路服務器主板的另外一個CPU插槽之上,依舊沒有反應。
解決方案:在這種狀況下經測量,CPU電壓居然出現異常,原來是CPU的VRM(Voltage Regulator Module,電壓調節模塊)出現了故障,不能執行主板上DC電路轉換,無法為CPU提供穩定的工作電壓,至此只能更換CPU。
筆者認為這個故障是比較致命,CPU的損壞將直接導致整個服務器的不可用,但是CPU本身的安全性是非常高的,故障率極低。所以在日常維護任務中,由於CPU的損壞導致的服務中斷情況是較為少見,它的危害程度不算太高,如果是多路服務器更是不用擔心CPU損壞而帶來的服務器宕機了。
服務器平台的另外兩大核心,莫過於內存和硬盤,具體到內存的選擇上,服務器內存與普通台式機內存還是有一些差異的。仔細觀察過服務器內存的用戶會發現,相比普通內存單面8顆粒的設計,服務器內存通常單面有9顆芯片,這就是我們常說的ECC內存。
服務器讀取性能——內存
危害程度:★★☆
故障回放:之前在一台安裝2條2GB內存的服務器上,由於自身承載的服務過多,服務器的處理數據的速度越來越慢,於是,通過增加2條同型號的內存條來升級服務器。將這些內存全部插入主板後,系統檢測只有6GB,另外2GB內存神秘消失,反復的插拔新的內存依舊無法正常檢測。
解決方案:通過服務器產品官方網站了解,該種情況是因為該服務器的內存插槽是配對使用,1-4、2-5、3-6、7-10、8-11、9-12,新內存插在了2、3槽,無法形成配對,自然只能檢測出一條內存,將內存插到5槽,8GB內存順利被檢測。
可見,服務器內存的優勢不僅僅體現在性能上,在容錯能力同樣投入很多精力,目的是為整個平台提供高穩定環境,之前提到的內存采用的ECC(錯誤檢查和糾正)技術、Register、Chipkill都是為了提高內存的穩定性,使各個內存條和插槽之間能更好的融合。
作為服務器存儲終端,硬盤的穩定工作關系到企業數據的安全,服務器硬盤就是這個核心的數據倉庫,所有的軟件和數據都存儲在這裡,因此服務器硬盤對可靠性和穩定性有著非常高的要求。
另外,服務器一般需要24*7小時不停的運行,其硬盤也要24小時不停的運轉。因此,服務器硬盤對穩定性和可靠性有著很高的要求。服務器市場上采用的硬盤主要有三種,SATA硬盤、SCSI硬盤以及SAS硬盤,其中SATA硬盤主要應用在低端服務器領域,而SCSI和SAS硬盤則面向中高端服務器。
服務器存儲核心——硬盤
危害程度:★★☆
故障回放:每台服務器會出現死機、無征兆的重啟,如果頻繁出現,就會經數據中心IT運維人員進行檢測後發現是硬盤工作時間太長,出現了物理壞道。於是立即將硬盤做備份和更換是最佳解決辦法,將硬盤內的數據導出,結果在轉移數據的過程中,不停地彈出I/O錯誤,這直接導致數據轉移的速度非常慢,且丟失了很多重要數據。
解決方案:這種情況多數是磁頭或者盤片出現了錯誤。如果拆開硬盤盤片出現了劃傷,但面積並不大,通過專業的公司可以通過更換磁頭後重新恢復數據,恢復了95%以上的數據,這種情況相對來說比較幸運。
但通常說防患於未然,如果這個故障發現的及時,在盤片沒有出現更多物理損傷前予以解決,一旦等到盤片損壞嚴重,數據將永久性丟失,為了避免這種狀況的發生建議做到以下:
在硬盤選擇上,要專業的服務器硬盤,比如:平均無故障時間超過1600000小時,年故障率低於0.55%,抗震方面要有300G/2ms的以上的耐沖擊能力等等,此外應用相關服務器RAID陣列技術,比如:RAID5,它由至少3塊硬盤組成,在向硬盤寫入數據信息的同時,還寫入校驗信息,當其中有1塊硬盤出現故障時,可以根據算法從另外2塊硬盤上得出這塊故障硬盤的數據,安全性大大提高。
以上三大組件的故障僅僅是拋磚引玉的簡單介紹,其實在服務器故障方面不僅僅限於這幾點,在電源、管理模塊以及網卡方面也有類似的問題,希望用戶在應用中多多積累經驗,盡可能減小故障的發生率,提供一個穩定靈活的IT應用環境。