網絡基礎設施設計是一個錯綜復雜的過程,每一個細小的決定可能都會影響到數據中心的服務器,其中最容易被忽視的是服務器制冷需求,不是誤判就是嚴重低估,這種失誤在各種環境中都時有發生。歷史經驗表明,不斷緊縮的IT預算迫使數據中心忽略關鍵的制冷和溫度控制需求,即便是大型數據中心有時也是這種情況。只有有效地預防服務器制冷故障,才能確保運行在服務器上的應用永不掉線,企業才能真正地節省開支。那麼如何做好服務器的制冷工作,發生故障時如何處理是好呢?
服務器制冷量
在處理服務器制冷基礎設施中的故障前,必須要了解制冷系統是如何工作的,以及究竟需要多少制冷量,制冷與數據中心擺放的電氣設備數量緊密相關,預期的電力消耗可以根據設備上標注的安培數進行計算,安培數越大就表示需要更多的制冷量。最簡單的計算方法是知道服務器的耗電量(每台服務器或所有服務器),通常,一台單CPU的服務器需要1安培或120瓦(1安培x120伏=120瓦),雙CPU(如至強或AMD)服務器需要2安培或240瓦,最後乘以每瓦需要的制冷量(約3.4 BTU)就可以計算出服務器需要的制冷量了。
例如,一台120瓦的服務器需要408 BTU的制冷量(120x3.4),使用這個方法計算出所有服務器需要的制冷量,並向取得認證的HVAC顧問咨詢計算結果是否可行。
處理服務器制冷系統的故障
服務器制冷系統發生故障時,最重要的是迅速做出決定,並采取行動,正確的行動將讓系統正常運行的時間更長,並防止再發生更嚴重的故障。下面這些指導方針在發生制冷系統故障時可以參考:
1、了解誰是維修人員,以及如何讓他盡快抵達現場。
第一個電話應該打給HVAC工程師,盡可能詳細描述問題,這樣有助於工程師判斷是否需要帶零部件,在故障發生的第一時間,必須分秒必爭。
2、了解並預測如果制冷設備發生故障將會產生什麼影響
例如,在機房溫度上升到臨界值(>120℉)之前,服務器可以撐多久,這樣可以算出留給維修人員的最大時間,以及是否需要啟動備用系統。
3、與相關公司就關鍵環境簽署服務水平協議
如果沒有簽,最好准備一套便攜式制冷系統。例如,Tripp Lite的SRCOOL12K就是專門為緊急制冷而設計的,它可以提供大約12K BTU制冷量,有些地方緊急制冷設備非常昂貴,可以短時間租用。如果機房溫度達到臨界值之前只有幾小時的時間,你可能將要面臨財政上的損失。
4、關掉非必需的服務器
開發服務器通常是用電大戶,在生產期間它們無需運行,還有測試服務器,以及所有非必需的服務器都應該統統關掉。
5、如果機房溫度上升到快達到臨界值時,最好打開門窗,總之想法降低機房的溫度即可,如果戶外溫度比室內溫度要低,可以使用風扇將熱空氣吹出去。
6、最後一條是處理制冷系統故障時最重要的一條:確保提前做好所有數據的備份工作。
如果提前做好了制冷系統故障處理應急預案,當真正的故障發生時將會發揮巨大的作用。如果你知道你的服務器等不到故障解除就要關掉,最好提前啟動遠程備用數據中心,並做好轉移的准備。企業的應急計劃應保證任何情況下業務的正常運轉,即使是非常緊急的情況也應該如此。此外,還應該制定災難恢復計劃,在突發事件等緊急情況下,可以有序地將整個數據中心上的業務轉移到備用數據中心。
服務器制冷冗余
一個制冷設備發生故障不應該將整個數據中心陷入烤箱,如果制冷系統做了冗余,並有相應的故障轉移計劃,你就可以慢慢等維修工程師上門。
最基本的冗余制冷方法是n+1,但很大一部分取決於制冷需求和公司的預算,對於一個中等規模的數據中心(約1000平方英尺),可選的制冷方案有多種,例如,你可以給服務器機房部署一個1.5噸位的AC設備,再加一個1噸位的設備作為備用,這些裝置可以負載均衡。
ESPO的網絡架構師David Langlands說:“對於中等規模的環境,最好找個獲得認證的HVAC專家交流交流,如果資金允許,一個完整的n+1冗余環境在給定時間內將有3-4個制冷裝置在運行,這意味著你的制冷系統將可以保持100%可用”。
對於大型數據中心(大於5000平方英尺),制冷需求有所不同,相對於中小型數據中心,大型數據中心一般都會加入預防制冷故障的設計,只有這樣,不管是正常例行維護還是故障處理,即便是在業務高峰期,即使有多套系統在運行,都有充足的維修時間保證。諸如艾默生電氣或一些知名獨立顧問都可以幫助你設計具有冗余的服務器制冷解決方案。
大型數據中心一般都采用以下這些制冷技術:
- 抬高地板下面的空間,增強冷空氣流動。
- 在服務器之間的空隙處加裝擋板,提高空氣流動效率。
- 整個機房的空氣全部來源於冷通道,所有熱空氣全部從熱通道排除去,對於大型機房,還應安裝多條冷熱通道。
- 安裝在屋頂的冷卻器將乙二醇通過封閉的管道推入到數據中心,在數據中心循環,以達到降溫的目的。
- 使用AC型鼓風機將通過乙二醇冷卻的空氣吹入服務器機房。
還有其它種類的制冷設備和技術,最好還是聽聽HVAC專家的意見,他們可以幫助你選擇最合適的產品。
服務器制冷最佳實踐
最後,我們總結了幾個處理數據中心制冷問題的重要原則:
- 在快速撥號組裡加入HVAC專家的號碼。有制冷冗余就緒計劃。
- 監控溫度,並建立一個系統記錄溫度變化情況,當服務器溫度超出警告閥值時及時提醒,AVTECH TemPageR就是這樣的系統,它會以日志和圖形的方式展示溫度值,這個200美元的設備簡直千值萬值。
- 除了溫度外,還要監控濕度,不要讓服務器機房結冰。
- 查看所有水流的去向,不管是用滴水盤還是水路由方法,只要將水流引出機房,不滲漏即可。
- 數據中心對制冷的需求越來越高,但制冷需求增長速度卻常常被忽視,Langlands說:“不要根據當前的需求設計制冷系統,應提前做好未來制冷量增長的規劃”。
小結
在規劃或處理服務器制冷系統故障時有太多的因素需要考慮,最好的辦法是防患於未然,用一句話道出其中的天機就是:做好冗余和備份,熟記HVAC專家的聯系方式。