對于服務器散熱來說,尤其是內部散熱,單純的增加風扇數量或增加風扇轉速并不能很好的解決問題,風扇越多,轉速越快,耗電也就越多,噪音也會越大,對于用戶來說,耗電和噪音也是很大的問題,如果可以根據服務器內部部件的運行情況試試調整散熱――尤其是風扇,那么服務器的散熱效果非但不會打折扣,還會有效降低服務器耗電和噪音。
英特爾熱管理架構工程師Kaleen Man女士為大家講解了英特爾在服務器關鍵元器件散熱中的技術,她表示2007年基于英特爾處理器的服務器已經對中央處理器(CPU)、北橋(MCH)、FB-Dimm內存全部提供了災難過熱保護、閉路循環保護(CLTT)和用于風扇轉速控制(FSC)的傳感器。也就是說,對于服務器主要容易過熱的部件――處理器、北橋和 內存,英特爾都提供了基于傳感器的溫度保護技術。
我們知道,英特爾的雙核/四核采用了Bensley平臺,而Bensley平臺采用了全新的FB-Dimm內存技術,這是因為一方面考慮內存容量的可擴充性,另一方面考慮提升內存的性能,通過FB-Dimm內存上的AMB芯片來串行連接后面的內存,增加系統內存容量,通過串行技術可以將內存峰值帶寬提高到21GB/s。FBDIMM的功耗非常高,產生的熱量比較大,而FB-Dimm內存的性能與AMB芯片的工作溫度有很大的關系,這對服務器的散熱設計提出了很高了要求,要達到理論的內存峰值帶寬,在FB-Dimm內存的工藝設計上Intel與各大內存廠商還需要下更多的功夫去改進。
針對于FB-Dimm內存的散熱,尤其是其AMB芯片的散熱,Kaleen Man女士講解了針對FB-Dimm內存的熱管理技術,英特爾將內存溫度分為了三個階段:AMB.TempLow、AMB.TempMid、AMB.TempHi。同時,為AMB芯片溫度設定了四個散熱階段,其基本技術就是“內存工作閑時降低風扇轉速,內存工作忙時增加風扇轉速”,但是需要指出的是,CLTT散熱階段,由于傳感器可能會有的5~6度左右的測溫誤差,于是當出現-5度誤差的時候,可能現在的AMB溫度已經進入了危險區間,針對于此,英特爾特別設計在此時,由MCH觸發內存保護機制,從而避免AMB溫度過高。
我們知道串行的FB-Dimm內存,可以過片上的AMB芯片來串行連接后面的內存,增加系統內存容量,于是就會有很多內存工作與同一平臺上,但是有時候,整個內存系統只有幾片內存非常繁忙并且過熱,英特爾針對于此特別對每個安裝的內存進行AMB溫度寄存器優化,每個分支(Branch)有獨立的熱保護機制。對于如何進行閉路循環熱保護CLTT的檢測參數的設置,Kaleen Man女士表示,FB-Dimm內存的耐溫性能、耗電值以及OEM廠商提供的廠商信息、最終用戶希望的溫度控制都是可以作為參考的,而且,優化的設置可以減少為保護內存而設置的保護帶,提高性能并改善噪音。另外,內存上的用于風扇速度控制的AMB傳感器是非常重要的一部分,整個內存的散熱要根據其中最熱的內存――即與觸發熱保護溫度最接近的內存來決定風扇速度的加快和降低。
在本次講座中,Kaleen Man女士著重提到,英特爾將為北橋MCH提供全新的廣發的熱管理技術,在2007年將作為重點之一。同樣的,MCH的溫度也被劃分為三個級別:TSFSC、Throttling limit以及Term Trip。這其中值得注意的是,如果北橋MCH超過熱保護極限Throttling limit時,MCH將在0.5ms內將其與內存和I/O的傳輸切換到預設的安全值,即降低內存與I/O性能以保護系統不會因過熱而出現物理損害。
當然,散熱系統的實施是內存和傳感器的整合,每一個風扇和傳感器都可以相互連接,在2007年,將會有處理器、內存、北橋互連的負責整體散熱的傳感器,同時,因為溫度讀取會有一定延時,可能會造成讀取溫度不是實時溫度的準確值。因此新的北橋MCH的溫度控制,將會是整合的規模可擴展的溫度控制。
對于處理器和MCH來說,災難性的熱保護是最為重要的,如果出現災難性的過熱,硬件設備往往會因為電子遷移現象、過熱現象而出現物理損害。同時,由于可能出現的異常的散熱失效,如散熱系統故障,風扇停轉,處理器、北橋和內存的Term Trip信號――即考慮誤差修正的過熱區間,將會精確的降低系統功耗,從而避免永久的物理損害,當然,Term Trip信號也會觸發系統日志,從而為系統工程師的事件診斷提供幫助。
當然,英特爾提供了一整套完備的驗證程序,以驗證散熱系統是否可以保證所有元件的熱保護,系統工程師將就FSC進行數學建模工作,最終FSC在模型中達到一定值之后即可滿足所有元器件的散熱要求。同時,數值讀取會有一定的傳感器誤差,因此過熱保護臨界需要防護帶,因此內存的CLTT設定會有一定的范圍界定。