作為我國(guó)最早開(kāi)展高性能計(jì)算(HPC)研究的單位之一,清華大學(xué)早在2005年開(kāi)始自建高性能計(jì)算平臺(tái),如今,高性能計(jì)算平臺(tái)二期工程已經(jīng)于今年4月正式投入使用。清華高性能計(jì)算平臺(tái)(二期)擁有“探索100”百億次集群計(jì)算機(jī),集群機(jī)采用最新Intel Xeon X5670處理器,740個(gè)計(jì)算節(jié)點(diǎn),系統(tǒng)理論峰值超過(guò)100TFlops,計(jì)算能力在全國(guó)高校居首位,能很好地服務(wù)于清華大學(xué)交叉學(xué)科的研究,并為校內(nèi)外用戶(hù)提供高性能計(jì)算資源、并發(fā)算法開(kāi)發(fā)、高性能計(jì)算相關(guān)資訊等各類(lèi)服務(wù)。
打造百億次集群計(jì)算機(jī)
2009年清華大學(xué)成立了地球系統(tǒng)科學(xué)研究中心,并聯(lián)合計(jì)算機(jī)系、環(huán)境系、核能研究院等院系成立了全球變化研究院,致力于研究全球氣候變化背景下地球系統(tǒng)科學(xué)的前沿課題及其產(chǎn)生的社會(huì)經(jīng)濟(jì)影響。“超級(jí)計(jì)算平臺(tái)是全球氣候變化研究、地球系統(tǒng)科學(xué)研究必備平臺(tái),為此,清華大學(xué)啟動(dòng)了以“探索100”百億次集群計(jì)算機(jī)為核心的清華高性能計(jì)算平臺(tái)二期工程的建設(shè),借助高性能計(jì)算平臺(tái)還原或預(yù)測(cè)地球自然變化過(guò)程,實(shí)現(xiàn)對(duì)洋流、大氣、地殼等的仿真研究。” 清華大學(xué)計(jì)算機(jī)系高性能所高工張武生介紹說(shuō)。
在“高標(biāo)準(zhǔn)、高要求、高起點(diǎn)”建設(shè)原則指導(dǎo)下,清華大學(xué)與浪潮集團(tuán)合力打造的清華高性能計(jì)算平臺(tái)(二期)通用CPU計(jì)算性能達(dá)到了每秒104萬(wàn)億次,GPU計(jì)算性能達(dá)到每秒68萬(wàn)億次,總計(jì)算性能為每秒172萬(wàn)億次,是我國(guó)在地球系統(tǒng)模擬領(lǐng)域速度最快的超級(jí)計(jì)算機(jī),也是目前我國(guó)高等院校性能最高的計(jì)算平臺(tái)。清華高性能計(jì)算平臺(tái)(二期)內(nèi)存總?cè)萘窟_(dá)到30TB,共享存儲(chǔ)系統(tǒng)容量1PB,系統(tǒng)功率包括制冷系統(tǒng)功率不到350千瓦。除了卓越的計(jì)算能力,清華高性能計(jì)算平臺(tái)(二期)還實(shí)現(xiàn)了兩個(gè)關(guān)鍵點(diǎn):第一,采用超異構(gòu)并行可擴(kuò)展架構(gòu),使得整體應(yīng)用效能比其他架構(gòu)提升了25%;第二,為了達(dá)到低能綠色設(shè)計(jì)理念,超算系統(tǒng)的計(jì)算節(jié)點(diǎn)采用了高密度的刀片式服務(wù)器設(shè)計(jì),能夠自動(dòng)調(diào)整的智能液冷系統(tǒng)也大大降低了能耗,使得整體系統(tǒng)能耗降低了30%,年電費(fèi)節(jié)約100萬(wàn)。
Platform LSF提供可信賴(lài)的作業(yè)調(diào)度和管理
清華大學(xué)超百萬(wàn)億次超級(jí)計(jì)算機(jī)系統(tǒng)應(yīng)用環(huán)境非常復(fù)雜,其應(yīng)用領(lǐng)域覆蓋了物理、化學(xué)、應(yīng)用數(shù)學(xué)、材料、力學(xué)、自動(dòng)化、計(jì)算機(jī)、核技術(shù)、航空航天、生物信息、石油、電機(jī)、醫(yī)學(xué)、地質(zhì)等眾多學(xué)科,這就要求高性能計(jì)算集群平臺(tái)的作業(yè)調(diào)度系統(tǒng)必須能對(duì)各個(gè)應(yīng)用軟件具有非常良好的支持,即作業(yè)調(diào)度系統(tǒng)要與各個(gè)商業(yè)應(yīng)用軟件具有良好的接口和后臺(tái)支撐,同時(shí)還必須支持各種開(kāi)源軟件,以確保各種應(yīng)用軟件在集群環(huán)境下的穩(wěn)定應(yīng)用。
清華大學(xué)采用了Platform LSF作業(yè)調(diào)度系統(tǒng)對(duì)高性能計(jì)算平臺(tái)進(jìn)行管理和調(diào)度。張武生介紹說(shuō),清華大學(xué)HPC平臺(tái)(一期工程)也采用了Platform LSF,實(shí)踐證明Platform LSF有兩大優(yōu)點(diǎn),一是穩(wěn)定性非常好,從來(lái)沒(méi)發(fā)生作業(yè)或者節(jié)點(diǎn)丟失的問(wèn)題;二是可用性好,LSF提供了豐富的參數(shù)配置,通過(guò)組合的方式就能滿(mǎn)足各種不同的配置需求。此外,Platform公司給我們的高性能計(jì)算提供了強(qiáng)有力的支持,利于我們快速響應(yīng)用戶(hù)需求。
Platform LSF是業(yè)界領(lǐng)先的最為廣泛使用的分布式批處理中間件,它可以用于提供PaaS服務(wù), 并支持網(wǎng)格化SaaS。Platform LSF在可靠性、響應(yīng)時(shí)間、可操作性、可維護(hù)性等方面有較大的優(yōu)勢(shì),表現(xiàn)在:
● 高可靠性。隨著機(jī)群系統(tǒng)的逐步擴(kuò)大,依賴(lài)于機(jī)群系統(tǒng)的人越來(lái)越多,機(jī)群系統(tǒng)的故障將導(dǎo)致數(shù)百、乃至數(shù)千分布世界各地的員工工作受到影響,甚至直接影響到產(chǎn)品的測(cè)試、驗(yàn)證乃至發(fā)布。LSF具有高可靠性,其機(jī)群系統(tǒng)的平均無(wú)故障時(shí)間大于99.95%,即一個(gè)季度,停機(jī)時(shí)間小于一個(gè)小時(shí)。
● 100%可信賴(lài)的作業(yè)調(diào)度和管理。LSF提供的透明遠(yuǎn)程執(zhí)行機(jī)制以及通過(guò)JobStarter提供的作業(yè)運(yùn)行環(huán)境自適應(yīng)機(jī)制可以確保作業(yè)調(diào)度和運(yùn)行的正確性。
● 高可擴(kuò)展性。Platform LSF單一機(jī)群管理的CPU數(shù)已經(jīng)向10000 ~ 20000等更多CPU方向展。
● 良好的可操作性,支持在線(xiàn)修改。Platform LSF支持在線(xiàn)修改,支持系統(tǒng)管理員根據(jù)用戶(hù)需求的變化,動(dòng)態(tài)地修改系統(tǒng)配置,不影響作業(yè)的運(yùn)行和用戶(hù)的使用。
● 良好的可維護(hù)性。Platform LSF支持機(jī)群系統(tǒng)的在線(xiàn)升級(jí)和維護(hù)。系統(tǒng)管理員可以在不影響作業(yè)的運(yùn)行和用戶(hù)使用的情況下,替換新的系統(tǒng)服務(wù)程序,進(jìn)行系統(tǒng)在線(xiàn)升級(jí)和維護(hù)。
張武生表示,Platform 作業(yè)調(diào)度系統(tǒng)確保了整個(gè)集群的負(fù)載平衡,提高了作業(yè)運(yùn)行效率,大大降低了作業(yè)運(yùn)行的成本,為清華大學(xué)高性能計(jì)算提供了可信賴(lài)的作業(yè)調(diào)度和管理。
清華大學(xué)高性能計(jì)算平臺(tái)(二期)目前已經(jīng)承擔(dān)起聯(lián)合國(guó)政府間氣候變化專(zhuān)門(mén)委員會(huì)第五次評(píng)估報(bào)告(IPCC-AR5)氣候模擬、預(yù)測(cè)、評(píng)估試驗(yàn)的計(jì)算任務(wù),而這個(gè)計(jì)算任務(wù)以往都只有發(fā)達(dá)國(guó)家參加,此次中國(guó)是加入的唯一發(fā)展中國(guó)家。除此之外,該平臺(tái)還為973、863計(jì)劃和國(guó)家自然基金等項(xiàng)目提供計(jì)算支持,用戶(hù)覆蓋了物理、化學(xué)、應(yīng)用數(shù)學(xué)、材料、力學(xué)、自動(dòng)化、計(jì)算機(jī)、核技術(shù)、航空航天、生物信息、石油、電機(jī)、醫(yī)學(xué)、地質(zhì)等眾多學(xué)科,為清華大學(xué)交叉學(xué)科的研究提供了有力的保障。