上周在斯坦福大學(xué)召開的"Hot Chips 23"大會(huì)上Intel、IBM、AMD等沒拿出來什么新的猛料,對比之下ARM和Oracle透露下一代處理器的相關(guān)技術(shù)細(xì)節(jié)更多。其中Oracle接手Sun后開發(fā)的SPARC架構(gòu)處理器依舊面向服務(wù)器和HPC(超級計(jì)算機(jī))領(lǐng)域,而目前世界排名第一的日本RIKEN(理化學(xué)研究所)和富士通合力打造的超級計(jì)算機(jī)“京”就是采用SPARC架構(gòu)V8fx CPU。接下來我們就一起來看看Oracle下一代服務(wù)器/HPC用處理器SPARC T4的具體面貌。
這款開發(fā)中的次世代SPARC處理器T4開發(fā)代號(hào)名為"Yosemite Falls"。作為Oracle收購Sun System后推出的首款SPARC處理器T3的后續(xù)產(chǎn)品,T4的主要改進(jìn)部分在單線程和加密運(yùn)算性能上。
單個(gè)T4處理器的核心數(shù)量為8,比起前代T3的16個(gè)減少到了一半。每個(gè)核心可同時(shí)執(zhí)行8線程,與T3相比維持不變。整個(gè)處理器執(zhí)行的線程數(shù)量為64,對比T3的128同樣減半,Oracle表示T4的單個(gè)線程執(zhí)行效率和性能是T3的2倍,兩者對比T4整體性能仍舊占優(yōu)。同時(shí)Oracle旗下處理器從T4開始將集成三級緩存,T4的L3 Cache容量為4MB,采用共享方式存取。
次世代SPARC處理器T4面向的應(yīng)用范圍
T4處理器的核心設(shè)計(jì)圖,其中S3為單個(gè)CPU核心,L3為三級緩存,CCX為總線
T4處理器運(yùn)行頻率超過3GHz,集成的晶體管數(shù)量為8億5千5百萬個(gè),對比T3的約10億個(gè)減少15%左右。制造工藝則和T3相同,采用臺(tái)積電40nm CMOS技術(shù)。Oracle此次沒有公布T4處理器的核心面積和運(yùn)行功耗,不過根據(jù)相同工藝這一條件以及T3的核心面積為377mm2,按比例我們可以推算出T4的核心面積范圍在320-330mm2左右。
T4采用的單個(gè)CPU核心為Oracle新開發(fā)的"S3",具備亂序執(zhí)行技術(shù)。整數(shù)運(yùn)算流水線(Pipeline)達(dá)到16級,對比前代T3使用的S2核心,整數(shù)運(yùn)算性能(SPECint2006測試值)達(dá)到約5倍,浮點(diǎn)運(yùn)算性能(SPECfp2006測試值)約7倍。
每個(gè)S3核心內(nèi)部集成16KB一級數(shù)據(jù)緩存(L1 Data Cache),16KB一級命令緩存(L1 Command Cache),128KB二級緩存。而前代T3使用的S2核心L1只有16KB命令+8KB數(shù)據(jù),對比之下S3大大提高。
S3核心內(nèi)部運(yùn)算模塊化流程
S3核心內(nèi)部流水線示意圖
T4與前代CPU的性能對比
同時(shí),Oracle此次宣講中著重強(qiáng)調(diào)的一點(diǎn)就是T4集成對應(yīng)模塊,大大強(qiáng)化了加密編碼運(yùn)算處理的性能。主要得益于增加了專門對應(yīng)AES和DES、Kasumi、Camellia、CRC32c等算法的低延遲"in-pipe"命令,以及對應(yīng)MD5、SHA-1、SHA-256、SHA-512、MPMUL等算法的高延遲"out-of-pipe"命令。
加密編碼模塊處理流程
T4與T4的加密編碼性能比較
Oracle稱,SPARC T4處理器最早有望在2012年前發(fā)布,如此看來甲骨文也不是一家只有法務(wù)部門靠打官司吃飯的公司,Sun除了Java外的另一項(xiàng)遺產(chǎn)看來還能被繼承下去。