
本文來(lái)自半導(dǎo)體產(chǎn)業(yè)縱橫。
作為GPU計(jì)算市場(chǎng)的新手,英特爾可能降低價(jià)格,同時(shí)提供更高的性能。
在半導(dǎo)體行業(yè)中,體積比架構(gòu)更加重要。如果設(shè)計(jì)中的IP不能分散到大量客戶(hù)以解決更廣泛的工作負(fù)載,那么出色的設(shè)計(jì)并不能帶來(lái)什么。
英特爾對(duì)GPU業(yè)務(wù)一點(diǎn)也不陌生。僅在最近十年就見(jiàn)證了基于“Larrabee”X86的GPU的興起,它沒(méi)有與Nvidia和AMD(ATI)替代產(chǎn)品競(jìng)爭(zhēng)的性能,并且作為HPC計(jì)算的許多核心處理器的“Knights”系列被回收,英特爾在僅僅兩代人之后就將其作為計(jì)算引擎淘汰。
用于Corei5、i7或i9PC處理器的Iris系列集成圖形電路,后者重新打包為XeonE3服務(wù)器CPU系列,集成GPU用于視頻流和VDI工作負(fù)載。英特爾盡其所能忽略這些Iris增強(qiáng)型服務(wù)器CPU中固有的相當(dāng)強(qiáng)大的GPU計(jì)算能力。
英特爾正在用基于Xe架構(gòu)的離散GPU家族來(lái)解決這個(gè)問(wèn)題,該公司最終致力于擁有一個(gè)廣泛而深入的GPU計(jì)算平臺(tái),主要是英特爾意識(shí)到,如果他們不在數(shù)據(jù)中心吃掉自己的CPU計(jì)算份額,那么其他兩家主要的GPU加速器制造商——AMD和Nvidia都會(huì)推出相應(yīng)的CPU。
好久不見(jiàn)
這種XeGPU策略是其Gen11IrisPC顯卡的演變,并在2018年12月的英特爾創(chuàng)新日上首次詳細(xì)介紹,當(dāng)時(shí)英特爾表示將創(chuàng)建一個(gè)新架構(gòu),該架構(gòu)將具有獨(dú)立CPU和集成GPU,所有這些都基于相同的Xe架構(gòu)將跨越“從teraflops到petaflops”,范圍從針對(duì)PC客戶(hù)端優(yōu)化的低端GPU一直到針對(duì)運(yùn)行AI和HPC工作負(fù)載的數(shù)據(jù)中心系統(tǒng)優(yōu)化的大型計(jì)算引擎。
近兩年后,在HotChips上,英特爾詳細(xì)闡述了這一新GPU系列的設(shè)計(jì),并談到針對(duì)特定工作負(fù)載調(diào)整XeGPU微架構(gòu),并使用不同的工藝、封裝,有時(shí)甚至是小芯片組合。XeLP是一種低功耗GPU,最初在“TigerLake”CPU中銷(xiāo)售,然后在用于服務(wù)器工作負(fù)載的離散SG1和DG1GPU中免費(fèi)使用;英特爾服務(wù)器XG310GPU加速器于2020年11月宣布并與中國(guó)系統(tǒng)制造商H3C共同設(shè)計(jì),使用XeLPSG1變體。
XeHPG系列針對(duì)高性能游戲和數(shù)據(jù)中心流媒體和圖形計(jì)算工作負(fù)載。XeHP將HBM2e內(nèi)存添加到GPU復(fù)合體中,并在單個(gè)封裝上擴(kuò)展到四個(gè)小芯片,旨在實(shí)現(xiàn)更強(qiáng)大的媒體處理和AI工作負(fù)載。最后,XeHPC系列的目標(biāo)是浮點(diǎn)和混合精度計(jì)算,用于A(yíng)I訓(xùn)練和HPC模擬和建模工作負(fù)載,而Knights系列則留下了一個(gè)漏洞。
XeHPC系列包括“PonteVecchio”離散GPU,英特爾上周表示,它已開(kāi)始向阿貢國(guó)家實(shí)驗(yàn)室發(fā)貨,作為“Aurora”百億億級(jí)超級(jí)計(jì)算機(jī)的第二個(gè)設(shè)計(jì)中的主要計(jì)算引擎。
英特爾詳細(xì)介紹的Flex系列140和170GPU加速器屬于XeHPG系列,也稱(chēng)為ArticSound-M系列。這些Flex系列卡于8月推出,但這些設(shè)備的許多架構(gòu)細(xì)節(jié)并未透露。

不要被這些獨(dú)立GPU卡的相對(duì)大小誤導(dǎo)。Flex系列140基于一對(duì)DG2-128GPU,其中八個(gè)Xe圖形內(nèi)核運(yùn)行在1.95GHz、兩個(gè)媒體引擎和八個(gè)共享12GBGDDR6內(nèi)存的光線(xiàn)追蹤單元。
Flex系列170具有單個(gè)DG2-512GPU,具有32個(gè)運(yùn)行頻率為2.05GHz的Xe內(nèi)核、兩個(gè)媒體引擎和32個(gè)共享16GBGDDR6內(nèi)存的光線(xiàn)追蹤單元。
XeHPG內(nèi)核具有16個(gè)256位向量引擎和16個(gè)1,024位XMX矩陣數(shù)學(xué)引擎,這兩個(gè)引擎都對(duì)AI推理很有用,具有192KB的共享L1緩存。這兩個(gè)引擎是我們關(guān)心Flex系列的原因。
重點(diǎn)關(guān)注媒體轉(zhuǎn)碼和云游戲,因?yàn)樵跀?shù)據(jù)中心很好地支持這種工作負(fù)載意味著英特爾可以與Nvidia競(jìng)爭(zhēng)在GPU領(lǐng)域的工作數(shù)據(jù)中心。如果英特爾GPU領(lǐng)域競(jìng)爭(zhēng),那么它也有能力構(gòu)建更好的XeHPCGPU加速器,比如“RialtoBridge”離散GPU踢球器到PonteVecchio和“FalconShores”混合CPU-GPU設(shè)備。
XeHPC內(nèi)核上的向量引擎每個(gè)時(shí)鐘可以處理16次FP32、32次FP16和64次INT8運(yùn)算,并具有一個(gè)專(zhuān)用的浮點(diǎn)執(zhí)行端口和另一個(gè)用于整數(shù)和擴(kuò)展數(shù)學(xué)函數(shù)處理的端口。
XMX矩陣引擎是一個(gè)四深脈動(dòng)陣列,類(lèi)似于Google的TPU和AmazonWebServices的Inferentia芯片。XeHPC內(nèi)核上的矩陣引擎每個(gè)時(shí)鐘可以處理128個(gè)FP16或BF16浮點(diǎn)、256個(gè)INT8或512個(gè)INT4運(yùn)算。GPU可以同時(shí)將工作分派給向量和矩陣引擎。

配備兩個(gè)DG2-128GPU的Flex系列140在媒體處理方面將比配備一個(gè)DG2-512GPU的Flex系列170高出近2倍,但其運(yùn)算能力僅為Flex系列170的41%。
預(yù)計(jì)Flex系列140比Flex系列170便宜得多,因此AI的性?xún)r(jià)比差距兩個(gè)設(shè)備之間的推斷可能沒(méi)有媒體處理那么大。這個(gè)想法是讓數(shù)據(jù)中心GPU既可以用于媒體處理,也可以用于云游戲,但在A(yíng)I推理方面也做得相當(dāng)好,這不僅越來(lái)越成為數(shù)據(jù)中心的工作負(fù)載,
英偉達(dá)數(shù)據(jù)中心GPU
Nvidia剛剛推出了具有光線(xiàn)追蹤、視頻編碼和AI推理處理功能的“Lovelace”AD102數(shù)據(jù)中心GPU,而英特爾對(duì)新的NvidiaL40GPU加速器的了解還不夠,無(wú)法與Flex系列140和150卡進(jìn)行比較。但英特爾確實(shí)將其數(shù)據(jù)中心GPU與NvidiaA2和A10設(shè)備進(jìn)行了對(duì)比,
人工智能如何嵌入應(yīng)用程序的一個(gè)很好的例子是在流視頻中使用人工智能推理進(jìn)行對(duì)象分類(lèi)和對(duì)象檢測(cè)。英特爾有一個(gè)名為DLStreamer的新工具,可以?xún)?yōu)化XeonSPCPU和Flex系列GPU的使用,以在視頻流輸入中進(jìn)行對(duì)象識(shí)別,如下所示:
正如在該框圖底部看到的那樣,當(dāng)DLStreamer在CPU和GPU上運(yùn)行部分代碼時(shí),解碼視頻并在流上運(yùn)行Yolov5對(duì)象檢測(cè)模型的流的數(shù)量增加了67%。機(jī)箱中的Flex系列GPU通過(guò)CPU-GPU組合驅(qū)動(dòng)150個(gè)流來(lái)驅(qū)動(dòng)90個(gè)流。
我們真正想要做的是直接比較Nvidia加速器和Flex系列在這些工作負(fù)載上的比較,英特爾不得不使用Resnet50進(jìn)行對(duì)象分類(lèi),使用SSD-MobileNet進(jìn)行對(duì)象檢測(cè):
Flex系列170在視頻流中的對(duì)象分類(lèi)方面的性能比NvidiaA10高35.4%,在視頻流中的對(duì)象檢測(cè)方面的性能提高33.3%。
NvidiaA10在惠普(HewlettPackardEnterprise)和CDW的售價(jià)約為8,400美元,在戴爾(Dell)的售價(jià)則低至5,700美元。為了在視頻推理方面提供同樣的價(jià)格,英特爾可能會(huì)對(duì)Flex系列170收取11,200美元的價(jià)格。如果Flex系列170的售價(jià)為8400美元,英特爾的性?xún)r(jià)比將提高25%,而售價(jià)為6400美元的價(jià)格/性能將提高43%。
作為GPU計(jì)算市場(chǎng)的新手,英特爾可能降低價(jià)格,同時(shí)提供更高的性能。