成人在线你懂的-成人在线免费小视频-成人在线免费网站-成人在线免费视频观看-日韩精品国产一区二区-日韩精品国产一区

掃一掃
關(guān)注微信公眾號(hào)

數(shù)據(jù)中心使用的不同GPU
2022-10-08   半導(dǎo)體產(chǎn)業(yè)縱橫


  本文來(lái)自半導(dǎo)體產(chǎn)業(yè)縱橫。

  作為GPU計(jì)算市場(chǎng)的新手,英特爾可能降低價(jià)格,同時(shí)提供更高的性能。

  在半導(dǎo)體行業(yè)中,體積比架構(gòu)更加重要。如果設(shè)計(jì)中的IP不能分散到大量客戶(hù)以解決更廣泛的工作負(fù)載,那么出色的設(shè)計(jì)并不能帶來(lái)什么。

  英特爾對(duì)GPU業(yè)務(wù)一點(diǎn)也不陌生。僅在最近十年就見(jiàn)證了基于“Larrabee”X86的GPU的興起,它沒(méi)有與Nvidia和AMD(ATI)替代產(chǎn)品競(jìng)爭(zhēng)的性能,并且作為HPC計(jì)算的許多核心處理器的“Knights”系列被回收,英特爾在僅僅兩代人之后就將其作為計(jì)算引擎淘汰。

  用于Corei5、i7或i9PC處理器的Iris系列集成圖形電路,后者重新打包為XeonE3服務(wù)器CPU系列,集成GPU用于視頻流和VDI工作負(fù)載。英特爾盡其所能忽略這些Iris增強(qiáng)型服務(wù)器CPU中固有的相當(dāng)強(qiáng)大的GPU計(jì)算能力。

  英特爾正在用基于Xe架構(gòu)的離散GPU家族來(lái)解決這個(gè)問(wèn)題,該公司最終致力于擁有一個(gè)廣泛而深入的GPU計(jì)算平臺(tái),主要是英特爾意識(shí)到,如果他們不在數(shù)據(jù)中心吃掉自己的CPU計(jì)算份額,那么其他兩家主要的GPU加速器制造商——AMD和Nvidia都會(huì)推出相應(yīng)的CPU。

  好久不見(jiàn)

  這種XeGPU策略是其Gen11IrisPC顯卡的演變,并在2018年12月的英特爾創(chuàng)新日上首次詳細(xì)介紹,當(dāng)時(shí)英特爾表示將創(chuàng)建一個(gè)新架構(gòu),該架構(gòu)將具有獨(dú)立CPU和集成GPU,所有這些都基于相同的Xe架構(gòu)將跨越“從teraflops到petaflops”,范圍從針對(duì)PC客戶(hù)端優(yōu)化的低端GPU一直到針對(duì)運(yùn)行AI和HPC工作負(fù)載的數(shù)據(jù)中心系統(tǒng)優(yōu)化的大型計(jì)算引擎。

  近兩年后,在HotChips上,英特爾詳細(xì)闡述了這一新GPU系列的設(shè)計(jì),并談到針對(duì)特定工作負(fù)載調(diào)整XeGPU微架構(gòu),并使用不同的工藝、封裝,有時(shí)甚至是小芯片組合。XeLP是一種低功耗GPU,最初在“TigerLake”CPU中銷(xiāo)售,然后在用于服務(wù)器工作負(fù)載的離散SG1和DG1GPU中免費(fèi)使用;英特爾服務(wù)器XG310GPU加速器于2020年11月宣布并與中國(guó)系統(tǒng)制造商H3C共同設(shè)計(jì),使用XeLPSG1變體。

  XeHPG系列針對(duì)高性能游戲和數(shù)據(jù)中心流媒體和圖形計(jì)算工作負(fù)載。XeHP將HBM2e內(nèi)存添加到GPU復(fù)合體中,并在單個(gè)封裝上擴(kuò)展到四個(gè)小芯片,旨在實(shí)現(xiàn)更強(qiáng)大的媒體處理和AI工作負(fù)載。最后,XeHPC系列的目標(biāo)是浮點(diǎn)和混合精度計(jì)算,用于A(yíng)I訓(xùn)練和HPC模擬和建模工作負(fù)載,而Knights系列則留下了一個(gè)漏洞。

  XeHPC系列包括“PonteVecchio”離散GPU,英特爾上周表示,它已開(kāi)始向阿貢國(guó)家實(shí)驗(yàn)室發(fā)貨,作為“Aurora”百億億級(jí)超級(jí)計(jì)算機(jī)的第二個(gè)設(shè)計(jì)中的主要計(jì)算引擎。

  英特爾詳細(xì)介紹的Flex系列140和170GPU加速器屬于XeHPG系列,也稱(chēng)為ArticSound-M系列。這些Flex系列卡于8月推出,但這些設(shè)備的許多架構(gòu)細(xì)節(jié)并未透露。


  不要被這些獨(dú)立GPU卡的相對(duì)大小誤導(dǎo)。Flex系列140基于一對(duì)DG2-128GPU,其中八個(gè)Xe圖形內(nèi)核運(yùn)行在1.95GHz、兩個(gè)媒體引擎和八個(gè)共享12GBGDDR6內(nèi)存的光線(xiàn)追蹤單元。

  Flex系列170具有單個(gè)DG2-512GPU,具有32個(gè)運(yùn)行頻率為2.05GHz的Xe內(nèi)核、兩個(gè)媒體引擎和32個(gè)共享16GBGDDR6內(nèi)存的光線(xiàn)追蹤單元。

  XeHPG內(nèi)核具有16個(gè)256位向量引擎和16個(gè)1,024位XMX矩陣數(shù)學(xué)引擎,這兩個(gè)引擎都對(duì)AI推理很有用,具有192KB的共享L1緩存。這兩個(gè)引擎是我們關(guān)心Flex系列的原因。

  重點(diǎn)關(guān)注媒體轉(zhuǎn)碼和云游戲,因?yàn)樵跀?shù)據(jù)中心很好地支持這種工作負(fù)載意味著英特爾可以與Nvidia競(jìng)爭(zhēng)在GPU領(lǐng)域的工作數(shù)據(jù)中心。如果英特爾GPU領(lǐng)域競(jìng)爭(zhēng),那么它也有能力構(gòu)建更好的XeHPCGPU加速器,比如“RialtoBridge”離散GPU踢球器到PonteVecchio和“FalconShores”混合CPU-GPU設(shè)備。

  XeHPC內(nèi)核上的向量引擎每個(gè)時(shí)鐘可以處理16次FP32、32次FP16和64次INT8運(yùn)算,并具有一個(gè)專(zhuān)用的浮點(diǎn)執(zhí)行端口和另一個(gè)用于整數(shù)和擴(kuò)展數(shù)學(xué)函數(shù)處理的端口。

  XMX矩陣引擎是一個(gè)四深脈動(dòng)陣列,類(lèi)似于Google的TPU和AmazonWebServices的Inferentia芯片。XeHPC內(nèi)核上的矩陣引擎每個(gè)時(shí)鐘可以處理128個(gè)FP16或BF16浮點(diǎn)、256個(gè)INT8或512個(gè)INT4運(yùn)算。GPU可以同時(shí)將工作分派給向量和矩陣引擎。


  配備兩個(gè)DG2-128GPU的Flex系列140在媒體處理方面將比配備一個(gè)DG2-512GPU的Flex系列170高出近2倍,但其運(yùn)算能力僅為Flex系列170的41%。

  預(yù)計(jì)Flex系列140比Flex系列170便宜得多,因此AI的性?xún)r(jià)比差距兩個(gè)設(shè)備之間的推斷可能沒(méi)有媒體處理那么大。這個(gè)想法是讓數(shù)據(jù)中心GPU既可以用于媒體處理,也可以用于云游戲,但在A(yíng)I推理方面也做得相當(dāng)好,這不僅越來(lái)越成為數(shù)據(jù)中心的工作負(fù)載,

  英偉達(dá)數(shù)據(jù)中心GPU

  Nvidia剛剛推出了具有光線(xiàn)追蹤、視頻編碼和AI推理處理功能的“Lovelace”AD102數(shù)據(jù)中心GPU,而英特爾對(duì)新的NvidiaL40GPU加速器的了解還不夠,無(wú)法與Flex系列140和150卡進(jìn)行比較。但英特爾確實(shí)將其數(shù)據(jù)中心GPU與NvidiaA2和A10設(shè)備進(jìn)行了對(duì)比,

  人工智能如何嵌入應(yīng)用程序的一個(gè)很好的例子是在流視頻中使用人工智能推理進(jìn)行對(duì)象分類(lèi)和對(duì)象檢測(cè)。英特爾有一個(gè)名為DLStreamer的新工具,可以?xún)?yōu)化XeonSPCPU和Flex系列GPU的使用,以在視頻流輸入中進(jìn)行對(duì)象識(shí)別,如下所示:

  正如在該框圖底部看到的那樣,當(dāng)DLStreamer在CPU和GPU上運(yùn)行部分代碼時(shí),解碼視頻并在流上運(yùn)行Yolov5對(duì)象檢測(cè)模型的流的數(shù)量增加了67%。機(jī)箱中的Flex系列GPU通過(guò)CPU-GPU組合驅(qū)動(dòng)150個(gè)流來(lái)驅(qū)動(dòng)90個(gè)流。

  我們真正想要做的是直接比較Nvidia加速器和Flex系列在這些工作負(fù)載上的比較,英特爾不得不使用Resnet50進(jìn)行對(duì)象分類(lèi),使用SSD-MobileNet進(jìn)行對(duì)象檢測(cè):

  Flex系列170在視頻流中的對(duì)象分類(lèi)方面的性能比NvidiaA10高35.4%,在視頻流中的對(duì)象檢測(cè)方面的性能提高33.3%。

  NvidiaA10在惠普(HewlettPackardEnterprise)和CDW的售價(jià)約為8,400美元,在戴爾(Dell)的售價(jià)則低至5,700美元。為了在視頻推理方面提供同樣的價(jià)格,英特爾可能會(huì)對(duì)Flex系列170收取11,200美元的價(jià)格。如果Flex系列170的售價(jià)為8400美元,英特爾的性?xún)r(jià)比將提高25%,而售價(jià)為6400美元的價(jià)格/性能將提高43%。

  作為GPU計(jì)算市場(chǎng)的新手,英特爾可能降低價(jià)格,同時(shí)提供更高的性能。

  

熱詞搜索:數(shù)據(jù)中心 GPU

上一篇:零碳數(shù)據(jù)中心等級(jí)評(píng)價(jià)方法初步確立
下一篇:最后一頁(yè)

分享到: 收藏
主站蜘蛛池模板: 天鹅套索 电视剧| 日记100字简单| angela white电影| 非常外父| 诈欺游戏电影| cctv6电影节目表| 违规吃喝研讨发言材料| 女干.com| 小学五年级下册数学期中试卷 | 女公安毛片免费观看| 抖音 在线观看| 潘霜霜惊艳写真照| 叶静主演的电视剧| 陕09j01图集| 孽子 电影| 破天荒| 秦皇岛电视台| 春风沉醉的夜晚电影| 新疆地图旅游图| 南口1937| 白丝美女被挠脚心| 成人在线播放视频| 找保姆| 黑玫瑰演员表| 小学道德与法治课程标准2023版| 德国老太性视频播放| 《无人生还》电影在线观看| 第一财经在线直播电视| stylistic device| 恶魔女忍者| 老男人电影完整版高清在线观看| 电影名叫《保姆》| 舌吻小视频| 王尧个人简历| 孽扣| 黄婉秋个人简历| 西藏秘密演员表全部| 美国派7| 搜狐视频官网| 第一财经今日股市直播回放| 脚 vk|