成人在线你懂的-成人在线免费小视频-成人在线免费网站-成人在线免费视频观看-日韩精品国产一区二区-日韩精品国产一区

掃一掃
關(guān)注微信公眾號(hào)

騰訊廣告模型基于"太極"的訓(xùn)練成本優(yōu)化實(shí)踐
2023-02-21   DataFunTalk

  近年來(lái),隨著大模型在NLP領(lǐng)域橫掃各種大數(shù)據(jù)磅單取得巨大成功之后,大數(shù)據(jù)加大模型成為了AI領(lǐng)域建模的標(biāo)準(zhǔn)范式。搜索、廣告、推薦的建模也不例外,動(dòng)輒千億參數(shù),上T大小的模型成為各大預(yù)估場(chǎng)景的標(biāo)配,大模型能力也已經(jīng)成為各大科技公司軍備競(jìng)賽的焦點(diǎn)。


  近年來(lái),大數(shù)據(jù)加大模型成為了AI領(lǐng)域建模的標(biāo)準(zhǔn)范式。在廣告場(chǎng)景,大模型由于使用了更多的模型參數(shù),利用更多的訓(xùn)練數(shù)據(jù),模型具備了更強(qiáng)的記憶能力和泛化能力,為廣告效果向上提升打開(kāi)了更大的空間。但是大模型在訓(xùn)練過(guò)程中所需要的資源也是成倍的增長(zhǎng),存儲(chǔ)以及計(jì)算上的壓力對(duì)機(jī)器學(xué)習(xí)平臺(tái)都是巨大的挑戰(zhàn)。

  騰訊太極機(jī)器學(xué)習(xí)平臺(tái)持續(xù)探索降本增效方案,在廣告離線訓(xùn)練場(chǎng)景利用混合部署資源大大降低了資源成本,每天為騰訊廣告提供50W核心廉價(jià)混合部署資源,幫助騰訊廣告離線模型訓(xùn)練資源成本降低30%,同時(shí)通過(guò)一系列優(yōu)化手段使得混部資源穩(wěn)定性和正常資源持平。

  1、引言

  近年來(lái),隨著大模型在NLP領(lǐng)域橫掃各種大數(shù)據(jù)磅單取得巨大成功之后,大數(shù)據(jù)加大模型成為了AI領(lǐng)域建模的標(biāo)準(zhǔn)范式。搜索、廣告、推薦的建模也不例外,動(dòng)輒千億參數(shù),上T大小的模型成為各大預(yù)估場(chǎng)景的標(biāo)配,大模型能力也已經(jīng)成為各大科技公司軍備競(jìng)賽的焦點(diǎn)。

  在廣告場(chǎng)景,大模型由于使用了更多的模型參數(shù),利用更多的訓(xùn)練數(shù)據(jù),模型具備了更強(qiáng)的記憶能力和泛化能力,為廣告效果向上提升打開(kāi)了更大的空間。但是大模型在訓(xùn)練過(guò)程中所需要的資源也是成倍的增長(zhǎng),存儲(chǔ)以及計(jì)算上的壓力對(duì)機(jī)器學(xué)習(xí)平臺(tái)都是巨大的挑戰(zhàn)。同時(shí)平臺(tái)能夠支撐的試驗(yàn)數(shù)量直接影響算法迭代效率,如何用更小的成本,提供更多的試驗(yàn)資源,是平臺(tái)努力的重點(diǎn)方向。

  騰訊太極機(jī)器學(xué)習(xí)平臺(tái)持續(xù)探索降本增效方案,在廣告離線訓(xùn)練場(chǎng)景利用混合部署資源大大降低了資源成本,每天為騰訊廣告提供50W核心廉價(jià)混合部署資源,幫助騰訊廣告離線模型訓(xùn)練資源成本降低30%,同時(shí)通過(guò)一系列優(yōu)化手段使得混部資源穩(wěn)定性和正常資源持平。

  2、?太極機(jī)器學(xué)習(xí)平臺(tái)介紹

  太極機(jī)器學(xué)習(xí)平臺(tái),致力于讓用戶更加聚焦業(yè)務(wù)AI問(wèn)題解決和應(yīng)用,一站式的解決算法工程師在AI應(yīng)用過(guò)程中特征處理,模型訓(xùn)練,模型服務(wù)等工程問(wèn)題。目前支持公司內(nèi)廣告,搜索,游戲,騰訊會(huì)議,騰訊云等重點(diǎn)業(yè)務(wù)。

  太極廣告平臺(tái)是太極為廣告系統(tǒng)設(shè)計(jì)的集模型訓(xùn)練和在線推理的高性能機(jī)器學(xué)習(xí)平臺(tái),平臺(tái)具備萬(wàn)億參數(shù)模型的訓(xùn)練和推理能力。目前該平臺(tái)支持騰訊廣告召回,粗排,精排數(shù)十個(gè)模型訓(xùn)練和在線推理;同時(shí)太極平臺(tái)提供一站式特征注冊(cè),樣本補(bǔ)錄,模型訓(xùn)練,模型評(píng)估以及上線試驗(yàn)的能力,極大提升了開(kāi)發(fā)者效率。

  訓(xùn)練平臺(tái):目前模型訓(xùn)練支持CPU和GPU兩種訓(xùn)練模式,利用自研高效算子,混合精度訓(xùn)練,3D并行等技術(shù),訓(xùn)練速度和業(yè)界開(kāi)源系統(tǒng)相比提升1個(gè)量級(jí)。

  推理框架:太極自研的HCF(HeterogeneousComputingFramework)異構(gòu)計(jì)算框架,通過(guò)硬件層,編譯層和軟件層聯(lián)合優(yōu)化,提供極致性能優(yōu)化。

  3、成本優(yōu)化具體實(shí)現(xiàn)

  (1)整體方案介紹

  隨著太極平臺(tái)的不斷發(fā)展,任務(wù)數(shù)和任務(wù)類(lèi)型日益增多,資源需求也隨之增多。為了降本增效,太極平臺(tái)一方面提升平臺(tái)性能,提升訓(xùn)練速度;另一方面,我們也尋找更加廉價(jià)的資源,以滿足不斷增長(zhǎng)的資源需求。

  峰巒——騰訊公司內(nèi)部云原生大數(shù)據(jù)平臺(tái),利用云原生技術(shù),對(duì)公司整個(gè)大數(shù)據(jù)架構(gòu)進(jìn)行升級(jí)。為滿足大數(shù)據(jù)業(yè)務(wù)持續(xù)增長(zhǎng)的資源需求,峰巒引入混部資源,在滿足資源需求的同時(shí),又可極大降低資源成本。峰巒針對(duì)不同場(chǎng)景下的混部資源,提供了一系列的解決方案,把不穩(wěn)定的混部資源變成對(duì)業(yè)務(wù)透明的穩(wěn)定資源。峰巒混部能力支持3類(lèi)混部資源:

  復(fù)用在線空閑資源。在線資源因波峰波谷現(xiàn)象、資源使用預(yù)估過(guò)高和集群資源碎片等原因,導(dǎo)致集群資源利用率不高,有大量的空閑資源。峰巒挖掘這部分臨時(shí)空閑資源,來(lái)運(yùn)行大數(shù)據(jù)任務(wù),目前已在在線廣告、存儲(chǔ)、社交娛樂(lè)和游戲等場(chǎng)景混部。

  離線資源彈性借出。大數(shù)據(jù)平臺(tái)有些任務(wù)也具有潮汐現(xiàn)象,在白天大數(shù)據(jù)集群資源使用率低的時(shí)候,峰巒支持把部分資源臨時(shí)彈性借出,待大數(shù)據(jù)集群高峰到來(lái)之前,再拿回這部分資源。這種場(chǎng)景非常適合解決節(jié)假日和大促期間在線任務(wù)臨時(shí)需要大量資源問(wèn)題,峰巒當(dāng)前已支持春節(jié)和618等重大節(jié)假日。

  復(fù)用算力資源。算力資源是以低優(yōu)CVM方式挖掘云母機(jī)的空閑資源,所謂低優(yōu)CVM是指在云母機(jī)上啟動(dòng)具有更低CPU優(yōu)先級(jí)的CVM虛擬機(jī),該虛擬機(jī)可實(shí)時(shí)被其他的虛擬機(jī)搶占資源。峰巒基于底層算力提供的資源信息,在調(diào)度、過(guò)載保護(hù)、算力遷移等方面做了大量的優(yōu)化,目前已有百萬(wàn)核的大數(shù)據(jù)任務(wù)在算力資源上穩(wěn)定運(yùn)行。

  同時(shí),峰巒引入云原生虛擬集群技術(shù),屏蔽底層混部資源來(lái)自不同的城市和地域?qū)е碌姆稚⑿蕴攸c(diǎn)。太極平臺(tái)直接對(duì)接峰巒租戶集群,該租戶集群對(duì)應(yīng)底層多種混部資源,而且租戶集群擁有獨(dú)立和完整的集群視角,太極平臺(tái)也可無(wú)縫對(duì)接。


  (2)資源混部方案

  在線空閑資源

  峰巒自研了Caelus全場(chǎng)景在離線混部方案,通過(guò)將在線作業(yè)和離線作業(yè)混部的方式,充分挖掘在線機(jī)器的空閑資源,提升在線機(jī)器資源利用率,同時(shí)降低離線作業(yè)的資源成本。

  如下圖所示,是Caelus的基本架構(gòu),各個(gè)組件和模塊相互配合,從多方面保證了混部的質(zhì)量。

  首先,Caelus全方位保證了在線作業(yè)的服務(wù)質(zhì)量,這也是混部的重要前提之一,比如:通過(guò)快速的干擾檢測(cè)與處理機(jī)制,主動(dòng)感知在線服務(wù)質(zhì)量,及時(shí)進(jìn)行處理,并且支持插件化的擴(kuò)展方式支持業(yè)務(wù)的特定干擾檢測(cè)需求;通過(guò)全維度的資源隔離、靈活的資源管理策略等,保證在線服務(wù)的高優(yōu)先級(jí)。

  其次,Caelus從多方面保證了離線作業(yè)的SLO,比如:通過(guò)混部資源與離線作業(yè)畫(huà)像,為作業(yè)匹配合適的資源,避免資源競(jìng)爭(zhēng);優(yōu)化離線作業(yè)驅(qū)逐策略,優(yōu)先排序驅(qū)逐,支持優(yōu)雅退出,策略靈活可控。與大數(shù)據(jù)離線作業(yè)大多是短作業(yè)(分鐘級(jí)甚至秒級(jí))的特點(diǎn)不同的是,太極作業(yè)的運(yùn)行時(shí)間大多較長(zhǎng)(小時(shí)級(jí)甚至天級(jí))。通過(guò)長(zhǎng)周期的資源預(yù)測(cè)與作業(yè)畫(huà)像更好地指導(dǎo)調(diào)度,為不同運(yùn)行時(shí)長(zhǎng)、不同資源需求的作業(yè)找到合適的資源,避免作業(yè)運(yùn)行幾小時(shí)甚至幾天后被驅(qū)逐,導(dǎo)致作業(yè)狀態(tài)丟失,浪費(fèi)資源與時(shí)間。當(dāng)出現(xiàn)需要驅(qū)逐離線作業(yè)的情況時(shí),會(huì)優(yōu)先通過(guò)運(yùn)行時(shí)熱遷移,將作業(yè)實(shí)例從一個(gè)機(jī)器遷移到另一個(gè)機(jī)器,并且保持內(nèi)存狀態(tài)和IP等不變,作業(yè)幾乎無(wú)影響,極大地提升了作業(yè)的SLO。為了更好地把混部資源利用好,Caelus還具備其他更多的能力,詳見(jiàn)Caelus全場(chǎng)景在離線混部方案(??https://zhuanlan.zhihu.com/p/384606554??)。


  潮汐資源

  大數(shù)據(jù)任務(wù)一般是白天任務(wù)量相對(duì)少,晚上任務(wù)量多,峰巒把白天部分空閑的大數(shù)據(jù)資源出讓給太極平臺(tái),夜間再回收這部分資源,我們把這種資源稱(chēng)為潮汐資源。潮汐資源的特點(diǎn)是節(jié)點(diǎn)上的大數(shù)據(jù)任務(wù)幾乎是完全退出的,但節(jié)點(diǎn)上還保留著大數(shù)據(jù)的存儲(chǔ)服務(wù)HDFS,運(yùn)行太極作業(yè)時(shí)不能影響到HDFS服務(wù)。太極平臺(tái)使用潮汐資源時(shí)需要和峰巒平臺(tái)協(xié)商一致,峰巒平臺(tái)在固定時(shí)間點(diǎn)提前根據(jù)歷史數(shù)據(jù)篩選一批節(jié)點(diǎn),待大數(shù)據(jù)任務(wù)優(yōu)雅退出后,通知太極平臺(tái)有新的節(jié)點(diǎn)加入,太極平臺(tái)開(kāi)始在峰巒租戶集群提交更多的任務(wù)。借用時(shí)間到達(dá)前,峰巒通知太極平臺(tái)部分節(jié)點(diǎn)要回收,太極平臺(tái)有序歸還節(jié)點(diǎn)。

  如下圖所示,潮汐資源的挖掘、管理和使用涉及到多個(gè)系統(tǒng)的分工配合:


  大數(shù)據(jù)資源出讓系統(tǒng):該系統(tǒng)會(huì)根據(jù)各個(gè)機(jī)器上不同的作業(yè)運(yùn)行情況以及集群過(guò)去一段時(shí)間的運(yùn)行數(shù)據(jù),基于機(jī)器學(xué)習(xí)算法,找到最合適的待下線的機(jī)器節(jié)點(diǎn),以滿足特定的資源需求并且對(duì)正在運(yùn)行的作業(yè)影響最小,然后禁止調(diào)度新的作業(yè)到這些節(jié)點(diǎn)上,等待節(jié)點(diǎn)上正在運(yùn)行的作業(yè)運(yùn)行完畢,最大限度地降低對(duì)大數(shù)據(jù)作業(yè)的影響。

  Caelus混部系統(tǒng):雖然出讓系統(tǒng)騰挪出來(lái)的機(jī)器資源上沒(méi)有運(yùn)行大數(shù)據(jù)作業(yè)了,但上面還運(yùn)行著HDFS服務(wù),還提供著數(shù)據(jù)讀寫(xiě)服務(wù)。為了保護(hù)HDFS服務(wù),引入Caelus混部系統(tǒng),將HDFS作為在線服務(wù),通過(guò)Caelus一系列的在線服務(wù)保證手段(如:通過(guò)HDFS關(guān)鍵指標(biāo)檢測(cè)其是否受到影響)保證HDFS服務(wù)質(zhì)量不受影響。

  通過(guò)虛擬集群的方式使用潮汐資源:這些出讓的機(jī)器資源會(huì)由峰巒統(tǒng)一管理和調(diào)度,并以虛擬集群的方式提供給太極平臺(tái)使用,提供K8S原生接口,這樣做到了對(duì)上層平臺(tái)屏蔽底層資源的差異性,保證應(yīng)用使通過(guò)相同的使用方式使用資源。

  與應(yīng)用層斷點(diǎn)續(xù)訓(xùn)打通:潮汐資源在晚上會(huì)被回收以用于運(yùn)行大數(shù)據(jù)作業(yè),為了減少回收的影響,峰巒和應(yīng)用層的斷點(diǎn)續(xù)訓(xùn)功能進(jìn)行了打通,實(shí)現(xiàn)資源切換不中斷訓(xùn)練,切換后不影響業(yè)務(wù)的繼續(xù)運(yùn)行。

  算力資源

  算力資源的特點(diǎn)是給業(yè)務(wù)呈現(xiàn)的是一個(gè)獨(dú)占的CVM,對(duì)業(yè)務(wù)方使用來(lái)說(shuō)比較友好。然而,使用算力資源的挑戰(zhàn)在于云母機(jī)層面低優(yōu)CVM的CPU資源會(huì)隨時(shí)被在線CVM壓制,導(dǎo)致算力資源非常不穩(wěn)定:

  算力機(jī)器不穩(wěn)定:算力機(jī)器會(huì)因?yàn)樗槠Y源盤(pán)整、機(jī)房電力不足等原因下線。

  算力資源優(yōu)先級(jí)低:為了保證正常CVM機(jī)器的服務(wù)質(zhì)量不受影響,算力資源上的作業(yè)優(yōu)先級(jí)最低,會(huì)無(wú)條件為高優(yōu)資源上的作業(yè)讓步,導(dǎo)致性能極不穩(wěn)定。

  驅(qū)逐頻率高:多種原因(算力資源性能不足、磁盤(pán)空間不足、磁盤(pán)卡住等)會(huì)觸發(fā)主動(dòng)驅(qū)逐pod,增加了pod的失敗概率。

  為了解決算力資源的不穩(wěn)定性問(wèn)題,通過(guò)峰巒主控層擴(kuò)展各項(xiàng)能力,從多方面對(duì)算力資源優(yōu)化,提升算力穩(wěn)定性:


  ①資源畫(huà)像與預(yù)測(cè):探索和搜集各種機(jī)器性能指標(biāo),生成聚合指標(biāo),預(yù)測(cè)低優(yōu)CVM未來(lái)一段時(shí)間的可用資源情況,這些信息用于調(diào)度器調(diào)度pod和驅(qū)逐組件驅(qū)逐pod,滿足pod的資源要求。

  ②調(diào)度優(yōu)化:為保證太極作業(yè)的服務(wù)質(zhì)量,針對(duì)作業(yè)的需求和資源的特點(diǎn),在調(diào)度策略上有較多的優(yōu)化,將作業(yè)性能提升了2倍以上。

  同城調(diào)度:將PST和訓(xùn)練作業(yè)調(diào)度到同城同機(jī)房,將作業(yè)實(shí)例之間的網(wǎng)絡(luò)延時(shí)降到最低,并且同城內(nèi)的網(wǎng)絡(luò)帶寬成本也更低,起到了降低成本的作用。

  單機(jī)調(diào)度優(yōu)化:結(jié)合資源預(yù)測(cè)的結(jié)果以及CPUstealtime等指標(biāo),為作業(yè)選擇性能更佳的CPU進(jìn)行綁核,更好地提升作業(yè)性能。

  分級(jí)調(diào)度:對(duì)所有管理的資源做自動(dòng)打標(biāo)和分級(jí),把JobManager等對(duì)容災(zāi)要求比較高的作業(yè)自動(dòng)調(diào)度到相對(duì)穩(wěn)定的資源上。

  調(diào)優(yōu)調(diào)度參數(shù):根據(jù)資源資源畫(huà)像和預(yù)測(cè)數(shù)據(jù),調(diào)度器為作業(yè)優(yōu)先挑選性能更優(yōu)和更穩(wěn)定的節(jié)點(diǎn)。另外為了解決步調(diào)不一致導(dǎo)致的梯隊(duì)過(guò)期問(wèn)題,將同一個(gè)作業(yè)的實(shí)例調(diào)度到性能接近的機(jī)器

  ③運(yùn)行時(shí)服務(wù)質(zhì)量保證

  主動(dòng)驅(qū)逐階段引入運(yùn)行時(shí)熱遷移,做到業(yè)務(wù)基本無(wú)感知:為了應(yīng)對(duì)資源不穩(wěn)定以及pod被驅(qū)逐導(dǎo)致應(yīng)用被kill的問(wèn)題,實(shí)現(xiàn)了運(yùn)行時(shí)熱遷移,并且提供了多種熱遷移策略滿足不同場(chǎng)景的需求。目前從線上數(shù)據(jù)看,使用遷移優(yōu)先策略時(shí),對(duì)于大內(nèi)存的容器來(lái)說(shuō),熱遷移的中斷時(shí)間是10多秒。我們還實(shí)現(xiàn)了與內(nèi)存大小無(wú)關(guān)的常數(shù)中斷時(shí)間(恢復(fù)優(yōu)先的策略)。當(dāng)前每天成功主動(dòng)遷移pod數(shù)2萬(wàn)多次,且支持跨集群熱遷移,極大地降低了驅(qū)逐的影響。

  優(yōu)化驅(qū)逐策略,將驅(qū)逐造成的影響降到最低:每臺(tái)機(jī)器每次驅(qū)逐時(shí),優(yōu)先驅(qū)逐后啟動(dòng)的pod,避免影響已啟動(dòng)任;每個(gè)任務(wù)每次只驅(qū)逐一個(gè)節(jié)點(diǎn),避免單任務(wù)上下游一起被驅(qū)逐,造成任務(wù)級(jí)重啟;pod被驅(qū)逐時(shí),和上層Flink框架聯(lián)動(dòng),主動(dòng)告知Flink,快速單點(diǎn)恢復(fù)。

  ④自反饋優(yōu)化:通過(guò)資源畫(huà)像,周期性的替換掉性能差的機(jī)器,并且與底層平臺(tái)打通,實(shí)現(xiàn)對(duì)CVM的平滑抽離,讓峰巒有機(jī)會(huì)以對(duì)業(yè)務(wù)無(wú)影響的方式逐個(gè)遷移應(yīng)用實(shí)例,降低對(duì)實(shí)例的影響。

  ⑤提升Flink層的容災(zāi)能力,支持單點(diǎn)重啟和層級(jí)式調(diào)度

  TM(TaskManager)單點(diǎn)重啟能力避免Task失敗導(dǎo)致整個(gè)DAG失敗,可以更好適配算力搶占式特性;分層調(diào)度避免gangscheduling造成過(guò)長(zhǎng)的作業(yè)等待,并且可以避免TMPod過(guò)度申請(qǐng)的浪費(fèi)。

  (3)應(yīng)用層優(yōu)化方案

  業(yè)務(wù)容錯(cuò)

  離線訓(xùn)練任務(wù)要使用廉價(jià)資源一個(gè)大前提就是不能影響資源上原有任務(wù)的正常運(yùn)行,所以混部資源有以下幾個(gè)關(guān)鍵挑戰(zhàn):

  混部資源大多是臨時(shí)資源,會(huì)頻繁下線;

  混部資源會(huì)無(wú)條件為高優(yōu)資源讓步,導(dǎo)致機(jī)器性能極不穩(wěn)定;

  混部資源的自動(dòng)驅(qū)逐機(jī)制也極大加大了節(jié)點(diǎn)和pod的失敗概率。



  為了保證在混部資源上任務(wù)可以穩(wěn)定運(yùn)行,平臺(tái)使用三級(jí)容錯(cuò)策略,具體解決方案如下:

  熱遷移技術(shù):在TaskManager將要發(fā)生驅(qū)逐前,提前感知,把相應(yīng)的TaskManager遷移到另外一個(gè)pod上;同時(shí)利用內(nèi)存壓縮,流式并發(fā),跨集群熱遷移等能力持續(xù)優(yōu)化熱遷移成功率。

  TaskManager重啟:當(dāng)任務(wù)當(dāng)中一個(gè)TaskManager由于異常或者驅(qū)逐等原因?qū)е逻\(yùn)行失敗之后,整個(gè)任務(wù)不會(huì)直接失敗退出,而是先保存該TaskManager的狀態(tài),然后重新啟動(dòng)該TaskManager,從而降低整個(gè)任務(wù)失敗的概率。

  任務(wù)FullRecovery:當(dāng)一個(gè)任務(wù)的由于Flink狀態(tài)異常,處于無(wú)法恢復(fù)狀態(tài)時(shí),會(huì)觸發(fā)JobManager的重啟,為了保證JobManager的穩(wěn)定性,平臺(tái)把JobManager部署在穩(wěn)定性較好的獨(dú)立資源上,保證任務(wù)狀態(tài)正常。

  斷點(diǎn)續(xù)訓(xùn):如果前面幾個(gè)容錯(cuò)策略都失敗了,平臺(tái)會(huì)基于歷史的某一個(gè)ckpt重新啟動(dòng)任務(wù)。

  通過(guò)業(yè)務(wù)層的容錯(cuò),運(yùn)行在混部資源上的任務(wù)穩(wěn)定性從最初的不到90%提升到最終的99.5%,基本和普通獨(dú)占資源上任務(wù)穩(wěn)定性持平。

  任務(wù)潮汐調(diào)度

  針對(duì)潮汐資源要求離線訓(xùn)練任務(wù)只能白天使用,晚上需要提供給在線業(yè)務(wù)使用,所以太極平臺(tái)需要在白天時(shí)根據(jù)資源到位情況,自動(dòng)啟動(dòng)訓(xùn)練任務(wù);在晚上對(duì)任務(wù)做冷備,同時(shí)停止對(duì)應(yīng)的訓(xùn)練任務(wù)。同時(shí)通過(guò)任務(wù)管理隊(duì)列來(lái)管理每個(gè)任務(wù)調(diào)度的優(yōu)先級(jí),對(duì)于晚上新啟動(dòng)的任務(wù)會(huì)自動(dòng)進(jìn)入排隊(duì)狀態(tài),等第二天早上再啟動(dòng)新的任務(wù)。


  核心挑戰(zhàn):

  潮汐現(xiàn)象:資源白天的時(shí)候可以提供給離線任務(wù)使用,晚上的時(shí)候需要回收。

  資源動(dòng)態(tài)變化:在白天時(shí),資源也是不穩(wěn)定的,資源會(huì)隨時(shí)發(fā)生變化,一般是早上的時(shí)候資源比較少,然后資源逐漸增加,到晚上的時(shí)候資源到達(dá)高峰值。

  解決方案:

  資源感知的調(diào)度策略:早上在資源逐步增加的過(guò)程中,潮汐調(diào)度服務(wù)需要感知資源變化,同時(shí)跟進(jìn)資源情況來(lái)啟動(dòng)待繼續(xù)訓(xùn)練的任務(wù)。

  模型自動(dòng)備份能力:在晚上資源回收前,需要把當(dāng)前平臺(tái)上運(yùn)行的所有任務(wù)逐步做備份,這對(duì)于平臺(tái)的存儲(chǔ)和帶寬壓力非常大,因?yàn)槠脚_(tái)上有幾百個(gè)任務(wù),每個(gè)任務(wù)冷備大小從幾百G到數(shù)T大小不等,如果在同一時(shí)間做冷備的話需要在短時(shí)間傳輸和存儲(chǔ)數(shù)百T的數(shù)據(jù),對(duì)于存儲(chǔ)和網(wǎng)絡(luò)都是巨大的挑戰(zhàn);所以我們需要有一套合理的調(diào)度策略,逐步做模型的存儲(chǔ)。

  智能資源調(diào)度能力:潮汐調(diào)度和傳統(tǒng)訓(xùn)練相比,每個(gè)任務(wù)在晚上資源回收時(shí)的模型備份和每天早上任務(wù)新啟動(dòng)的時(shí)候的開(kāi)銷(xiāo)是額外開(kāi)銷(xiāo),為了降低這部分額外開(kāi)銷(xiāo),我們調(diào)度時(shí)需要評(píng)估哪些任務(wù)在當(dāng)天就能跑完,哪些任務(wù)需要跑多天,對(duì)于當(dāng)天能跑完的任務(wù),我們優(yōu)先給它分配更多資源,保證當(dāng)天任務(wù)運(yùn)行完成。

  通過(guò)這些優(yōu)化能夠保證任務(wù)能穩(wěn)定在潮汐資源上運(yùn)行,對(duì)于業(yè)務(wù)層基本無(wú)感知。同時(shí)任務(wù)的運(yùn)行速度不會(huì)受太大影響,由于任務(wù)啟停調(diào)度帶來(lái)的額外開(kāi)銷(xiāo)控制在10%以?xún)?nèi)。

  4、在線效果和未來(lái)展望

  太極在離線混布優(yōu)化方案在騰訊廣告場(chǎng)景落地,每天為騰訊廣告離線模型調(diào)研訓(xùn)練提供30W核全天候的混合部署資源,20W核潮汐資源,支持廣告召回,粗排,精排多場(chǎng)景模型訓(xùn)練。在資源成本上,相同計(jì)算量任務(wù)上,混合部署資源成本是普通資源的70%。經(jīng)過(guò)優(yōu)化系統(tǒng)穩(wěn)定性和物理集群任務(wù)成功率基本持平。

  后續(xù)一方面我們會(huì)繼續(xù)加大混合算力資源的使用,尤其會(huì)加大混合算力資源的應(yīng)用;另一方面,公司在線業(yè)務(wù)在GPU化,所以在混合資源應(yīng)用上,除了傳統(tǒng)的CPU資源之外,也會(huì)嘗試對(duì)在線GPU資源在離線訓(xùn)練時(shí)使用。

  今天的分享就到這里,謝謝大家。

熱詞搜索:騰訊

上一篇:2023年的四個(gè)大數(shù)據(jù)發(fā)展趨勢(shì)
下一篇:最后一頁(yè)

分享到: 收藏
主站蜘蛛池模板: 刘德华的歌曲经典| 陈诗雅韩国| 忍石| 生死千里| 单恋双城| 金馆长对金馆长对金馆长 电影| 帕米尔医生电视剧全集免费观看| 古或仔| 电影《la follia》| 维尼琼斯| 永远是少年电影免费观看| 家的港湾| 初一英语完形填空20篇免费| 情难自禁电影| 一二三年级的童话绘画| catastrophe翻译| 布莱德·德尔森| 让我们的家更美好教学设计| 羞羞的影评| 张健伟| 第一财经在线直播今日股市| 心理健康《微笑的力量》ppt | 女娲怀孕生孩子视频| 与心有关的成语| 漆黑意志| 《剪窗花》童谣| 乱世三人行| 赤牙×柒cp| 膨腹爱好者撑肚子视频| 追龙演员表全部名单| xxxxxxxxxxxxxxxxxxxxxxxxx| 双重欲望| 妈妈的脊背简谱| 三年片电影| 熊出没之过年大电影| 红灯区无删减| 梁山伯与祝英台电影| 八年级上册英语课堂作业答案 | 春ppt| 小红书如何开通店铺| 宇宙刑事卡邦|