大模(mó)型的爆發式發展正將算力推至(zhì)數字經濟的核心戰略地位。GPT-4o與DeepSeek-R1等模型的多模態突(tū)破,不僅標(biāo)誌著AI進入"參數爆炸"時代(dài)(GPT-4單次訓練需2.15×10^25 FLOPs,等同3萬台(tái)A100全年運轉),更暴露出算力供需的尖銳(ruì)矛盾——據智源研究院的報告預(yù)估(gū)國內大模型訓練算力缺口(kǒu)已達109EFLOPS(約20個太湖之光年(nián)產能)。在新(xīn)技術廣泛應用和全球算(suàn)力短缺的背景下(xià),信創國產化率要求倒(dǎo)逼華為昇騰、海光DCU等替代方案落地。芯片類型、架構和(hé)供應商方麵都呈現出多元化的趨勢。
根據中國信通院《數據(jù)中心算力技術圖譜(2023)》及IDC《全球異構計算白皮書》,異構算力可分為(wéi)以下幾大層級:
根信通院公布數據顯示,算力主要集中在(zài)數據中心(xīn)、運營商網(wǎng)格。在這兩大主力中存在明顯的算力異構分布,運營具體情況如下:

從上信通(tōng)院發表文章和(hé)數字中國萬裏行的洞察中發現,國內數(shù)據中(zhōng)心、運營商等均(jun1)存在多元異構算力。但多(duō)元算力的開發生態體係相對獨立,無標準和統一規範,應用的跨架構開發和遷移困難,亟需通過開源(yuán)、開放的方式建立可屏蔽底層硬件差異的統一異構開發平台。
從東數西算(suàn)下新型算力基礎設施發展白(bái)皮書整理(lǐ)和業務(wù)場景梳理,我們發現異構算力管理和調度存(cún)在以下核心的難(nán)點問題:
硬件多樣性與兼容性問題:數(shù)據中心(xīn)采用多種硬件設備(bèi)(如 CPU、GPU、NPU、TPU 等),不同架構的硬件設備(如(rú) x86、ARM 等)難以(yǐ)兼容(róng),不同的硬件底座具備的算力發現和監控方法不一致,導致管理和調度複雜;
算力服(fú)務的標準化與規範化(huà)不足:目前(qián)的算力接口較為複(fù)雜,缺乏統一(yī)的(de)標(biāo)準和(hé)規範,導致算力資(zī)源的輸出和服務質量參差不齊,業務跨(kuà)架構遷移難度(dù)大,無法有效在(zài)異構算力資源上進行調度,跨架構(gòu)任務遷移成本激增(某金融雲平台(tái)改(gǎi)造耗時6個月),算(suàn)法研發周期被非(fēi)必要工程化拖累;
算力(lì)調度接口不一致,資源錯配導(dǎo)致的資源浪費:不同算(suàn)力的調度接口不一致,錯誤的調度方式無法(fǎ)使用資源,導致混合架構的集群資(zī)源閑置;
異構架構依賴(lài)的技術(shù)棧不同(tóng),對人力技術(shù)要求大(dà),導(dǎo)致(zhì)異構接入難(nán),新硬件資源難快速賦能(néng)業務,需要龐大的生態支撐,推廣難。
在麵對(duì)以上(shàng)異構算力管理和調度的難(nán)點和問題,我們探索了更優的異構資(zī)源的(de)管理和調度解決方案(àn)。旨在提高資源利用率和管理(lǐ)效率。本方案通過三個關鍵層次實現(xiàn)對異構資源的有效管理和高效調度(dù)。
首先,在底層異構納管層(céng),我們實現了對多種硬件(如CPU、GPU、FPGA等)的適配,確保係統(tǒng)的(de)算力發現和資源監控功能(néng)能夠精準識別並管理所有可用計算資源。這不(bú)僅為後續的資源分配提供了堅實的基礎,還極大地增強了係統對不同硬件平台的支持能力。
其次,在調度層,我們開(kāi)發了一款(kuǎn)統一的異構調度工具,該工具通過一個統一調度(dù)接口將各類異構算力(lì)整(zhěng)合起來,顯著降低了資(zī)源調度的複雜度。同時(shí),利用先進的協同技術和精細化調度(dù)算法,我們在多維度上提升了資源的使(shǐ)用效率,實現了負載均衡和動態資源調整,從而(ér)提高了服務響應速度和服務質量(liàng)。
最後,在異構適配層,我們針對常用模型進(jìn)行了定向適配,並提(tí)供了強大的模型轉(zhuǎn)換工具,大幅簡化了業務遷移過程中的兼容性問題(tí)。這些措施不僅減少了遷移成本,還加快了新應用的部署速度,使得企業能夠更快地適應市場變化和技術更新。整體方案架構如下:

針對異構資源統一管理和(hé)運維(wéi),主要圍繞異構資源的(de)接入、算力發現和算力使用情況的監控三個維度展開,特別強調在異地資源納管策略時(shí)需要重點(diǎn)考慮主機之間的帶寬(kuān)情況。
首先在異地資源納管策略層麵會考慮主機之間的帶寬清單,當異構(gòu)資源在同(tóng)一機房或者帶寬較(jiào)大的網絡裏麵,低延遲和高(gāo)帶寬有助於更高效的數據傳輸和任務調度。這種情況(kuàng)一(yī)般會考慮一個集群納管,這(zhè)樣節省(shěng)管理節點的資源消耗,如果時(shí)高可用部署方式需要3個管理節點,如兩(liǎng)種異(yì)構(gòu)統一到一個集群管(guǎn)理則可以節省3個管理節點的(de)資源消(xiāo)耗。
異(yì)構資源統一納管,利用Kubernetes插件擴(kuò)展機製來對接(jiē)異構底層算力發現。通過擴展插件(jiàn),係統可以識別並管理異構硬件GPU資源。通過插件適配係統具備自動掃描網絡中所有連接的(de)計算設備的能(néng)力,識別其類型、型號及性能參數(如(rú)核心數、頻率、內存大小等)。通過算力發現機製將新接(jiē)入的(de)硬件設備(bèi)將被自動注冊到係統中,降低人工信息填寫錯誤導致(zhì)的(de)調(diào)度偏差。
在資源管理層麵利用算力專用的監控代理,實時采集硬件設備的運行數據,如CPU使用率(lǜ)、內存使用率、顯存使用量和算力使用量等參數,確保數據的準確(què)性和及時性(xìng),幫(bāng)助(zhù)算力正常調度。將采集的監控數據在一個(gè)平台展示,助力管理員從多維度查看平台資源使用狀況,更清晰地了解平台資源運維問題,從而指導管理員(yuán)進行資(zī)源規劃調整,有效避免因分配(pèi)不當而引發(fā)的資源過載和閑置(zhì)現象。
AI模(mó)型運行環境與底層驅動之間存在依賴關係(xì),不適配的資源會致使模型運行出現故障。為降低(dī)因錯誤調度引發的資源浪費和部署困(kùn)難的問(wèn)題,平台對任務類別、模型(xíng)運行環(huán)境依賴、硬件依賴等信息加以管理,以(yǐ)保障任務能夠正常(cháng)使用(yòng)資源。
那麽平台底層是如何(hé)調度(dù)的呢?首先為資源主機添加標簽,標簽信息(xī)涵蓋:芯片型號、網絡特性、驅動版本等。其次對(duì)模型運行環境(jìng)依賴進行管理,如 CUDA/CANN/PyTorch 版本等信息。平台(tái)內部維護一套任(rèn)務、環境依賴與驅動版本的適配關係表。當(dāng)平台(tái)部署模型時,在指(zhǐ)定模型鏡像和資源規格後,係統會自動獲取依賴信息,並得到該模型(xíng)需要的部署資源標簽,調度器依據(jù)標簽進行調度。通過上述過程,即可實現芯片硬軟件的智(zhì)能適配,通過自動調度減少因(yīn)錯誤(wù)指令啟動不合符任務需求的算力導致的(de)資源(yuán)浪(làng)費。具體的自動適配(pèi)流程示意如下(xià)。


每(měi)種芯片均具備其獨有的編程(chéng)接口與使用規(guī)範,開發者在(zài)運用資源時(shí),必須針對每一(yī)種芯片類型予以適配。如此一來(lái),不僅加大(dà)了開(kāi)發的難度,還延長了開發的周期。伴隨芯片技術的持(chí)續發展,新的接口與功能不斷湧現,開發者需(xū)要不斷追蹤並適應這些變化,這會(huì)耗費大(dà)量的人力和時間。為(wéi)應對上述挑戰,對接入(rù)的異構資源進行統一適配,構建形成標準服務 API,其設計如下:
1)提供標準統一API,將(jiāng)硬件類型作為輸(shū)入參數中的一部分,底層獲(huò)取API中的(de)硬件信息並自動調度到匹配硬件,這樣屏蔽了底層硬件(jiàn)接口差異,業務側在調用時無(wú)需關注具體的硬件調度,僅(jǐn)需關注需要的硬件設備即可。
2)指定標準的資源配額信息,通過(guò)指定芯片類型和配額信息作為調度參(cān)數傳入標準(zhǔn)API,由平台依據參數智能調度最為適宜的計算資源。這一設計使業務開發者隻需(xū)適配一(yī)次API,便(biàn)能調用多種算力資源(yuán)。
為了業務更(gèng)好的使用(yòng)異構算力(lì),能達到快速遷移的目(mù)標,智算平台針(zhēn)對當前主流模(mó)型(如qwen、LLama、deepseek、 ResNet、BERT、YOLO 等)進行定向適配(pèi),從模型運行環境構建、模型文件轉換、推理服務部署到模型的微調訓練進行各種硬件的適配,形成開箱即用的工具,用戶即可通過頁(yè)麵的配置,實現對這些適配過模型的使用(yòng),單(dān)次模型適配的投入即可實現多用戶的賦能。
同時在(zài)算子層,集成各異(yì)構算力的轉換工具,支持用戶使用工具快速轉換出自定義模型的格式,實現異(yì)構算力(lì)的(de)快速遷移。
通(tōng)過部署異構納管調度解決方案(àn),我們實現了顯著的運營優化和效(xiào)能提升,具體表現在以(yǐ)下幾(jǐ)個方麵:
1)運維成本與複雜度(dù)大幅削(xuē)減:構(gòu)建統(tǒng)一管理平台,一個界麵可查看分布在11個(gè)不同地市的資源監控情況。這(zhè)極大地簡化了運維流(liú)程,通過集中化管理減少了(le)運維工作(zuò)量,從而有效降低了總體運維成(chéng)本。
2)資源調度可靠(kào)性增強:借(jiè)助硬軟件(jiàn)智能適配技術,實現了更為精(jīng)準、高效的資源分(fèn)配。有效地預防了因(yīn)硬(yìng)軟件不兼容而引發的故障(zhàng),確保了資(zī)源(yuán)調度過程中的穩定性和可靠性。
3)業(yè)務開發效率躍升:引入標準(zhǔn)服務API接口,屏蔽了底層硬件的複(fù)雜(zá)性,使開發人員無需關心具體的算力調度,僅適配一次API,即可獲取所需計算(suàn)資源,大大簡化了開(kāi)發流程,縮短(duǎn)了產品迭代周期。
4)模型異構適(shì)配層:我們的目標是通過針對常用模型的定向適配和提供(gòng)強大的模型轉換工具,大幅(fú)簡(jiǎn)化業務遷移過程中的兼容性問題。