鯨品堂｜異構算力管理與調（diào）度：高效利用計算資源

2025-03-10 286

大模（mó）型的爆發式發展正將算力推至（zhì）數字經濟的核心戰略地位。GPT-4o與DeepSeek-R1等模型的多模態突（tū）破，不僅標（biāo）誌著AI進入"參數爆炸"時代（dài）（GPT-4單次訓練需2.15×10^25 FLOPs，等同3萬台（tái）A100全年運轉），更暴露出算力供需的尖銳（ruì）矛盾——據智源研究院的報告預（yù）估（gū）國內大模型訓練算力缺口（kǒu）已達109EFLOPS（約20個太湖之光年（nián）產能）。在新（xīn）技術廣泛應用和全球算（suàn）力短缺的背景下（xià），信創國產化率要求倒（dǎo）逼華為昇騰、海光DCU等替代方案落地。芯片類型、架構和（hé）供應商方麵都呈現出多元化的趨勢。

異（yì）構算（suàn）力現（xiàn）狀分析

根據中國信通院《數據（jù）中心算力技術圖譜（2023）》及IDC《全球異構計算白皮書》，異構算力可分為（wéi）以下幾大層級：

圖片關鍵詞

根信通院公布數據顯示，算力主要集中在（zài）數據中心（xīn）、運營商網（wǎng）格。在這兩大主力中存在明顯的算力異構分布，運營具體情況如下：

圖片關（guān）鍵詞

從上信通（tōng）院發表文章和（hé）數字中國萬裏行的洞察中發現，國內數（shù）據中（zhōng）心、運營商等均（jun1）存在多元異構算力。但多（duō）元算力的開發生態體係相對獨立，無標準和統一規範，應用的跨架構開發和遷移困難，亟需通過開源（yuán）、開放的方式建立可屏蔽底層硬件差異的統一異構開發平台。

從東數西算（suàn）下新型算力基礎設施發展白（bái）皮書整理（lǐ）和業務（wù）場景梳理，我們發現異構算力管理和調度存（cún）在以下核心的難（nán）點問題：

硬件多樣性與兼容性問題：數（shù）據中心（xīn）采用多種硬件設備（bèi）（如 CPU、GPU、NPU、TPU 等），不同架構的硬件設備（如（rú） x86、ARM 等）難以（yǐ）兼容（róng），不同的硬件底座具備的算力發現和監控方法不一致，導致管理和調度複雜；

算力服（fú）務的標準化與規範化（huà）不足：目前（qián）的算力接口較為複（fù）雜，缺乏統一（yī）的（de）標（biāo）準和（hé）規範，導致算力資（zī）源的輸出和服務質量參差不齊，業務跨（kuà）架構遷移難度（dù）大，無法有效在（zài）異構算力資源上進行調度，跨架構（gòu）任務遷移成本激增（某金融雲平台（tái）改（gǎi）造耗時6個月），算（suàn）法研發周期被非（fēi）必要工程化拖累；

算力（lì）調度接口不一致，資源錯配導（dǎo）致的資源浪費：不同算（suàn）力的調度接口不一致，錯誤的調度方式無法（fǎ）使用資源，導致混合架構的集群資（zī）源閑置；

異構架構依賴（lài）的技術（shù）棧不同（tóng），對人力技術（shù）要求大（dà），導（dǎo）致（zhì）異構接入難（nán），新硬件資源難快速賦能（néng）業務，需要龐大的生態支撐，推廣難。

異構算力調度方案（àn）

在麵對（duì）以上（shàng）異構算力管理和調度的難（nán）點和問題，我們探索了更優的異構資（zī）源的（de）管理和調度解決方案（àn）。旨在提高資源利用率和管理（lǐ）效率。本方案通過三個關鍵層次實現（xiàn）對異構資源的有效管理和高效調度（dù）。

首先，在底層異構納管層（céng），我們實現了對多種硬件（如CPU、GPU、FPGA等）的適配，確保係統（tǒng）的（de）算力發現和資源監控功能（néng）能夠精準識別並管理所有可用計算資源。這不（bú）僅為後續的資源分配提供了堅實的基礎，還極大地增強了係統對不同硬件平台的支持能力。

其次，在調度層，我們開（kāi）發了一款（kuǎn）統一的異構調度工具，該工具通過一個統一調度（dù）接口將各類異構算力（lì）整（zhěng）合起來，顯著降低了資（zī）源調度的複雜度。同時（shí），利用先進的協同技術和精細化調度（dù）算法，我們在多維度上提升了資源的使（shǐ）用效率，實現了負載均衡和動態資源調整，從而（ér）提高了服務響應速度和服務質量（liàng）。

最後，在異構適配層，我們針對常用模型進（jìn）行了定向適配，並提（tí）供了強大的模型轉（zhuǎn）換工具，大幅簡化了業務遷移過程中的兼容性問題（tí）。這些措施不僅減少了遷移成本，還加快了新應用的部署速度，使得企業能夠更快地適應市場變化和技術更新。整體方案架構如下：

異構資源統一管理與運維

針對異構資源統一管理和（hé）運維（wéi），主要圍繞異構資源的（de）接入、算力發現和算力使用情況的監控三個維度展開，特別強調在異地資源納管策略時（shí）需要重點（diǎn）考慮主機之間的帶寬（kuān）情況。

首先在異地資源納管策略層麵會考慮主機之間的帶寬清單，當異構（gòu）資源在同（tóng）一機房或者帶寬較（jiào）大的網絡裏麵，低延遲和高（gāo）帶寬有助於更高效的數據傳輸和任務調度。這種情況（kuàng）一（yī）般會考慮一個集群納管，這（zhè）樣節省（shěng）管理節點的資源消耗，如果時（shí）高可用部署方式需要3個管理節點，如兩（liǎng）種異（yì）構（gòu）統一到一個集群管（guǎn）理則可以節省3個管理節點的（de）資源消（xiāo）耗。

異（yì）構資源統一納管，利用Kubernetes插件擴（kuò）展機製來對接（jiē）異構底層算力發現。通過擴展插件（jiàn），係統可以識別並管理異構硬件GPU資源。通過插件適配係統具備自動掃描網絡中所有連接的（de）計算設備的能（néng）力，識別其類型、型號及性能參數（如（rú）核心數、頻率、內存大小等）。通過算力發現機製將新接（jiē）入的（de）硬件設備（bèi）將被自動注冊到係統中，降低人工信息填寫錯誤導致（zhì）的（de）調（diào）度偏差。

在資源管理層麵利用算力專用的監控代理，實時采集硬件設備的運行數據，如CPU使用率（lǜ）、內存使用率、顯存使用量和算力使用量等參數，確保數據的準確（què）性和及時性（xìng），幫（bāng）助（zhù）算力正常調度。將采集的監控數據在一個（gè）平台展示，助力管理員從多維度查看平台資源使用狀況，更清晰地了解平台資源運維問題，從而指導管理員（yuán）進行資（zī）源規劃調整，有效避免因分配（pèi）不當而引發（fā）的資源過載和閑置（zhì）現象。

異構算力硬軟件智能適（shì）配調度

AI模（mó）型運行環境與底層驅動之間存在依賴關係（xì），不適配的資源會致使模型運行出現故障。為降低（dī）因錯誤調度引發的資源浪費和部署困（kùn）難的問（wèn）題，平台對任務類別、模型（xíng）運行環（huán）境依賴、硬件依賴等信息加以管理，以（yǐ）保障任務能夠正常（cháng）使用（yòng）資源。

那麽平台底層是如何（hé）調度（dù）的呢？首先為資源主機添加標簽，標簽信息（xī）涵蓋：芯片型號、網絡特性、驅動版本等。其次對（duì）模型運行環境（jìng）依賴進行管理，如 CUDA/CANN/PyTorch 版本等信息。平台（tái）內部維護一套任（rèn）務、環境依賴與驅動版本的適配關係表。當（dāng）平台（tái）部署模型時，在指（zhǐ）定模型鏡像和資源規格後，係統會自動獲取依賴信息，並得到該模型（xíng）需要的部署資源標簽，調度器依據（jù）標簽進行調度。通過上述過程，即可實現芯片硬軟件的智（zhì）能適配，通過自動調度減少因（yīn）錯誤（wù）指令啟動不合符任務需求的算力導致的（de）資源（yuán）浪（làng）費。具體的自動適配（pèi）流程示意如下（xià）。

圖片關鍵詞（cí）

標準服務API屏（píng）蔽異構調度差異

每（měi）種芯片均具備其獨有的編程（chéng）接口與使用規（guī）範，開發者在（zài）運用資源時（shí），必須針對每一（yī）種芯片類型予以適配。如此一來（lái），不僅加大（dà）了開（kāi）發的難度，還延長了開發的周期。伴隨芯片技術的持（chí）續發展，新的接口與功能不斷湧現，開發者需（xū）要不斷追蹤並適應這些變化，這會（huì）耗費大（dà）量的人力和時間。為（wéi）應對上述挑戰，對接入（rù）的異構資源進行統一適配，構建形成標準服務 API，其設計如下：

1）提供標準統一API，將（jiāng）硬件類型作為輸（shū）入參數中的一部分，底層獲（huò）取API中的（de）硬件信息並自動調度到匹配硬件，這樣屏蔽了底層硬件（jiàn）接口差異，業務側在調用時無（wú）需關注具體的硬件調度，僅（jǐn）需關注需要的硬件設備即可。

2）指定標準的資源配額信息，通過（guò）指定芯片類型和配額信息作為調度參（cān）數傳入標準（zhǔn）API，由平台依據參數智能調度最為適宜的計算資源。這一設計使業務開發者隻需（xū）適配一（yī）次API，便（biàn）能調用多種算力資源（yuán）。

模型的適配（pèi）和轉換提效

為了業務更（gèng）好的使用（yòng）異構算力（lì），能達到快速遷移的目（mù）標，智算平台針（zhēn）對當前主流模（mó）型（如qwen、LLama、deepseek、 ResNet、BERT、YOLO 等）進行定向適配（pèi），從模型運行環境構建、模型文件轉換、推理服務部署到模型的微調訓練進行各種硬件的適配，形成開箱即用的工具，用戶即可通過頁（yè）麵的配置，實現對這些適配過模型的使用（yòng），單（dān）次模型適配的投入即可實現多用戶的賦能。

同時在（zài）算子層，集成各異（yì）構算力的轉換工具，支持用戶使用工具快速轉換出自定義模型的格式，實現異（yì）構算力（lì）的（de）快速遷移。

建（jiàn）設成效

通（tōng）過部署異構納管調度解決方案（àn），我們實現了顯著的運營優化和效（xiào）能提升，具體表現在以（yǐ）下幾（jǐ）個方麵：

1）運維成本與複雜度（dù）大幅削（xuē）減：構（gòu）建統（tǒng）一管理平台，一個界麵可查看分布在11個（gè）不同地市的資源監控情況。這（zhè）極大地簡化了運維流（liú）程，通過集中化管理減少了（le）運維工作（zuò）量，從而有效降低了總體運維成（chéng）本。

2）資源調度可靠（kào）性增強：借（jiè）助硬軟件（jiàn）智能適配技術，實現了更為精（jīng）準、高效的資源分（fèn）配。有效地預防了因（yīn）硬（yìng）軟件不兼容而引發的故障（zhàng），確保了資（zī）源（yuán）調度過程中的穩定性和可靠性。

3）業（yè）務開發效率躍升：引入標準（zhǔn）服務API接口，屏蔽了底層硬件的複（fù）雜（zá）性，使開發人員無需關心具體的算力調度，僅適配一次API，即可獲取所需計算（suàn）資源，大大簡化了開（kāi）發流程，縮短（duǎn）了產品迭代周期。

4）模型異構適（shì）配層：我們的目標是通過針對常用模型的定向適配和提供（gòng）強大的模型轉換工具，大幅（fú）簡（jiǎn）化業務遷移過程中的兼容性問題。

媒（méi）體中心

媒體中心

鯨品堂｜異構算力管理與調（diào）度：高效利用計算資源

鯨智百應

關於我們

產品與解決方案

成功（gōng）故事