隨著生成式 AI 技術(shù)的飛速發(fā)展,大語言模型(LLM)正逐步走入生產(chǎn)系統(tǒng)、產(chǎn)業(yè)服務(wù)與日常應(yīng)用中。如何支撐這些超大模型在云端的高效、穩(wěn)定、低成本運(yùn)行,成為業(yè)界與學(xué)界關(guān)注的焦點(diǎn)。近日,在三大國際頂級會議——USENIX ATC 2025、ICML 2025 和 ACL 2025中,華為云存儲創(chuàng)新LAB與北京大學(xué)、南京大學(xué)等單位合作的三篇論文成功入選,全面展示了從整體系統(tǒng)架構(gòu)、prefill階段加速到decode階段加速三位一體的技術(shù)突破,為構(gòu)建下一代大模型推理基礎(chǔ)設(shè)施奠定了堅實(shí)地基。
【DEEPSERVE——構(gòu)建大模型推理的云原生“地基引擎”(ATC 2025)】
在系統(tǒng)與云計算頂會 ATC 2025 上,論文《DEEPSERVE: Serverless Large Language Model Serving at Scale》系統(tǒng)性地提出并落地了一個支持 大規(guī)模并發(fā)、Serverless 彈性、Ascend NPU 原生優(yōu)化 的云平臺 DEEPSERVE,支撐了華為云大語言模型服務(wù)的核心工作負(fù)載。
三大挑戰(zhàn)
隨著 AI 服務(wù)形態(tài)從靜態(tài)模型查詢擴(kuò)展到微調(diào)、Agent 執(zhí)行、長對話、RAG 等動態(tài)任務(wù),云平臺面臨三大挑戰(zhàn):
- ● 工作負(fù)載極度多樣: 短至幾秒(推理),長至數(shù)小時(訓(xùn)練),難以高效調(diào)度。
- ● 推理請求高度狀態(tài)化: KV 緩存等中間狀態(tài)需在多節(jié)點(diǎn)間同步傳遞。
- ● 請求量起伏劇烈: 系統(tǒng)需具備毫秒級響應(yīng)與秒級擴(kuò)容能力。
四大技術(shù)支柱
為此,DEEPSERVE 提出并實(shí)現(xiàn)如下關(guān)鍵設(shè)計:
- ● Serverless 抽象: 構(gòu)建“請求–作業(yè)–任務(wù)”三級架構(gòu),動態(tài)調(diào)度、自動伸縮。
- ● 高性能推理引擎 FLOWSERVE: 基于微內(nèi)核 + SPMD 并行執(zhí)行框架,原生適配 Ascend NPU。
- ● 多形態(tài)調(diào)度算法: 支持 PD-disaggregated 與 PD-colocated 部署,結(jié)合負(fù)載感知與緩存復(fù)用策略。
- ● 極速彈性優(yōu)化: 引入 Pod 預(yù)熱、模型預(yù)加載、NPU-Fork 等優(yōu)化,秒級擴(kuò)展至 64 實(shí)例。
▲ DEEPSERVE 的 Serverless 架構(gòu)與核心模塊概覽
DEEPSERVE 已在 Ascend NPU 超大集群(910B集群或CLOUDMATRIX384 SuperPod)中正式部署并穩(wěn)定運(yùn)行一年以上,為華為云生成式AI提供穩(wěn)定支撐。
【EPIC——解鎖“上下文重用”的效率極限(ICML 2025)】
在機(jī)器學(xué)習(xí)頂會 ICML 2025 上,論文《EPIC: Efficient Position-Independent Caching for Serving Large Language Models》進(jìn)一步在 DEEPSERVE 之上提出了 位置無關(guān)緩存(PIC)機(jī)制,有效突破傳統(tǒng)上下文緩存只能重用“前綴”部分的限制,顯著提升推理吞吐。
傳統(tǒng)緩存的局限
目前主流的上下文緩存策略,如在 vLLM 等系統(tǒng)中廣泛應(yīng)用的“前綴緩存”,僅在用戶輸入的開頭完全相同時可復(fù)用計算結(jié)果,在 Few-Shot 學(xué)習(xí)或 RAG 等場景中復(fù)用率極低。
LegoLink:兼顧速度與精度的關(guān)鍵算法
EPIC 所提出的 LegoLink 算法基于以下兩大洞察:
- ● 注意力黑洞”現(xiàn)象: 每段文檔開頭的 token 吸收了大量注意力,抑制其他 token 獲取有效上下文。
- ● 靜態(tài)稀疏重計算策略:精選每段開頭極少數(shù) token 進(jìn)行重算,修復(fù)上述偏差。
實(shí)驗(yàn)顯示,EPIC 在多個真實(shí)推理場景中實(shí)現(xiàn):
- ● 單請求延遲最高降低 3×,吞吐提升高達(dá) 8×;
- ● 保持精度損失不超過 7%;
- ● 可與 vLLM 等主流框架兼容集成。
▲ 什么是PIC
▲ EPIC 系統(tǒng)的核心創(chuàng)新 LegoLink 算法示意圖
【RaaS——破解長推理的“不可能三角”(ACL 2025)】
在自然語言處理頂會 ACL 2025 上,論文《RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning》聚焦推理階段中 KV 緩存爆炸式增長的性能瓶頸,首次實(shí)現(xiàn) 同時具備高準(zhǔn)確率、低時間復(fù)雜度與低內(nèi)存占用 的 Attention Sparsity 算法,打破了行業(yè)長期存在的“不可能三角”困境。
推理階段的瓶頸
長推理任務(wù)(如數(shù)學(xué)推理、程序生成)在解碼階段需逐 token 構(gòu)造 KV 緩存,造成時間與內(nèi)存雙重指數(shù)增長:
- ● 生成 10K tokens 的推理請求,其解碼階段占據(jù)了 99% 的執(zhí)行時間;
- ● 當(dāng)前最優(yōu)算法 Quest 雖能降低時間復(fù)雜度至 O(L),但仍需 O(N) 的內(nèi)存空間。
RaaS 針對性設(shè)計出兩條稀疏策略:
- ● 基于時間戳的 LRU 緩存策略,管理 milestone 生命周期;
- ● 完整保留 prefill token 的 KV 向量,保證 phoenix 能“重生”。
▲ RaaS 算法在準(zhǔn)確率、延遲和內(nèi)存之間取得最佳平衡
實(shí)驗(yàn)表明,RaaS 與 Quest 精度、延遲相當(dāng),但將內(nèi)存復(fù)雜度從 O(N) 降至 O(L),顯著減少顯存占用,適配大規(guī)模部署。
【打造從“基礎(chǔ)設(shè)施”到“核心加速”的大模型推理技術(shù)棧】
從 DEEPSERVE 提供的可擴(kuò)展、Serverless 云原生平臺,到 EPIC 優(yōu)化上下文緩存重用,再到 RaaS 在解碼階段以最小代價保留關(guān)鍵推理token,三項(xiàng)工作共同構(gòu)建出一個高吞吐、低延遲、強(qiáng)魯棒的大模型推理體系,覆蓋了推理全過程的系統(tǒng)瓶頸與算法難題。
這三項(xiàng)論文分別入選 ATC、ICML、ACL 三大頂會,體現(xiàn)了中國團(tuán)隊在大模型推理系統(tǒng)與算法優(yōu)化領(lǐng)域的持續(xù)深耕與國際影響力。華為云也將繼續(xù)推動相關(guān)技術(shù)的產(chǎn)業(yè)化與開源化,助力全球開發(fā)者高效構(gòu)建智能應(yīng)用。