隨著生成式 AI 技術的飛速發(fā)展,大語言模型(LLM)正逐步走入生產(chǎn)系統(tǒng)、產(chǎn)業(yè)服務與日常應用中。如何支撐這些超大模型在云端的高效、穩(wěn)定、低成本運行,成為業(yè)界與學界關注的焦點。近日,在三大國際頂級會議——USENIX ATC 2025、ICML 2025 和 ACL 2025中,華為云存儲創(chuàng)新LAB與北京大學、南京大學等單位合作的三篇論文成功入選,全面展示了從整體系統(tǒng)架構(gòu)、prefill階段加速到decode階段加速三位一體的技術突破,為構(gòu)建下一代大模型推理基礎設施奠定了堅實地基。
【DEEPSERVE——構(gòu)建大模型推理的云原生“地基引擎”(ATC 2025)】
在系統(tǒng)與云計算頂會 ATC 2025 上,論文《DEEPSERVE: Serverless Large Language Model Serving at Scale》系統(tǒng)性地提出并落地了一個支持 大規(guī)模并發(fā)、Serverless 彈性、Ascend NPU 原生優(yōu)化 的云平臺 DEEPSERVE,支撐了華為云大語言模型服務的核心工作負載。
三大挑戰(zhàn)
隨著 AI 服務形態(tài)從靜態(tài)模型查詢擴展到微調(diào)、Agent 執(zhí)行、長對話、RAG 等動態(tài)任務,云平臺面臨三大挑戰(zhàn):
- ● 工作負載極度多樣: 短至幾秒(推理),長至數(shù)小時(訓練),難以高效調(diào)度。
- ● 推理請求高度狀態(tài)化: KV 緩存等中間狀態(tài)需在多節(jié)點間同步傳遞。
- ● 請求量起伏劇烈: 系統(tǒng)需具備毫秒級響應與秒級擴容能力。
四大技術支柱
為此,DEEPSERVE 提出并實現(xiàn)如下關鍵設計:
- ● Serverless 抽象: 構(gòu)建“請求–作業(yè)–任務”三級架構(gòu),動態(tài)調(diào)度、自動伸縮。
- ● 高性能推理引擎 FLOWSERVE: 基于微內(nèi)核 + SPMD 并行執(zhí)行框架,原生適配 Ascend NPU。
- ● 多形態(tài)調(diào)度算法: 支持 PD-disaggregated 與 PD-colocated 部署,結(jié)合負載感知與緩存復用策略。
- ● 極速彈性優(yōu)化: 引入 Pod 預熱、模型預加載、NPU-Fork 等優(yōu)化,秒級擴展至 64 實例。
概覽.png)
▲ DEEPSERVE 的 Serverless 架構(gòu)與核心模塊概覽
DEEPSERVE 已在 Ascend NPU 超大集群(910B集群或CLOUDMATRIX384 SuperPod)中正式部署并穩(wěn)定運行一年以上,為華為云生成式AI提供穩(wěn)定支撐。
【EPIC——解鎖“上下文重用”的效率極限(ICML 2025)】
在機器學習頂會 ICML 2025 上,論文《EPIC: Efficient Position-Independent Caching for Serving Large Language Models》進一步在 DEEPSERVE 之上提出了 位置無關緩存(PIC)機制,有效突破傳統(tǒng)上下文緩存只能重用“前綴”部分的限制,顯著提升推理吞吐。
傳統(tǒng)緩存的局限
目前主流的上下文緩存策略,如在 vLLM 等系統(tǒng)中廣泛應用的“前綴緩存”,僅在用戶輸入的開頭完全相同時可復用計算結(jié)果,在 Few-Shot 學習或 RAG 等場景中復用率極低。
LegoLink:兼顧速度與精度的關鍵算法
EPIC 所提出的 LegoLink 算法基于以下兩大洞察:
- ● 注意力黑洞”現(xiàn)象: 每段文檔開頭的 token 吸收了大量注意力,抑制其他 token 獲取有效上下文。
- ● 靜態(tài)稀疏重計算策略:精選每段開頭極少數(shù) token 進行重算,修復上述偏差。
實驗顯示,EPIC 在多個真實推理場景中實現(xiàn):
- ● 單請求延遲最高降低 3×,吞吐提升高達 8×;
- ● 保持精度損失不超過 7%;
- ● 可與 vLLM 等主流框架兼容集成。

▲ 什么是PIC
的核心創(chuàng)新_LegoLink_算法示意圖.png)
▲ EPIC 系統(tǒng)的核心創(chuàng)新 LegoLink 算法示意圖
【RaaS——破解長推理的“不可能三角”(ACL 2025)】
在自然語言處理頂會 ACL 2025 上,論文《RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning》聚焦推理階段中 KV 緩存爆炸式增長的性能瓶頸,首次實現(xiàn) 同時具備高準確率、低時間復雜度與低內(nèi)存占用 的 Attention Sparsity 算法,打破了行業(yè)長期存在的“不可能三角”困境。
推理階段的瓶頸
長推理任務(如數(shù)學推理、程序生成)在解碼階段需逐 token 構(gòu)造 KV 緩存,造成時間與內(nèi)存雙重指數(shù)增長:
- ● 生成 10K tokens 的推理請求,其解碼階段占據(jù)了 99% 的執(zhí)行時間;
- ● 當前最優(yōu)算法 Quest 雖能降低時間復雜度至 O(L),但仍需 O(N) 的內(nèi)存空間。
RaaS 針對性設計出兩條稀疏策略:
- ● 基于時間戳的 LRU 緩存策略,管理 milestone 生命周期;
- ● 完整保留 prefill token 的 KV 向量,保證 phoenix 能“重生”。
計圖.png)
▲ RaaS 算法在準確率、延遲和內(nèi)存之間取得最佳平衡
實驗表明,RaaS 與 Quest 精度、延遲相當,但將內(nèi)存復雜度從 O(N) 降至 O(L),顯著減少顯存占用,適配大規(guī)模部署。
【打造從“基礎設施”到“核心加速”的大模型推理技術?!?/span>
從 DEEPSERVE 提供的可擴展、Serverless 云原生平臺,到 EPIC 優(yōu)化上下文緩存重用,再到 RaaS 在解碼階段以最小代價保留關鍵推理token,三項工作共同構(gòu)建出一個高吞吐、低延遲、強魯棒的大模型推理體系,覆蓋了推理全過程的系統(tǒng)瓶頸與算法難題。
這三項論文分別入選 ATC、ICML、ACL 三大頂會,體現(xiàn)了中國團隊在大模型推理系統(tǒng)與算法優(yōu)化領域的持續(xù)深耕與國際影響力。華為云也將繼續(xù)推動相關技術的產(chǎn)業(yè)化與開源化,助力全球開發(fā)者高效構(gòu)建智能應用。