五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

打造大模型推理“最強(qiáng)地基”,華為云存儲創(chuàng)新LAB三篇論文連續(xù)入選ICML/ACL/ATC 2025

隨著生成式 AI 技術(shù)的飛速發(fā)展,大語言模型(LLM)正逐步走入生產(chǎn)系統(tǒng)、產(chǎn)業(yè)服務(wù)與日常應(yīng)用中。如何支撐這些超大模型在云端的高效、穩(wěn)定、低成本運(yùn)行,成為業(yè)界與學(xué)界關(guān)注的焦點(diǎn)。近日,在三大國際頂級會議——USENIX ATC 2025、ICML 2025 ACL 2025中,華為云存儲創(chuàng)新LAB與北京大學(xué)、南京大學(xué)等單位合作的三篇論文成功入選,全面展示了從整體系統(tǒng)架構(gòu)、prefill階段加速到decode階段加速三位一體的技術(shù)突破,為構(gòu)建下一代大模型推理基礎(chǔ)設(shè)施奠定了堅實(shí)地基。


【DEEPSERVE——構(gòu)建大模型推理的云原生“地基引擎”(ATC 2025)】

在系統(tǒng)與云計算頂會 ATC 2025 上,論文《DEEPSERVE: Serverless Large Language Model Serving at Scale》系統(tǒng)性地提出并落地了一個支持 大規(guī)模并發(fā)、Serverless 彈性、Ascend NPU 原生優(yōu)化 的云平臺 DEEPSERVE,支撐了華為云大語言模型服務(wù)的核心工作負(fù)載。

三大挑戰(zhàn)

隨著 AI 服務(wù)形態(tài)從靜態(tài)模型查詢擴(kuò)展到微調(diào)、Agent 執(zhí)行、長對話、RAG 等動態(tài)任務(wù),云平臺面臨三大挑戰(zhàn):

  • ● 工作負(fù)載極度多樣: 短至幾秒(推理),長至數(shù)小時(訓(xùn)練),難以高效調(diào)度。
  • ● 推理請求高度狀態(tài)化: KV 緩存等中間狀態(tài)需在多節(jié)點(diǎn)間同步傳遞。
  • ● 請求量起伏劇烈: 系統(tǒng)需具備毫秒級響應(yīng)與秒級擴(kuò)容能力。

四大技術(shù)支柱

為此,DEEPSERVE 提出并實(shí)現(xiàn)如下關(guān)鍵設(shè)計:

  • ● Serverless 抽象: 構(gòu)建“請求–作業(yè)–任務(wù)”三級架構(gòu),動態(tài)調(diào)度、自動伸縮。
  • ● 高性能推理引擎 FLOWSERVE: 基于微內(nèi)核 + SPMD 并行執(zhí)行框架,原生適配 Ascend NPU。
  • ● 多形態(tài)調(diào)度算法: 支持 PD-disaggregated 與 PD-colocated 部署,結(jié)合負(fù)載感知與緩存復(fù)用策略。
  • ● 極速彈性優(yōu)化: 引入 Pod 預(yù)熱、模型預(yù)加載、NPU-Fork 等優(yōu)化,秒級擴(kuò)展至 64 實(shí)例。

▲ DEEPSERVE 的 Serverless 架構(gòu)與核心模塊概覽

DEEPSERVE 已在 Ascend NPU 超大集群(910B集群或CLOUDMATRIX384 SuperPod)中正式部署并穩(wěn)定運(yùn)行一年以上,為華為云生成式AI提供穩(wěn)定支撐。


【EPIC——解鎖“上下文重用”的效率極限(ICML 2025)】

在機(jī)器學(xué)習(xí)頂會 ICML 2025 上,論文《EPIC: Efficient Position-Independent Caching for Serving Large Language Models》進(jìn)一步在 DEEPSERVE 之上提出了 位置無關(guān)緩存(PIC)機(jī)制,有效突破傳統(tǒng)上下文緩存只能重用前綴部分的限制,顯著提升推理吞吐。

傳統(tǒng)緩存的局限

目前主流的上下文緩存策略,如在 vLLM 等系統(tǒng)中廣泛應(yīng)用的“前綴緩存”,僅在用戶輸入的開頭完全相同時可復(fù)用計算結(jié)果,在 Few-Shot 學(xué)習(xí)或 RAG 等場景中復(fù)用率極低。

LegoLink:兼顧速度與精度的關(guān)鍵算法

EPIC 所提出的 LegoLink 算法基于以下兩大洞察:

  • ● 注意力黑洞”現(xiàn)象: 每段文檔開頭的 token 吸收了大量注意力,抑制其他 token 獲取有效上下文。
  • ● 靜態(tài)稀疏重計算策略:精選每段開頭極少數(shù) token 進(jìn)行重算,修復(fù)上述偏差。

實(shí)驗(yàn)顯示,EPIC 在多個真實(shí)推理場景中實(shí)現(xiàn):

  • ● 單請求延遲最高降低 3×,吞吐提升高達(dá) 8×;
  • ● 保持精度損失不超過 7%;
  • ● 可與 vLLM 等主流框架兼容集成。

▲ 什么是PIC

▲ EPIC 系統(tǒng)的核心創(chuàng)新 LegoLink 算法示意圖


【RaaS——破解長推理的“不可能三角”(ACL 2025)】

在自然語言處理頂會 ACL 2025 上,論文《RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning》聚焦推理階段中 KV 緩存爆炸式增長的性能瓶頸,首次實(shí)現(xiàn) 同時具備高準(zhǔn)確率、低時間復(fù)雜度與低內(nèi)存占用 的 Attention Sparsity 算法,打破了行業(yè)長期存在的“不可能三角”困境。

推理階段的瓶頸

長推理任務(wù)(如數(shù)學(xué)推理、程序生成)在解碼階段需逐 token 構(gòu)造 KV 緩存,造成時間與內(nèi)存雙重指數(shù)增長:

  • ● 生成 10K tokens 的推理請求,其解碼階段占據(jù)了 99% 的執(zhí)行時間;
  • ● 當(dāng)前最優(yōu)算法 Quest 雖能降低時間復(fù)雜度至 O(L),但仍需 O(N) 的內(nèi)存空間。

RaaS 針對性設(shè)計出兩條稀疏策略:

  • ● 基于時間戳的 LRU 緩存策略,管理 milestone 生命周期;
  • ● 完整保留 prefill token 的 KV 向量,保證 phoenix 能“重生”。

▲ RaaS 算法在準(zhǔn)確率、延遲和內(nèi)存之間取得最佳平衡

實(shí)驗(yàn)表明,RaaS 與 Quest 精度、延遲相當(dāng),但將內(nèi)存復(fù)雜度從 O(N) 降至 O(L),顯著減少顯存占用,適配大規(guī)模部署。


【打造從“基礎(chǔ)設(shè)施”到“核心加速”的大模型推理技術(shù)棧】

從 DEEPSERVE 提供的可擴(kuò)展、Serverless 云原生平臺,到 EPIC 優(yōu)化上下文緩存重用,再到 RaaS 在解碼階段以最小代價保留關(guān)鍵推理token,三項(xiàng)工作共同構(gòu)建出一個高吞吐、低延遲、強(qiáng)魯棒的大模型推理體系,覆蓋了推理全過程的系統(tǒng)瓶頸與算法難題。

這三項(xiàng)論文分別入選 ATC、ICML、ACL 三大頂會,體現(xiàn)了中國團(tuán)隊在大模型推理系統(tǒng)與算法優(yōu)化領(lǐng)域的持續(xù)深耕與國際影響力。華為云也將繼續(xù)推動相關(guān)技術(shù)的產(chǎn)業(yè)化與開源化,助力全球開發(fā)者高效構(gòu)建智能應(yīng)用。