久久成人专区,国产精品视频一区偷拍,大色欧美性交一区二区

打造大模型推理“最強地基”，華為云存儲創(chuàng)新LAB三篇論文連續(xù)入選ICML/ACL/ATC 2025

隨著生成式 AI 技術的飛速發(fā)展，大語言模型（LLM）正逐步走入生產(chǎn)系統(tǒng)、產(chǎn)業(yè)服務與日常應用中。如何支撐這些超大模型在云端的高效、穩(wěn)定、低成本運行，成為業(yè)界與學界關注的焦點。近日，在三大國際頂級會議——USENIX ATC 2025、ICML 2025 和 ACL 2025中，華為云存儲創(chuàng)新LAB與北京大學、南京大學等單位合作的三篇論文成功入選，全面展示了從整體系統(tǒng)架構(gòu)、prefill階段加速到decode階段加速三位一體的技術突破，為構(gòu)建下一代大模型推理基礎設施奠定了堅實地基。

【DEEPSERVE——構(gòu)建大模型推理的云原生“地基引擎”（ATC 2025）】

在系統(tǒng)與云計算頂會 ATC 2025 上，論文《DEEPSERVE: Serverless Large Language Model Serving at Scale》系統(tǒng)性地提出并落地了一個支持 大規(guī)模并發(fā)、Serverless 彈性、Ascend NPU 原生優(yōu)化 的云平臺 DEEPSERVE，支撐了華為云大語言模型服務的核心工作負載。

三大挑戰(zhàn)

隨著 AI 服務形態(tài)從靜態(tài)模型查詢擴展到微調(diào)、Agent 執(zhí)行、長對話、RAG 等動態(tài)任務，云平臺面臨三大挑戰(zhàn)：

● 工作負載極度多樣： 短至幾秒（推理），長至數(shù)小時（訓練），難以高效調(diào)度。
● 推理請求高度狀態(tài)化： KV 緩存等中間狀態(tài)需在多節(jié)點間同步傳遞。
● 請求量起伏劇烈： 系統(tǒng)需具備毫秒級響應與秒級擴容能力。

四大技術支柱

為此，DEEPSERVE 提出并實現(xiàn)如下關鍵設計：

● Serverless 抽象： 構(gòu)建“請求–作業(yè)–任務”三級架構(gòu)，動態(tài)調(diào)度、自動伸縮。
● 高性能推理引擎 FLOWSERVE： 基于微內(nèi)核 + SPMD 并行執(zhí)行框架，原生適配 Ascend NPU。
● 多形態(tài)調(diào)度算法： 支持 PD-disaggregated 與 PD-colocated 部署，結(jié)合負載感知與緩存復用策略。
● 極速彈性優(yōu)化： 引入 Pod 預熱、模型預加載、NPU-Fork 等優(yōu)化，秒級擴展至 64 實例。

▲ DEEPSERVE 的 Serverless 架構(gòu)與核心模塊概覽

DEEPSERVE 已在 Ascend NPU 超大集群（910B集群或CLOUDMATRIX384 SuperPod）中正式部署并穩(wěn)定運行一年以上，為華為云生成式AI提供穩(wěn)定支撐。

【EPIC——解鎖“上下文重用”的效率極限（ICML 2025）】

在機器學習頂會 ICML 2025 上，論文《EPIC: Efficient Position-Independent Caching for Serving Large Language Models》進一步在 DEEPSERVE 之上提出了 位置無關緩存（PIC）機制，有效突破傳統(tǒng)上下文緩存只能重用“前綴”部分的限制，顯著提升推理吞吐。

傳統(tǒng)緩存的局限

目前主流的上下文緩存策略，如在 vLLM 等系統(tǒng)中廣泛應用的“前綴緩存”，僅在用戶輸入的開頭完全相同時可復用計算結(jié)果，在 Few-Shot 學習或 RAG 等場景中復用率極低。

LegoLink：兼顧速度與精度的關鍵算法

EPIC 所提出的 LegoLink 算法基于以下兩大洞察：

● 注意力黑洞”現(xiàn)象： 每段文檔開頭的 token 吸收了大量注意力，抑制其他 token 獲取有效上下文。
● 靜態(tài)稀疏重計算策略：精選每段開頭極少數(shù) token 進行重算，修復上述偏差。

實驗顯示，EPIC 在多個真實推理場景中實現(xiàn)：

● 單請求延遲最高降低 3×，吞吐提升高達 8×；
● 保持精度損失不超過 7%；
● 可與 vLLM 等主流框架兼容集成。

▲ 什么是PIC

▲ EPIC 系統(tǒng)的核心創(chuàng)新 LegoLink 算法示意圖

【RaaS——破解長推理的“不可能三角”（ACL 2025）】

在自然語言處理頂會 ACL 2025 上，論文《RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning》聚焦推理階段中 KV 緩存爆炸式增長的性能瓶頸，首次實現(xiàn) 同時具備高準確率、低時間復雜度與低內(nèi)存占用 的 Attention Sparsity 算法，打破了行業(yè)長期存在的“不可能三角”困境。

推理階段的瓶頸

長推理任務（如數(shù)學推理、程序生成）在解碼階段需逐 token 構(gòu)造 KV 緩存，造成時間與內(nèi)存雙重指數(shù)增長：

● 生成 10K tokens 的推理請求，其解碼階段占據(jù)了 99% 的執(zhí)行時間；
● 當前最優(yōu)算法 Quest 雖能降低時間復雜度至 O(L)，但仍需 O(N) 的內(nèi)存空間。

RaaS 針對性設計出兩條稀疏策略：

● 基于時間戳的 LRU 緩存策略，管理 milestone 生命周期；
● 完整保留 prefill token 的 KV 向量，保證 phoenix 能“重生”。

▲ RaaS 算法在準確率、延遲和內(nèi)存之間取得最佳平衡

實驗表明，RaaS 與 Quest 精度、延遲相當，但將內(nèi)存復雜度從 O(N) 降至 O(L)，顯著減少顯存占用，適配大規(guī)模部署。

【打造從“基礎設施”到“核心加速”的大模型推理技術?！?/span>

從 DEEPSERVE 提供的可擴展、Serverless 云原生平臺，到 EPIC 優(yōu)化上下文緩存重用，再到 RaaS 在解碼階段以最小代價保留關鍵推理token，三項工作共同構(gòu)建出一個高吞吐、低延遲、強魯棒的大模型推理體系，覆蓋了推理全過程的系統(tǒng)瓶頸與算法難題。

這三項論文分別入選 ATC、ICML、ACL 三大頂會，體現(xiàn)了中國團隊在大模型推理系統(tǒng)與算法優(yōu)化領域的持續(xù)深耕與國際影響力。華為云也將繼續(xù)推動相關技術的產(chǎn)業(yè)化與開源化，助力全球開發(fā)者高效構(gòu)建智能應用。

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

Data Grows As Ever, Storage Lasts For Ever

Data Grows As Ever, Storage Lasts For Ever