五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

華為云AI系統(tǒng)創(chuàng)新Lab論文IMPRESS被國際頂級會議FAST2025錄用

華為云AI系統(tǒng)創(chuàng)新Lab論文IMPRESS被國際頂級會議FAST2025錄用

活動規(guī)則

活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費滿送活動,其他客戶參與前請咨詢客戶經(jīng)理

活動時間: 2020年8月12日-2020年9月11日

活動期間,華為云用戶通過活動頁面購買云服務,或使用上云禮包優(yōu)惠券在華為云官網(wǎng)新購云服務,累計新購實付付費金額達到一定額度,可兌換相應的實物禮品?;顒觾?yōu)惠券可在本活動頁面中“上云禮包”等方式獲取,在華為云官網(wǎng)直接購買(未使用年中云鉅惠活動優(yōu)惠券)或參與其他活動的訂單付費金額不計入統(tǒng)計范圍內(nèi);

活動對象:華為云電銷客戶及渠道伙伴客戶可參與消費滿送活動,其他客戶參與前請咨詢客戶經(jīng)理

      2024年12月,第23屆 USENIX 文件與存儲技術(shù)會議(FAST: 23rd USENIX Conference on File and Storage Technologies)公布了論文錄用名單,華為云AI系統(tǒng)創(chuàng)新Lab參與研究的論文《IMPRESS: An Importance-informed Multi-tier Prefix KV Storage System for Large Language Model Inference》被主會接收。FAST 是存儲系統(tǒng)領(lǐng)域的頂級學術(shù)會議,被中國計算機學會推薦為A類學術(shù)會議。第23屆FAST會議將于2025年2月25日-27日在美國加利福尼亞召開。以下是論文的核心內(nèi)容概述:

       本文設(shè)計了基于數(shù)據(jù)重要性的AI大模型推理加速系統(tǒng) IMPRESS。該系統(tǒng)利用GPU顯存、CPU內(nèi)存和本地 SSD 存儲可重用的前綴 KV,并通過減少不重要 KV 的重用降低 I/O 瓶頸。首先,基于不同注意力頭之間的重要 KV 分布的相似性,本文設(shè)計了一種 I/O 高效的重要 KV 識別方法;其次,在存儲層面通過調(diào)整KV的排列順序緩解讀放大問題;在緩存層面,將更重要的數(shù)據(jù)優(yōu)先進入和駐留在快速介質(zhì)中,減少數(shù)據(jù)跨層傳輸。實驗表明,該系統(tǒng)能夠在保持精度不變的情況下,比DeepSpeed ZeRO-Inference框架的異步 KV 加載策略提升吞吐量 2.75至 4.15 倍。