Algorithm Powers Innovation
算法驅(qū)動創(chuàng)新
Algorithm Powers Innovation
算法驅(qū)動創(chuàng)新
團(tuán)隊設(shè)計的動態(tài)expert調(diào)度與自動負(fù)載均衡技術(shù)研究成果發(fā)表于論文《xDeepServe: Model-as-a-Service on Huawei CloudMatrix384》。
專為超大規(guī)模模型而生的推理引擎架構(gòu) —— xDeepServe,首次將 MoE專家模型解耦執(zhí)行、專家調(diào)度、負(fù)載均衡、故障恢復(fù) 全部系統(tǒng)化落地于超節(jié)點級算力集群之上!通過xDeepServe架構(gòu)創(chuàng)新,單卡最高可實現(xiàn)2400TPS、50msTPOT的超高吞吐、低時延的性能,超過業(yè)界水平。
核心亮點
- Transformerless架構(gòu):將 Attention、MoE、FFN 分離執(zhí)行,極致并行
- 動態(tài) expert 調(diào)度 + 自動負(fù)載平衡:不再畏懼模型巨無霸
- 高彈性容錯系統(tǒng):節(jié)點掛了?照樣平穩(wěn)推理
- 在 CloudMatrix384 上實現(xiàn)超大模型穩(wěn)定部署,邁出 MoE 工業(yè)化關(guān)鍵一步!
這不僅是一次系統(tǒng)設(shè)計的升級,更是我們對大模型基礎(chǔ)設(shè)施“底座”構(gòu)建能力的一次全面實戰(zhàn)檢驗。技術(shù)細(xì)節(jié)詳見論文:《xDeepServe: Model-as-a-Service on Huawei CloudMatrix384》

歡迎關(guān)注、交流、轉(zhuǎn)發(fā)——AI infra新范式:超節(jié)點基礎(chǔ)設(shè)施 x LLM 工程體系化落地的技術(shù)力量。