Algorithm Powers Innovation
算法驅(qū)動(dòng)創(chuàng)新
Algorithm Powers Innovation
算法驅(qū)動(dòng)創(chuàng)新
構(gòu)建性能穩(wěn)定的萬(wàn)卡級(jí)算力集群,是全球公認(rèn)的頂尖技術(shù)挑戰(zhàn)。華為昇騰云已率先取得重要突破——其萬(wàn)卡級(jí)算力集群實(shí)現(xiàn)了接近“永不罷工”的穩(wěn)定性表現(xiàn):
● 訓(xùn)練可用度高達(dá)98%:全年365天中,有超過358天可隨時(shí)啟動(dòng)訓(xùn)練任務(wù),幾乎不因故障中斷,維護(hù)響應(yīng)及時(shí)高效;
● 萬(wàn)卡線性度超95%:使用1000張算力卡的訓(xùn)練效率,較100張?zhí)嵘?.5倍以上,資源利用率極高;
● 秒級(jí)恢復(fù)、分鐘級(jí)診斷:無(wú)論訓(xùn)練還是推理,一旦發(fā)生故障,可在幾秒鐘內(nèi)恢復(fù)運(yùn)行,并在幾分鐘內(nèi)精準(zhǔn)定位問題來源,顯著降低運(yùn)維成本。
什么是線性度?為何如此重要?
華為云算法創(chuàng)新Lab專家彭文指出,線性度指標(biāo),是指隨著算力卡數(shù)量增加,訓(xùn)練效率是否能成比例提升。理想狀態(tài)下,算力翻倍、訓(xùn)練速度也翻倍;若提升幅度遠(yuǎn)低于預(yù)期,則說明存在資源浪費(fèi)或系統(tǒng)瓶頸。例如:若算力卡數(shù)量增加2倍,訓(xùn)練速度也能接近2倍,說明線性度高;若僅提升1.2倍,則說明通信、調(diào)度或硬件架構(gòu)存在問題,限制了整體效率。
算法創(chuàng)新Lab專家揭示線性度下降四大根源
算法創(chuàng)新Lab專家黃鵬飛在探索如何優(yōu)化大規(guī)模集群的線性度過程中,基于Pangu Ultra MoE 718B模型的訓(xùn)練數(shù)據(jù)進(jìn)行了深入建模分析,發(fā)現(xiàn)在集群規(guī)模擴(kuò)展過程中,以下四個(gè)因素會(huì)顯著影響線性度表現(xiàn):
● 訓(xùn)練規(guī)模的擴(kuò)展往往通過增大數(shù)據(jù)并行(DP)維度得以實(shí)現(xiàn)。網(wǎng)絡(luò)擁塞加劇、DP通信時(shí)間拉長(zhǎng)導(dǎo)致線性度下降。
● 由于專家選擇存在動(dòng)態(tài)性,導(dǎo)致路由專家計(jì)算和EP All2Allv通信部分存在不均衡,并不斷在流水線中累積,引發(fā)PP并行域卡間的互相等待。該問題在訓(xùn)練規(guī)模擴(kuò)大時(shí)會(huì)進(jìn)一步加劇。
● CloudMatrix 384架構(gòu)下,可能出現(xiàn)同一DP通信域橫跨兩個(gè)超節(jié)點(diǎn),且兩個(gè)超節(jié)點(diǎn)中的卡數(shù)不相同的情況,傳統(tǒng)集合通信算法性能急劇劣化。
● 隨訓(xùn)練集群規(guī)模擴(kuò)大,故障與亞健康頻率上升,導(dǎo)致線性度動(dòng)態(tài)下滑。需要低成本測(cè)量與高效運(yùn)維工具,應(yīng)對(duì)由于系統(tǒng)不穩(wěn)定性或亞健康狀態(tài)對(duì)訓(xùn)練業(yè)務(wù)的影響程度及時(shí)間跨度。
四項(xiàng)關(guān)鍵技術(shù),破解線性度難題
針對(duì)上述問題,華為云算法創(chuàng)新Lab聯(lián)合2012網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室等多個(gè)團(tuán)隊(duì),提出四項(xiàng)關(guān)鍵技術(shù),實(shí)現(xiàn)Pangu訓(xùn)練線性度提升??傮w方案如下圖所示:

● TACO(拓?fù)涓兄膮f(xié)同編排技術(shù)):就像給算力卡“排兵布陣”,根據(jù)硬件連接結(jié)構(gòu)(比如網(wǎng)絡(luò)拓?fù)洌┲悄芊峙淙蝿?wù),避免“通信堵車”。
● NSF(網(wǎng)絡(luò)級(jí)網(wǎng)存算融合技術(shù)):把網(wǎng)絡(luò)傳輸、數(shù)據(jù)存儲(chǔ)和計(jì)算能力“打包優(yōu)化”,讓數(shù)據(jù)在算力卡之間流動(dòng)更順暢,減少等待時(shí)間。
● NB(拓?fù)涓兄膶哟位贤ㄐ偶夹g(shù)):針對(duì)大規(guī)模集群設(shè)計(jì)“分層通信策略”,比如讓同一區(qū)域的算力卡先快速協(xié)作,再跨區(qū)域同步,提升整體通信效率。
● AICT(無(wú)侵入通信跨層測(cè)量與診斷技術(shù)):不干擾正常訓(xùn)練的前提下,實(shí)時(shí)“監(jiān)控”通信鏈路,快速發(fā)現(xiàn)哪里“卡頓”并修復(fù),確保數(shù)據(jù)傳輸穩(wěn)定。
通過這四項(xiàng)技術(shù),華為讓Pangu大模型的訓(xùn)練線性度(即效率隨算力卡增加的提升比例)明顯提高。
理論建模與性能仿真
為了驗(yàn)證理論模型的有效性,算法創(chuàng)新Lab主導(dǎo)構(gòu)建了線性度仿真系統(tǒng),對(duì)大模型訓(xùn)練過程中的耗時(shí)進(jìn)行拆解,并對(duì)四項(xiàng)關(guān)鍵技術(shù)進(jìn)行建模分析。
部分實(shí)驗(yàn)及理論分析結(jié)果顯示,訓(xùn)練Pangu Ultra 135B稠密模型時(shí),4K卡A2集群相比256卡基線,線性度為96%。訓(xùn)練Pangu Ultra MoE 718B稀疏模型時(shí),8K卡A2集群相比512卡基線,線性度95.05%;4K卡CloudMatrix集群相比256卡基線,線性度96.48%。
華為昇騰通過對(duì)萬(wàn)卡級(jí)算力集群的深度優(yōu)化,不僅攻克了多項(xiàng)世界級(jí)技術(shù)難題,也為大模型的大規(guī)模訓(xùn)練與推理提供了堅(jiān)實(shí)基礎(chǔ)。未來,算法創(chuàng)新Lab將持續(xù)推動(dòng)AI基礎(chǔ)設(shè)施向更高效率、更強(qiáng)穩(wěn)定的方向演進(jìn)。
完整技術(shù)報(bào)告地址:
千億稀疏模型訓(xùn)練線性度優(yōu)化技術(shù)報(bào)告