Algorithm Powers Innovation
算法驅(qū)動(dòng)創(chuàng)新
Algorithm Powers Innovation
算法驅(qū)動(dòng)創(chuàng)新
在人工智能領(lǐng)域,計(jì)算效率是決定技術(shù)進(jìn)步的關(guān)鍵因素之一。華為昇騰云作為業(yè)界領(lǐng)先的AI計(jì)算集群,憑借其卓越的線(xiàn)性度等性能優(yōu)勢(shì),正顛覆傳統(tǒng)計(jì)算模式,為用戶(hù)帶來(lái)前所未有的高效體驗(yàn)。
昇騰云AI集群的線(xiàn)性度,指的是隨著計(jì)算任務(wù)規(guī)模的增加,昇騰云能夠保持近乎完美的性能提升比例,這意味著在處理大規(guī)模數(shù)據(jù)集時(shí),昇騰云能夠以近乎線(xiàn)性的速度擴(kuò)展計(jì)算能力,大幅縮短訓(xùn)練和推理時(shí)間,從而極大提高AI應(yīng)用的效率和響應(yīng)速度。
這一成就的背后,是華為云在AI計(jì)算架構(gòu)上的深思熟慮與技術(shù)創(chuàng)新。昇騰云依托華為自研的昇騰系列處理器,這些處理器專(zhuān)為AI工作負(fù)載優(yōu)化,采用高度并行的計(jì)算架構(gòu),能夠在多核并行運(yùn)算中展現(xiàn)出色的線(xiàn)性加速特性。結(jié)合昇騰云ModelArts平臺(tái)的智能調(diào)度算法,可以確保計(jì)算資源的高效分配,避免資源浪費(fèi),使得計(jì)算性能隨任務(wù)規(guī)模的增長(zhǎng)而穩(wěn)定提升。

為何線(xiàn)性度的提升是一個(gè)挑戰(zhàn)性的難題?
隨著模型參數(shù)量越來(lái)越大,訓(xùn)練千億乃至萬(wàn)億級(jí)別的大模型需要的算力也越來(lái)越多,在大規(guī)模集群上進(jìn)行訓(xùn)練需要使用分布式并行訓(xùn)練方法,現(xiàn)有的主流并行方法有兩大類(lèi),對(duì)模型本身進(jìn)行切分的張量并行和流水線(xiàn)并行,以及對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行切分的數(shù)據(jù)并行,多種并行方式的混合應(yīng)用使得千卡、萬(wàn)卡集群的AI訓(xùn)練成為可能。而不同的并行方式均有各自的優(yōu)缺點(diǎn),以流水線(xiàn)并行為例,計(jì)算單元在流水線(xiàn)并行的等待時(shí)間,我們稱(chēng)之為bubble,千卡集群的bubble通常在10%,在更大規(guī)模的集群上bubble可能增長(zhǎng)為30%,這就嚴(yán)重影響了集群算力的利用率,另外一方面,在規(guī)模增大的過(guò)程中,并行訓(xùn)練在大規(guī)模AI集群間會(huì)有非常大的通信流量沖突需要去解決,導(dǎo)致大規(guī)模集群的線(xiàn)性度通常低于80%。

大模型訓(xùn)練常用的數(shù)據(jù)并行、張量并行、流水線(xiàn)并行及三種并行的組合
不同的并行方式會(huì)有不同的集合通信需求:張量并行會(huì)帶來(lái)ALL-Gather/Reduce-Scatter的通信需求,數(shù)據(jù)并行需要使用ALL-Reduce來(lái)同步梯度信息,流水線(xiàn)并行則會(huì)需要Send/Receive通信。如何減少訓(xùn)練過(guò)程中分布式并行所需要的通信時(shí)間,直接關(guān)系到集群的線(xiàn)性度性能。華為集合通信庫(kù)HCCL (Huawei Collective Communication Library)提供了高性能集合通信算法,例如Ring算法、Halving and Doubling算法,來(lái)提升大規(guī)模并行的效率。

集合通信算法:左圖為Ring算法示意,右圖為Halving and Doubling算法示意
在此基礎(chǔ)上,昇騰云進(jìn)一步在以下三個(gè)方面持續(xù)優(yōu)化。
首先,通過(guò)通信隱藏技術(shù),將大塊的計(jì)算和通信切分成多個(gè)小塊的計(jì)算和通信的副本,然后系統(tǒng)會(huì)自動(dòng)編排多個(gè)副本間計(jì)算和通信的執(zhí)行順序,小塊的通信更容易被隱藏在計(jì)算中。
其次,為了解決大集群中的調(diào)度與通信優(yōu)化問(wèn)題,通過(guò)Rank映射編排算法,將大流量放在節(jié)點(diǎn)內(nèi)或者同一級(jí)路由的節(jié)點(diǎn)之間,減少了跨路由器的通信。
最后,當(dāng)跨路由器的通信不可避免時(shí),如何減少?zèng)_突成為了影響性能的關(guān)鍵,華為云通過(guò)動(dòng)態(tài)源端口編排算法,實(shí)現(xiàn)集群通信的路徑完全無(wú)沖突。
經(jīng)過(guò)以上這些方法,我們可以有效隱藏70%以上的通信,達(dá)到千卡、萬(wàn)卡集群線(xiàn)性度超過(guò)90%的效果。AI集群的高線(xiàn)性度,對(duì)于那些依賴(lài)大規(guī)模數(shù)據(jù)處理和復(fù)雜模型訓(xùn)練的行業(yè)尤為重要。例如,在自動(dòng)駕駛、基因測(cè)序、高性能計(jì)算等領(lǐng)域,好的線(xiàn)性度能夠顯著加快數(shù)據(jù)處理速度,減少等待時(shí)間,使得科研人員和工程師能夠更快地獲取分析結(jié)果,加速產(chǎn)品和服務(wù)的迭代升級(jí)。
不僅如此,更高的線(xiàn)性度還意味著更低的能耗和成本。在同等計(jì)算任務(wù)下,昇騰云能夠以更少的硬件資源達(dá)到更高的計(jì)算效率,這不僅有助于降低企業(yè)的運(yùn)營(yíng)成本,也是對(duì)環(huán)境友好型計(jì)算理念的踐行。
華為昇騰云,用其卓越的線(xiàn)性度性能優(yōu)勢(shì),正在重塑AI計(jì)算效率的標(biāo)準(zhǔn)。無(wú)論是科研機(jī)構(gòu)、初創(chuàng)企業(yè),還是大型跨國(guó)公司,昇騰云都將成為他們加速AI創(chuàng)新、贏得競(jìng)爭(zhēng)優(yōu)勢(shì)的強(qiáng)有力引擎。讓我們共同期待昇騰云繼續(xù)引領(lǐng)AI計(jì)算領(lǐng)域的發(fā)展,為人類(lèi)社會(huì)帶來(lái)更多創(chuàng)新成果與智慧結(jié)晶。