現(xiàn)在,AI 大模型可以真正與物理世界結(jié)合了。
該大模型體系分為 10 億級(jí)參數(shù)的 Pangu E 端側(cè)模型,百億級(jí)參數(shù)的 Pangu P,千億級(jí)的 Pangu U,以及萬(wàn)億級(jí)的 Pangu S 版本,在全系列、多模態(tài)、強(qiáng)思維三個(gè)方面實(shí)現(xiàn)了升級(jí)。
盤古大模型 5.0 可以與物理世界結(jié)合,理解包括文本、圖片、視頻、雷達(dá)、紅外、遙感等多種模態(tài)的信息。它已在高鐵故障檢測(cè)等工業(yè)領(lǐng)域、具身智能等技術(shù)探索領(lǐng)域落地,因而受到了人們的關(guān)注。
隨著鴻蒙 HarmonyOS NEXT Beta 版本的發(fā)布,小藝也升級(jí)成為智能體,面向全場(chǎng)景設(shè)備提供語(yǔ)音對(duì)話、圖文識(shí)別、服務(wù)建議、設(shè)備智慧能力和設(shè)備互聯(lián)管理功能。依托昇騰的算力和盤古大模型,HarmonyOS NEXT 擁有了系統(tǒng)級(jí) AI 能力。
在大會(huì)主 Keynote 環(huán)節(jié)上,諾亞方舟實(shí)驗(yàn)室主任姚駿對(duì)盤古大模型 5.0 背后的技術(shù)進(jìn)行了詳解。
在過去的一年里,華為對(duì)盤古大模型 3.0 進(jìn)行了全面的升級(jí),如今的盤古大模型 5.0 具備了更豐富的多模態(tài)和更強(qiáng)的思維能力?;谌A為云 AI 算力平臺(tái),盤古 5.0 提高了訓(xùn)練效率。在新模型的介紹中,華為主要從數(shù)據(jù)、參數(shù)和算力三個(gè)方面介紹了大模型的訓(xùn)練過程。
數(shù)據(jù)合成
首先是數(shù)據(jù)方面的工作,在 5.0 版模型的訓(xùn)練中,工程團(tuán)隊(duì)從追求數(shù)據(jù)量和提高數(shù)據(jù)清洗質(zhì)量的數(shù)據(jù)工程,向科學(xué)使用數(shù)據(jù)的思路進(jìn)行了演進(jìn)。新的目的是提升數(shù)據(jù)的利用率,并且用更優(yōu)質(zhì)的數(shù)據(jù)來激活模型中更多的能力。
華為著重介紹了兩個(gè)關(guān)鍵技術(shù)。
首先是數(shù)據(jù)合成,現(xiàn)在,業(yè)界大模型訓(xùn)練數(shù)據(jù)的規(guī)模已經(jīng)從萬(wàn)億級(jí) tokens 邁入十萬(wàn)億 tokens,到達(dá)這個(gè)量級(jí)以后,業(yè)界公開的高質(zhì)量數(shù)據(jù)的增長(zhǎng)就難以跟上模型體量增長(zhǎng)的速度了。
華為認(rèn)為在未來,合成數(shù)據(jù)會(huì)在更大規(guī)模的模型訓(xùn)練中占有一席之地,從而彌補(bǔ)高質(zhì)量自然數(shù)據(jù)增長(zhǎng)不足的空缺。從盤古 3.0 時(shí)代的 3T Tokens 的數(shù)據(jù),到盤古 5.0 時(shí),數(shù)據(jù)的容量已達(dá)到 10T Tokens,其中合成數(shù)據(jù)占比超過了 30%。在其中,華為探索了優(yōu)質(zhì)的、面向高階能力的數(shù)據(jù)合成方法。簡(jiǎn)單來說,就是以弱模型輔助強(qiáng)模型的 weak2strong 方法,迭代式的合成高質(zhì)量的數(shù)據(jù),保證合成數(shù)據(jù)有不弱于真實(shí)數(shù)據(jù)的完整性、相關(guān)性和知識(shí)性。
在華為提供的能力圖中可以看到,合成數(shù)據(jù)的質(zhì)量從各個(gè)維度都略強(qiáng)于真實(shí)數(shù)據(jù)。
華為提出的 weak2strong 可以進(jìn)一步加強(qiáng)合成數(shù)據(jù)中特定的數(shù)據(jù),例如自然數(shù)據(jù)中偏少的長(zhǎng)序列、復(fù)雜知識(shí)推理等的數(shù)據(jù),進(jìn)一步通過這些數(shù)據(jù)來加強(qiáng)模型的特定能力。在訓(xùn)練的過程中,華為使用了大量合成的長(zhǎng)序列數(shù)據(jù),提高了模型在大海撈針長(zhǎng)序列測(cè)試中的表現(xiàn)約 20%。
華為也展示了數(shù)據(jù)方面的課程學(xué)習(xí),利用相對(duì)較小的模型對(duì)不同數(shù)據(jù)進(jìn)行快速的 AI 評(píng)估,區(qū)分不同數(shù)據(jù)類別在學(xué)習(xí)過程中的難易程度。進(jìn)一步根據(jù)階梯式課程學(xué)習(xí)的原理,先讓大模型學(xué)習(xí)相對(duì)來說基礎(chǔ)的課程,再逐漸的加大高難數(shù)據(jù)的比例,模型能以更加類人的方式從易到難地學(xué)習(xí)知識(shí),實(shí)現(xiàn)更加可控、可預(yù)期的能力涌現(xiàn)。
模型架構(gòu)升級(jí)
在盤古 5.0 中,模型架構(gòu)也獲得了升級(jí),華為提出了昇騰親和的 Transformer 架構(gòu) - 創(chuàng)新的 π 新架構(gòu)。
如下圖左所示,原始的 Transformer 架構(gòu)和其它的深度模型一樣,也存在一定的特征坍塌問題。華為研究人員通過理論分析發(fā)現(xiàn),Transformer 中的自注意力模塊(即 Attention 模塊)會(huì)進(jìn)一步激化數(shù)據(jù)的特征消失。
利用計(jì)算視覺和 Transformer 結(jié)合的例子來演示這個(gè)特征問題,左邊是一張鯊魚的圖,如果我們用原始的 transformer 架構(gòu)來處理,模型一深就會(huì)帶來特征的完全坍塌,基本無法還原輸入圖像,看起來就是中間黑乎乎的一塊。業(yè)界因此為原始的 Transformer 增加一條殘差連接,這樣就能略微的緩解特征坍塌問題,右邊的圖中可以模糊地看到還原圖像中有一點(diǎn)鯊魚的影子,但是這個(gè)鯊魚的特征整體仍然不太明顯。
在新的盤古 π 架構(gòu)中,華為諾亞、北京大學(xué)等研究人員進(jìn)一步提出了增廣殘差連接的方法。通過引入非線性的額外殘差,更進(jìn)一步的加大來自不同 Token 的特征,使數(shù)據(jù)的特征的多樣性得以在深度的 Transformer 中得到維持,進(jìn)而大幅提升模型的精度。(論文鏈接:http://dx.doi.org/10.13140/RG.2.2.34314.64966)
PanGu-π 的工作,已經(jīng)被國(guó)際機(jī)器學(xué)習(xí)頂會(huì) NeurIPS 2023 錄用。
在上圖下方的圖實(shí)驗(yàn)結(jié)果中,還原的鯊魚圖像效果更好了,可知模型對(duì)數(shù)據(jù)的表征和學(xué)習(xí)能力得到了大幅的加強(qiáng)。
另一方面,Transformer 包含 2 個(gè)關(guān)鍵模塊,F(xiàn)FN 和自注意力模塊。在 新的π架構(gòu)中,華為改造了模型中 FFN 模塊中的激活函數(shù),用一種新的級(jí)數(shù)激活函數(shù)的方式來代替。這種新的方式增加了模型的非線性度,增加了 FFN 的計(jì)算量,但是也可以幫助我們?cè)诰炔蛔兊那闆r下減少自注意力模塊的大小。經(jīng)過此種優(yōu)化,大模型在昇騰芯片上推理速度也由此提升了20- 25%。
大集群訓(xùn)練
華為進(jìn)一步介紹了通過大集群訓(xùn)練盤古 5.0 的情況。
從千卡集群到大集群,主要挑戰(zhàn)來自兩方面:首先,訓(xùn)練千億、萬(wàn)億模型需要同時(shí)進(jìn)行數(shù)據(jù)并行、模型并行和流水線并行,期間計(jì)算單元在流水線并行的等待時(shí)間稱為 Bubble。千卡集群的 bubble 通常在 10% 左右,而大集群的 Bubble 就到了 30,大大影響了集群算力利用率。另外,大集群中,并行通信在集群間會(huì)有大量的路由沖突要解決,導(dǎo)致集群利用率線性度只有 80% 左右。
為了解決這個(gè)問題,技術(shù)人員首先將大塊計(jì)算和通信按照數(shù)學(xué)上的等價(jià),切分成多個(gè)小塊計(jì)算和通信副本。系統(tǒng)會(huì)編排多個(gè)副本間計(jì)算通信的執(zhí)行順序,小塊的計(jì)算和通信更容易被隱藏在計(jì)算中。在這其中,編排上還有 NP 難問題的自動(dòng)尋優(yōu)優(yōu)化、正反向流水交織等關(guān)鍵技術(shù)。此外,華為還優(yōu)化了大集群調(diào)度與通信,通過 rank table 編排算法,將大流量放到節(jié)點(diǎn)內(nèi)或同一機(jī)柜級(jí)路由器下,避免跨路由器沖突,同時(shí)對(duì)源端口進(jìn)行動(dòng)態(tài)編排,實(shí)現(xiàn)集群通信路徑完全零沖突。
基于以上方法,華為可以有效隱藏 70% 以上的通信,bubble 從 30% 降低到 10%,有效實(shí)現(xiàn)了大集群的近線性加速比。整體上,集群的訓(xùn)練 MFU(模型計(jì)算算力利用率)相比 256 卡的 60%,大上只降低了 10%,可以達(dá)到 50% 左右,這些優(yōu)化大幅提升了訓(xùn)練效率。
姚駿表示,這些自動(dòng)并行方案已集成到了華為 AI 框架中,成為了訓(xùn)練全棧解決方案的一部分。
盤古大模型 5.0 的能力提升
盤古 5.0 擴(kuò)展了多模態(tài)能力。
一直以來,多個(gè)模態(tài)的高效對(duì)齊是訓(xùn)練多模態(tài)大模型的一大挑戰(zhàn)。其中,視覺編碼器是多模態(tài)大模型處理輸入的第一步,用于將不同類別、大小的圖像輸入到同一個(gè)表征空間,相當(dāng)于語(yǔ)言模型的 Tokenizer 。因?yàn)轭I(lǐng)域的不同,傳統(tǒng)處理圖像,視頻,文本和圖表時(shí),需要用各自的獨(dú)立的編碼器各自接入多模態(tài)大模型,這造成了模型容量浪費(fèi)和計(jì)算冗余。
華為提出統(tǒng)一視覺編碼,將不同的編碼器能力蒸餾到一個(gè)統(tǒng)一視覺編碼器中,可以大大提升編碼效率。和同參數(shù)量業(yè)界 SOTA 模型相比,由于利用了不同領(lǐng)域之間內(nèi)的共通知識(shí),新的編碼器在自然圖像能力基本持平,文檔理解能力上有顯著提升。這種方案現(xiàn)在也成為了業(yè)界的主流編碼范式。
盤古 5.0 在介紹多模態(tài)能力時(shí)重點(diǎn)展示了兩個(gè)關(guān)鍵技術(shù)。第一個(gè)是統(tǒng)一的視覺編碼器,它改變了以前業(yè)界在視覺的多個(gè)領(lǐng)域,如 OCR、自然圖像、視頻、文本等,都有不同的獨(dú)立編碼方案的困境。把這些編碼器都蒸餾到一個(gè)視覺編碼器,現(xiàn)在已經(jīng)成為了業(yè)界主流的編解碼方案,也提升了模型的表征能力和精度。
另一個(gè)關(guān)鍵技術(shù)是動(dòng)態(tài)分辨率。人看世界是有不同分辨率的,但是一個(gè) AI 模型的輸入一般是固定的,很難兼顧。華為提出尺度泛化的訓(xùn)練范式,如下圖右邊部分所示。首先,使用低分辨率圖片和簡(jiǎn)單任務(wù)訓(xùn)練基礎(chǔ)感知能力,然后使用中高分辨率訓(xùn)練 OCR 和圖表理解等細(xì)粒度感知能力,第三階段擴(kuò)展到更高的分辨率和更多的任務(wù)類型,最后重點(diǎn)突破模型的高階推理能力。
這也是一種數(shù)據(jù)課程學(xué)習(xí)的方式,從易到難學(xué)習(xí)多模態(tài)的信息。這種方式動(dòng)態(tài)的遞增的方式幫助盤古 5.0 在動(dòng)態(tài)分辨率的表征上超過了業(yè)界同等模型的能力,并有效的提升了新模型在下游多模態(tài)任務(wù)的能力,實(shí)現(xiàn)了 50% 的提升。
盤古大模型的另一個(gè)關(guān)鍵能力提升在于強(qiáng)思維,即復(fù)雜推理能力。
當(dāng)前,在單步任務(wù)和文本記憶類任務(wù),例如知識(shí)問答和考試上,大模型已經(jīng)展現(xiàn)出超過人類的卓越表現(xiàn)。而在多步推理和復(fù)雜任務(wù)的處理上,AI 還沒有達(dá)到人類的平均水平,這一方面涉及到的任務(wù)包括代碼生成、數(shù)學(xué)運(yùn)算、邏輯推理等。這體現(xiàn)了人類在知識(shí)的抽象和推理上的能力難以替代。
在華為的研究過程中,前一種能力被稱作記憶型能力,適合于大模型用一步的快速思考進(jìn)行回答。后一種復(fù)雜推理,人類處理時(shí)一般也需要步步推導(dǎo),跳過中間過程的快速回答不適用于這種問題,所以大模型也需要像人一樣,在這類問題上把快思考變成慢思考,一步一步分解和完成對(duì)復(fù)雜問題的處理。
從這點(diǎn)出發(fā),華為提出了基于多步生成和策略搜索的 MindStar 方法。首先把復(fù)雜推理任務(wù)分解成多個(gè)子問題,每個(gè)子問題都會(huì)生成多個(gè)候選方案,通過搜索和過程反饋的獎(jiǎng)勵(lì)模型,來選擇最優(yōu)多步回答的路徑。這樣既兼顧了人類一步一步思考的形式,也兼顧了機(jī)器更擅長(zhǎng)的策略搜索的形式。
在華為自建的難例評(píng)測(cè)集中,MindStar 方法使模型的平均能力提升了 30 分,使用了 MindStar 的百億模型達(dá)到業(yè)界主流千億模型的推理能力,這相當(dāng)于使用慢思考能帶來 10 倍以上的參數(shù)量的加成。
把 MindStar 這類強(qiáng)思維方法運(yùn)用到更大尺度的模型上,AI 或許就能逐步在復(fù)雜推理上實(shí)現(xiàn)接近人類,甚至超越人的能力。