華為云AI系統(tǒng)創(chuàng)新Lab論文被國際頂級期刊TACL錄用
華為云AI系統(tǒng)創(chuàng)新Lab論文被國際頂級期刊TACL錄用
活動(dòng)對象:華為云電銷客戶及渠道伙伴客戶可參與消費(fèi)滿送活動(dòng),其他客戶參與前請咨詢客戶經(jīng)理
活動(dòng)時(shí)間: 2020年8月12日-2020年9月11日
活動(dòng)期間,華為云用戶通過活動(dòng)頁面購買云服務(wù),或使用上云禮包優(yōu)惠券在華為云官網(wǎng)新購云服務(wù),累計(jì)新購實(shí)付付費(fèi)金額達(dá)到一定額度,可兌換相應(yīng)的實(shí)物禮品。活動(dòng)優(yōu)惠券可在本活動(dòng)頁面中“上云禮包”等方式獲取,在華為云官網(wǎng)直接購買(未使用年中云鉅惠活動(dòng)優(yōu)惠券)或參與其他活動(dòng)的訂單付費(fèi)金額不計(jì)入統(tǒng)計(jì)范圍內(nèi);
活動(dòng)對象:華為云電銷客戶及渠道伙伴客戶可參與消費(fèi)滿送活動(dòng),其他客戶參與前請咨詢客戶經(jīng)理
2024年12月3日,華為云AI系統(tǒng)創(chuàng)新Lab參與的研究論文《OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure》被TACL期刊接收。TACL(Transactions of the Association for Computational Linguistics)是由ACL贊助、MIT出版社出版的NLP期刊,其接受有關(guān)NLP任意子領(lǐng)域的投稿。TACL在NLP領(lǐng)域有良好的聲譽(yù)和影響力,是NLP領(lǐng)域公認(rèn)的頂級期刊,屬于SCI 1區(qū)。
目前主流的大模型大多是自回歸模型(Autoregressive models),其“一步一詞”的生成模式帶來了較大的推理開銷,制約了其在各種場景中的應(yīng)用。投機(jī)解碼通過“小模型起草(Drafting),大模型驗(yàn)證(Verification)”的方式能夠在大模型的一步推理中生成多個(gè)有效tokens,實(shí)現(xiàn)了無損的模型解碼加速。
在投機(jī)解碼中,小模型的性能決定了其生成的draft的質(zhì)量,起草的質(zhì)量越高,平均驗(yàn)證通過的長度也就越大。另一方面,draft的數(shù)據(jù)結(jié)構(gòu)也是影響算法性能的一個(gè)重要因素。以往的工作大多采用序列或是啟發(fā)式的固定樹結(jié)構(gòu)的draft。序列形式的draft存在較多的前綴冗余,即多個(gè)draft序列在同一個(gè)位置上可能出現(xiàn)多個(gè)相同的token。固定的樹結(jié)構(gòu)雖然避免了這種冗余,但依然不是有限預(yù)算下最優(yōu)的draft結(jié)構(gòu)。
考慮到理論上最優(yōu)的樹結(jié)構(gòu)因當(dāng)在解碼的每一步都可能是不同的,本文提出了一種自適應(yīng)且可擴(kuò)展的draft結(jié)構(gòu)——OPT-Tree。在給定結(jié)點(diǎn)個(gè)數(shù)的情況下,OPT-Tree能夠找到每一步中最大化近似驗(yàn)證通過長度期望E(A)的一個(gè)draft樹結(jié)構(gòu)。
在不同目標(biāo)模型與draft模型的組別中,OPT-Tree的無論是平均驗(yàn)證通過長度(MAL)還是吞吐速度均優(yōu)于現(xiàn)有的draft結(jié)構(gòu)。文中還展示了一個(gè)以7B LLAMA作為draft模型加速70B LLAMA的一個(gè)實(shí)例:
其中藍(lán)色的文本均由draft模型生成,再由大模型進(jìn)行并行驗(yàn)證并通過,紅色的文本是模型驗(yàn)證的副產(chǎn)物(實(shí)際由大模型生成)。這一例子中的平均驗(yàn)證通過長度為9.34。
OPT-Tree提供了一種自適應(yīng)的draft樹結(jié)構(gòu),適用于各種自回歸的draft模型,相信其優(yōu)越的性能也將為后續(xù)的解碼加速相關(guān)工作帶來啟發(fā)。