當前,大模型無疑是國內(nèi)外最為熱門的話題,國際頂級學(xué)術(shù)期刊《自然》(Nature)雜志正刊發(fā)表了華為云盤古大模型研發(fā)團隊研究成果,這不僅是對華為云盤古大模型的一大褒獎,更是對國內(nèi)大模型產(chǎn)業(yè)領(lǐng)域的共同提振。
融合物理世界和數(shù)字世界
說到大模型,就不能不說到ChatGPT。其發(fā)布瞬間點燃了產(chǎn)業(yè)領(lǐng)域的大模型之火,其后大量的科技公司“火上澆油”, 紛紛發(fā)布了各自的大模型。
與其他公司不同,早在2021年4月,華為云盤古大模型就已經(jīng)發(fā)布。在當年的世界人工智能大會上,華為云盤古超大規(guī)模預(yù)訓(xùn)練模型,就讓觀眾們通過多種交互方式,深切感受到它在中文語言處理方面的強大能力。
作為國內(nèi)首個全棧自主的AI大模型,華為云盤古大模型的目標很明確,它沒有沉溺于吟詩作對之類的風(fēng)花雪月當中,而是堅定地將重塑千行百業(yè)作為發(fā)展方向。
自從發(fā)布以來,華為云盤古大模型聚焦各類客戶所關(guān)注的核心問題,致力于深耕行業(yè),并為金融、政務(wù)、制造、礦山、氣象、鐵路等領(lǐng)域,打造了專屬和定制的行業(yè)大模型與能力集。
在華為開發(fā)者大會2023(Cloud)上,華為云盤古大模型迎來了又一次重大升級。在最新的3.0版本中,華為云盤古大模型不僅得到了能力的全方位提升,也首次在字面上明確了定位,即“為行業(yè)而生”。
作為一個面向行業(yè)的大模型,華為云盤古大模型3.0包括5+N+X三層架構(gòu),提供了滿足行業(yè)場景的多種技能,專注于具體的應(yīng)用場景和特定業(yè)務(wù),為客戶提供開箱即用的模型服務(wù)。
華為云盤古大模型的快速演進和迭代,得益于華為云AI的雄厚積淀。目前,華為云AI在各個行業(yè)已經(jīng)擁有上千個深度合作項目,這種來自一線的真實打拼和行業(yè)Know-How,為華為云盤古大模型的成長提供了充足的“養(yǎng)分”。
華為云盤古大模型在能力方面的不斷提升,也為華為云的產(chǎn)品服務(wù)帶來全面加持,華為云MetaStudio就是其中的一例。通過打造云上的數(shù)字內(nèi)容生產(chǎn)線,以及構(gòu)建以人為中心的全場景智慧化體驗,華為云MetaStudio加速了物理世界和數(shù)字世界的融合。
讓每個人實現(xiàn)數(shù)字人自由
通過盤古基礎(chǔ)大模型,華為云賦能MetaStudio數(shù)字內(nèi)容生產(chǎn)線,打造了盤古數(shù)字人大模型,提供模型生成和模型驅(qū)動兩大服務(wù),讓每個人都能實現(xiàn)數(shù)字人自由。
數(shù)字人(Digital Human/Meta Human),是運用數(shù)字技術(shù)創(chuàng)造出來的、與人類形象接近的數(shù)字化人物形象。起初,限于技術(shù)、成本等問題,數(shù)字人主要被用于垂直、專業(yè)的極少數(shù)領(lǐng)域之中。
得益于數(shù)字技術(shù)的快速進展,近幾年數(shù)字人的應(yīng)用范圍不斷擴大,開始被虛擬現(xiàn)實、教育、健康管理、智能客服等領(lǐng)域廣泛采用,產(chǎn)業(yè)化不斷加速,商業(yè)模式開始持續(xù)演變和多樣化。
即便如此,對于很多機構(gòu)和企業(yè)來說,數(shù)字人的制作與使用仍有著較高的門檻。如果只是玩票,以上的門檻之說可能并不成立,不過假如真的要數(shù)字人深入到生產(chǎn)、經(jīng)營和服務(wù)等領(lǐng)域,企業(yè)仍然面臨極高的難度。
按照華為云媒體服務(wù)產(chǎn)品部部長呂陽明的說法,MetaStudio數(shù)字內(nèi)容生產(chǎn)線就是“讓每個人實現(xiàn)數(shù)字人自由”,其中包含的建模、驅(qū)動、仿真、渲染等一系列流程,實現(xiàn)了低成本、低門檻、高效率、高擬真的數(shù)字人生產(chǎn)。
需要指出的是,華為云MetaStudio的數(shù)字人生產(chǎn),并不只是面向To B或是高精專領(lǐng)域,甚至可以包括個人應(yīng)用。打開腦洞設(shè)想一下,由于工作、學(xué)習(xí)等緣故,兒孫們往往無法常伴老人,這時候假如有一個兒孫形象的數(shù)字人時時陪伴,對于老人豈不是莫大的撫慰?
基于盤古大模型,華為云MetaStudio為新的數(shù)字人賦予了非常聰明的大腦。通過持續(xù)不斷的訓(xùn)練,數(shù)字人可以真正實現(xiàn)擬人化和個性化的對話,其能力也會得到同步的提升。
與此同時,由于端側(cè)的顯示技術(shù)逐漸增強,數(shù)字人的形象也越來越飽滿,越來越生動。在云側(cè)完成的數(shù)字人驅(qū)動、數(shù)字人形象的渲染,也會通過網(wǎng)絡(luò)推送到端側(cè),實現(xiàn)高質(zhì)量、高畫質(zhì)和高質(zhì)感的呈現(xiàn)。
數(shù)字未來成為現(xiàn)實
華為云在數(shù)字內(nèi)容方面的積累由來已久,不過早期主要還是圍繞視頻、圖片等內(nèi)容生產(chǎn)。在發(fā)展的過程中,華為云注意到,一些深刻的變化正在發(fā)生,相關(guān)產(chǎn)業(yè)的游戲規(guī)則也開始改弦易轍。
以影視業(yè)為例,我們現(xiàn)在可以看到的實拍內(nèi)容已經(jīng)不多了,呈現(xiàn)于眼前的大多是計算機制作。比如說《流浪地球2》、《阿凡達2》等大片,你甚至很難在其中分辨出實景拍攝的片段。
基于這些趨勢,華為云推出MetaStudio數(shù)字內(nèi)容生產(chǎn)線,在云上通過自動化和AI技術(shù),面向那些做數(shù)字內(nèi)容生產(chǎn)的行業(yè),實現(xiàn)自動化數(shù)字內(nèi)容的生產(chǎn)制作。
現(xiàn)在看來,數(shù)字內(nèi)容的生產(chǎn)實際上適用于所有行業(yè)。在我們奔向元宇宙的今天,對于千行百業(yè)而言,數(shù)字內(nèi)容已經(jīng)成為最基礎(chǔ)的能力之一,缺乏數(shù)字內(nèi)容的企業(yè),其靈魂也是不完整的。
在華為開發(fā)者大會2023(Cloud)的開幕式上,當干練靚麗的數(shù)字人徐徐向我們走來,說出“每一個開發(fā)者都了不起”,那一刻,那種發(fā)自內(nèi)心的感受很難僅僅用“驚艷”二字來形容……
確實驚艷,但是絕不止于此。此前,我們并非沒有見過數(shù)字人,但是很多時候它們往往是靜止或站立的,而且表情和手勢過于生硬,也就很難在情感上引起我們的真實共鳴。
華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線的做法可謂別出機杼,數(shù)字人驅(qū)動服務(wù)根據(jù)人臉部的136個特征點、10多個聲音特征點等關(guān)鍵特征點,生成了逼真的形象。
接下來,在云上傳輸數(shù)據(jù)時,華為云MetaStudio只傳輸特征點數(shù)據(jù),而不是原始的音視頻數(shù)據(jù),因此帶寬需求就降低了1000倍以上,即便是在上行50K的弱網(wǎng)環(huán)境下,也可以實現(xiàn)4K 60fps的數(shù)字人會議體驗,讓傳統(tǒng)的交流從“0101的比特傳輸”,走向“有溫度的模型交互”。
當前,華為云MetaStudio在國內(nèi)已經(jīng)實現(xiàn)了廣泛的合作與落地。在長沙馬欄山、北京石景山VR/AR基地,華為云MetaStudio已經(jīng)進入到綜藝節(jié)目、影視音樂制作等領(lǐng)域;在深圳龍崗、浙江溫州等地,華為云MetaStudio也進入到工業(yè)設(shè)計、服裝設(shè)計等領(lǐng)域……
一同開啟創(chuàng)意的小宇宙吧!很快你就會發(fā)現(xiàn),華為云MetaStudio讓那些我們曾經(jīng)構(gòu)想的瑰麗數(shù)字未來,正在逐漸變?yōu)楝F(xiàn)實。