.png)
.png)
研究方向
媒體創(chuàng)新Lab秉承開(kāi)發(fā)共贏的理念,愿意與學(xué)術(shù)界和工業(yè)界各位精英就以下研究方向合作,如有意向請(qǐng)聯(lián)系MediaInnovLab@huawei.com。
-
軟件視頻編解碼
云視頻業(yè)務(wù)的快速發(fā)展,視頻呈現(xiàn)出了新的形式, 場(chǎng)景越來(lái)越豐富,分辨率越來(lái)越高,互動(dòng)性越來(lái)越強(qiáng),接入端靈活多樣,而視頻編解碼作為視頻核心技術(shù),也面臨著時(shí)延、碼率、功耗等挑戰(zhàn)。研究業(yè)界領(lǐng)先的軟件視頻編解碼技術(shù), AI內(nèi)容感知,軟硬結(jié)合,靈活部署,為云上各種視頻業(yè)務(wù)場(chǎng)景提供低碼率、低功耗、 低時(shí)延和高質(zhì)量的視頻編解碼算法。
-
媒體處理
視頻作為未來(lái)云廠商最大的流量載體,極致的體驗(yàn),極低的成本是各廠商競(jìng)爭(zhēng)的高地,需要借助AI能力來(lái)不斷優(yōu)化算法, 保持算法的持續(xù)領(lǐng)先。研究跨終端,輕量級(jí)的媒體處理算法,如音視頻去噪、超分辨率、超幀率、細(xì)節(jié)增強(qiáng)、色彩優(yōu)化、光線矯正、花屏修復(fù)、抖動(dòng)矯正等,來(lái)提升云視頻體驗(yàn)和競(jìng)爭(zhēng)力。
-
硬件視頻編解碼
海量且多樣的計(jì)算資源是云的顯著特點(diǎn)和巨大優(yōu)勢(shì),CPU、GPU、專業(yè)轉(zhuǎn)碼卡、FPGA等都提供了不同程度的編碼能力和AI計(jì)算能力。開(kāi)發(fā)適合云原生場(chǎng)景的硬件編解碼算法,研究AI增強(qiáng)編碼算法,以及探索異構(gòu)編碼算力的部署方法,充分釋放云上異構(gòu)編碼能力,顯著降低編碼時(shí)延和編碼成本,提高用戶體驗(yàn)。
-
體驗(yàn)建模
通過(guò)自動(dòng)化QoE建模技術(shù)對(duì)實(shí)時(shí)互動(dòng)云媒體應(yīng)用的用戶體驗(yàn)進(jìn)行評(píng)估,旨在為各應(yīng)用提供體驗(yàn)調(diào)優(yōu)指導(dǎo)和質(zhì)差定位
-
傳輸優(yōu)化
面向高通量、低時(shí)延的實(shí)時(shí)互動(dòng)云媒體應(yīng)用,研究實(shí)時(shí)互動(dòng)業(yè)務(wù)的端到端體驗(yàn)優(yōu)化的關(guān)鍵技術(shù)(擁塞控制算法,前向糾錯(cuò)算法,編傳聯(lián)動(dòng)算法,接收端抖動(dòng)緩沖區(qū),編碼SVC與SFU抽幀聯(lián)動(dòng)),旨在復(fù)雜多變的網(wǎng)絡(luò)環(huán)境中,保證用戶在不同環(huán)境下的極致體驗(yàn)。
-
光線追蹤
實(shí)時(shí)光線追蹤技術(shù)帶來(lái)了逼真的光影,將渲染技術(shù)帶入了下一個(gè)世代。云上光線追蹤不再受限于算力限制,帶來(lái)了新的想象空間。我們研究光線追蹤的軟硬件算法,提升實(shí)時(shí)光追的效果與效率。具體而言,研究方向包括:光線求交、采樣算法,PBR材質(zhì),全局光照算法(反射、折射、陰影、AO、動(dòng)態(tài)GI等),以及后處理算法、神經(jīng)網(wǎng)絡(luò)輔助加速等。
-
分布式渲染
構(gòu)建與運(yùn)行數(shù)字化虛擬世界需要海量的計(jì)算資源,云成為了最好的載體。我們希望通過(guò)云上分布式圖形計(jì)算資源,使得超大數(shù)字虛擬世界彈性可擴(kuò)展的運(yùn)行,在多用戶間充分共享計(jì)算結(jié)果。具體而言,我們研究的軟硬件技術(shù)包括:表面光場(chǎng),預(yù)計(jì)算輻射傳輸 (PRT),著色重用 (shading reuse),高幾何細(xì)節(jié)(high geometry details),并行處理,多GPU體系架構(gòu)等。
-
XR混合現(xiàn)實(shí)
混合現(xiàn)實(shí)是“元宇宙”最重要的體驗(yàn)方式,通過(guò)云與終端的配合,可以極大的解放端側(cè)設(shè)備的算力與功耗。我們研究通過(guò)云與XR終端設(shè)備的配合,將虛實(shí)世界無(wú)縫融合。具體而言,研究方向包括:人體數(shù)字化身的生成、驅(qū)動(dòng)與傳輸技術(shù) (digital avatar),端云協(xié)同渲染技術(shù)(collaborative rendering),XR現(xiàn)場(chǎng)合作的空間錨定技術(shù)(spatial anchor),支持多人交互的虛擬場(chǎng)景管理技術(shù)(virtual scene management)。
-
數(shù)字人
媒體產(chǎn)業(yè)正在由傳統(tǒng)音視頻演進(jìn)到數(shù)字內(nèi)容,而以虛擬分身、IP型數(shù)字人、服務(wù)型數(shù)字人為代表的各類(lèi)數(shù)字人,正在成為各行各業(yè)中數(shù)字世界的入口。為了全方位構(gòu)建“皮形魂”兼?zhèn)涞闹悄芑?、高保真、可成長(zhǎng)型數(shù)字人,讓數(shù)字人生于云、長(zhǎng)于云,就必須整合當(dāng)今最前沿的人工智能、計(jì)算機(jī)圖形、視覺(jué)生成大模型等技術(shù)。具體而言,研究方向包括:生成式人工智能、計(jì)算成像、三維視覺(jué)、材質(zhì)紋理生成重建、多模態(tài)數(shù)字人生成垂域模型、數(shù)字形象編輯控制、數(shù)字人自主演化和智能交互等。
-
實(shí)時(shí)高保真多物理仿真
研究物理仿真根技術(shù),實(shí)現(xiàn)虛擬世界中的各種物理對(duì)象的實(shí)時(shí)高保真仿真,支撐剛體、軟體、流體、人體、布料、頭發(fā)和肌肉等物理對(duì)象的可交互、高保真和實(shí)時(shí)仿真,達(dá)到“影視的效果,游戲的速度”??蓱?yīng)用于數(shù)字人、機(jī)器人和數(shù)字孿生城市等物理仿真。
-
神經(jīng)物理仿真
研究基于AI預(yù)測(cè)來(lái)替代物理計(jì)算的神經(jīng)物理仿真技術(shù),解決控制方程過(guò)于復(fù)雜的物理計(jì)算難題,極大提高物理仿真速度。充分利用云多元算力,訓(xùn)練形成多類(lèi)通用神經(jīng)物理仿真AI模型,實(shí)現(xiàn)時(shí)空算力復(fù)用。
-
分布式物理仿真
研究分布式多節(jié)點(diǎn)、多GPU的物理仿真技術(shù),實(shí)現(xiàn)單機(jī)多種物理仿真算法的分布式化和多節(jié)點(diǎn)耦合交互,實(shí)現(xiàn)超大規(guī)模虛擬物理世界(如數(shù)字孿生城市等)的快速精準(zhǔn)仿真,為元宇宙的實(shí)現(xiàn)打下基石。
-
基于物理仿真的深度強(qiáng)化學(xué)習(xí)訓(xùn)練
研究基于物理仿真的深度強(qiáng)化學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)虛擬仿真環(huán)境中的智能體與環(huán)境交互循環(huán)的學(xué)習(xí)算法,實(shí)現(xiàn)大規(guī)模并行環(huán)境中的計(jì)算完全統(tǒng)一,實(shí)現(xiàn)云多元算力加速,加速如云機(jī)器人運(yùn)動(dòng)和操控、數(shù)字人動(dòng)作學(xué)習(xí)等任務(wù)的高性能策略訓(xùn)練。
-
AIGC物理
研究基于AI的物理內(nèi)容生成技術(shù)AIGC-4D,基于AI和場(chǎng)景描述輸入快速生成符合三維仿真世界中的場(chǎng)景和對(duì)象,并賦予時(shí)間維度遵循物理規(guī)律的持續(xù)運(yùn)動(dòng)。
-
物理引擎應(yīng)用技術(shù)
研究基于云物理引擎的典型應(yīng)用關(guān)鍵技術(shù),如空間計(jì)算中的物理仿真、數(shù)字人仿真、機(jī)器人仿真、數(shù)字孿生和AIGC-4D等,端到端打通云物理引擎的開(kāi)發(fā)環(huán)境與應(yīng)用生態(tài)。
-
光籠超寫(xiě)實(shí)數(shù)字人重建
基于光籠(Light Stage)進(jìn)行超寫(xiě)實(shí)數(shù)字人制作是業(yè)界的主流實(shí)踐。我們通過(guò)研究高精度幾何重建、自動(dòng)材質(zhì)解算以及基于可微渲染的主動(dòng)式反饋系統(tǒng),構(gòu)建從采集、重建到可視化的自動(dòng)化流程,實(shí)現(xiàn)高效率、高質(zhì)量的數(shù)字人采集。
-
基于單張照片的數(shù)字人三維重建
基于影視級(jí)人臉三維重建的積累,實(shí)現(xiàn)基于單張照片的自動(dòng)化建模,還原真實(shí)人臉的幾何和材質(zhì)貼圖,兼容各類(lèi)驅(qū)動(dòng)算法??蓱?yīng)用于C端3D數(shù)字化身的快速生成,在元宇宙中進(jìn)行社交、娛樂(lè)等活動(dòng)。
-
高逼真數(shù)字人渲染
研究數(shù)字人的高逼真實(shí)時(shí)高效渲染方案。數(shù)字人既需要對(duì)皮膚、毛發(fā)、服裝布料、配飾等復(fù)雜材質(zhì)進(jìn)行高效建模,并且需要高效支持次表面散射、軟陰影、色溢、全局光照等復(fù)雜光傳輸效果。通過(guò)構(gòu)建實(shí)時(shí)、離線、神經(jīng)混合等多種渲染管線,支持不同應(yīng)用場(chǎng)景的數(shù)字人渲染需求。
-
2D 數(shù)字人生成大模型
研究基于生成式大模型的2D數(shù)字人形象生成及編輯技術(shù),支持文本、圖片等多模態(tài)的用戶輸入和多種風(fēng)格的形象輸出,實(shí)現(xiàn)豐富、靈活和精確的數(shù)字人形象編輯??捎糜谡掌?qū)動(dòng)數(shù)字人、數(shù)字人會(huì)議、證件照生成器等一系列應(yīng)用場(chǎng)景。
-
3D 數(shù)字人生成大模型
AIGC-3D是目前學(xué)術(shù)界和業(yè)界的前沿?zé)狳c(diǎn)問(wèn)題,3D數(shù)據(jù)短缺及3D數(shù)據(jù)的高維復(fù)雜性導(dǎo)致AIGC-3D充滿挑戰(zhàn)。我們通過(guò)研究CV/CG融合策略,構(gòu)建3D數(shù)字人幾何、PBR材質(zhì)生成大模型,支持基于文本生成多樣化的3D數(shù)字人形象。得益于CG管線兼容的數(shù)字人資產(chǎn)表示(網(wǎng)格+PBR材質(zhì)貼圖表達(dá)),生成的3D數(shù)字人支持自動(dòng)綁定、表情和身體驅(qū)動(dòng)。
-
數(shù)字人AIGV
研究基于生成式人工智能的數(shù)字人視頻生成和編輯技術(shù),以AI生成式大模型為基礎(chǔ),引入人臉/人體參數(shù)化模型的先驗(yàn)信息作為控制信號(hào),實(shí)現(xiàn)基于表情驅(qū)動(dòng)和動(dòng)作驅(qū)動(dòng)的數(shù)字人視頻生成和編輯技術(shù)技術(shù)??蓱?yīng)用于數(shù)字人虛擬試衣、數(shù)字人直播等多種商用場(chǎng)景。
-
3D數(shù)字人形象編輯
針對(duì)3D數(shù)字人形象編輯門(mén)檻高的難點(diǎn),研究包含高層次語(yǔ)義編輯、可控貼紙融合、智能上妝、AI幾何捏臉等功能模塊在內(nèi)的統(tǒng)一編輯框架,實(shí)現(xiàn)面向普通用戶的低門(mén)檻、高寫(xiě)實(shí)、多樣化的3D數(shù)字人編輯,可用于照片建模、3D數(shù)字人生成、光籠重建等多來(lái)源形象的二次編輯和定制。