2022年底,智能聊天機器人程序ChatGPT一經推出便風靡全網;不久后的2023年3月,AI繪圖工具Midjourney V5及其作品也在全球范圍引起不小的轟動,各行各業(yè)的“游戲規(guī)則”也開始因AI悄然發(fā)生變革。
AI技術發(fā)展的日新月異,似乎瞬間將繪畫、攝影、動畫、影視劇等在內的影像行業(yè),帶入了一個全新的創(chuàng)作時代。
2024年6月21日,華為開發(fā)者大會2024(HDC 2024)在廣東東莞舉行,會上華為云重磅發(fā)布了盤古大模型5.0,其中展示的媒體大模型,在實拍轉繪、影像譯制和語音生成以及AI多語種實時翻譯三個方面進行了技術創(chuàng)新,這讓處在AI時代下深刻變革的國內影像行業(yè),在未知挑戰(zhàn)中迎來更多機遇。
這些AI新技術和新工具無疑潛力深厚,眾多影像從業(yè)者或許因此實現以往無法完成的視覺創(chuàng)作,發(fā)掘出影像內容生產和應用的更多創(chuàng)新模式。
實拍視頻,轉繪生成多風格動畫
AI生成的視頻技術正在革新我們的視覺體驗,為動漫、視頻行業(yè)帶來新的想象。在視頻生成方面,華為云盤古媒體大模型通過訓練幾十張?zhí)囟缹W風格的圖片,如吉卜利、二次元等風格,輸入實拍視頻即可快速生成該風格的動漫視頻,實現按需時長生成穩(wěn)定的動漫視頻,這為動漫的生產提供了新的模式。
在之前,視頻生成技術在動漫視頻生成時,都是按每一幀畫面進行風格化,然后重新串聯(lián)成視頻。由于AI轉換的不確定性,容易出現角色前后特征發(fā)生變化,變成另外一個人,或者在人物運動、轉身、側臉等情況下細節(jié)特征發(fā)生變化。
盤古媒體大模型通過ID一致性模型,對生成畫面中的關鍵角色進行一致性處理,保持視頻中角色樣貌特征前后始終一致,在側臉、運動軌跡下的視覺效果同樣合理一致。并且,視頻中的關鍵道具也能保持前后一致性。這種可控的視頻生成技術,更容易滿足真正的工業(yè)場景應用需求。
例如,在第十四屆北京國際電影節(jié)“AIGC電影短片單元”競賽中獲得最佳影片獎的AI動畫短片《致親愛的自己》,由中國傳媒大學動畫與數字藝術學院及Ainimate Lab在華為云的支持下共創(chuàng)生成。
在這支作品中,有大量、大幅度舞蹈動作,人物與鏡頭運動軌跡大,基于ID一致性模型,人物的面部輪廓、發(fā)型、五官等樣貌特征始終保持穩(wěn)定生成、一致,所以觀眾能看出前后一直是同一個人。同時視頻中的關鍵道具蒲公英造型戒指,也在多個畫面中保持一致。

《致親愛的自己》AI動畫短片畫面
另外,當前很多AI影片的不足之處,在于故事情節(jié)多依靠旁白串聯(lián)全篇,片中主人公的微動作和表情幾乎都無法表現。這種AI視覺敘事能力的缺失,讓人物失去了情緒表演的遞進和感染力,觀眾無法與之共情,所以故事的深刻和細膩很難傳達出來。
基于這個問題,華為云基于MetaStudio的一站式云上數字內容生產平臺能力,讓影片內容生產方式發(fā)生質的躍遷,比如這項技術可以嚴格要求演員表情細節(jié)、肢體動作細節(jié),能在最關鍵的幾個要傳達情緒的鏡頭里,把角色的表情保留下來,保證作品故事信息有效傳遞。

《致親愛的自己》AI動畫短片 “實拍轉繪”制作流程示意圖
影像譯制,智能實現音唇同步
講好中國故事、傳播好中國聲音,展示真實、立體、全面的中國,是加強我國國際傳播能力建設的重要任務。
近年來,憑借豐富題材、新穎視角和獨特風格,我國的影視、短劇出海需求愈加旺盛。但傳統(tǒng)的視頻譯制,需要配音演員熟悉翻譯后的臺詞、體會角色情感,再對視頻進行目標語種的重新配音。因此,影片質量完全取決于配音演員的專業(yè)能力,而且角色原先的聲音和情感都會被重塑。并且,受限于人工譯制成本高,影片的質量也參差不齊,產能有限。
但通過媒體大模型提供的視頻翻譯能力,用AI能將視頻翻譯為目標語言,并且影片中原始角色的音色、情感、語氣可以完好保留;并且除中英譯制外,聯(lián)合邏輯智能伙伴的能力,可以實現韓語、法語、德語、西語、泰語、阿語等15種語言的譯制,并達到影視級譯制效果。除了聲音外,通過媒體大模型的口型驅動模型,可以實現音唇同步,給觀眾帶來更好的觀看體驗。尤其是當影片中人物處于側面、多人對話、物體遮擋以及移動等場景,也能做到很好的口型匹配。
正如華為云與中影集團合作,將媒體大模型應用到了影視工業(yè),共同打造出影視譯制大模型,通過AI將視頻譯制成不同語言,支持口型匹配的同時保留了原始角色的音色、情感、語氣,為影片譯制提供了全新的AI制作方式。華為云媒體大模型的視頻譯制能力,更為影視、短劇出海提供了一種新的生產力工具,更好地實現內容高效、高質量的供給。
另外,在語音生成方面,媒體大模型重塑了個性化語音生成以及情感化。個性化語音在很多行業(yè)場景中已經廣泛使用,例如數字人、有聲書配音、培訓課程制作、虛擬NPC等。傳統(tǒng)的聲音克隆模型都是小模型,需要幾百句話的錄音,通過人工標注,反復訓練提取音色。
基于媒體大模型語音生成能力,只需要幾句話、幾秒鐘的聲音,即可學習到個性化的音色、語調、表達韻律,從而獲得高質量的個性化語音。同時,這項技術支持喜怒哀樂等擬人情感語音,支持閑聊、新聞、直播等10多種語氣風格,讓生成的語音更擬真,更具情感,符合更多場景所需。
華為云盤古媒體大模型-AI譯制視頻《無盡攀登》
AI精準翻譯,打破多語種實時溝通障礙
AI大模型輔助語言的翻譯不僅應用在影視行業(yè),對于人們的日常交流、工作也有著重要的意義。在AI翻譯方面,媒體大模型可以通過AI實現多語種實時傳譯,準確性大于93%。這項技術可應用于實時通話、云會議等需要實時翻譯的場景,重塑了跨語言溝通體驗。并且,基于大模型的語音復刻、AI文字翻譯以及TTS技術(文語轉換技術),可以實現語音的同聲傳譯。通過這項技術,每個人跨語言溝通時都可以用自己的母語說話,聽的時候選擇自己的母語收聽,AI就會將每個人的發(fā)言以預置聲音或者真人的聲音翻譯為收聽語言,實現跨語言母語溝通體驗。結合數字人技術,在人們不方便開攝像頭時,還可以用數字人參會,并通過口型驅動實現數字人以各種語言說話且都能精準匹配口型,就如同本人說話一樣。
如今,像華為云盤古媒體大模型這類AI相關技術和應用工具的迅速發(fā)展和普及,深刻影響著影像工業(yè)制作流程,更讓一些影像從業(yè)者從新技術的誕生中獲得創(chuàng)作的新啟發(fā)、新認知和新創(chuàng)意。或許,更善于與AI打交道的影像藝術家,將在未來創(chuàng)作中獲得更有力的輔助和更創(chuàng)新的影像創(chuàng)作模式。