真人聲音錄制
客戶錄制真人音頻,上傳至MetaStudio進行AI訓練,即可得到和真人音色1:1復刻的聲音模型。
聲音模型可實現(xiàn)文本轉(zhuǎn)語音,應用于數(shù)字人視頻制作、直播、交互問答等場景中。不同版本錄制規(guī)格如下:
- 基礎版:20句,每個音頻文件時長約10秒。音頻總時長為3~10分鐘,建議5分鐘。
- 進階版:100句,每個音頻文件時長約10秒。音頻總時長10~30分鐘,建議15分鐘。
- 高品質(zhì):300-500句,每個音頻文件時長約10秒。音頻總時長1小時以上,建議1小時。
原聲錄制音頻和其對應生成的音色播報示例,如試聽音頻樣例所示。
錄音準備
錄音準備
錄制設備和軟件
優(yōu)先使用專業(yè)錄音設備錄制音頻,推薦使用Adobe Audition軟件進行錄音。
如果不具備專業(yè)錄音設備,可使用手機錄制音頻,詳情請參見手機錄制音頻。
優(yōu)先使用專業(yè)錄音設備錄制音頻,推薦使用Adobe Audition軟件進行錄音。
如果不具備專業(yè)錄音設備,可使用手機錄制音頻,詳情請參見手機錄制音頻。
專業(yè)錄音棚+高保真MIC錄制。
錄音環(huán)境
- 錄音環(huán)境安靜,無回音、混響、噪聲,避免出現(xiàn)汽車鳴笛、他人說話、走動等雜聲。
- 可使用“分貝儀”應用來測試錄音環(huán)境的底噪,建議底噪低于0dB。
- 同一批錄音必須使用同一套錄制設備和環(huán)境。
- 錄音環(huán)境安靜,無回音、混響、噪聲,避免出現(xiàn)汽車鳴笛、他人說話、走動等雜聲。
- 可使用“分貝儀”應用來測試錄音環(huán)境的底噪,建議底噪低于0dB。
- 同一批錄音必須使用同一套錄制設備和環(huán)境。
- 錄音環(huán)境安靜,無回音、混響、噪聲,避免出現(xiàn)汽車鳴笛、他人說話、走動等雜聲。
- 可使用“分貝儀”應用來測試錄音環(huán)境的底噪,建議底噪低于0dB。
- 同一批錄音必須使用同一套錄制設備和環(huán)境。
錄音文案
建議使用對應版本預置的文案樣例:文案樣例(基礎版)、文案樣例(進階版)、文案樣例(高品質(zhì))。
支持自定義文案,單句文案長短需和樣例相當。
每個音頻文件時長為5~15秒,不能超過15秒,否則會導致聲音模型訓練失敗。
不建議臨場即興發(fā)揮錄制,避免出現(xiàn)較多嗯、啊的語氣詞,影響連貫性。
建議使用對應版本預置的文案樣例:文案樣例(基礎版)、文案樣例(進階版)、文案樣例(高品質(zhì))。
支持自定義文案,單句文案長短需和樣例相當。
每個音頻文件時長為5~15秒,不能超過15秒,否則會導致聲音模型訓練失敗。
不建議臨場即興發(fā)揮錄制,避免出現(xiàn)較多嗯、啊的語氣詞,影響連貫性。
建議使用對應版本預置的文案樣例:文案樣例(基礎版)、文案樣例(進階版)、文案樣例(高品質(zhì))。
支持自定義文案,單句文案長短需和樣例相當。
每個音頻文件時長為5~15秒,不能超過15秒,否則會導致聲音模型訓練失敗。
不建議臨場即興發(fā)揮錄制,避免出現(xiàn)較多嗯、啊的語氣詞,影響連貫性。
開始錄音
開始錄音
說明
調(diào)整與麥克風之間的距離,以一拳距離為宜。不宜離麥太近,防止噴麥或錄入呼吸聲。
每句文案起始數(shù)字編號無需閱讀。
示例:4. 它不僅擁有出色的功能,還具備卓越的性能,序號4無需閱讀。
推薦使用無損音質(zhì)格式保存音頻文件,如WAV格式。
原始錄音數(shù)據(jù),需未經(jīng)MP3等編碼器編碼,且為48kHz采樣率、16bit編碼和單聲道。
全程風格保持一致。如直播場景時,錄制風格需接近日常直播效果。
發(fā)音吐字清晰、準確,音量適中。如果出現(xiàn)噴麥或嘶嘶聲音,建議當前句子重新錄制。
語速自然、平穩(wěn),切忌過快過慢、忽快忽慢。
音量不能過小、過大、或忽大忽小,甚至削波爆音。峰值RMS在-9左右,無削波
在標點或適當斷句處自然停頓,需輕聲換氣。
如果錄制一個長音頻文件時,每句之間需要有2~3秒的停頓。
重音位置要合理,避免錯誤的重音。
按順序讀,確保音字一致。避免漏字多字、發(fā)音錯誤、閱讀不流暢等問題。如有這些問題,需整句重新錄制。
(推薦)方式一:整段錄制
所有語料錄制成一個長音頻WAV文件,每句之間需要有2~3秒的停頓。直接上傳MetaStudio控制臺,無需壓縮,無需提供語料txt文件。
推薦使用服務預置語料,也可自定義語料。系統(tǒng)會自動根據(jù)停頓做切割,自動進行文本識別。
方式二:使用預置語料按句錄制
每個音頻文件時長約10秒,不能超過15秒,否則會導致聲音模型訓練失敗。
使用預置語料,創(chuàng)建聲音制作任務的時候,必須選對聲音標簽。并將所有音頻文件壓縮成一個zip文件,示例如圖1所示。系統(tǒng)會自動匹配預置文本。
方式三:使用自定義語料按句錄制
每個音頻文件時長為5~15秒,不能超過15秒,否則會導致聲音模型訓練失敗。
每個音頻文件需要匹配一個文本txt文件,且音頻內(nèi)容必須與文本內(nèi)容完全一致,示例如圖2所示。系統(tǒng)會自動使用傳入的文本匹配音頻。
制作聲音模型
準備好音頻文件后,就可以上傳至MetaStudio控制臺,進行聲音訓練。詳細操作如下所示:
聲音模型制作耗時,如下所示:
基礎版:約1~3個工作日。
進階版:約1~3個工作日。
高品質(zhì):約5個工作日。
自定義聲音應用方式,如下所示:
自定義聲音生成后,會自動展示在MetaStudio控制臺聲音列表中,可用于分身數(shù)字人視頻制作、視頻直播或智能交互等場景中。
通過MetaStudio的API調(diào)用自定義聲音。