真人聲音錄制

客戶錄制真人音頻，上傳至MetaStudio進(jìn)行AI訓(xùn)練，即可得到和真人音色1:1復(fù)刻的聲音模型。

聲音模型可實(shí)現(xiàn)文本轉(zhuǎn)語(yǔ)音，應(yīng)用于數(shù)字人視頻制作、直播、交互問(wèn)答等場(chǎng)景中。不同版本錄制規(guī)格如下：

基礎(chǔ)版：20句，每個(gè)音頻文件時(shí)長(zhǎng)約10秒。音頻總時(shí)長(zhǎng)為3~10分鐘，建議5分鐘。
進(jìn)階版：100句，每個(gè)音頻文件時(shí)長(zhǎng)約10秒。音頻總時(shí)長(zhǎng)10~30分鐘，建議15分鐘。
高品質(zhì)：300-500句，每個(gè)音頻文件時(shí)長(zhǎng)約10秒。音頻總時(shí)長(zhǎng)1小時(shí)以上，建議1小時(shí)。

原聲錄制音頻和其對(duì)應(yīng)生成的音色播報(bào)示例，如試聽(tīng)音頻樣例所示。

錄音準(zhǔn)備

聲音類型

錄制設(shè)備和軟件

錄音環(huán)境

錄音文案

基礎(chǔ)版

優(yōu)先使用專業(yè)錄音設(shè)備錄制音頻，推薦使用Adobe Audition軟件進(jìn)行錄音。

如果不具備專業(yè)錄音設(shè)備，可使用手機(jī)錄制音頻，詳情請(qǐng)參見(jiàn)手機(jī)錄制音頻。

錄音環(huán)境安靜，無(wú)回音、混響、噪聲，避免出現(xiàn)汽車?guó)Q笛、他人說(shuō)話、走動(dòng)等雜聲。
可使用“分貝儀”應(yīng)用來(lái)測(cè)試錄音環(huán)境的底噪，建議底噪低于0dB。
同一批錄音必須使用同一套錄制設(shè)備和環(huán)境。

建議使用對(duì)應(yīng)版本預(yù)置的文案樣例：文案樣例（基礎(chǔ)版）、文案樣例（進(jìn)階版）、文案樣例（高品質(zhì)）。

支持自定義文案，單句文案長(zhǎng)短需和樣例相當(dāng)。

每個(gè)音頻文件時(shí)長(zhǎng)為5~15秒，不能超過(guò)15秒，否則會(huì)導(dǎo)致聲音模型訓(xùn)練失敗。

不建議臨場(chǎng)即興發(fā)揮錄制，避免出現(xiàn)較多嗯、啊的語(yǔ)氣詞，影響連貫性。

進(jìn)階版

優(yōu)先使用專業(yè)錄音設(shè)備錄制音頻，推薦使用Adobe Audition軟件進(jìn)行錄音。

如果不具備專業(yè)錄音設(shè)備，可使用手機(jī)錄制音頻，詳情請(qǐng)參見(jiàn)手機(jī)錄制音頻。

錄音環(huán)境安靜，無(wú)回音、混響、噪聲，避免出現(xiàn)汽車?guó)Q笛、他人說(shuō)話、走動(dòng)等雜聲。
可使用“分貝儀”應(yīng)用來(lái)測(cè)試錄音環(huán)境的底噪，建議底噪低于0dB。
同一批錄音必須使用同一套錄制設(shè)備和環(huán)境。

建議使用對(duì)應(yīng)版本預(yù)置的文案樣例：文案樣例（基礎(chǔ)版）、文案樣例（進(jìn)階版）、文案樣例（高品質(zhì)）。

支持自定義文案，單句文案長(zhǎng)短需和樣例相當(dāng)。

每個(gè)音頻文件時(shí)長(zhǎng)為5~15秒，不能超過(guò)15秒，否則會(huì)導(dǎo)致聲音模型訓(xùn)練失敗。

不建議臨場(chǎng)即興發(fā)揮錄制，避免出現(xiàn)較多嗯、啊的語(yǔ)氣詞，影響連貫性。

高品質(zhì)

專業(yè)錄音棚+高保真MIC錄制。

錄音環(huán)境安靜，無(wú)回音、混響、噪聲，避免出現(xiàn)汽車?guó)Q笛、他人說(shuō)話、走動(dòng)等雜聲。
可使用“分貝儀”應(yīng)用來(lái)測(cè)試錄音環(huán)境的底噪，建議底噪低于0dB。
同一批錄音必須使用同一套錄制設(shè)備和環(huán)境。

建議使用對(duì)應(yīng)版本預(yù)置的文案樣例：文案樣例（基礎(chǔ)版）、文案樣例（進(jìn)階版）、文案樣例（高品質(zhì)）。

支持自定義文案，單句文案長(zhǎng)短需和樣例相當(dāng)。

每個(gè)音頻文件時(shí)長(zhǎng)為5~15秒，不能超過(guò)15秒，否則會(huì)導(dǎo)致聲音模型訓(xùn)練失敗。

不建議臨場(chǎng)即興發(fā)揮錄制，避免出現(xiàn)較多嗯、啊的語(yǔ)氣詞，影響連貫性。

錄制設(shè)備和軟件

優(yōu)先使用專業(yè)錄音設(shè)備錄制音頻，推薦使用Adobe Audition軟件進(jìn)行錄音。

如果不具備專業(yè)錄音設(shè)備，可使用手機(jī)錄制音頻，詳情請(qǐng)參見(jiàn)手機(jī)錄制音頻。

優(yōu)先使用專業(yè)錄音設(shè)備錄制音頻，推薦使用Adobe Audition軟件進(jìn)行錄音。

如果不具備專業(yè)錄音設(shè)備，可使用手機(jī)錄制音頻，詳情請(qǐng)參見(jiàn)手機(jī)錄制音頻。

專業(yè)錄音棚+高保真MIC錄制。

錄音環(huán)境

錄音環(huán)境安靜，無(wú)回音、混響、噪聲，避免出現(xiàn)汽車?guó)Q笛、他人說(shuō)話、走動(dòng)等雜聲。
可使用“分貝儀”應(yīng)用來(lái)測(cè)試錄音環(huán)境的底噪，建議底噪低于0dB。
同一批錄音必須使用同一套錄制設(shè)備和環(huán)境。

錄音環(huán)境安靜，無(wú)回音、混響、噪聲，避免出現(xiàn)汽車?guó)Q笛、他人說(shuō)話、走動(dòng)等雜聲。
可使用“分貝儀”應(yīng)用來(lái)測(cè)試錄音環(huán)境的底噪，建議底噪低于0dB。
同一批錄音必須使用同一套錄制設(shè)備和環(huán)境。

錄音環(huán)境安靜，無(wú)回音、混響、噪聲，避免出現(xiàn)汽車?guó)Q笛、他人說(shuō)話、走動(dòng)等雜聲。
可使用“分貝儀”應(yīng)用來(lái)測(cè)試錄音環(huán)境的底噪，建議底噪低于0dB。
同一批錄音必須使用同一套錄制設(shè)備和環(huán)境。

錄音文案

建議使用對(duì)應(yīng)版本預(yù)置的文案樣例：文案樣例（基礎(chǔ)版）、文案樣例（進(jìn)階版）、文案樣例（高品質(zhì)）。

支持自定義文案，單句文案長(zhǎng)短需和樣例相當(dāng)。

每個(gè)音頻文件時(shí)長(zhǎng)為5~15秒，不能超過(guò)15秒，否則會(huì)導(dǎo)致聲音模型訓(xùn)練失敗。

不建議臨場(chǎng)即興發(fā)揮錄制，避免出現(xiàn)較多嗯、啊的語(yǔ)氣詞，影響連貫性。

建議使用對(duì)應(yīng)版本預(yù)置的文案樣例：文案樣例（基礎(chǔ)版）、文案樣例（進(jìn)階版）、文案樣例（高品質(zhì)）。

支持自定義文案，單句文案長(zhǎng)短需和樣例相當(dāng)。

每個(gè)音頻文件時(shí)長(zhǎng)為5~15秒，不能超過(guò)15秒，否則會(huì)導(dǎo)致聲音模型訓(xùn)練失敗。

不建議臨場(chǎng)即興發(fā)揮錄制，避免出現(xiàn)較多嗯、啊的語(yǔ)氣詞，影響連貫性。

建議使用對(duì)應(yīng)版本預(yù)置的文案樣例：文案樣例（基礎(chǔ)版）、文案樣例（進(jìn)階版）、文案樣例（高品質(zhì)）。

支持自定義文案，單句文案長(zhǎng)短需和樣例相當(dāng)。

每個(gè)音頻文件時(shí)長(zhǎng)為5~15秒，不能超過(guò)15秒，否則會(huì)導(dǎo)致聲音模型訓(xùn)練失敗。

不建議臨場(chǎng)即興發(fā)揮錄制，避免出現(xiàn)較多嗯、啊的語(yǔ)氣詞，影響連貫性。

開(kāi)始錄音

錄音事項(xiàng)

說(shuō)明

話筒間距

調(diào)整與麥克風(fēng)之間的距離，以一拳距離為宜。不宜離麥太近，防止噴麥或錄入呼吸聲。

錄音內(nèi)容

每句文案起始數(shù)字編號(hào)無(wú)需閱讀。

示例：4. 它不僅擁有出色的功能，還具備卓越的性能，序號(hào)4無(wú)需閱讀。

音頻格式

推薦使用無(wú)損音質(zhì)格式保存音頻文件，如WAV格式。

原始錄音數(shù)據(jù)，需未經(jīng)MP3等編碼器編碼，且為48kHz采樣率、16bit編碼和單聲道。

錄制風(fēng)格

全程風(fēng)格保持一致。如直播場(chǎng)景時(shí)，錄制風(fēng)格需接近日常直播效果。

發(fā)音吐字

發(fā)音吐字清晰、準(zhǔn)確，音量適中。如果出現(xiàn)噴麥或嘶嘶聲音，建議當(dāng)前句子重新錄制。

語(yǔ)速節(jié)奏

語(yǔ)速自然、平穩(wěn)，切忌過(guò)快過(guò)慢、忽快忽慢。

音量適中

音量不能過(guò)小、過(guò)大、或忽大忽小，甚至削波爆音。峰值RMS在-9左右，無(wú)削波

停頓斷句

在標(biāo)點(diǎn)或適當(dāng)斷句處自然停頓，需輕聲換氣。

如果錄制一個(gè)長(zhǎng)音頻文件時(shí)，每句之間需要有2~3秒的停頓。

重音位置

重音位置要合理，避免錯(cuò)誤的重音。

閱讀發(fā)音

按順序讀，確保音字一致。避免漏字多字、發(fā)音錯(cuò)誤、閱讀不流暢等問(wèn)題。如有這些問(wèn)題，需整句重新錄制。

說(shuō)明

調(diào)整與麥克風(fēng)之間的距離，以一拳距離為宜。不宜離麥太近，防止噴麥或錄入呼吸聲。

每句文案起始數(shù)字編號(hào)無(wú)需閱讀。

示例：4. 它不僅擁有出色的功能，還具備卓越的性能，序號(hào)4無(wú)需閱讀。

推薦使用無(wú)損音質(zhì)格式保存音頻文件，如WAV格式。

原始錄音數(shù)據(jù)，需未經(jīng)MP3等編碼器編碼，且為48kHz采樣率、16bit編碼和單聲道。

全程風(fēng)格保持一致。如直播場(chǎng)景時(shí)，錄制風(fēng)格需接近日常直播效果。

發(fā)音吐字清晰、準(zhǔn)確，音量適中。如果出現(xiàn)噴麥或嘶嘶聲音，建議當(dāng)前句子重新錄制。

語(yǔ)速自然、平穩(wěn)，切忌過(guò)快過(guò)慢、忽快忽慢。

音量不能過(guò)小、過(guò)大、或忽大忽小，甚至削波爆音。峰值RMS在-9左右，無(wú)削波

在標(biāo)點(diǎn)或適當(dāng)斷句處自然停頓，需輕聲換氣。

如果錄制一個(gè)長(zhǎng)音頻文件時(shí)，每句之間需要有2~3秒的停頓。

重音位置要合理，避免錯(cuò)誤的重音。

按順序讀，確保音字一致。避免漏字多字、發(fā)音錯(cuò)誤、閱讀不流暢等問(wèn)題。如有這些問(wèn)題，需整句重新錄制。

錄制內(nèi)容提交規(guī)范

聲音類型

音頻說(shuō)明

音頻命名

基礎(chǔ)版

支持整段錄制或按句錄制，詳細(xì)說(shuō)明如?（推薦）方式一：整段錄制、?方式二：按句錄制和?方式三：使用自定義語(yǔ)料按句錄制所示。

符合手機(jī)錄制音頻-表1中“音頻命名”的要求。

進(jìn)階版

支持整段錄制或按句錄制，詳細(xì)說(shuō)明如?（推薦）方式一：整段錄制、?方式二：按句錄制和?方式三：使用自定義語(yǔ)料按句錄制所示。

符合手機(jī)錄制音頻-表1中“音頻命名”的要求

高品質(zhì)

僅支持整段錄制，詳細(xì)說(shuō)明如?（推薦）方式一：整段錄制所示。

音頻文件命名無(wú)要求，可自定義，示例：VoiceClone.wav。

音頻說(shuō)明

支持整段錄制或按句錄制，詳細(xì)說(shuō)明如?（推薦）方式一：整段錄制、?方式二：按句錄制和?方式三：使用自定義語(yǔ)料按句錄制所示。

僅支持整段錄制，詳細(xì)說(shuō)明如?（推薦）方式一：整段錄制所示。

音頻命名

符合手機(jī)錄制音頻-表1中“音頻命名”的要求。

符合手機(jī)錄制音頻-表1中“音頻命名”的要求

音頻文件命名無(wú)要求，可自定義，示例：VoiceClone.wav。

（推薦）方式一：整段錄制

所有語(yǔ)料錄制成一個(gè)長(zhǎng)音頻WAV文件，每句之間需要有2~3秒的停頓。直接上傳MetaStudio控制臺(tái)，無(wú)需壓縮，無(wú)需提供語(yǔ)料txt文件。

推薦使用服務(wù)預(yù)置語(yǔ)料，也可自定義語(yǔ)料。系統(tǒng)會(huì)自動(dòng)根據(jù)停頓做切割，自動(dòng)進(jìn)行文本識(shí)別。

方式二：使用預(yù)置語(yǔ)料按句錄制

每個(gè)音頻文件時(shí)長(zhǎng)約10秒，不能超過(guò)15秒，否則會(huì)導(dǎo)致聲音模型訓(xùn)練失敗。

使用預(yù)置語(yǔ)料，創(chuàng)建聲音制作任務(wù)的時(shí)候，必須選對(duì)聲音標(biāo)簽。并將所有音頻文件壓縮成一個(gè)zip文件，示例如圖1所示。系統(tǒng)會(huì)自動(dòng)匹配預(yù)置文本。

方式三：使用自定義語(yǔ)料按句錄制

每個(gè)音頻文件時(shí)長(zhǎng)為5~15秒，不能超過(guò)15秒，否則會(huì)導(dǎo)致聲音模型訓(xùn)練失敗。

每個(gè)音頻文件需要匹配一個(gè)文本txt文件，且音頻內(nèi)容必須與文本內(nèi)容完全一致，示例如圖2所示。系統(tǒng)會(huì)自動(dòng)使用傳入的文本匹配音頻。

制作聲音模型

準(zhǔn)備好音頻文件后，就可以上傳至MetaStudio控制臺(tái)，進(jìn)行聲音訓(xùn)練。詳細(xì)操作如下所示：

創(chuàng)建聲音制作任務(wù)

查看聲音

聲音模型制作耗時(shí)，如下所示：

基礎(chǔ)版：約1~3個(gè)工作日。

進(jìn)階版：約1~3個(gè)工作日。

高品質(zhì)：約5個(gè)工作日。

自定義聲音應(yīng)用方式，如下所示：

自定義聲音生成后，會(huì)自動(dòng)展示在MetaStudio控制臺(tái)聲音列表中，可用于分身數(shù)字人視頻制作、視頻直播或智能交互等場(chǎng)景中。

通過(guò)MetaStudio的API調(diào)用自定義聲音。

1分鐘教程讓您快速上手體驗(yàn)

基于MetaStudio控制臺(tái)提交數(shù)字人訓(xùn)練

數(shù)字人應(yīng)用制作

您只需上傳正面照片，在5秒內(nèi)就能生成自己的專屬風(fēng)格化數(shù)字人形象，低門檻數(shù)字人制作，捏臉制作，所見(jiàn)即所得。

數(shù)字人直播服務(wù)

MetaStudio虛擬直播讓用戶無(wú)需專業(yè)的動(dòng)作和昂貴不便的面部捕捉設(shè)備，只需普通的攝像頭就能實(shí)現(xiàn)對(duì)人體動(dòng)作和表情的高精度捕捉。

視頻制作服務(wù)

MetaStudio數(shù)字人視頻制作，實(shí)現(xiàn)圖片、視頻、文檔一鍵轉(zhuǎn)化，用戶僅需輸入文本或錄入語(yǔ)音，依托華為強(qiáng)大的AI智能功能，快速生成數(shù)字人播報(bào)視頻，讓數(shù)字人演繹你的表達(dá)。

專家咨詢

文檔與學(xué)習(xí)成長(zhǎng)

快速入門

快速入門

什么是數(shù)字內(nèi)容生產(chǎn)線

數(shù)字內(nèi)容生產(chǎn)線的功能特性

數(shù)字內(nèi)容生產(chǎn)線的產(chǎn)品優(yōu)勢(shì)

數(shù)字內(nèi)容生產(chǎn)線的常用概念

查看更多
常見(jiàn)問(wèn)題

常見(jiàn)問(wèn)題

開(kāi)發(fā)者如何獲取技術(shù)支持？

用戶如何舉報(bào)平臺(tái)違規(guī)內(nèi)容？

MetaStudio支持哪些區(qū)域？

如何調(diào)用MetaStudio接口？

查看更多
產(chǎn)品文檔

產(chǎn)品文檔

產(chǎn)品介紹

API參考

服務(wù)端SDK參考

開(kāi)發(fā)指南

查看更多

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

數(shù)字內(nèi)容生產(chǎn)線

數(shù)字內(nèi)容生產(chǎn)線

真人聲音錄制

錄音準(zhǔn)備

錄音準(zhǔn)備

開(kāi)始錄音

開(kāi)始錄音

錄制內(nèi)容提交規(guī)范

錄制內(nèi)容提交規(guī)范

1分鐘教程讓您快速上手體驗(yàn)

1分鐘教程讓您快速上手體驗(yàn)

文檔與學(xué)習(xí)成長(zhǎng)

快速入門

常見(jiàn)問(wèn)題

產(chǎn)品文檔