華為云計(jì)算 云知識(shí) 語(yǔ)音交互服務(wù)有什么功能
語(yǔ)音交互服務(wù)有什么功能

語(yǔ)音交互 包括以下子服務(wù):

定制 語(yǔ)音識(shí)別 (ASR Customization,ASRC):基于深度學(xué)習(xí)技術(shù),提供針對(duì)特定領(lǐng)域(如快遞行業(yè))優(yōu)化的語(yǔ)音識(shí)別能力,并可自定義語(yǔ)言模型。

定制語(yǔ)音識(shí)別包含 一句話識(shí)別 、錄音文件識(shí)別功能。支持熱詞定制。

實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(Real-time ASR,RASR):將連續(xù)的音頻流實(shí)時(shí)轉(zhuǎn)換成文本,使語(yǔ)音識(shí)別更加快速。

語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR):將時(shí)長(zhǎng)低于1分鐘的口述音頻轉(zhuǎn)換為文本。

語(yǔ)音合成(Text To Speech, TTS ):將文本轉(zhuǎn)換成逼真的語(yǔ)音。

定制語(yǔ)音合成(Text To Speech Customization,TTSC):將文本轉(zhuǎn)換為自然流暢的語(yǔ)音,提供特定領(lǐng)域的語(yǔ)音合成。

語(yǔ)音合成服務(wù)有什么功能

定制語(yǔ)音識(shí)別

定制語(yǔ)音識(shí)別提供了一句話識(shí)別,錄音文件識(shí)別功能。

一句話識(shí)別:可以實(shí)現(xiàn)1分鐘以內(nèi)音頻到文字的轉(zhuǎn)換。對(duì)于用戶上傳的二進(jìn)制音頻格式數(shù)據(jù),系統(tǒng)經(jīng)過(guò)處理,生成語(yǔ)音對(duì)應(yīng)的文字。

錄音文件識(shí)別:對(duì)于錄制的長(zhǎng)語(yǔ)音進(jìn)行識(shí)別,轉(zhuǎn)寫成文字,提供不同領(lǐng)域模型,具備良好的可擴(kuò)展性,支持熱詞定制。

ASRC優(yōu)勢(shì)

高識(shí)別率

基于深度學(xué)習(xí)技術(shù),對(duì)特定領(lǐng)域場(chǎng)景和語(yǔ)料進(jìn)行優(yōu)化,識(shí)別率達(dá)到業(yè)界領(lǐng)先。

前沿技術(shù)

使用工業(yè)界成熟的算法,結(jié)合學(xué)術(shù)界最新研究成果,為企業(yè)提供獨(dú)特競(jìng)爭(zhēng)力優(yōu)勢(shì)。

支持熱詞

針對(duì)專業(yè)詞匯,支持上傳至熱詞表,增加專業(yè)詞匯的識(shí)別準(zhǔn)確率。

可定制化

針對(duì)客戶的特定場(chǎng)景需求,定制垂直領(lǐng)域的語(yǔ)音識(shí)別模型,識(shí)別效果更精確。

實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫

實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫服務(wù),用戶通過(guò)實(shí)時(shí)訪問(wèn)和調(diào)用API獲取實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫結(jié)果。

文本時(shí)間戳

為音頻轉(zhuǎn)換結(jié)果生成特定的時(shí)間戳,從而通過(guò)搜索文本即可快速找到對(duì)應(yīng)的原始音頻。

智能斷句

通過(guò)提取上下文相關(guān)語(yǔ)義特征,并結(jié)合語(yǔ)音特征,智能劃分?jǐn)嗑浼疤砑訕?biāo)點(diǎn)符號(hào),提升輸出文本的可閱讀性。

中英文混合識(shí)別

支持在中文句子識(shí)別中夾帶英文字母、數(shù)字等,從而實(shí)現(xiàn)中、英文以及數(shù)字的混合識(shí)別。

即時(shí)輸出識(shí)別結(jié)果

連續(xù)識(shí)別語(yǔ)音流內(nèi)容,即時(shí)輸出結(jié)果,并可根據(jù)上下文語(yǔ)言模型自動(dòng)校正。

自動(dòng)靜音檢測(cè)

對(duì)輸入語(yǔ)音流進(jìn)行靜音檢測(cè),識(shí)別效率和準(zhǔn)確率更高。

RASR優(yōu)勢(shì)

識(shí)別準(zhǔn)確率高

采用最新一代語(yǔ)音識(shí)別技術(shù),基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,簡(jiǎn)稱DNN)技術(shù),大大提高了抗噪性能,使識(shí)別準(zhǔn)確率顯著提升。

識(shí)別速度快

把語(yǔ)言模型、詞典和聲學(xué)模型統(tǒng)一集成為一個(gè)大的神經(jīng)網(wǎng)絡(luò),同時(shí)在工程上進(jìn)行了大量的優(yōu)化,大幅提升解碼速度,使識(shí)別速度在業(yè)內(nèi)處于領(lǐng)先地位。

多種識(shí)別模式

支持多種實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫模式,如流式識(shí)別、連續(xù)識(shí)別和實(shí)時(shí)識(shí)別模式,靈活適應(yīng)不同應(yīng)用場(chǎng)景。

定制化服務(wù)

可定制特定垂直領(lǐng)域的語(yǔ)言層模型,可識(shí)別更多專有詞匯和行業(yè)術(shù)語(yǔ),進(jìn)一步提高識(shí)別準(zhǔn)確率。

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別服務(wù)可以實(shí)現(xiàn)1分鐘以內(nèi)、不超過(guò)4MB的音頻到文字的轉(zhuǎn)換。對(duì)于用戶上傳的完整的錄音文件,系統(tǒng)通過(guò)處理,生成語(yǔ)音對(duì)應(yīng)文字內(nèi)容。

ASR優(yōu)勢(shì)

效果出眾

使用深度學(xué)習(xí)技術(shù),語(yǔ)音識(shí)別準(zhǔn)確率超過(guò)95%,在業(yè)界具有一定的技術(shù)優(yōu)勢(shì)。

穩(wěn)定可靠

成功應(yīng)用于各類場(chǎng)景,基于華為等企業(yè)客戶的長(zhǎng)期實(shí)踐,經(jīng)受過(guò)復(fù)雜場(chǎng)景考驗(yàn)。

簡(jiǎn)單高效

提供RESTful規(guī)范API接口,并提供服務(wù)SDK,方便客戶使用與集成;幫助客戶減少人力成本,節(jié)省業(yè)務(wù)支出。

語(yǔ)音支持

支持中文普通話,含帶方言口音的普通話識(shí)別。

語(yǔ)音合成

語(yǔ)音合成將用戶輸入的文字合成為音頻。通過(guò)音色選擇、自定義音量、語(yǔ)速,為企業(yè)和個(gè)人提供個(gè)性化的發(fā)音服務(wù)。

TTS優(yōu)勢(shì)

效果出眾

使用深度學(xué)習(xí)技術(shù)來(lái)合成逼真的人聲語(yǔ)音,合成速度快,語(yǔ)音自然流暢。

個(gè)性定制

能夠?qū)铣珊蟮恼Z(yǔ)音音色、音調(diào)、語(yǔ)速進(jìn)行個(gè)性化的設(shè)置,滿足客戶的定制化需求。

穩(wěn)定可靠

成功應(yīng)用于各類場(chǎng)景,基于華為等企業(yè)客戶的長(zhǎng)期實(shí)踐,經(jīng)受過(guò)復(fù)雜場(chǎng)景考驗(yàn)。

簡(jiǎn)單高效

提供RESTful規(guī)范API接口,并提供服務(wù)SDK,方便客戶使用與集成;幫助客戶減少人力成本,節(jié)省業(yè)務(wù)支出。

定制語(yǔ)音合成

定制語(yǔ)音合成支持多種音色,可調(diào)節(jié)語(yǔ)調(diào),語(yǔ)速,音量。

TTSC優(yōu)勢(shì)

個(gè)性定制

可以為企業(yè)客戶提供定制發(fā)音人服務(wù)。合成效果更出色。

多語(yǔ)種多音色

中文普通話、男聲、女聲、童聲自由切換,可以調(diào)整音量,語(yǔ)速。

效果出色

文本轉(zhuǎn)換自然清晰,近乎真人發(fā)音,能夠符合多樣的應(yīng)用場(chǎng)景。