語音交互 服務(wù)(Speech Interaction Service,簡稱SIS)是一種人機交互方式,以開放API(Application Programming Interface,應(yīng)用程序編程接口)的方式提供給用戶,用戶通過實時訪問和調(diào)用API獲取語音交互結(jié)果。目前語音交互服務(wù)僅支持中文識別與合成。
語音交互包括以下子服務(wù):
定制 語音識別 (ASR Customization,ASRC):基于深度學習技術(shù),提供針對特定領(lǐng)域(如快遞行業(yè))優(yōu)化的語音識別能力,并可自定義語言模型。定制語音識別包含 一句話識別 、錄音文件識別功能。支持熱詞定制。
實時語音轉(zhuǎn)寫(Real-time ASR,RASR):將連續(xù)的音頻流實時轉(zhuǎn)換成文本,語音識別更快。
短語音識別(Automatic Speech Recognition,ASR):將時長低于1min的口述音頻轉(zhuǎn)換為文本。
語音合成 (Text To Speech, TTS ):是一種將文本轉(zhuǎn)換成逼真語音的服務(wù)。
定制語音合成(Text To Speech Customization,TTSC):依托華為先進的語音技術(shù),使用深度學習算法,將文本轉(zhuǎn)換為自然流暢的語音。