語音交互 服務(Speech Interaction Service,簡稱SIS)是一種人機交互方式,以開放API(Application Programming Interface,應用程序編程接口)的方式提供給用戶,用戶通過實時訪問和調用API獲取語音交互結果。目前語音交互服務僅支持中文識別與合成。
語音交互包括以下子服務:
定制 語音識別 (ASR Customization,ASRC):基于深度學習技術,提供針對特定領域(如快遞行業(yè))優(yōu)化的語音識別能力,并可自定義語言模型。定制語音識別包含 一句話識別 、錄音文件識別功能。支持熱詞定制。
實時語音轉寫(Real-time ASR,RASR):將連續(xù)的音頻流實時轉換成文本,語音識別更快。
短語音識別(Automatic Speech Recognition,ASR):將時長低于1min的口述音頻轉換為文本。
語音合成 (Text To Speech, TTS ):是一種將文本轉換成逼真語音的服務。
定制語音合成(Text To Speech Customization,TTSC):依托華為先進的語音技術,使用深度學習算法,將文本轉換為自然流暢的語音。