華為云計算 云知識 什么是實時語音轉(zhuǎn)寫?
什么是實時語音轉(zhuǎn)寫?

實時語音轉(zhuǎn)寫服務(wù),用戶通過實時訪問和調(diào)用API獲取實時語音轉(zhuǎn)寫結(jié)果。

RASR功能:

文本時間戳:為音頻轉(zhuǎn)換結(jié)果生成特定的時間戳,從而通過搜索文本即可快速找到對應(yīng)的原始音頻。

智能斷句:通過提取上下文相關(guān)語義特征,并結(jié)合語音特征,智能劃分斷句及添加標(biāo)點符號,提升輸出文本的可閱讀性。

中英文混合識別:支持在中文句子識別中可夾帶英文字母、數(shù)字等,從而實現(xiàn)中、英文以及數(shù)字的混合識別。

即時輸出識別結(jié)果:連續(xù)識別語音流內(nèi)容,即時輸出結(jié)果,并可根據(jù)上下文語言模型自動校正。

自動靜音檢測:對輸入語音流進行靜音檢測,識別效率和準(zhǔn)確率更高。

RASR優(yōu)勢:

識別準(zhǔn)確率:采用最新一代 語音識別 技術(shù),基于DNN(深層神經(jīng)網(wǎng)絡(luò))技術(shù),大大提高了抗噪性能,使識別準(zhǔn)確率顯著提升。

識別速度快:把語言模型,詞典和聲學(xué)模型統(tǒng)一集成為一個大的神經(jīng)網(wǎng)絡(luò),同時在工程上進行了大量的優(yōu)化,大幅提升解碼速度,使識別速度在業(yè)內(nèi)處領(lǐng)先地位。

多種識別模式:支持多種實時語音轉(zhuǎn)寫模式,如流式識別、連續(xù)識別和實時識別模式,靈活適應(yīng)不同應(yīng)用場景。

定制化服務(wù)可定制特定垂直領(lǐng)域的語言層模型,可識別更多專有詞匯和行業(yè)術(shù)語,進一步提高識別準(zhǔn)確率。