實時語音轉(zhuǎn)寫服務(wù),用戶通過實時訪問和調(diào)用API獲取實時語音轉(zhuǎn)寫結(jié)果。
RASR功能:
文本時間戳:為音頻轉(zhuǎn)換結(jié)果生成特定的時間戳,從而通過搜索文本即可快速找到對應(yīng)的原始音頻。
智能斷句:通過提取上下文相關(guān)語義特征,并結(jié)合語音特征,智能劃分斷句及添加標(biāo)點符號,提升輸出文本的可閱讀性。
中英文混合識別:支持在中文句子識別中可夾帶英文字母、數(shù)字等,從而實現(xiàn)中、英文以及數(shù)字的混合識別。
即時輸出識別結(jié)果:連續(xù)識別語音流內(nèi)容,即時輸出結(jié)果,并可根據(jù)上下文語言模型自動校正。
自動靜音檢測:對輸入語音流進行靜音檢測,識別效率和準(zhǔn)確率更高。
RASR優(yōu)勢:
識別準(zhǔn)確率:采用最新一代 語音識別 技術(shù),基于DNN(深層神經(jīng)網(wǎng)絡(luò))技術(shù),大大提高了抗噪性能,使識別準(zhǔn)確率顯著提升。
識別速度快:把語言模型,詞典和聲學(xué)模型統(tǒng)一集成為一個大的神經(jīng)網(wǎng)絡(luò),同時在工程上進行了大量的優(yōu)化,大幅提升解碼速度,使識別速度在業(yè)內(nèi)處領(lǐng)先地位。
多種識別模式:支持多種實時語音轉(zhuǎn)寫模式,如流式識別、連續(xù)識別和實時識別模式,靈活適應(yīng)不同應(yīng)用場景。
定制化服務(wù)可定制特定垂直領(lǐng)域的語言層模型,可識別更多專有詞匯和行業(yè)術(shù)語,進一步提高識別準(zhǔn)確率。