五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

【論文筆記】語(yǔ)音情感識(shí)別之聲譜圖卷積方法

本文章主體基于PilgrimHui的《論文筆記:語(yǔ)音情感識(shí)別(二)聲譜圖+CRNN》,在原來(lái)基礎(chǔ)上,補(bǔ)充了數(shù)據(jù)處理部分以及論文方法的一些細(xì)節(jié),歡迎語(yǔ)音情感分析領(lǐng)域的同學(xué)一起討論。

1. An Attention Pooling based Representation Learning Method for Speech Emotion Recognition2018 InterSpeech

1)數(shù)據(jù)處理:訓(xùn)練集:給定一個(gè)句子,按2秒時(shí)間窗切分,窗移為1秒(overlap 1s),切分成多個(gè)segments。測(cè)試集:時(shí)間窗大小跟訓(xùn)練集一致,不同的是窗移為0.4秒(overlap 1.6s)。

2)頻譜提取:對(duì)每個(gè)segment,采用40毫秒Hamming窗,10ms窗移,得到一系列frames(舉例大小199*D)。對(duì)每個(gè)frame進(jìn)行DFT變換(參數(shù)NFFT=1600)得到每幀的頻譜,將所有frames的頻譜合并(多個(gè)一維向量縱向拼接得到矩陣)得到該segment的頻譜圖(N*(NFFT/2+1)=199*801)。截?cái)囝l譜圖(矩陣)的列(去除了頻率較高部分),變成199*400的頻譜圖,轉(zhuǎn)置后變成400*199,補(bǔ)零padding后變成400*200,水平方向表示時(shí)間,垂直方向表示頻率。

3)頻譜處理:對(duì)于頻譜矩陣預(yù)處理的做法是先歸一化到[-1, 1],然后做一個(gè)u256u率壓擴(kuò)。u率壓擴(kuò)通過(guò)增大數(shù)值較小的元素,人為改變數(shù)據(jù)的分布,減少矩陣中最大值與最小值之間的差距,在信號(hào)處理領(lǐng)域認(rèn)為可以改善信噪比率而不需要增添更多的數(shù)據(jù),論文作者認(rèn)為可以提高訓(xùn)練的穩(wěn)定性。我在復(fù)現(xiàn)的時(shí)候,發(fā)現(xiàn)有些數(shù)據(jù)集進(jìn)行歸一化和u率壓擴(kuò)能提升性能,但有的數(shù)據(jù)集效果不佳。

4)論文模型:論文的模型如下圖,輸入聲譜圖,CNN先用兩個(gè)不同的卷積核分別提取時(shí)域特征和頻域特征,concat后喂給后面的CNN,在最后一層使用attention pooling的技術(shù),在IEMOCAP的四類(lèi)情感上取得71.8% weighted accuracy (WA) 68% unweighted accuracy (UA),WA就是平時(shí)說(shuō)的準(zhǔn)確率,而UA是求各類(lèi)的準(zhǔn)確率然后做平均 。比state-of-art多了3%WA4%UA。

5)模型訓(xùn)練與預(yù)測(cè):訓(xùn)練階段,每個(gè)segment對(duì)應(yīng)一個(gè)label,作為一個(gè)sample輸入模型訓(xùn)練,因此一句話(huà)將產(chǎn)生多個(gè)sample用于訓(xùn)練。預(yù)測(cè)階段對(duì)每個(gè)segment進(jìn)行預(yù)測(cè),然后將一句話(huà)的所有segment預(yù)測(cè)概率取平均,得到一句話(huà)的預(yù)測(cè)標(biāo)簽。

6)論文代碼實(shí)現(xiàn)基于python_speech_feature庫(kù),其中有三種聲譜圖可以選擇,振幅圖,能量圖,log能量圖。PilgrimHui認(rèn)為:debug的時(shí)候發(fā)現(xiàn)振幅和能量值的range還是挺大的,用log可以把range很大的值壓到比較小的范圍,所以我用的是log能量圖。論文中提到對(duì)聲譜圖做一個(gè)預(yù)處理,說(shuō)是可以讓訓(xùn)練過(guò)程更加穩(wěn)定,我在實(shí)現(xiàn)論文的時(shí)候有發(fā)現(xiàn)不加這個(gè)預(yù)處理結(jié)果會(huì)比較高。預(yù)處理的做法是先歸一化到[-1, 1],然后做一個(gè)u256u率壓擴(kuò),看到這里的256我估計(jì)論文是把聲譜圖直接保存成圖像后做的歸一化,而我是保存成聲譜圖矩陣來(lái)作為輸入。

7)PilgrimHui復(fù)現(xiàn)的經(jīng)驗(yàn):我在復(fù)現(xiàn)這篇論文模型的時(shí)候一直都達(dá)不到論文中的結(jié)果,反復(fù)看了一下,最后是注意到論文在attention pooling合并前對(duì)bottom-up attentionfeature map先做了一個(gè)softmax,這個(gè)softmax我覺(jué)得很奇怪,把它去掉后發(fā)現(xiàn)準(zhǔn)確率飆升,可以達(dá)到論文中的實(shí)驗(yàn)結(jié)果,甚至可以超出??赡芫唧w實(shí)現(xiàn)細(xì)節(jié)上有一些其它的出入。

 

2. Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms2017 InterSpeech

1)數(shù)據(jù)處理:跟上一篇論文類(lèi)似,只是每個(gè)segment的大小為3秒,不過(guò)segments之間沒(méi)有重合,訓(xùn)練集測(cè)試集處理方式一致。采用的也是Hamming窗,窗大小為20ms/40ms,窗移為10ms,DFT的參數(shù)length=800/1600(頻率分辨率用10HZ/20HZ。采用log-spectrum表示頻譜。數(shù)據(jù)集用的也是IEMOCAP,16k采樣率,四種情緒分類(lèi)。

2)論文模型:模型結(jié)構(gòu)圖如下圖,輸入的也是譜圖,實(shí)驗(yàn)對(duì)比了不同網(wǎng)絡(luò)結(jié)構(gòu)(全卷積網(wǎng)絡(luò),卷積+LSTM結(jié)構(gòu),attention結(jié)構(gòu)),LSTM+CNN的方式效果最佳,attention機(jī)制并沒(méi)有提升效果。

3)模型訓(xùn)練與預(yù)測(cè):訓(xùn)練階段,每個(gè)segment對(duì)應(yīng)一個(gè)label,作為一個(gè)sample輸入模型訓(xùn)練,因此一句話(huà)將產(chǎn)生多個(gè)sample用于訓(xùn)練。預(yù)測(cè)階段對(duì)每個(gè)segment進(jìn)行預(yù)測(cè),然后將一句話(huà)的所有segment預(yù)測(cè)概率取平均,得到一句話(huà)的預(yù)測(cè)標(biāo)簽。

4)論文還介紹了一種兩步預(yù)測(cè)的方法,先經(jīng)過(guò)1個(gè)四分類(lèi)器(4個(gè)情感),如果是中立類(lèi),則要另外通過(guò)3個(gè)二分類(lèi)器來(lái)判定最后的情感。這么做可以提升UA,其背后直覺(jué)的解釋是,一個(gè)非中立情感的大部分性質(zhì)都是中立的,情感性質(zhì)只占一小部分,所以對(duì)于中立類(lèi),需要進(jìn)一步判定。

5)調(diào)參經(jīng)驗(yàn):Hamming窗大小為40ms效果最佳,20ms性能略低0-2%頻率分辨率10HZ20HZ性能略高1-3%。

 

3. Deep Spectrum Feature Representations for Speech Emotion Recognition2018 ACM MM workshop——ASMMC-MMAC

1)數(shù)據(jù)處理:25msHamming窗,每次移動(dòng)10ms,在一個(gè)時(shí)間窗(frame)下,采用STFT變換得到頻譜向量,將一句話(huà)的各frame的頻譜向量按時(shí)間軸拼接、開(kāi)平方(都為正值,失去相位信息),得到該句話(huà)的頻譜圖,之后采用40bands梅爾濾波器得到mel頻譜圖。

(2)輸入的是梅爾尺度的聲譜圖(可以用librosa庫(kù)調(diào)包得到),論文沒(méi)有詳細(xì)介紹輸入部分和網(wǎng)絡(luò)的銜接,CNN這邊如何處理變長(zhǎng)語(yǔ)音不明確,BLSTM則是把很多幀當(dāng)成一個(gè)序列來(lái)輸入。數(shù)據(jù)集用的也是IEMOCAP。

(3)論文也探討了幾種預(yù)處理和網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)驗(yàn)影響。比較了聲譜圖特征和其它兩個(gè)特征集(eGeMAPS和ComParE)的效果(喂給SVM),聲譜圖特征會(huì)稍微好一點(diǎn)。

(4)調(diào)參經(jīng)驗(yàn):Hamming窗大小為25ms效果最佳,優(yōu)于15ms-200ms,對(duì)應(yīng)窗移10ms;Mel bands設(shè)定在40最佳,優(yōu)于30,60,80,100。因此最佳組合:window_size, window_shift,mel_bands = 25,10,40。

 

4. An Image-based Deep Spectrum Feature Representation for the Recognition of Emotional Speech2017 ACM MM

1)數(shù)據(jù)處理:Hanning窗,窗大小為256個(gè)樣本點(diǎn),重合點(diǎn)128個(gè)即128的窗移。每個(gè)窗下的信號(hào)做FFT變換,求得log-powerspectrum(對(duì)數(shù)能量譜)。采用藍(lán)、綠、黃三色填充得到大小不同的圖片,放縮裁剪得到227*227大小的頻譜圖。

2)聲譜圖輸入caffe中預(yù)訓(xùn)練好的AlexNet訓(xùn)練,然后從第二個(gè)全連接層取出特征向量,跟兩種傳統(tǒng)特征集eGeMAPS,ComParEBoAWbag-of-audio-words,對(duì)LLDs特征的一種組織,LLDs指那些人工設(shè)計(jì)的低水平描述符)進(jìn)行比較(喂給SVM),論文簡(jiǎn)單介紹了這三種特征。數(shù)據(jù)集用的是FAU-AIBO,有兩種分類(lèi)方式,一種是五分類(lèi),一種是二分類(lèi)。

3)做特征比較的時(shí)候使用了三個(gè)版本的FAU-AIBO數(shù)據(jù)比較,分別是clean,noisyde-noised。其中de-noised是對(duì)noisy數(shù)據(jù)做了一個(gè)去噪,使用了一個(gè)三層LSTM模型,輸入是100個(gè)Mel譜,模型在幾個(gè)噪音版本的Audio Visual Interest Corpus上訓(xùn)練。

4)比較發(fā)現(xiàn)聲譜圖提取的特征對(duì)于噪音數(shù)據(jù)具有更好的魯棒性,同時(shí)可以看到de-noised系統(tǒng)的去噪并沒(méi)有生效(和noisy版本的表現(xiàn)一樣差)。

 

5. Emotion Recognition from Variable-Length Speech Segments Using Deep Learning on Spectrograms2018 InterSpeech

1)數(shù)據(jù)處理:給定一個(gè)句子,采用40毫秒Hamming窗,10ms窗移,得到一系列frames(舉例大小199*D)。對(duì)每個(gè)frame進(jìn)行DFT變換(參數(shù)NFFT=1600)得到每幀的頻譜,將所有frames的頻譜合并(多個(gè)一維向量縱向拼接得到矩陣)得到該句子的頻譜圖(N*(NFFT/2+1)=199*801)。截?cái)囝l譜圖(矩陣)的列(去除了頻率較高部分),變成199*400的頻譜圖,轉(zhuǎn)置后變成400*199,補(bǔ)零padding后變成400*200,水平方向表示時(shí)間,垂直方向表示頻率。跟論文1不同的是,沒(méi)有預(yù)先切分等長(zhǎng)的segment,導(dǎo)致得到的頻譜圖高度都是400,寬度N不定長(zhǎng)。

2)頻譜處理:對(duì)訓(xùn)練集采用z normalization進(jìn)行歸一化,即0均值1標(biāo)準(zhǔn)差的歸一化。

3)論文模型:模型結(jié)構(gòu)如下圖所示。卷積學(xué)習(xí)空間信息,GRU學(xué)習(xí)時(shí)間信息,全連接層做最后的分類(lèi)。注意:卷積只做一維卷積,即只做時(shí)域上的卷積(x軸)。

4)通常的定長(zhǎng)做法:為了使得模型能夠輸入定長(zhǎng)樣本,通常會(huì)把語(yǔ)音劃分成等長(zhǎng)樣本(比如3秒)訓(xùn)練,然后在預(yù)測(cè)階段也做分割,做多個(gè)預(yù)測(cè)來(lái)平均得分。

5變長(zhǎng)做法:本文用了一種可以在預(yù)測(cè)階段直接接受變長(zhǎng)樣本而不需要切割的方法,具體做法為:使時(shí)間長(zhǎng)度類(lèi)似的樣本放在一個(gè)batch中然后pad到當(dāng)前batch最長(zhǎng)樣本的長(zhǎng)度。訓(xùn)練/預(yù)測(cè)的時(shí)候使用一個(gè)Mask矩陣(向量)來(lái)獲得有效(valid)的輸入?yún)^(qū)域,padding區(qū)域丟棄即可,需要注意的是max pooling的時(shí)候要處理好邊界問(wèn)題,對(duì)于跨邊界數(shù)據(jù)把邊緣值作為padding數(shù)據(jù)。

6)訓(xùn)練的時(shí)候給不同長(zhǎng)度的句子(loss)分配反比權(quán)重。另外為了處理IEMOCAP的不平衡問(wèn)題給不同類(lèi)別也分配反比權(quán)重,之前幾篇在IEMOCAP上做實(shí)驗(yàn)的論文也有用到這個(gè)方法,還有使用重采樣的方法。

 

6. Investigation on Joint Representation Learning for Robust Feature Extraction in Speech Emotion Recognition2018 InterSpeech

1)數(shù)據(jù)處理:IEMOCAP數(shù)據(jù),Hamming窗,25ms時(shí)間窗,10ms的窗移。每個(gè)窗下的信號(hào)采用1024個(gè)點(diǎn)的短時(shí)傅立葉變換STFT,之后40-bandslog-mel spectrogram。之后以30幀為單位,重疊10幀地移動(dòng),將一句話(huà)的頻譜劃分成多個(gè)segments頻譜。每個(gè)segment長(zhǎng)度315ms(研究標(biāo)明長(zhǎng)度超過(guò)250mssegment能保留豐富的情緒信息{Emotion classification via utterance-level dynamics: A pattern-based approach to characterizing affective expressions.})。

2)模型方法:結(jié)合了CNNRNNCRNN被廣泛用于語(yǔ)音情感識(shí)別,然而這些模型只是簡(jiǎn)單地使用了聲譜圖的信息,并不能捕捉足夠的情感特征。本文提出的HSF-CRNN模型結(jié)合了HSF手工特征,可以學(xué)習(xí)更好的情感特征,在2018 InterSpeech非典型情感挑戰(zhàn)數(shù)據(jù)集  IEMOCAP 上做了實(shí)驗(yàn),比baselineCRNN)的效果要好。

3)模型結(jié)構(gòu):模型如下兩圖,第一個(gè)是baseline,第二個(gè)是本文的模型。CRNN部分輸入的是聲譜圖,而LLDLow Level Descriptors)指的是基頻,能量,過(guò)零率,MFCC,LPCC等這些特征。HSFHigh level Statistics Functions)是在LLD基礎(chǔ)上做統(tǒng)計(jì)得到的特征,描述了整個(gè)utterance的動(dòng)態(tài)情感內(nèi)容。

4)還一種multi-CRNN的方法:采用兩種不同長(zhǎng)度的segment劃分方法,可以讓一句話(huà)得到兩個(gè)頻譜圖序列。分別輸入到兩個(gè)CRNN,將最后的輸出拼接融合,輸出到softmax分類(lèi)器。效果優(yōu)于單個(gè)頻譜圖的CRNN,低于HSF-CRNN。

 

7. Using Regional Saliency for Speech Emotion Recognition2017 ICASSP

1)數(shù)據(jù)處理:Hamming窗,25ms時(shí)間窗,15ms窗移(10ms重疊)得到多個(gè)frames。采用openSmile toolkit,對(duì)每個(gè)frame提取40-band的梅爾頻譜,之后對(duì)一個(gè)人的所有特征采用均值為0標(biāo)準(zhǔn)差為1的歸一化。數(shù)據(jù)集用的是IEMOCAPMSP-IMPROV。

2)數(shù)據(jù)增廣:加速和減速語(yǔ)音信號(hào),參數(shù)為0.9倍速和1.1倍速。數(shù)據(jù)增廣后提升2-3%。

3)將CNN應(yīng)用于低水平的時(shí)域特征(本文用的是40維的log Mel filterbank)來(lái)識(shí)別情感顯著區(qū),這樣就不需要在utterance水平上做統(tǒng)計(jì)運(yùn)算。如下圖所示,在時(shí)間方向上卷積,卷積核的大小在時(shí)間軸方向?yàn)?/span>s,頻域方向跟頻譜大小一致為d,一幀一幀地卷,然后用全局最大池化來(lái)捕捉時(shí)間上的重要區(qū)域。

4)實(shí)驗(yàn)表明了論文的模型(使用區(qū)域顯著信息)比“在utterance水平上做統(tǒng)計(jì)然后送入全連接”(使用統(tǒng)計(jì)特征)的效果好。實(shí)驗(yàn)還對(duì)比了和“流行的特征集InterSpeech09,InterSpeech13,GeMAPSeGeMAPS用在SVM”的表現(xiàn),有優(yōu)有劣,相較于傳統(tǒng)算法提升并不明顯。不過(guò)論文的模型只使用了40個(gè)特征。另外還使用了速度增強(qiáng)來(lái)提高表現(xiàn)。

 

8. 3-D Convolutional Recurrent Neural Networks with Attention Model for Speech Emotion Recognition2018 IEEE Signal Processing Letters

1)數(shù)據(jù)處理:3秒作為一個(gè)segment,每句話(huà)劃分成多個(gè)segments。對(duì)每個(gè)segmentHamming窗,25ms時(shí)間窗,10ms窗移(15ms重疊)得到多個(gè)frames。針對(duì)全局(非個(gè)人)的語(yǔ)音進(jìn)行均值為0標(biāo)準(zhǔn)差為1的歸一化。

2)頻譜處理:對(duì)語(yǔ)音信號(hào)DFT后的能量譜進(jìn)行梅爾濾波然后取log,得到log-Mels,又計(jì)算log-Melsdeltasdelta-deltas特征,如下圖所示,三種特征組成三個(gè)通道,橫向上是梅爾濾波組,論文設(shè)定為40個(gè),縱向上是時(shí)間,丟進(jìn)3維卷積,池化,線(xiàn)性層,LSTM,然后做個(gè)attention,最后接全連接和softmax分類(lèi)。數(shù)據(jù)集是IEMOCAPEmoDB。

3LSTM的時(shí)間序列中,每個(gè)時(shí)間片是一個(gè)frame卷積后的特征。

4)模型訓(xùn)練與預(yù)測(cè):訓(xùn)練階段,每個(gè)segment對(duì)應(yīng)一個(gè)label,作為一個(gè)sample輸入模型訓(xùn)練,因此一句話(huà)將產(chǎn)生多個(gè)sample用于訓(xùn)練。預(yù)測(cè)階段對(duì)每個(gè)segment進(jìn)行預(yù)測(cè),然后將一句話(huà)的所有segment預(yù)測(cè)概率取max pooling,得到一句話(huà)的預(yù)測(cè)標(biāo)簽。

5)論文做了消解(ablation)學(xué)習(xí),發(fā)現(xiàn)6個(gè)卷積層在IEMOCAP上效果最好,5個(gè)卷積層在EmoDB上最好。另外對(duì)比了DNN-ELM和二維卷積,發(fā)現(xiàn)本文模型效果最好。

6)代碼開(kāi)源:https://github.com/xuanjihe/speech-emotion-recognition

9. A Feature Fusion Method Based On Extreme Learning Machine For Speech Emotion Recognition2018 ICASSP

1)數(shù)據(jù)處理:語(yǔ)音信號(hào)按窗大小265ms,窗移25ms切分成Nsegments,每段采用短時(shí)傅里葉變換STFT采樣256個(gè)點(diǎn),窗大小為256個(gè)點(diǎn),每次重疊50%的窗移。如此,每個(gè)segment得到一張頻譜圖。

2)一句話(huà)的各segment通過(guò)啟發(fā)性特征+CNN深度特征拼接,得到該segment的特征。然后求均值,得到這句話(huà)的特征。完了之后輸入到ELM分類(lèi)。本文在流行的聲譜圖+CRNN”框架上做了改進(jìn),第一個(gè)改進(jìn)是加入啟發(fā)性特征,第二個(gè)改進(jìn)是用ELM的方法替代BLSTM。

3)啟發(fā)性特征有384維,是2009 InterSpeech 挑戰(zhàn)賽提議的統(tǒng)計(jì)特征,使用openSMILE獲得。數(shù)據(jù)集為EmoDB

4BLSTM結(jié)構(gòu)比較復(fù)雜,而ELM是一種單隱層網(wǎng)絡(luò)的學(xué)習(xí)算法,它的訓(xùn)練更快。另外,BLSTM在數(shù)據(jù)不充足的時(shí)候訓(xùn)練效果并不理想。

5)研究標(biāo)明長(zhǎng)度超過(guò)250mssegment能保留豐富的情緒信息{Emotion classification via utterance-level dynamics: A pattern-based approach to characterizing affective expressions}。

隨時(shí)獲取華為云AI最新動(dòng)態(tài),歡迎關(guān)注華為云AI公眾號(hào):

B8483785-C43D-4374-9026-618F8EBE3597.png