?

具有互補特征學習框架和注意力特征融合模塊的語音情感識別模型*

2024-01-30 01:46黃佩瑤程慧慧唐小煜
關鍵詞:分支特征提取分類器

黃佩瑤,程慧慧,唐小煜,?

(1.華南師范大學工學部電子與信息工程學院,廣東 佛山 528225;2.華南師范大學物理學院,廣東 廣州 510006)

0 引言

語言是人類最重要的交流媒介,除了語言信息以外,語音信號還承載著許多反映說話者情感的信息.在人機交互[1-2](Human-Machine Interaction,HMI)中,通過用戶的語音信號對用戶的情感進行識別是一個關鍵環節.從語音信號中提取情感特征以進行情感分類的語音情感識別(Speech Emotion Recognition,SER)是人機交互中廣泛應用的技術[3].語音情感識別面臨的一大挑戰是從語音信號中提取有效的情感特征,情感特征的有效性很大程度上影響了最終情感識別的準確率[4].當前許多語音情感識別的研究都面臨缺乏具有可辨別性的情感特征的問題,這限制了整體模型的情感識別能力.故本文針對先前研究中情感特征提取研究的不足,提出了互補特征學習框架(Complementary Feature Learning Framework,CFLF)和基于注意力機制的注意力特征融合模塊(Attentional Feature Fusion Module,AFFM),該模塊可從語音信號中獲得更加全面的情感表征,提升整體模型情感識別的能力.

本文主要貢獻包括三個方面:

1) 提出了CFLF,將梅爾倒譜系數[5](Mel-Frequency Cepstral Coefficients,MFCCs)和使用openSMILE[6]提取的手工特征(Hand-Crafted Features,HCFs)分別輸入卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Network,RNN)分支中,以獲得獨立性表征;再將MFCCs和HCFs同時輸入交互處理通道,以捕捉這兩類特征的通道相關性和標記(token)相關性,從而獲得高級的交互互補特征表征.

2)提出了基于注意力機制的AFFM.CFLF輸出的表征通過注意力機制關注跨通道和跨token的信息,并生成注意力特征融合權重,最終得到融合特征.

3) 交互式情感二元動作捕捉數據庫(IEMOCAP)和柏林情感數據庫(Emo-DB)中的仿真實驗證實所提SER模型具有優異的性能,其中非加權精度(Unweighted Accuracy,UA)和加權精度(Weighted Accuracy,WA)均得到了提升.

1 相關工作

提取語音信號中的情感特征是SER模型中十分重要的環節.傳統的SER模型常常使用低級HCFs[7-10],這種特征是基于經驗設計的,不足以表征情緒狀態.

近年來深度學習方法被廣泛應用于生成高級的情感特征表征,SER中常用方法有CNN、長短期記憶網絡(Long Short Term Memory,LSTM)和RNN等.Jiang等[11]提出了具有頻譜特征的并行卷積循環神經網絡(PCRNN),捕捉情緒的細微變化.為了充分利用不同特征的情感信息,許多研究者使用了雙通道結構[11-14],但未考慮不同特征的獨立性.Zhong等[15]針對此問題,提出了獨立訓練框架并利用深度學習自動學習特征和經驗特征的互補優勢,但未考慮兩種特征的相關性,且使用簡單的連接操作融合獨立表征.Liu等[16]使用全連接層進行特征融合,Jung等[17]在面部情緒識別任務中使用與Liu等[16]同樣的全連接層進行融合,但使用聯合微調方法獨立訓練全連接層,這兩種融合方法優于簡單的加權求和融合.Woo等[18]提出了輕量級通用前饋CNN注意力模塊,能夠有效融合情感特征,讓模型集中在對分類貢獻更大的特征上.

為了提升SER模型性能而使用多類特征,卻缺乏對不同特征互補性的關注從而損失有效情感信息的問題[15],和融合多路表征時未考慮不同表征對后續情感分類的貢獻程度的問題[16-17].本文提出具有CFLF和AFFM的SER模型,能將互補特征(MFCCs和HCFs)的獨立特征表征和具有交互性表征提取出來,再有效地特征融合.這不僅保留了不同特征之間的獨立性、通道相關性和token相關性,也通過注意力機制考慮了不同表征對情感分類的貢獻程度,從而在表征融合時為不同表征分配適當權重.由于本文著重于特征提取部分的優化,故后續的情感分類器使用支持向量機(Support Vector Machine,SVM)[19].

2 具有CFLF和AFFM的SER模型

本節介紹了具有CFLF和AFFM的SER模型的整體結構,包括輸入的特征MFCCs和HCFs,特征提取部分的CFLF和AFFM.圖1展示了SER模型整體網絡架構.

圖1 SER模型的整體網絡架構

2.1 特征選擇

SER模型輸入時,許多研究者會使用不同的特征進行情感分類,如基于人耳聽覺敏感性提出的MFCCs[20]和使用openSMILE提取的HCFs.本文使用的MFCCs特征大小為400×13.首先對語音信號進行預加重和平滑處理,提高高頻,其次利用Hamming窗函數將語音信號分割成幀,再對語音信號的能譜進行離散傅里葉變換,將能譜傳遞到梅爾尺度三角濾波器組,最后利用離散余弦變換(DCT)獲得MFCCs.而本文使用的HCFs為384維,其中共包含32個低級描述符:過零率、能量、F0、MFCCs、語音概率等,所獲得的特征集涵蓋了主要的語音情感特征.而每一類特征都具有不同的情感域分布,圖2展示了MFCCs和HCFs的情感域分布,和兩類特征聯合后的情感域分布.由圖2可知,特征的情感域分布具有顯著重疊,而不同類型特征的重疊區域具有差異.由圖2(a)可知,MFCCs的易混淆情感域是悲傷、無聊和中性;由圖2(b)可知,HCFs的易混淆情感域是厭惡和中性;兩類特征聯合后,圖2(c)的易混淆部分為無聊和中性.情感域分布的重疊差異說明不同類型特征之間具有互補性,所以當不同類型特征獨立處理和聯合處理時獲得的特征表征是具有顯著差異的.這便是我們提出CFLF的主要動機,學習不同特征的互補性和獨立性,以提取出更全面的情感表征.

圖2 不同類型特征的情感域分布圖

2.2 CFLF

為學習不同特征的互補性和獨立性,本文提出了CFLF.框架包括三條分支:一條獨立處理MFCCs的CNN特征提取分支;一條獨立處理HCFs的DNN特征提取分支;一條處理聯合的MFCCs和HCFs的交互特征提取分支.獨立CNN特征提取分支中采用了四個卷積塊以挖掘MFCCs的時頻域內的空間關系,卷積塊由卷積層、最大池化層和批量歸一化層組成[21].在卷積層最后加入注意層,以找出MFCCs的顯著情感區域,該分支的輸出稱為F1.

獨立CNN特征提取分支包含三個全連接網絡[22]和一個批處理歸一化層,從而有效捕捉CHFs之間的線性特征,該分支的輸出稱為F2.為在交互特征提取分支中提取MFCCs和HCFs之間的交互互補特征表征,使用1D卷積塊分別處理MFCCs和HCFs,輸出式(1):

其中:δ為非線性激活函數,B為批量歸一化層.再使用全局拼接層將MFCCs和HCFs的1D卷積輸出組合在一起,獲得的輸出F(x)包含全局上下文信息,公式為:

拼接完成后,該模型通過交互卷積學習通道和空間感知上下文,即在信道交互卷積過程中,沿著通道軸進行卷積,公式為:

空間交互卷積時,首先將G(x)重塑為G′(x),新的形狀為W×2C×H,通過沿H軸的卷積得到空間感知特征,公式為:

最后,將生成的全局、通道和空間感知特征聚合在平坦的級聯層,并后接一個全連接層.將交互特征提取分支的輸出稱為F3.

其中:Ft為平坦的級聯層,Fc為全連接層.

2.3 AFFM

受前人工作[4,18]啟發,通過學習不同輸出之間的跨通道和跨token的信息生成注意力特征融合權重.為有效融合CFLF中輸出的三個分支F1、F2、F3,并充分利用MFCCs和HCFs中的獨立表征和交互互補表征中的情感信息,使用了基于注意力機制[23]的AFFM.圖3為AFFM結構圖.

圖3 AFFM結構圖

將CFLF輸出的F1、F2、F3特征組合成一個全局向量F(x):

將F(x)作為AFFM的輸入.F(x)首先被重塑為F′(x),其形狀為B×H×1.使用逐點卷積(Point-Wise Convolution,PWConv)聚合通道和跨token交互,逐點卷積的輸出為:

經逐點卷積后,獲得的輸出分別沿通道軸和token軸進行平均池化,再經sigmoid函數,公式為:

其中:σ是sigmoid函數.為生成跨通道和跨token上下文信息,將O(x)、CO(x)和TO(x)相乘:

AFFM中使用了兩個PWConv層,每個PWConv層具有大小為3×3的內核.假設兩個PWConv層的輸出均為G(x),在G(x)后應用全局平均池化(Global Average Pooling,GAP)生成通道注意力權重,公式為:

經GAP后,全局跨通道上下文信息被壓縮為一個標量,從而強調CFLF中三個支路的輸出對后續情感識別的不同貢獻,最后使用跳躍連接對特征進行細化.為了盡可能地保持已提取的情感特征并強調通道的可選擇性,將AFFM中短跳躍連接看作是模型輸出的映射.給定注意力特征融合權重,細化后的特征表示為:

最后獲得的F′是輸入后續情感分類器的情感表征,它包含了MFCCs和HCFs的獨立性表征和交互互補表征,并根據不同表征在情感識別中的貢獻被分配了不同的權重.

3 實驗設置與數值結果

3.1 實驗設置

使用IEMOCAP和Emo-DB數據庫[24-25]測試所提SER模型.IEMOCAP由5個環節組成,每個環節由兩位演講者(1女1男)完成.共包含10 039個話語,其持續時間從3秒到15秒不等.此外,本文只選擇了中性、憤怒、悲傷和快樂四種情緒標簽的話語.Emo-DB由10位專業演員制作的535個話語組成,涵蓋7個情感類別,以16千赫頻率采樣,平均持續時間為2.7秒.

試驗中80%的數據用于訓練,20%的數據用于測試.由于CNN的輸入必須保持長度一致,故我們對所有的樣本進行了填充或切割操作以保證每條語音長度一致.采用UA和WA性能指標評價實驗結果.為對比不同文獻中的特征表征提取、特征融合方法的性能,證實本文提出的CFLF和AFFM的SER模型的有效性,我們設計了四個SER模型:

1)基線模型[15]:將兩種輸入特征使用兩條獨立分支進行處理,提取獨立性表征,輸入情感分類器.

2)全連接模型[16]:在基線模型的兩條獨立分支后增加一個全連接層,以融合兩個支路輸出.將融合輸出和兩個獨立性表征聯合以輸入情感分類器.

3)聯合微調模型:受聯合微調方法[17]的啟發,提出了聯合微調模型,該模型和全連接模型結構相同,但是在兩條分支權重凍結情況下重新訓練全連接層來微調.

4)本文模型:使用CFLF和AFFM,得到最終的加權表征以進行情感分類.

以上模型均在IEMOCAP和Emo-DB上進行訓練,選取的情感特征均為MFCCs和openSMILE提取的HCFs,末端情感分類器均使用SVM.此外,與近期研究[11-12,14]中提出優化特征提取方法的模型進行了對比.

3.2 數值結果

表1展示了四個SER模型、僅使用CFLF塊的本文模型及其它研究實驗的數值結果.相比前人[15-17]的提取互補特征方法,本文所提CFLF結合AFFM的SER模型取得了更好的情感識別結果,即使僅使用CFLF也比大多數模型效果好.可見采用CFLF獲取到的不同特征的獨立性和互補性表征能夠包含更加充分的情感信息,使用AFFM來融合不同表征能夠讓模型有效地選擇更具有影響力的情感表征進行識別.

表1 不同模型比較

為了探究SER模型中AFFM和CFLF的有效性,進行了消融實驗.使用基線模型、僅使用CFLF的模型和使用CFLF結合AFFM的模型進行實驗.由表2可知,僅使用CFLF時,模型性能也優于基線模型,可見提取出的交互互補特征表征的加入有助于提升情感識別性能.而同時使用CFLF和AFFM時,模型性能進一步提高,說明AFFM能夠合理地為獨立情感表征和交互互補情感表征分配權重,從而有效地幫助模型關注到對情感識別貢獻度更大的情感表征.

表2 消融實驗

4 總結與展望

為提取出不同特征之間的互補信息,使用了具有交互特征提取分支和兩個獨立性特征提取分支的CFLF,獲得了獨立性和互補性的特征表征.這有利于全面提取語音信號中的情感信息.而AFFM則是根據不同表征的貢獻來為表征分配權重,讓SER模型更集中注意在有效的情感特征上.然而本文僅集中在特征的互補性上和權重分配上,對分類器的研究仍有欠缺,后續研究中會考慮使用深度學習框架來設計分類器.

猜你喜歡
分支特征提取分類器
巧分支與枝
基于Daubechies(dbN)的飛行器音頻特征提取
BP-GA光照分類器在車道線識別中的應用
一類擬齊次多項式中心的極限環分支
Bagging RCSP腦電特征提取算法
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于MED和循環域解調的多故障特征提取
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
生成分支q-矩陣的零流出性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合