?

基于圖神經網絡和注意力的雙模態情感識別方法

2023-03-24 13:24李路寶陳田任福繼羅蓓蓓
計算機應用 2023年3期
關鍵詞:分類器注意力準確率

李路寶,陳田,任福繼,羅蓓蓓

(1.合肥工業大學 計算機與信息學院,合肥 230601;2.情感計算與先進智能機器安徽省重點實驗室(合肥工業大學),合肥 230601;3.德島大學 理工學部,德島 770-8506,日本)

0 引言

近年來,隨著人機交互技術的發展和人工智能的興起,情感計算逐漸成為人工智能領域的研究熱點。在高級別人機交互過程中,人們希望賦予機器更多的情感,而情感識別是實現高級人機交互的關鍵技術。另外,如抑郁癥、自閉癥等精神疾?。?-2]都與情感有一定程度的關聯。所以,對于情感識別的研究有很多重要的現實意義。

生理信號和非生理信號在情感識別中應用廣泛。因為人類無法主觀控制生理信號的變化,無法隱藏自己的外在行為和舉止,從而表現出更高的可靠性,所以生理信號更適用于情感識別。而大腦是中樞神經系統的主要組成部分,與情感的產生密切相關,大腦皮層的不同區域對情感的貢獻程度不同[3]。因此如何有效地利用腦電(ElectroEncephaloGram,EEG)信號包含的情感信息,是本文需要解決的問題。

雖然EEG 信號可以更真實、準確地反映人的情感信息,但是腦電信號是非穩態隨機信號,不同人的EEG 信號存在較大的差異,同一個人的EEG 信號在不同時間也存在較大的差異,因此利用單一模態信號的模型仍然很難應用于實際生活。不同的生理信號可以反映情感的不同方面,為了獲得更好的情感識別率和更穩定的模型,科研人員探索了將EEG信號與其他生理信號融合的方法[4],如心電(ElectroCardioGram,ECG)、眼電(ElectroOculoGram,EOG)、皮膚電(Galvanic Skin Response,GSR)等。而ECG 作為常用生理信號之一,包含了豐富的情感信息,也是情感計算領域研究的熱點。EEG 和ECG 都包含了豐富的情感信息,從不同維度反映了人的情感狀態,綜合利用這些信息可以準確地檢測人的當前狀態。Koelstra等[5]利用音樂視頻片段激發參與者的情感,收集了32 名參與者的EEG、外周生理信號和面部表情等信息,然后對EEG 和外周生理信號分別構建分類器,融合每個分類器的結果獲得最終的輸出。實驗結果表明,基于多模態的情感識別準確率比單模態的情感識別更高。但是模型的識別率仍然難以滿足實際應用需要,提高情感模型識別的準確率仍然充滿挑戰。

針對以上問題,本文提出一種基于圖神經網絡(Graph Neural Network,GNN)和注意力的多模態情感識別方法。本文的主要工作包括:1)受神經科學啟發,利用EEG 通道的空間拓撲關系構建GNN,充分挖掘EEG 信息與情感之間的關聯,提升腦電情感的識別率;2)設計了一種多模態融合方法,利用EEG 和ECG 信號的互補性,同時在模型中融入注意力機制,在一定程度上提升了情感識別的準確率。

1 相關工作

自情感計算理論提出以來,相關的理論都得到了快速發展。神經科學研究表明,大腦結構功能與情感密切相關[6-7],情感類別與大腦皮層和皮層下的神經系統活動有特殊的關系[8],因此可以將EEG 信號應用于情感識別。而EEG 信號是放置在頭皮上的多個電極記錄的大腦皮層的電勢變化,原始信號無法直接進行情感識別,因此需要對采集的原始EEG信號進行相應處理,然后根據相關領域的知識設計并提取特征,并根據不同的算法構建模型對這些特征進行分類。

目前,使用生理信號中不同的特征和分類方法進行情感識別已經取得了很多成果。Pereira等[9]從EEG 信號中提取高階交叉熵(Higher Order Crossing,HOC),利用支持向量機(Support Vector Machine,SVM)作為分類器,研究不同情緒刺激時間對情感識別率的影響。Krisnandhika等[10]使用相對小波能量作為特征值,利用改進后的神經網絡作為分類器,取得了較好的識別效果。Chen等[11]使用Lempel-Ziv 復雜度、小波細節系數、協整關系度以及經過經驗模態分解之后的近似熵作為特征值,然后使用LibSVM 分類器進行分類,最后使用模糊積分融合每個通道的分類結果,對于arousal 和valence的平均識別率分別為74.88%、82.63%。

大腦中多個功能器官或區域共同發揮作用,而GNN 可以很好地表示這種拓撲結構之間的關系,更好地模擬大腦的機制,為探索EGG 情感識別提供一種潛在的途徑。Song等[12]將圖卷積神經網絡用于EGG 情感識別,提出了動態圖卷積神經網絡(Dynamical Graph Convolutional Neural Network,DGCNN),通過訓練神經網絡來動態學習不同EGG通道之間的內在關系,模型在SEED 數據集(SJTU Emotion EEG Dataset)上取得了較好的識別效果。Zhong等[13]提出用于EGG 情感識別的正則圖神經網絡(Regularized Graph Neural Network,RGNN),RGNN 考慮了不同大腦區域之間的生物拓撲結構,以捕獲不同EEG 通道之間的局部和全局關系;同時提出了兩種正則化方法節點域對抗訓練和情感感知分布學習,提高了模型的魯棒性。

人類通過快速掃描全局圖像,獲得需要重點關注的目標區域,然后對這一區域投入更多注意力以獲得關注目標更多的細節信息。深度學習中的注意力機制與人類的視覺注意力機制類似,可以從眾多信息中選擇與當前目標更相關的信息。本文將注意力機制應用于模型中,使模型關注對分類結果影響更大的特征,以提高情感識別的準確率。

情感與生理信號變化有密切的聯系,不同生理信號反映不同的情感信息,所以多模態融合的方法能充分利用各種信息的互補性,提高模型的準確率和魯棒性。Katsigiannis等[14]利用視頻刺激受試者,獲取EEG 和ECG 信號,再從EEG 信號中提取功率譜密度(Power Spectral Density,PSD)特征,然后融合ECG 信號的心率變異度(Heart Rate Variability,HRV)和心率(Heart Rate,HR)特征。實驗結果表明,該方法在arousal 維度上的識別準確率優于單模態EEG 和ECG 方法。

2 本文方法

2.1 整體結構

本文方法的總體流程如圖1 所示。首先對EEG 信號進行預處理,提取信號的特征;然后利用EEG 通道的空間拓撲關系構建鄰接矩陣;最后將數據送入GNN,對模型進行訓練。由于ECG 數據通常是單通道或者雙通道,無法構建有效的圖模型,所以本文根據ECG 信號的特點,使用基于注意力的雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)網絡進行分類,提取了時域特征HR 和頻域特征HRV;然后利用基于注意力的Bi-LSTM 對數據進行分類;最后利用Dempster-Shafer 證據理論對EEG 和ECG 信號分類的結果進行融合,獲得情感識別的結果。

圖1 本文方法的總體流程Fig.1 Overall flow of proposed method

2.2 腦電情感識別

本文提取了腦電信號在5 個頻段Delta(1~3 Hz)、Theta(4~7 Hz)、Alpha(8~13 Hz)、Beta(14~30 Hz)、Gamma(31~43 Hz)上的微分熵(Differential Entropy,DE)特征。DE 是香農熵的擴展,通常用于測量連續隨機變量的復雜性,文獻[15]的研究表明DE 能夠準確和穩定地反映腦電信號的情感信息。DE 的計算如式(1)所示:

其中:p(x)為連續信息的概率密度函數;[a,b]為信息取值區間。

對于一段特定長度近似服從高斯分布x~N(μ,σ2)的單通道EEG 信號,它的DE 如下:

圖2 為廣泛采用的國際10-20 系統電極位置分布圖[16]:圖2(a)、(b)是以顱骨為參照的電極空間位置分布圖;圖2(c)為電極的平面分布圖。之前的研究大部分都是建立在圖2(c)上,但是這樣會忽略腦電信號的空間信息。

圖2 國際10-20系統電極位置分布Fig.2 Electrode placement of international 10-20 system

本文利用圖的鄰接矩陣A∈Rn×n表示EEG 通道的空間拓撲關系,n為EEG 信號中的通道,圖中的一個節點表示EEG 信號的一個通道,圖的邊Aij表示兩個EEG 通道i和j之間的關系。根據國際10-20 系統電極位置分布初始化鄰接矩陣,存在連接的電極之間邊的權重為1,然后根據式(3)給鄰接矩陣重新賦值權重。文獻[17]中的研究表明,大腦不同區域之間的強度連接通常和兩個區域之間的距離成平方反比關系。

其中:dij表示兩個通道之間的空間距離;α是正則化常數。

圖卷積部分采用切比雪夫卷積核[18]。切比雪夫多項式代替譜域卷積核后,由于不需要對拉普拉斯矩陣作特征分解,大幅降低了參數的復雜度。卷積核具有嚴格的空間局部性,取當前節點鄰近K個距離的鄰居節點作為鄰域。給定一個圖G=(V,E,A),其中:V為圖的所有節點;E為圖的所有邊。GNN 學習輸入數據X的特征,并輸出Z∈Rn×d,d為輸出特征的維度。在GNN 的相鄰層之間的特征變換表示為:

其中:i=0,1,…,L-1;L為圖卷積的層數;f為學習的函數。Kipf等[19]進一步優化得到了標準的圖卷積網絡。

其中:D是A的對角矩陣;W是每一層可訓練的參數矩陣;σ是激活函數。

模型每一層中參數設置如下:EEG 通道數為32;卷積核數量為32,卷積核為二階切比雪夫多項式。二階切比雪夫多項式可以使模型保持較好的準確率和局部性,同時加快模型訓練的速度。特征使用腦電所有5 個頻道的微分熵。在訓練過程中,使用Adam 優化器,BReLU(Bipolar Rectified Linear Unit)作為激活函數。BReLU 將輸入空間劃分為更多的線性區域以充分捕捉輸入信息,很好地逼近了非線性函數[20]。學習率設置為0.001,Dropout rate 設置為0.3,GNN layers 設置為2,整個模型在Pytorch 上實現。

2.3 心電情感識別

為進一步提高情感識別的準確率,本文同時使用ECG信號作為情感識別的另一個維度。ECG 信號是典型的時間序列信號,一個完整周期的ECG 信號通常由P 波、Q 波、R 波、S 波、T 波組成。首先,對采集到的ECG 信號使用15 s 的滑動窗口進行切片,獲取4 200 個樣本;然后,根據湯普金斯QRS檢測算法[21]從預處理的樣本中提取ECG 信號的5 個波形;最后,提取ECG 信號的HR 和HRV 特征。

由于ECG 信號前后之間存在一定的聯系,而GNN 不善于處理信號的前后聯系,因此在處理ECG 信號時并不高效。而長短期記憶(Long Short-Term Memory,LSTM)可以有效地解決這個問題。LSTM 是一種特殊類型的循環神經網絡(Recurrent Neural Network,RNN),通過門控機制集合短期記憶與長期記憶,能夠有效地處理時間序列并提取隨時間變化的特征。圖3 為LSTM 單元結構圖,h(t)代表短期記憶,c(t)代表長期記憶。LSTM 單元根據前一個時刻的短期記憶h(t-1)、長期記憶c(t-1)和當前時刻的信息x(t)來計算本單元輸出的短期記憶h(t)、長期記憶c(t)和輸出結果y(t)。每個單位時間步長后,由輸入門i(t)、輸出門o(t)和遺忘門g(t)控制信息的流向。采用σ(·)作為激活函數,輸出范圍為[0,1]。

圖3 LSTM單元結構Fig.3 LSTM cell structure

遺忘門由f(t)控制,前一時刻的短期記憶和當前時刻的輸入信息通過遺忘門決定長期記憶有多少信息被遺忘:

其中:W代表每個輸入的權重向量;b是偏置向量;σ是激活函數。

輸入門由i(t)控制,它由兩部分組成,第一部分通過σ(·)確定要更新的值,第二部分通過g(t)確定哪些可以被添加到長期記憶。

輸出門由o(t)控制,前一時刻的短期記憶、長期記憶和輸入狀態共同決定輸出的短期記憶和本單元的輸出。

LSTM 可以根據前一個時間段的信息預測下一個時間段的信息。有時信號當前的輸出不僅與之前的狀態有關,還與之后的狀態有關。而Bi-LSTM 結合前向和后向LSTM,前向LSTM 以正序輸入序列,后向LSTM 以逆序輸入序列,從而提取了歷史特征和未來特征,具有提取全局特征的能力。本文將基于注意力機制的Bi-LSTM[22]應用到情感分類,并且利用注意力關注對分類影響更重要的特征。

基于注意力的Bi-LSTM 網絡結構如圖4 所示。輸入數據是從ECG 信號提取的特征HR 和HRV,網絡中LSTM 層包含10 個隱藏神經元,使用Softmax 作為激活函數,Adam 作為優化器,學習率為0.01,注意力層位于Bi-LSTM 層之后,可以產生一個權重向量,與輸入特征結合產生新的特征向量。

圖4 基于注意力的Bi-LSTM網絡結構Fig.4 Network structure of attention-based Bi-LSTM

其中:β表示注意力層后的加權向量;H∈Rd×T為LSTM 的隱藏神經元。

2.4 決策融合

為進一步提高情感識別率,并充分利用不同生理信號包含的情感信息,本文利用Dempster-Shafer 證據理論對EEG 和ECG 信號分類的結果進行決策融合。Dempster-Shafer 證據理論是一種對不確定信息作智能處理和數據融合的方法,在可信度分配的理論框架下,將證據之間的沖突性問題納入考慮和計算范圍,對多源和不確定性信息的處理效果較好。

本文分別在arousal 和valance 維度進行分類,每個維度有兩類:低/高效價(m1(A)/m1(B))和 低/高喚醒 度(m2(A)/m2(B))。根據Dempster-Shafer 證據理論,一個分類器所有可能識別的結果用集合表示P={p1,p2,…,pn},n個分類組合共有2n個子集。Dempster-Shafer證據理論對識別框架中的每一個假設類別都分配了一個基本概率分配值(Basic Probability Assignment,BPA)。m(·)是子集上對應的概率分配函數。

本文對腦電信號和心電信號分別使用類不同的模型進行識別,m1(·)和m2(·)分別代表每個分類器的置信水平,每個類別的BPA 值是分類器的分類結果。根據Dempster-Shafer 計算法則,每個類別的最終BPA 函數計算過程如式(14)~(15)所示,分別代表所有分類器累加產生相同結果的BPA 函數。

當兩個分類器融合的值存在沖突時,根據圖神經網絡分類的情況作為最終分類的結果,因為基于EEG 的情感識別模型在證據方面優于基于ECG 的情感識別模型。

3 實驗與結果分析

3.1 實驗材料和設置

為了獲取本文所需的可靠數據,邀請了20 名受試者參與本次生理信號采集實驗,其中,男性13 名、女性7 名。參與者均為在校大學生,無任何神經損傷和精神疾病,且實驗前未飲用刺激性酒水,睡眠質量較好。實驗設備主要為Emotiv Epoc Flex 腦波儀和心電信號采集器。Emotiv Epoc Flex 腦波儀采樣頻率為128 Hz,可以同時采集多通道腦電信號;心電信號采集器通過兩個貼在左右手腕脈搏上的電極貼片采集人的心電信號。實驗人員精心選擇了25 個視頻片段來激發5 種情感:輕松、快樂、憤怒、厭惡和悲傷,每種情感共5 個視頻。

圖5 為參與者需要進行的情感激發實驗整體流程。在進行所有實驗前,每位參與者都要填寫問卷調查表,并佩戴實驗器材。正式播放每個視頻前,每位參與者有5 s 保持專注,5 s 后播放視頻。播放視頻時,參與者需要盡量減少身體移動。播放完每個視頻后,每位參與者有60 s 根據自己的感受對該視頻激發的效果打分。參與者被要求在valence 和arousal 兩個維度上打分,其中:valence 的范圍為1~9,代表參與者感到幸福程度,即從悲傷到高興;arousal 的范圍為1~9,代表情感的強弱程度,即從消極到積極[23]。

圖5 情感激發實驗流程Fig.5 Emotion elicitation experimental procedure

對于數據的標簽,本文根據參與者在valence 和arousal維度上的分數,以5 分作為中點,將每個維度分為兩類,即低/高效價(沮喪/快樂)和低/高喚醒(平靜/喚醒)。本文采用準確率和方差作為模型性能的評價指標。在對情緒識別模型的評估中,將實驗數據劃分為K折交叉驗證,其中每個折中包含的每個類別數據的百分比與整個數據集的百分比大致相同。本文數據量不大,K折較小時,可能導致建模的數據量太小。本文實驗了多種情況,當K=10 時,模型的方差和準確率達到相對穩定;當K繼續增大時,方差增大,模型的泛化能力下降。因此最后K的取值為10。

3.2 性能分析

圖6 為使用GNN 模型在基于EEG 的情感識別中arousal維度和valence 維度訓練準確率和損失率的變化。關于GNN模型設置,Batch size 為100,最大迭代次數為100。從圖6 可以看出,arousal 在迭代30 次后趨于穩定,valence 在50 次迭代后準確率和損失率趨于穩定。最終在arousal、valence 維度的準確率為87.89%、89.45%。

圖6 在arousal和valence維度的準確率和損失率Fig.6 Accuracy and loss in arousal and valence dimensions

表1 為單模態EGG、ECG 方法與本文多模態融合方法的情感識別準確率結果。相較于單模態情感識別方法,本文方法的平均準確率更高。本文根據不同生理信號的特點使用了不同的分類器,最后融合GNN 和基于注意力的Bi-LSTM 的分類結果,在valence 和arousal 維度上的準確率分別達到了91.82% 和88.24%,相較于單模態EEG 方法分別提高了2.65% 和0.40%,相較于單模態ECG 方法分別提高了19.79%和24.90%,從而驗證基于融合策略的多模態情感識別可以提高單模態情感識別的準確率。

表1 不同方法的準確率對比 單位:%Tab.1 Comparison of accuracy of different models unit:%

為了進一步驗證本文方法的有效性,在兩個公開數據集SEED[24]、SEED-IV[25]上進行對比實驗。表2 為本文方法與DGCNN[12]、深度信念網絡(Deep Belief Network,DBN)[24]分類的準確率和標準差??梢钥闯?,本文方法均優于對比方法。原因是基于空間拓撲關系的鄰接矩陣可以更好地建模大腦皮層與情感之間的關系,提高情感分類的準確率。

表2 不同數據集上分類的平均準確率和標準差 單位:%Tab.2 Average accuracy and standard deviation of classification on different datasets unit:%

由于注意力機制主要應用在ECG 分類中,為了驗證注意力機制對方法的提升效果,本文進行了消融實驗。將Bi-LSTM 和基于注意力的Bi-LSTM 在相同的數據集上對比,方法其他參數設置同上文。實驗結果如表3 所示??梢钥闯?,添加注意力機制后,方法在valence 和arousal 維度上分類的準確率都有一定提高。原因是注意力機制可以調整不同特征的權重,使方法更加關注對結果影響更大的特征。

表3 消融實驗準確率對比 單位:%Tab.3 Comparison of accuracy in ablation experiment unit:%

3.3 與其他方法的比較

表4 為本文方法與其他多模態融合分類方法的比較。因為本文使用的是自建數據集,所以與對比方法中使用的數據集并不相同。當使用一種類型的信號時,即EEG、ECG 或者單個分類器時獲取的信息有限。文獻[26]中提出了一種堆疊情感分類方法,其中集成了XGBoost、LightGBM 和隨機森林等不同的分類模型來學習特征。文獻[27]方法融合EEG 信號和GSR 信號以提高情感分類的性能。文獻[28]中提出了一種基于ECG 的自動情感識別算法,將從時域和頻域中提取的生理ECG 特征以及ECG 信號的非線性分析用于尋找與情緒相關的特征并將它們與情緒狀態相關聯。文獻[29]中使用了多種EGG 相關的特征,使用LIBSVM 和Bi-LSTM 作為分類器。相較于對比方法,本文方法在valence和arousal 維度上的準確率取得了最優,至少提高了7.54%和13.83%。

表4 不同多模態方法的準確率對比 單位:%Tab.4 Comparison of accuracy of different multimodal methods unit:%

本文方法優于其他方法的原因在于:1)GNN 可以更好地模擬大腦的機制,提高腦電情感識別的準確率,同時融入了注意力機制,可以在分類過程中更好地關注對于結果影響更重要的特征;2)不同生理信號之間具有互補性,可以提高情感識別的準確率。

4 結語

本文提出一種基于GNN 和注意力的方法,首先,利用EEG 電極之間的空間拓撲結構構建鄰接矩陣,在GNN 中融入注意力機制,關注對于結果影響更大的區域;然后,對于ECG 信號使用基于注意力的Bi-LSTM 方法進行情感識別;最后,通過Dempster-Shafer 證據理論融合不同生理信號分類的結果,并獲得最終的情感識別結果,提高了情感識別的性能。實驗結果表明,多模態生理信號的融合可以提高情感識別的準確率,優于單模態識別的準確率,體現了多模態融合的優越性。在未來的研究中,可以考慮如何利用異構GNN 對多模態生理信號進行統一建模,研究不同生理信號之間對模型識別率的影響。

猜你喜歡
分類器注意力準確率
讓注意力“飛”回來
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
高速公路車牌識別標識站準確率驗證法
BP-GA光照分類器在車道線識別中的應用
“揚眼”APP:讓注意力“變現”
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合