?

基于混合神經網絡的腦電時空特征情感分類*

2021-02-25 12:16陳景霞張鵬偉閔重丹李玥辰
軟件學報 2021年12期
關鍵詞:網狀效價卷積

陳景霞,郝 為,張鵬偉,閔重丹,李玥辰

(陜西科技大學 電子信息與人工智能學院,陜西 西安 710021)

近年來,隨著深度學習、人工智能技術的發展,情感識別已經成為人機交互和情感計算領域一個備受關注的研究熱點.情感識別是理解一個人所表達的情感類型的過程,開發高效、魯棒的人類情感識別算法,將對人機交互方式產生重大影響[1].在人機交互應用程序中引入自動情感識別技術,可以顯著提高用戶體驗的質量,帶來更多感知情感的計算機交互界面,并且可以實現許多基于情緒感知、情緒調節的控制功能.腦電圖(electroencephalogram,簡稱EEG)是一種非侵入性腦成像技術,依賴于頭皮的電極來測量大腦的電生理活動,其中包含了大量的生理、心理與病理信息.神經生理學、心理學大量研究發現:人類情感的產生及活動與大腦皮層的活動相關度很大,人類不同的認知和情感活動能夠誘發產生不同的EEG 信號,對其進行有效的特征提取與分類,可以達到情感腦-機接口控制的目的[2,3].與人類的面部表情、語音、心電、核磁等生理信號相比,EEG 信號由于其客觀性強、不易偽造、采集設備便攜、易于操作、成本低等優點,正越來越多地被應用到人類情感的識別中[4].

腦電圖信號的處理與識別具有極大的挑戰性.首先,EEG 信號具有很低的信噪比,容易受到多種噪聲的干擾.例如:敏感的記錄設備很容易受到周圍環境的干擾,而且肌肉活動、眼球運動或眨眼都可能帶來其他不必要的噪音;其次,人們往往只對特定大腦活動相關的EEG 信號感興趣,但是卻很難從背景中將這個信號分離出來.雖然EEG 信號在頭皮上空間分辨率較低,但它較高的時間分辨率(毫秒級)可以記錄緩慢或快速變化的大腦活動動態[5].因此,為了確定和提取EEG 信號中與特定大腦活動或情感相關的部分,需要復雜的EEG 信號分析與處理技術,既要考慮EEG 信號空間的相關性,也要考慮時間上的相關性.

近年來,深度學習技術由于具有很強的端對端自學習復雜特征表示的能力,避免了大量手工特征提取,在計算機視覺、自動語音識別、自然語言處理和生物信息學等領域的識別任務中取得了巨大的成功[6-8].卷積神經網絡(convolutional neural network,簡稱CNN)是當前識別圖像和視頻數據的最佳架構的核心,這主要是因為它們能夠學習并提取對輸入數據的部分平移和變形具有魯棒性的特征表示[9].而循環神經網絡(recurrent neural network,簡稱RNN)和長短時記憶網絡(LongShortTerm memory,簡稱LSTM)在許多涉及時間序列動力學的應用中表現出了最先進的性能,如文本和語音識別[7]、信息抽取與語義分析[10]等.此外,文獻[11]中,Ng 等人將這兩種類型的網絡相結合用于視頻分類,并且取得了較好的效果.

隨著便攜式腦電采集技術和設備的出現,大規模腦電數據變得更易獲取,CNN,RNN 和LSTM 等深度學習技術也越來越多地應用于腦電圖時間序列的分類與識別中.Bashivan 等人[12]針對認知和精神負荷分類實驗中采集的EEG 數據,提出了一種深度遞歸卷積神經網絡R-CNN,從EEG 序列中學習那些對于時、空、頻這3 個維度的變化都不敏感的魯棒性特征,其分類錯誤率比他們之前采用的支持向量機和隨機森林的錯誤率降低了50%以上.Ryan 等人[13]采用基于LSTM 的深度循環神經網絡來解釋認知相關腦電信號在時間上依賴性,從而顯著提高了跨天采集的EEG 特征的穩定性,其被試內的平均分類準確率達到93%.Dalin 等人[14]提出了一種深度卷積循環神經網絡模型,通過有效地學習原始EEG 數據流時空相關特征表示,來準確地識別人類運動意圖,在MI-EEG 數據集上取得了98.3%的被試依賴的分類準確率,其性能均高于其他簡單分類器和別的基于深度學習的EEG 分類模型.Lawhern 等人[15]提出了一種沒有完全連接層的多層純卷積神經網絡的應用,該方法在基于P300 的oddball 識別任務、手指運動任務中運動相關皮層電位識別和運動想象中感官運動節律識別等范式中都取得了目前為止最好的性能.上述方法都為基于EEG 的情感識別提供了有益的參考.

Alhagry 等人[16]提出了一種基于LSTM 長短時記憶結構的深度循環神經網絡,在DEAP 公開數據集上,喚 醒/效價/喜歡這3 個情感維度上依賴于被試的平均分類準確率分別達到85.65%,85.45%和87.99%,與傳統方法相比,該方法具有較高的平均精度.Soleymani 等人[17]提出利用LSTM-RNN 和連續條件隨機場(CCRF)算法,從被試的腦電信號和面部表情即時檢測被試觀看視頻時情感狀態的方法,取得了較好的效果.Salama 等人[18]采用一種三維卷積神經網絡(3D-CNN),針對多通道腦電圖數據進行情緒識別,在效價和喚醒上的識別準確率分別為87.44%和88.49%.本文作者也曾采用深度CNN 模型[19],基于DEAP 數據集EEG 信號時域、頻域及其組合特征,端對端自學習這些特征的高層抽象表示,在效價和喚醒度上的分別取得了88.5%和86.7%的識別準確率.在文獻[20]中,我們還采用了一種基于注意力機制的多層雙向GRU(gated recurrent unit)模型對DEAP 數據集中連續的EEG 序列信號進行情感識別.實驗證明,該模型能夠有效降低EEG 序列長時非穩定性對情感識別的影響.上述這些方法都在一定程度上提高了EEG 情感分類的性能,但是還沒有一種模型能夠有效地在空間、時間和頻域上同步學習腦電信號情感相關的判別性特征,進一步提高基于EEG 的情感識別的準確率和魯棒性仍然面臨較大的挑戰.

本文提出一種新的腦電圖數據表示方法,將一維鏈式EEG 序列轉換成二維網狀矩陣序列,使矩陣結構與EEG 電極位置的腦區分布相對應,以此來表示EEG 信號物理上多個相鄰電極之間的空間特征.再應用滑動窗采樣的方法將二維矩陣序列分成一個個等長的時間片段,作為新的融合了EEG 時空相關性的數據表示.本文還提出了級聯卷積-循環神經網絡(CASC_CNN_LSTM)與級聯卷積-卷積神經網絡(CASC_CNN_CNN)這兩種深度學習模型,二者都通過CNN 卷積神經網絡從轉換的二維網狀EEG 數據表示中捕獲物理上相鄰腦電信號之間的空間相關性,而前者通過LSTM 循環神經網絡學習EEG 數據流在時序上的依賴關系,后者則通過CNN 卷積神經網絡挖掘局部時間與空間更深層的相關判別性特征,從而精確識別腦電信號中包含的情感類別.

1 本文提出的方法

1.1 二維EEG網狀特征轉換

基于EEG 的情感腦-機接口系統通常使用便攜式可穿戴的多通道電極帽采集EEG 信號,當被試者觀看刺激視頻時,電極帽上的傳感器捕獲被試大腦頭皮電流的波動情況.本文提出的EEG 信號采集與特征轉換的總體流程如圖1 所示,其中,EEG 電極地圖顯示了一種BCI 常用電極帽上的電極位置分布.不同BCI 系統的腦電記錄通道數量不同,其電極的分布也有所不同.

Fig.1 EEG data acquisition and pre-processing process圖1 腦電數據采集和預處理流程

EEG 采集系統獲取的傳感器讀數表示一定采樣頻率下的腦電信號時間序列.通常,時間點t采集的原始 EEG 信號用一個一維數據向量表示,其中,n表示采集系統的通道總數,表示第n個電極通 道在第t個時間點的讀數.對于觀測時間段[t,t+N-1],共有N個一維這樣的數據向量,每一個向量都包含n個元素,對應電極帽上第n個電極的讀數.

從EEG 頭皮電極分布圖可以看出:每個電極在物理上都與多個電極相鄰,用于測量大腦某一區域的EEG 信號,而且不同的大腦區域對應于不同的大腦活動.上述一維鏈式EEG 數據向量僅能表示兩個相鄰電極位置的相關性,因此,本文根據EEG 采集系統的電極空間位置關系,將獲取的一維原始腦電序列轉換為二維網狀矩陣序列.本文將32 通道一維EEG 數據向量Xt轉換成如下所示的二維網狀矩陣Yt:

其中,t表示某一具體的時間點,沒有使用的電極位置被置為0,在神經網絡中不起作用.通過轉換,觀測時間段[t,t+N-1]內的一維EEG 向量序列[Xt,Xt+1,…,Xt+N-1]被轉換成二維矩陣序列[Yt,Yt+1,…,Yt+N-1],其中,二維網狀矩陣的數量仍然是N.再通過Z-score 算法對該二維矩陣中的非零數據進行歸一化處理,這樣產生的二維網狀矩陣序列既包含了時間信息,又包含了該時間點相關大腦活動的空間信息.然后,如圖1 的最后一步所示,應用滑動窗將二維網狀矩陣序列劃分為一個個單獨的片段Pj,作為融合了時空特征的一個EEG 樣本,每個片段具有固定長度(窗口大小),而且相鄰兩個片段之間不重疊,具體表示為Pj=[Yt,Yt+1,…,Yt+s-1].其中,s表示窗口的大小,即采樣點的個數;j=1,2,…,q,q是觀測時間段被劃分成EEG 樣本片段的個數.本文將進一步提出一種有效的混合深度學習模型,同時學習每個樣本的矩陣序列Pj在時間和空間上的相關性特征,并預測每個樣本片段被試對應的情感類別.

1.2 Casc-CNN-LSTM級聯卷積循環神經網絡模型

本文首先提出用來學習捕獲EEG 序列的空間和時間特征的Casc-CNN-LSTM 的模型結構,如圖2 所示.模型的輸入是經過上述預處理的二維網狀矩陣序列(如樣本Pj),它是一個包含了空間和時間信息的三維數據結構.首先,采用CNN 網絡從每一個二維網狀矩陣中提取EEG 數據的空域特征;然后,將提取的空間特征序列輸入到LSTM 網絡,進一步提取EEG 數據的時域特征;最后,通過一個全連接層接收LSTM 網絡最后一個時間點的輸出,得到的特征向量再輸入到一個softmax層進行最后的情感類別預測.

為了提取每一個二維網狀矩陣的空間特征,我們采用如圖2 所示的一個深度二維CNN 網絡進行空間特征學習.如上所述,輸入模型的第j個EEG 片段用二維網狀矩陣序列Pj=[Yt,Yt+1,…,Yt+s-1]∈Rs×h×w表示,其中包含s個Yk(k=t,t+1,…,t+s-1)表示的二維網狀矩陣元素,其大小是h×w,h和w分別表示電極位置網狀矩陣的高和寬.將每一個網狀矩陣分別輸入到一個2D-CNN 網絡,經學習得到對應的空間特征表示Zk(k=t,t+1,…,t+s-1):Zk=CNN2D(Yk),Zk∈Rl.Zk是一個包含l 個元素的一維特征向量.由此,輸入的EEG 矩陣序列被轉換成空間特征向量的序列:Cas-CNN:Pj→Qj,whereQj=[Zt,Zt+1,…,Zt+s-1]∈Rs×l.該2D-CNN 模型包含4 個卷積層,每層分別采用16,32,64,128 個大小都是3×3 的卷積核進行非填充的卷積操作,每一層都采用ReLu激活函數和Adam 優化器,學習率取0.0005.經過學習,第1 個卷積層得到16 個7×7 的特征圖,第2 個卷積層得到32 個5×5 的特征圖,第3 個卷積層得到64 個3×3 的特征圖,第4 個卷積層得到128 個1×1 的特征圖.之后,應用一個包含128 個神經元的全連接層將128 個特征映射轉換成最終的空間特征表示Zk∈R128.在將2D-CNN 的輸出結果輸入RNN 網絡之前,這個全連接層是可選的.但是實驗發現:添加這個全連接層,對于幫助模型收斂、提高整個框架的性能起著重要的作用.

通過對模型的精準性和時效性的雙重篩選,本文最終使用如圖2 所示的LSTM 單元構建一個單層雙向RNN 模型,將空間特征表示序列Qj輸入到該RNN 模型,進一步計算EEG 片段時域的相關性特征.LSTM 是一種為了解決梯度消失和梯度爆炸問題而提出對RNN 隱含層改進后的神經元結構.在雙向LSTM 中,順逆序傳播可以分別提取某一節點EEG 與其前后片段的關系,從而使該模型提取的特征更加客觀和準確.

Fig.2 Combination model Casc_CNN_LSTM圖2 Casc_CNN_LSTM 組合模型

該模型的每個傳播方向上都包含s個LSTM 單元,LSTM 單元在當前時間點t處的隱狀態用ht表示,則ht-1表示前一個時間點t-1 處的隱狀態.同一層前一個時間點的信息被傳到當前時間點,以此類推影響到最后的輸出.本文使用LSTM 單元的隱狀態作為其輸出,正向LSTM 單元輸出的隱狀態序列為[ht,ht+1,…,ht+s-1],逆向LSTM 單元輸出的隱狀態序列為.由于我們感興趣的是大腦在整個樣本時間段內的情感類別,所以分別從兩個方向上取LSTM 學習完整個窗口內所有時間點后提取的最后一個時間點的輸出ht+s-1和.將ht+s-1和在描述特征向量大小的維度上進行拼接,記為Hj.而Hj作為整個RNN 網絡學習到的時序特征送入下一個 全連接層,如圖2 的最后階段所示.EEG 網狀矩陣序列Pj的時域特征Hj表示為

其中,i表示一個LSTM 單元的隱狀態的大小.最后,在全連接層之后,采用一個Softmax層產生最終每一類情感的概率預測值:Softmax:Cj=SoftMax(Hj),Cj∈Rk,其中,k表示模型最終要識別的情感類別數.

總的來說,我們的框架首先將觀測時間段內的EEG 數據流轉換、切分成二維的網狀矩陣序列片段,然后對每一個片段進行k類情感分類.每一個片段Pj包含s個已經被轉換的二維網狀矩陣[Yt,Yt+1,…,Yt+s-1].在每一個片段內部,應用一個3 層2D-CNN 網絡對其中每一個網狀矩陣提取其空間特征,得到空間特征序列[zt,…,zt+s-1];隨后,應用RNN 網絡對整個空間特征序列進行學習,進而提取時域特征Hj;最后,使用Softmax分類器計算每一個片段k種情感的分類概率.原始EEG 記錄經由Cas-CNN-RNN 模型處理的過程可以描述為Input(s×n)-Trans(s×h×w)-Conv(s×h×w×16)-Conv(s×h×w×32)-Conv(s×h×w×64)-Conv(s×h×w×128)-FC(l)-LSTM(s×2i)-FC(l)-Softmax(k).其中:Input(s×n)表示分段大小為s且包含n個通道數據的一維原始EEG 記錄序列,Trans(s×h×w)表示將一維EEG 記錄序列轉換為長度為s大小為h×w的網狀矩陣序列,Conv(s×h×w×m)表示一個卷積層從一個網狀矩陣學習得到m個特征映射,FC(l)表示具有l個神經元的全連接層,LSTM(s×2i)表示順逆兩個傳播方向分別具有s個LSTM 單元的隱含層學習得到大小為i的隱狀態,Softmax(k)表示用于預測k個情感類別的Softmax層.

在級聯結構的2D-CNN 模型中,卷積層后面都沒有使用池化操作.雖然在CNN 體系結構中,一個卷積層通常與一個池化層成對使用,但池化操作并不一定是必須的,池化操作是以犧牲一部分信息為代價來進行數據降維.然而在EEG 數據分析問題中,數據的維度比計算機視覺研究中使用的數據維度要小得多,為了不丟失有用的EEG 信息,本文沒有使用池化操作,而是直接將4 個卷積層進行了連接.

1.3 Casc-CNN-CNN級聯雙卷積神經網絡模型

本文提出的用來挖掘更深層局部時空特征的Casc-CNN-CNN 模型結構如圖3 所示.

Fig.3 Combination model Casc_CNN_CNN圖3 Casc_CNN_CNN 組合模型

模型的輸入同Casc-CNN-RNN 的輸入一樣,都是包含了空間和時間信息的三維數據結構.模型采用CNN 網絡從每一個二維網狀矩陣中提取EEG 數據的空域特征,然后將提取的空間特征按照時間順序重新排列,再次輸入一個CNN 網絡,繼續提取EEG 數據深層局部時空特征,最后通過一個全連接層接收CNN 網絡的輸出,得到的特征向量再輸入到一個softmax層進行最后的情感類別預測.

Casc_CNN_CNN 與級聯模型Casc_CNN_LSTM 中的CNN 部分相同,將二維網狀矩陣序列Pj輸入進一個由4 個卷積層與一個全連接層組成的CNN 網絡中,并轉換成具有空間特征向量的序列Qj,whereQj=[Zt,Zt+1,…,Zt+s-1]∈Rs×l.其中,Zk(k=t,t+1,…,t+s-1):Zk=CNN2D(Yk),Zk∈Rl是一個包含l 個元素的經過CNN 學習后的一維空間特征向量.將Qj整合成形如s×l的矩陣后,再次使用CNN(為區別于前文CNN,下將該網絡稱作CNNII)網絡提取原始EEG 的進階空間特征.式中s表示向量序列的長度,l表示每個序列所包含的元素個數.CNNII 由兩個卷積層、兩個池化層、一個全連接層組成,兩個池化層分別連接在兩個卷積層后,將經過第2 個池化層池化過的數據進行向量化處理后,接入一個神經元數為512的全連接層,最終在全連接后接入Softmax層,產生最終每一類情感的概率預測值.兩個卷積層分別采用32 和64 個3×3 大小的卷積核進行有填充的卷積操作.兩個池化層都采用2×2 大小且步長為2 的Maxpooling 過濾器對卷積結果進行下采樣處理.卷積層和全連接層采用ReLu激活函數以及Adam 優化器,學習率取0.000 1.

原始EEG 記錄經由Cas-CNN-RNN 模型處理的過程可以描述為Input(s×n)-Trans(s×h×w)-Conv(s×h×w× 16)-Conv(s×h×w×32)-Conv(s×h×w×64)-Conv(s×h×w×128)-FC(l)-Cat(b)-Trans(s×h×w)-Conv(s×h×w×32)-Pooling(max,2)-Conv(s×h×w×64)-Pooling(max,2)-FC(l)-softmax(k).其中,Input(s×n)表示分段大小為s且包含n個通道數據的一維原始EEG 記錄序列,Trans(s×h×w)表示將一維EEG 記錄序列轉換為長度為s大小為h×w的網狀矩陣序列,Conv(s×h×w×m)表示一個卷積層從一個網狀矩陣學習得到m個特征映射,Cat(b)表示將b個向量按時間順序連接,Pool(max,2)表示使用步長為2,核為2×2 的最大池化層,FC(l)表示具有l個神經元的全連接層,Softmax(k)表示用于預測k個情感類別的softmax層.

2 實驗及結果分析

首先介紹實驗采用的DEAP 數據集及EEG 數據預處理與特征提取的方法,然后在效價維度上進行被試內兩類情感的分類實驗,以BT,SVM 淺層分類器以及深度CNN 模型在1 秒EEG 片段上的分類性能為基準,同Cas- CNN-RNN 和Cas-CNN-CNN 模型的分類性能進行比較與分析.同時,通過對比實驗研究了時空信息對EEG 情感分類性能的影響.

2.1 數據集

本文基于公開的大規模EEG 情感數據集DEAP[21]驗證所提出的級聯和并行深度卷積循環神經網絡模型的有效性.該數據集是由倫敦瑪麗皇后大學的相關研究團隊開發的包含EEG 等多種生理信號的大規模開源數據集,它記錄了32 個被試者觀看40 個時長約為1 分鐘的、帶有不同情感傾向的音樂視頻所誘發的腦電、心電、肌電等生理信號,之后,被試對所觀看的視頻在喚醒度、效價、喜好、優勢度和熟悉度方面,使用1~9 的連續數值進行評價,評價值由小到大分別表示各項指標由負到正或由弱到強.40 個刺激視頻中包含20 個高效價/喚醒度刺激和20 個低效價/喚醒度刺激.本文取其中32 通道的EEG 信號,采樣頻率降至128Hz.為了消除直流噪聲、電源噪聲和其他偽跡,使用4Hz~45Hz 的帶通濾波器進行數據過濾,再采用盲源分離技術去除了眼電干擾,得到總時長為63s 的EEG 信號,包括觀看視頻的60s 和觀看前靜息態的3s.

2.2 數據預處理與特征提取

本文提取了每個視頻誘發的60s 的EEG 序列做進一步分析.為了校正與刺激無關的信號隨時間的變化,將觀看視頻之前3s 的EEG 信號作為基線,從60s 實驗信號中去除基線,得到刺激相關的序列變化.以1s 為窗長對每個序列進行不重疊分段,每次實驗得到60 個片段,則每個被試40 次實驗的EEG 片段(也稱樣本)總數為40×60=2400 個,每個片段包含128 個采樣點(即窗口大小為128),每個采樣點包含32 個EEG 通道的數據,簡稱RAW 特征,其維度大小表示為2400×128×32.實驗觀察發現,使用大于或小于128 的窗口分段都會降低組合模型的性能,這也許與人類大腦情感活動的周期長度有關.再對分段以后的EEG 數據按通道進行歸一化,得到每個被試時域上的NORM 特征.

神經科學和心理學的研究表明,EEG 信號在delta(1Hz~4Hz),theta(4Hz~8Hz),alpha(8Hz~13Hz),beta(13Hz~ 30Hz)和gamma(30Hz 以上)這5 個頻段上包含大量與情緒等心理活動密切相關的節律信息[22].作者之前的研 究[19]也發現,EEG 信號在4Hz~45Hz 頻帶上的功率譜密度(power spectral density,簡稱PSD)特征在2D-CNN 網絡上的分類性能明顯優于時域上的RAW 特征和NORM 特征.這也許是因為PSD 頻域特征的提取需要在較大連續采樣周期內進行,而情感腦電任務也是一種相對長時的大腦活動,所以頻域特征能夠捕獲更多情感相關的大腦動態.因此,本文在NORM 特征基礎上,在4Hz~45Hz 頻帶上,利用快速傅立葉算法,在1s 的EEG 片段的每個通道上使用0.5s 的Hamming 窗無重疊地滑動提取64 個PSD 特征,每個被試40 次實驗,共提取PSD 特征的維度是2400×64×32.

接下來處理每個EEG 樣本的標簽,基于被試對每個視頻在1~9 范圍內的評價值,以中位數5 作為閾值,將效價和喚醒度上的評價值劃分為兩類:在某個維度上解決2 分類問題時,大于5 代表高類或正性指標,用1 表示;小于或等于5 代表低類或負性指標,用0 表示.再對數據和標簽做均衡化處理,使兩類中每一類EEG 數據和標簽數量相同.

接著,根據DEAP 數據集的腦電電極分布,按照公式(1)將每個EEG 樣本的一維鏈式向量序列轉換成大小為9×9 的二維網狀矩陣序列.轉換以后,EEG 樣本包含了豐富的空間、時間與頻域上的信息,數據和標簽的維度見表1.然后,使用每個被試的所有EEG 樣本構建被試內交叉驗證集,即:每次隨機從2 類各取80%的EEG 數據和標簽來訓練模型,其余20%的樣本來驗證訓練模型,以此方法為每個被試構建40 重交叉驗證數據集.

Table 1 Formats of segmented 1D and 2D EEG data and labelsof each subject表1 每個被試分段以后1D 與2D 的EEG 數據及標簽格式

2.3 基準模型

接下來簡要介紹EEG 情感識別方面目前比較先進的方法和基準模型,所有這些模型都基于與本文相同的數據集DEAP.

? Alhagry 等人[16]采用一種基于LSTM 長短時記憶結構的深度循環神經網絡,在DEAP 數據集的喚醒/效價/喜歡這個維度上進行了被試內兩類情感分類,3 個維度上二分類的平均分類準確率分別達到了85.65%,85.45%和87.99%;

? 本文作者在文獻[19]中提出的使用淺層機器學習模型BT(BaggingTree)對DEAP 數據集EEG 信號的PSD 特征在效價上和喚醒度上進行被試內兩類情感分類的準確率分別達到了86.31%和86.18%;

? Salama 等人[18]采用一種三維卷積神經網絡(3D-CNN),針對多通道腦電圖數據進行情感識別,在效價和喚醒度上的被試內兩類情感識別準確率分別為87.44%和88.49%;

? 本文作者也曾采用深度2D-CNN 模型,基于DEAP 數據集EEG 的時域與頻域組合特征,端對端自學習這些特征的高層抽象表示,在效價和喚醒度上進行被試內兩類情感識別的準確率分別達到了88.53%和86.67%[19].

除了上述最新的方法外,為了增加實驗結果的可信度,本文作者對文獻[17]中提出的2D-CNN 模型加以改進,輸入將時頻組合特征變為分段的鏈式PSD 特征,深度學習網絡的結構以及超參數配置則同Casc_CNN_CNN中的第2 個CNN 一致,都是兩組卷積池化層后接一個具有512 個神經元的全連接層和一個Softmax輸出層.其中,兩個卷積層分別采用3×3 大小的32 和64 個卷積核進行有填充的卷積操作,池化層依然采用步長為2 的2×2大小的過濾器對卷積結果進行降維處理.

為了深入探究混合模型與單一模型在分類性能上的優劣,本文還設計了用于對比實驗的BiLSTM(64)模型.該模型也采用分段的鏈式PSD 特征作為輸入,網絡結構同Casc_CNN_LSTM 中的LSTM 網絡一致,采用雙向LSTM 單元進行時域特征提取.其中,正向(順序)、逆向(倒序)LSTM 單元的隱單元個數(隱狀態長度)均為64.將雙向網絡各自傳播盡頭的兩個單元的隱狀態在特征個數維度上進行連接后,接入一個具有128 個神經元的全連接神經網絡,最終接入Softmax層產生預測值.

本文研究的神經網絡均采用TensorFlow 框架,并基于NvidiaTitanXPascalGPU,以完全監督的方式從頭開始訓練實現.采用基于Adam 更新規則的隨機梯度下降法,最小化模型的交叉熵損失函數.

2.4 實驗結果

本節展示本文所提出的級聯組合模型的總體性能,并系統分析EEG 空間和時間上下文信息對實驗結果的影響.并通過NORM 特征和PSD 特征在效價和喚醒度兩個維度上二分類計算的精度,對本文提出的模型以及特征表示方法進行深入的探究.

2.4.1 效價維度上的實驗結果與分析

本文提出的級聯組合模型以及各種基準模型的整體實驗性能見表2.觀察發現:以二維網狀PSD 特征為輸入的Casc_CNN_LSTM 和Casc_CNN_CNN 分別取得了93.15%和92.37%的準確率,兩種組合模型均優于幾種基準模型和最新方法的分類性能.這表明上下文空間和時間信息對于提升EEG 情感分類識別性能非常關鍵.實驗中,我們還嘗試使用了較大或較小的滑動窗進行EEG 數據分段,結果都會導致組合模型性能明顯下降.在不同范圍內通過改變滑動窗口大小,可以使模型適應不同類型的EEG 信號分類,體現該方法具有較好的靈活性.而且與以往的研究相比,該模型對原始數據的預處理較少,更適合于BCI 等實時應用.

Table 2 Comparison of the accuracy of two types of emotion classification in the valence dimension between the benchmark model and the cascade hybrid model表2 基準模型與級聯混合模型在效價上進行兩類情感分類準確率的比較

除此以外,我們發現:基于文獻[19]中2D-CNN 模型改進的2D-CNN-V2 模型,分類準確率相較之前高出了1.63%.原因一方面是輸入特征的變化,正如第2.2 節中所述,由于頻域特征能夠捕獲更多情感相關的大腦動態,PSD 特征相較于NORM 特征在情感分類任務中的準確率更高,而PSD 與NORM 的混合特征雖然擴充了數據量,并在一定程度上提升了模型的泛化能力,但對于情感分類任務而言,混合特征的準確率低于單一的PSD 特征;另一方面是由于改進后的卷積神經網絡更加復雜,卷積層中卷積核的個數由4 個上升為32 個,提取了更多的空間信息,從而提升了模型的性能.

以PSD 特征為輸入的BILSTM(64)模型的分類準確率達到了89.81%,低出2D-CNN-V2 模型僅有0.35%的差距.這說明無論是在時域還是空域上,針對DEAP 數據集,單一模型在不同維度上的情感分類任務精度相差不大.而2D-CNN-V2 模型相較于Casc-CNN-CNN 模型準確率降低了2.21%,BiLSTM(64)模型相較于Casc-CNN- LSTM 模型準確率降低了3.34%,這說明單一模型在不同維度上的表現都不如混合模型.

與文獻[16,18,19]中最新的方法相比,本文提出的Casc-CNN-CNN 模型比Alhagr 等人[16]提出的LSTM 模型的性能高出6.92%,比Chen 等人[19]提出的BT 淺層分類器的性能高出6.06%,比Salama 等人[18]提出的3D-CNN模型和Chen 等人[19]提出2D-CNN 模型的性能分別高出4.93%和3.84%.Casc-CNN-LSTM 模型也比Alhagr 等人[16]提出的LSTM 模型的性能高出7.7%,比Chen 等人[19]提出的BT 淺層分類器的性能高出了6.84%,比Salama等人[18]提出的3D-CNN 模型和Chen 等人[19]提出2D-CNN 模型的性能分別高出5.71%和4.62%,性能提升都比較顯著.這表明本文提出的二維網狀PSD 特征相較于一維鏈式特征包含了更多的時空上下文信息,而且本文提出的兩種混合深度神經網絡相較淺層機器學習算法和單一神經網絡模型在深層時空特征聯合學習上具有明顯的優越性.

本文提出的以二維網狀PSD 特征為輸入Casc_CNN_CNN 模型的測試集平均分類準確率達到了92.37%,32名被試者詳細的預測精度如圖4 所示.

Fig.4 Statistics chart of Casc_CNN_CNN model test set classification accuracy results圖4 Casc_CNN_CNN 模型測試集分類精度結果統計圖

第18 名被試者的分類準確率達到了97.19%,為所有被試者中最高.圖5 為其訓練過程曲線,下方曲線表示訓練平均誤差loss,上方曲線表示訓練準確率acc.

Fig.5 Casc_CNN_CNN model sub18 training process diagram圖5 Casc_CNN_CNN 模型sub18 訓練過程示意圖

通過觀察圖5 可以得知:訓練過程中,隨著迭代次數iteration 的增加,平均誤差loss 雖然出現過3 次驟然上升后又急速下降的情況,但整體依然呈現下降并不斷向零趨近的態勢;訓練準確率acc 整體上向1 趨近,最終在0.99 附近達到收斂.Iteration 從0 增至3500 期間,loss 初始值從0.7 附近開始,隨著iteration 的變大而以螺旋梯度下降的方式不斷向0 逼近.而acc 以將近每iteration 增加1.86×10-4的速度,以螺旋梯度上升的方式,從0.3 升至0.95.在這一過程中,acc 的增速在iteration 等于1800~2500 左右出現過3 次幅度較大的減小.隨著acc 曲線斜率的降低,loss 值雖然不斷減小,但其下降趨勢也逐步放緩.本文作者分析認為,該現象的出現有兩個原因:一是由于超參數batch_size 設置偏小,在模型較為復雜的情況下,每輪迭代需要更新的參數較多,如果輸入數據不足,則會導致loss 函數震蕩而不收斂的情況;二是由于超參數learning rate 設置的偏大,雖然在訓練開始時模型的性能得到了快速的提升,但隨著iteration 的增加,模型難以快速找到最優解,從而導致了loss 震蕩而不收斂情況的出現.而當迭代至3600、4200、5500 輪左右時,模型都出現了loss 突然增大和acc 突然減小的情況,但作者認為,這是由于學習過程中的梯度并不是目標函數最優方向所導致的正?,F象.而隨著iteration 的繼續增加,兩條曲線都趨于平穩,斜率也逐漸收斂至0.最終,作者以acc 在4000 輪內無增長作為模型終止訓練的條件.訓練終止后,將測試集數據放進該模型中進行分類預測,記錄預測結果并繪制成如圖4 所示柱狀圖.

本文提出的以二維網狀PSD 特征為輸入的Casc_CNN_LSTM 模型的測試集平均分類準確率達到了93.15%,32 名被試者詳細的預測精度如圖6 所示.

Fig.6 Statistics chart of Casc_CNN_LSTM model test set classification accuracy results圖6 Casc_CNN_LSTM 模型測試集分類精度結果統計圖

觀察圖4 和圖6 不難發現:在Casc_CNN_CNN 和Casc_CNN_LSTM 兩種模型上,效價情感分類精度的前三名是相同的第18、第22、第27 這3 名被試.可見:兩種混合模型性能總體上具有一致性和穩定性,也表明該3個被試的二維網狀PSD 特征中被挖掘到的情感相關的空間、時間判別性信息較少.第27 名被試者的分類準確率達到了97.28%,為所有被試者中最高.圖7 為其訓練過程曲線,下方曲線表示訓練平均誤差loss,上方曲線表示訓練準確率acc.

Fig.7 Casc_CNN_LSTM model sub27 training process diagram圖7 Casc_CNN_LSTM 模型sub27 訓練過程示意圖

通過觀察上圖可以得知:訓練過程中,平均誤差loss 在逐步降低并收斂的同時,訓練準確率acc 也逐步收斂于1.迭代次數iteration 從0 至3500 期間,loss 呈現螺旋梯度下降的態勢,該時期內的acc 以螺旋梯度上升的態勢從0.32 提升至0.94 附近.而當iteration 從3500 增至7000 期間,loss 和acc 均在一定幅度內發生震蕩.但在迭代7000 次之后,acc 和loss 雖依然有所波動,但相較之前震幅明顯變小.最終,loss 曲線逐漸收斂于0,acc曲線逐漸收斂于1.iteration 從0 增至3500 期間,acc 增幅為0.62,增速約為每iteration 增長1.774×10-4;而iteration 從 3500 增至7000 的震蕩期,acc 增幅為僅為0.05,增速約為每iteration 增長1.429×10-5,衰減達到了91.945%.這也是由于超參數learningrate 設置偏大,模型的梯度難以按照預想的方式下降,而最終表現為loss 曲線的震蕩.訓練終止后,將測試集數據放進該模型中進行分類預測,預測結果如圖6 所示.

為了進一步探究二維網狀EEG 時空特征表示方法的普適性以及CASC_CNN_CNN 和CASC_CNN_LSTM模型的通用性,作者以變換特征類別、變換EEG 維度為實驗方法,以模型進行二分類計算的準確率為衡量標準,對本文所提出的特征表示方法以及模型的性能進行研究.為了保證對比實驗的客觀性和有效性,除PSD 特征之外,作者還選擇了應用范圍廣泛算法原理清晰的NORM 特征(提取方法如第2.2 節中所述,數據格式見表1)在效價和喚醒度兩個維度上進行二分類計算.每個特征在每個維度上分別使用 2D-CNN-V2,BILSTM(64),CASC-CNN-CNN,CASC-CNN-LSTM 這4 種模型進行情感分類計算.效價維度上的計算結果見表3.

Table 3 Comparison of the accuracy of NORM features between two types of emotion classification in the valence dimension表3 效價維度上NORM 和PSD 特征兩類情感分類準確率的比較

在效價維度上,以2D-NORM 特征作為輸入的CASC-CNN-CNN,CASC-CNN-LSTM 模型的分類精度為62.39%,55.21%,比以鏈式 NORM 特征作為輸入的 2D-CNN-V2,BILSTM(64)模型的 55.2%,50.7%分別高出7.19%和4.51%.效價維度上的NORM 特征經過維度轉換后,分類精度平均提高了5.85%.而當兩個級聯模型以2D-PSD 特征作為輸入時,分類準確率分別達到了92.37%和93.15%,比以鏈式PSD 特征作為輸入的2D-CNN- V2,BILSTM(64)模型的90.16%,89.81%分別高出2.21%和3.34%.效價維度上的PSD 特征經過維度轉換后,分類精度平均提高了2.775%.效價維度上的NORM 特征在兩類情感計算任務中4 種模型的平均分類精度僅有55.875%,而PSD 特征4 種模型的平均分類精度則達到了91.37%.

就平均分類精度而言,PSD 特征相較NORM 特征高出了35.495%.但就特征結構的改變對特征可分性的影響而言,NORM 特征則比PSD 特征高出3.075%.該組實驗可以證明:級聯模型比單一模型的分類能力更強,二維網狀特征比一維鏈式特征的可分性更高.并且就特征的維度轉換對于特征數據可分性的提升而言,NORM 特征相較于PSD 特征的提升幅度更大.

2.4.2 喚醒度維度上的實驗結果與分析

為了更加全面地探究二維網狀EEG 時空特征表示方法的普適性,同時為了增強實驗間的可對比性,結合DEAP 數據集的特點,作者選擇在喚醒度維度(arousal)上同樣對NORM 和PSD 特征進行4 種模型的腦電分類計算.特征提取、特征結構轉換方法及分類所用模型和模型結構同上文所述完全相同,具體實驗結果見表4.

Table 4 Comparison of the accuracy of NORM &PSD features between two types of emotion classification in the arousal dimension表4 喚醒度維度上NORM 和PSD 特征兩類情感分類準確率的比較

在喚醒度維度上,以2D-NORM 特征作為輸入的CASC-CNN-CNN,CASC-CNN-LSTM 模型的分類精度為57.64%,56.63%,比以鏈式NORM 特征作為輸入的2D-CNN-V2,BILSTM(64)模型的53.95%,49.57%分別高出3.69%和7.06%.喚醒度維度上的NORM 特征經過維度轉換后,分類精度平均提高了5.375%.而當兩個級聯模型以2D-PSD 特征作為輸入時,分類準確率分別達到了91.02%和92.84%,比以鏈式PSD 特征作為輸入的2D-CNN- V2,BILSTM(64)模型的88.51%,88.89%分別高出2.51%和3.95%.喚醒度維度上的PSD 特征經過維度轉換后,分類精度平均提高了3.23%.就特征結構的改變對特征可分性的影響而言,喚醒度維度下,NORM 特征依然比PSD特征高出2.145%.

結合表3、表4 可以發現:效價維度上NORM 特征經過結構轉換后,其分類精度提升了5.85%;而在喚醒度維度上,NORM 特征經過轉換后提升的精度值為5.375%.二者僅相差0.475%.而效價和喚醒度維度上的PSD 特征經過轉換后提升的分類精度分別為2.775%和3.23%,兩者的差值也僅為0.455%.

以上實驗說明:在效價和喚醒度維度上,NORM 特征和PSD 特征數據由一維鏈式結構轉變為二維網狀結構后,特征的可分性都會得到提升;并且特征結構的轉換對于只包含時域信息的NORM 特征的影響大于包含時頻信息的PSD 特征的影響;同時,對于NORM 特征和PSD 特征而言,當其分別處于效價和喚醒度維度上時,一維到二維的特征結構變化為其分類精度帶來的提高大致相同.

2.5 時間與空間信息對模型性能的影響

我們還比較了兩種級聯組合神經網絡與其他幾種基準神經網絡的性能,來研究分析空間與時間信息對EEG 情感識別的影響.通過比較Casc-CNN-CNN 與2D-CNN 發現,Casc-CNN-CNN 的總體性能優于2D-CNN.這表明提取二維網狀物理相鄰傳感器上的腦電信號比簡單的一維鏈式腦電信號能更有效地捕獲EEG 的空間相關性,這更有助于識別人類大腦的情感模式.從表2 可見:Casc-CNN-CNN 模型的性能又明顯優于3D-CNN 與LSTM 模型的性能,比3D-CNN 模型在效價上的分類性能提高了4.63%,比LSTM 模型的性能提高了6.92%,表現出了顯著的持續提升趨勢.

而我們的Casc-CNN-LSTM 級聯組合模型在對每一個采樣點的二維網狀數據進行空間特征學習后,利用LSTM 提取進一步學習一個EEG 樣本內連續采樣點之間的全局時間動態,因此在效價上的分類性能進一步提高.然而,當使用單純的LSTM 模型只考慮時間相關性時,其識別率下降到85.45%,與組合模型的93.15%相差7.7%,這說明時空特征的結合對腦電信號的準確分析是至關重要的.我們提出的級聯卷積遞歸組合模型的識別率達到93%以上,表明這種特征融合方法具有很強的時空表示能力,時空融合特征明顯增強了腦電信號情感識別的準確性.

3 總 結

本文首先提出一種新的基于網狀序列的EEG 時空特征表示方法,將每一個采樣點上原始的一維鏈式通道信息轉換成二維網狀空間信息,該網狀結構與EEG 電極位置的腦區分布相對應,以此更好地表示EEG 信號物理上多個相鄰電極之間的空間相關性.再應用滑動窗將二維網狀序列切分成一個個等長的時間片段,作為新的融合了EEG 時空相關性的數據表示.本文還提出兩種用于EEG 情感識別的端對端、可訓練的混合深度神經網絡模型:通過CNN 網絡,從轉換的EEG 時空數據表示中捕獲物理上相鄰電極之間數據的空間相關性;通過LSTM網絡,學習EEG 數據流在時序上的依賴關系.采用大規模數據集DEAP 中32 名被試在效價和喚醒度上兩類EEG數據,來評估我們提出的EEG 時空特征表示方法及混合深度學習模型的性能.實驗結果表明:兩種級聯混合深度學習模型在效價上兩類情感的識別的平均準確率分別達到了93.15%和92.37%,均明顯優于目前最先進的方法,表明本文提出的方法能夠利用混合神經網絡有效地聯合學習腦電信號在空間與時間上的相關性,進一步提高EEG 情感識別的準確率和魯棒性,可以有效地應用到基于EEG 的情感分類與識別相關應用當中.

猜你喜歡
網狀效價卷積
情緒效價的記憶增強效應:存儲或提取優勢?
不同針灸療法治療尋常痤瘡的網狀Meta分析
SWRH82B熱軋盤條心部異常網狀滲碳體組織分析及改善措施
基于3D-Winograd的快速卷積算法設計及FPGA實現
8種針灸療法治療原發性痛經的網狀Meta分析
卷積神經網絡的分析與設計
從濾波器理解卷積
應用HyD在仔豬斷奶早期可提高維生素D的效價
基于傅里葉域卷積表示的目標跟蹤算法
如何提高抗生素效價管碟測定法的準確性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合