?

基于特征融合和粒子群優化算法的運動想象腦電信號識別方法

2021-06-19 06:46郜東瑞馮李逍張云霞彭茂琴張永清
電子科技大學學報 2021年3期
關鍵詞:特征選擇適應度正確率

郜東瑞,周 暉,馮李逍,張云霞,彭茂琴,張永清,3*

(1.成都信息工程大學計算機學院 成都610025;2.電子科技大學生命科學與技術學院 成都611731;3.電子科技大學計算機科學與工程學院 成都611731)

運動想象作為腦機接口(brain computer interface,BCI)的一個熱門領域已經廣泛應用在醫療康復中。運動想象(motor imagery,MI)主要通過采集受試者想象肢體運動的腦電信號,并使用機器學習(machine learning, ML)的方法進行分類,最終將分類結果反饋給外界設備,輔助受試者進行肢體運動,達到幫助身體殘疾的人進行日常運動的目的,因此該研究方向在醫療康復領域有重大的意義[1]。

在基于BCI-MI的研究中,特征提取方法將直接影響腦機接口分類的準確率,特征提取主要在時域、頻域和空域上進行??沼蛏系奶卣魈崛≈饕遣捎霉部臻g模式(common spatial pattern,CSP)以及相關改進算法。文獻[2]提出了一種特征權重CSP算法來提取空域特征。文獻[3]介紹了目前常用的幾種特征選擇算法,包括基于信息熵、基于相關系數等。文獻[4]對2007年以前的BCI分類算法做了總結,包括線性分類器以及神經網絡分類器等。2017年該文獻作者又總結了近十年創新的分類方法,將分類方法擴展到流形學習、遷移學習以及張量學習上面。文獻[5]對集成分類器做了創新并應用在BCI中,文獻[6]在黎曼幾何分類器的研究上做了總結并通過協方差矩陣來提升分類器的性能,將黎曼分類器的準確率提升了1.2%~3.6%。文獻[7]通過遷移學習提高MI分類性能,降低了計算復雜度并提高了2%~6%的準確率。近幾年隨著優化算法的普及,各類優化算法都結合著分類器或特征選擇算法來處理腦電數據,文獻[8]通過粒子群優化算法結合支持向量機、粗糙集以及相對約減集來進行模式分類和特征選擇。但調研發現,運動想象腦電識別還存在一些問題:1)特征分類準確率低,通常只有80%左右;2)計算復雜度較高,無法從離線數據分析擴展到在線數據分析并應用在醫療設備中[1]。

為了解決特征分類準確率低的問題,該文設計了新的算法模型來處理MI數據。首先,提取了腦電信號的小波系數、得分共空間模式(score-common spacial pattern,SCSP)算法濾波后的方差和均值以及自回歸模型的系數。這3種特征提取方法能夠提取到信號的時頻域和空間域的信息,非常適合于分析生物非平穩信號。接著對獲得的3部分特征進行特征融合,克服特征單一所導致的分類準確率低的問題。針對融合特征所存在的冗余性以及高計算復雜度的問題,該文提出了一種基于粒子群優化算法(PSO)和隨機森林分類器的特征篩選方法(PSORF)。該文所設計算法模型的具體過程為,首先對MI數據進行帶通濾波,隨后通過小波軟閾值法進行去噪,使用上述3種方法提取相關腦電特征之后,采用本文設計的PSO-RF來進行特征篩選,對重要的特征進行保留,同時剔除冗余特征,最終篩選到了個位數的特征維度,既減少了計算的時間復雜度,也提高了分類精度。最后使用4種不同的分類器,包括:K近鄰(K-nearest neighbors,KNN)、收縮線性判別分析(shrinkage linear discriminant analysis,sLDA)、隨機梯度下降(stochastic gradient descent,SGD)以及集成分類器來驗證分類的效果。

本文所作出的貢獻主要有以下3點:

1)提取腦電信號的時域、頻域以及空間域特征,并進行多維特征融合,提高分類準確率;

2)提出了一種PSO-RF算法進行特征篩選,解決傳統方法進行特征提取后維度過大且存在冗余性、分類器準確率低和耗費運算資源的問題;

3)對分類器進行改進,通過集成分類器的方式解決單個分類器因訓練樣本過少而產生的分類效果差的問題。

1 相關背景技術

1.1 運動想象腦電信號識別

在眾多的腦機交互控制范式中,基于運動想象技術的腦機接口是其中最普遍的一類。運動想象是在各部分肢體器官都沒有發生任何真實運動的情況下,通過大腦想象運動動作即會產生相對應的腦電波。腦電處理流程分為以下幾個步驟:首先使用腦電采集設備采集運動想象時的腦電信號,然后使用計算機進行分析,完成模式分類任務,最后將模式分類的結果反饋到外部設備中,從而起到輔助和康復的作用。

1.2 預處理方法

小波閾值去噪算法的主要理論依據是腦電信號經過小波分解之后,信號的小波系數幅值大于噪聲,即含噪信號在各個尺度上通過正交小波基進行分解之后,將低分辨率的值全部保存下來,對于高分辨率下的分解值,通過設定一個閾值,將幅值低于該閾值的小波系數都置為零,高于該閾值的小波系數做相應的收縮或者直接保留[9]。最后將處理后所得到的小波系數利用逆小波技術進行重構,就能還原得到去噪后的腦電信號。

得分共空間模式:對于EEG信號而言,空域濾波技術很適合處理這種多維信號和數據。SCSP主要是對CSP算法進行了一定的改進,從而起到一個篩選通道的作用[10]。通過計算投影矩陣每一個通道的得分,篩選出每一類得分最高的通道,最后將這兩類篩選出的通道進行合并,得到最優的篩選通道。該算法不僅將兩類樣本的方差差異進行最大化,而且減少了計算資源的耗費。

1.3 特征提取方法

自回歸模型(auto regression, AR)是利用初期的某個特定時刻的隨機變量的線性組合來描述后期某個特定時刻的隨機變量,處理腦電這種時間序列的數據非常簡便有效,因此該模型被廣泛應用于BCI的數據處理中[11]。

AR模型特征提取的原理主要如下:首先針對該時間序列的數據,采用AR模型對其進行建模,假設有等時段n個樣本點組成時間序列x(k),建立AR模型:

式中,p為AR模型的階數;a為AR模型系數;e(k)表示AR模型的殘差,是均值為0、方差為2的白噪聲序列。由式(1)可知,AR模型系數直觀地反映了信號x(k)在k時刻與k?1,k?2,···,k?p時刻值之間的依賴權重,因此對特征向量的構建具有重要意義。本文采用最小二乘法實現對AR模型參數的估計。

1.4 粒子群優化算法

粒子群優化算法(PSO)通過模擬鳥類捕食來解決連續非線性的數值問題或多模態問題。在該算法中,粒子被設置在一個多維空間中,每個粒子都會移動到搜索空間中的最佳位置,整個粒子群也會移動到全局的最優位置。在每次迭代的過程中,每個粒子的速度和位置都會根據其動量和最佳位置的影響而改變[12]。

在S維搜索空間中的每個粒子的速度被限制為最大速度Vmax。通常來說,最大速度Vmax設置為搜索空間長度的一半,它被確定為最優解:如果Vmax太高,粒子可能會越過好的解,如果Vmax太小,粒子可能不會從局部好的區域進行適當的搜索。在調整慣性權重W和最大速度Vmax的參數之后,PSO可以完成嵌套搜索能力。每個粒子的位置和速度都是隨機形成的,并基于方程進行迭代。如果最終滿足了迭代次數或者設置好的迭代效果之后,就會跳出迭代返回最優的結果。

PSO具體的迭代更新如下:

式中,v是粒子的速度;rand()>是介于(0,1)之間的隨機數;x表示粒子當前的位置;c1和c2是兩個學習因子,通常在PSO算法中設置為2。

PSO算法在搜索全局最優值方面也有較好的效果,它的參數更新比較少,計算復雜度也不是很高,后續比較適合處理需要實時反饋的腦電信號。

1.5 分類算法

隨機森林算法(random forest,RF)是一個基于統計學習理論的組合分類器,該算法將Bootstrap重抽樣方法和決策樹算法結合起來,本質是構建一個樹型分類器的集合,然后使用該集合,通過投票的方法進行分類和預測任務。RF中的每一棵樹都是一顆決策樹,決策樹是通過信息增益來得到最終的分類結果[13]。

2 本文所提方法

本文首先對信號的時域、頻域、空間域3個不同觀察面的特征進行提取,然后進行特征融合,最后提出了一種基于粒子群優化算法和隨機森林分類器的特征篩選方法。

2.1 算法模型概述

本文的算法模型如圖1所示,該算法模型總共包含4個部分。

圖1 算法模型流程圖

第1部分是針對數據集的介紹。實驗使用的數據集是BCI競賽III中的IVa數據集[14],該數據集包含5個健康的人,詳細內容在3.1小節介紹。

第2部分是數據預處理部分。由于腦電信號幅度微弱,經常淹沒在噪聲中,因此需要對數據進行去噪處理。本實驗采用小波軟閾值法進行去噪。由于該部分數據由112個通道組成,計算復雜度高。為了提高計算效率,該文采用SCSP算法進行通道篩選,將112個通道篩選為16個最優通道,簡化后續計算復雜度。最后通過3種不同的方法進行特征提取,并做了特征融合,將腦電信號的時頻域以及空間域特征都進行提取,防止信息遺落。

第3部分是特征篩選部分。由于特征融合之后的矩陣維數較高,會耗費大量的計算資源。因此本文采用PSO算法并結合隨機森林分類器的3個評價指標來篩選特征。最終篩選出較小維度的特征矩陣,減少了計算復雜度并保證了較高的分類性能。

第4部分是分類器。實驗采用4個分類器,分別是K近鄰(KNN)、收縮線性判別分析(sLDA)、隨機梯度下降(SGD)、以及上述3種分類器集成得到的集成分類器(Ensemble)。通過這4種分類器能夠驗證本文所提算法是否具備普適性。

KNN是通過將未標記的樣本由距離其最近的K個鄰居投票來決定。sLDA是線性判別分析的一種改進版,在訓練樣本數與特征數相比較少的情況下更加適用。SGD是梯度下降算法的一個擴展,將梯度設為期望,期望可以使用小規模的樣本近似估計來表示。Ensemble是根據上述3個分類器最終所得到的預測標簽來進行集成,采用投票法來對最終集成分類器的預測標簽進行預測。

2.2 特征融合方法

由于腦電信號所包含的信息量較為復雜,單單提取一個方面的特征無法很好地表示該部分的腦電信號包含的信息。因此本文提出了一種特征融合的方式來克服上述缺點。

首先針對腦電信號的時域部分信息,通過AR模型的擬合效果,使得這部分腦電信號能夠自己模擬之后的運動軌跡。通過提取該AR模型的系數來構建特征向量,能夠反映出部分的時域特征。其次通過小波分解的方法提取腦電的時頻域信息。小波分析技術能夠很好地克服傳統傅里葉變換所產生的只適用于平穩信號的缺陷,更好地處理非平穩的生理信號,因此本文通過小波分解得到的高低頻系數來反應腦電信號的時頻域特征[15]。最后通過SCSP的通道篩選方法,將兩類樣本的方差最大化,從而提取兩類樣本的方差作為空間域上的特征。

2.3 特征選擇算法

本文所提出的特征選擇方法是在基于PSO粒子群優化算法的基礎上,結合隨機森林分類器構建更優的適應值函數,最終篩選出最優的特征。

本實驗所用到的適應度函數是由正確率、ROC面積值和F分數評價指標組成。這3個值能從不同角度反映出分類器所產生的效果是否最佳,更全面的考慮算法性能。適應度函數的計算公式如下:

式中,Accuracy代表分類正確率;AUC代表ROC面積值;F-score代表F分數。其中分類正確率取為正確分類的樣本數與樣本總數之比。具體計算公式如下:

式中,Exactly值是分類正確的樣本數量;Total指的是總樣本數量。

F分數是衡量二分類的一種評價指標,它結合了精確率和召回率,具體公式如下所示:

式中,Precision和Recall分別是模型的精確率和召回率。它們的計算公式如下所示:

式中,TP是真陽性樣本數;FN是假陰性樣本數;FP是假陽性樣本數。

2.4 算法核心步驟

本實驗所設計的PSO結合隨機森林分類器的特征選擇算法核心步驟如下。

1)對所有粒子進行隨機初始化

根據表1對所有粒子進行初始化,由于特征融合之后得到的特征矩陣維度為112維,因此粒子的初始位置為[0,111]中的一個隨機整數。

2)根據適應度函數評估粒子并得到全局最優值

根據式(5)所設置的適應度函數,計算種群的初始適應值,并將該初始適應值中的最優值賦給全局最優值gbest。

3)判斷是否滿足迭代結束條件

迭代的結束條件主要有兩個:①超過了表1所設置的最大迭代次數1000;②適應度函數達到了最優值,當適應值為3時,已達到了全局最優,因此保存粒子參數后跳出循環。

表1 PSO參數設置

4)更新每個粒子當前的速度和位置

根據式(2)和式(3)來迭代更新每個粒子的速度v和位置x。

5)評估每個粒子的適應度函數值

根據當前粒子的速度和位置評估每個粒子的適應值,并進行橫向(不同粒子間)和縱向(該粒子歷史)的比較。

6)對每個粒子的歷史最優位置進行更新

將粒子縱向比較后的最優結果作為局部最優值并賦值給pbest。

7)對群體的全局最優位置進行更新

將所有粒子的pbest進行比較,最終得到最優值替代原有的gbest。

8)如果滿足上述的兩個迭代結束條件則退出,否則返回并重新執行步驟4)~7)。

該算法的偽代碼部分如下所示:

3 實 驗

為了充分證明本文方法的有效性,在多個數據集上進行了廣泛實驗。主要回答了以下幾個研究問題:

1)本文方法在訓練樣本少的情況下,能否在3個評價指標下都能表現的很好;

2)相比其他特征選擇的對比算法,本實驗所提的方法在相同訓練集和測試集的情況下能否優于這些對比算法;

3)適應度函數定義為3個評價指標的和,是否優于任一個或任兩個評價指標的和;

4)在不同的數據集下,本實驗所提的方法是否具有較好的魯棒性。

3.1 數據集

本次實驗所用的數據集是BCI競賽III中的IVa的數據集,該數據集來自5個健康受試者,包含來自4個初始會話的數據[14]。運動意識的主題應執行:(L)左手,(F)右腳。視覺刺激有兩種類型:1)用固定十字后面的字母表示目標;2)隨機移動的物體表示目標。從受試者a1和aw記錄了兩種類型的兩次會話,而其他受試者記錄了3種類型2)的會話和1種類型1)的會話。

該數據集采用的是BrainAmp放大器和ECI的128通道Ag/AgCl電極蓋進行記錄,是在擴展的國際10/20系統的位置上測量了118個EEG通道。左手和右腳的樣本數都是140,該數據集在采集的時候采樣率為1000,并且采集的時間也是1 s,因此采集到的樣本數也為1000。

3.2 評價指標

分類正確率:就是分類器的準確率,是整個分類系統中最重要的指標。

AUC值:AUC值是ROC曲線所覆蓋的面積值。它是一個概率值,即隨機挑選一個正樣本以及負樣本時,當前的分類算法根據計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值,AUC值越大,當前分類算法越有可能將正樣本排在負樣本前面,從而能夠更好地分類[16]。

F分數:可以看作是模型精確率和召回率的一種調和平均,它的最大值是1,最小值是0。

3.3 特征選擇對比算法

基于核函數的主成分分析

Kernel-PCA算法主要是針對傳統的PCA算法做了一定改進,該算法加入了核函數,借此可以通過非線性映射將數據轉換到一個高維空間中,在高維空間中使用PCA再將其映射到另一個低維空間中[17]。

快速盲源分離:Fast-ICA是線性盲源分離算法中較為成熟的一種,算法流程主要包括3步:首先對特征矩陣進行歸一化,將所有的特征值都歸一化到[0,1]的范圍。接著進行白化,因為ICA模型不包含噪聲項,為了使模型正確就必須使用白化。最后將白化之后的模型進行ICA分析[18]。

基于KL散度的特征篩選算法:KL散度也被稱為相對熵,用于度量兩個概率分布之間的差異程度,具有非負性和不對稱性。計算公式如下:

式中,P表示真實分布;Q表示P的擬合分布[19]。

基于相關系數的特征篩選算法:Corr方法是基于皮爾森相關系數,它是衡量兩個隨機變量之間線性相關程度的指標,描述的是一種非確定性的關系。相關系數r的取值范圍是[?1,1],表示變量之間相關程度的高低,r的絕對值越大,其相關度越高。r>0表示正相關,r<0表示負相關,r=1稱為完全正相關,r=?1稱為完全負相關,r=0稱為不相關[20]。

3.4 實驗調參

隨機森林分類器中決策樹數量參數的確定:針對隨機森林分類器中的決策樹數量進行參數調整,分類器的正確率隨著決策樹的數量增加產生的結果如圖2所示。

圖2 隨機森林參數圖

在該分類器中,隨著內部決策樹數量的增加,正確率逐步上升。最終在5棵決策樹的時候,分類正確率接近98%。為了避免資源浪費并保證正確率,后續的實驗結果都采用5棵樹作為隨機森林分類器中的決策樹參數。

帶通濾波參數的確定:主要是通過計算每一類數據的功率譜密度,并根據功率譜密度繪制出能夠反映不同頻率段所含信息量大小的R2圖,根據該圖能得到信息最多的頻段信息。在這些R2圖中,該濾波段所蘊含的信息越多,則該頻段的顏色就越鮮艷,由此確定每個數據集的帶通濾波參數。繪制的R2圖如圖3所示。由圖得知,不同的數據集對應的R2圖也不同,由顏色對比來進行濾波參數選擇。aa數據集的濾波頻段選取為3~30 Hz;al數據集的濾波頻段選取為5~40 Hz;av數據集的濾波頻段選取為8~45 Hz;aw數據集的濾波頻段選取為8~48 Hz;ay數據集的濾波頻段選取為5~35 Hz。

PSO參數設置:本實驗所設置的粒子群優化算法的各項參數以及描述如表1所示。

圖3 帶通濾波R2圖

3.5 特征選擇對比算法實驗結果

將5個數據集的訓練集和測試集按照2∶8的比例進行分割,驗證不同的對比算法在訓練集樣本少的情況下和本實驗所提方法的分類精度比較情況,并且每個算法都是經過10次實驗得到的5個數據集的平均的分類正確率,具體結果如表2所示。

表2 各算法平均分類正確率和方差結果表%

上表展示了各個特征選擇的對比算法以及本文所提方法的結果,最后一行表示本文所提出的特征選擇算法。通過此表可以看出,本文所提出的特征篩選方法相比現階段較為熱門的4種算法來說,效果更優。在訓練樣本少的情況下,4種分類器所得到的平均分類正確率也能達到96.25%。

為了更直觀地反應出這5種不同算法的區別,計算每個特征選擇算法后所得到的分類器的平均F分數,并利用平均F分數值繪制圖4。

圖4 特征選擇算法F分數圖

由上圖可得,本文所提算法的F分數,在分類器平均10次后能到達0.98,超過其余4種特征選擇算法,驗證本文提的方法更優。

3.6 適應度函數實驗結果

本實驗所使用的適應度函數是3個評價指標的和,分別是Accuracy、AUC以及F_score。為了驗證這3種評價指標的和是否比任意單個或兩個所組成的適應度函數的效果更好,結果如表3所示。

表3展示了不同的適應度函數所得到的不同的分類效果。本實驗所設計的由上述3種評價指標所構成的適應度函數在集成分類器上的平均效果能達到98.6%,因為這3種評價指標能從各個角度反映分類性能,從而互相輔助來達到更優效果。在SGD的分類效果上也分別從多到少提高了1.6%~12.3%,因此驗證了本文所設計的適應度函數的效果更優。

表3 不同適應度函數對應分類結果表%

3.7 不同數據的特征分類驗證實驗結果

為了證明本實驗所提出的算法在不同數據集中都能適用,且訓練集較少的情況下也表現優異,將5種數據集的訓練集和測試集全部按照1∶3的比例進行分類,在4種不同分類器上得到10次結果后的平均值和方差,結果如表4所示。

表4 不同數據分類正確率結果表

4 結束語

本文提出了一種新穎的BCI運動想象任務分類模型,該模型結合了帶通濾波、小波去噪、通道篩選、特征提取、特征融合、特征選擇以及模式分類。此外本文采用了PSO結合隨機森林分類器的特征篩選算法,以一種新穎的方法來選擇或者消除相關特征,將Accuarcy、AUC值以及F-score作為評價指標,最終得到的集成分類器98.34%的平均正確率,且AUC值和F-score也都表現優異。與其他特征選擇方法來相比,表現優異,因此能夠達到精確運動想象分類的目的。未來將基于現有的實驗成果,繼續降低該算法模型的計算復雜度,把離線分析變成在線分析,從而更好地應用在醫療康復領域中。

猜你喜歡
特征選擇適應度正確率
改進的自適應復制、交叉和突變遺傳算法
門診分診服務態度與正確率對護患關系的影響
一種基于改進適應度的多機器人協作策略
Kmeans 應用與特征選擇
生意
品管圈活動在提高介入手術安全核查正確率中的應用
生意
基于空調導風板成型工藝的Kriging模型適應度研究
聯合互信息水下目標特征選擇算法
基于特征選擇聚類方法的稀疏TSK模糊系統
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合