?

改進的mRmR特征選擇方法在人體行為識別中的應用

2019-04-23 07:12王華華周遠文趙永寬
關鍵詞:特征選擇子集維數

王華華,黃 龍,周遠文,趙永寬

(重慶郵電大學 移動通信技術重慶市重點實驗室,重慶 400065)

0 引 言

近年來,基于可穿戴傳感器的人體行為識別的研究吸引了越來越多國內外學者的目光,通過將不同類型的傳感器穿戴于身體的不同位置可實現對一些日常人體行為的識別與監測,另外在智能家居方面也具有廣泛的應用前景[1-5]?;趹T性傳感器的人體行為識別的整個流程中,隨著提取特征維數的不斷增加,必然會造成一些不相關及冗余特征的產生,那么特征選擇將是非常重要的一個環節,提出一種行之有效的特征選擇方法至關重要。特征選擇數是從原始特征子集中選擇一個重要的子集以改進學習系統,降低實驗計算復雜度,并能提高識別準確率[6-9]。

在基于慣性傳感器人體行為識別中,為了提高人體行為識別的準確率,研究者們往往會提取大量的時域頻域特征,然而提取的特征維數不能無限增加,隨著特征維數的增多,可能導致維數災難的后果,所以一般在提取特征后,需要對提取的特征集進行降維,以達到去除不相關的冗余特征,降低計算復雜度并最終實現更好的分類效果。特征選擇方法一般可以分為2類:基于包裝器的方法與基于濾波器的方法[10]。文獻[11]提出了基于濾波器的特征選擇方法(Relief-F)[12]與基于封裝器的特征選擇方法相結合的使用方法。文獻[13]提出一種基于博弈論的特征選擇方法。文獻[14]提出一種不一致進化特征選擇方法,該方法通過設計不一致度量方法并通過遺傳算法進行優化篩選特征子集。文獻[15]提出一種基于遺傳算法優化的加速度特征選擇方法,達到一定的識別效果。但這些方法都存在著識別準確率不高,特征選擇效果不好的問題。由于一些傳統的過濾式特征選擇方法只使用某一種相關性度量方法選擇和衡量與分類類別相關性大的特征,如距離度量、一致性度量、信息度量和依賴性度量等方式,并賦予與類別相關性大的特征較高的權重。這些方法一方面僅考慮了特征與類別之間的相關性而忽略了特征之間的相關性,從而無法去除特征之間的冗余性;另一方面該類方法忽略了特征之間的交互作用可能對分類帶來更好的效果,如一些特征在單獨用于分類時并不能達到很好的效果,但當幾種特征相互結合使用時可能起到較好的分類作用。雖然每種相關度量方式各不相同,但各種相關度量方法在不同的特征選擇方法發揮著各自的作用,那么如何結合多種相關度量方式對特征子集進行特征選擇將是本文研究的重點。

基于此,本文提出一種基于多種相關度量的特征選擇方法,該方法首先通過融合多種性能優異的相關度量方法對篩選特征子集進行初步粗略降維,然后通過設計適應度函數,利用遺傳算法搜索最優或者次優特征子集,從而進一步實現精細降維,并最終能有效降低特征維數,同時能實現較低的分類誤差和較好的識別準確率。

1 基本知識描述

1.1 基于最小冗余與最大相關算法框架

由于特征選擇方法的最終目的是通過有效的方法去除不相關特征和冗余特征,從而選擇出對分類有效的相關特征子集。因此,本文提出的特征選擇方法將基于經典的最小冗余與最大相關準則(mRmR)特征選擇方法的理論框架,可以用(1)式表示為

J(F)=D(F)-R(F)

(1)

(1)式中:D(F)表示特征與類別之間的相關性;R(F)表示特征與類別之間的冗余性。

1.2 相關性度量方法

1)最大信息系數(maximal information coefficient,MIC)是一種有效的統計量度量方法,主要用于評估2個變量之間的關聯。MIC克服了互信息直接用于特征選擇時沒辦法歸一化,在不同數據集上的值無法做比較,且對連續變量計算麻煩的缺點。當擁有足夠的統計樣本時,MIC可以捕獲廣泛的關系,而不限定于特定的函數類型(如線性、指數型、周期型等)。一般的相關系數只能度量線性關系,然而在一些現實應用中非線性是廣泛存在的,包括周期性、指數關系等。MIC不依賴測量數據的統計分布,與以前的研究相比,可以識別廣泛類型的關聯。為了解決這個問題,研究者們提出了一種新穎的相關度量方法“最大信息系數”,可以用(2)式表示為

(2)

(2)式中,I(X;Y)表示變量X與變量Y間的互信息量。

2)皮爾遜相關系數(pearson correlation coefficient,PCC)是基于數據矩陣的協方差矩陣,是評估2個向量之間關系強度的一種方法。它的值為[-1,1],其中,1表示變量完全正相關,0表示無關;-1表示完全負相關。通常,2個變量X和變量Y之間的皮爾遜相關系數可以用(3)式表示為

(3)

1.3 遺傳算法

遺傳算法是一種模擬自然界生物遺傳和進化過程而形成的高效全局優化搜索算法。該算法通過群體搜索來尋找群體最優解。它具有魯棒性強、簡單通用等優點,并在很多領域應用廣泛。遺傳算法的主要步驟包括確定實際問題的參數集、遺傳編碼、初始化群體、設計適應度函數及遺傳操作(包括選擇、交叉、變異)。其中,最重要的操作之一就是設計適應度函數,通過以適應度函數作為評價標準,主要用于評價個體的優劣程度,因此,適應值高的個體被選中的概率高,群體中的個體通過不斷的選擇、交叉、變異等迭代操作,最終可以獲取問題的最優解。遺傳算法主要有以下幾個步驟。

①初始化群體。對于人體行為識別中的特征選擇問題,采用二進制對問題的解進行編碼是比較好的方法,本文對已實現部分降維的特征子集進行二進制編碼,通過二進制數字1與0來表示對應特征的有無。如果原始特征維數為G維,則問題的一個解可以通過一個G維0-1向量來表示。當第i個特征為1時表示第i個特征被挑選為特征子集之一;反之,如果向量的第i個分量為0則表明沒有選擇第i個特征。如此,一個特征子集就可以通過一個G維0-1向量表示。

②適應度函數設計。為了實現更好的分類識別準確率,遺傳算法需要設計合適的適應度函數。那么特征選擇的最終目的還是通過降低特征維數,降低計算復雜度,進而獲取更高的分類識別準確率,所以本文將分類識別準確率作為適應度函數,換句話說就是讓能使分類準確率高的特征被選擇。

③選擇。通過選擇策略從群體中選出優良個體,淘汰劣質個體。本文采用適應值比例選擇方法,那么個體的選擇概率可以用(4)式表示為

(4)

(4)式中:a表示群體規模;fk表示個體的適應值。

④交叉。交叉是一個進化過程,是指把2個父代個體的部分結構加以替換重組而生成新的個體的操作。

⑤變異。變異是維持種群多樣性的遺傳算子,通過較小的概率對特征子集編碼串上的某些位的值進行隨機翻轉,如0變1或1變為0等操作,從而產生新的個體。

2 本文方法描述

本文提出的特征選擇方法主要分成2部分:第1部分提出基于mRmR準則的多種相關度量系數融合的特征選擇方法,通過結合2種相關系數的優點,挑選部分相關性強且較少冗余的特征子集,以實現部分降維;第2部分,由于第1部分特征選擇方法主要考慮特征與類別的相關性和冗余性,沒有很好地考慮特征之間的交互作用,即一些特征在單獨用于分類時效果不佳,但當幾種特征結合使用時卻可以實現較好的分類。因此,本文進一步提出通過遺傳算法對第1部分提出的特征選擇方法提取的特征子集進行優化。

2.1 多種相關系數融合

相關是度量2個變量關系的重要指標。它在信號處理中具有很多理論基礎,例如匹配濾波,循環自相關檢測等。在統計學中,可以通過不同的相關系數來描述各種變量之間的關系。這些相關系數很多被應用于特征選擇方法中,相關性度量方法有很多種,常見的包括距離相關系數、最大信息系數、組內相關系數、決定系數、秩相關和皮爾遜相關系數等?;诖?,為了更好地利用并結合2種不同相關度量方法的優勢,本文通過融合2種相關性度量系數,即MIC和PCC,并定義該相關性度量系數MPC(X,Y)為

(5)

于是,若YL={y1,y2,…,yl}表示類別變量,l表示類別總數,F={F1,F2,…,Fi,…,Fm}表示特征集合,m表示特征總數,根據有監督的特征選擇,特征Fi與類別標簽YL的相關度量系數定義為

(6)

(6)式中:F表示特征集合;YL表示類別變量;Fi表示第i個特征。

根據最大相關與最小冗余準則中的最大相關原則,被選擇的特征Fi應該與類別YL具有最大相關性,即為D(Fi,YL)取最大值時的Fi,記為Fmax,表示為

Fmax=argmaxD(Fi,YL)

(7)

同理,根據mRmR中的最小冗余準則,被挑選的特征Fi具有最小冗余性,計算冗余度大小可以表示為

Fmin=argminR(F)

(8)

傳統的mRmR方法主要通過計算特征與類別之間的相關性及特征之間的冗余性進行篩選,去除不相關及冗余特征,以獲取相關特征,而該方法沒有很好的考慮特征間的交互作用對分類產生的積極作用。然而,在實際應用中通常使用增量搜索方法來獲取由Φ(·)定義的近似最佳特征,算子Φ(D,R,M)用來定義優化最大相關和最小冗余信息。通過結合D與R,那么最優選擇特征Fopt挑選準則表示為

Φ=D-R+M

Fopt=argmaxΦ(D,R,M)

(9)

由此,如果實驗已經獲取了k-1個特征的特征子集Fk-1,那么第k個特征Fk需要從特征集合{F-Fk-1}中挑選,則通過Φ(D,R,M),Fk的詳細挑選準則表示為

(10)

2.2 初選特征獲取方法描述

基于最大相關與最小冗余準則(mRmR)框架下,獲取的特征子集是通過逐步更新挑選的?;?種不同相關系數的融合,并通過(10)式獲取最大相關與最小冗余特征子集。該方法首先初始化將需要構建的特征子集置為空集并設置預期獲取特征維數s,然后將(10)式作為程序獲取下一個特征的準則。本文提出的詳細特征選擇方法的偽代碼如算法1所示。

算法1基于最小冗余與最大相關準則下的多種相關度量系數融合的特征選擇方法。

輸入:數據集X∈Rn×m,類別標簽為YL,特征全集為F,特征個數為s

初始化:構建目標特征子集Fs=?,則剩余特征子集Fa=F-Fs

fork=1 tosdo

對于剩余特征集Fa中的任意特征Fj,特征全集為F中的任意特征Fi,當挑選新的特征Fk的準則為

更新Fs=Fs∪Fk和Fa=Fa-Fk

end for

輸出:Fs

2.3 基于遺傳算法優化

對2.2節獲取的初選特征進行二進制編碼,并通過遺傳算法搜索最優或者次優特征子集。本文提出的基于遺傳算法優化的多種相關度量特征選擇的整體框圖如圖1所示。從圖1可以看出,首先通過提出的基于mRmR準則下2種相關系數融合的特征選擇方法對m維的原始特征子集進行降維,得到s(s

圖1 基于遺傳算法優化的特征選擇方法Fig.1 Feature selection method based on genetic algorithm optimization

3 實驗設計與結果分析

3.1 實驗數據集

本文使用的數據集是來自實驗室設計的可穿戴慣性傳感器平臺。該平臺主要由2個模塊組成:數據采集模塊和數據接收模塊。數據采集模塊是由采集頻率為50 Hz的慣性傳感器、無線數據發送模塊、電源模塊、天線模塊及腰帶組成,如圖2。數據接收模塊由無線藍牙模塊、USB轉串口模塊及天線模塊組成,如圖3。有研究表明,人體行為頻率低于18 Hz,因此,采集頻率為50 Hz的傳感器模塊能滿足實驗要求。本實驗邀請了18名實驗者參與了人體日常行為數據的采集工作,通過將傳感器數據采集平臺置于實驗者腰部,分別提取了坐立、站立、躺臥、步行、上樓、下樓、跑步等7種人體行為數據。每位實驗者的每種行為數據采集時間至少2 min,并建立基本人體行為數據庫。

圖2 傳感器信號采集模塊Fig.2 Sensor signal acquisition module

3.2 實驗設置

首先,在數據預處理階段,實驗需要對原始數據信號進行低通濾波,去除原始信號中由于傳感器抖動、外界干擾信號產生的噪聲等成分,避免對最終的行為分類造成干擾;常見的去噪方式主要包括低通濾波、平滑濾波和取導數操作等方式,通過對3種不同方法去噪效果比較,本文采用的是FIR低通濾波器。有研究表明,人體動作的信號頻率不超過18 Hz,因此,本文采用的低通濾波器截止頻率設置為18 Hz,以去除原始信號中的高頻噪聲成分。在數據分割階段,本實驗采用的滑動窗口長度設置為2.5 s,考慮到傳感器的采集頻率為50 Hz,因此,每個數據窗口有125個數據點,窗口重疊率設置為50%,本數據集一共包含6 048個特征樣本,每種行為包含864個特征樣本。為了建立與用戶無關的人體行為識別通用模型,實驗采用留一交叉法(LOO)進行測試。根據不同分類行為將數據集劃分為訓練集和測試集,分別用于訓練和測試分類模型。將每種不同行為的特征向量平均分成6個特征子集,然后每次不重復地抽取其中的一個特征子集作為待測樣本集,剩余5個特征子集用于訓練樣本集,這樣每次訓練樣本和測試樣本分別包含720和144個特征樣本,循環進行6次并對識別準確率求均值得出最終識別結果。表1為每次用于訓練與測試時的樣本數的劃分情況。

圖3 傳感器數據接收模塊Fig.3 Sensor signal receiving module

分類行為樣本總數訓練集樣本數測試集樣本數坐立54051030躺臥54051030站立54051030步行54051030上樓54051030下樓54051030跑步54051030

為了驗證本文方法的性能,實驗對濾波后的樣本信號提取了包括均值、方差、四分位值、相關系數等348種特征,包括164種時域特征和184種頻域特征,這樣每種加速度行為的特征維數為384維。由于這些高維數據中存在著大量的相關與冗余信息,所以實驗主要分成2部分完成:①通過本文提出的基于最大相關與最小冗余(mRmR)框架下的2種相關度量系數融合的特征選擇方法進行降維,從384維降至50維,即將算法中的選擇特征最大個數s設置為50;②為了進一步降低特征向量的維數,并保證人體行為識別的準確率,實驗通過遺傳算法對第1步獲取的50維特征子集進一步優化。遺傳算法的種群規模取值為20,最大進化代數為50,采用適應值比例選擇方法選擇產生下一代種群個體,交叉概率設置為0.8,變異概率為0.01。實驗運行10次后,取平均值作為結果。

接著,為了方便對比實驗結果,實驗將通過SVM分類器和KNN分類器分別進行分類。由于SVM分類器能有效解決非線性、小樣本、維數災難和“過學習”等分類問題,常見的核函數包括有線性核函數、多項式核函數和徑向基核函數等,設有H種不同分類行為,則共需要P=H(H-1)/2個2類分類器。本實驗采用的SVM模型選用徑向基核函數,表示為

K(x,xi)=exp(-γ|x-xi|2)

(11)

(11)式中,參數γ=1/H,本文中有7種分類行為,因此實驗中H的值設為7。

KNN分類器的基本工作原理是根據計算出的待分類樣本x與所有訓練樣本間的距離,并從中選出x的k個近鄰,然后統計這k個近鄰的類別,并將x歸入k個近鄰中得票最多的那一類。根據經驗規則,k一般小于訓練樣本數的平方根,因此本實驗將k的值設為12。

3.3 實驗性能測量方法

為了體現本文方法相比其他方法的優勢,本文將通過2方面對其進行比較:最終獲取的特征個數和實驗的分類性能。表2為3種不同行為混淆矩陣的舉例說明。相應的,本文將通過識別準確率衡量本方法的分類性能。

表2 混淆矩陣舉例表

Accuracy即平均識別準確率,表示每個測試樣本被正確分類的可能性,即所有分類行為的平均識別準確率,其計算公式如(12)式所示

(12)

3.4 實驗結果與分析

在實驗中,通過本文提出的方法對7種常見人體行為提取的特征集進行降維,并分別采用SVM分類器和KNN分類器進行分類,實驗采用留一交叉法檢測得到的混淆矩陣及分類識別準確率分別如表3、表4所示。

表3 通過SVM獲取的混淆矩陣及識別準確率Tab.3 Confusion matrix and recognition accuracy obtained by SVM

表4 通過KNN獲取的混淆矩陣及識別準確率Tab.4 Confusion matrix and recognition accuracy obtained by KNN

從表3和表4的混淆矩陣及各行為識別精度可以看出,本文方法對實驗分類的7種行為實現較高識別準確率,SVM分類器的平均識別正確率達到了97.02%,而通過KNN分類器也達到了95.73%;另外,從混淆矩陣可以看出,對2種易分類的靜止行為(站立、躺臥)沒有出現混淆,達到了100%的識別準確率,而對于容易混淆的步行、上樓和下樓3種行為,本方法通過SVM和KNN也分別達到了96.53%和92.59%的高識別精度,3種行為之間也只有較少測試樣本發生了混淆。

為了進一步驗證本文方法的有效性,實驗將本文方法分別與另外4種特征選擇方法進行對比,包括未使用特征選擇方法、mRmR方法、文獻[14]及文獻[15],其中,文獻[14]采用基于遺傳算法優化的不一致相關度量方法,文獻[15]采用主成分分析(PCA)和基于遺傳算法優化的線性鑒別(LDA)相結合的特征選擇方法,4種方法都選用SVM分類器和KNN分類器進行分類測試,其中SVM和KNN分類器中參數設置都保持相同,文獻[14]、[15]中使用的遺傳算法的設置參數也與本文方法保持一樣,實驗從分類精度及特征維數降低幅度2方面進行對比,實驗結果如表5、表6、表7及圖4和圖5,其中,表5和表6為本文方法與其他4種方法通過SVM和KNN分類識別的各行為分類精度,圖4和圖5分別為不同方法在通過SVM和KNN分類器分類時獲取的平均識別準確率,表7為5種方法通過2不同分類器篩選出的特征維數。

表5 不同特征選擇方法通過SVM獲取的總體識別精度Tab.5 Total recognition accuracy of different feature selection methods by SVM %

表6 不同特征選擇方法通過KNN分類的各行為識別精度Tab.6 Total recognition accuracy of differentfeature selection methods by KNN %

表7 不同方法降維后的特征維數Tab.7 Feature dimensions of differentmethods after dimensional reduction

圖4 不同方法通過SVM的總體平均識別準確率Fig.4 Total average recognition accuracyof different methods by SVM

圖5 不同方法通過KNN的總體平均識別準確率Fig.5 Total average recognition accuracyof different methods by KNN

結合表5、表6及圖4、圖5的實驗結果可以看出,與另外4種方法相比,從分類精度看,本文提出的方法有最高的平均識別準確率,SVM分類器達到了97.02%,KNN分類器也達到了95.73%,與不使用特征選擇方法相比較,平均識別準確分別提高了15.92%和14.63%;與傳統的mRmR方法相比較,也分別提高了13.72%和9.92%;與文獻[14]、文獻[15]對2種傳統方法的改進方法比較,通過SVM分類器分類,分別提高了3.31%與1.76%,通過KNN分類,則分別提高了6.15%和3.37%。從圖4、圖5還可以看出,當不選用特征選擇方法,直接進行分類時識別準確率最差,平均識別準確率只有81.10%,所以從側面也體現出在一些行為分類中,隨著提取特征維數的增加,特征選擇方法在分類識別中的重要性。從表7的實驗結果可以看出,當使用本文提出的特征選擇方法,通過SVM分類時特征向量的維數從384維降到了37維,雖然高于另外2種方法降維后的特征維數,即文獻[14]的19維和文獻[15]的23維,但本文方法的識別準確率卻高于文獻[14]、文獻[15]的方法,由此,也可以看出特征維數并非降的越低越好。而通過KNN分類時,特征維數降到了26維,比其他幾種方法所獲取的特征維數都要低,且獲得最好的識別準確率。另外,與經典的mRmR的特征選擇方法相比,本文方法也效果明顯,從側面也可以看出使用多種相關系數融合的特征選擇方法比僅使用單一的相關系數的效果好。

圖6 本文方法與文獻[14]、文獻[15]方法通過SVM分類精度Fig.6 Classification accuracy of the proposed method andthe methods of literature [14], literature [15] by SVM

由于文獻[14]、文獻[15]及本文方法中都采用了遺傳算法進行優化,所以實驗進一步對此3種方法在分類精度及收斂速度2方面進行對比,實驗通過SVM分類器分類時獲取的實驗結果如圖6。

從圖6的實驗結果可以看出,相比于文獻[14]和文獻[15]中提出的特征選擇方法,本文方法在迭代次數上也是最快實現收斂的,并且最終的識別精度也是最高的。

4 結束語

針對在基于加速度傳感器人體行為識別的研究中,由于特征維數的增加會造成冗余,進而降低分類識別準確率的問題,本文提出一種基于遺傳算法優化的多種相關系數融合的特征選擇方法,該方法在基于mRmR準則下,通過多種相關系數融合的方法去除部分冗余、不相關特征,并利用遺傳算法搜索最優或次優特征子集,通過與其他4種典型特征選擇方法進行對比,實驗分別采用SVM分類器和KNN分類器進行分類識別,結果表明:該方法具有優異的特征降維性能,同時對實驗分類的7種不同人體行為實現更好的分類效果,平均識別準確率分別達到了97.02%和95.73%,與不使用特征選擇方法相比較,平均識別準確分別提高了15.92%和14.63%;與傳統的mRmR方法相比較,分別提高了13.72%和9.92%;與文獻[14]、文獻[15]對2種傳統方法的改進方法相比較,通過SVM分類器分類,分別提高了3.31%與1.76%,通過KNN分類,則分別提高了6.15%和3.37%。在收斂速度方面,相比于文獻[14]和文獻[15]中提出的特征選擇方法,本文方法在迭代次數上也是最快實現收斂的,并且最終的識別精度也是最好的。通過本文方法及實驗結果可以發現,有效地利用多種相關度量方法不僅可以起到較好的特征選擇作用,而且對實驗的平均識別準確率也有顯著提高。

猜你喜歡
特征選擇子集維數
β-變換中一致丟番圖逼近問題的維數理論
拓撲空間中緊致子集的性質研究
關于奇數階二元子集的分離序列
完全二部圖K6,n(6≤n≤38)的點可區別E-全染色
實值多變量維數約簡:綜述
基于最大信息系數和近似馬爾科夫毯的特征選擇方法
Kmeans 應用與特征選擇
基于特征選擇聚類方法的稀疏TSK模糊系統
每一次愛情都只是愛情的子集
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合