?

針對惡意軟件檢測的特征選擇與SVM協同優化

2024-02-22 08:00張新英吳媛媛
計算機工程與設計 2024年2期
關鍵詞:特征選擇獵物種群

張新英,李 彬,吳媛媛

(1.鄭州經貿學院 智慧制造學院,河南 鄭州 451191;2.中原工學院 機電學院,河南 鄭州 451191)

0 引 言

移動互聯網的迅速發展使得移動端軟件數量高速增長。移動端操作系統也因良好的用戶體驗占據了基本所有移動端OS市場[1]。但由于像鴻蒙、安卓等系統具有開放性,使得惡意軟件與日俱增,給移動網絡用戶帶來了嚴重的網絡安全問題。通過移動網絡流量分析建立精準惡意軟件檢測模型對于建立安全網絡使用環境將具有重要作用。惡意軟件檢測主要包括靜態檢測和動態檢測方法。前者[2-4]以反編譯方式獲取靜態特征,進而構建分類模型。然而,靜態方法的軟件特征選取的相關性不足,分類精度低。后者[5-7]利用特征分析獲取軟件序列特征及相關環境變量,并以此對惡意軟件分類。然而,該方法在最優特征選擇和惡意功能準確識別上存在困難。

近年來,群體智能優化算法因為具有良好的隨機搜索性能,通過綜合考慮多特征組合對分類模型性能的影響,已廣泛地應用于特征選擇的求解。如文獻[8]通過融合粒子群算法和外觀比間隔算法在安卓環境設計了針對惡意軟件的特征選擇策略,有效減少了冗余特征。文獻[9]結合EGA算法進行特征選擇,學習模型的精度得到了提高,最優特征子集也實現了降維。將智能優化算法、特征選擇及分類模型綜合考慮,可以進一步提高分類精度。如文獻[10]結合STOA和GA算法選擇最優特征子集,提升了模型分類精度。文獻[11]利用GOA算法優化封閉式特征選擇,并同步搜索分類模型的關鍵參數,特征子集相關性更高,但由于GOA本身全局搜索能力差,分類精度還待提升。

哈里斯鷹優化算法HHO[12]是一種新的智能優化算法,其原理簡單、參數少、全局搜索能力強,已在圖像識別[13]、機器學習[14]、電力控制[15]、TDOA定位[16]等方面得到了有效驗證。但HHO依然存在全局尋優精度差、收斂速度慢的不足。本文提出一種基于改進HHO優化特征選擇與SVM的惡意軟件檢測模型,通過多種策略對HHO進行綜合尋優性能改進,利用改進算法優化SVM學習模型,對特征子集和SVM參數調整同步優化。結合網絡流量數據特征構建包含正常和惡意特征的軟件數據集,構建分類模型。并通過實驗測試驗證改進模型達到了預期效果,能夠提升惡意軟件檢測模型的分類能力。

1 HHO算法

哈里斯鷹優化算法HHO是一種啟發于美國亞利桑那州南部猛禽協作捕食行為的元啟發式算法,該物種可以通過追蹤、圍捕、攻擊對獵物進行高效協作捕食。HHO算法由全局搜索和局部開發兩個階段組成,并通過獵物逃逸的能量因子E采取不同的搜索行為,該因子定義為

E=2E0(1-t/Tmax)

(1)

其中,E0=2rand(0,1)-1表示能量初始狀態,該狀態在(-1,1)間隨機變化,t、Tmax分指當前迭代和最大迭代。

|E|≥1時,算法進入全局搜索階段,哈里斯鷹會根據獵物的位置和其它個體的位置隨機選擇棲息點,并通過兩種等概率策略搜索目標獵物,數學模型如下

X(t+1)=

(2)

(3)

其中,N為種群規模,X(t+1)、X(t) 分別為個體的新位置和原位置,Xrand(t)、Xrabbit(t) 分指隨機個體和搜索目標個體,q、r1~r4為[0,1]隨機值,[lb,ub]為搜索邊界,Xm(t) 為種群位置均值。

|E|<1時,算法進入局部開發階段,獵物會試圖逃逸,哈里斯鷹會以突襲的方式攻擊獵物。HHO算法采用4種策略模擬這種捕食行為,4種策略分別為軟包圍、硬包圍、漸近快速俯沖式軟包圍和漸近快速俯沖式硬包圍。HHO算法根據能量因子E和逃脫概率λ決定采用哪種策略。

(1)軟包圍。 |E|≥0.5且λ≥0.5, 獵物擁有能量逃脫包圍,個體會以包圍方式消耗獵物的能量,使獵物精疲力盡,并完成獵物捕食。數學模型如下

(4)

其中,ΔX(t) 為獵物與個體的間距,J為獵物跳躍距離,r5為(0,1)間隨機量。

(2)硬包圍。 |E|<0.5且λ≥0.5,表明獵物逃逸能量不足,種群將以圍捕方式向獵物發出突擊突襲。數學模型如下

X(t+1)=Xrabbit(t)-E|ΔX(t)|

(5)

(3)漸近快速俯沖軟包圍。 |E|≥0.5且λ<0.5,表明獵物有逃脫能量,此時種群會建立軟包圍對獵物進行圍捕。數學模型如下

X(t+1)=

(6)

其中,D為維度,S為行向量,LF為Levy飛行算子。

(4)漸近快速俯沖硬包圍。 |E|<0.5且λ<0.5,表明獵物擁有較少的能量,此時種群會建立硬包圍對獵物圍捕。數學模型如下

X(t+1)=

(7)

2 混合多策略改進哈里斯鷹優化算法MHHO

2.1 基于Bernouilli shift混沌的種群初始化方法

智能算法的搜索過程起始于初始種群的分布,若初始種群的分布較好,在搜索區域內的均勻性、多樣性得到了保證,無疑可以加快算法搜索到最優解。標準HHO算法在初始種群生成方面采用了隨機生成機制,這樣可以保證智能算法搜索的隨機性,但無法保證較高的初始種群質量,進而降低算法搜索效率。在優化領域內,混沌映射是一種比隨機數生成器更有效的方法,它不僅具備隨機性,而且規律性及對空間搜索的遍歷性要強于隨機數。目前常用的混沌映射方式有多種,研究表明,Bernouilli shift混沌映射、Tent混沌映射相比較于Sine、Logistic以及ICMIC等混沌映射具有更高的搜索效率。設置最大迭代次數Tmax=10 000,筆者對Bernouilli shift、Tent、Logisitc和Sine這4種混沌映射取值頻次進行了實驗,圖1是取值頻次的分布直方圖。從結果來看,Bernouilli shift、Tent兩種混沌映射的混沌取值均勻性明顯優于Logisitc和Sine,后面兩者在[0,1]的邊界區域取值頻次明顯高于中間區域,說明算法在邊界區域的搜索密度過高,而中間區域則搜索不足,種群個體分布的多樣性不平衡。前面兩者的取值頻次更加均勻,保證所有搜索區域內個體的均勻分布,提高了接近最優解的概率。

圖1 不同混沌映射的取值頻次

基于以上分析,本文將采用Bernouilli shift混沌映射機制來生成改進HHO算法的初始種群。Bernouilli shift混沌映射公式為

(8)

其中,δ為混沌參數,當δ∈(0,0.5)∪(0.5,0.8) 時,式(8)處于混沌狀態。

生成Bernouilli shift混沌值后,混沌值與種群搜索空間的映射規則為

X(t)=lb+Z(t)×(ub-lb)

(9)

其中,[lb,ub] 為個體搜索邊界,Z(t) 為第t次迭代生成的Bernouilli shift混沌值。

2.2 能量因子非線性調整

根據HHO算法的搜索機制可知,參數E是實現HHO算法進行全局搜索或局部開發的控制參數,搜索能力和開發能力也是智能算法搜索最優解的主要指標。根據參數E的定義式(1),其值呈線性遞減規律,表明迭代前期E值較大,偏向全局搜索,然后線性遞減,逐步轉向局部開發。但這種線性模式無法真實反映自然種群對搜索目標的多輪次搜捕,無法將算法效率提升到最大。針對這一問題,改進HHO算法將能量因子E設計為非線性更新模式,并引入余弦函數將其改進為周期性的更新模式,以描述種群對目標的多輪次搜捕特征,具體為

(10)

其中,參數k用于控制能量因子的遞減周期數。根據式(10),種群將實現多輪次全局搜索與局部開采,并依據概率靠近并捕食目標獵物。

能量因子E同時決定了獵物逃逸的跳躍距離J,為了避免HHO算法中跳躍的隨機性,將J設置為E的函數形式,以指導獵物的跳躍距離,具體為

(11)

根據式(11)可知:能量因子與跳躍距離呈現一致變化。若獵物能量充足,則逃逸距離更遠;若獵物能量耗盡,則幾乎只能停留在原地。

2.3 最優解變異擾動方法

在HHO算法的迭代晚期,種群個體逐步趨近于種群最優解,容易導致多樣性缺失,搜索陷入局部最優。為此,改進算法將設計一種針對最優解的動態變異擾動機制,引入兩種變異算子,以動態選擇概率決定具體變異方式,以此實現對最優解的擾動,提高個體多樣性和算法跳離局部極值的概率。

(1)隨機游走變異

該機制表明個體將以隨機游走的方式搜索食物源,并更新個體位置。隨機游走公式為

X(t)=[0,cumsum(2r(t1)-1),…,cumsum(2r(tn)-1)]

(12)

其中,X(t) 為隨機游走步數,cumsum為累加和函數,n為最大迭代次數,函數r(t) 定義為

(13)

根據隨機游走原理可知,個體在所有維度上都以隨機游走更新個體位置。同時,由于搜索空間存在可行域邊界,為了確保種群個體在可行域內進行隨機游走,算法將利用式(14)對最優解對應的位置進行歸一化處理

(14)

其中,歸一化處理的Xbest(t) 即為最優解進行隨機游走變異的新位置,參數中,maxi、mini對應個體維度i進行隨機游走的最大值與最小值,maxi(t)、 mini(t) 對應第t次迭代時個體維度i的最大值與最小值。由隨機游走方式可知,迭代前期,隨機游走邊界更大,利于算法充分地全局搜索;迭代后期,游走邊界收窄,利于算法可以做更充分的精細開發。

(2)柯西-t變異

柯西分布特征是:兩端具有較長尾翼,分布密度小,分布較長;而在分布原點處概率密度大、分布緊湊。這種分布可以對個體進行強烈的擾動,增加算法脫離局部最優的概率。而t-分布在自由度較低時與柯西分布相似,自由度較高又與高斯分布相似,前者擾動能力更強,后者則局部開發能力更佳。結合柯西分布和t-分布構造柯西-t變異算子,定義為

Xbest(t+1)=Xbest(t)[λ1·cauchy(0,1)+1]+λ2·t(Tmax)

(15)

其中,Xbest(t)、Xbest(t+1) 分別對應于原始最優解和變異后的最優解,cauchy(0,1) 為柯西算子,t(Tmax) 為以Tmax為自由度的t分布算子,λ1、λ2分別表示棲西分布和t-分布的自適應權重系數,用于調整兩種變異算子對最優解的擾動程度,定義為

(16)

根據式(16)可知,迭代早期,λ1取值較大,此時柯西算子對最優解的擾動程度更大,利于廣泛區域內對最優解進行擾動,算法全局搜索能力更強。而隨著迭代進行,晚期時λ2取值變大,此時t-分布算子占據更大比例,利于算法在局部區域內的精細開采,加快算法收斂。

為了在兩種變異算子間作出動態切換,引入一種動態選擇概率對變異方式進行決策,以動態概率針對最優解進行交替擾動,提高擾動隨機性和跳離局部極值的概率。將動態選擇概率定義為

P=-exp(1-t/Tmax)10+0.05

(17)

變異擾動的具體過程為:若隨機值≤P,選擇隨機游走變異機制,即式(12)、式(13)、式(14)對最優解進行擾動;若隨機值>P,則選擇柯西-t變異機制,即式(15)對最優解進行擾動。

2.4 互利共生策略

HHO算法在搜索過程中隨機因素影響較大,搜索方向具有一定盲目性,這會降低算法搜索精度和收斂速度。為此,MHHO引入互利共生改進種群搜索機制。令Xi、Xj為兩個可以交互生存的共生個體,共生交互的位置更新為

(18)

RMV=(Xi+Xj)/2

(19)

其中,bf1、bf2∈{1,2} 為利益因子,Xbest為最優解,RMV為兩個個體的交互關系。

將當前個體與選擇的隨機個體進行共生交互,以此改進MHHO的全局搜索能力,并融入慣性權重機制調整種群的共生交互程度,由此得到新的位置更新為

X(t+1)=

(20)

RMV=(X(t)+Xrand(t))/2

(21)

(22)

其中,Xrand(t) 為迭代t時選擇的隨機個體,Xm(t) 為迭代t時的種群平均位置,慣性權重w定義為

w(t)=wmin+(wmax-wmin)·exp(-(2t/Tmax)3)

(23)

其中,[wmin,wmax] 為慣性權重變化區間。

2.5 MHHO算法設計

步驟1 參數初始化,包括種群規模、迭代次數、混沌因子、能量因子遞減周期數、慣性權重最值等;基于混沌Bernouilli shift映射機制初始化MHHO算法的種群結構;

步驟2 計算個體適應度,更新算法參數E、J;

步驟3 若 |E|≥1, 實施算法全局搜索,按式(2)更新位置;

步驟4 否則,實施算法局部開發;若 |E|≥0.5且λ≥0.5, 按式(4)更新位置;若 |E|<0.5且λ≥0.5, 按式(5)更新位置;若 |E|≥0.5且λ<0.5, 按式(6)更新位置;若 |E|<0.5且λ<0.5,按式(7)更新位置;

步驟5 以最優解實施混合變異,具體地:若隨機值≤P,選擇隨機游走變異機制,即式(12)、式(13)、式(14)對最優解進行擾動;若隨機值>P,則選擇柯西-t變異機制,即式(15)對最優解進行擾動;

步驟6 運行互利共生策略,按式(20)對解進行重新更新;

步驟7 更新全局最優解及其適應度;

步驟8 若達到算法終止條件,則輸出全局最優解;否則,跳轉步驟2繼續執行。

2.6 MHHO算法基準函數測試

利用6個基準函數對算法的尋優性能進行測試,函數說明見表1。MHHO算法中,設置N=20,Tmax=400,比例系數α=0.99、β=0.01,能量遞減參數k=4,慣性權重最值為wmin=0.4,wmax=0.9,混沌參數δ=0.4。引入標準HHO算法[12]、樽海鞘群算法SSA[18]和改進哈里斯鷹優化算法CEHHO[19]進行實驗對比分析。同類型測試可以擴展到其它基準函數和CEC2014數據集上進行。

表1 基準函數說明

表2是4種算法在目標函數平均精度和標準差兩個指標上的統計結果??梢钥闯?,MHHO算法可以在所有測試數據找到最優解,表明MHHO尋優能力更強,且在單峰、多峰目標函數上仍然擁有較為穩定的尋優能力。CEHHO算法引入精英對立學習和新型局部搜索機制,提升了HHO算法的搜索能力,但其收斂速度較慢,復雜個體選優機制也提高了算法的復雜性。但該算法相比標準HHO和SSA算法在部分函數測試上還是得到了最優解。圖2是4種算法的收斂曲線。從曲線的墜落程度看,MHHO算法在不同類型的基準函數上可以以更少的迭代次數找到精度更高、更接近于最優解的候選解,其尋優速度和收斂速度都明顯優于3種對比算法。HHO算法和SSA算法的收斂曲線都快速地進入到較平緩的階段,說明算法進入了早熟收斂,尋得的是局部最優解,且無法跳離。CEHHO算法相比這兩種算法能夠通過尋優手段的改進拓展到新的搜索區域,從而提高了算法的尋優精度??傮w來看,本文的MHHO算法通過引入混沌映射、能量因子非線性調整、變異擾動和互利共生機制對HHO算法的綜合性能改進能夠增強算法的全局尋優能力和求解精度,實現了對算法搜索能力的提升。

表2 對比結果

圖2 算法的尋優曲線

3 針對惡意軟件檢測的MHHO算法同步優化支持向量機和特征選擇模型

網絡流量動態檢測可以捕獲信息流,從而獲取代碼的統計特征。這種能夠通過大數據分析技術構建更完善的特征庫,最終的分類模型準確度和惡意軟件檢測模型更具優勢。然而,龐大的數據量和特征維度環境下,維數災難是必須解決的問題。因此,特征選擇將是針對數據預處理的必要步驟。特征選擇的目標刪除不相關和冗余特征,降低模型計算開銷,生成最優特征子集以提升分類器學習效率。智能優化算法結合封裝式特征選擇,雖然在分類性能上具有一定優勢,但優化機制繁瑣,預設參數對模型敏感性高。MHHO對算法的求解精度和收斂效率進行了優化,模型精度更高,更加適應于解決惡意軟件檢測這類實際問題。

3.1 種群編碼與適應度評估

利用MHHO算法進行特征選擇,是為了剔除惡意軟件數據集中的冗余特征和相關性較差的特征,實現特征降維從而提高分類效率。此時,MHHO算法解決的是一種離散優化問題,為了尋找最佳的特征子集,MHHO算法以二進制字符串的形式對種群個體位置進行編碼,以表示特征選擇的一個候選解。即:若某個特征被選擇,則將其位置編碼為“1”,否則其位置編碼為“0”。相應解碼時,通過收集位置上為1的特征數是即可得到最佳特征子集。

以支持向量機SVM構建數據集的分類模型,懲罰因子C和核函數參數g起著決定性作用。C用于描述分類結果對誤差的容忍程度,C值過高容易帶來數據過擬合,模型泛化能力降低;但C值過低又會帶來分類誤差增大,數據欠擬合甚至樣本錯分。而g則控制著數據映射至高維空間時的分布狀況,即控制核函數徑向作用范圍,g值過高會導致模型復雜度趨近無窮,產生嚴重過擬合;而g值過小會使得數據線性可分割程度隨之降低。

結合學習模型及特征選擇進行數據分類,傳統方法是以所有原始特征訓練模型,再作參數調優,再作特征選擇。該方法容易導致模型訓練所用的關鍵特征被忽略,降低訓練精度。而先作特征選擇,再作模型參數調優,則訓練過程涉及二次尋優,極大降低計算效率。結合兩種方法的優勢和不足,改進模型利用MHHO算法對SVM關鍵參數和特征選擇進行同步優化,將種群個體編碼為兩部分:關鍵參數C、g和特征選擇二進制數字串。因此,種群個體編碼方式可表示為圖3。

其中,原始數據集的特征量為n。

MHHO算法搜索最優解,主要以適應度函數評估個體位置優劣。結合特征選擇為多目標優化問題的屬性,適應度函數將同步考慮特征數量選擇最少和分類準確率最大兩個目標,即以最少數量的特征選擇量實現最大化的分類準確率,以相關性最優的特征子集選擇出來。因此,MHHO算法的適應度函數為

(24)

其中,α、β分別為針對分類準確率和選擇規模的比例系數,α、β∈[0,1],且α+β=1,accuarcy表示分類準確率,FS表示特征選擇量,n為特征總量。

3.2 模型設計

利用MHHO算法實現SVM優化與特征選擇的過程如下:

輸入:MHHO參數:種群規模、維度、迭代次數、混沌參數、能量因子遞減周期數、慣性權重最值、適應度函數中的比例系數α、β;SVM模型參數C的搜索范圍 [Cmin,Cmax] 和g的搜索范圍 [gmin,gmax];

步驟1 對原始數據集進行歸一化預處理,統一數據量綱;然后確定訓練樣本和測試樣本;

步驟2 依據樣本數據特征對種群個體進行二進制編碼,并對算法進行種群初始化;

步驟3 初始化支持向量機的C和g值,結合MHHO對參數C、g及二進制編碼的特征選擇方案迭代尋優;

步驟4 解碼特征選擇方案,編碼為1的個體位置選擇為最優特征子集元素;

步驟5 以C、g及特征子集配置SVM分類器。利用K-折交叉驗證法訓練分類器*,計算適應度并更新最優解;

步驟6 算法迭代終止,保存最優解;否則,返回至步驟3;

輸出:最優C、g和特征子集、分類準確率及適應度。

注*:分類器通常將數據集分為訓練樣本和測試樣本驗證模型性能,但其訓練模型效果差、泛化能力不足。在改進算法中利用K-折交叉驗證法提升模型泛化能力,先將數據集分為K個子集,隨機選擇K-1個進行模型訓練,剩余1個進行模型測試,重復K次以均值結果比較性能。

協同優化的詳細流程如圖4所示。

圖4 MHHO-SVM特征選擇流程

3.3 惡意軟件檢測模型

圖5是基于移動Andriod環境下的惡意軟件檢測模型,主要目標是通過分析數據流量集,檢測Andriod平臺下的惡意軟件。模型先通過數據采集模塊收集原始網絡流量,再將網絡流量集中的數據進行預處理,最后通過分類器對對模型訓練和評估。網絡數據采集主要利用流量數據技術,本文采用較為常規的嗅探法進行數據采集,通過在交換機的鏡像端口上設置數據采集點,捕獲流經端口的數據報文,該方法采集的信息較為全面,同時可以對網絡中的數據報文進行完全復制。數據預處理過程主要包括對原始數據的簡單清洗,補充缺失值,并刪除一些明顯離群的異常數據,最后對數據進行歸一化處理,以統一量綱。特征選擇模塊即利用MHHO算法迭代求解最優特征子集,降低特征維度。得到最優特征子集之后,結合優化后的SVM在訓練集中對模型進行訓練,并以測試集進行測試,以評估指標對分類結果進行總體評估。影響模型檢測效果的主要因素包括數據的特征維度和分類算法的性能,在固定的網絡流量集樣本前提下,所選特征子集的規模及特征相關性都決定著模型的預測精度。因此,需要挖掘原始數據、精煉特征選擇,同時優化分類算法的性能。

圖5 惡意軟件檢測

4 實驗分析

4.1 實驗配置

為了驗證MHHO算法同步優化SVM參數及特征選擇問題的有效性,選擇UCI的4個keel數據集和CICInvesAndMal2019數據集CIAM進行測試。數據集的樣本數、特征數和類別數等相關屬性說明見表3。其中,segment和CIAM數據集樣本規模較大,而sonar和spectfheart數據集樣本規模較小,但包含特征數相對較多,不同規模和特征的數據集有利于檢測算法的適應性。而CIAM為惡意軟件檢測數據集,包含軟件安裝及運行的特征數據。該樣本集共有2000個樣本,65個數據特征。仿真平臺為Matlab2017a,學習器選用LIBSVM。實驗樣本數據的提取方式是:利用Matlab的dlmread進行讀取,同時將非數字類別替換為數字。在對原始數據進行預處理之后,將劃分出模型的訓練樣本和測試樣本。設置N=20,Tmax=400,α=0.99、β=0.01,能量遞減參數k=4,慣性權重最值為wmin=0.4,wmax=0.9,混沌參數δ=0.4,K-折交叉驗證法取K=10。算法運行20次取平均值比較。

表3 數據集屬性說明

選擇互信息、卡方檢驗、隨機森林遞歸特征消除法RFRFE以及標準HHO算法[12]、鯨魚優化算法WOA[17]、樽海鞘群算法SSA[18]、改進哈里斯鷹優化算法CEHHO[19]進行數據集特征選擇對比,以SVM為分類算法。將特征值進行歸一化處理,并以二進制方式對種群個體進行編碼。特征值歸一化公式為

(25)

其中,x為原始特征值,xmin、xmax為數據特征最小及最大值,xnorm為預處理特征值。

為了衡量模型分類及其泛化能力,利用平均分類準確率AAC和平均特征選擇量ASN兩個指標評估算法性能。定義如下

(26)

其中,Acc(i) 為第i次算法運行的分類準確率結果,Size(i) 為第i次算法運行的特征選擇量結果。

4.2 實驗結果

為了便于指標的對比,將互信息、卡方檢驗及FRFRE特征選擇量篩選閾值設置為特征子集量,然后以貝葉斯模型進行參數調優。結果見表4。從規模上看,傳統的互信息法、卡方檢測法屬于過濾式特征選擇方法,特征降維上難以實現預期效果。RFRFE方法比較前兩種過濾法效果略有優勢,但缺乏特定參數下特征子集規模的調優,無法實現在特征降維和模型分類準確率上的同步優化,性能差于智能優化算法的實驗結果。在5種結合智能優化算法的實驗中,MHHO算法所選特征數量是所有模型中最少的,由于在惡意軟件檢測數據集CIAM中僅選取13個特征即可達到約85%左右的分類準確率,特征維度降低了約75%,表明所采取的改進機制能夠有效降低數據集的特征維度,實現高效特征選擇。而在分類模型的準確率指標上,MHHO算法基本在5個數據集上均實現了最高的分類準確率。此外,結合圖6和圖7中對所有群體智能優化算法的對比分析可知,本文所提出的MHHO算法處理惡意軟件檢測中對其數據集進行特征選取時能夠更好地實現特征降維,選取更高質量、相關性更高的特征,并在分類準確率上得到更好的性能表現。

表4 不同算法實驗結果

圖6 不同智能優化算法得到的平均分類準確率

圖7 不同智能優化算法得到的平均特征選擇量

為了進一步驗證MHHO的優勢,接下來僅以惡意軟件檢測數據集CICInvesAndMal2019進行實證分析,再選擇幾種分類學習模型:隨機森林RF、樸素貝葉斯法NB、標準支持向理機模型SVM、極端梯度提升樹分類算法XGBoost,以及輕量梯度提升機分類算法LightGBM進行實驗分析。除平均分類準確率AAC和平均特征選擇量ASN兩個指標外,再引入解的平均適應度AF和算法的平均計算時間AT進行全面對比,指標定義為

(27)

(28)

其中,fitness(i) 為第i次的適應度結果,runtime(i) 為第i次算法運行時間,SDF為適應度標準差。

實驗結果見表5??梢?,RF、標準SVM和XGBoost這3種模型雖然在特征降維上有一定作用,但得到分類準確率并不理想,沒有實現同步優化。NB、LightGBM在分類準確率上具有一定優勢,但最優特征子集的選取上不具備優勢。本文的惡意軟件檢測模型MHHO-SVM在處理網絡流量動態檢測數據集上具有更明顯的優勢,在特征規模降維和分類準確率上實現了同步優化。在解的適應度上,MHHO-SVM模型是所有模型中最高的,而更小的標準差值SDF則反映出該模型具有更好的穩定性,平均計算時間上略高于XGBoost和LightGBM,但在綜合性能上表現最優。

表5 實驗結果

應用MHHO-SVM模型進行惡意軟件檢測,可視為一種動態檢測方法,更加符合目前惡意軟件檢測應用背景。該模型通過利用特征分析工具,獲取軟件的序列特征和網絡流量,利用智能優化算法更加強大的隨機搜索能力,實現特征降維和分類準確率的提升,從而更加準確地對惡意軟件進行分類描述。

5 結束語

提出一種改進HHO優化SVM和特征選擇的惡意軟件檢測模型。為了提高分類模型的性能和特征子集的選取能力,利用Bernouilli shift混沌映射、能量因子非線性周期性調整、最優解變異擾動機制和互利共生策略對HHO算法全局尋優能力和求解精度進行了優化,并構建基于網絡流量特征的惡意軟件檢測模型。實驗結果表明,改進算法能夠更準確地選取特征子集,實現特征降維,而且能夠提升學習模型的分類準度,更準確地識別惡意軟件樣本。

猜你喜歡
特征選擇獵物種群
蟒蛇為什么不會被獵物噎死
山西省發現刺五加種群分布
可怕的殺手角鼻龍
中華蜂種群急劇萎縮的生態人類學探討
霸王龍的第一只大型獵物
Kmeans 應用與特征選擇
你是創業圈的獵人還是獵物
聯合互信息水下目標特征選擇算法
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
基于二元搭配詞的微博情感特征選擇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合