?

粗精選策略二進制灰狼優化算法用于紅外光譜特征選擇

2023-10-09 10:21李忠兵蔣川東梁海波段洪名
光譜學與光譜分析 2023年10期
關鍵詞:灰狼狼群二進制

李忠兵,蔣川東,梁海波,段洪名,龐 微

1. 油氣藏地質及開發工程國家重點實驗室(西南石油大學),四川 成都 610500 2. 西南石油大學電氣信息學院,四川 成都 610500 3. 西南石油大學機電工程學院,四川 成都 610500

引 言

紅外光譜作為一種無損、低成本、快捷的分析檢測技術,已被廣泛用于食品檢測、生物制藥及油氣勘探光譜等領域[1]。紅外光譜中包含有大量冗余信息[2],在建立定量或定性分析模型之前,需要進行一定的光譜預處理以及特征提取,提高模型的預測能力和穩健性[3]。

隨著化學計量學的不斷發展完善,以自然界生物的一些生活習性為參考的算法,如遺傳算法(GA)[4]、粒子群優化算法(PSO)[5]、灰狼優化算法(GWO)[6-7]等,已成為目前特征提取研究的熱點。此類算法的最大特點是通過生物的遺傳、信息共享、等級制度等手段來較好地保留變量間的組合優勢,但計算量大,模型易受到適應度函數的影響。

群體智能優化算法中的灰狼優化(grey wolf optimizer,GWO)是Mirjalili受大灰狼捕食策略的啟發,于2014年提出的一種元啟發式算法[8],主要模擬了自然界中灰狼搜索、包圍和攻擊獵物的習性以及群狼作戰的能力。相比于其他啟發式算法過多的參數設置,GWO算法只需要預設狼群數量和迭代次數兩個參數,并且模型結構簡單,收斂較快,在求解優化問題上具有很好的局部搜索能力和求解精度,受到研究者的廣泛關注[9-12]。但是原始的GWO算法適用于連續的目標函數,對于特征提取的離散應用不足,因此Emary等[13]于2016年提出一種二進制灰狼優化(bGWO)算法,使其能夠滿足二進制空間上的特征提取要求。卞?;鄣萚14]將灰狼優化算法用于玉米光譜的特征提取,實驗論證了模型受狼群數量和迭代次數的影響,并驗證了模型的有效性與推廣的可能;江瀟瀟[6]等提出了非線性自適應收斂因子提高bGWO算法的全局和局部搜索能力,與二進制粒子群算法(bPSO)做了對比,仿真驗證了模型對于目標跟蹤節點選擇任務的精度和實時性;Sallam等[15]提出了新的變異策略改進灰狼優化算法,并與模擬退火算法結合,在32個數據集上驗證了所提算法分類的準確率;El-Shahat等[16]提出了兩階段變異的思想改進灰狼優化算法的迭代過程,命名為TMGWO,在35個數據集上與其他智能算法作了比較,驗證了模型的優越性。

目前應用二進制灰狼優化算法對紅外光譜數據進行特征提取并實現定性分析的研究已有大量報道,而用于紅外光譜定量分析的研究還相對較少,尤其是針對同系有機物氣體的紅外光譜。本研究使用粗精選策略及非線性收斂因子來改進二進制灰狼優化算法,以光譜定量分析模型返回的交叉驗證均方根誤差(RMSECV)平均值作為適應度函數,采用α狼設計了快速收斂策略,在所采集的烷烴氣體紅外光譜數據集上討論了狼群數量對模型的影響以及模型的快速尋優能力,并與bGWO和bPSO算法作了比較驗證了本研究中模型的精度。

1 實驗部分

1.1 紅外光譜數據集

待測實驗樣品由滿足國家標準GB/T5274.1—2018濃度為5%的正丁烷、10%的異丁烷、4%的異戊烷和100%的甲烷、乙烷、丙烷、二氧化碳的標氣(中國大連,大連大特)作為樣氣,以氮氣作為背景氣,輸入到LFIX-7000混合配氣系統(中國成都,萊峰,混合誤差為標準氣體濃度的±1%,1%=10 000 ppm)進行混合配比形成?;旌吓錃庀到y輸出的樣品氣體以1 000 mL·min-1的流量經MD-070-24F-4091119-02干燥管(Perma Pure-US)除濕后進入容積為400 mL、有效光程長為4.8 m的PMG10030光程池(中國上海,熒颯),光程池外部套有恒溫裝置,由溫度控制單元控制該恒溫裝置使光程池內部溫度恒定在27.5 ℃。通過計算機控制紅外光譜儀Bruker ALPHA Ⅱ(德國)采集得到波數區間為2 000~6 500 cm-1,波數分辨率為1 cm-1的紅外光譜數據,共359組數據,紅外光譜曲線如圖1所示。其中橫軸表示波數,縱軸表示紅外吸光度。

圖1 七組分數據集中359個混合樣品的原始紅外光譜Fig.1 The original infrared spectra of 359 mixed samples in seven-component data set

實驗得到的紅外光譜數據集是在氮氣(N2)背景下,由甲烷(C1)、乙烷(C2)、丙烷(C3)、正丁烷(nC4)、異丁烷(iC4)、異戊烷(iC5)和二氧化碳(CO2)七組分氣體采用隨機方式按式(1)要求配比的混合氣體的實驗數據集。其中C1、C2、C3、CO2濃度范圍為0~100%,nC4、iC4、iC5濃度范圍為0~3%。

(1)

式(1)中,n為組分個數,ci為目標濃度,λi為標氣濃度。

1.2 評價指標

定量分析模型均采用均方根誤差(RMSEP)、決定系數(R2)和相對預測偏差(RPD)作為評價指標,計算公式分別如式(2)、式(3)和式(4)所示

(2)

(3)

(4)

2 算法原理

2.1 灰狼優化算法

灰狼優化算法借鑒了狼群的金字塔等級制度和捕食獵物的生活習性。其中第一層頭狼為α狼,被視為優化問題的最優解;第二和第三層為β狼和δ狼,起到承上啟下的作用,被視為次優解;最底層的是ω狼,必須聽命于前三層狼群的引導,完成靠近、包圍和獵食等行為,最終達到捕食獵物的目的,即找到全局最優解。根據灰狼靠近獵物的行為建立的數學模型為式(5)和式(6)

(5)

(6)

(7)

(8)

(9)

然而,由于未知的環境下不可能事先知道獵物的位置信息,因此建立數學模型時認為α狼、β狼和δ狼對獵物位置有更好的判斷,以這三頭狼的位置信息來引導剩余狼群的位置更新,進而完成包圍和獵食的行為,其公式表示為

(10)

(11)

(12)

2.2 粗精選策略二進制灰狼優化算法

在二進制空間中,灰狼狀態只能選擇或不選擇特征之間相互轉化,因此需要可行的映射函數將其轉化到二進制空間。采用式(13)和式(14)將sigmoid函數的連續搜索空間轉換為二進制搜索空間,來確定最終是否選擇該波長位置作為特征波長,見式(13)和式(14):

(13)

(14)

在原始GWO中,位置更新方程中三只領頭狼為每只狼生成一個新位置雖具有良好的搜索獵物能力,但由于一直基于全局進行尋優,導致這種方式的GWO算法收斂緩慢,并且迭代結束不一定能夠獲取到可行的解。因此提出粗精選策略二進制灰狼優化(RSBGWO)算法,并采用非線性收斂因子,以便加快收斂速度并保持優秀的全局尋優能力。粗精選策略二進制灰狼優化算法流程如圖2所示。

圖2 粗精選策略二進制灰狼優化算法流程圖Fig.2 Flow chart of binary grey wolf optimization algorithm for rough selection and fine selection strategy

首先,初始化灰狼數量為N,并為每只灰狼生成一個元素為0或1的隨機向量用于確定每只狼的初始特征變量,以此來獲得狼群對于全局探索更充分的位置信息。每只狼表示一個可能的解決方案,并且其維度等于原始數據的維度。粗選階段,基于每只灰狼的初始特征變量建立相應的MLR模型,找到最小的三個RMSECV值所在的狼作為α、β、δ狼的初始位置。根據式(12)進行全局第一次迭代,更新所有灰狼的特征變量。根據各自新的特征變量建立MLR模型,同樣找到最小的三個RMSECV值所在的狼更新α、β、δ狼的位置。

為了加快收斂速度,區別于原始GWO算法,使α狼未選中的特征變量不參與迭代更新過程,本文構造了式(15)進行狼群位置信息的更新:

(15)

式(15)中,S為α狼所選特征變量位置信息,由元素0、1組成,1表示該位置特征為α狼選中特征,0表示未選中。

精選階段,只在α狼所選特征變量位置的基礎上,結合β和δ狼對應α所選特征變量的位置信息,根據式(15)更新所有灰狼的特征變量,并根據各自新的特征變量建立的MLR模型,找到最小的三個RMSECV值。與更新前的三個RMSECV值進行比較,若更小,則更新α、β、δ狼的位置。重復上述過程直到迭代結束或者滿足定量分析精度ε結束。

粗精選策略會使迭代中α狼選擇的特征變量逐漸減少,所建立的新MLR模型返回的RMSECV值也逐漸減小,以此找到最合適的全局特征變量來建立最優的定量分析模型。

迭代過程中,為了提高算法的搜索速度,在有限次數迭代中找到最優解,以非線性自適應收斂因子來替代原算法中的線性收斂因子,如式(16)所示:

(16)

3 結果與討論

首先對原始數據進行預處理并剔除部分異常數據,采用KS算法[17]先將數據集按照9∶1的比例劃分為初始訓練集和測試集。使用K-fold交叉驗證[18]將初始訓練集進一步分為訓練集和驗證集,循環建模10次并以10次定量分析模型的RMSECV平均值作為適應度函數值進行模型迭代,選取具有最小RMSECV值的特征波長,建立最優定量分析模型。所有實驗只對混合氣體中的C1、C2、C3、CO2組分進行了建模分析,均視nC4、iC4、iC5為干擾組分。

3.1 RSBGWO模型訓練

當光譜數據維度較大時,直接進行定量建模需要很長的時間,對模型精度也有很大影響。采用RSBGWO算法降低光譜數據的維度,并合理地選擇狼群數量,可以有效提高建模速度。

圖3為不同狼群數量對于甲烷尋優過程及結果的影響??梢钥闯隼侨簲盗繉λ惴ǖ膶災芰τ泻艽笥绊?對于C1,在相同的迭代次數下達到最小的RMSECV值與設置的狼群數量多或少并非正相關關系,較少的狼群數量反而可能會達到最小的RMSECV值。當狼群中灰狼數量為20時,對應的RMSECV值已經低于混合配氣系統誤差(標準氣體濃度的±1%)。當迭代次數超過200,灰狼數量為20時,MLR模型獲得了最小的RMSECV值。因此,C1灰狼數量可以設置為20。通過實驗,C2、C3和CO2的灰狼數量分別設置為20、40、20。

圖3 不同狼群數量對于甲烷尋優過程及結果的影響Fig.3 Effects of different wolf populations on optimization process and results

為了驗證模型的穩定性,對各物質在最優狼群數量下分別做了10次重復實驗,圖4為C1的10次重復實驗迭代尋優結果。

圖4 最優狼群數量進行的10次重復實驗Fig.4 10 repeated experiments with the optimal number of wolves

由于尋優過程的隨機性,盡管狼群數量相同,每次實驗獲得最小RMSECV值的迭代次數不盡相同,而且有一定程度的差異,而RMSECV和RMSEP的平均值都在配氣系統的儀器誤差(標準氣體濃度的±1%)以內,均具有不錯的定量分析效果。說明該算法能夠穩定有效地提取光譜特征,進而建立定量分析模型。

圖5為C1迭代過程中α狼所選特征變量數隨著迭代次數改變的關系。迭代開始前的特征數量即初始化隨機生成的α狼的特征數量,粗選階段α狼所選特征數量變化不大,但該階段α狼所選特征變量包含有更多光譜特征信息,減少了隨機初始化生成的α狼中的干擾信息;進入精選階段,α狼特征數量快速減少,且RMSECV值逐漸降低,并趨于穩定。由此說明,RSBGWO算法具有快速降低數據維度的能力,并選擇最優波長點,用于建立高精度的定量分析模型。

圖5 迭代過程中α狼所選特征數量的變化曲線Fig.5 The change curve of the number of features selected by the alpha wolf in the iterative process

3.2 定量分析效果評價

為了分析RSBGWO算法的效果,分別建立了未經特征提取的MLR和PLS模型,三種不同特征提取方法(bGWO、bPSO、RSBGWO)下建立的MLR模型,以及結合RSBGWO算法建立的MLR和PLS定量分析模型。

表1統計了10次RSBGWO-MLR重復實驗的RMSECV值及模型預測的R2、RMSEP和RPD的值??梢钥闯?10次重復實驗建立的MLR模型均具有較好的預測效果,其中C1、C2、C3和CO2的平均R2均超過了0.996,平均RMSEP分別為8 266.575 9、3 896.020 2、8 770.961 2和7 546.636 8 ppm,平均RPD分別為17.522 8、28.758 2、19.484 8、35.283 2。但由于所選特征位置和特征數量不同,預測效果又各有不同,其預測效果表現為CO2>C2>C3>C1。

表1 10次重復實驗的RMSECV、RMSEP、R2和RPD的值Table 1 Values of RMSECV,RMSEP,R2 and RPD for 10 repetitions

其中,C1、C2、C3和CO2的最優預測效果分別為在第4、第2、第8、第4次實驗中獲得,圖6(a—d)分別為C1、C2、C3和CO2的最優預測效果。

圖6 各物質測試集預測結果(a):甲烷;(b):乙烷;(c):丙烷;(d):二氧化碳Fig.6 Prediction results of each substance test set(a):Methane;(b):Ethane;(c):Propane;(d):Carbon dioxide

研究表明,即使在nC4、iC4、iC5同系有機物組分的干擾作用下,其預測均方根誤差均值均低于配氣系統的固有誤差10 000 ppm(標準氣體濃度的±1%)。因此所提出的RSBGWO算法可以有效地提取紅外光譜特征,用于建立高精度定量分析模型。

表2統計了不同定量分析模型的評價指標。

表2 不同算法下的模型評價指標Table 2 Model evaluation indexes under different algorithms

續表2

(1)比較MLR與RSBGWO-MLR分析結果可知,C1、C2、C3和CO2四種組分用于RSBGWO-MLR定量分析模型的特征數量分別為30、27、23、31,相較于MLR全譜建模,特征數量均降低了160倍以上,而且定量分析精度RMSEP值分別從46 211.527 0、25 600.385 5、24 661.625 4和26 934.704 1 ppm提高到6 538.635 3、3 061.679 9、5 661.422 5和5 913.747 0 ppm,RPD值則分別從2.971 9、4.382 6、5.402 2、9.637 9增加到21.451 3、35.686 1、27.933 5、43.343 5。結合本策略的RSBGWO-MLR具有優秀的特征提取能力,顯著地提高了定量分析模型的預測精度。

(2)比較bGWO-MLR、bPSO-MLR與RSBGWO-MLR分析結果可知,相同實驗條件下RSBGWO算法所提取的C1、C2、C3和CO2特征數量,相較于bGWO和bPSO算法分別降低了30、29、30和25倍以上;三種模型在測試集上的RMSEP值均表現為RSBGWO-MLR?bGWO-MLRbPSO-MLR。本工作提出的RSBGWO算法,相對于bGWO算法、bPSO算法,具有更加優秀的特征提取能力。

(3)比較MLR與RSBGWO-MLR、PLS與RSBGWO-PLS的分析結果,C1、C2、C3和CO2四種組分RSBGWO-MLR與RSBGWO-PLS定量分析模型的RMSEP值分別為6 538.635 3與6 892.976 5 ppm、3 061.679 9與4 049.337 7 ppm、5 661.422 5與9 013.185 8、5 913.747 0與7 284.305 2 ppm,定量分析精度遠高于全譜建模的MLR模型與PLS模型。在nC4、iC4、iC5組分的干擾作用下,采用RSBGWO算法提取的特征建立不同的定量分析模型,其預測均方根誤差均低于配氣系統的固有誤差10 000 ppm(標準氣體濃度的±1%)。本研究提出的RSBGWO算法可以有效地提取紅外光譜特征,有助于提高不同定量分析模型的預測效果,降低對定量分析模型的依賴性。

4 結 論

為了提高烷烴紅外光譜定量分析的性能,基于粗精選策略,引入了非線性迭代因子,并以平均交叉驗證均方根誤差(RMSECV)作為適應度評價指標改進了二進制灰狼優化算法,優化了其對原始紅外光譜數據的特征提取能力。與元啟發式算法中的bGWO和bPSO算法的對比實驗結果表明,所提出的RSBGWO算法可以提取到更少、更有效的特征變量,進一步提高了定量分析模型的預測精度。應用所提算法建立的MLR和PLS模型盡管精度上有一定差異,但測試集的RMSEP值均低于烷烴氣體紅外光譜采集時所使用的配氣系統的儀器誤差,取得了不錯的定量分析效果。

通過模擬灰狼種群在覓食過程中的位置更新策略來剔除干擾的光譜數據,從而尋找最優特征子集的方法能夠有效應對烷烴類物質紅外吸收交叉敏感性強導致的定量分析模型性能提升難的問題。對促進光譜檢測技術在油氣勘探、生物制藥和食品化工等領域中的應用具有重要實際意義,對其他含同系物的紅外光譜分析也具有一定的參考價值。

猜你喜歡
灰狼狼群二進制
用二進制解一道高中數學聯賽數論題
母性的力量
有趣的進度
二進制在競賽題中的應用
德國老人 用40年融入狼群
谷谷雞和小灰狼
灰狼的大大噴嚏
狼群之爭
灰狼和老虎
《重返狼群》
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合