?

基于拉曼光譜和改進極限學習機的葡萄糖濃度檢測

2020-09-18 07:08邢凌宇王巧云楊磊尹翔宇
光散射學報 2020年2期
關鍵詞:學習機差分蜂群

邢凌宇,王巧云,楊磊,尹翔宇

(東北大學信息科學與工程學院,沈陽 110819)

1 引言

拉曼光譜分析作為一種研究物質分子振動及轉動信息的非彈性散射光譜分析技術[1-2],由于其無損、分辨率高、快速實時、樣本無需前處理、可用于痕量分析等優勢及光譜特征峰清晰尖銳不易重疊、水分子拉曼光譜信號極其微弱等特點[3],使得拉曼光譜分析技術成為化學成分檢測的研究熱點之一。

定量回歸的方法分為線性和非線性,其中線性回歸包括多元線性回歸、主成分回歸和偏最小二乘回歸等;非線性回歸包括人工神經網絡、支持向量機和極限學習機等。李水芳[4]采用線性偏最小二乘回歸建模無損測定果糖和葡萄糖含量,羅韜[5]使用支持向量機對葡萄酒的主要風味成分進行快速定量分析,鄭念祖[6]采用粒子群優化的人工神經網絡預測酒精濃度。但是,偏最小二乘難應用于非線性問題求解;支持向量機模型復雜、計算量大;人工神經網絡訓練速度慢且易陷入局部收斂。而極限學習機作為一種新型的單隱含層前饋神經網絡[7-8],可用于非線性問題的定量回歸,具有泛化能力強、學習速度快等優勢,由于其參數直接影響模型的預測精度,所以需要進行合適的設置及優化。

本文以葡萄糖樣本為研究對象[9],介紹了極限學習機并結合幾種改進算法進行比較和選擇,又在其基礎上提出了一種新型的自適應差分進化人工蜂群算法對極限學習機進行參數優化。結果表明,自適應差分進化人工蜂群算法優化的極限學習機模型具有更高的預測精確度和更強的模型穩健性。

2 樣本制備與理論

2.1 實驗材料及儀器

實驗使用的MultiRAM傅里葉變換拉曼光譜儀由德國Bruker公司生產,配有高性能液氮冷卻的Ge檢測器、標準Nd:YAG(1064 nm)激光器和OPUS 7.0光譜分析軟件程序。葡萄糖標準樣本溶液是經商業渠道購買的葡萄糖經不同程度稀釋后得到,配置濃度范圍為0.1~1 g/100 mL。為避免在光譜采集和實驗操作中發生特性變異,樣本均冷藏保存在4 ℃以下環境中。實驗前將樣本均分兩份,一份使用安捷倫高效液相色譜儀測量其濃度,一份置于石英透明杯中,用拉曼光譜儀在室溫環境下測量,設置光源功率為400 mW,光譜分辨率為6cm-1,掃描速率為10 kHz,掃描范圍為400 ~ 4000 cm-1,對每個樣本重復采集3次并取平均值作為光譜的原始數據,以保證實驗的準確性和可重復性。

2.2 人工蜂群算法

人工蜂群算法(Artificial Bee Colony Algorithm,ABC)是模擬自然界中蜂群采蜜行為的一種群體智能算法[10-11],目的是在解空間中尋找使用適應值函數進行衡量的最優蜜源,引入采蜜蜂、觀察蜂、偵查蜂三種功能蜂不斷更新。人工蜂群實質是通過蜜蜂個體局部尋優行為體現全局尋優結果的尋優方式,其簡易流程見圖1。

圖1 人工蜂群算法簡易流程圖

初始設置蜂群總數N并根據式(1)隨機賦予蜂群D維的蜜源位置:

(1)

迭代更新開始,采蜜蜂首先進行尋優,一只采蜜蜂隨機匹配到另一只采蜜蜂,并在其附近根據式(2)尋優并應用貪婪準則更新,設有懲罰條件。

(2)

其中,i,k∈{1,2,…,N}且i≠k,γ為[-1,1]內隨機數。其次每只觀察蜂隨機跟隨到一只采蜜蜂并獲得其位置及適應值,更新后的每只觀察蜂隨機匹配到另一只更新后的觀察蜂,尋優更新方式同采蜜蜂且設有懲罰條件;最后偵查蜂在全局范圍內進行更新,無懲罰條件。

完成一次更新后判斷是否滿足懲罰條件及是否完成設定的迭代次數,記錄當前全局最優解的位置及適應值,若未達到限定最大迭代次數則重新進行蜂功能分配且進入下一次尋優。

采蜜蜂和觀察蜂設有的懲罰條件,即每次尋優后若更新的位置未優于初始位置,懲罰數加1;每次迭代情況累加,懲罰數達到設置的懲罰閾值前若得到更優位置則懲罰數置零,若未得到更優位置則對該蜂懲罰,即不可逆地轉化為偵查蜂繼續迭代尋優,該蜂變更后作為偵查蜂不可向其他功能蜂轉化。

2.3 自適應差分進化

由于人工蜂群算法存在早熟收斂、后期容易陷入局部最優且搜索精度不高等問題,其模型及構造仍有進一步改進空間,考慮結合其它智能算法協同搜索。差分進化(Differential Evolution,DE)是一種基于實數編碼和保優貪婪策略的特殊遺傳算法[12-13],通過群體內個體合作和競爭產生的智能指導搜索過程。

差分進化算法包括變異、交叉、選擇三項操作。變異是將兩隨機個體做差后再以一定權重和第三個個體求和,計算公式見式(3):

(3)

其中,i,m,n∈{1,2,…,N},且i≠m≠n,V∈[0,1]為變異率用于控制差向量的影響。變異算子的每個基因位的改變取決于其它個體間的差值,充分利用了群體中其他個體的信息,擴充種群多樣性同時避免單純在個體內部進行變異帶來的隨機性和盲目性。

交叉是將經變異得到的新個體與初代個體按一定標準融合,計算公式見式(4):

(4)

其中,CR∈[0,1]為交叉率。交叉算子看似沒有個體間的信息交互,但由于新個體是經差分變異而來,本身保有種群中其它個體的信息,因此變異同樣具備個體間信息交互的機制。

選擇是將經過每一代變異、交叉產生的新種群,運用貪婪選擇的方式得到較優個體,組成下一代的進化群體,計算公式見式(5):

(5)

差分進化模擬生物進化過程,使種群的衍化朝著更優的方向前進。它在種群尋優的過程中利用個體局部信息和群體全局信息指導算法進行搜索,充分利用種群繁衍過程中產生的有用信息,具有協同搜索的特點,搜索能力強;不依賴問題的特征信息,通用性強且控制參數少、魯棒性強,易于和其它算法有效結合;但其在保證群體優良性同時也存在不足,即容易陷入局部最優、對參數有一定依賴性且難以在有限時間內保證搜索,搜索效率有待提高。結合差分進化的人工蜂群算法簡易流程見圖2。

差分進化中變異算子和交叉算子的變異率V和交叉率CR是人為根據經驗直接給出的特定值,在更新進化的過程中保持不變,干涉整體的尋優效果,所以考慮對此參數進行調整,提出自適應差分進化(Self Adaption Differential Evolution,SADE)理念來減少對此初始固定參數的依賴,利用當前得到適應值的全局最優值和均值的關系來調節變異率和交叉率,自適應調整公式見式(6)~式(7):

(6)

(7)

圖2 差分進化人工蜂群算法簡易流程圖

自適應原理為:當目前適應值的全局最優值與均值相差較大時,變異率及交叉率的數值隨之減小,使每個解自身的位置隨機變異的發生概率減小、使兩組解之間位置信息的互換程度降低,有助于縮小尋優過程的步長,盡量保留當前最優的狀態;當目前適應值的全局最優值較均值相差較小時,變異率及交叉率的數值隨之增大,有助于增加尋優過程的步長,能夠在全局范圍內大概率更新,避免陷入局部最優。此改進方法能夠在獲得較優解時縮小不良進化的概率,彌補部分早熟帶來的影響。

2.4 基于優化算法的回歸模型

本文采用的定量回歸模型是極限學習機(Extreme Learning Machine,ELM)[16],一類基于前饋神經網絡構建的機器學習系統和方法。傳統ELM具有單隱含層,在學習速率和泛化能力方面具有優勢,其目的是對反向傳播算法(Backward Probagation,BP)改進,以提升學習效率低并簡化學習參數的設定,克服了梯度下降的一些缺點,學習效率高,計算復雜度低。

ELM的輸入權值ω和隱含層閾值b是初始隨機或人為設置,給定后無需調整,只需在訓練過程中解析得到輸出權值β。由于ELM的ω和b是隨機數,其取值的優劣對模型的訓練有很大影響,現對傳統ELM進行改進,結合幾種常見的優化算法建立模型,運用MATLAB軟件編程,實現對樣本的定量回歸。

2.5 實驗的評價指標

本文結合采集到的拉曼光譜數據建立定量回歸模型,以決定系數R2、預測集均方根誤差RMSEP、訓練集均方根誤差RMSEC及相對分析誤差RPD幾個常用指標來評價模型性能。其中,R2表征預測值與真實值間相關程度,數值在0到1之間,越接近1預測值越接近真實值,擬合地越精確;RMSEP和RMSEC的值越小,模型的穩健性越強;在保證避免過擬合的前提下RPD的值越高,模型精確度越高,回歸模型評價指標的計算公式見式(8)~式(11)。

(8)

(9)

(10)

(11)

3 分析與討論

3.1 樣本分析

實驗使用41組葡萄糖樣本,選取其中30組用于建立訓練模型,余下11組用于預測。根據樣本特征峰的位置及拉曼信息的分布情況,選取了拉曼位移在800~1800cm-1內的波段為實驗波段,樣本的原始拉曼光譜見圖3。

圖3 41組葡萄糖樣本的原始拉曼光譜圖

3.2 定量回歸

對傳統ELM模型進行改進,對比不同優化算法對模型的影響,采用幾種常見的智能算法建立模型,分別得到基于遺傳算法(Genetic Algorithm,GA)的極限學習機(GA_ELM)、基于粒子群算法(Particle Swarm Optimization,PSO)的極限學習機(PSO_ELM)和基于人工蜂群算法(Artificial Bee Colony Algorithm,ABC)的極限學習機(ABC_ELM)模型。三種優化模型的收斂情況見圖4~圖6。

圖4 GA_ELM模型適應值迭代圖

對三種優化方式的回歸模型均做了500次的迭代實驗,通過收斂對比圖和驗證實驗可以得出:GA_ELM收斂較緩慢,在迭代過程中波動較明顯、幅度較大,320次迭代后趨于穩定;PSO_ELM收斂速度較快,在100次迭代內波動較大,在迭代88次后處于穩定狀態;ABC_ELM收斂最快,56次迭代后保持在一個較高的預測精度上,在三種方式中表現更佳。

圖5 PSO_ELM模型適應值迭代圖

圖6 ABC_ELM模型適應值迭代圖

基于人工蜂群算法后期容易陷入局部極值的不足,建立了基于差分進化人工蜂群算法的極限學習機(DEABC_ELM)和基于自適應差分進化人工蜂群算法的極限學習機(SADEABC_ELM)。進一步優化模型的收斂情況見圖7~圖8。

整理以上定量回歸模型的評價指標,統計數據見表1。

通過迭代收斂圖和評價指標表格可以看出,優化算法使極限學習機模型預測精度提高,其中ABC模型能夠在較少的迭代次數、較短的運行時間內獲得較高的預測精度和模型穩健性,在三種優化算法中表現突出,更能達到優化的效果。

圖7 DEABC_ELM模型適應值迭代圖

圖8 SADEABC_ELM模型適應值迭代圖

DEABC_ELM模型的預測精度提高,但其對參數的依賴性使收斂速度有所下降;SADEABC_ELM模型對參數做了自適應調整,在差分進化的基礎上提高了收斂速度,其運行時間較人工蜂群算法相差不大,同時預測精度和模型穩健性顯著提升。傳統ELM、ABC_ELM、SADEABC_ELM模型的濃度預測情況見圖9。

表1 定量回歸模型評價指標

圖9 a 、b、c分別為ELM、ABC_ELM、SADEABC_ELM模型濃度預測圖

綜合分析,SADEABC_ELM能夠跳出局部極優,減少對固定值參數的依賴,較其他優化算法模型收斂速度快、預測精度高且搜索具有全局性及較強穩健性,能夠更精確地預測葡萄糖溶液濃度。

4 結論

本文對41組用拉曼光譜法測量的葡萄糖樣本進行研究,結合遺傳算法、粒子群算法、人工蜂群算法等優化算法對極限學習機進行改進,分析模型評價指標和迭代收斂圖得出,人工蜂群算法在三者中表現突出;又利用個體局部信息和群體全局信息指導的思想,結合差分進化對人工蜂群算法進一步更新擇優提高預測能力,針對其對固定參數依賴性大的缺點對變異率和交叉率做了自適應調整,提出一種基于人工蜂群結合自適應的差分進化算法的極限學習機模型應用于葡萄糖濃度的定量分析。實驗表明,SADEABC_ELM模型評價指標和收斂速度較優,預測精確度和模型穩健性顯著提升,對極限學習機模型進行優化能夠提高定量回歸的精度。

猜你喜歡
學習機差分蜂群
RLW-KdV方程的緊致有限差分格式
數列與差分
“蜂群”席卷天下
基于極限學習機參數遷移的域適應算法
基于改進極限學習機的光譜定量建模方法
分層極限學習機在滾動軸承故障診斷中的應用
遷移蜂群優化算法及其在無功優化中的應用
改進gbest引導的人工蜂群算法
基于差分隱私的大數據隱私保護
相對差分單項測距△DOR
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合