基于Lasso-Huber的近紅外光譜特征波長選擇方法及應用

2024-03-06 02:15徐鳳捷馬晉芳肖環賢

光譜學與光譜分析 2024年3期

關鍵詞：馬氏范數波長

郭拓, 徐鳳捷, 馬晉芳, 肖環賢

1. 陜西科技大學電子信息與人工智能學院, 陜西西安 710021

2. 暨南大學光電系, 廣東廣州 510632

3. 江西保利制藥有限公司, 江西贛州 341900

引言

近紅外光譜(NIRS)屬于分子振動光譜, 主要反映含氫鍵如C—H、 O—H、 N—H、 S—H等化學鍵基團振動的倍頻和合頻吸收, 幾乎覆蓋所有的有機化合物和混合物。同時現代近紅外光譜分析是一種充分結合了光譜測量技術、計算機技術與化學計量學理論的新型分析技術, 具有快速、無損和無污染等優點, 因此目前已經廣泛應用于制藥、農牧、石化、食品與煙草等領域[1]。

應用近紅外光譜分析進行快速檢測, 關鍵是要通過化學計量學方法, 建立一種光譜與待測樣品化學指標成分含量之間的定量函數關系, 此即建立模型的過程。然而近紅外光譜波長多, 且不同波段的吸收光譜之間存在著較顯著的線性相關, 故在建立模型時自變量間會存在著多重共線性; 同時每種物質會擁有特殊的吸收帶, 因此在建模過程中沒必要采用全波段數據, 需要對其進行波段選擇, 即采用波段之間相關性低且屬于該指標成分的特征波段進行建模。

傳統的波長選擇方法有相關系數法, 無信息變量消除法(UVE)[2], 連續投影算法(SPA)[3], 遺傳算法(GA)[4], 模擬退火算法[5], 機器學習類的支持向量機與嶺回歸算法[6-7], 間隔偏最小二乘(partial least square, PLS)算法(iPLS)[8], 組合區間偏最小二乘算法(siPLS)[9]等。近年來引入稀疏約束及稀疏模型的變量選擇[10]為近紅外光譜波長選擇提供了新的思路, 尤其是Lasso(least absolute shrinkage and selection operator) 得到了廣泛的研究與應用探索[11-13]。該方法在最小二乘算法的基礎上, 通過引入待選變量的絕對值之和約束, 即L1范數約束, 使不重要的變量自動縮減為0, 從而得到自變量數目較少且具有較好解釋性的線性模型, 解決了多重共線性問題。但采用Lasso方法對所有的自變量系數進行相同程度的壓縮, 則可能得到過于稀疏的模型, 導致其預測能力有所下降; 且最終篩選的變量數目須小于樣本個數, 會導致高維近紅外光譜數據中, 部分有益于建模的特征變量會被忽略掉。為了解決上述問題, Elastic Net[14]回歸方法在Lasso算法中L1范數約束的基礎上增加了L2范數約束, 既可以得到解釋性較好的稀疏性模型, 又避免了Lasso算法“過壓縮”帶來的有益變量被忽略的問題[15]。然而, Lasso算法與Elastic Net回歸方法都是建立在偏最小二乘基礎上, 通過損失函數即最小平方誤差來選擇變量, 結果將大于1的誤差顯著放大, 導致模型對該樣本更加敏感, 使得模型的魯棒性會顯著降低。

將保留Lasso算法的L1范數約束, 但采用Huber函數作為損失函數來代替L2范數, 解決傳統Lasso算法對某些誤差過于敏感的問題, 并以安胎丸為研究范例, 對其中的質控指標成分洋川芎內酯A、黃芩素、阿魏酸3個成分進行特征波長選擇, 建立偏最小二乘模型。此算法可以更加精準地找到模型質控指標成分所對應的光譜波長, 獲得預測性能遠高于全波長、 Lasso與Elastic-Net算法波長選擇后的建模結果。此外, 當包含異常光譜時, Lasso-Huber算法對異常光譜的包容性要優于其他兩種波長選擇算法, 計算時間也遠小于其他兩種算法, 因此該算法更有希望推動近紅外光譜檢測走向普及度高、適用性廣的更高階段。

1 基于Lasso-Huber算法的近紅外光譜波長選擇方法

設響應向量為y, 影響響應變量的自變量有p個, 記為x=(x1,x2, …,xp)。如果對響應變量y與自變量x同時作n次觀測, 得到n組測量值, 即X、y,X是n×p階自變量矩陣,y是n×1階響應向量。一般線性回歸模型可以表示為

y=Xβ+ε

(1)

式(1)中,β∈Rp為回歸系數向量,ε∈Rn為誤差向量, 經典Lasso算法在求解式(1)的回歸系數β時, 是以最小化殘差平方和為優化目標函數, 同時采用L1范數約束回歸系數β, 具體優化的數學表達式如式(2)

(2)

Lasso算法將與y關系弱的自變量系數壓縮為0, 解決樣本數量小于變量數目情況下的過擬合問題, 同時消除無關變量的影響, 使模型解釋性增強。但Lasso算法選出的變量數目至多為觀測樣本數目n, 因此會存在變量過度壓縮而造成部分重要變量丟失的問題, 因此Elastic Net算法在式(2)的稀疏優化中加入L2范數的約束, 即式(2)的稀疏優化表達式轉換為式(3)。

(3)

然而Lasso算法與Elastic Net算法都是通過最小平方誤差作為損失函數來選擇變量, 會將大于1的誤差顯著放大, 導致模型對樣本更加敏感, 本文將采用Huber函數[16]作為損失函數, 轉換為如下的優化問題, 該算法此處簡稱為Lasso-Huber算法

subject to ‖β‖1<ξ

(4)

其中Huber函數表達式為

(5)

提出采用Lasso-Huber算法進行近紅外光譜與中藥指標成分定量建模前的波長選擇,X為光譜矩陣,y為指標成分含量向量。

2 實驗部分

參考文獻[17]中的光譜采集方法, 采用SupNIR1500近紅外光譜儀, 應用漫反射模式, 設置波長掃描范圍1 000～1 800 nm, 分辨率1 nm, 對3年生產的共21批安胎丸進行NIR光譜數據的采集。采用高效液相色譜法(HPLC), 梯度洗脫, 對21批安胎丸中的指標含量進行測定, 共取116個樣品, 隨機選擇15個數據做預測集, 剩余101個光譜用于建模, 原始數據見文獻[17]。光譜在1 300～1 600 nm波長間差異明顯, 如圖1所示, 三種指標成分的含量(mg·pill-1)統計如表1所示。

表1 安胎丸三個指標成分校正集與外部驗證集統計表(mg·pill-1)

圖1 116個樣本光譜圖

采用2013年、 2014年與2015年共3年生產的21批安胎丸的近紅外光譜及對應的指標成分含量數據進行算法驗證(該數據集在2015年采集)。首先利用Lasso、 Elastic-Net與Lasso-Huber算法做波長選擇, 再通過偏最小二乘算法進行校正模型建立, 并將經上述3種算法波長選擇后建模的模型性能參數與全波長PLS建模的結果對比。

3 結果與討論

3.1 基于馬氏距離的異常光譜選取

觀察圖1樣本原始光譜圖, 可以得出, 1 450～1 600 nm波長間, 少部分樣品的光譜明顯有別與其他樣品的光譜, 這類光譜通常被認定為異常光譜。首先采用傳統馬氏距離法(Mahalanobis distance, MD)判斷異常光譜, 給出數據量化指標, 以進一步確認這些光譜是否為異常光譜, 結果如圖2所示。

圖2 光譜的馬氏距離

由圖2(a)可知, 采用傳統的馬氏距離判斷方法, 其結果無明顯的分界點, 無法判別哪些光譜為異常光譜。出現該結果的原因是由于在計算馬氏距離的過程中, 需要總體樣本數大于數據的維數, 否則得到的總體樣本協方差矩陣的逆矩陣不存在。而此處建模光譜為101個樣本, 每個光譜的維數是800(實驗設置的光譜采集波段為1 000～1 799 nm, 采樣間隔為1 nm)。可見, 樣本數遠小于維數, 無法得到總體協方差矩陣的準確結果, 因此, 無法獲得準確的馬氏距離。

在圖2(b)中, 首先通過主成分分析(principal component analysis, PCA)方法提取10個主成分后, 構建總體協方差矩陣, 然后計算馬氏距離, 發現此時馬氏距離有較明顯的變化差異。圖中第83個樣本的距離為3.4, 是正常光譜中最大的馬氏距離。故可選3.4作為異常光譜判別的閾值, 大于該閾值都可當作異常光譜處理, 所選出的異常光譜即101個樣本中的5條異常光譜。

3.2 無異常光譜的波長選擇及建模結果對比

選用96條正常光譜作為校正集, 采用Lasso、 Elastic-Net與Lasso-Huber算法進行波長選擇并結合偏最小二乘法建立校正模型, 依據模型評價指標對其性能進行對比分析, 結果如表2所示。

表2 無異常光譜時的波長選擇算法模型性能對比

從整體來看, 經Lasso-Huber波長選擇算法對變量篩選后, 所建模型的性能指標都優于其它三種策略, 因此選擇Huber函數作為損失函數可以選出更具代表性的建模波段, 且該算法的波長選擇運算耗時分別是： 1.388 8、 1.697 2和1.376 7 s, 遠遠小于Lasso算法的76.847 6、 468.342 0和55.201 7 s與Elastic-Net算法的99.727 0、 934.423 1和74.213 6 s, 因此具有較大的性能優勢。

3.3 包含異常光譜的波長選擇及建模結果對比

選用包含5條異常光譜的共101個樣本作為校正集, 同樣采用Lasso法、 Elastic-Net法與Lasso-Huber法進行波長選擇并建立PLS模型, 依據模型評價指標對其進行性能對比。結果如表3所示。

表3 包含異常光譜時的波長選擇算法模型性能對比

圖3 定標模型圖-黃芩素

4 結論

通過對比是否包含異常光譜的全波段、 Lasso、 Elastic-Net與Lasso-Huber四種波長選擇策略, 發現Lasso-Huber算法在引入了Huber函數作為損失函數后, 可以更加精準地找到模型指控指標成分所對應的光譜波長點, 從而獲得模型決定系數要遠高于全波長、 Lasso與Elastic-Net算法波長選擇后的建模結果; 此外, 當包含異常光譜時, Lasso-Huber算法對異常光譜的包容性要優于其他兩種波長選擇算法, 同時, 計算時間也遠遠小于其他兩種算法, 因此該算法更有望未來集成于實際生產使用的近紅外光譜建模軟件中, 推動近紅外光譜檢測走向普及度高、適用性廣的更高階段。