?

改進的聯合區間隨機蛙跳算法的近紅外光譜波長選擇

2020-11-05 00:58程介虹陳爭光
光譜學與光譜分析 2020年11期
關鍵詞:子集波長光譜

程介虹,陳爭光,2*

1. 黑龍江八一農墾大學電氣與信息學院,黑龍江 大慶 163319 2. 黑龍江省水稻生態育秧裝置及全程機械化工程技術中心,黑龍江 大慶 163319

引 言

近紅外光譜區(800~2 500 nm)的含氫基團的倍頻和合頻吸收峰組成的吸收強度較弱靈敏度較低,吸收帶較寬且嚴重重疊。若采用全譜建模,不僅會存在某些光譜區域與待測組分相關性弱,而且相鄰的波長高度相關,包含了大量的冗余信息,這都會影響模型的精度和穩健性??朔@些問題的有效途徑是對所測得的光譜進行波長選擇,減少建模所需的波長點和計算工作量,進而得到預測能力強、魯棒性高的模型。在眾多特征波長選擇算法中,隨機蛙跳(random frog, RF)[1]是近年來提出的一種新型特征波長選擇算法。其依據不同的變量具有不同的被選擇可能性,通過多次迭代,計算每個變量被選擇的概率,選擇概率高的變量為特征波長。

陳立旦等[2]通過RF選出特征波長后,建立最小二乘支持向量機(least squares support vector machine, LS-SVM)模型,對生物柴油的含水量進行預測,發現RF-LS-SVM模型的相關系數大于0.95,可以準確地預測生物柴油的含水量。胡孟晗等[3]通過RF對特征波長進行提取,建立LS-SVM模型預測藍莓硬度和彈性模量,與全譜模型對比,RF算法可以有效地去除冗余信息,提升模型預測準確率。孫紅等[4]采用相關系數法(correlation coefficient, CC)和RF算法篩選對葉綠素含量敏感的波長,建立偏最小二乘回歸(partial least squares regression, PLSR)模型對馬鈴薯作物的葉綠素含量進行預測,結果表明RF-PLSR模型預測精度優于CC-PLSR,可實現馬鈴薯不同葉位葉綠素含量的無損檢測。此外,Yu等[5]采用RF和PLSR建立校準模型,發現通過380~1 030 nm區域的波長可實現辣椒植物的總氮含量的預測。Zhao等[6]通過RF算法選擇特征波長,建立RF-PLSR和RF-LS-SVM模型預測桑葚果實的總可溶性固體值含量,兩個模型皆具有良好的性能。以上結果表明RF算法在數據降維方面是有效的。

盡管RF算法在特征波長選擇方面具有一定優勢,但存在兩方面的不足:其一是,初始變量集V0的產生是隨機的,難以保證初始信息的有效性;算法為保證運行過程中遍歷整個數據集,要求迭代次數N需足夠大,從而導致算法的運行時間長、收斂速度慢。其二是,RF在選擇特征波長時,選擇被選概率值大于閾值的變量為特征波長,但對閾值的設定無理論依據,易受人為因素影響。

針對上述兩點,對RF算法進行了改進,提出一種聯合區間隨機蛙跳(synergy interval-random frog, Si-RF)算法,以一組公開的土壤樣本近紅外光譜數據為例,分別利用RF和改進的Si-RF進行特征波長選擇,建立多元線性回歸(multiple linear regression, MLR)模型,比較預測精度,并與全譜的PLSR模型進行對比,以證明改進的Si-RF算法的有效性。

1 實驗部分

1.1 樣本數據

所用數據為一組土壤樣本近紅外光譜數據,來自于網站Quality & Technology。該數據集包含108個土壤樣本。樣本光譜的波長范圍為400~2 500 nm,采樣間隔為2 nm,共計1 050個波長點。本文以土壤有機質(soil organic matter, SOM)的含量作為因變量進行波長選擇及近紅外光譜數據建模預測分析。

1.2 隨機蛙跳算法

1.2.1 算法步驟

RF是Li[1]提出的一種類似于可逆跳躍馬爾可夫鏈蒙特卡羅(reversible jump Markov Chain Monte Carlo, RJMCMC)的算法,它以迭代的方式進行,計算每個變量在每次迭代中被選擇的概率,概率越高變量重要性越大,優選概率高的變量為特征變量。

隨機蛙跳的主要步驟包括以下三步[1]:

(1)初始化:參數設置,隨機選擇一個包含Q個變量的變量子集V0;

(2)概率引導模型搜索:基于V0,選擇包含Q*(隨機產生)個變量的候選變量子集V*,以一定概率接受V*作為V1,并用V1代替V0,循環此步驟直至N次迭代完成;

(3)變量評估:計算每個變量被選擇的概率,概率越高變量重要性越大。

其中概率引導模型搜索和變量評估具體方法如下。

1.2.2 概率引導模型搜索

首先,從均值為Q、方差為0.3Q的正態分布中隨機選擇一個整數Q*,之后通過以下三種方式之一產生一個包含Q*個變量的候選變量子集V*:

(1)如果Q*=Q,則令V*=V0。

(2)如果Q*

(3)如果Q*>Q,則從V-V0(V代表包含全部p個變量的集合)中隨機抽取ω(Q*-Q)個變量,ω默認值為3,生成一個變量子集T,通過V0和T的組合建立PLS模型,保留模型中回歸系數最大的Q*個變量,并將其設為候選子集V*。

簡而言之,利用所提出的正態分布控制變量數,實現變量的增、刪操作。在得到候選變量子集V*后,下一步是確定V*是否可以被接受。分別對V0和V*建立PLS模型,計算交叉驗證均方根誤差(cross-validation root mean square error, RMSECV),得到RMSECV和RMSECV*。如果RMSECV*≤RMSECV,接受V*為V1,否則接受V*為V1概率為0.1RMSECV/RMSECV*。最后,使用V1中的變量更新V0,并重復N次迭代,直至循環結束。

1.2.3 變量評估

N次迭代之后,總共獲得N個變量子集。對于每個變量,可以使用式(1)計算其被選擇的概率。

(1)

式(1)中,Nj為第j個變量在N次迭代中被選擇的次數,變量越重要,被這N個變量子集選擇的機會就越多。因此,該選擇概率可以用作變量重要性的度量,可以用作變量選擇的標準。

1.3 對RF算法的改進

1.3.1V0子集的初選

在RF算法中,初始變量集V0的產生是隨機的,具有較大的不確定性,可能會產生無信息變量或干擾信息,從而導致算法的迭代次數大,運行時間長。為了提高初始集V0變量的有效性,減少迭代次數,對V0子集的產生進行改進。

聯合區間偏最小二乘法(synergy interval partial least squares, SiPLS)是Norgaard提出的一種波長選擇算法。該方法將光譜劃分為等寬的n個子區間,對其中m個子區間任意組合為聯合區間?;诼摵蠀^間建立PLS模型,比較各PLS模型的RMSECV的值,將最小RMSECV值所對應的聯合區間的波長設為初始變量集V0,開始迭代,可以消除V0的隨機性,避免無信息變量及噪聲的干擾,從而減少迭代次數。

1.3.2 建模波長的優選

在RF算法中,一般選擇概率值較大的前10或15個變量,或者通過人為設定概率的閾值,取概率值大于閾值的變量來選擇符合要求的特征波長,建模波長數量選擇存在不確定性。

本文的改進是:對排序后的變量從第一個波長開始,每次增加一個波長,建立光譜數據和有機質含量數據之間的MLR模型。計算每個模型的驗證均方根誤差(root mean square error of validation, RMSEV)值,其中最小RMSEV值所對應的變量子集即為特征波長。RMSEV可以使用式(2)計算

(2)

這樣可以找到預測精度最優所包含的波長數,提高預測精度。

1.4 建模方法

現有研究大多對RF所選特征波長建立PLSR模型。而MLR是一種常規的校正方法,直觀簡單,且具有良好的統計特性,應用非常普遍,其優點是產生的模型比主成分回歸(principal components regression, PCR)和PLSR模型更簡單,更易于解釋。

本工作建立三種模型:基于全譜的PLSR模型、基于RF波長選擇的MLR模型和基于Si-RF改進的波長選擇的MLR模型。通過三種模型預測能力的比較驗證本法的有效性。模型的預測能力主要通過校正相關系數(Rc)、校正均方根誤差(RMSEC)、預測相關系數(Rp)、預測均方根誤差(RMSEP)指標來評價。其中,R取值越接近1,RMSEC和RMSEP越接近0,模型的擬合性越好,預測精度越高。

1.5 數據分析

軟件采用MATLAB R2015b及The Unscrambler X 10.3 (64-bit),光譜數據的預處理、建模分析及預測在Unscrambler軟件中實現,特征波長提取、圖形的繪制在MATLAB中實現。計算機硬件的配置為Intel(R)Core(TM)i5-3450CPU@3.50GHz處理器,8GB內存,操作系統為windows10。

2 結果與討論

2.1 光譜數據特征

土壤樣本的原始近紅外光譜圖如圖1(a)所示。為校正光譜基線,消除其他背景的干擾,提高光譜分辨率,并且在一定程度上減少各變量間的線性相關性,利用Savitzky-Golay窗口寬度為11的一階求導法對原始光譜數據進行預處理,預處理后的近紅外光譜圖如圖1(b)所示,可以發現通過預處理后的近紅外光譜曲線,能更精確地確定吸收峰的位置。

圖1 原始光譜圖及預處理后的光譜圖(a): 原始光譜圖;(b): S-G一階導處理后的光譜圖Fig.1 Original and pre-processed spectra(a): Original; (b): S-G first derivative

將108個土壤樣本通過SPXY(sample set portioning based on joint x-y distance)算法分為75%訓練集和25%預測集,建模集包含81個樣本,預測集包含27個樣本,土壤有機質含量統計數據結果如表1所示。劃分后的建模集的SOM含量范圍涵蓋預測集的SOM含量,建模集具有代表性。

表1 土壤有機質含量統計數據結果Table 1 Statistical data of soil organic matter content

2.2 特征波長選取

2.2.1 RF變量選擇結果

如前所述,首先對RF進行初始化參數設置,N設定為10 000,Q設定為10,開始運行。每個變量被選擇的概率結果如圖2所示,選擇概率大于0.2的變量為最終特征波長,得到滿足條件的有10個波長點分別為1 420,1 390,1 392,1 394,1 388,1 422,2 318,1 424,1 396和1 922 nm。

圖2 RF運行結果Fig.2 The result of random frog

2.2.2 Si-RF變量選擇結果

表2 SiPLS子區間優選結果Table 2 Sub-interval optimization results of SiPLS

由表2可以發現,將全譜等分為30個區間,組合數設置為3時,RMSECV最小,此時所選的特征波長點為104個,將這三個波段1 182~1 250,1 392~1 460和2 288~2 354 nm,共計104個波長點作為初始變量子集V0,RF算法的迭代次數分別設置為500,1 000,1 500和2 000次,得到結果如表3所示。

表3 不同迭代次數的優選結果Table 3 Optimal results of different iteration times

由表3可知,當N設置為1 000次時,RMSEV值最小。該情況下Si-RF運行結果如圖3所示,每個變量被選擇的概率結果如圖3(a)所示。將每個變量被選擇的概率值進行降序排列,從第一個波長開始,逐次增加一個波長建立MLR模型。各模型的RMSEV值如圖3(b)所示,正方形標記所示為最低RMSEV值,為0.818 4,此時選擇的特征波長數為17個,分別為1 392,1 394,1 420,2 332,2 330,1 418,1 440,1 348,1 920,1 402,2 000,1 424,2 312,1 442,1 426,1 444和2 364 nm。

圖3 Si-RF運行結果(a): 各變量被選概率;(b): 各模型RMSEV值Fig.3 The result of Si-RF(a): Selection probability of each variable;(b): RMSEV values of each model

2.3 模型建立與比較

將全譜、RF以及 Si-RF選擇的特征波長,建立回歸模型比較預測能力,得到模型的校正、預測相關系數和校正、預測均方根誤差的值如表4所示。

表4 不同波長選擇方法下模型的結果Table 4 Results of model with different wavelength selection methods

從表4可以看出,RF和Si-RF模型的各項參數均優于全譜,改進的Si-RF算法模型的各項參數均優于RF?;赗F所選特征波長的MLR模型的Rp為0.9354,RMSEP為1.627 6,而改進后Si-RF選擇的特征波長MLR模型的Rp為0.984 8,RMSEP減小到0.818 4,大大提升了預測精度。

圖4分別為對建模集、預測集樣本的全譜-PLS、RF-MLR和Si-RF-MLR模型的SOM的實測值和預測值相關圖。從圖中可以更加直觀的看出,基于Si-RF波長選擇算法的MLR模型優于全譜模型及RF算法的MLR模型。

圖4 不同模型下土壤有機質的實測值和預測值相關圖(a): 全譜-PLS;(b): RF-MLR;(c): Si-RF-MLRFig.4 Correlation between measured and predicted values of SOM obtained from different models(a): Full spectrum PLS; (b): RF-MLR; (c): Si-RF-MLR

由于RF算法對初始變量集的產生是隨機的,有較大的不確定性,可能會包含無信息變量或干擾信息,從而導致算法的迭代次數大、運行時間長。而通過SiPLS特征波長初選,得到的波長對于目標變量變化最為敏感,同時避免了其他光譜無信息變量與噪聲的影響。所以首先對全譜通過SiPLS進行特征波長初選,將其初選結果作為RF的初始變量子集V0,這樣可以改善RF收斂速度慢的問題,減少RF算法的迭代次數,大大節省運行時間,并且由于初始變量子集是針對于有效信息的波長,有利于RF每次迭代中V*所包含的波長的選擇,可以提高預測精度。在運行中,迭代次數也由10 000次減少至1 000次,提高運行效率。

通過Si-RF選出的特征波長點的范圍在1 348~1 444,1 920~2 364 nm之間,這與許多前人研究所選波長點范圍基本一致。如:白婷等[7]針對艾比湖60個表層土樣,基于CARS算法提取的SOM特征波段主要集中在1 970和2 340 nm附近;朱亞星等[8]通過UVE-CARS優選出84個變量做為預測SOM含量的特征波長,分布于561~721和1 920~2 280 nm波段;于雷等[9]通過CARS-SPA優選出的37個特征波長,集中在近紅外區域1 800~2 400 nm,而且基于波長選擇建立的SOM含量的PLSR模型預測精度最優。本工作Si-RF優選出的波段與圖2B近紅外光譜曲線吸收峰的位置也基本一致,符合高志海等[10]的論點,即光譜曲線上的凸起區可能對提取土壤有機質信息有實際意義。

對比RF及Si-RF所選波長點范圍,RF的范圍在1 388~1 424和1 922~2 318 nm之間,Si-RF的范圍在1 348~1 444和1 920~2 364 nm之間,可以發現Si-RF已經基本涵蓋RF所選波長的大部分,這也在一定程度上說明可以減少算法迭代次數。

3 結 論

提出了一種近紅外光譜分析中特征波長選擇的Si-RF算法,該方法通過對全譜進行SiPLS特征波長初選,將所得的波長做為初始變量子集,使得初始變量子集涵蓋有效信息,以解決RF中迭代次數過多,運行效率較低的問題。將RF和改進的Si-RF應用于一組土壤樣本近紅外光譜數據集,將由RF選擇的特征波長和改進的Si-RF選擇的特征波長提取出來,建立MLR模型,發現Si-RF-MLR模型的預測精度優于RF-MLR,并且在運行時間上也大大降低,提高運行效率;相較于全譜的PLSR模型,也極大的提高了預測精度,簡化模型的復雜度。證明改進的Si-RF是一種有效的特征波長選擇算法。

猜你喜歡
子集波長光譜
基于三維Saab變換的高光譜圖像壓縮方法
拓撲空間中緊致子集的性質研究
高光譜遙感成像技術的發展與展望
關于奇數階二元子集的分離序列
完全二部圖K6,n(6≤n≤38)的點可區別E-全染色
基于頻域分析方法的軌道高低不平順敏感波長的研究
日本研發出可完全覆蓋可見光波長的LED光源
星載近紅外高光譜CO2遙感進展
每一次愛情都只是愛情的子集
RP—HPLC波長切換法同時測定坤泰膠囊中6個成分的含量
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合