?

精細全光譜結合GS-SVR的復雜水體硝酸鹽分析方法研究

2021-02-03 08:02雷會平胡炳樑劉嘉誠王雪霽
光譜學與光譜分析 2021年2期
關鍵詞:硝酸鹽步長光譜

雷會平,胡炳樑,于 濤*,劉嘉誠,李 煒,王雪霽,鄒 妍,史 倩

1.中國科學院西安光學精密機械研究所,陜西 西安 710119 2.中國科學院大學光電學院,北京 100049 3.山東省科學院海洋儀器儀表研究所,山東 青島 266000

引 言

水是人類社會生產生活與持續發展必不可少的資源[1]。硝酸鹽是水質健康狀態評價的一個關鍵要素,過高濃度的硝酸鹽一旦流入水體環境就會刺激藻類快速繁殖,致使水體惡化,進而造成物種多樣性劇減以及生態環境的破壞,如果被人體誤攝,會引起“高鐵血紅蛋白癥”。因此,實現水體硝酸鹽的高精度快速實時在線監測對于水務事業的安全保障與水污染的預警防治極具重要的科學意義和社會價值。

基于光學測量的水質在線監測方法是當前及未來水環境動態監測的發展趨勢[1]。相較于傳統硝酸鹽現場采樣加實驗室化學分析的測定方法,其具有操作便捷,無需前處理,檢測效率高,重復性好且無二次污染等顯著優點,非常適合水環境中硝酸鹽的快速在線監測,在直飲水,地表水,廢水的在線檢測等方面具有廣闊的發展前景。針對水體組份解析算法,常見的有單波長法,雙波長法,偏最小二乘法(partial least square,PLS),人工神經網絡法(artificial neural network,ANN),支持向量機法(support vector machine,SVM)。Jean Causse[2]和Pons[3]等采用連續光譜二階導數測定淡水中硝酸鹽和溶解有機碳,并在多個淡水樣品中驗證了該方法的可靠性。宓云軿等[4]依次采用PLS,SVM和LM-反向傳播神經網絡(back propagation neural network,BPNN)建立吸光度與化學需氧量(chemical oxygen demand,COD)間的濃度模型,結果驗證SVM,LM-BPNN等回歸模型的預測效果顯然優于PLS。倪雪春等將支持向量回歸機(support vector regression,SVR)運用于混合重疊的光譜分析中,實現了硝酸鹽含量的濃度預測。王莉麗等[5]研制了一種新型的海水硝酸鹽檢測系統,結合PLS法進行硝酸鹽濃度與吸收光譜間的相關性分析,實現了海水硝酸鹽的在線檢測。楊瓊[6]等結合近紅外光譜以及后向間隔偏最小二乘(back interval partial least square,BiPLS)法對生活廢水中的COD回歸建模,結果顯示預測效果優于PLS建模。劉思鄉等利用主成分分析對原始光譜數據降維,然后使用局部加權線性回歸建模,獲得了較好的預測結果。陳穎等[7]提出了一種基于光譜的混合回歸預測模型,包括雙波長法與最小二乘支持向量機法,將溶液樣本分為高濃度樣本和低濃度樣本兩部分,驗證結果良好。

但是,實際水體組分更加復雜與多元化,水體參數和吸光度二者并非呈現線性相關,使用線性回歸模型難以達到滿意的預測效果,所以必須建立非線性的預測模型。ANN建模預測難以克服預測結果的不穩定性,而SVM因其在小樣本、非線性、高維問題中的優勢獲得廣泛關注。本文結合精細全光譜技術,提出一種基于改進的網格搜索(grid search,GS)方法優化SVR以期完成建模預測,并與傳統預測模型的結果加以對比,結果驗證,提出的算法在預測精度以及訓練效率方面都有顯著提升。

1 基本原理

1.1 支持向量回歸思想

SVM基于結構風險最小化原理,可以有效地應對實際應用情境下出現的小樣本、非線性和高維問題[8],具有良好的性能和預測精度。SVR的基本思路是把原始數據x非線性映射到高維特征空間,然后在此空間中解決線性回歸問題。SVM的回歸函數為

f(x)=wφ(x)+b

(1)

其中φ(x)為特征空間,是權重向量,b是偏差項。系數和b則由風險函數最小化來估計

(2)

(3)

式(3)中,若預測誤差小于ε,則損失為零,否則損失超出范圍。引入兩個正松弛變量ξ和ξ*表示從實際值到相應邊界值的距離。將式(2)轉化為式(4)

(4)

約束條件為

(5)

該優化問題通過式(6)求解

(6)

約束條件為

(7)

(8)

因此,回歸函數為

(9)

式(9)中,K(xi,x)為核函數,其值為K(xi,x)=Φ(xi)Φ(x)。在SVM中,徑向基核函數(RBF)K(xi,x)=exp(-‖xi-x‖/2σ2)僅須確定一個變量,便于參數優化。此外,其構造的SVR具有良好的非線性預測性能。因此,將RBF應用于SVR中。

1.2 改進的網格搜索法

據實際應用情況,參數設置和核函數的選擇對SVR的學習和泛化性能影響很大[9]。網格搜索(grid search,GS)是一種直接的參數優化算法,用于確定SVR的最佳參數值[10-11]。通過設置搜索中的上下界(搜索間隔)和跳躍間隔的適當值,使得優化算法遍歷網格中的每一個參數組合,并采用交叉驗證技術作為性能度量找到最優參數組合。實際操作中往往設置較大的搜索范圍和較小的搜索間隔,因此,參數尋優的過程會占用大量時間,導致模型效率低下。本文提出了多次變步長的網格搜索算法對SVR模型參數進行調整,具體操作步驟如下:

(1) 初始化參數搜索范圍及搜索步長,在初始的網格搜索范圍中,將預先設置的參數組合搜索步長擴大T倍,進行第一次參數尋優。

(2) 依據圖1的參數搜索空間確定流程,將C與σ的搜索范圍縮小,并且縮小搜索步長F倍,繼續第二次參數尋優。具體流程如圖1。

(3) 依據圖1的參數空間確定流程,把C與σ的搜索空間再次縮小,同時把它的步長縮小S倍,繼續進行參數尋優。其中T=FS。

圖1 參數搜索空間的確定Fig.1 Determination of parameter search space

(4) 將(3)中獲取的最優參數組合代入SVR模型,建立訓練集吸光度光譜數據與硝酸鹽濃度的數學模型。

(5) 將測試集應用于步驟(4)獲取的回歸模型完成預測,輸出測量結果。

通過以上操作,將原本的搜索空間減小并多次改變步長,簡化了計算,大幅提升了尋優效率。

2 實驗部分

2.1 數據獲取

使用自研光譜儀采集溶液的原始透射光譜數據,并將其轉換為吸光度光譜數據,然后基于可變步長的網格搜索法進行模型參數尋優,將獲得的最優參數組合應用于SVR模型,建立訓練集吸光度光譜數據與硝酸鹽濃度間的數學模型,然后利用該數學模型完成測試集的濃度預測??傮w流程圖如圖2所示。

圖2 實驗整體流程Fig.2 Overall flow of the experiment

2.2 樣本溶液

溶液樣本的配制在陜西科技大學化學與化工學院實驗室內完成。采用標準的硝酸鹽溶液,鉑-鈷標準溶液,福爾馬肼標準混懸液根據實驗要求按照不同的濃度梯度配置了94組不同濃度的溶液樣本。硝酸鹽、濁度、色度的濃度量程分別為7~15 mg·L-1,0.5~5 NTU,7~15度(鉑-鈷色度單位),濃度間隔分別為1 mg·L-1,0.5 NTU,1度。每一個待測溶液樣本的三種組份濃度配比為隨機生成。

2.3 裝置

實驗裝置采用光源,光源衰減器,比色皿,光譜儀和計算機組成的集成系統獲取被測物質的透射光譜。樣本溶液光譜數據的采集裝置選取了項目組自主設計研發的雙光路主動校正連續光譜儀,原理如圖3所示。該裝置使用雙光路主動校正結合連續光譜精細獲取的方法,相對于傳統的單光路連續長時間作業的系統誤差校正進行了去除。自研儀器的光譜范圍:185~1 100 nm,光譜分辨率:1.5 nm,閃耀波長:250 nm,共含3 648個像素點。

圖3 光譜法主要測量技術原理圖Fig.3 Main measurement technology schematic diagram of spectrometric method

將被測溶液的原始透射光譜數據轉換為吸光度光譜數據,所有樣本溶液的吸收光譜圖如圖4所示。

圖4 94個不同濃度溶液樣本的吸收光譜Fig.4 Absorption spectrum of 94 samples with different concentrations

2.4 樣本分類

對待測溶液的吸光度數據進行建模預測之前,使用Kennard-Stone算法將其劃分為訓練集和測試集,其劃分原則是把已選取的樣本點與其余樣本點間的最小直線距離最大化。樣本i與樣本j間的歐氏距離定義如式(10)

(10)

式(10)中,rik與rjk分別為樣本i和樣本j在波長k處的吸光度,p為待測樣品溶液光譜的波段數。通過上述算法94個溶液樣本被劃分為80個訓練樣本與14個測試樣本。

3 結果與討論

3.1 改進GS-SVR的參數尋優

改進的GS法通過多次減小參數的搜索空間以及修正步長大幅提高了參數尋優速度,配合交叉驗證法進行訓練集的建模,將獲得的最優的C和σ參數再用于測試樣本的濃度預測。懲罰參數C取值范圍設為[2-9,29],σ取值范圍設為[2-10,210],二者的搜索步長初始設為0.5,依次將其擴大10倍,縮小2倍,縮小5倍,選擇RBF核函數,得到三次參數尋優的均方誤差的3D視圖如圖5,圖6,圖7所示。

圖5 改進GS-SVR第一次參數尋優3D視圖Fig.5 3D view for the first parameter optimization of Improved GS-SVR

圖6 改進GS-SVR第二次參數尋優3D視圖Fig.6 3D view for the second parameter optimization of Improved GS-SVR

由圖5—圖7可知,每一次改變步長后參數搜索空間都會縮小,降低了參數選擇的計算量,克服了傳統方法非常耗時的缺陷。

圖7 改進GS-SVR第二次參數尋優3D視圖Fig.7 3D view for the third parameter optimization of Improved GS-SVR

3.2 改進GS-SVR建模預測

將3.1節三次參數尋優的最優參數C和σ組合(512,0.044 2)應用于支持向量回歸模型,最終獲得測試集的預測效果如圖8(a)所示,預測結果的相對誤差(relative error,RE)如圖8(b)所示。

圖8 (a) 改進GS-SVR預測值與真實值對比; (b) 改進GS-SVR預測值相對誤差Fig.8 (a) Comparison between the predicted value of improved GS-SVR and the real value;(b) Relative error of the predicted value of improved GS-SVR

圖8和圖9分析可知,改進的GS-SVR建模的預測效果較好,其中回歸模型的決定系數(coefficient of determination)R2=0.993 5,預測均方根誤差(root mean square error of prediction,RMSEP) RMSEP=0.043 5。14個樣本預測值的絕對誤差(absolute error,AE)控制在0.5以內,最大AE是0.465 1,一半樣本的AE不超過0.1。預測值的相對誤差最大3.32%。整個過程平均花費時間為13 s,滿足快速監測的應用需求。

圖9 (a) 不同預測模型的預測值與真實值對比;(b) 不同預測模型的預測值相對誤差Fig.9 (a) Comparison between predicted value and real value of different prediction models; (b) Relative error of predicted values of different prediction models

基于吸光度光譜數據,同時建立了BPNN,SVR,GS-SVR,PSO-SVR,GA-SVR五種預測回歸模型,與文中提出的可變步長GS-SVR方法加以對比。每種模型訓練5次,在表1中統計了硝酸鹽濃度預測模型的R2,RMSEP,訓練時間。

表1 不同預測模型評價參數對比Table 1 Comparison of evaluation parameters of different prediction models

分別從預測精度,預測誤差,訓練效率以及穩定性四個方面來對比六種預測模型的性能。由表1 分析可知,相比于BPNN,SVR,GS-SVR,PSO-SVR,GA-SVR五種預測回歸模型(取5次預測精度最高的對比),改進GS-SVR預測精度最高,R2=0.993 5,分別提高了1.22%,11.66%,0.78%,0.74%和0.77%。RMSEP=0.043 5,分別降低了-4.36%,1 644%,308%,80%和112%。改進GS-SVR平均訓練時間為13 s,相較BPNN的67 s,GS-SVR的121 s,PSO-SVR的291 s,GA-SVR的146 s,效率分別提升了4.15倍,8.30倍,21.38倍,10.23倍,盡管SVR模型訓練時間最短,但其精度不高,且誤差很大。GS-SVR,PSO-SVR,GA-SVR模型存在一個明顯的缺陷就是計算量大,訓練效率較低,需要等待很長時間才能完成一次參數的解算,參數尋優過程耗時過長,尤其后兩者預測結果不穩定,容易陷入局部極優。BPNN的最大缺點就是預測效果極不穩定,效果較好時R2高達0.981 5,訓練效果較差時,R2只有0.715 4。究其原因,BPNN是局部搜索的優化算法,在計算非線性函數的全局極值時極大概率陷入局部極值,導致訓練精度降低。同時,網絡結構的選取尚無成熟的理論指導,只能憑經驗進行選擇,因此如何采用合適的網絡結構也是BPNN預測模型訓練的關鍵問題。比較可知,改進的GS-SVR模型綜合預測精度,預測誤差,訓練效率以及穩定性方面皆優于其他模型,在提升預測精度的同時提高了算法的優化效率。

六種硝酸鹽濃度回歸模型的預測結果與真實值如圖9(a)所示,相對誤差如圖9(b)所示。改進GS-SVR最大絕對誤差控制在0.5以內,0.465 1(改進GS-SVR)<0.729 7(GS-SVR)<0.755 1(PSO-SVR)<0.865 9(GA-SVR)<0.874 1(BPNN)<1.830 3(SVR),為六種模型中最優。相對誤差為3.32%(改進GS-SVR)<5.77%(PSO-SVR)<6.18%(GA-SVR)<8.30%(GS-SVR)<8.84%(BPNN)<14.12%(SVR),無論是絕對誤差還是相對誤差,改進GS-SVR模型都保持在最低水平,預測效果明顯優于其他五種模型。

4 結 論

基于精細全光譜結合支持向量回歸技術提出了一種基于可變步長的GS法優化SVR,將其用于混合水體硝酸鹽濃度的建模預測。通過可變步長的GS尋優算法獲得最優參數C和σ為(512,0.044 2),建立SVR硝酸鹽濃度預測模型,模型R2=0.993 5,RMSEP=0.043 5,平均訓練時間為13 s。并同目前流行的BPNN,SVR,GS-SVR,PSO-SVR,GA-SVR算法對比,R2分別提高了1.22%,11.66%,0.78%,0.74%和0.77%,訓練效率分別提升4.15倍(BPNN),8.30倍(GS-SVR),21.38倍(PSO-SVR),10.23倍(GA-SVR)。結果顯示,提出的GS-SVR方法不僅提高了模型的預測精度,而且在尋優效率方面取得了很大的提升,可為復雜基質水體硝酸鹽濃度的快速在線監測提供一種新的有效方法,具備潛在的應用價值。

猜你喜歡
硝酸鹽步長光譜
硝酸鹽并不致癌還或有益處
基于三維Saab變換的高光譜圖像壓縮方法
基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
家畜硝酸鹽和亞硝酸鹽中毒的診斷、鑒別和防治
星載近紅外高光譜CO2遙感進展
基于逐維改進的自適應步長布谷鳥搜索算法
短期水分脅迫影響巴旦杏植株對硝酸鹽的吸收
一種新型光伏系統MPPT變步長滯環比較P&O法
苦味酸與牛血清蛋白相互作用的光譜研究
鋱(Ⅲ)與PvdA作用的光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合