?

多光譜數據融合和GANs算法的COD濃度預測

2021-01-06 03:03許揚眉邸遠見崔行寧周鑫德肖春艷李少華
光譜學與光譜分析 2021年1期
關鍵詞:波段預處理區間

陳 穎,許揚眉,邸遠見,崔行寧,張 杰,周鑫德,肖春艷,李少華

1. 燕山大學電氣工程學院,河北省測試計量技術及儀器重點實驗室,河北 秦皇島 066004 2. 河南理工大學資源與環境學院,河南 焦作 454000 3. 河北先河環??萍脊煞萦邢薰?,河北 石家莊 050000

引 言

大量的有機污染物排入到水體中,導致河流、湖泊和海洋都受到了不同程度的污染[1]?;瘜W需氧量(chemical oxygen demand, COD)指在一定環境下,水體中的還原性物質被氧化分解時所消耗氧化劑的量,單位以耗氧量mg·L-1表示,化學需氧量表征水體受到有機物污染的程度[2],因此,化學需氧量可作為有機污染物監測的綜合指標。

近年來,各國學者進行了大量研究以致力于尋找快速、環保的COD檢測方法,紫外光譜(ultraviolet, UV)與近紅外光譜(near infrared, NIR)技術具有無損、快速、樣品制備簡單及可實現在線分析等特點,因此廣泛應用于水體的污染物監測。在國外,Lepot等[3]將UV光譜與遺傳算法引入COD建模,效果良好; Abedinzadeh等[4]利用NIR光譜對造紙廠廢水的COD進行了在線監測,所得的預測誤差大約為被測水樣COD濃度的1/10; Martelo-Vidal等[5]采用UV光譜聯合NIR光譜,搭建了人工神經網絡預測模型,取得了不錯的預測精度。在國內,趙友全等[6]利用主成分分析結合歐式距離分析UV光譜,并基于偏最小二乘法建模,實現了水樣的分類預測; 仲洋等[7]基于UV和NIR光譜進行多光譜融合對水質COD進行檢測,證明了多光譜融合建??捎行岣逤OD的預測精度。

本文提出了一種基于UV光譜和NIR光譜的多光譜信息融合COD濃度預測模型,通過一階導數和S-G平滑對原始UV和NIR光譜預處理; 為了避免光譜融合過程中數據量不一致導致的融合失敗,提出并分析了標準歸一化(standard normal variation, SNV)、最大最小歸一化(max-min-nor, MMN)和矢量歸一化(vector normalization, VN)處理光譜的效果,篩選出最合適的歸一化方法; 采用數據級數據融合(data level fusion, LLDF)和特征級數據融合(feature level fusion, MLDF)[6]對歸一化后的光譜進行融合; 基于生成對抗式網絡(generative adversarial networks, GANs)算法建立最終的多光譜COD濃度預測模型。

1 方法和原理

1.1 GANs算法

生成對抗式網絡是機器學習的模型,它包含兩個學習網絡:G(Generator)網絡和D(Discriminator)網絡。其中G網絡是一個生成模型的學習網絡,它接受樣本集的數據進行訓練,并生成一個預測模型,記作G(z);D是一個判別網絡,判別預測模型的結果是不是“準確的”。它的輸入參數是x,x代表準確值,輸出D(x)代表x為準確值的概率,如果為1,就代表預測準確性為100%,依次類推[8]。

Ez-pz(x)[log(1-D(G(z)))]

(1)

其中,x為真實值,z為輸入的訓練樣本,而G(z)表示G網絡生成的預測模型;D(G(z))是D網絡判斷G生成的預測模型是否準確的概率,G應該希望自己生成的模型 “越接近準確值越好”。G取D(G(z))最大值,V(D,G)變小,在式(1)標記為min_G。同理,D的能力越強,D(x)越大,D(G(x))越小。V(D,G)會變大,此時標記為max_D。

2 實驗部分

2.1 光譜采集

實驗室中,用U251UV分光光計和NIR光譜測試裝置(由激光器、待測樣品裝置、光譜儀、電腦以及相應的連接光纖組成)完成UV光譜和NIR光譜檢測,德國Brand(1.5 mL)數字可調精密移液器、50 mL比色管,鄰苯二甲酸氫鉀標準液,配制1 000 mg·L-1的鄰苯標準液,用蒸餾水定容至標線,搖勻,分別稀釋成1~500 mg·L-1濃度備用。

采用透射光譜法,將石英比色皿作為樣品池,空氣作參比,采集COD標準液的UV和NIR吸收光譜,如圖1所示,UV波段采集范圍為190~310 nm,NIR波段范圍為830~2 100 nm (12 500~830 cm-1),分辨率為1 nm,積分時間為3 ms,每個樣本重復測量10次,結果取平均值。

圖1 COD水樣光譜 (a): UV光譜; (b): NIR光譜Fig.1 COD water sample spectra (a): UV spectrum; (b): NIR spectrum

由圖1可知,不同濃度的COD標準液的吸收譜在UV波段具有兩個典型特征吸收峰。從官能團的角度來分析,第一個峰是羥基和羧基共同作用形成,且隨著鄰苯標液濃度的升高,該官能團吸收帶出現明顯紅移,并最終吸收趨于飽和; 第二個峰是苯環官能團作用形成,且隨著標液濃度的上升,該官能團吸收帶的吸收明顯增強[9]。

水中有機物對NIR光的吸收很弱,常被水的強吸收峰掩蓋,不易從原始光譜中直接觀察到[10]。因此,在NIR波段建立模型之前,需要將NIR吸收光譜進行處理以突出樣品中污染物主要官能團的光譜特性。將吸收光譜進行一階導數譜,在954,1 286,1 447和1 753 nm附近有明顯的吸收峰,這是污染水體含有的芳香烴化合物的C—H伸縮振動的一、二級倍頻和羰基二、三級倍頻的吸收帶[10]。UV波段與NIR波段相比可知,UV波段的吸收峰的信息含量并不高,但穩定較好; NIR波段覆蓋范圍廣,反映污染物的種類也更加豐富。

2.2 光譜數據預處理

光譜數據的采集受到外界環境影響,通過對UV和NIR原始光譜進行一定預處理,可以有效地降低外界環境的影響,提高最終定量預測模型的預測精度。采用一階導數、Savitzky-Golay平滑[11]等方法對光譜數據進行預處理。一階導數譜可以有效消除基線漂移、旋轉以及背景干擾,然而,在放大信息的同時,噪聲也被放大。為了消除噪聲影響,采用S-G濾波,對一階導數譜進行濾波。

將所有的水體樣本按照濃度隨機打亂,依照3∶1的比例分為校正集和預測集,測量值的最大最小樣本歸為校正集。

3 結果與討論

3.1 多光譜數據融合的歸一化方法選擇

基于UV和NIR光譜建立數據級和特征級的融合預測模型,對經過預處理之后的UV和NIR光譜數據進行融合。

在特征級融合的過程中,將經過預處理之后的UV光譜數據和NIR光譜數據分別采用反向區間偏最小二乘算法[12]對其特征區間進行挑選,其中反向區間偏最小二乘法劃分的信息區間數量為15個,最大因子數設為8,在設定子區間數下,具體篩選波段結果如表1所示。將篩選出的特征區間吸光度—濃度數據矩陣X,作為GANs模型的輸入,將真實測量COD值作為輸出值Y,獲得特征級融合UV-NIR的COD濃度預測模型。

同理,在數據級融合過程中,將經過預處理之后的UV區間光譜數據和NIR區間數據直接串聯形成一個新的吸光度—濃度數據矩陣X,獲得數據級融合UV-NIR的COD濃度預測模型。

表1 未歸一化處理的數據級和特征級融合GANs模型Table 1 Data fusion and feature level fusion GANs models without normalized treatment

由表1可知,不論是數據級融合還是特征級融合,預測模型的精度都不夠令人滿意,其中數據級融合模型不論是校正集還是驗證集的誤差都較大,其R2分別為0.978和0.915,RMSECV分別達到了2.356和1.659,偏差分別為0.318和0.764,這說明模型的預測精度不高,泛化能力也不能讓人滿意; 對比數據級融合模型,雖然直接融合的特征級融合模型的R2,RMSEC,RMSEP和偏差較數據級融合有一定提高,但是模型評價參數也不夠理想,不能達到精準預測的要求。

由于實驗中得到的UV光譜(190~310 nm)和NIR光譜(830~2 100 nm)的數據量不均勻,數據量占有絕對優勢的NIR光譜可能在光譜融合的過程中掩蓋掉UV光譜的貢獻,從而主導最終融合模型的結果。經過反向區間偏最小二乘算法篩選過的優選區間也剛好處于NIR波段,波段分別為820~952和1 719~1 836 nm,而UV波段被掩蓋住,這就驗證了在UV光譜和NIR光譜融合的過程中,確實存在兩種光譜對預測模型貢獻度不平衡的問題,其中NIR的貢獻度遠遠大于UV光譜的貢獻度,從而導致UV波段被掩蓋,相應的多光譜的預測模型的精度也達不到要求,讓光譜融合失去了意義。為了解決這一問題,采用歸一化方法處理UV和NIR光譜,并討論不同歸一化方法對建模的影響,分別采用標準歸一化、最大最小歸一化和矢量歸一化對光譜數據進行歸一化處理,將經過歸一化后的UV和NIR光譜數據進行融合,并使用反向區間偏最小二乘算法進行特征區間選擇,分別作為GANs模型的輸入X,將真實測量COD值作為輸出值Y,建立不同歸一化方法處理后的COD預測模型,具體如表2所示。

通過表2可知,不論是數據級融合模型還是特征級融合模型的預測精度較未歸一化之前都有明顯的提高,其中基于最大最小歸一化進行數據處理后得到的多光譜的預測模型的性能最好,不論從相關系數R2還是RMSECV,RMSEP和偏差,都表現出很高的預測精度。

表2 不同歸一化方法的GAN預測模型結果統計Table 2 Statistics of the result of GAN prediction model using different normalization methods

3.2 LLDF和MLDF預測模型

基于上面的研究進行數據級融合,對UV區間光譜數據和NIR區間預處理后的數據進行歸一化處理(采用Max-Min-Nor預處理),直接串聯形成一個新的吸光度-濃度數據矩陣X,并獲得最終的UV-NIR的COD濃度預測模型。通過驗證集實驗驗證模型的預測精度情況,如圖2(a)所示。

同理,進行特征級數據融合,對UV區間光譜數據和NIR區間預處理后的數據進行歸一化處理(Max-Min-Nor預處理),通過反向區間偏最小二乘法篩選出特征區間,并進行特征級數據(MLDF)融合,采用GANs算法建立MLDF多光譜融合的COD濃度預測模型。通過驗證集實驗驗證模型的預測精度情況,如圖2(b)所示。

圖2 基于GANs算法建立COD預測模型 (a): 數據級融合; (b): 特征級融合Fig.2 COD prediction model based on GANs algorithms (a): Data level fusion; (b): Feature level fusion

3.3 不同預測模型的評價

根據光譜類別以及融合方式的差異性,建立不同的基于GANs算法的COD濃度預測模型,包括單一譜源的UV全波段GANs模型、單一譜源的NIR全波段GANs模型、UV+NIR數據級融合的GANs模型和UV+NIR特征級融合的GANs模型,并進行預測性能對比,結果如圖3和表3所示。

依據模型校正集和驗證集的評價參數: 決定系數R2、交叉均方根誤差RMSECV,RMSEP和加標回收率,可以得到以下結論: 對于校正集的水質COD預測模型而言,NIR吸收光譜的模型效果最差; UV吸收光譜模型的預測效果也較差; 而基于UV+NIR的數據級融合(LLDF)模型和特征級融合(MLDF)模型的校正集評價指標較單一譜源的預測模型提升明顯,其中MLDF模型的RMSECV較單一譜源UV模型、NIR模型和LLDF提高189%,261%和91%,R2提高5.4%,9.3%和1.1%。

圖3 不同定量預測模型評價參數的對比圖 (a): 校正集評價參數; (b): 驗證集評價參數Fig.3 Comparison of evaluation parameters of different quantitative prediction models (a): Correction sets; (b): Verification sets

表3 不同定量預測模型評價參數表Table 3 Evaluation parameters of different quantitative prediction models

而對于驗證集而言,單一譜源的UV和NIR預測模型的評價參數較差,不能滿足監測的精度要求; UV+NIR的數據級融合模型的評價參數下降、回收率不佳,也不能滿足實際的水體環境監測; UV+NIR的特征級融合則預測效果最佳,模型的R2達到了0.994 7、RMSEP為1.325,回收率達到了98.4~103.1,都是所有模型中效果最佳的,其中MLDF模型的RMSEP較單一譜源UV模型、NIR模型和LLDF模型提升了183%,210%和124%,R2提升了10.1%,11.8%和4.9%。說明在實際日常監測中,基于特征級信息融合的多光譜COD模型能夠取得最佳的預測效果。

4 結 論

提出了一種基于多光譜融合和GANs算法的COD濃度預測模型,該模型是基于UV光譜和NIR光譜進行信息融合,結合GANs算法建立的非線性多光譜COD預測模型。

(1)基于未經歸一化的UV和NIR光譜,直接搭建數據級和特征級數據融合的COD濃度預測模型,模型的整體效果不理想。分析得知UV和NIR光譜的數據量不均衡,讓NIR光譜掩蓋了UV光譜的貢獻度。

(2)采取歸一化方法處理UV光譜和NIR光譜,克服光譜數據量不均衡的問題。并討論了不同歸一化方法對建立COD濃度預測模型精度的影響。

(3)實驗驗證表明該模型相關系數的平方為0.994 7,預測均方根誤差為1.325,比數據級融合的預測模型誤差降低了52.9%,預測回收率為98.4%~103.1%,遠低于其他幾組,模型的泛化能力更強,預測精度也更高。與單一譜源的監測模型相比,多光譜數據融合能反映更多的水體樣品的化學信息,更加全面揭示水體的污染物程度,提高最終的COD預測準確率。

猜你喜歡
波段預處理區間
你學會“區間測速”了嗎
全球經濟將繼續處于低速增長區間
基于預處理MUSIC算法的分布式陣列DOA估計
M87的多波段輻射過程及其能譜擬合
淺談PLC在預處理生產線自動化改造中的應用
區間對象族的可鎮定性分析
絡合萃取法預處理H酸廢水
日常維護對L 波段雷達的重要性
基于自適應預處理的改進CPF-GMRES算法
基于SPOT影像的最佳波段組合選取研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合