?

水體透射光譜結合主成分分析(PCA)改進化學需氧量(COD)含量估算研究

2024-03-04 00:42王彩玲位欣欣
中國無機分析化學 2024年4期
關鍵詞:有理高斯預處理

王彩玲 位欣欣

(西安石油大學 計算機學院,西安 710065)

化學需氧量(Chemical Oxygen Demand,COD)是表征水體被還原性物質污染程度的指標,該指標作為有機物相對含量的綜合指標之一,列入我國主要污染物總量控制指標,根據其排放濃度衡量水體污染程度[1]。傳統的COD測量方法主要是基于化學分析,耗時較長,操作專業性高,不利于快速、實時地獲取水體中COD的信息[2]。而高光譜技術結合人工神經網絡模型可以快速、準確地估算水體中的COD含量,從而為環境監測和水質調控提供了有效手段。

近年來,關于利用高光譜遙感技術評價和監測水資源水質信息狀況方面的研究愈發深入[3]。高光譜技術是一種通過對目標物體光譜信息的收集和分析,實現對目標物體性質的識別和定量測量的技術。利用高光譜技術,可以實現對水體中COD含量的快速、無損檢測。國內外學者利用高光譜技術結合各種算法進行了大量水質檢測技術的研究。YES等[4]應用UVE-SPA-LS-SUV的方法實現了對COD的建模預測;KIMBERLY等[5]構建出偏最小二乘最佳高光譜 Chl-a 濃度估算模型;ORTIZ等[6]利用高光譜技術檢測出水體總懸浮固體濃度;曹引等[7]建立偏最小二乘水體濁度高光譜反演模型,為水體濁度大面積遙感檢測提供了技術支持;張賢龍等[8]提出高光譜技術水質參數濃度反演模型;蔡建楠等[9]采用 GA 遺傳算法實現了基于偏最小二乘法高光譜 COD 檢測模型的優化。

本文以水體COD含量為研究對象,通過多元散射校正(MSC)、標準正態變換(SNV)、最大最小歸一化(MMN)三種不同的高光譜數據預處理方法對采集到的高光譜數據進行預處理,建立相應的高斯過程回歸模型(Gaussian Process Regression,GPR)和BP神經網絡模型,并對模型進行改進。結合主成分分析(Principal Component Analysis,PCA)方法對預處理后的數據進行主成分分析,通過數據降維,保留足以解釋90% 的方差的成分,從預處理后的光譜數據中提取22個主成分,篩選出相關性較好的波段,建立改進的GPR水體COD含量估算模型和BP神經網絡模型水體COD含量估算模型。實驗結果表明,基于PCA改進的模型的預測精度均明顯提高,其中標準正態變量變換特征PCA-BP神經網絡模型的R2高達0.994 0,均方根誤差為0.022 540,模型性能最優,能夠實現水體中COD含量的檢測。

1 實驗部分

1.1 光譜儀

實驗用儀器為 Ocean Optics 公司出品的 OCEAN-HDXXR 微型光纖光譜儀,該光譜儀采用高清晰度光學系統,具有高通量、低雜散光和高熱穩定性的特點,適用于精確測量溶液中的分析物,具有體積小,容易集成到許多工業應用的生產過程環境的優勢。

1.2 透射光譜數據獲取

選擇配比溶液為 0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0 mg/L的 COD標準溶液,更換光譜儀的狹縫為 10 μm,相同時間間隔各自重復采集10次上述標準溶液200~1 030 nm的高光譜透射率數據,共得到100條數據。

采用白板校正分別得到所采集的三種高光譜數據的光譜透射率值[10],如式(1)所示:

(1)

其中:Ro為原始光譜數據,RW為白板數據。

2 實驗結果

2.1 COD原始透射光譜

圖1(a)為10種濃度COD原始透射光譜,從圖1中可以看出,不同濃度溶液的COD光譜曲線的趨勢類似,在紫外線波段180.1~400 nm,COD光譜曲線呈先下降后上升的趨勢,這說明隨著有機物含量的增加,水體COD含量越低,其光譜曲線特征越發明顯。

圖1 透射光譜圖Figure 1 Transmission spectrograms.

2.2 數據預處理

對于高光譜數據,除了COD的特征信息外,還可能有光譜采集過程中產生的背景噪聲輻射以及信號轉換過程中產生的附加噪聲[11],分別采用不同的預處理方法進行處理,如圖1(b)~1(d)所示。其中,采用多元散射校正有效消除由于散射水平不同導致的光譜數據的差異,增強光譜與數據之間的相關性[12];采用標準正態變量變換降低固體顆粒大小、表面散射以及光源變換等對光譜信息的影響[13];采用最大最小歸一化在不同程度上消除了光譜散射和背景干擾的影響[13]。

2.3 模型的建立

采用高斯過程回歸模型和BP神經網絡模型以上述預處理后的高光譜數據為自變量,將不同濃度的COD樣本與光譜數據進行擬合,為了防止在模型的訓練過程中出現過擬合的現象,采用五折交叉驗證方法。輸入為光譜數據,輸出為COD樣本的濃度。然后分別建立各類自變量的高斯過程回歸模型和BP神經網絡模型。

2.3.1 高斯過程回歸模型建立

高斯過程回歸(GPR)是一種建立在貝葉斯框架下的統計學習方法,模型性質完全由均值函數和協方差函數確定[14]。它有嚴格的統計學理論基礎,對處理高維數、小樣本、非線性等復雜回歸問題具有良好的適應性[14];該算法還具有容易實現,參數自適應獲取,輸出結果具有概率意義等優點[14]。

將預處理后的透射光譜數據作為模型的輸入,建立高斯過程回歸模型。使用MATLAB中自帶的 Quadratic Rational Gaussian Process Regression算法對高斯過程回歸模型進行學習訓練。本次實驗中將該算法的基函數設置為常量,核函數選用二次有理函數,同時在訓練過程中對高光譜數據進行標準化,優化數值參數,以達到最優效果。模型輸出結果如圖2所示。

圖2 高斯過程回歸模型預測結果Figure 2 The prediction results of Gaussian process regression model.

2.3.2 BP神經網絡模型建立

使用MATLAB中自帶的 Scaled Conjugate Gradient Backpropagation算法對 BP 模型進行學習訓練。該算法根據縮放共軛梯度法更新權重和偏差值,同時占用更少的內存,適用于高光譜數據,選擇三層神經網絡模型進行訓練,第一層神經元個數設置為20,第二、三層設置為10,該算法中迭代次數(Epoch)閾值為 1 000,激活函數設置選用Sigmoid函數,探究不同預處理方法對BP網絡模型回歸準確率影響。模型輸出結果如圖3所示。

圖3 BP神經網絡模型預測結果Figure 3 The prediction results of BP neural network model.

2.3.3 模型結果評估

以均方根誤差RMSE和決定系數R2為標準對所建立的各個模型進行精度檢驗與比較。其中:均方根誤差RMSE越小,說明模型選擇和擬合更好;決定系數R2越接近1,說明模型擬合的效果越好。檢驗結果如表1所示。

表1 未改進模型精度檢驗結果Table 1 Testing results of unimproved model accuracy

由表1可知,與全波段的模型相比,經過預處理后的二次有理GPR模型和BP神經網絡模型的性能均有所提高。其中,預處理后的二次有理GPR模型其R2最高達0.982 6;其RMSE最低為0.038 168;預處理后的BP神經網絡其R2最高達0.979 3,比全波段R2高出0.039 2,其RMSE最低為0.041 567;與全波段的模型相比,預測精度均比原數據較高。說明采用預處理方法對數據進行處理可以有效提取有效光譜信息,排除干擾信息,從而提高光譜數據與 COD濃度之間的相關性,使得模型的性能提高,預測效果更好。

2.4 基于PCA改進模型的建立

利用主成分分析法(PCA)對模型進行改進,建立基于PCA的BP神經網絡定量估算模型以及二次有理GPR的定量估算模型。PCA是一種使用最廣泛的基于線性映射的特征提取技術,該算法通過一定的變換將高維數據映射到一個新的低維空間,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依此類推,這些主成分能夠反映絕大部分的變量信息[15]。本文實驗中設置PCA保留足以解釋90% 方差的成分。模型訓練后,提取22個主成分。每成分的解釋方差(順序排列):37.0%、 18.4%、9.1%、4.3%、3.0%、2.0%、1.7%、1.5%、1.4%、1.3%(隱藏最不重要成分的方差)。

2.4.1 基于PCA改進的高斯回歸模型

將 COD數據集作為PCA-二次有理GPR模型的輸入。模型輸出結果如圖4所示。

圖4 改進的高斯回歸模型預測結果Figure 4 The prediction results of improved Gaussian regression model.

2.4.2 基于PCA改進的BP神經網絡模型

將 COD數據集作為PCA-BP神經網絡模型的輸入。模型輸出結果如圖5所示。

圖5 改進的BP神經網絡預測結果Figure 5 The prediction results of improved BP neural network model.

2.4.3 基于PCA改進的模型結果評估

從輸出的結果可以看出,預測值與真實值差異較小,具有很好的相關性。對所建立的各個改進的二次有理GPR模型以及 BP神經網絡模型進行精度檢驗并進行比較。改進模型檢驗結果如表2所示。

表2 改進的模型精度檢驗表Table 2 Testing results of improved model accuracy

由表2可知,與未改進的模型相比,基于PCA改進模型的預測精度均有所提高。其中,多元散射校正特征PCA-二次有理GPR模型的R2增長為0.990 9,多元散射校正特征PCA-BP神經網絡模型的R2增長為0.990 8,其RMSE均有所減少;標準正態變換特征PCA-二次有理GPR模型的R2增長為0.992 0,標準正態變量變換特征PCA-BP神經網絡模型的R2增長為0.994 0,可以發現改進后的標準正態變量變換的R2更接近于1,且RMSE均明顯減少,精度較為提高;最大最小歸一化特征PCA-二次有理GPR模型和最大最小歸一化特征PCA-BP神經網絡模型的R2增長為0.988 3和0.984 4;其RMSE減少為0.031 195和0.036 048,預測精度相比未改進的模型也有所提升。說明采用 PCA對預處理后的數據進行數據降維,可以實現 COD含量估算模型的優化。

3 結論

分別采用多元散射校正、標準正態變量變換、最大最小歸一化對光譜透射率數據進行預處理,并建立二次有理高斯回歸模型和BP神經網絡模型,對于不同的模型,探究不同特征輸入對模型精度的影響,結果表明:3種預處理方法可以有效降低噪音對數據的干擾,且二次有理GPR模型相比BP神經網絡模型有較好的預測精度;基于PCA對各預處理后的透射光譜數據進行數據降維,篩選出相關性較好的波段,從而建立改進的二次有理GPR模型和BP神經網絡模型。其中,標準正態變量變換特征PCA-BP神經網絡模型決定系數達到了0.994 0,均方根誤差為0.022 540,依據R2最大、RMSE最小原則,采用PCA改進的標準正態變量變換特征BP神經網絡模型可以建立精度較好的COD定量估算模型。

猜你喜歡
有理高斯預處理
有理 有趣 有深意
《有理數》鞏固練習
數學王子高斯
天才數學家——高斯
基于預處理MUSIC算法的分布式陣列DOA估計
圓周上的有理點
淺談PLC在預處理生產線自動化改造中的應用
絡合萃取法預處理H酸廢水
基于自適應預處理的改進CPF-GMRES算法
某些有理群的結構
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合