?

紫外吸收光譜法的水質參數預測模型研究

2024-03-16 10:11朱永健劉金福潘曉文
科學技術創新 2024年6期
關鍵詞:濁度水樣光譜

朱永健,劉金福,潘曉文*,金 晶

(1.福建農林大學 計算機與信息學院,福建 福州;2.福建農林大學 林學院,福建 福州;3.福州市臺江環境監測站,福建 福州)

化學需氧量(COD)和濁度是監測水質的常規指標,可以反映水體中有機物污染程度和水透明度。光學法中的紫外吸收光譜法由于操作簡單、分析快速以及無二次污染等優點,近年來被廣泛應用于水質監測領域[1]?,F有研究較多的單波長、多波長方法無法應用光譜的全部數據,但應用全光譜數據構建水質預測模型時,傳統的最小二乘法(LS)和偏最小二乘法(PLS)在擬合此類復雜非線性數據時表現較差。深度學習方法具有處理大規模數據和解決非線性問題的能力,因此被逐漸應用于水質檢測領域[2]。在構建基于深度學習的水質檢測模型時,由于水質成分復雜多變,且樣本標注成本高昂,通常難以獲取大規模標注數據集。因此,為了解決訓練樣本少,提高使用深度學習方法構建水質參數預測模型的魯棒性和準確性,本研究提出利用紫外吸收光譜獲得的全光譜數據,建立基于小樣本學習的Siamese CNN 水質參數預測模型,以提高深度學習模型在水質檢測領域的實用性。

1 數據來源與模型構建

1.1 數據來源

實際水樣來自于福建省閩江流域福州段,COD 濃度測定采用重鉻酸鉀COD 回流法,濁度濃度測定采用濁度計法。實驗室標準水樣來源于國家有色金屬及電子材料分析測試中心提供的標準溶液稀釋得到,為在實驗中檢驗模型的泛化能力,配置的標準水樣包括單參數溶液(COD、濁度、硝酸鹽氮),兩參數混合溶液(COD 和濁度、COD 和硝酸鹽氮、濁度和硝酸鹽氮)、三參數混合溶液三種類型。

紫外吸收光譜數據依據朗伯- 比爾定律,使用高利GLA600-UVN 紫外光纖光譜儀進行測量。

1.2 光譜數據預處理

在獲取樣本的紫外吸收光譜過程中,CCD 探頭會隨時間產生波動,從而引入噪聲,本研究通過增加獲取每個光譜數據點時的平均測量次數,降低這種噪聲對結果的影響。除光譜儀內部會產生噪聲外,設備的使用及光源、光路不穩定等同樣會產生噪聲,對于此類噪聲,采用小波變換進行濾除[3]。

小波變換是把基本小波函數 ψ (t)做位移 τ后,在不同尺度 α下與待測信號 χ(t)做內積。表達式為:

轉換為等效的頻域表達式為:

公式(1)、(2)中,X(w) 和 ψ(w) 分別為x(t) 和 ψ(t)的傅里葉變換。

軟閾值濾波得到的小波系數整體連續性較好,因此本研究使用軟閾值去噪,公式為:

公式(3)中,wλ為軟閾值濾波的收縮函數,s gn(w)表示W 的符號。圖1 為濾波前后對比效果圖。

圖1 濾波前后對比圖

1.3 數據增強

本文采用隨機擦除(Random Erasing)方法進行數據增強,即隨機遮擋訓練集中一定比例的數據,且保持數據的長度不變,以提高模型的泛化能力,防治出現過擬合情況。

1.4 Siamese CNN 模型構建

孿生神經網絡(Siamese Network)能夠從有限的數據中學習特征。Siamese Network 可以同時對兩個不同的水質光譜(光譜a 和光譜b)進行編碼和特征提取,生成與水質光譜對應的特征向量processed_a 和processed_b。經過多模型對比后,本研究選擇CNN 作為BackBone。CNN 特征提取后,兩個特征向量將被輸入到歐式距離計算層,以計算出a 和b 之間的距離(distance),并根據預設的閾值來判斷它們是否相似。歐氏距離計算公式如下:

使用歐氏距離進行相似性檢測可以找到與輸入光譜數據最接近的樣本,這為模型提供了先驗知識。此外,這種將光譜數據兩兩組合為樣本對的方法,變相地擴充了訓練數據集。在數據量相對較少的情況下,通過這種方式也可以訓練出具有較好性能的深度神經網絡模型。

Siamese CNN 的特征學習網絡結構如圖2(a)所示,水質參數預測網絡結構如圖2(b)所示。

圖2 Siamese CNN 特征學習和水質參數預測網絡結構

1.5 模型評估

通過測試集水質參數識別值與真實值的相關系數R2,最大絕對誤差(MAE),均方根誤差RMSE 三個指標對模型的性能進行評價,R2、MAE、RMSE 按公式(5)(6)(7)計算。

式中:n 為樣本量,y^ 為識別值,yi為真實值,y為樣本均值。R2值越接近于1,MAE 值和RMSE 值越小,表明模型的識別效果越好。

2 結果與分析

本研究構建了以下模型用于水質參數預測:孿生全連接網絡(Siamese FC)采用全連接神經網絡作為特征提取網絡、Siamese CNN 采用卷積神經網絡作為特征提取網絡,以及CNN、梯度提升決策樹(GBDT)、隨機森林(RF)以及偏最小二乘法(PLS)。我們對這六種模型的預測精度進行了比較,并將水樣按照一定比例劃分為訓練集和測試集。

2.1 標準水樣預測

2.1.1 同類標準水樣預測

同類標準水樣是指訓練集和測試集的樣本屬于相同類型的水樣。同類水樣的預測是實際檢測過程中最常見的情況。本研究按照3:1 的比例劃分訓練集和測試集,各模型在測試集上對COD 濃度的預測結果見表1。

表1 同類標準水樣測試集COD 濃度預測結果

如表1 所示,Siamese CNN 的三個評價指標明顯優于其他模型。通過對比COD 標準溶液和三參數混合溶液的預測精度,發現在面對更復雜的水環境時,模型的預測精度會有所下降。但與其他模型相比,Siamese CNN 的評價指標下降幅度最小,表明模型魯棒性最優。

2.1.2 不同類標準水樣預測

不同類水樣是指訓練集和測試集中的樣本不屬于相同類型的水樣。僅對同類水樣進行預測可能無法評估模型的泛化能力,也無法應對實際水質檢測中水質參數可能發生變化的情況。因此,本研究將兩參數混合溶液作為訓練集,三參數混合溶液作為測試集,測試集中COD 和濁度濃度的預測結果見表2。

表2 不同類標準水樣測試集COD 濃度預測結果

如表2 所示,模型預測精度較表1 普遍下降。但Siamese CNN 的降幅最小,表明該模型較其他模型具備出色的泛化能力,可以應對水質參數濃度發生變化的情況。對于濁度濃度的預測,Siamese CNN 同樣表現出最佳的預測性能。

為進一步提高模型的預測精度,對訓練集進行數據增強操作,隨機擦除比例為0.2。數據增強后,Siamese CNN 對測試集的預測結果見表3,三個評價指標均顯著提升,表明該數據增強方法可以有效提高模型的預測精度。

表3 掩膜后樣本類5 測試集COD、濁度預測結果

2.2 真實水樣預測

為進一步驗證其實用性,將該模型應用于實際水樣預測,預測結果見表4。從表4可以看出,COD 和濁度的R2均達到了0.97,表明該模型可以成功用于實際水樣檢測。

3 結論

基于小樣本學習的Siamese CNN 模型具有較強的特征提取能力,可以實現小樣本數據集的COD 和濁度濃度預測,結合數據增強方法,可進一步提高模型的預測精度。將紫外吸收光譜的全光譜數據與Siamese CNN 模型相結合,構建了一種高效穩定的水質COD 和濁度濃度預測模型。該模型具有更高的識別精度和更強的泛化能力,為在線監測水體中COD 和濁度的污染程度提供了一種新的技術支持。

猜你喜歡
濁度水樣光譜
基于三維Saab變換的高光譜圖像壓縮方法
丙烯酰胺強化混凝去除黑河原水濁度的研究
動態濁度補償技術在總磷在線自動監測儀上的應用
我國相關標準水樣總α、總β放射性分析方法應用中存在的問題及應對
平行水樣分配器在環境監測中的應用
水樣童年
11°角應用于啤酒過濾濁度測量
星載近紅外高光譜CO2遙感進展
辣木籽粕粗提液對水中濁度及水質的影響
苦味酸與牛血清蛋白相互作用的光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合