?

基于短時傅里葉光譜與數據融合的土壤成分含量預測

2024-02-29 08:31任慧東程志友張夢思
關鍵詞:預處理光譜卷積

任慧東,鞠 薇,程志友,張夢思

(1.安徽大學 電子信息工程學院,安徽 合肥 230601;2.安徽大學 互聯網學院,安徽 合肥 230601)

土壤肥力是土壤質量的體現,土壤養分、機械組成、酸堿度(potential of hydrogen,簡稱p H)是衡量土壤肥力的重要指標[1-2].傳統的化學計量學方法成本高、過程煩瑣,而近紅外(near-infrared,簡稱NIR)光譜分析技術利用待測樣品的光譜矩陣進行建模,具有快速、非破壞、無污染等優點,已廣泛應用于農業、食品、藥物、化工等領域[3-4].在農業生產領域,土壤養分、酸堿度的檢測結果可指導施肥策略,提升作物產量和品質[5].

目前,國內外對土壤成分的光譜回歸建模,具有光譜來源單一、樣本少的特點.科研人員對數據量大、光譜來源多樣的土壤光譜數據的研究較少.由于土壤成分復雜及土壤近紅外光譜含有較多噪聲,因此在土壤近紅外光譜回歸建模前需對光譜進行預處理.通過預處理的光譜建立回歸模型,可獲得更高的預測精度.傳統的土壤光譜建模,主要使用偏最小二乘回歸(partial least squares regression,簡稱PLSR)[6]、支持向量回歸(support vector regression,簡稱SVR)[7]等機器學習方法.機器學習雖有速度快的優勢,但其預測精度已被以卷積神經網絡(convolutional neural network,簡稱CNN)為主的深度學習模型超越.文獻[8]使用1維卷積神經網絡預測了土壤pH、有機碳(organic carbon,簡稱OC)和鈣含量,其平均誤差相對于受限玻爾茲曼機更小.文獻[9]使用CNN 從原始頻譜中提取局部特征,通過循環神經網絡學習特征序列的依賴關系,建立了基于CNN和循環神經網絡的土壤光譜模型,該模型的決定系數均優于PLSR(partial least squares regression),SVR(support vector regression)等傳統模型.文獻[10]采用主成分分析將原始光譜降維,通過長短期記憶網絡建立回歸模型,對OC含量的預測明顯優于PLSR模型.光譜神經網絡建模主要使用1維光譜,有研究人員提出將光譜從1維數據轉化為2維數據,以獲得更豐富的特征.文獻[11]利用短時傅里葉變換(short-time Fourier transform,簡稱STFT)將1維光譜數據轉化為2維數據,據此構建了土壤成分的2維卷積神經網絡模型,證明了時頻分析在光譜建模中的有效性.文獻[12]使用2維等高線圖表征同步相關譜和異步相關譜,將1維光譜轉化為2維相關光譜,突出了小峰和弱峰.文獻[13]基于2維相關光譜技術提出了小米含水率的PLSR預測模型,相對于1維PLSR模型獲得了更高的預測精度.考慮到不同成分對近紅外光譜散射的影響,文獻[14]在建模時使用多元回歸預測多個成分含量,證實了不同土壤成分的吸收峰間有隱性關聯.文獻[15]將對NIR光譜和中紅外光譜的數據進行融合,通過融合光譜構建CNN 模型,融合光譜的預測精度優于NIR光譜和中紅外光譜的預測精度.文獻[16]通過原始光譜及其預處理光譜構建集成學習模型,發現不同近紅外預處理光譜間具有互補性.該文擬提出Inception 層短時傅里葉變換卷積神經網絡(inception short-time Fourier transform convolutional neural network,簡稱I-STFT-CNN)單一光譜模型,然后提出2 個融合光譜模型II-STFT-CNN(indirect inception short-time Fourier transform convolutional neural network)和CI-STFT-CNN(cascade inception short-time Fourier transform convolutional neural network),最后對這些光譜模型的性能參數進行比較.

1 方 法

1.1 預處理和模型

1.1.1 光譜預處理

光譜儀測得的土壤近紅外光譜易受土壤粒徑及含水量等因素的影響,因此需對光譜進行如下預處理.

(1)標準正態變量(standard normal variational transform,簡稱SNV)變換.對每條土壤光譜進行標準化,以最小化因土壤粒徑不均及顆粒表面散射等原因造成的光譜波動與偏移.波長i的SNV 變換預處理后的光譜反射率為

其中:Xi為波長i的原始光譜反射率,為波長i的原始光譜平均反射率,σ(Xi)為波長i的原始光譜反射率標準差.

(2)SG(Savitzky-Golag)平滑.SG平滑通過鄰域平均增強光譜的平滑性,減少噪聲的干擾.經SG平滑后的光譜反射率列向量為

其中:X為光譜反射率列向量;T為平滑矩陣,其表達式為

其中:(t-n)為波長序號,k為平滑多項式的階數.

1.1.2 單一光譜模型

基于光譜前后波長特征峰的隱性關聯特性,該文提出I-STFT-CNN單一光譜模型.

Inception層的結構如圖1所示.將上層網絡輸出的特征Previous layer輸入4個通道.通道1將輸入此通道的特征與大小為1×1的卷積核做卷積,改變通道數;通道2將輸入此通道的特征與大小為3×3的卷積核做卷積,提取輸入特征中大小為3×3的區域特征;通道3將輸入此通道的特征與大小為5×5的卷積核做卷積,提取輸入特征中大小為5×5的區域特征;通道4首先將輸入此通道的特征最大池化,其次將特征降維,最后將其與1×1的卷積核做卷積,改變通道數.4個通道輸出的特征通過補零在尺度上保持一致,將這些特征在維度上進行合并后作為Inception層的輸出.通過4個通道不同尺度特征的提取,Inception層輸出的特征中包含了光譜不同空間尺度特征隱含的關聯特征,有助于提高模型的精度.

圖1 Inception層的結構

該文提出的單一光譜I-STFT-CNN模型結構如圖2所示.近紅外光譜經STFT(窗函數為Hann、窗長為100、重疊率為50%、采樣頻率為1)轉化為大小為51×85的2維數據,將其作為模型輸入.卷積層和全連接層均后接ReLu激活函數.經4層卷積層、1層Inception層提取特征后,使用Flatten將特征展平,然后經3層全連接層輸出土壤成分含量的預測值.

圖2 單一光譜I-STFT-CNN模型的結構

1.1.3 融合光譜模型

SNV變換對Raw光譜進行預處理后的光譜稱為SNV光譜,SG平滑對Raw光譜進行預處理后的光譜稱為SG光譜.該文分別通過擴展和級聯對3種光譜(SNV,SG 及Raw 光譜)進行融合,提出2個融合光譜模型,分別記為II-STFT-CNN和CI-STFT-CNN,二者具體的模型結構如圖3所示.II-STFTCNN先分別對3種光譜進行STFT變換得到3個大小為51×85的數據,再將其整合成大小為51×85×3的融合光譜.CI-STFT-CNN先將3種光譜級聯,后對級聯光譜進行STFT變換得到大小為51×253的融合光譜.

圖3 融合光譜模型的結構

1.2 性能參數

決定系數表述模型的預測值與真實值的擬合程度,其計算公式為

均方根誤差描述模型對極端值的擬合能力,其表達式為

RM越小,模型對極端值的擬合效果越好.

相對分析誤差描述模型的檢測能力,其表達式為

其中:S為預測值和真實值間的標準差.RP<1.4時模型對數據的預測能力差,1.4<RP<2時模型對數據預測能力強,RP>2時模型對數據的預測能力很強.

2 實 驗

2.1 實驗數據

該文使用的數據集為歐盟統計局2009—2011年采集的土壤利用及覆蓋統計調查(land use/cover area frame statistical survey,簡稱LUCAS)數據集.LUCAS數據集包含歐盟27國共17 939條土壤光譜和成分參數數據.土壤樣本分為礦物質和腐殖質兩類,包括耕地、林地和草地等多種土壤類型.LUCAS土壤光譜是通過近紅外光譜分析儀FOSS XDS測量得到的,該光譜儀的測量范圍為400~2 500 nm,分辨率為0.5 nm.將數據集按7∶3的比例分為訓練集和測試集,訓練集和測試集的相關數據如表1所示.在訓練卷積神經網絡模型時將訓練集以7∶3的比例分為校正集和驗證集,校正集用于訓練模型,驗證集用于選擇最優模型.

表1 訓練集和測試集的相關數據

2.2 原始光譜與預處理光譜

隨機從LUCAS數據集中抽取1條土壤近紅外光譜,畫出其SNV,Raw及SG光譜,如圖4所示.從圖4可看出:SG光譜和Raw 光譜幾乎重合,SG 平滑僅消除了細微噪聲,對光譜的整體走勢無影響;SNV 光譜和Raw光譜二者存在較大差異,消除散射影響后,SNV光譜中450,1 400,1 900,2 250 nm 波長附近的波峰放大更明顯.

圖4 原始光譜和預處理光譜

2.3 不同單一光譜模型的性能參數對比

將單一光譜I-STFT-CNN 模型中的Inception層換為卷積層后的模型(其余參數不變),記為STFT-CNN,將其作為對比對象之一.訓練神經網絡模型使用的學習器為Adam,學習率為0.000 1,Batch size為32,Epoch為300.傳統的單一光譜模型中使用最廣泛的模型為PLSR和SVR.對4種單一光譜模型(SVR,PLSR,STFT-CNN,I-STFT-CNN)決定系數進行對比,結果如表2所示.

表2 4種單一光譜模型的決定系數對比

由表2可知,相對于SVR,PLSR和STFT-CNN 模型,該文提出的單一光譜I-STFT-CNN 模型的決定系數最高,表明I-STFT-CNN模型具有更高的預測精度.

2.4 單一光譜與融合光譜模型的性能參數對比

由上節可知,I-STFT-CNN 模型的土壤成分參數預測精度比SVR,PLSR 更高,故該節只需將ISTFT-CNN模型與兩種融合光譜模型進行對比.表3為單一光譜I-STFT-CNN 模型與融合光譜IISTFT-CNN和CI-STFT-CNN模型的性能參數對比.

表3 單一光譜與融合光譜模型的性能參數對比

由表3可知,單一光譜I-STFT-CNN模型相對于兩種融合光譜模型,其決定系數更小、均方根誤差更大、相對分析誤差更小,表明融合光譜模型的預測精度優于單一光譜模型,這是由于融合光譜數據具有更多特征;級聯融合CI-STFT-CNN 模型與通道融合II-STFT-CNN 模型的有機碳含量的均方根誤差相同,除此之外,級聯融合CI-STFT-CNN 模型的各項性能參數均優于通道融合II-STFT-CNN 模型,表明級聯融合效果優于通道融合,這是由于梯度反向傳播時,級聯光譜間的關聯特征位于前級,更容易跳出局部最優解.

3 結束語

該文提出了單一光譜I-STFT-CNN 模型,以及2個融合光譜模型II-STFT-CNN 和CI-STFTCNN.對這些光譜模型的性能參數進行比較,結果表明:相對于SVR,PLSR和STFT-CNN 模型,該文提出的單一光譜I-STFT-CNN 模型具有更高的預測精度;融合光譜模型的性能優于單一光譜模型;融合模型中,級聯融合CI-STFT-CNN 模型的性能優于通道融合II-STFT-CNN 模型.因此,該文提出的CI-STFT-CNN模型的預測精度最高.

猜你喜歡
預處理光譜卷積
基于三維Saab變換的高光譜圖像壓縮方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
基于預處理MUSIC算法的分布式陣列DOA估計
淺談PLC在預處理生產線自動化改造中的應用
星載近紅外高光譜CO2遙感進展
絡合萃取法預處理H酸廢水
基于自適應預處理的改進CPF-GMRES算法
苦味酸與牛血清蛋白相互作用的光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合