?

基于耦合算法的花生葉片光合色素含量反演模型

2023-11-26 10:12劉欣蓓邸俊楠徐良泉王仁義
農業工程學報 2023年16期
關鍵詞:色素波長反演

劉欣蓓 ,蘇 濤 ※,雷 波 ,朱 菲 ,邸俊楠 ,孟 成 ,徐良泉 ,王仁義

(1. 安徽理工大學空間信息與測繪工程學院,淮南 232001;2. 中國水利水電科學研究院水利研究所,北京 100048)

0 引言

花生作為中國重要的經濟和油料作物,富含油脂、蛋白、膳食纖維及微量營養素,具有豐富的功能成分和極高的營養價值,保障其產量的穩定性對于中國油料安全至關重要[1]。色素是植物進行光合作用的重要物質基礎,主要包括葉綠素(Chlorophyll,Chls)和類胡蘿卜素(Carotenoids,Caros)。葉綠素含量與植被的光合能力、生長發育以及營養狀況有密切的關系,可有效反映其脅迫、生長和衰老等狀況[2]。類胡蘿卜素能吸收和傳遞太陽輻射能,在植被光能過剩時,還可以發散過剩能量來保護光合系統[3]。因此,快速準確預測葉片光合色素含量對花生生長監測、營養診斷、產量評估和病蟲害的早期預警等科學化管理有重要價值[4]。傳統的光合色素含量檢測方法技術投入大,受環境影響,消耗時間長且為有損檢測[5]。由于高光譜遙感技術具有高效、無損等優勢,因此,現已廣泛應用于作物生理指標及生長狀態的快速檢測[6-7]。馬春艷等[8]對冬小麥光譜數據與葉綠素含量進行分析與建模,驗證光譜反射率與葉綠素含量呈正相關性。柳維揚等[3]采用不同的建模方法構建棗樹冠層色素的光譜定量反演模型,結果表明利用光譜數據預測色素含量的精度較高。然而以往此類研究中對作物生理指標預測,忽略了葉片近紅外光譜的吸收峰重疊嚴重,導致光譜中冗余信息較多,影響高光譜預測色素含量模型的精度[9]。因此,如何更好地去除冗余信息,對提升模型運行效率、簡化模型結構和增強模型穩定性具有重要的應用價值[7]。

變量篩選算法是常見的對高光譜波段進行信息挖掘的方法。篩選方法可分為2 類,一類是以變量數理統計特征為基礎,主要包括無信息變量消除法(uninformative variable elimination,UVE)[10]、競爭性自適應重加權取樣法(competitive adaptive reweighted sampling,CARS)[11]、連續投影算法(successive projections algorithm,SPA)[12]和相關系數分析法(correlation coefficient,CC)[13]等。另一類是基于智能優化算法的特征波長尋優方法,主要有遺傳算法(genetic algorithm,GA)[14]、灰狼算法(grey wolf optimization algorithm,GWO)[15]、隨機蛙跳算法(random frog,RF)[16-17]等。劉爽等[18]應用CARS 和SPA 等算法篩選光譜特征變量并建立大豆生理信息模型,校正集和預測集的相關系數Rc和Rp值提升至0.944 和0.911。YUAN 等[13]使用CC 和IRIV 等算法篩選特征波段并建立辣椒葉片相對葉綠素含量反演模型,決定系數R2cv和均方根誤差RMSEcv分別達到0.81 和2.76。但此類基于高光譜技術檢測作物生理指標的研究常采用單一算法進行特征變量提取,盡管這些算法可剔除部分包含冗余信息的變量或可全局搜索有效信息變量,但單獨使用時仍存在保留變量過多、篩選結果存在較低信噪比變量或運算過程耗時長、模型參數復雜且難以徹底搜索所有可能變量組合等不足[9]。因此,尋找一種更合適的高光譜數據特征提取方法和更簡潔的預測模型,以解決花生葉片光合色素含量的無損檢測問題。

本文針對以上研究中的問題,嘗試在單一變量篩選算法基礎上,對提升模型精度效果最佳的部分算法進行耦合,擬通過提取最少量有效信息變量,簡化模型結構,提高預測模型精確性及穩定性,為精準快速且無損的檢測花生光合色素含量提供思路。

1 材料與方法

1.1 研究區概況

試驗區位于安徽省淮南市田家庵區農田(32°33'58.11"N,117°1'11.54"E),位置如圖1 所示。試驗區地處亞熱帶季風氣候和暖溫帶季風氣候的過渡地帶,受自然條件影響,淮南農作物具有明顯的區域性和季節性。主要的農作物有水稻、小麥、玉米、油菜、花生等,綜合生產能力較強。

圖1 研究區位置及田塊分布Fig.1 Location and field distribution of study area

1.2 數據源與預處理

1.2.1 數據源

試驗于2023 年6 月27 日10:00—14:00 時進行,試驗當天天氣晴朗且無風無云。研究選用花生物候期的開花下針期,在選定的研究區范圍內,劃分100 個采樣區域進行樣本采集。采用Analytical Spectral Devices(ASD)分析光譜儀器公司生產的Field Spec4 型地物光譜輻射儀采集花生冠層葉片反射光譜,采集現場如圖2。該儀器的光譜波長范圍為350~2 500 nm,采樣間隔為1.4 nm(350~1 000 nm)、2 nm(1 000~2 500 nm)。光譜儀使用前預熱20 min,每次測量前進行標準白板校正。測量時探頭始終保持垂直向下,距離花生冠層葉片高度大約50 cm,對每個區域選取的采樣點重復測量5 次,取平均值作為該樣本反射光譜測量結果,試驗共采集69 個花生葉片樣本。

圖2 花生葉片數據測量Fig.2 Measurement of peanut leaf data

花生樣本葉片色素含量的測定采用分光光度法。在光譜測量完成后將樣本葉片剪下放入密封袋中,及時放入4 ℃冰箱內避光冷藏帶回實驗室。剪取主葉脈兩邊的葉片0.2 g,將樣品剪碎研磨后加入95%的乙醇定容至25 ml,置于暗室浸提24 h,浸提后的溶液用分光光度計分別對波長470、649 和665 nm 進行測定,通過計算可得樣本中葉綠素a、葉綠素b 和類胡蘿卜素含量,其中葉綠素a、b 含量之和為葉綠素總含量。表1 對樣本數據集色素含量進行描述性統計。

表1 數據集色素含量的描述性統計Table 1 Descriptive statistics of the pigment content of the dataset

1.2.2 數據預處理

試驗使用的光譜儀測定波長范圍是350~2 500 nm,已有的研究結果表明,葉片光譜在可見光波段與光合色素呈較強相關性[9],故截取400~1 000 nm 作為本次研究波長范圍。地面高光譜數據受自身和背景環境等多種因素影響,為消除噪聲等干擾因素對模型精度的影響,本研究采用Savitzky-Golay 卷積平滑(SG)結合標準正態變換(standard normal variate transformation,SNV)的預處理方式[18],有效過濾噪聲,提高信噪比,同時減弱表面散射以及光程變化對漫反射光譜的影響[19]。

1.3 特征波長篩選方法

將預處理后的光譜數據分別通過CC、RF、UVE、SPA、CARS、IRIV 和GA 7 種單一變量篩選算法進行特征波長提取。CC 法計算光譜矩陣中每個波長和樣本色素含量的相關系數,其相關系數值的絕對值越大,波段所包含的信息就越多[18],將400~1 000 nm 整個波段的原始光譜反射率分別與花生葉片葉綠素含量、類胡蘿卜素含量進行相關性分析,通過P=0.05 的顯著性水平檢驗,選取相關系數絕對值較大的波長;RF 法通常選擇概率值較高的部分變量,或人為設置一個概率閾值,取概率值高于閾值的變量作為特征波長變量[20]。本研究RF 法參數設置為運行次數N為10 000 次,主成分個數A為10,蛙跳初始模型中的變量數Q為2;UVE 法由PLSR 回歸系數衡量變量相關性,引入變量穩定指數作為篩選標準,消除在閾值線之間具有穩定性的無信息變量[21];SPA 法運算過程中不同的波長子集分別建立不同的多元線性回歸模型,分別計算模型的RMSE 值[22];CARS 法中的蒙特卡羅采樣會隨不同采樣次數得出不同的運算結果,因此試驗設定不同的采樣次數獨立運算來篩選相對較好的變量[23]。本試驗經過驗證,將采樣次數設為50 次時呈現最佳運算結果;迭代保留信息變量法(iteratively retains informative variables,IRIV)[24]經過多次測試后確定最大主成分個數為10,交叉驗證次數為10;GA 法進行特征波長提取,其參數設置為群體數目69,交叉概率0.5,變異概率0.01,迭代次數100 次,依照上述參數獨立運行GA100 次,每次輸出0~1 二進制編碼字符串,計算波長點標識為“1”的概率[25]。但單一算法在篩選特征波長時仍存在一些局限性,如保留變量冗余度高、共線性強,導致模型運行速度緩慢。因此,本試驗通過建立單一算法篩選特征波長變量模型,根據模型評價指標優選出3 種最佳的算法進行兩兩耦合,利用耦合算法對高維光譜數據進行降維,簡化模型結構,提升模型精度。

1.4 模型建立與評價

本試驗使用偏最小二乘回歸(partial least squares regression,PLSR)[26]、支持向量回歸(support vector regression,SVR)[27-28]、梯度提升樹(gradient boosting decision tree,GBDT)[29]和極端梯度提升(extreme gradient boosting,XGBoost)[30]這4 種模型來建立花生葉片色素含量預測模型。使用等間隔抽樣法將69 個樣本以2:1 的比例劃分為46 個建模樣本集和23 個驗證樣本集。本研究以單一算法和耦合算法所篩選的特征波長作為輸入變量,構建花生葉片光合色素含量反演模型,通過模型的精度評估耦合算法的可行性。模型的預測精度由決定系數R2和均方根誤差RMSE 的參數確定。R2反映了模型建立和預測的穩定性,R2值越接近于1,表明模型的穩定性及擬合度高;RMSE 值(RMSE)越接近于0,表明模型預測能力越強。

2 結果與分析

2.1 單一算法波長篩選結果

CC 法篩選花生葉片特征波長結果如圖3a、3b。

圖3 CC、RF、UVE 和SPA 方法篩選特征波長Fig.3 Characteristic wavelengths selected by CC (correlation coefficient),RF (random frog),UVE (uninformative variable elimination) and SPA (successive projections algorithm) algorithm

分別選取閾值線±0.3(Chls)和±0.55(Caros),篩選出特征波長變量分別為196 和271 個;圖3c、3 d 為RF 法運行后每個波長變量被選擇的概率,選取0.1 為閾值,分別得到滿足條件的51(Chls)和61 個(Caros)波長變量;圖3e、3f 為UVE 法變量穩定性分析結果,左側曲線為光譜變量矩陣,右側為添加的與光譜變量數相同的隨機噪聲矩陣,圖3e 閾值線分別為21.303 6 和-22.337 3,圖3f 閾值線分別為20.662 8 和-17.807 9,兩閾值線之間為被剔除的無用變量,閾值線外分別篩選出32(Chls)和30 個(Caros)波長變量;SPA 法運行過程中隨變量數的增加,RMSE 值整體趨勢下降,圖3 g 中方框表示當RMSE 為最小值0.230 53 mg/g 時,對應的子集包含23 個波長,圖3 h 中RMSE 為最小值0.027 43 mg/g時,對應的子集包含24 個波長,篩選出的兩個子集即為最優特征波長變量;CARS 法運行結果如圖4,采樣次數低時,在指數衰減函數的作用下保留的波長變量數呈迅速下降趨勢,當采樣次數上升時,保留變量數量下降速度減緩。經過十折交互檢驗所得交叉驗證均方根誤差RMSECV的變化趨勢圖結合所有變量在每次采樣過程中的回歸系數路徑變化圖,分析發現第19(Chls)和第25 次(Caros)采樣時,RMSECV值最小即所選擇的光譜變量子集最優,對應的最優變量數分別為74 和37 個;IRIV 法運行結果如圖5a、5b,分別進行了5(Chls)和7 輪(Caros)迭代,光譜波長變量從601 個迅速減少,基本剔除了無用信息波長和干擾波長,在反向消除后最終得到18(Chls)和11 個(Caros)特征波長變量,因篇幅所限,僅展示兩個色素反向消除前一輪迭代后余下波長的DMEAN 和P值;GA 法運行結果如圖5e、5f,篩選出頻率較高的18(Chls)和24 個(Caros)特征波長變量。

圖4 CARS 方法篩選特征波長Fig.4 Characteristic wavelengths selected by CARS (competitive adaptive reweighted sampling) algorithm

圖5 IRIV 和GA 方法篩選特征波長Fig.5 Characteristic wavelengths selected by IRIV (iteratively retains informative variables) and GA (genetic algorithm)

圖6 是針對不同算法在400~1 000 nm 波長中篩選特征波長變量結果,其結果顯示花生葉片光合色素的敏感波長所在位置。7 種算法所提取出來的葉綠素含量反演模型變量數量順序如下:CC >CARS >RF>UVE>SPA>IRIV=GA,分別為196、74、51、32、23、18 和18個特征波長變量,提取波長數量分別占全波段的32.61%、12.31%、8.49%、5.32%、3.83%、3.00%和3.00%;所提取出來的類胡蘿卜素含量反演模型變量數量順序如下:CC >RF>CARS>UVE>SPA=GA>IRIV,分別為271、61、37、30、24、24 和11 個特征波長變量,提取波長數量分別占全波段的45.09%、10.15%、6.16%、4.99%、3.99%、3.99%和1.83%,結果顯示單一算法篩選特征波長能有效剔除冗余光譜信息,提高建模效率。

圖6 單一算法篩選特征波長分布Fig.6 Screening characteristic wavelength distribution by single algorithm

2.2 單一算法模型建立與分析

表2 是由不同色素的7 種單一變量篩選方法建立的模型預測結果。表2 在葉綠素含量反演模型中,基于UVE、IRIV 和GA 法變量壓縮率達到94.68%、97.00%和97.00%,所建模型性能整體優于全波段所建模型。其中,UVE-XGBoost 模型達到了全局最佳精度,R2=0.591,RMSE=0.244 mg/g;在類胡蘿卜素含量反演模型中,基于UVE、IRIV 和GA 法變量壓縮率分別為95.00%、98.17%和96.01%,基于GA 法所建模型精度整體提升,UVEPLSR 和IRIV-XGBoost 模型則達到全局最佳精度,R2=0.565,RMSE=0.056 mg/g。CC、RF、SPA 和CARS 法雖也對變量進行了有效降維,但就總體模型精度而言,無明顯提升。由此表明,UVE、IRIV 和GA 法適用于篩選花生葉片光合色素含量的特征波長,能夠有效壓縮建模數據量,提高模型運行效率和穩健性,效果優于其他4 種算法。

表2 基于7 種單一算法的不同色素含量模型預測結果Table 2 Prediction results of different pigment content model based on 7 single algorithms

2.3 耦合算法波長篩選結果

本試驗將優選出的UVE、IRIV 和GA 3 種算法進行兩兩耦合,結合光譜數據和試驗的實際情況,設計耦合方式為UVE-IRIV、GA-IRIV 和GA-UVE 三種形式,圖7是耦合算法篩選特征波長變量結果。在基于耦合算法的葉綠素含量反演模型中,利用UVE-IRIV、GA-IRIV 和GA-UVE 法二次降維,分別提取出8、10、10 個變量;類胡蘿卜素含量反演模型中,利用UVE-IRIV、GA-IRIV和GA-UVE 法分別提取出10、14、11 個變量。

圖7 耦合算法篩選特征波長分布Fig.7 Screening characteristic wavelength distribution by coupling algorithms

2.4 耦合算法模型建立與分析

分別將UVE-IRIV、GA-IRIV 和GA-UVE 法提取的特征波長作為輸入變量來建立花生葉片光合色素的定量分析模型,表3、圖8、圖9 結果表明,利用耦合算法篩選特征波長所建立的色素含量反演模型整體精度有明顯提升。其中,基于GA-IRIV-XGBoost 的葉綠素含量反演模型預測集為R2=0.622,RMSE=0.235 mg/g,相對全波段、單一算法及其他耦合算法提取的特征波長所建立的模型,該模型達到最佳精度,同時變量壓縮率可達98.34%;最佳類胡蘿卜素含量反演模型為UVE-IRIV-XGBoost 模型,預測集為R2=0.575,RMSE=0.056 mg/g,變量壓縮率同為98.34%。此結果進一步證明了本研究所采用的耦合算法篩選波長方法可對全波段的進行有效變量信息提取,減少變量數目和建模時間,提升模型魯棒性。

表3 基于3 種耦合方式不同色素含量建模預測集結果Table 3 Prediction results of different pigment content model based on 3 coupling algorithms

圖8 不同耦合算法和建模方法的葉綠素含量反演模型預測結果 (mg·g-1)Fig.8 Prediction results of chlorophyll content inversion model with different coupling algorithms and modeling methods

圖9 不同耦合算法和建模方法的類胡蘿卜素含量反演模型預測結果 (mg·g-1)Fig.9 Prediction results of carotenoid content inversion model with different coupling algorithms and modeling methods

3 討論

CC、RF、UVE、SPA、CARS、IRIV 和GA 7 種波長篩選算法能在極短的計算時間內提取出少量包含有用信息的特征波長,實現變量有效降維,提升模型運行速率和預測精度。形成此結果的原因是近紅外光譜波長間存在嚴重自相關性,基于高光譜反演光合色素含量的研究若未充分考慮這一情況,將會導致波長變量與色素含量的相關性較弱[9,13]。UVE、IRIV 和GA 法 3 種算法在本研究中表現出優異效果,其中,在單一算法篩選特征波長變量建立類胡蘿卜素含量預測模型中,IRIVXGBoost 模型達到最高精度;以耦合方式建立色素含量預測模型時,GA-IRIV-XGBoost 葉綠素含量預測模型和UVE-IRIV-XGBoost 類胡蘿卜素含量預測模型表現出最好預測效果。從上述結果可以看出,IRIV 算法無論是單一使用還是耦合使用,都表現出優于其他算法的性能。YUAN 等[13]采用CC、sCARS 和IRIV 反演辣椒相對葉綠素含量的研究中也證實了這種情況。這是由于信息量較強的變量由于相互間具有顯著的積極影響,被選取為最佳變量集,但信息量較弱的變量所具有的積極影響被忽略了,因此并不一定達到最優變量集。IRIV 算法注重波長變量間的協同效應,通過多次迭代循環消除無信息或干擾的變量后再進行反向消除,搜索出重要變量的同時保留了信息量較小的變量[9,24,31]。對比單一算法和耦合算法提取的特征波長變量數目和建立的反演模型結果(表2、表3),耦合算法在降低模型復雜性和提高模型精確性上具有明顯優勢,與許麗佳等[17]和WANG 等[31]的試驗呈現相同結果。主要原因可能在于單一算法篩選特征波長變量較為集中,導致多樣性缺乏,部分包含有用信息的波段缺失。而耦合算法能一定程度上改善光譜信息缺失問題,提高特征波段的多樣性,所以具有更好的光譜信息提取性能。

本研究選用1 個線性模型PLSR 和3 個非線性模型SVR、GBDT 和XGBoost,在基于高光譜技術預測花生葉片光合色素含量階段均取得了良好的結果。且同陳倩等[32]采用 PLSR 和 XGBoost 等模型反演冬小麥葉片相對葉綠素含量的結果,GBDT 和XGBoost 相比于PLSR 和SVR,大多數情況表現出更優的預測效果。這是因為PLSR 是一種線性回歸模型,在處理高維數據時具有一定的局限性,而GBDT 和XGBoost 可以更好地解決自變量和因變量之間的復雜非線性關系問題[13]。且與已有研究YUAN 等[13]的試驗結果相同,GBDT 和XGBoost模型精度接近,但不同的是本研究中這兩種模型的精度高于PLSR。這可能是由于作物類型和環境因素不同,以及GBDT 和XGBoost 模型所配置的參數不同導致的結果。

綜合以上討論,能夠進一步說明耦合算法對提高作物生理指標含量檢測精度方面具有有效性,在本研究中,耦合算法可以最大限度地提取具有有效信息的特征波長,能夠簡化模型結構并增強模型魯棒性,對花生葉片光合色素含量預測具有一定的指導和實踐意義。GBDT和XGBoost 在各變量組中體現出的優勢,說明了此類模型應用到花生葉片光合色素含量定量分析中具有較強的適用性、較高的預測精度和泛化能力,有著重要的研究價值。

本研究雖對基于高光譜技術預測花生葉片光合色素含量進行了充分的研究并取得一定成果,但鑒于試驗采用的數據量有限和作物生長期單一等因素限制,該研究結果能否應用于作物整個生長期還需進一步考察。且由于不同環境因素和所選用各種算法方案影響,模型參數會產生差異,所以研究結果是否通用于不同試驗方案還需進一步探究。

4 結論

以開花下針期花生葉片為研究對象測量冠層葉片的高光譜和光合色素含量數據,對原始高光譜進行SG 結合SNV 預處理后分別采用7 種單一算法篩選特征波長變量,建立PLSR、SVR、GBDT 和XGBoost 花生葉片色素含量預測模型,從模型預測結果中優選出3 種篩選變量算法進行兩兩耦合后再次篩選建立預測模型。研究結果表明:

1)通過對比研究采用的7 種單一篩選波長變量算法可知,7 種算法均對變量進行了有效降維,且優選出UVE、IRIV 和GA 算法。其中,葉綠素含量反演最佳模型為UVE-XGBoost 模型,R2=0.591,RMSE=0.244 mg/g;類胡蘿卜素含量反演最佳模型為 UVE-PLSR 和IRIVXGBoost 模型,R2=0.565,RMSE=0.056 mg/g。

2)對于分別基于UVE-IRIV、GA-IRIV 和GA-UVE 3 種耦合算法的光合色素含量預測模型,模型精度整體提升。在葉綠素含量反演模型中,GA-IRIV-XGBoost 模型達到最高精度,R2=0.622,RMSE=0.235 mg/g;在類胡蘿卜素含量反演模型中,UVE-IRIV-XGBoost 模型達到最高精度,R2=0.575,RMSE=0.056 mg/g。研究表明耦合算法可以有效壓縮變量、簡化模型且提高模型穩健性,可為花生葉片光合色素含量預測提供新的思路。

3)通過對比花生葉片葉綠素含量和類胡蘿卜素含量反演模型的預測精度,表明葉綠素含量的預測精度優于類胡蘿卜素含量。

猜你喜歡
色素波長反演
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
反演對稱變換在解決平面幾何問題中的應用
色素熱舞
“聽話”的色素
基于低頻軟約束的疊前AVA稀疏層反演
基于自適應遺傳算法的CSAMT一維反演
雙波長激光治療慢性牙周炎的療效觀察
甜油的生產及色素控制
日本研發出可完全覆蓋可見光波長的LED光源
天然色素及紅色素的研究進展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合