?

面向亞熱帶丘陵區小流域土壤有機碳空間預測的四種模型構建及性能比較

2023-08-12 06:04王志遠湯哲周萍賴佳鑫戴玉婷周林王玉婷陳港明姜雨辰郭曉彬吳金水
農業現代化研究 2023年3期
關鍵詞:環境變量機器重要性

王志遠,湯哲,周萍,賴佳鑫,戴玉婷,周林,王玉婷,陳港明,姜雨辰,郭曉彬,吳金水

(1. 中南大學計算機學院,湖南 長沙 410083;2. 中國科學院亞熱帶農業生態研究所,亞熱帶農業生態過程重點實驗室,長沙農業環境觀測研究站,湖南 長沙 410125;3. 北京郵電大學計算機學院,北京 100876)

土壤有機碳(SOC)含量是衡量生態系統生產力和生態服務功能的關鍵指標,在提升土壤肥力與農業可持續利用以及減緩全球氣候變化方面至關重要。土壤有機碳的精準預測有助于精確評估區域乃至國家尺度土壤碳庫儲量,從而助力區域碳中和目標的實現,具有突出的科學意義[1]。

計算機模擬是預測土壤有機碳含量變化與分布的關鍵手段,國際上建立了諸多土壤有機碳過程模擬模型(Roth-C、CENTURY、DNDC等)。由于SOC含量與諸多環境因素密切相關,對土壤條件、空間分辨率、氣候、水文、植被、地形地貌等環境條件的變化十分敏感[2],而現有的過程模型模擬主要涉及到碳輸入量、部分氣候和土壤屬性(如粘粒含量)等參數,對其他環境變量的關注較小,導致不同區域和生態系統的過程模擬存在較大的不確定性,區域應用存在局限性[3]。

機器學習在處理數據方面具有固有的優勢,在SOC預測中具有很強的泛化性,也比傳統的數字化測繪方法更加敏感,可以較好地模擬SOC和環境協變量之間復雜的、非線性的關系,提升區域SOC含量預測的準確性[4-6]。并且在樣本數并不豐富的情況下,機器學習模型仍然表現出很強的適用性[7]。比如Emadi等[6]使用不同機器學習模型對伊朗東北部SOC含量預測的研究表明,機器學習模型在SOC預測中具有很強的適用性。Khaledian和Miller[8]總結了近幾年來關于SOC的機器學習方面的研究認為,人工神經網絡(ANN)在預測SOC含量方面具有強有力的表現,但是隨機森林(RF)比ANN更快,其結果也趨于更好的魯棒性,并且RF和立體派模型(Cubist)克服了ANN對小數據集敏感和完全是黑箱模型的弱點。由此可見,基于機器學習模型提高SOC空間模擬精度的研究已具備一定基礎,但是在小流域尺度上如何對復雜地形地貌條件下的SOC含量開展精確預測仍然存在較大挑戰。

亞熱帶丘陵區地形變化復雜,相關地形地貌和土壤環境的空間異質性很大,目前已有基于傳統機器學習模型(如RF、支持向量機回歸SVR)預測復雜地形地貌區SOC含量的少量研究,且不同機器學習模型的表現具有明顯的差異性[9-10]。而關于極端梯度提升算法(XGBoost)和輕量級梯度提升機(LightGBM)對亞熱帶丘陵地貌區SOC的預測性能尚未有過嘗試。由于XGBoost考慮了訓練數據為稀疏值的情況,可以為缺失值或者指定的值指定分支的默認方向,從而大大提升算法的效率。LightGBM模型則采用了直方圖算法將遍歷樣本轉變為遍歷直方圖,極大的降低了時間復雜度,同時也降低了內存消耗。因此很有必要對XGBoost和LightGBM模型預測復雜地形地貌區SOC含量的性能進行評價?;诖?,本研究以亞熱帶丘陵區一個具有復雜地形地貌特征的小流域為對象,結合地形、氣候、植被等環境變量的輸入,以傳統的非集成機器學習模型SVR與傳統的RF模型作為對比,分析XGBoost和LightGBM模型對土壤表層(0~20 cm)SOC含量預測的可能性,評估不同機器學習模型在亞熱帶丘陵小流域SOC預測中的性能差異,以期為復雜地形地貌區SOC含量的精確預測提供理論基礎。

1 材料與方法

1.1 研究區域概況

研究區位于湖南省長沙縣金井鎮(112°56′~113°30′E、27°55′~28°40′N),面積約134.40 km2,其中耕地面積為23.13 km2。地貌類型以丘陵為主,海拔介于56~440 m。研究區域屬亞熱帶季風氣候;多年平均氣溫17.2 ℃;年平均降水量1360 mm。金井鎮境內河道屬湘江水系,有金井河流經境內。土壤類型主要為花崗巖和板頁巖風化物發育的紅壤和水稻土。土地利用類型以水田和林地為主,林地主要以馬尾松、杉木等人工林和灌木、草叢群落為主,常綠闊葉林的覆蓋率相對較低。

1.2 土壤樣品采集與分析

于2009年8月根據流域內地形分布情況,按各高程段樣點大致均勻、隨機取樣的原則布置采樣點(圖1)。每個樣點以GPS定位點為中心,5 m為半徑的樣方取樣,采用土鉆隨機采集5~8個表層土樣(0~20 cm),混勻作為一個土樣,共采集601個土壤樣品。所有土樣置于室內通風處自然風干,并剔除石子、植物根系等。風干土樣過0.25 mm篩后供SOC含量的測定。具體的土壤采樣與分析方法詳見劉歡瑤等[11]的研究。

圖1 研究區域與采樣點分布Fig. 1 Study area and distribution of sampling points

1.3 環境變量的選擇與提取

本研究選取地形、氣候和植被三類環境變量作為模型輸入參數。地形變量包括海拔、坡度、地形濕度指數等。由于氣溫隨海拔和坡度坡向的改變呈現較大的差異,而降雨量在流域內差異不大,因此本研究將氣溫作為氣候變量納入環境變量指標。植被變量包括歸一化植被指數,相對植被指數等。所有環境變量的提取來源于從中國科學院地理科學與資源研究所(https://www.resdc.cn/Default.aspx)下載的數據和從美國地質調查局(https://earthexplorer.usgs.gov)下載的landsat 5衛星圖像數據。除氣溫的精度是100 m外,其他環境變量的精度都是30 m。使用ArcGis 10.8對氣溫變量進行重采樣至30 m。除了相對植被指數(RVI)外,所有下載的環境變量數據經ArcGis 10.8處理后,采用近鄰抽樣法提取到樣點所在位置的變量。Hengl等[12]的研究描述了所有環境變量的提取方法。具體環境變量的使用情況與介紹見表1。

表1 樣本變量特征表述Table 1 Description of sample variable characteristics

RVI最早由Jordan[13]提出,其計算方法為:

式中:NIR為紅外波段值,RED為紅色波段值。

1.4 機器學習模型

本研究采用XGBoost和lightGBM兩種機器學習模型進行SOC預測,并與傳統的RF模型和SVR非集成學習模型進行對比。所有模型均基于python3.7實現,其中RF和SVR模型來自于sklearn包,XGBoost模型來自于xgboost包,LightGBM模型自于lightgbm包。

RF是基于決策樹的機器學習算法[14],常用于回歸分析問題。該模型是由多個決策樹組成的集成學習模型,通過對每個決策樹的預測結果進行平均或加權平均來得出最終的預測結果。隨機森林回歸在構建每個決策樹時,會隨機選擇一部分訓練樣本和一部分特征進行訓練,以此來避免決策樹的過擬合問題,提高模型的泛化能力。

SVR是一種基于統計學習理論的回歸分析方法,通過尋找最優超平面,將數據映射到高維空間中進行非線性回歸預測。SVR的核心思想是通過尋找最優超平面來最小化預測誤差。在SVR中,最優超平面是指能夠將預測值與真實值之間的誤差最小化的超平面[15]。

XGBoost是一種基于決策樹的梯度提升(GBDT)算法[16-17],GBDT在訓練新的基學習器時只使用了損失函數的一階導數,而XGBoost則對損失函數進行二階泰勒展開,同時使用損失函數的一階導數和二階導數,此外,XGBoost還在損失函數中加入了正則項來控制模型的復雜度,有利于防止過擬合。XGboost可以自動處理缺失值、自動調整每個弱學習器的參數、自動調整每個弱學習器的深度,以便模型更好地擬合數據。

LightGBM是一種基于決策樹的高效算法,是一種梯度提升機(GBM)的改進版本,用于提高機器學習算法的準確性和效率[18]。LightGBM的工作原理如下:使用基于樹的算法來構建模型,并使用梯度提升算法來優化模型的準確性。LightGBM支持并行訓練,可以更快地構建模型;支持自動調整參數,可以自動調整模型的參數,以獲得更好的性能;支持多種數據類型,可以處理稀疏數據以及類別特征。

1.5 數據集切分

在進行實驗之前,對601個樣本進行了處理,剔除掉無效樣本和異常值,最后剩下401個樣本點作為輸入。為了評估不同模型對SOC預測的適用性,基于sklearn軟件包將數據集隨機分為訓練集(80%)和測試集(20%)。每個模型都用訓練數據進行擬合,用實驗數據進行驗證。每個模型的訓練數據集都采用10倍的交叉驗證。

1.6 模型參數調整與模型評估

模型的超參數優化采用RandomSearch[19],在超參數的組合空間中進行隨機采樣和搜索,其搜索能力取決于設定的采樣次數(n_iter參數)。RandomSearch的搜索過程如下:對于搜索范圍為分布的超參數,按照給定的分布隨機采樣;對于搜索范圍為列表的超參數,在給定的列表中以中等概率采樣;如果給定的搜索范圍為全部列表,則不放回采樣n_iter次數。

模型評估采用決定系數(R2)、平均絕對誤差(MAE)、均方根誤差(RMSE)和林氏一致性相關系數(Lin’s Concordance Correlation Coefficient,LCCC)四個指標來確定模型的模擬性能。R2反應了因變量的波動有多少百分比能被自變量的波動所描述,R2接近1表示模型完美,即100%的變異被模型解釋,大于0.75時表示良好預測,0.50~0.75之間表示可接受的預測,小于0.50表示不可接受的預測[20]。MAE可以避免正負誤差相加出現相互抵消的問題,因而可以準確反映預測誤差的大小。MAE值越接近0,說明模型的預測能力越好。RMSE可以評價數據的變化程度,RMSE值越接近0,說明模型的預測能力越好。LCCC結合了精度和偏差兩個度量。LCCC的取值在(-1, +1)之間,+1表示完全一致,大于0.9表示接近完全一致,0.8~0.9之間表示實質性一致,0.65~0.8之間表示中等一致,小于0.65表示差一致[21]。四個指標的計算方法為:

式中:n表示樣本量,ai為第i個樣本的SOC含量預測值,bi是第i個樣本的SOC含量實測值,k是所有n個樣本預測值的平均值,h是所有n個樣本實測值的平均值,θa和θb分別是n個樣本預測值和實測值的變異系數,r是實測值和預測值之間的皮爾遜相關系數。

2 結果與分析

2.1 土壤有機碳數據集統計特征

根據實測的SOC數據分析顯示,SOC含量變化范圍介于1.47~39.37 g/kg,平均值為12.27 g/kg,標準差為6.62 g/kg。偏度為0.99,峰度為1.57(表2),整體分布近似于正態分布,適合訓練機器學習模型。SOC的變異系數為54%,屬于中等變異性類。由于研究區域地形多變,區域植被呈現一定的垂直分布特點,此外土地利用方式也存在差異,導致樣本點的SOC變異系數偏高。

表2 土壤有機碳實測數據樣本集統計特征Table 2 Statistical characteristics of the sample set of SOC measurement data

2.2 模型的評價與比較分析

對SVR、RF、XGBoost和LightGBM四種機器學習算法預測亞熱帶丘陵區小流域SOC的性能進行統計分析,根據R2、MAE、RMSE和LCCC四個指標的比較,結果顯示,RF模型的預測誤差相對最低,其MAE值和RMSE值分別為3.323和4.464,且R2值為最高(0.540),LCCC值(0.672)僅次于XGBoost(表3),具有相對最優的模型預測效果,其原因為RF采用自助采樣法和隨機特征選擇的方式生成多棵決策樹,以此來降低方差,防止過擬合,提高泛化能力。XGBoost是一種基于樹的集成學習算法,通過優化的損失函數和正則化技術來提高模型的泛化能力。在本研究中,XGBoost模型亦能較好地模擬SOC分布,其預測誤差MAE值(3.416)和RMSE值(4.523)略高于RF模型,R2值略低(0.528),但是LCCC值(0.676)卻為最高。排在第三位的LightGBM模型的預測誤差值略高于XGBoost,模擬精度略低。而SVR模型具有相對最高的預測誤差,MAE值和RMSE值分別達到3.698和4.982,且R2值(0.427)和LCCC值(0.537)為最低,低于模型預測精度的最低可接受值(0.50),模型表現最差,究其原因為SVR算法對數據的線性可分性要求比較高,如果數據集中存在復雜的非線性關系,SVR算法的擬合度可能會降低。

表3 四種機器學習模型的精度對比Table 3 Comparison of prediction accuracy of four machine learning models

2.3 環境變量的相對重要性分析

圖2給出了RF、XGBoost和LightGBM三種模型的環境變量特征重要性分布(SVR未給出,所使用的sklearn包不提供SVR顯示特征重要性的功能)。由于RF、XGBoost和LightGBM采用不同的方法評估環境變量重要性,可能會導致不同環境變量的重要性呈現一定的差異。RF算法采用隨機特征選擇的方式生成多棵決策樹,每棵決策樹只使用部分特征進行劃分,通過計算每個環境變量在所有決策樹中出現的次數來評估其重要性。在RF模型中,各環境變量的重要性從高到低分別為海拔(30.49%)、氣溫(21.93%)、坡度(13.97%),植被指數(12.64%)、landsat 5第四波段(10.01%)、相對植被指數(6.89%)和地形濕度指數(4.07%)。XGBoost則是通過計算每個環境變量在每棵樹中的分裂貢獻度來評估特征的重要性。分裂貢獻度是指每個環境變量在樹的每個分裂點上的增益值之和。在本研究中,XGBoost模型環境變量重要性分布與RF相同,各變量重要性占比從高到低分別為海拔(32.84%)、氣溫(22.11%)、坡度(18.99%)、植被指數(11.00%)、landsat 5第四波段(8.83%)、相對植被指數(3.51%)和地形濕度指數(2.71%)。LightGBM的環境變量重要性計算則是通過計算每個環境變量在每個葉子節點上的樣本數來評估特征的重要性。因此LightGBM的環境變量特征重要性分布與RF和XGBoost存在較大差異,從高到低分別為海拔(20.61%)、地形濕度指數(16.36%)、植被指數(14.89%)、坡度(13.83%)、landsat 5第四波段(12.50%)、溫度(11.30%)和相對植被指數(10.51%)。上述結果顯示,所選幾類環境變量中以海拔對三種模型的預測最為重要,說明在亞熱帶丘陵地區海拔對模型預測SOC含量的高低起顯著作用。

圖2 環境變量在三種模型預測SOC中的相對重要性Fig. 2 Relative importance of environmental variables for SOC prediction by three models

通過對上述7種環境變量按表1歸類為地形變量、氣候變量和植被變量三類。在RF模型中,上述三類變量的重要性占比分別為48.53%、21.93%和29.60%。在XGBoost模型中,各變量的重要性占比分別為54.54%、22.11%和23.34%。而在LightGBM中,地形、氣候和植被變量的重要性占比分別為50.8%、11.3%和37.99%。三種模型地形變量類別的重要性均以地形排在第一位。此外,RF和XGBoost在變量類別的重要性分布上表現一致。而LightGBM呈現出一定的差異性,其植被變量的重要性明顯偏高,比RF高出8.39個百分點,比XGBoost高出14.65個百分點,而氣候變量的重要性分別比RF低10.63個百分點,比XGBoost低10.81個百分點。

2.4 土壤有機碳空間分布的預測模擬

通過RF、SVR、XGBoost和LightGBM四種機器學習方法預測的SOC含量范圍分別為5.35~21.72 g/kg、5.31~19.18 g/kg、3.57~20.42 g/kg和6.08~22.09 g/kg(圖3)。盡管不同模型的總體分布特征相似,但SOC含量的高低卻有較為明顯的差異。其中LightGBM模型預測的SOC含量最低值和最高值均高于其他模型,而XGBoost模型預測的SOC含量最低值在所有模型中為最低。

圖3 四種機器學習模型的SOC的空間預測結果Fig. 3 Spatial prediction of SOC by four machine learning models

將四種模型預測的SOC含量通過ArcGIS 10.8制圖后顯示,SOC空間分布呈現出相同的規律,即北部大部分區域、西南方邊緣區域和東南方的邊緣區域SOC含量高,中部SOC含量普遍偏低。SVR模型預測的東南部和西南部的SOC含量值明顯高于其他模型的預測值。SOC含量高低的空間分布與海拔的高低分布具有一致性(圖1、圖3),再次證明了海拔對于SOC含量的預測起顯著作用,即在地貌復雜多變且耕地較少的區域,地形及其相關環境變量對SOC的空間分布具有重要影響。

3 討論

本研究中幾種模型模擬SOC含量的預測精度存在一定的差異(表3)。RF、LightGBM和XGBoost均表現出較好的適用性,以RF模型的性能相對最好,其預測SOC含量的R2(0.540)亦略高于LightGBM和XGBoost模型,而SVR模型并不適用于亞熱帶丘陵區復雜地形的SOC含量預測。就四種模型對比而言,RF可以作為亞熱帶丘陵區景觀單元SOC含量預測的最佳適用模型。但是,Fathololoumi等[22]應用RF和Cubist模型對伊朗北部復雜地形山區SOC 等土壤屬性的預測表明,不同預測模型的預測精度存在差異,相比于RF模型,Cubist模型非平坦區域擁有更高的模擬精度,表現出較好的適用性。Emadi等[6]對伊朗北部山地SOC的模擬結果表明,深度神經網絡模型相較于其他模型(SVR、人工神經網絡、RF和XGBoost)更具有優勢。這與本文的研究結果存在差異。原因可能是不同區域土壤性質與其他主導SOC空間分布的環境因素相差太大,故數據集的特征會產生較大偏差。由此可見,不同區域SOC模擬的最適模型也存在差異,在開展SOC模擬預測時,應根據特定的區域環境特點篩選合適的模擬模型以提升SOC空間模擬的精度。未來可以嘗試更多模型或進行模型融合,以探究適合更為廣泛區域尺度的SOC模擬模型。

就同一模型的模擬精度而言,本研究中RF模型預測SOC含量的R2值高于Zeraatpisheh等[23]在伊朗南部半干旱地區達拉布平原農業用地使用237個樣本結合RF算法進行SOC含量預測的R2值(0.29),也略高于Yang等[24]使用49個樣本點作為訓練集對中國安徽省某地區農田SOC含量進行RF預測的R2值(0.51)。其原因可能跟本研究的土壤采樣密度較高,模型預測的樣本量較多有關。較高的樣本量條件下模型能得到更加充分的訓練,因此具有相對較高的模擬精度。盡管本研究所用SOC的樣本數較已有研究稍多,但在數量上仍然不足。如Malone等[25]所述,機器學習模型預測SOC含量的一個主要誤差來源是樣本數據的稀少,因此可將樣本數不足歸為本研究機器學習模型預測SOC含量的高不確定性的主要原因。此外,此前的研究已經證明高精度的環境變量數據對于土壤屬性預測的有效性[26],但從已有的小流域尺度的研究來看,高精度的環境變量數據的應用缺乏關注。本研究也缺乏更高精度的環境變量數據,這也是模型精度不高的另一個原因。后續可以考慮擴大樣本數量與范圍,提高環境變量的分辨率(目前使用的一般是30 m ×30 m或100 m × 100 m的分辨率),探尋更好的樣本降噪方法,使機器學習模型具有更充分的訓練空間,可能會進一步提升機器學習模型對于復雜地形區土壤有機碳的預測精度。

此外,所選幾種模型環境變量的相對重要性也存在差異。XGBoost模型中環境變量的相對重要性分布與RF相似。但是LightGBM與RF和XGBoost模型在環境變量的特征重要性排序上差異較大,表現為植被變量高于上述二者10%左右且氣候變量低10%左右。盡管如此,三種模型均以地形(主要為海拔)作為解釋模型擬合度的最重要的環境變量。這可能跟亞熱帶丘陵區地形地貌復雜有關,地形相較于其他環境變量具有更高的空間異質性。因此,幾種機器學習模型預測的SOC含量的空間分布格局相似(圖3),均以高海拔的北部、東南部和西南部地區的SOC含量較高,該區域植被覆蓋密集,土壤相對肥沃,植被的固土能力強,不易發生養分流失,另外林木茂密為動物們提供了很好的棲息所,生物多樣性高,枯枝落葉和動物糞便尸體等均貢獻于土地肥力。張厚喜等[27]和鐘兆全[28]分別運用不同模型預測福建省SOC含量,發現高程是影響SOC含量的重要因子,且SOC含量隨海拔的升高而增加。即在地貌復雜多變且耕地較少的區域,地形及其相關環境變量往往對SOC的空間分布有關鍵性的影響。而在小流域尺度內,沒有了降雨這一氣候因素的作用,地形地貌對于SOC的空間分布的影響更為突出。Zeraatpisheh等[29]對沙漠地區SOC的模擬研究顯示,海拔和地形濕度指數均是預測沙漠地區SOC含量的重要參數,而本研究結果顯示地形濕度指數對亞熱帶丘陵區SOC的模型預測貢獻不大。John等[7]的研究顯示,在濱海平原區,地形對于機器學習模型的SOC預測貢獻不大,而土壤理化性質是最重要的環境變量,因為在平原區海拔幾乎沒有差異,海拔對于模型學習的過程貢獻不高。因此,可以針對不同研究區域的主導環境變量特點選取模型的重要環境參數。

本研究所選的亞熱帶丘陵區典型小流域,不僅具有復雜的地形地貌特點,也受到強烈的人類活動影響。但是在環境變量的選取方面僅選擇了容易獲取的地形變量、氣候變量、植被變量參與模型構建并預測SOC含量,并未加入人類活動對SOC含量的影響。有研究表明農業活動(如輪作、灌溉、施肥等)對SOC尤其是土壤表層SOC含量產生重要影響,從而可能影響氣候等自然環境變量與SOC的關系[30-31]。除此之外,有研究報道土地利用、土壤母質、土壤養分指標等也與SOC關系密切[32-33]。因此,未來應尋找更多與SOC相關性強的輔助變量以及能代表人類活動的替代因子作為模型輸入參數,從而提升模型的泛化性能和魯棒性。后續研究可以擴展環境預測因子(如土壤理化性質和人類活動),并涵蓋更為廣泛區域的土壤類型,提高機器學習模型的預測精度與廣泛適應性,實現更高精度和更大區域尺度的SOC含量的預測。

4 結論

在具有復雜地形的亞熱帶丘陵地區,RF、LightGBM和XGBoost模型均能較為有效地預測SOC含量,以隨機森林的模擬性能相對較優,可以應用于亞熱帶丘陵區的SOC空間分布預測研究。而SVR模型的模擬精度最低,不適用于亞熱帶丘陵區SOC的空間預測研究。在環境變量重要性上,幾種模型均以地形(主要為海拔)作為SOC空間分布預測的最重要的影響因子,其余環境變量的重要性在不同模型之間存在較大差異。幾種模型預測的SOC含量結果具有相似的空間分布格局和顯著的空間異質性,總體表現為北部、西南方邊緣區域和東南方邊緣區域的高海拔區SOC含量高于中部低海拔區。

猜你喜歡
環境變量機器重要性
機器狗
機器狗
“0”的重要性
論七分飽之重要性
從桌面右鍵菜單調用環境變量選項
幼兒教育中閱讀的重要性
徹底弄懂Windows 10環境變量
未來機器城
讀《邊疆的重要性》有感
基于三階段DEA—Malmquist模型的中國省域城鎮化效率測度及其收斂分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合