?

基于3種機器學習方法的農業干旱監測比較

2022-02-11 03:18王曉燕邢立亭
干旱區研究 2022年1期
關鍵詞:向量神經網絡因子

王曉燕, 李 凈, 邢立亭

(西北師范大學地理與環境科學學院,甘肅 蘭州 730070)

干旱是出現頻率高、持續時間長、波及范圍廣的氣象災害之一[1]。農業干旱是由于低于正常降水或高于平均蒸發和蒸騰作用而導致的土壤水分虧缺[2]。頻繁的農業干旱導致經濟損失嚴重,因此準確且實時或接近實時的農業干旱監測是必不可少的。

干旱指數是監測和分析農業干旱的重要方法。近年來,學者們建立了各種干旱指數來量化干旱特征,特別是嚴重程度和空間范圍[3]。根據數據源不同,通常分為基于氣象站點數據監測的干旱指數和基于遙感數據監測的干旱指數兩大類。常用的基于氣象站點數據的干旱指數包括帕默爾旱度指數(PDSI)[4]、作物干旱識別指數[5]、綜合指數(CI)[6]、K 指數[7]、標準化降水指數(SPI)[8]和標準化降水蒸發指數(SPEI)[9-10]等。SPEI由于同時考慮了降水量和溫度并且能夠監測不同地區不同類型的干旱,被廣泛應用。雖然基于氣象站點數據的干旱指數能夠準確且有效的監測氣象站及其周邊干旱的嚴重程度,但在可用氣象站點有限的條件下,遙感數據覆蓋面積廣、空間分辨率高、時效性強等特點,基于遙感數據的干旱指數在大面積干旱時空模式的監測中更為可靠。當前基于遙感數據監測的干旱指數主要有歸一化植被指數(NDVI)[11]、植被狀態指數(VCI)[12]、溫度狀態指數(TCI)[13]、歸一化多波段干旱指數(NMDI)[14]、歸一化差值水分指數(NDWI)[15]以及植被供水指數(VSWI)[16]等。最初多是單一因素的遙感指數被用于監測和分析干旱,如NDVI、VCI 等,但農業干旱過程復雜多變,影響因素眾多,單一因素的干旱指數往往難以反映干旱的多類型和多尺度特征[17]。因此利用先進方法集成多源數據構建綜合的干旱監測模型或指數逐漸成為發展新趨勢。

綜合多源數據的干旱監測模型或指數從構建方法角度介紹,有權重組合、多變量聯合分布及機器學習方法。Zhang 等[18]對土壤水分條件指數(SMCI)、TCI、PCI 進行線性加權構建微波集成干旱指數(MIDI),結果表明MIDI 與實測值在空間分布上有很好的一致。杜瑞麒等[19]通過聯合分布函數構建出反映土壤水分和降水信息的綜合干旱指數,并較好的分析了吉林省的干旱時空特征。雖然權重組合與聯合分布方法在干旱監測中均有較好的表現,但均存在一定程度的缺陷。權重組合方法建立的綜合干旱指數需要先假設變量間的線性關系然后根據專家經驗判斷或相關分析等方法來確定多種單一干旱指標的權重,而農業干旱的復雜決定了影響因子間不一定都是線性關系,同時權重的分配也存在誤差;利用聯合分布方法構建的綜合干旱指數雖然既保留了單一指標本身的邊際分布,又描述了指標之間復雜的依存關系,但在單一指標數量較多的情況下,變量間的關系變得復雜時,會導致建模變得困難。近年機器學習方法逐漸成為干旱研究領域的新秀,因為其不僅能夠處理干旱影響因子間復雜的非線性問題且能夠簡單明了的集成多源數據,科學高效的建立綜合干旱監測模型,合理的解決了上述問題。但是不同機器學習方法構建的模型在農業干旱監測上具有區域差異性,而且甘肅省氣候類型復雜,干旱頻發。為了能在甘肅省建立更加全面精準的綜合農業干旱監測模型,本文采用隨機森林、BP 神經網絡、支持向量機3 種機器學習法,考慮多種干旱因子,結合氣象數據和多源遙感數據,比較分析構建的3 種綜合干旱監測模型在甘肅省的適用性,同時探究模型在不同環境下的表現并分析不同致旱因子的相對重要性,為農業干旱監測研究提供了新方法以及科學參考。

1 數據與方法

1.1 研究區概況

甘肅省位于中國西北部,地理位置為32°11′~42°57′N,92°13′~108°46′E。甘肅是典型的溫帶大陸性氣候,降水少蒸發大。在甘肅幾乎每年都發生農業干旱,每年平均受災面積達到82.68×104km2,并導致5×108~10×108kg的糧食減產[20]。

1.2 數據處理

本文從氣象、土壤、植被方面進行因子選擇,選取PCI和TCI為氣象因子,VSWI作為土壤因子,VCI是植被因子??紤]到研究區內不同地形水分、溫度、植被覆蓋度等因素在空間上存在差異性,土壤的生產力和抗旱性在空間上有高度變異性以及研究區內氣候類型復雜等原因,選擇數字高程模型DEM、土壤有效含水量以及中國氣候區劃為模型的輔助因子。

數據選擇的時間范圍為2002—2019年,時間分辨率為月(4—10 月),空間分辨率為1 km。其中,MODIS數據有MOD11A2產品中的地表溫度(LST),時間分辨率為8 d,空間分辨率為1 km,月數據為4幅影像數據求平均;MOD13A2產品中的歸一化植被指數和增強型植被指數(EVI),時間分辨率為16 d,空間分辨率為1 km。降雨數據選擇TRMM3B43,時間分辨率為月,空間分辨率為0.25°。以上MODIS和TRMM 數據均來自于NASA(https://ladsweb.modaps.eosdis.nasa.gov/),在數據處理過程中,對于TRMM 數據首先將降水速率轉換為月降水總量數據,然后統一對NDVI、LST、EVI 以及TRMM 數據進行裁剪、投影轉換、采用最鄰近法進行重采樣使空間分辨率為1 km,最后通過以上數據計算出VCI、TCI、PCI、VSWI指數,具體計算過程如表1。

表1 干旱指數計算方法Tab.1 Remote sensing drought index calculation formula

DEM 數字高程、中國氣候區劃和中國土壤砂、黏粒含量數據以及用于制圖的土地覆蓋類型數據均來源于中國科學院資源環境科學數據中心(https://www.resdc.cn/),空間分辨率均為1 km。土壤有效含水量利用Gupta 等[21]提出的土壤砂、黏粒含量的經驗線性擬合模型估算。對全國DEM、氣候區劃以及土壤有效含水量進行裁剪、投影轉換后可直接使用。

氣象數據來源于中國氣象數據網(http://data.cma.cn/),氣象站點分布如圖1 所示,根據研究區氣象數據的缺失和站點分布在耕地的情況,最終選擇25 個氣象站點。站點數據主要包括1970—2019 年的月平均氣溫和月降水量,用于計算1個月、3個月、6個月時間尺度的SPEI。

圖1 研究區概況Fig.1 Overview of the study area

1.3 研究方法

1.3.1 隨機森林 隨機森林的核心思想是回歸和分類,是使用去相關樹有效地減少預測變量方差的一種方法[24]。隨機森林方法的具體步驟為:首先從訓練數據中,通過隨機提取訓練數據集中的部分數據,比如20%的數據集,并據此形成決策樹;然后將提取的20%的數據集放回訓練集中,并再次隨機提取20%的數據集,產生第二個決策樹。不斷重復第二步,建立多個決策樹并以此組成隨機森林;最終預測結果由所有決策樹結果的平均值決定。

1.3.2 BP神經網絡 BP神經網絡是一種由輸入層、隱層和輸出層組成,并由誤差逆傳播方法訓練的多層前饋網絡[25]。主要包括前向傳播和誤差的反向傳播。前向傳播指在計算誤差輸出時,輸入信號通過隱含層作用于輸出節點,經過非線性變換,產生輸出信號,如果實際輸出與期望輸出不相符,則轉入誤差的反向傳播過程。誤差反向傳播指輸出誤差的逆向逐層分攤和調節閾值使誤差階梯下降的過程。

1.3.3 支持向量機 支持向量機是一種監督學習方法,通過非線性映射,采用結構風險最小化原則,將低維空間和線性不可分的數據映射到高維空間使其成為線性可分的,再將數據在高維空間進行分類和預測[26]。支持向量機的核心是核函數,可以提高算法的速度。

2 結果與分析

2.1 干旱因子分析

降水、土壤、植被干旱因子在不同時期對干旱的表現不同。提取2002—2019 年甘肅4—10 月所有氣象站點的VCI、TCI、PCI 和VSWI 指數,按月依次對4種遙感指數和1個月、3個月、6個月時間尺度的SPEI(分別由SPEI_1,SPEI_3 和SPEI_6 表示)進行Pearson相關性分析,進而分析單個遙感干旱指數監測農業干旱的能力以及融合多源數據的必要性,結果如表2所示。3種時間尺度的SPEI除了植被狀態指數VCI 在植被生長初期和末期外,其他指數的相關性均通過了0.01或0.05顯著性檢驗。

表2 遙感指數與不同時間尺度SPEI的相關性分析Tab.2 Correlation analysis between remote sensing index and SPEI on different time scales

對于降水指數PCI,其相關性在3種時間尺度的SPEI中均為最高,且在7月達到最大值,說明以降水因子建立的干旱指數在降水充足的季節其監測結果更具有參考價值。溫度干旱指數TCI在植被生長初期的相關系數要高于植被生長中后期,如TCI 與不同時間尺度SPEI 的相關性均在6 月達到最大值。在4—10 月,植被干旱指數VCI 與不同時間尺度SPEI 的相關性均呈現先增大后減小的過程,以SPEI_3 為例,在4 月和5 月未通過顯著性檢驗,到7月植被生長最佳時期,相關系數達到最大,8 月開始,相關性又逐漸減弱。這表明以植被因子建立的干旱指數在植被覆蓋度較好的區域監測干旱能力更可靠。在月時間尺度上土壤濕度指數VSWI其相關性表現為先增大后減小再增大的趨勢。其變化趨勢與植被指數VCI 相同,說明土壤濕度指數更適合于植被茂盛區域的旱情監測。

以上分析表明,PCI、VCI、TCI以及VSWI單個遙感干旱指數在監測農業干旱中具有局限性,雖然PCI 與SPEI 的相關性高,但單一降水因素不能代表干旱。因此應用先進的機器學習方法來融合多種致旱因子,構建綜合監測農業干旱的模型具有重要意義。

不同時間尺度的標準化降水蒸發指數SPEI 可以分析不同的干旱類型,1—6個月時間尺度的SPEI適用于氣象和農業干旱,較長時間尺度的SPEI適用于水文干旱。大量研究表明3月或更長時間尺度的SPEI 更能代表農業干旱,本文采用3 個月時間尺度的SPEI分析農業干旱。

2.2 模型構建及驗證評價

從2012—2019 年甘肅氣象站點中隨機選取5組不同的5 個站點作為模型的驗證數據,其次,2002—2019年除每組被選出的5個驗證站點外所有站點的SPEI_3 和所在站點的VCI、TCI、PCI、VSWI、DEM、AWC和氣候類型作為模型的訓練數據。每組訓練樣本數據依次有461 個、462 個、465 個、465 個和465 個。運用3 種機器學習方法分別對4—10 月的訓練樣本進行學習,每月包括5 組不同的訓練樣本,共構建35組農業干旱監測模型。

模型構建中隨機森林有兩個重要參數,決策樹個數n和樹節點預選變量個數m;當n太小則模型欠擬合,當n足夠大時模型逐漸趨于穩定。n應大于100,m的取值公式為,其中P為候選特征變量,m應小于特征變量。為了選取誤差最小的m,根據經驗公式和不小于特征變量兩個要求,逐一選擇m并構建不同的回歸模型。以4 月的5 組模型為例,當n=1000,m依次取2、3、2、2、2時,隨機森林模型的誤差最小,同樣方法得到其余30個模型的參數。支持向量機方法構建模型時選取誤差較小、分類準確率較高的徑向基函數RBF,兩個重要參數為核參數g和懲罰系數C。核參數g影響訓練和預測速度。懲罰系數C越大,模型容易過擬合,過小容易欠擬合。經過反復試驗,當支持向量機的g為0.02、懲罰系數C為10 時模型是最穩定的。BP 神經網絡中梯度下降法是調整全局權重和閾值的關鍵,本文選擇訓練速度最快的trainlm 函數,缺點是需要的內存大。

通過模型輸出的模擬值與SPEI_3 實測值之間的相關性分析,驗證評價機器學習方法構建的農業干旱監測模型。圖2為3種機器學習方法各月份第2 組驗證樣本模擬值與實測值SPEI_3 的散點圖,圖中隨機森林、BP神經網絡和支持向量機模型的模擬值分別用RF_nh、BP_nh 和SVM_nh 表示。由圖2 可以看出,4—10月份3種機器學方法模型的模擬值與SPEI_3 實測值的相關系數都不小于0.89,說明3 種機器學習方法構建的農業干旱監測模型都可應用于實際的旱情監測。

圖2 模型模擬值與實測值SPEI_3散點圖Fig.2 Scatter plot of model simulation value and measured value SPEI_3

2.3 3種機器學習方法監測結果對比

利用決定系數R2、均方根誤差RMSE 和平均絕對誤差MAE 來比較模型模擬結果進而分析適用于甘肅省構建模型的最佳機器學習方法。從3種機器學習方法對驗證數據的預測結果統計可知(表3),在隨機森林構建的35個監測模型中,隨機森林模型模擬值與SPEI_3 實測值的R2在0.78~0.95,4—10 月的總平均值為0.86;BP 神經網絡模型的R2在0.70~0.91,4—10 月的總平均值為0.82;支持向量機模型的R2在0.73~0.91,4—10月的總平均值為0.84;同時也對每月5 組模型的統計指標進行求平均值,發現隨機森林模型的R2要高于BP 神經網絡和支持向量機,說明隨機森林模型模擬的結果對干旱指數SPEI_3的解釋程度更高。隨機森林、BP神經網絡和支持向量機3 種方法構建的模型中,RMSE 和MAE的最大值分別是0.79 和0.66、1.00 和0.79、0.81 和0.66,說明與BP 神經網絡和支持向量機模型相比,隨機森林模型的模擬值與SPEI_3 實測值的差異更小,表現最好,而支持向量機模型的表現則要優于BP神經網絡模型。通過上述分析表明,隨機森林方法構建的模型在甘肅省的農業干旱監測中表現更佳。

表3 3種機器學習方法對驗證數據擬合結果統計Tab.3 Statistics of the fitting results of the three machine learning methods on the verification data

2.4 機器學習空間敏感性分析

甘肅氣候類型復雜,隨機森林、BP 神經網絡和支持向量機構建的3 種模型受不同氣候模式的影響,對干燥和潮濕地區干旱指數SPEI_3的模擬可能不同,利用K 均值聚類方法根據多年降水條件將氣象站點劃分為干燥和濕潤兩種類型(表4)。首先根據兩個聚類將原始數據分為聚類1(干燥)與聚類2(濕潤)的訓練樣本和驗證樣本,然后分別訓練BP神經網絡、隨機森林和支持向量機模型,最后利用決定系數R2、均方根誤差RMSE 和平均絕對誤差MAE來評估模型的性能(表5)。從表5可知,不管在那種環境下,隨機森林模型的表現要優于其他兩種模型,在干燥的環境下,BP 神經網絡模型的性能比支持向量機模型好,濕潤環境下,與BP 神經網絡模型相比支持向量機模型表現更佳。此外,3 種機器學習方法構建的模型在濕潤環境下監測農業干旱的能力優于干燥環境下。

表4 站點聚類結果Tab.4 Site classification

表5 不同空間模型性能評估Tab.5 Model performance evaluation in different spaces

為了確定不同環境下模型在連續時間序列上對SPEI_3實測值模擬的性能。選擇聚類1和聚類2兩組驗證樣本中共12個站點,驗證3種機器學習方法的時空差異性。圖3 為3 種機器學習方法對2012—2019 年7 月的12 個氣象站點模擬值與實測SPEI_3的一致性分析,其中山丹、景泰、張掖、永昌、高臺和皋蘭為干燥環境中的站點,榆中、臨洮、環縣、臨夏、武都和岷縣為濕潤環境中的站點。由圖3可知,連續時間序列上RF 模型在兩個聚類中模擬SPEI_3 實測值的表現最好。在干燥環境的站點中除張掖和高臺站點外其他站點BP 模型表現比支持向量機模型好,在濕潤環境的站點中支持向量機模型略好,分析結果與表5相似,說明不同環境下構建的模型是可靠的。

圖3 2012—2019年7月模型模擬值與實測SPEI_3的變化趨勢Fig.3 The change trend of model simulation value and measured SPEI_3 from 2012 to July 2019

隨機森林方法可以進行變量重要性排序,因此通過該法獲取兩個聚類干旱因子(VCI、TCI、PCI、VSWI、AWC、氣候類型和DEM)的重要性排序(圖4)。氣象因子PCI 與TCI 在干燥和濕潤環境中排名均為前兩名,對整個模型的影響最大,這兩個氣象因子的總和分別占聚類1 和聚類2 相對重要性的56%和55%,表明降水和溫度因子是造成農業干旱的主要因素。在聚類2濕潤環境中,土壤因子VSWI重要性為第3,植被因子VCI 為第4。聚類1 干燥環境中,植被為第3,土壤因子為第4。但受環境的影響,濕潤環境下的植被長勢比干燥環境下好。機器學習構建的模型在降水較多、植被覆蓋度高的區域監測能力更好。

圖4 不同聚類因子重要性分析Fig.4 Analysis of the importance of different clustering factors

3 討論

干旱是影響人類生活生產的自然災害之一,精準實時的監測農業干旱是必須要解決的問題,故本文融合氣象數據和遙感數據,利用隨機森林、支持向量機和BP 神經網絡3 種機器學習方法,構建了3種甘肅省綜合農業干旱監測模型。已有研究表明[27],機器學習模型可以有效的提高監測干旱的準確性,這與本文的研究是一致的。本文對模型模擬的結果與實測值SPEI_3進行比較分析,兩者有很好的一致性,同時對4 種單因子干旱指數與3 種不同時間尺度的SPEI進行了相關性分析,模型的相關性高于單因子相關性,表明融合多源遙感數據確實提高了遙感監測農業干旱的準確性。

3 種模型中,隨機森林模型的模擬結果要優于支持向量機和BP 神經網絡模型,R2更大,誤差更小。這一結果與董婷等[28]的研究一致,隨機森林模型在干旱監測中表現更優,更具有普適性。本研究中3 種機器學習模型在濕潤環境的表現更好,而在兩種環境中隨機森林模型的監測能力仍強于支持向量機和BP 神經網絡模型,這與Feng 等[29]的研究結果是相似的,明確了本文研究的準確性和可靠性,同時也進一步表明了隨機森林模型在農業干旱監測中更有潛力。但本文依然存在需要改進的地方,本文使用的降水遙感數據空間分辨率為0.25°,時間分辨率為月,都有待進一步提高。本文在干旱因子選擇時沒有考慮蒸發、人類活動等因素。未來需要針對這些不足進一步進行研究。

4 結論

通過采用隨機森林、支持向量機和BP神經網絡3 種機器學習方法,集成多源數據,構建了3 種甘肅省綜合農業干旱監測模型,并驗證了3 種機器學習模型的精度,比較了3 種機器學習模型在甘肅省農業干旱監測的結果以及在不同環境下模型的表現。主要得出結論如下:

(1)3 種機器學習方法構建的綜合農業干旱監測模型的模擬值與SPEI_3 實測值的相關系數均在0.89以上,表明構建的3種模型是有效的,均可應用于甘肅省的農業干旱監測。

(2)利用R2、RMSE 和MAE 對3 種模型模擬結果進行了比較,發現隨機森林方法構建的模型統計指標要優于支持向量機模型和BP神經網絡模型,說明RF 模型能更全面可靠精準的對甘肅省的農業干旱進行監測。

(3)對比不同環境下分別構建的3種機器學習模型性能,隨機森林模型在干燥和濕潤環境中表現均要優于支持向量機和BP神經網絡模型,說明該模型在農業干旱監測研究中更具有可靠性。結合因子相對重要性排序,發現機器學習構建的模型更適合于半干旱和植被覆蓋度高的區域。

猜你喜歡
向量神經網絡因子
基于神經網絡的船舶電力系統故障診斷方法
基于人工智能LSTM循環神經網絡的學習成績預測
向量的分解
MIV-PSO-BP神經網絡用戶熱負荷預測
一類常微分方程的解法研究
《老人與?!分械膫惱碓轿慌c斯芬克斯因子再思考
直徑不超過2的無爪圖的2—因子
巧解難題二則
三次樣條和二次刪除相輔助的WASD神經網絡與日本人口預測
向量垂直在解析幾何中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合