?

吉林省延邊地區森林火災發生概率預測模型1)

2024-01-12 10:16曹麗麗劉向宇陳響于淼欣謝文君單仔赫高博單延龍于渤崔晨曦
東北林業大學學報 2024年3期
關鍵詞:火點林火坡向

曹麗麗 劉向宇 陳響 于淼欣 謝文君 單仔赫 高博 單延龍 于渤 崔晨曦

(森林草原防滅火科技創新中心(北華大學),吉林市,132013)

森林火災是森林3大自然災害之首,近年來,全球氣候變暖現象加快,極端天氣頻發,世界多國相繼發生大規模森林火災,森林防火工作異常嚴峻[1-3]。我國是受林火危害較為嚴重的國家之一[4],從1987年“5·6大興安嶺特大森林火災”到2019年和2020年木里縣森林火災,多年來我國一直飽受林火危害。針對這一危害嚴重的自然災害,我國一直堅守著“預防為主,積極消滅”的基礎方針,對森林火災的預防工作投入了大量資源[5-6]。其中,基于林火預測預報的林火預警系統是林火監測與防控的重要技術手段之一。尤其是對林火的發生起到了預測作用,它考慮了氣象、可燃物、地形地貌、社會經濟、人類活動等林火影響因素,通過建立統計學或機器學習模型實現對某一時段、地區林火發生的頻率、概率、面積進行預測[7-9],對森林火災的預防具有重要的指導意義。

截止到2022年,吉林省已實現連續42 a無重大森林火災發生。但多年來的保護和沒有林火干擾,導致林內的可燃物長時間積累,可燃物載量持續增加,林火發生風險顯著增強。尤其是延邊地區,森林覆蓋率高,植被資源豐富,而且毗鄰俄羅斯和朝鮮,邊境火燒入風險極高[16-17],森林火災防控形勢異常嚴峻。目前,延邊地區的森林火災預警響應機制全面建立、火源管控能力持續改善、林火防控體系不斷健全[18],但延邊地區在林火預測工作中采用的是基于氣象因子建立的火險等級系統,該系統并未考慮地形地貌、人為與社會經濟因子對林火發生的影響,林火預測能力相對較低。本研究以延邊地區為研究區域,基于2000—2019年的歷史火災資料,結合氣象、地形地貌、植被、人為與社會經濟等因素使用廣義線性模型和機器學習模型建立延邊地區森林火災發生概率預測模型,篩選更適用于延邊地區的林火發生概率預測模型,旨在為降低該地區林火發生風險,制定科學有效的森林火災管理對策提供技術支持。

1 研究區概況

延邊地區位于吉林省東部,下轄6市2縣,位于北緯41°59′47″~44°30′42″、東經127°27′43″~131°18′33″,東與俄羅斯接壤,南與朝鮮隔江相望,整個地勢西高東低,自西南、西北、東北三面向東南傾斜[17]。該地區屬中溫帶濕潤季風氣候,年日照時間2 150~2 480 h,年平均氣溫4 ℃,年降水量400~800 mm,無霜期100~150 d。土壤類型包括暗棕壤、白漿土、草甸土等。延邊地區森林覆蓋率達79.39%[19],常見樹種包括云杉(Piceaasperata)、紅松(Pinuskoraiensis)、白樺(Betulaplatyphylla)、紫椴(Tiliaamurensis)、落葉松(Larixgmelinii)、蒙古櫟(Quercusmongolica)等。

2 材料與方法

2.1 數據收集和整理

歷史火災資料來源于吉林省檔案館和吉林省林業和草原局森林草原防火和安全生產處,統計并整理了2000—2019年延邊地區森林火災的起火時間、起火地點、經緯度、起火原因、火場總面積等基本信息;氣象數據來自中國氣象數據共享網(http://data.cma.cn),統計整理了2000—2019年延邊地區的逐日氣象數據,包括氣溫、氣壓、濕度、風速、降水量等逐日氣象數據;數字高程數據來源于地理空間數據云(http://www.gscloud.cn)的GDEMV2 30M分辨率數字高程數據集;行政邊界數據、道路、河流、居民點等矢量數據來源于全國地理信息資源目錄服務系統(http://www.webmap.cn)的1∶100萬全國基礎地理信息數據庫;歸一化植被指數(NDVI)數據、人口密度數據和GDP數據分別來源于中國科學院資源環境科學與數據中心(https://www.resdc.cn)的中國年度植被指數空間分布數據集、中國人口空間分布公里網格數據集和中國GDP空間分布公里網格數據集。

2.2 構建數據集

研究所需的數據集由因變量和自變量兩部分組成,其中因變量通過ArcGIS Pro軟件的“XY轉點要素”(火點)和“創建隨機點”(非火點)工具生成。具體而言,使用起火地點的經緯度信息創建火點數據,剔除含缺失值的數據后,共創建火點479個;將火點的火場范圍簡化為圓形,根據火場總面積以火點為中心生成緩沖區,在去除緩沖區的延邊地區范圍內按火點和非火點1∶1的比例生成非火點479個,非火點間最小間隔為500 m[20],并使用Excel軟件對非火點數據進行隨機時間賦值。

自變量數據包括森林火災發生當日的氣象數據(日降水量、平均氣溫、平均氣壓、平均水汽壓、日照時間、最大風速和最小相對濕度)、地形地貌數據(海拔、坡度、坡向指數和距最近水系距離)、歸一化植被指數(NDVI)和人為與社會經濟數據(距最近鐵路距離、距最近公路距離、距最近居民點距離、中國國內生產總值(GDP)和人口密度)。根據延邊地區8個氣象臺站經緯度創建氣象臺站點數據,計算距離每個火點與非火點最近的氣象臺站,并使用Python根據氣象臺站和時間對火點與非火點數據進行氣象數據賦值。

海拔、坡度、坡向指數、NDVI、人口密度和GDP數據均為柵格數據形式。其中,海拔、坡度、坡向指數數據均源于GDEMV2 30M分辨率數字高程數據集,使用柵格表面分析,獲得坡度和坡向柵格數據,然后使用柵格計算器根據公式(1)將坡向柵格數據轉換為坡向指數柵格數據,以解決建模中坡向取值無法描述其與林火發生概率之間的相關性問題[21]。人口密度和GDP數據集的數據時間包括2000、2005、2010、2015和2019年5期,并查閱《中國統計年鑒》計算延邊地區其他年份的人口增長率和GDP增長率,然后使用柵格計算器工具獲取其他年份的人口密度和GDP柵格數據。最后根據火點、非火點的經緯度與時間信息通過提取柵格值對火點、非火點進行海拔、坡度、坡向指數、NDVI、人口密度和GDP賦值。

PTR=cos(απ/180)。

(1)

式中:PTR為坡向指數,α為坡向的取值(單位為(°))。

從1∶100萬基礎地理信息數據庫中獲取吉林省內鐵路、公路、居民點和水系的矢量數據,并計算其與火點、非火點的最近距離,實現對火點、非火點的距最近鐵路距離、距最近公路距離、距最近居民點距離和距最近水系距離的賦值。

2.3 數據預處理

基于氣象、地形地貌、植被和人為與社會經濟數據建立延邊地區的林火發生概率預測模型,研究開始前對數據進行標準化處理,以消除量綱對模型預測的影響。然后將17個初始自變量導入SPSS軟件中進行多重共線性檢驗,所有的自變量均通過了多重共線性檢驗(VIF<10)。將標準化后的數據劃分為70%的建模樣本和30%的驗證樣本,建模樣本用于建立林火發生概率預測模型,驗證樣本用于評價模型預測準確率。

2.4 林火發生預測模型

本研究使用R語言和Gwmodel S軟件分別基于廣義線性回歸模型和機器學習模型建立延邊地區林火發生預測模型。

邏輯斯蒂回歸模型(LR)被廣泛應用在林火發生概率預測研究中,它能夠通過logit函數將線性模型的預測值轉化為[0,1]的概率值。設林火發生概率為P,則林火不發生概率為(1-P),則有:

ln[P/(1-P)]=β0+β1X1+β2X2+…+βnXn。

(2)

式中:β0為常數項,自變量Xn為篩選出的各林火驅動因子,βn為各自變量的系數,n為變量數量。

地理加權邏輯斯蒂模型(GWLR)是LR模型的擴展,它為傳統LR模型引入了空間因素,通過對每個樣點進行參數估計以解決空間非平穩性對預測模型的影響。設林火發生概率為P,則林火不發生概率為(1-P),則有:

ln[P/(1-P)]=β0(ui,vi)+β1(ui,vi)Xi1+β2(ui,vi)
Xi2+…+βn(ui,vi)Xin。

(3)

式中:(ui,vi)為第i樣本點的坐標,β0(ui,vi)為第i樣本點的常數項,自變量Xin為第i樣本點篩選出的各林火驅動因子,βn(ui,vi)為第i樣本點各自變量的系數。

隨機森林模型(RF)是一種機器學習算法,既可進行回歸分析,也可用于分類研究。RF模型是決策樹模型的組合,它從建模樣本中隨機有放回地進行m次隨機抽樣獲得m個采樣集并構建決策樹模型,對于回歸模型使用多棵決策樹預測均值作為預測結果,對于分類問題使用多棵樹投票劃分最終分類結果。

支持向量機模型(SVM)是Vapnik等基于萬普尼克-澤范蘭杰斯理論(Vapnik-Chervonenkis theory)和結果風險最小化原則提出的機器學習算法,既可實現模式識別也可以進行函數估計。對于分類模型來說,SVM能將數據通過核函數映射到高維空間,通過構建最優超平面的方式實現對數據的分類,因此,SVM模型可解決線性不可分問題。

使用優勢比作為2種廣義線性回歸模型中變量重要性的排序標準。變量的優勢比越大,其對目標特征(即林火發生概率)的影響也越大,優勢比的計算方法見下方公式(4)。使用R語言的randomForest軟件包構建RF模型時,設定randomForest函數的參數“importance=T”計算RF模型的變量重要性,變量重要性越大,其對林火發生概率的影響也越大。使用rminer包的fit和importance函數獲取SVM函數的變量重要性,并對其進行排序,變量重要性值越大,其對林火發生概率的影響也越大。

OR=exp(βn)。

(4)

式中:OR為優勢比,βn為各自變量的系數。

2.5 模型評價及最優模型篩選

使用Origin軟件繪制不同模型的受試者工作特征(ROC)曲線,使用曲線和橫坐標軸合圍面積作為模型擬合度評價標準(本研究設定為模型精度(A)),然后根據ROC曲線的橫坐標(1-特異性)和縱坐標(敏感性)計算約登指數,見公式(5)。根據約登指數的最大值確定模型的最佳臨界值,并計算驗證樣本的準確率。

約登指數=敏感性+特異性-1。

(5)

綜合考慮模型建模樣本精度值(AM)、驗證樣本精度值(AY)、驗證樣本準確率和模型復雜度(模型中的自變量數量),使用熵權法對不同模型進行綜合評價,計算其綜合得分[22],并篩選綜合得分最高的模型作為最優模型,以進行林火發生概率及林火發生風險區分布研究。4個評價指標中,擬合度值越大,模型的敏感性和特異性越好,擬合程度也越好;驗證樣本準確率越大,模型的預測效果越好。因此,建模樣本擬合度值、驗證樣本擬合度值和驗證樣本準確率為正向指標。而模型復雜度越大,所需獲取的數據則越多,因此,模型復雜度為負向指標。

2.6 林火發生概率及林火發生風險區的劃分方法

基于最優模型計算的延邊地區林火發生概率,使用經驗貝葉斯克里金插值法對林火發生概率進行空間插值,繪制林火發生概率分布圖,然后將林火發生概率以0.2為中斷值,由低到高,將吉林省劃分為I~V級的林火發生風險區,并繪制林火發生風險區分布圖。

3 結果與分析

3.1 應用LR模型的延邊地區林火發生概率預測

使用SPSS軟件通過逐步回歸(向前法)對17個初始自變量進行篩選,其中,最小相對濕度、坡向指數、植被指數和距最近鐵路距離4個自變量進入模型擬合階段(P<0.05)。將通過篩選的4個自變量與因變量進行Logistic回歸擬合,建立延邊地區林火發生概率預測模型。模型擬合結果如表1所示,4個自變量均通過了顯著性檢驗(P<0.05),且都與林火發生概率呈顯著負相關關系。其中,坡向指數和植被指數的優勢比較大,表示其對延邊地區的林火發生概率影響較大,其次為距最近鐵路距離,最小相對濕度對林火發生概率的影響相對較小。

基于LR模型建立的延邊地區林火發生概率預測模型如下:

P=1/[1+e-(-1.210-0.248x1-0.398x2-2.491x3-0.345x4)]。

(6)

式中:P為林火發生概率,x1為坡向指數,x2為距最近鐵路距離,x3為最小相對濕度,x4為植被指數。

3.2 應用GWLR模型的延邊地區林火發生概率預測

GWLR模型的變量篩選過程與LR模型相同。使用Gwmodel S軟件建立GWLR模型,核函數選擇“gaussian”,bandwidth type為adaptive,number of nearest neighbours為49。GWLR模型對每個樣本點進行參數估計,使用經驗貝葉斯克里金法對模型系數進行空間插值,估計無觀測值的非采樣點區域模型系數,圖1為GWLR模型系數的空間分布情況。

表1 Logistic回歸模型擬合結果

圖1 GWLR模型系數的空間分布

在4個自變量和常數項中,最小相對濕度與林火發生概率呈全局負相關;坡向和NDVI的系數情況相似,均僅在延邊州西北部和中南部呈正相關,其他區域呈負相關;距最近鐵路距離在延邊州北部呈正相關,而在延邊州中南部呈負相關;常數項在延邊州絕大部分區域呈負相關,僅在西南部極少部分區域呈正相關。

GWLR模型系數不唯一,GWLR模型的變量重要性與LR模型基本相同,均為坡向指數、NDVI和距最近鐵路距離較高,最小相對濕度較低(表2)。

表2 GWLR模型的變量重要性

3.3 應用RF模型的延邊地區林火發生概率預測

使用R語言caret軟件包的rfe函數對建模樣本進行10折交叉驗證篩選變量,變量篩選方法為“rfFuncs”,然后調用擬合模型中的“optVariables”輸出模型變量篩選結果。變量篩選結果表明,海拔、日降水量、平均氣壓、平均氣溫、平均水汽壓、日照時間、最小相對濕度、NDVI、人口密度、GDP和距最近鐵路距離共計11個自變量進入了模型擬合階段。使用R語言random Forest軟件包的random Forest函數利用上述篩選的11個自變量建立RF模型,然后使用predict函數計算驗證樣本的林火發生概率。如表3所示,在RF模型中,最小相對濕度和人口密度對林火發生概率的影響最大,高于其他9個自變量,變量重要性分別為0.605和0.604;其次是平均水汽壓、平均氣溫和GDP,變量重要性分別為0.348、0.300和0.288;然后分別為日照時間、距最近鐵路距離和海拔,變量重要性分別為0.200、0.192和0.189;NDVI、平均氣壓和日降水量相對較小,變量重要性分別為0.164、0.161和0.129。

表3 RF和SVM模型的變量重要性

3.4 基于SVM模型的延邊地區林火發生概率預測模型

使用R語言caret軟件包的rfe函數對建模樣本進行10折交叉驗證篩選變量,變量篩選方法為“lrFuncs”,然后調用擬合模型中的“optVariables”輸出模型變量篩選結果。變量篩選結果表明,海拔、坡向指數、日降水量、平均氣溫、平均水汽壓、日照時間、最小相對濕度、植被指數、人口密度、GDP、距最近鐵路距離、距最近公路距離和距最近居民點距離共計13個自變量進入了模型擬合階段。使用R語言e1701軟件包的svm函數利用上述篩選的13個自變量建立SVM模型,然后使用predict函數計算驗證樣本的林火發生概率。

如表3所示,在SVM模型中,最小相對濕度對林火發生概率的影響最大,變量重要性為0.467;其次分別是NDVI、海拔、日照時間、坡向指數和GDP,其變量重要性分別為0.073、0.070、0.065和0.064;再次分別為距最近居民點距離、人口密度、距最近公路距離、距最近鐵路距離和坡度,變量重要性分別為0.046、0.045、0.042、0.036和0.020;平均氣溫和平均水汽壓的變量重要性相對較小,變量重要性均為0.002。

3.5 延邊地區林火發生概率預測模型評價

延邊地區林火發生概率預測模型精度評價?;谀P皖A測概率及實際值繪制4個不同模型的ROC曲線,使用模型精度(A)值進行模型擬合程度評價。如圖2所示,4個模型的擬合效果均較好,模型精度(A)值均大于0.9,其中2種機器學習模型的擬合效果要優于2種廣義線性回歸模型。

AM為建模樣本精度值;AY為驗證樣本精度值。

延邊地區林火發生概率預測模型準確率評價。根據ROC曲線的坐標值確定不同模型的最佳臨界值,并計算不同模型預測驗證樣本的準確率。由表4可知,4種模型中,RF模型預測驗證樣本的準確率最高,為93.8%;其次為GWLR模型,驗證樣本準確率為87.2%;SVM模型和LR模型的準確率相近且較低,分別為83.7%和83.0%。就誤報率和漏報率而言,除LR模型外,其他3個模型均呈誤報率高于漏報率的特征。

表4 林火發生概率預測模型準確率評價結果

最優模型篩選。熵權法結果表明,4個不同模型中RF模型(0.81)的綜合得分最高,在延邊地區森林火災的發生預測中具有較好的表現,其次為GWLR模型(0.61)、LR模型(0.31)和SVM模型(0.12)的綜合得分較低。

3.6 延邊地區林火發生概率及林火發生風險區分布

根據最優模型(RF模型)預測的林火發生概率基于經驗貝葉斯克里金法繪制延邊地區的林火發生概率分布圖。如圖3表明,延邊地區南部的高林火發生概率分布面積明顯高于北部,除西南部毗鄰中部一側的部分區域的林火發生概率較低外,其他南部地區的林火發生概率均較高。從林火發生風險區來看,林火發生概率較高的IV、V級風險區主要分布在南部區域;延邊州北部區域多為林火發生概率較低的I、II級風險區。

圖3 林火發生概率及林火發生風險區

4 結論與討論

本研究基于延邊地區2000—2019年的森林火災資料、氣象數據、地形地貌數據、植被數據和人為與社會經濟數據,使用Logistic回歸模型、地理加權Logistic回歸模型2種廣義線性回歸模型和隨機森林模型、支持向量機模型2種機器學習模型,建立了延邊地區森林火災發生概率預測模型,篩選了影響林火發生的主要驅動因子,并繪制了延邊地區林火發生概率和林火發生風險區分布圖。結果表明,本研究建立的4個林火發生概率預測模型均具有較高的擬合度(模型精度值>0.9)和準確率(>80%)。就擬合度而言,機器學習模型的擬合度高于廣義線性回歸模型,這與機器學習模型極強的數據挖掘能力有關,其他相關研究中也得出了相似的結論[21,23]。就準確率而言,RF模型的準確率最高(93.8%),這主要是由于RF模型對數據異常值具有較高的容忍度[24-25];此外,GWLR模型中引入了空間因素,解決了空間非平穩性對預測模型的影響[26],因此也具有較高的準確率(87.2%)。經最優模型篩選,RF模型為最適用于延邊地區的林火發生概率預測模型。4個不同模型中,由于RF模型極高的建模樣本擬合度值、驗證樣本擬合度值和準確率均較高,模型復雜度相對較低,因此RF模型的綜合得分最高;其次為GWLR模型;LR模型的綜合得分高于SVM模型,二者的準確率相近,而SVM模型的模型精度值高于LR模型,但SVM模型的模型復雜度極高,自變量數量達到了13個,因此其綜合得分最低。

RF模型中,最小相對濕度和人口密度的變量重要性最大,對延邊地區的林火發生概率影響最大。這主要是因為氣象因子是影響林火發生的決定因素[27],尤其是濕度、溫度等氣象因子,可顯著影響地表細小可燃物含水率,從而影響林火發生的概率、林火發生時的火行為及林火的撲救難度[28]。且吉林省的主要火源為人為火,受人類活動的顯著影響,因此,人口密度等人類與社會經濟因子也具有較大的變量重要性[29]。延邊州南部的林火發生概率明顯高于北部,除西南部東側的部分區域外的其它南部區域林火發生概率均較高,而延邊州北部的絕大部分區域的林火發生概率均較低,僅在西北部的部分區域相對較高,但與延邊州南部相比,仍處于較低水平。

此外,本研究建立的延邊地區林火發生概率預測模型,模型擬合程度好、預測精度高,可應用在構建該地區森林火災發生概率預測預報系統中,進一步實現潛在林火發生概率風險分布的實時化和可視化。建議以最優模型(RF模型)構建森林火災發生概率預測預報系統,但是機器學習方法對計算機的使用能力要求較高,在基層森林防火部門應用于林火發生的預測可能存在一定的困難,所以在技術相對薄弱的條件下,建議使用GWLR模型用于系統的搭建。

猜你喜歡
火點林火坡向
無錫惠山區堅持“六抓六強” 構建林火防治銅墻鐵壁
林火監測系統在森林防火中的應用與發展
亞像元火點對紅外預警衛星的輻射干擾特性
半邊天
DEM地表坡向變率的向量幾何計算法
人身上有5個祛火點
點煙頌
江蘇省海門市如何實現連續4年秸稈焚燒“零火點”?
青藏高原東緣高寒草甸坡向梯度上植物光合生理特征研究
坡向和坡位對小流域梯田土壤有機碳、氮變化的影響
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合