?

基于機器學習的降雨—滑坡災害鏈直接經濟損失脆弱性評估*

2022-02-05 13:43李子軒
災害學 2022年4期
關鍵詞:脆弱性決策樹降雨

李子軒,杜 鵑,徐 偉

(1.北京師范大學 地理科學學部 環境演變與自然災害教育部重點實驗室,北京 100875;2.北京師范大學 地表過程與資源生態國家重點實驗室,北京100875;3.應急管理部-教育部 減災與應急管理研究院,北京 100875)

現有降雨—滑坡災害鏈的研究主要集中在兩方面:第一個是誘發滑坡的降雨閾值[1-4],包括降雨誘發滑坡的閾值形式,不同的研究區的閾值曲線特點,以及加入閾值曲線的新的變量等;第二個是降雨滑坡敏感性(易發性)評估,采用不同的方法如邏輯回歸模型、隨機森林模型等實現降雨滑坡敏感性分布圖的繪制[5-9]。而關于滑坡的社會經濟影響方面的現有研究仍然很少[10-11]。一般來說,由于數據缺乏,大多數關于滑坡的社會經濟影響評估是有限的[12],并且在量化方法上呈現一定的復雜性[10]。如ZHANG等[13]利用動態投入產出模型和重力模型評估公路沿線滑坡導致的間接經濟損失;ZUMPANO等[14]以農村土地為研究對象基于山體滑坡事件估計了歷史和未來的經濟損失。但針對降雨—滑坡災害鏈致災與成害過程聯系,即脆弱性研究仍較為缺乏。在滑坡脆弱性研究中,往往難以對致災因子的具體強度進行表征,因此研究者更多的關注社會脆弱性,即通過影響災害損失的社會經濟多方面因素進行脆弱性評估。如SAHA等[15]采用深度學習算法結合災害脆弱性影響要素的空間分布,評估了不丹的滑坡脆弱性。本研究以貴州省畢節和六盤水兩市的降雨—滑坡災害鏈事件為例,利用機器學習方法建立降雨—滑坡災害鏈直接經濟損失脆弱性的定量評估模型,以期為降雨—滑坡災害風險評估提供關鍵參數,也為風險管理實踐提供參考。

1 數據與研究方法

1.1 研究區介紹

本文以貴州省畢節、六盤水兩市作為研究區進行降雨—滑坡災害鏈直接經濟損失脆弱性定量評估。兩市地處貴州省西部云貴高原一、二級臺階地區斜坡地帶,地形地勢復雜;同時位于亞熱帶季風區,全年濕潤,降水較多,時有強降水發生。兩市滑坡災害發生頻繁,尤其是在降水密集的6—8月份。根據畢節市自然資源和規劃委(https://www.bijie.gov.cn/bm/bjszrzyhghj)和六盤水市自然資源局(http://zrzyj.gzlps.gov.cn)統計,至2021年年末,兩市共有具有變形跡象的地質災害隱患點2 171處,占貴州全省的21.66%。其中滑坡隱患點950處,占貴州全省的19.62%(圖1)。

圖1 研究區與滑坡編目數據位置示意圖(基于貴州省自然資源廳標準地圖服務網站審圖號為黔S(2022)005號的標準地圖制作,底圖無修改)

1.2 脆弱性評估數據選取

本文所使用的數據如表1所示?;跒暮ο到y的功能體系,本文從致災因子危險性、孕災環境敏感性以及承災體暴露三個維度,選取可能影響研究區暴雨—滑坡直接經濟損失脆弱性的因子,共3個類別9個變量。

(1)致災因子指標。降雨強度指標直接影響著滑坡發生的可能性以及影響強度。本文選取降雨持續時間(D)、累積有效降雨量(CR)作為致災因子指標。其中CR考慮了距離災害發生時間點不同時間長度內的降雨可能對滑坡發生的貢獻不同,計算公式為[16]:

(1)

式中:CR為累積有效降雨量,i為前期降雨的n個時段,Ri表示每個時段內的降水量,α為經驗降雨系數,取0.8。

(2)孕災環境指標。不同地形地貌、植被覆蓋、水文條件、以及人類活動因素都可能對滑坡的發生產生不同的影響。本文選取高程(DEM)、NDVI、距水系距離(DS)和距道路距離(DR)作為脆弱性模型的孕災環境指標。

(3)承災體指標。通常,在人口和財富集中的地區,災害可能導致的直接經濟損失也會相對較高。本文采用GDP和人口密度(PP)作為脆弱性模型的承災體指標。

在得到各指標原始數據之后,將歷史暴雨—滑坡點分布與各指標空間分布圖疊加,提取災害點各指標的屬性值,共同構成降雨—滑坡災害鏈直經濟損失脆弱性評估的數據清單。其中直接經濟損失折算為2015年基準價。

1.3 脆弱性評估方法

考慮到影響直接經濟損失脆弱性的要素是多方面的,且不存在明顯的線性關系。為更好地建立致災因子強度—損失的關系,本文在脆弱性模型的選取中選擇基于決策樹算法的隨機森林、XGBoost機器學習算法進行定量評估,并進行評估效果的對比分析。

(1)決策樹算法(Decision Tree,DT)。決策樹算法本質上是一個樹形結構的算法,樹的節點代表對輸入因子要素的判斷,樹的分叉則代表對每一個判斷結果進行的輸出,通過多次的輸出過程得到了最后的葉節點則代表了模型最后輸出的結果。

決策樹算法常用于分類問題與回歸問題。當目標問題為回歸問題時,主要指CART回歸樹算法,其核心步驟為:

(2)

式中:yi為輸入樣本點的值,c1和c2分別為兩組樣本的輸出均值。式(2)表示在建立回歸樹時,對于任意用于劃分的樣本特征A,對應的任意的劃分點s兩邊劃分成的數據集D1和D2,求出一個使得D1和D2各自所對應的均方差最小,同時兩者均方差之和最小所對應的特征和特征值劃分點。通過輸入災害損失脆弱性的影響因素作為回歸樣本,建立非線性回歸模型,通過影響因素的屬性值實現對災害損失的預測。

(2)隨機森林模型(Random Forest,RM)。隨機森林算法是機器學習領域常用于分類問題和回歸問題的算法之一。通過隨機森林的回歸模塊可以實現對災害損失的預測,從而將其使用于災害脆弱性和風險評估中。

隨機森林算法也是基于決策樹的一種算法,不同的是,它是對多個決策樹的綜合運用,來避免單一決策樹容易出現的過擬合問題。用于回歸問題時,隨機森林由多個互不相關的回歸樹組成,且模型的最后輸出結果由每一個回歸樹來確定。

(3)極致梯度回歸模型(XGBoost)。XGBoost 是一種用于構建監督回歸模型的機器學習方法,屬于Boosting算法族GBDT(梯度提升決策樹)算法框架下中的一種。在目標問題為回歸問題時,目標函數包括梯度提升算法損失和正則化項:

(3)

表1 研究數據

表2 脆弱性變量相關性檢驗矩陣

在回歸問題中常使用reg:linear作為損失函數,之后使用二階泰勒展開近似,在基于殘差的擬合條件下將目標函數改寫,使其最小化;而正則化項的處理需要將寫成樹結構的形式,并代入目標函數,得到最終優化之后的目標函數,即一個二次函數,根據二次函數的性質公式可以得到最優的參數和目標函數最小值。

XGBoost由于其正則化,并行計算、引進特征子采樣等優點,在避免過擬合的同時,又能減少計算,在處理災害損失預測等多元非線性回歸問題時有著較大的優勢。

在進行模型模擬之后,本文采用RMSE(均方根誤差)、MAE(平均絕對誤差)和R2(確定性系數)統計量對模型的擬合效果進行檢驗。其中R2越接近1表示擬合效果越好,反之則越差;RMSE和MAE統計量越接近0表示模型的擬合效果越好。

2 研究區降雨—滑坡災害鏈直接經濟損失脆弱性評估結果與分析

2.1 變量篩選

在選取變量后,需要對變量的自相關性進行檢驗,以剔除具有較強相關性的變量。本文采用斯皮爾曼相關系數進行檢驗,該相關系數對數據的分布沒有要求,適用范圍廣。變量的相關性矩陣如表2所示。

基于多重共線性的考慮,不存在明顯與其它多個變量均相關的變量,因此,本文將8個指標均納入模型中進行計算。

2.2 基于機器學習模型的脆弱性評估結果對比分析

在得到降雨—滑坡災害鏈事件損失數據清單之后,將數據寫入模型進行訓練。其中,模型的相同類型參數應盡可能保持一致。本文中選取70%的樣本作為訓練集,30%的樣本作為預測集,構建脆弱性預測模型:

Loss~f(D,CR,NDVI,DEM,DR,DS,GDP,PP)。

(4)

模型的訓練結果如表3所示。模型訓練結果顯示,隨機森林算法相比于決策樹算法擁有更高的精度,XGBoost算法在研究區的直接經濟損失脆弱性評估中缺乏可靠性。

為了更直觀的展現模型的預測效果,使用模型測試集數據建立實際損失—預測損失曲線圖,其中y=x曲線(虛線)表示實際損失與預測損失重合線,即越靠近曲線,模型的預測效果越好。圖2展示了模擬預預測效果較好的隨機森林算法模型4(圖2a)以及決策樹算法模型1(圖2b)的實際損失與預測損失關系。

表3 不同機器學習算法得到的模型訓練結果比較

圖2 不同模型的實際損失—預測損失曲線

表4 不同模型事件測試集中損失極值區域預測的效果實例比較

圖2的散點圖表明,基于測試集的損失預測結果均落在了y=x曲線的兩側,但對于損失的極大值和極小值的預測效果較差,損失的中位數附近預測結果較好。一方面,損失的極值本身就是相對小概率的事件;另一方面,已有的數據量條數較少限制了模型對于損失極值的預測效果。從散點圖的比較來看,決策樹算法的預測趨勢更接近于參照線y=x,總體預測效果要好,隨機森林方法雖然統計檢驗量表現較好,但在實際預測中偏離值仍然相對較大(表4)。

雖然基于機器學習算法的模型無法提供顯性關系的表達式,但可以通過對回歸分析中變量重要性的計算來比較不同影響因素之間的重要性關系。圖3是決策樹算法和隨機森林算法的變量重要性結果。

圖3 不同模型的變量重要性結果

兩類模型前四個重要解釋變量總解釋率均超過80%,但不同模型對變量重要性的識別不同。決策樹模型前四重要的解釋變量為NDVI、GDP、高程以及距河流距離,而隨機森林模型中累積有效降雨量(CR)是最為重要的變量,單一變量解釋率達到0.51,距道路距離(DR)變量次之,重要性只有0.15。人口密度因素(PP)在兩個模型中得到的變量重要性均低于0.05。根據變量重要性結果的分析,不同模型對于變量的識別也存在不同的結果。決策樹算法采用的是單一的樹狀結構對應特征要素進行回歸結果的輸出,而隨機森林模型是隨機選取同時訓練多棵決策樹的集成學習算法,相比決策樹算法來說對非平衡和內部偏差比較大的數據有更好的效果,在特征采樣過程中也更為復雜。因此決策樹與隨機森林輸出的變量重要性也不同,相比較而言,隨機森林方法能夠更好地反應不同變量對于最終損失值的貢獻程度。

對于數據相對較為不平衡的災害損失數據來說,隨機森林方法往往具有更好的效果。因此在應用脆弱性評估模型對區域脆弱性評估時,考慮區域的自然環境和社會條件特征也較為重要,進行多模型的比較,更有助于選取最適合目標評估區域的模型。

3 結論與討論

3.1 結論

本文通過對貴州省畢節、六盤水兩市的降雨—滑坡災害鏈事件的分析,基于決策樹、隨機森林和XGBoost機器學習算法,建立了定量的直接經濟損失脆弱性評估模型。結果表明:

(1)隨機森林和決策樹方法具有相對較高的精度,最優模型的R2分別為0.284和0.342,RMSE分別為7.92和7.59;

(2)模型均顯示出對損失極大值和極小值預測的不精確;

(3)不同的模型對脆弱性貢獻變量的重要性識別結果也不同。決策樹模型中脆弱性貢獻變量最為重要的是NDVI、GDP和高程,而隨機森林模型中則為累計有效降雨量和距道路距離。

3.2 討論

機器學習方法已經在災害脆弱性評估領域得到使用,包括滑坡和其它災種的研究[15,17-18],但已有的基于機器學習的脆弱性評估重點在區域特征的空間分布,采用基于網格單元的評估,更多表征的是區域脆弱性的相對大??;或是基于行政單元進行多要素的社會脆弱性評估。本文的創新點在于,通過災害事件點的社會經濟屬性數據與損失數據,建立了基于災害事件的機器學習的降雨—滑坡脆弱性評估模型,從而實現了損失絕對值的評估,同時提供了可能的災害直接經濟損失預測,從而提供更為精確的脆弱性評估。同時本文對比了多種機器學習算法,更好反映了不同算法在模型構建中的差異。與傳統的致災因子—災情范式的脆弱性評估相比,機器學習方法擴展了評估的范圍,納入了更多影響區域災害損失的因素,能夠更全面的反映區域特點;而與傳統的滑坡脆弱性評估相比,本文通過降水要素與滑坡導致的損失在模型中的結合,提出了能夠運用于降雨—滑坡災害鏈的脆弱性評估模型。

基于本文的研究,結合現有的災害風險管理工作現狀,本文認為以下內容仍然需要在之后的研究中得到重視:

(1)目前滑坡損失數據的獲取較為困難。自然災害的社會經濟影響或風險評估需要翔實的損失數據作為基礎。在未來的研究工作中,需要重點關注如何建立可靠的損失數據收集和篩選機制,有關災害管理部門也應推進拓寬數據獲取渠道,建立統一可獲取的滑坡災害損失編目數據庫。

(2)對降雨—滑坡災害鏈的研究現有的重點仍然在致災過程中,關注滑坡可能導致的社會經濟影響相關工作較少。本文的研究為可能的降雨—滑坡災害鏈綜合災害風險評估框架的構建提供了可行的方法思路,以適應在自然災害影響不斷變化的大背景下災害風險管理工作的需要。

猜你喜歡
脆弱性決策樹降雨
工控系統脆弱性分析研究
Veejet80150噴頭特性及其在降雨機中的應用
龍王降雨
決策樹和隨機森林方法在管理決策中的應用
基于DWT域的脆弱性音頻水印算法研究
泥石流
煤礦電網脆弱性評估
基于決策樹的出租車乘客出行目的識別
基于攻擊圖的工控系統脆弱性量化方法
基于模糊關聯規則和決策樹的圖像自動標注
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合