?

基于不同機器學習算法的地震滑坡易發性評價
——以魯甸地震為例

2022-05-07 13:26吉日伍呷田宏嶺韓繼沖
關鍵詞:易發滑坡機器

吉日伍呷,田宏嶺,韓繼沖

(1.中國科學院、水利部成都山地災害與環境研究所,四川 成都 610041; 2.中國科學院大學,北京 100049; 3.中國科學院 地表過程與山地災害重點實驗室,四川 成都 610041;4.北京師范大學 地理科學學部,北京 100875)

0 引 言

在地震活躍的山區,由地震引發的滑坡是重要的次生災害之一,滑坡對人類的生命財產造成了嚴重的破壞[1].已有研究統計表明,2004年到2010年間發生了 47 736 起地震引發的山體滑坡傷亡事件[2].有時地震引發的山體滑坡造成的生命和財產損失超過地震造成的損失[3].滑坡在地貌和地質災害演變中起著重要作用[4].中國西南山區與青藏高原東緣相接,是地震和滑坡災害發生的熱點地區.因此,及時準確地對地震引發的滑坡的易發性進行評價有利于減少災害帶來的損失.

目前,滑坡易發性地圖繪制方法可分為兩種:定性和定量方法.在定性方法中,一般根據專家意見指定評價指標的權重,例如層次分析法[5],這種方法較為主觀.定量的方法一般從數據中挖掘信息,可以將其視為相對客觀的方法.定量的方法包括頻率比[6]、信息量模型[7]、MaxEnt模型[8]、Newmark模型[9]和機器學習方法等.機器學習方法又包括邏輯回歸、隨機森林、K近鄰、貝葉斯、C5.0決策樹、支持向量機和神經網絡等[10-12].基于機器學習方法對滑坡易發性進行評估是目前該領域的研究熱點之一[3].與傳統的統計模型不同,機器學習模型旨在做出最準確的預測,而傳統的統計模型旨在推斷變量之間的關系[13].這些方法可作為評估滑坡易發性的有用工具,還可用于評估不同因素對滑坡發生的影響.例如,馬思遠等人[12]基于邏輯回歸模型對九寨溝地震滑坡的危險性進行了評估;胡安龍等人[14]基于貝葉斯算法對滑坡的穩定性預測進行了研究;吳潤澤等人[11]基于隨機森林算法對三峽庫區湖北段的滑坡易發性進行了評價.這些研究大多基于單一的機器學習方法,缺乏不同機器學習方法的精度對比.由于不同機器學習方法的原理不同,預測精度可能存在較大差異.因此,為了更準確地評估地震滑坡的易發性,有必要對目前應用較為廣泛的幾種機器學習方法在地震滑坡易發性評估中的性能進行對比.

本文以魯甸Ms6.5級地震作為研究案例,首先構建評價指標體系,然后選擇了四種常見的機器學習算法構建預測模型,基于不同的精度評價指標對比這些模型在地震滑坡易發性評估中的性能.最后,基于隨機森林模型分析了不同評價指標的相對重要性.本文的研究結果可為評價指標的選擇和未來地震滑坡易發性建模工作提供一定的參考.

1 研究區與數據

1.1 研究區

本文以2014年8月3日云南省魯甸縣發生的Ms6.5級地震作為研究案例(圖 1).本文中的研究尺度為區域尺度,面積約為 2 590 km2.魯甸地震的震中位于103°20′24″E, 27°6′0″N(中國地震臺網).已有統計表明,魯甸地震中共造成617人死亡,112人失蹤和 3 143 人受傷[15],人員傷亡和經濟損失嚴重.此次地震造成了大量的山體滑坡,例如最大的紅石巖滑坡(103°24′0″E, 27°2′16.8″N),體積約為12.24 Mm3[16].與其他地方發生的地震相比,魯甸地震引發了更多數量和種類的滑坡[17].因此,對該地區的地震滑坡易發性進行建模具有典型性.

1.2 數據來源與處理

1)滑坡編錄數據.本文使用的研究區內的地震引發的滑坡數據來源于已有的滑坡編錄數據庫[18],滑坡數據集由吳瑋瑩等人[19]制作完成.該滑坡編錄數據主要由實地調查和基于地震發生后的高分辨率的衛星影像目視解譯完成,數據具有較高的質量和完整性.本文參照已有的研究方法[2],在ArcGIS中生成等量的非滑坡點.最后,將滑坡和非滑坡點分別按照7∶3的比例進行隨機劃分[11],得到用于訓練機器學習模型的訓練數據集(1 434 個樣本點)和用于驗證模型的預測精度的測試數據集(614個樣本點).

2)地震動參數數據.本文中使用的地震動參數包括修正的麥加利地震烈度(Modified Mercalli Intensity, MMI),MMI表示不同地區產生的地面震動強度,該指標被認為是客觀和準確的.MMI以地震記錄數據為基礎,地面震動嚴重程度隨著MMI等級的提高而增加.本文使用的數據來源于美國地質調查局的ShakeMap數據集.需要注意的是ShakeMap數據的準確性可能會影響滑坡易發性的預測精度.

3)地形數據.數字高程數據(Digital Elevation Model, DEM)來源于美國NASA的航天飛機雷達地形任務(SRTM V4).基于DEM在SAGA中計算得到地形坡度、曲率和地形濕度指數[1]的空間分布.地形濕度指數(Topographic Wetness Index,TWI)的計算公式如下:

(1)

式中:a表示網格單元排水的局部上坡集水區,b表示坡度.

4)斷層和巖性數據.本文中研究區使用的斷層數據來源于GEM全球活動斷層項目的斷層數據集(https://github.com/GEMScienceTools/gem-global-active-faults).然后在ArcGIS中使用歐式距離工具生成距斷層距離的空間分布圖.巖性數據來源于GLiM 全球巖性數據集[20].

5)水文和植被數據.本文使用的水文數據為研究區的河流矢量數據,在ArcGIS中使用歐式距離工具生成距河流距離的空間分布圖.此外,本文還基于最大值合成法和Landsat衛星影像得到了研究區地震發生前五個月內的歸一化植被指數最大值(Normalized Difference Vegetation Index, NDVI),其中Landsat影像由CFMASK(The C Function of Mask)算法去除云和陰影區域.

2 構建評價指標體系

圖2 地震滑坡易發性評價指標空間分布Fig.2 Spatial distribution of evaluation indexes of earthquake landslide susceptibility

基于數據的可獲取性和參照前人的研究[1, 11-12, 21],本文從地震動參數、植被、斷層巖性、水文和地形方面構建了地震滑坡易發性評價指標體系(圖2).(1)MMI:地震動參數是引發滑坡的關鍵因素,MMI能夠反映地面震動的特性[1].(2)NDVI:該指標代表了植被覆蓋率,而覆蓋率會影響土壤-植被根基的復合強度,從而影響邊坡的穩定性[11].(3)距斷層距離:發生地震時,斷層周圍容易發生滑動,巖石的穩定性差,滑坡經常發生在斷層處[22].(4)巖性:不同的巖性單元對滑坡的發生有不同的影響,低強度的巖石類型易于滑落且巖石的易蝕程度影響著侵蝕和風化過程[21].(5)距河流距離:該評價指標反映了河流侵蝕山坡的能力,河流的侵蝕作用是滑坡的主要成因[10].(6)高程:海拔高度會通過控制植被和地理環境來影響邊坡的穩定性[12].(7)坡度:該指標是影響滑坡穩定性的重要因素,隨著坡度角的增加,滑坡發生的頻率顯著增加[22].(8)TWI:它顯示出斜坡的濕度和流動模式,可以較好地描述地形變化對土壤徑流的影響[1].(9)曲率:描述了地形的形態,影響沉積和侵蝕的速度[21].

在訓練機器學習模型之前,需要對評價指標進行共線性檢驗.本文計算了滑坡點的各評價指標間的皮爾遜相關系數(r)和顯著性,若相關系數的絕對值大于0.7,則應剔除相關指標[23].共線性檢驗是使用R語言完成的,其中相關系數由“cor”函數計算得到,顯著性檢驗由“cor.mtest”函數計算得到.相關性結果表明,不同指標間的相關系數均小于0.7,這表明指標間不存在共線性,滿足用于模型訓練的數據要求.

3 方 法

3.1 機器學習算法

1)邏輯回歸(LR)

邏輯回歸是一種適用于多變量控制的廣義線性回歸分析模型,其是滑坡易發性建模中廣泛應用的模型之一[24].邏輯回歸模型與常見的線性回歸模型不同,其通過Sigmoid函數將輸出值限制為區間[0,1].本文中使用的邏輯回歸方程中的參數估計方法為點估計.該算法的具體公式可參考文獻[12].

2)K近鄰(KNN)

K近鄰方法是一種基于實例的學習方法,輸入由特征空間中的k個最接近的訓練實例組成,實例被分配到所選近鄰中最頻繁的類.本文中使用中等KNN算法的鄰點個數為10,距離度量選擇Minkowski,該算法的具體原理可見參考文獻[25].K近鄰目前已在包括滑坡易發性地圖繪制在內的許多領域中使用[25].

3)樸素貝葉斯(BAYES)

樸素貝葉斯分類器是基于貝葉斯定理的分類系統,該算法假設所有屬性在給定輸出類別的情況下都是完全獨立的,具體原理可見參考文獻[26].本文中的貝葉斯算法的數值預測變量分配了高斯分布.該算法的主要優點是它很容易構造,不需要任何復雜的迭代參數估計方案.

4)隨機森林(RF)

隨機森林是由Breiman在2001年開發,其使用多顆樹進行預測分類,最后通過投票得到最終的預測結果[27].該方法已廣泛應用于許多領域,并取得了較好的效果.與其他機器學習模型不同,RF提供了衡量指標變量相對重要性的度量、袋外數據錯誤率和基尼指數.本文中隨機森林算法的最大分裂數為 1 433.

本文在不同機器學習模型預測的地震滑坡發生概率是通過每個網格單元中的模型輸出(在0到1之間)來估計的,并以0.5的概率作為劃分滑坡和非滑坡的閾值.上述4種機器學習算法在Matlab的Classification Learner中實現.

3.2 精度評價

為更加客觀地對比不同機器學習模型的地震滑坡預測性能,參照前人的研究[28],本文使用了五項指標進行精度評價,包含精確度、靈敏度、準確度、接受者操作特性曲線(Receiver Operating Characteristic curve,ROC)和ROC曲線下的面積(Area Under Curve,AUC)值.精確度表示預測為預測正確的滑坡數量占實際滑坡數量的比例;靈敏度表示預測正確的滑坡數量占預測為滑坡總數量的比例;準確度同時兼顧了滑坡和非滑坡預測結果的精度.

(2)

(3)

(4)

式中:FP表示將非滑坡錯分為滑坡的樣本數量,FN表示將滑坡錯分為非滑坡的樣本數量,TP表示正確預測為滑坡的樣本數量,TN表示正確預測為非滑坡的樣本數量.

4 結 果

4.1 模型精度對比

基于上述方法,得到了不同機器學習模型在測試數據集上的預測精度(表1).對比發現,四種機器學習方法中,基于RF模型中有20個非滑坡樣本錯分為了滑坡,17個滑坡樣本錯分為了非滑坡,其靈敏度(0.94)、精確度(0.94)和準確度(0.94)均高于另外3種機器學習模型.此外,本文發現BAYES和KNN模型均具有較高的靈敏度(分別為0.93和0.92)和較低的精確度(分別為0.85和0.88),這表明BAYES和KNN模型均高估了滑坡發生的概率,即將更多的非滑坡預測為了滑坡,且BAYES比KNN模型高估程度更高.同時,本文發現雖然LR、KNN和BAYES模型的準確度幾乎相同(分別為0.89,0.90和0.89),但LR模型的靈敏度(0.90)和精確度(0.89)相差較小,這表明LR模型在滑坡和非滑坡的預測精度較為平衡.

表1 不同機器學習模型的混淆矩陣和精度評價

圖3 不同機器學習模型預測結果的ROC曲線和AUC值Fig.3 ROC curve and AUC value of the prediction results of different machine learning models

ROC曲線結果(圖3)顯示:LR,KNN和BAYES模型的曲線相似,而RF模型的ROC曲線更加接近于1,表現更好.此外,RF的AUC值(0.98)相比另外三種機器學習模型也更高.綜合分析表明,RF是在地震滑坡預測中性能最好的模型,BAYES模型預測精度相對較差.

4.2 地震滑坡易發性制圖

圖4顯示了四種機器學習模型的地震滑坡易發性空間預測結果.BAYES模型的易發性結果明顯高估了滑坡的發生概率.RF模型預測的易發性地圖與實際滑坡的發生位置最為相符,滑坡發生的區域位于RF模型預測的高發生概率地區.LR和KNN的易發性制圖結果誤差相對較小.此外,不同模型預測結果的概率范圍與實際發生的滑坡數量的統計結果顯示(表2):RF模型的結果中,隨著滑坡發生概率的升高,像元個數逐漸減少,而實際發生的滑坡數量逐漸升高,且位于預測概率大于0.5、0.7和0.9的區域的實際滑坡數量分別占總實際滑坡數量的97.36%、92.66%和74.07%.對比LR、KNN模型可以發現,雖然RF模型預測概率在0.9~1的像元個數最少,但包含的實際滑坡數量最多,分別比LR和KNN多152和148個.這更加證明了隨機森林在地震滑坡易發性制圖中的準確性.此外,雖然BAYES預測結果中的滑坡發生概率在0.9~1的范圍內包含的滑坡個數比RF模型多,然而其在該區間的像元數卻遠大于RF模型.綜合分析表明,RF模型的地震滑坡易發性制圖結果更加符合實際情況.

圖4 不同機器學習模型預測的地震滑坡易發性空間分布圖Fig.4 The spatial distribution map of earthquake landslide susceptibility predicted by different machine learning models

表2 不同機器學習模型的滑坡易發性等級的像元和實際滑坡數量統計

4.3 指標相對重要性評價

基于隨機森林模型對不同指標在地震滑坡易發性建模中的相對重要性進行了評價.兩種相對重要性評價的依據分別為袋外數據錯誤率(圖5左圖)和基尼指數(圖5右圖)[3].結果表明,兩種評價標準下,不同指標對模型建立的相對重要性排序結果相似,距河流距離、MMI、距斷層距離和坡度為相對重要的評價指標.MMI在袋外數據錯誤率和基尼指數的排名中,分為位于第一位和第二位.先前的研究也表明,在地震引發的山體滑坡中,地震動參數是評估邊坡穩定性的良好和可靠的標準,是最重要的影響因素之一[29].因此,在未來的滑坡易發性建模中,不應忽視地震動參數的作用.

圖5 基于隨機森林模型的評價指標相對重要性Fig.5 Relative importance of evaluation indicators based on random forest model

5 討 論

目前,人工智能技術不斷發展,機器學習是人工智能中發展最快的分支之一,統計機器學習模型建立在統計框架之上.然而部分模型仍然存在爭議,例如邏輯回歸模型.部分研究認為邏輯回歸屬于統計學模型[25-26],也有一些研究將其作為機器學習模型中的一種[6].本文將邏輯回歸放在了機器學習模型中,主要有以下觀點.(1)統計學是從樣本中得出總體推論,統計建模更多地是尋找變量之間的可解釋關系[13].雖然有很多統計模型也可以進行預測,但預測結果的準確性并不是它們的強項.相比之下,機器學習專注于預測,其依靠已有的數據經驗找到可概括的預測模式,但對模型的可解釋性關注相對較弱.本文使用邏輯回歸建立專注于滑坡預測結果的準確性,我們不需要知道關于滑坡與各變量之間測量的具體機理細節.(2)監督機器學習技術通過為模型提供可以從中學習的輸入輸出樣本數據,來訓練模型,該學習過程稱為模型的“訓練”,訓練過程可能涉及重復的更新參數.模型訓練好之后,需要使用新的數據來驗證模型學習或預測的性能.在傳統的統計模型中,其通過使用參數檢驗等指標來檢查模型情況,所以兩者的評估程序存在差異[30].從這種角度看,本文中的邏輯回歸是一種監督機器學習模型,因為它使用已有的70%的樣本數據作為訓練集來訓練模型,并使用其余30%新的樣本數據作為測試集來驗證模型的預測性能.(3)此外,目前許多主流的編程語言中的機器學習庫或軟件將邏輯回歸分類為機器學習模型.例如Python編程語言中的Scikit-learn機器學習庫,MATLAB軟件中的Classification Learner機器學習分類算法APP,以及數據挖掘軟件Weka.總的來說,統計學模型和機器學習模型在某些方面可能是互補的,隨著理論和技術的發展,該問題仍需要更加深入的討論.

6 結 論

本文以魯甸縣發生的Ms6.5地震為研究案例,對比了邏輯回歸、K近鄰、樸素貝葉斯和隨機森林在地震滑坡易發性建模中的性能,得到以下結論:

1)相較于其他三種機器學習算法,隨機森林的各項精度評價指標(靈敏度,精確度,準確度,ROC曲線和AUC值)均表現最高,且該模型預測的地震滑坡易發性的空間分布圖與實際的地震滑坡分布一致性較高,該結果對未來地震滑坡易發性評價的模型選擇具有參考價值.

2)基于隨機森林的評價指標的相對重要性結果顯示距河流距離、MMI、距斷層距離和坡度是影響滑坡易發性相對重要的評價指標.

猜你喜歡
易發滑坡機器
2001~2016年香港滑坡與降雨的時序特征
機器狗
機用鎳鈦銼在乳磨牙根管治療中的應用
貴州省地質災害易發分區圖
機器狗
夏季羊易發疾病及防治方法
冬季雞腸炎易發 科學防治有方法
未來機器城
淺談公路滑坡治理
“監管滑坡”比“渣土山”滑坡更可怕
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合