?

基于多分類支持向量機模型的長白山崩塌災害危險性評價

2024-01-19 08:47程眾帥張以晨張繼權郎秋玲齊佳偉
關鍵詞:危險性災害分類

程眾帥,張以晨,張繼權,2,郎秋玲,齊佳偉

(1.長春工程學院 吉林應急管理學院,長春 130012; 2.東北師范大學 環境學院,長春 130024;3.長春工程學院 勘查與測繪工程學院,長春 130021)

0 引言

我國是世界上的大國之一,人口數量和經濟體量較大,地形復雜多樣,隨著人類工程活動范圍的擴大,對地質環境造成的影響和破壞也越來越大,許多自然災害頻繁發生,人民的生命財產安全受到威脅,國家的經濟可持續發展受到較大的阻礙[1-3]。為了能夠在早期識別、規避和管理災害風險,減少地質災害對人民生命財產造成的損失,提高防災減災能力,精確有效地進行地質災害危險性評價是防災減災的關鍵[4-5]。因此,地質災害危險性評價技術的研究受到了許多研究學者的關注,危險性評價是風險評價的基礎,是災害發生后針對災害自然屬性進行的相關預測,即預測地質災害發生的時間與空間概率等[6-7]。許多學者對其進行了大量的研究,研究成果豐碩,評價方法類別較多且越來越完善,在危險性評價方面,常見的危險性評價方法有定性評價、定量評價及定性和定量評價相結合的方法。劉曉[8]從地質環境、誘發因素和歷史災害點3個方面選取指標來構建指標體系,運用層次分析法計算指標權重進行空間疊加,得出遼源市危險性區劃圖;翟越等[9]基于災害形成機理,從地質環境和誘發因素等方面選取指標并建立指標體系,運用基于模糊綜合評價方法改進的突變模型進行崩塌危險性評價,避免了主觀賦權的局限性;婁海濤等[10]從地形地貌、地層巖性和氣象水文等方面選取10個評價指標構建危險性指標體系,采用信息量法對安龍縣崩塌進行危險性評價及區劃;張以晨等[11]在對吉林省地質災害風險性區化研究中的危險性評價方面運用證據權重法計算危險指標權重來構建評價模型,得出危險性評價結果。隨著計算機技術與數學理論的快速發展,學者們將一些機器學習和深度學習應用到了崩塌災害的危險性評價中,如支持向量機、隨機森林、決策樹和神經網絡模型等[12-13],王念秦等[14]通過選取指標運用不同核函數下的二元分類支持向量機對長安區災害進行危險性評價,研究結果為其他類似地質環境條件下的研究區域提供了科學參考。

在一些文章中,二元分類評價模型常用來評價崩塌災害的危險性,通過采樣提取的非災害點和災害點構建樣本數據庫,然后用二元分類的方式進行危險性評價,但是二元分類樣本類型單一、分類誤差大、分類速度慢并且沒有考慮到災害點規模對危險性評價結果的影響,同時傳統的危險性評價常通過選取指標、量化和分級指標、計算指標權重等步驟進行評價[15],但指標閾值的劃分、指標權重的賦值會受到主觀因素影響,進而會影響評價結果的合理性和準確性,而多分類支持向量機評價模型會避免這一局限性。

基于前述不足,以吉林省長白山自然保護區為例,根據開發區地質災害調查與區劃報告資料和遙感影像數據等,首先分析地質環境條件和災害點的關系及災害點分布特征,接著選取指標建立危險性指標體系,用災害點和通過采樣提取的非災害點構建樣本數據庫,并且按照地質規模等級規范把災害點樣本分成了多類型樣本,考慮到災害點規模對危險性評價結果的影響,所以運用了基于災害規模等級的多分類支持向量機構建危險性評價模型對研究區進行危險性評價,同時避免了傳統危險性評價的指標閾值劃分、指標權重計算的主觀局限性。結果表明,極高和高危險性區主要集中在研究區的中東部區域,運用ROC曲線檢驗模型的性能,得知AUC值為0.898 37,并且驗證了該模型的有效性,危險性評價結果對當地政府開發災害監測預警技術平臺及區域規劃具有現實意義[16]。

1 研究區域

長白山保護開發區位于吉林省東南部山區,由吉林省長白山保護開發區管委會管轄,其地理坐標為東經127°28′~128°16′,北緯41°42′~42°25′。長白山保護開發區下轄池北區、池西區和池南區3個行政區,轄區面積3 278 km2,總人口為6.5萬人??傮w地勢以火山錐為中心,向四周急劇降低,錐體頂部中心為天池火山湖。長白山地貌成因類型為侵蝕火山地形、構造剝蝕地形二類,海拔最低點為792 m,海拔最高點為2 691 m,相對高差1 899 m,區內形成崩塌的巖體主要包括5種巖(土)體類型:玄武巖、粗面巖、熔結凝灰巖、角礫凝灰巖和松散巖類土體,其中以玄武巖類最多。并且其地質構造較為復雜,有多條斷裂帶,長白山地區屬中緯度大陸性季風氣候濕潤區,年平均降水量為1 407.6 mm,每年的降雨量主要集中在6—8月份,長白山是松花江、圖們江和鴨綠江3江發源地,并且有多條支流,全區河流年平均流量240億m3。隨著旅游區經濟發展和人類工程活動規模擴大,長白山地質災害隱患點逐漸增多,其中北坡瀑布景區崩塌、泥石流地質災害最為發育,并且區域內有崩塌災害點71個,研究區地理位置如圖1所示。

圖1 研究區地理位置圖

2 數據來源和預處理

崩塌危險性評價反映了地質災害的自然屬性,自然屬性反映了災害的規模、強度、發育特征及誘發因素等,也就是致災因子的危險性[17]。因此,研究數據是由自然屬性數據組成,首先對指標數據按照投影、裁剪、重采樣及重分類等空間分析步驟進行量化,為了便于統計和分析,結合研究區的地質環境特征,選取30 m×30 m的網格單元為危險性評價單元,研究區的歷史災害點數據來源于1∶50 000的長白山保護開發區地質災害調查與區劃報告,數據來源見表1。

表1 數據來源

3 危險性評價指標體系的構建及技術路線

3.1 構建評價指標體系

目前常用的指標選取方法有專家調研法、理論分析法和頻度統計法等[18]。選取評價指標要科學合理,符合實際情況,應充分了解研究區的致災因子和孕災環境,兩者決定了致災可能性的大小。危險性評價指標是根據野外調查成果和對孕災環境的分析,從地形、地質、生態、氣象水文和人類工程活動等方面選取高程、坡度、坡向、巖性、歸一化植被指數(NDVI)、年平均降雨量、與河流的距離、與斷層的距離和與道路的距離共計9個指標來構建危險性評價指標體系。

3.2 危險性評價指標

3.2.1 高程

地形是引起崩塌災害的基本因素,高度超過30 m并且具有一定坡度的坡體,隨著高度的增加,坡體受重力作用容易產生拉裂變形,有利于崩塌發育,長白山自然保護區地貌形態較為簡單,成因類型主要為侵蝕火山地形,成因形態由火山錐體、熔巖臺原和熔原臺地3種類型組成,各自分布在海拔2 000m以上、海拔1 000~2 000m、海拔700~1 000m。從地質災害調查資料分析長白山崩塌災害點主要分布在地勢險峻的北坡火山錐體及熔巖臺原,高程范圍在1 000~2 000 m或>2 000 m處,說明崩塌災害與高程具有相關性。高程指標是通過ArcGIS軟件對柵格數據進行空間分析所提取的指標圖層,并按照間隔為300 m的相等間隔法依次劃分為600~900 m、900~1 200 m、1 200~1 500 m、1 500~1 800 m和>1 800 m 5個等級,如圖2(a)所示。

(a)高程

(b)坡度

(c)坡向

(d)NDVI

(e)巖性

(f)對斷層的距離

(g)年平均降雨量

(h)對道路的距離

3.2.2 坡度

一般斜坡的坡度>45°時就有利于崩塌災害發育,陡坡易崩塌,緩坡易滑坡,坡度也是引起崩塌的基本因素。長白山崩塌一般發生在坡度陡、高差大和碎裂結構面暴露的陡崖陡坡地段,其中坡度在70°~90°的崩塌災害發育最多。研究中運用ArcGIS中的表面分析工具從高程柵格數據中提取坡度圖層,并且按照相等間隔法依次劃分為 <15°、15°~30°、30°~45°、45°~60°和>60° 5個等級,如圖2(b)所示。

3.2.3 坡向

坡向是指坡面的朝向方位,反映的是地形與太陽輻射的關系,地理學上通常分為陽坡面和陰坡面,坡向不同,則坡面中含水量不同,溫度也存在一定的差異。由于接受太陽照射強度、時間不同,陽坡面相比于陰坡面含水量小、巖土風化程度高、植被覆蓋率小,進而造成山坡的強度和穩定性變差,增加了崩塌發生的概率。坡向指標按照相等間隔法劃分為9個分級區間,分別為平面(F)、北(N)、東北(EN)、東(E)、東南(SE)、南(S)、西南(SW)、西(W)和西北(NW),如圖2(c)所示。

3.2.4 歸一化植被指數(NDVI)

歸一化植被指數(NDVI)用來表示植被覆蓋度,當值接近0時表示沒有植被,值越接近1表示植被的覆蓋度越大,長白山地質災害與植被關系密切,是形成崩塌災害的重要因素之一,北坡峽谷地區崩塌體全部為裸巖地貌,植被具有防治水土流失的作用,水土流失對坡體的穩定性帶來影響,導致巖體中節理裂隙面發育加快,并且促進崩塌災害發育。研究中通過ArcGIS軟件中的影像分析工具處理遙感數據輸出了柵格指標圖層,該指標按照相等間隔法劃分了5個等級,分別為 <0.2、0.2~0.4、0.4~0.6、0.6~0.8和>0.8,如圖2(d)所示。

3.2.5 巖性

巖性對崩塌災害有明顯的控制作用,崩塌與巖體類型和結構有著明顯的關系,硬巖易崩塌,軟巖易滑坡,堅硬脆性的巖石組成的高陡邊坡有利于崩塌的發育。研究區內形成崩塌的巖體類型主要有5種:玄武巖、粗面巖、熔結凝灰巖、角礫凝灰巖和松散巖類土體,其中發生崩塌的巖體類型主要為玄武巖,巖體結構類型以塊裂為主。通過ArcGIS中的地理處理工具提取出巖性指標圖層,并且巖性指標按照巖石堅硬程度分類標準劃為3個等級,依次分為軟巖、較堅硬巖和堅硬巖,如圖2(e)所示。

3.2.6 與斷層的距離

地質構造也是引起崩塌災害的原因之一,巖體中存在的各種不連續面是產生崩塌的基本因素,例如節理裂隙面、斷層面、覆蓋面、不均勻整合面。研究區有多條斷裂帶并且大部分崩塌災害點主要位于斷裂帶附近,尤其是北坡景區瀑布兩側有25處崩塌點位于斷裂帶附近。崩塌與地質構造的關系還反映在巖體控制結構面和發育程度方面,區內崩塌巖體控制結構面為節理裂隙面和風化裂隙面,其中節理裂隙的發育程度較大。通過ArcGIS軟件對研究區內的斷層建立緩沖區,并且運用相等間隔法劃分5個分級區間,分別為<500 m、500~1 000 m、1 000~1 500 m、1 500~2 000 m和>2 000 m,如圖2(f)所示。

3.2.7 年平均降雨量

降雨是誘發崩塌的必要條件,長時間的強降雨將會極大增加地質災害發生的概率。降水的滲透作用是產生地質災害的最主要外因,其作用是下滲的雨水將裂隙形成飽水,使土石抗剪強度降低;滲透水進入地下水,使地下水水壓增加,對巖土體產生浮托作用,土體軟化飽和,也造成抗剪強度的降低,促使巖土體失穩下滑形成失穩崩塌。研究區多年平均降雨量>1 000 mm,而且每年降雨集中在6—8月份,從地質災害調查與區劃報告資料中獲得崩塌災害點與年平均降雨量相關統計圖并分析得出年平均降雨量值越大,崩塌災害點越多。年平均降雨量指標按照相等間隔法分為<800 mm、800~1 000 mm、1 000~1 200 mm、1 200~1 400 mm和>1 400 mm5個等級,如圖2(g)所示。

3.2.8 與道路的距離

從人為因素方面選取與道路的距離指標,人類工程活動規模加大也會誘發地質災害的發生,人工削坡、道路過往車輛和爆破施工都會對坡體的穩定性產生影響,研究區內依山修路、開挖邊坡使斜坡下部失去支撐,形成人工陡邊坡,造成巖土體失穩和崩塌,道路過往車輛引起的振動是誘發崩塌的基本因素,危巖體與道路距離越近,對孕災體的影響就越大,反之則越小,并且調查區內崩塌災害點大多分布于公路沿線坡腳。通過ArcGIS軟件對道路數據進行距離分析,然后運用相等間隔法劃分為<500 m、500~1 000 m、1 000~1 500 m、1 500~2 000 m和>2 000 m 5個分級區間,如圖2(h)所示。

3.2.9 與河流的距離

與河流的距離是評價崩塌災害危險性的重要指標之一,它指的是崩塌災害點到河流的水平距離,距離越近,崩塌發生的可能性就越大,因為河流對崩塌體具有沖擊和侵蝕的作用,河流的流動會侵蝕河岸,導致河岸的土石結構松動,促進了崩塌災害發育且容易造成坡體失穩,并且在重力的作用下突然脫離母體發生滾動的現象,研究區有多條河流,河流沿岸的坡體受到侵蝕,并且大部分崩塌災害點分布在河流附近,全區河流年平均流量240億m3。使用ArcGIS軟件中的緩沖分析工具對河流數據進行距離分析,并且運用相等間隔法劃分為<500 m、500~1 000 m、1 000~1 500 m、1 500~2 000 m和>2 000 m 5個分級區間,如圖2(i)所示。

3.3 技術路線

圖3 技術路線圖

4 評價模型介紹

4.1 多分類支持向量機方法

SVM是一種機器學習算法,常用來進行分類預測。SVM是基于結構化風險最小化原理,由Vapnik領導的貝爾實驗室研究組于1963年提出的,包括線性和非線性兩種類型[19]。其基本思想是在樣本或特征空間中尋找最優超平面,使不同類別的樣本數據分開并使空間間隔達到最大化,它能夠解決非線性高維多個類別的分類問題[20]。多分類是包含N個樣本構建的數據集,X={(x1,y1),(x2,y2),…,(xN,yN)},樣本類標簽yn=(1,2,…,M),M為樣本數據的類別,n=1,2,…,N。它是把N個樣本從低維空間轉換到高維空間,樣本在高維空間中成為特征向量,根據決策函數f(x)將不同類別的數據分開,使各種類別的樣本之間空間間隔最大化,最終將N個樣本分成M類輸出[21]。樣本空間中超平面表達式為WTX+b=0,W為法向量,b為原點到超平面的距離,對于非線性多分類樣本問題,將樣本進行高維特征空間轉換,樣本X成為特征向量φ(x),并且在高維空間中尋找線性超平面對多類樣本數據進行分類,其所對應的超平面Z為

f(x)=wTφ(x)+b。

(1)

目標函數為

(2)

s.t.yi(wTφ(x)+b)≥1,i=1,2,3,…,n。

(3)

運用拉格朗日乘子αi,在約束∑iɑiyi=0與0≤αi≤C的條件下,獲得公式:

(4)

(5)

式中j=1,2,3,…,m,并且i≠j,為了提高分類準確率,引入核函數K(xi,yj),使樣本從低維空間轉換到高維空間,非線性多類問題轉換為線性可分,樣本X在高維空間轉換為φ(x),則獲得式(6):

K(xi,yi)=φ(xi)Tφ(yi)。

(6)

將式(6)函數公式代入到式(4)中,計算得到SVM模型的決策函數:

(7)

SVM的分類精度取決于核函數的選擇和相關參數的設置,可以根據樣本的特征和實際情況來選擇合適的核函數[22-23]。目前常用的核函數有線性核函數(LN)、多項式核函數(PL)、徑向基函數(RBF)和sigmoid核函數(SIG),徑向基核函數常用于非線性高維多分類問題,該函數可以將多類樣本從低維空間映射到高維空間中,并在高維空間中執行分類任務[24-26]。

4.2 評價模型構建

本研究通過地質環境條件與崩塌災害的關系,從地形地貌、地層巖性、地質構造氣象水文和人為因素等方面選取高程、坡度、坡向、NDVI、巖性、與斷層的距離、年平均降雨量、與河流距離及與道路的距離指標建立危險性評價指標體系,研究區域內崩塌災害點有71個,通過采樣選取同災害點數量相同的非災害點構建樣本數據庫,按照地質規模等級規范把災害點樣本分成了多類型樣本,運用了基于MATLAB軟件的多分類支持向量機構建危險性評價模型并且進行危險性評價,考慮了災害點規模對危險性評價結果的影響,通過設置徑向基核函數和相關參數將多類樣本從低維空間映射到高維空間中進行分類,提高分類精度,最后建立漁網把研究區所有的指標屬性數據輸入到模型中進行預測,得到危險性評價結果。評價模型的具體運算步驟:

1)根據研究區地質環境條件和崩塌災害的關系,以及基于崩塌災害形成機理選取9個危險性指標建立崩塌災害危險性評價指標體系。

2)通過GIS軟件設非災害點之間的距離1 000 m為約束條件,隨機采取71個非災害點與71個災害點構建樣本數據集。

3)根據地質災害規模等級分類標準規范,對樣本點進行分類,分為非災害點、小型災害點、中型災害點和大型災害點,樣本標簽類別為4種,數量依次為71、43、25和3,運用上采樣方法增加大型樣本的數量,從4種樣本類別中按照近似6∶4∶3∶2的比例分別提取60、40、25和17個樣本來構建用于模型訓練和測試的樣本數據庫,并且按照訓練集70%,測試集30%進行劃分。

4)選取徑向基核函數提高分類速度和準確率,通過交叉驗證法,獲得最優參數,C=10.5,g=0.5,并且通過對模型的測試輸出了崩塌危險性預測模型。

5)把研究區的所有指標數據輸入到崩塌災害危險預測模型中輸出概率值,然后導入研究區漁網點文件,運用GIS中的轉換工具轉為柵格圖層,最后運用自然斷點法分類,得出危險性評價圖。

5 危險性評價與區劃

危險性評價是在災害發生后針對災害的自然屬性進行相關預測的,即預測地質災害發生的時間與空間概率等[27]。本研究運用基于災害規模等級的多分類支持向量機構建危險性評價模型,對長白山自然保護區進行危險性評價。危險性評價模型輸出的預測結果是離散化數值,每個數值代表著一種危險程度,最終獲取地質災害危險性評價結果。ROC曲線往往用來評估模型的性能和預測準確率,AUC值為0.898 37,表明模型的性能較好。運用自然斷點法將地質災害危險性評價結果劃分為極低、低、中、高和極高5個等級。高和極高危險性區主要分布在研究區中東部,通過野外實踐調查得知危險性評價結果與實際情況吻合,這些高和極高風險區域內地質環境條件復雜,崩塌災害發生的概率較大,具體評價結果如圖4~5所示。

圖4 危險性評價圖

圖5 ROC曲線

6 結論

以長白山自然保護區為研究區進行危險性評價,首先分析地質環境特征和地質災害的分布特點,選取危險性指標,接著運用基于災害規模等級的多分類支持向量機構建評價模型并進行危險性評價,運用自然斷點法將崩塌災害危險性評價結果劃分為極低、低、中、高和極高5個等級,高和極高危險性區主要分布在研究區中東部,并且通過ROC曲線檢驗多分類SVM模型的性能,AUC為0.898 37,表明模型的性能較好。研究結果可以為研究區域工程建設、城市規劃和防災減災工作提供科學參考。

猜你喜歡
危險性災害分類
河南鄭州“7·20”特大暴雨災害的警示及應對
O-3-氯-2-丙烯基羥胺熱危險性及其淬滅研究
危險性感
我省汛期常見氣象災害及防御
分類算一算
輸氣站場危險性分析
推動災害防治工作實現新跨越
基于AHP對電站鍋爐進行危險性分析
分類討論求坐標
數據分析中的分類討論
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合