?

基于機器學習法的青藏高原沙魯里山系中段雪崩易發性評價研究

2022-02-12 08:31巫錫勇趙思遠周桂宇孟少偉孫春衛
冰川凍土 2022年6期
關鍵詞:雪崩易發樣本

文 洪,巫錫勇,趙思遠,邊 瑞,周桂宇,孟少偉,孫春衛

(1.宜賓學院 智能制造學部,四川 宜賓 644007;2.西南交通大學 地球科學與環境工程學院,四川 成都 611756;3.四川大學 水利水電學院 水力學與山區河流開發保護國家重點實驗室,四川 成都 610065;4.中鐵二院工程集團有限責任公司,四川 成都 610031)

0 引言

雪崩是指多雪山區積雪在重力驅動下快速向下崩落的現象[1],由其引發的直接災害或鏈生災害對人類生命、建筑環境、交通、生態系統構成嚴重威脅[2]。中生代中期以來,青藏高原經歷了多次強烈的隆升和夷平作用,不僅為雪崩發育創造了有利的地形條件,也改變了周圍的大氣環流形勢和氣候緯向地帶性分布[3],為雪崩發育提供了有利的氣象條件。自1960年以來,青藏高原以全球兩倍的升溫速率持續變暖,預計在本世紀末“亞洲水塔”氣溫將激增4 ℃[4]。持續的氣候變暖一方面使得極端降水事件更加頻繁、降水強度增大,另一方面使得冰雪融化速率加劇,導致雪崩事件顯著增加[5]。目前青藏高原周緣形成了喜馬拉雅南坡雪崩區、藏東南雪崩區、川西滇西北雪崩區等[6],愈發頻繁的雪崩災害引起了學界和公眾越來越多的關注[7-9]??焖?、有效地獲得雪崩發育位置與雪崩易發區域,是后續進行雪崩針對性防災減災的基礎性工作。因此,探索構建一套科學合理、有效易行的雪崩易發性評價體系,是應對雪崩災害風險增加的必然需求,對青藏高原的城鄉規劃以及川藏鐵路等重大工程建設均具有十分重要的意義。

瑞士等多雪國家根據雪崩頻率和沖擊力建立雪崩風險分區和制圖標準[10],并在此基礎上根據雪崩的風險程度對山區進行土地利用規劃與管理。該標準已廣泛應用于俄羅斯、加拿大、美國等歐美雪崩多發的國家[11-13],并將雪崩風險降低到可接受水平。這種雪崩風險區劃和制圖標準依賴于長期觀測數據的積累。然而,青藏高原極端惡劣的工作條件為詳細的野外雪崩監測造成了極大的制約和巨大的成本,無法有效支撐青藏高原雪崩災害的大面積風險區劃工作,因此需要一套能在區域上快速對青藏高原進行風險識別和區劃的方法,使重大雪崩災害點的監測布置以及災害防治更具針對性。近年隨著人工智能的快速發展,機器學習算法已被許多研究者應用于地震預測、地下水儲量變化預測、降水數據訂正、滑坡易發性制圖等領域[14-18]。機器學習算法在災害易發性評價方面的引入,彌補了傳統二元統計方法工作量大、主觀性強、預測結果精度低等缺點,為災害預測和預防提供了重要的理論方法[19-20]。而對于雪崩觀測記錄檔案短缺的地區,基于遙感解譯和野外調查所獲得的學習樣本數據庫,采用機器學習算法開展雪崩易發性評價和制圖,可為區域性的災害風險預估提供重要參考。已有部分研究嘗試將機器學習算法應用于區域雪崩的遙感自動檢測[21]、雪崩搬運物質易發性評價[22]、雪崩易發性制圖[23-25],但目前對青藏高原極端地形條件和氣象條件控制下的雪崩易發性認識仍有不足,機器學習算法在青藏高原雪崩易發性評價的適用性,還有待深入研究。

本文通過遙感解譯和野外調查驗證,識別了青藏高原沙魯里山系中段山區536 處雪崩,構建了研究區的雪崩空間數據庫,在此基礎上根據雪崩發育對地形地貌、氣候氣象、積雪特性等各因素的響應特征,采用GIS、遙感等定量化提取技術并通過方差膨脹因子(VIF)篩選出14個控制雪崩時空分異發育的評價因子,采用支持向量機(SVM)、決策樹(DT)、多層感知器(MLP)、K 最鄰近法(KNN)共4種機器學習方法獲取雪崩易發性指數圖,驗證機器學習算法在青藏高原這類雪崩記錄檔案資料短缺的多雪山區的適用性,同時為當地雪崩減災防災指出重點設防區域。

1 研究區概況

1.1 自然地理環境概況

沙魯里山系位于四川省西部,屬青藏高原東部橫斷山區北端中部山脈,呈南北走向[圖1(a)],海拔多在4 000 m 以上,為無數縱橫交錯的峽谷、河谷所組成的巨大山原,主要高峰有雀兒山(6 168 m)、格聶山(6 204 m)、海子山夏塞峰(5 833 m)等。本文選取的研究區沙魯里山系中段西側以金沙江為界,東至理塘縣喇嘛埡鄉附近,北達白玉縣蓋玉鎮附近,南到巴塘縣波密鄉附近,總面積約7 124.46 km2。G318國道(川藏公路)、川藏鐵路自東向西橫穿研究區[圖1(b)]。

圖1 研究區地理位置圖Fig.1 Location of study area

研究區地貌大體上是以和緩起伏的高原夷平面作為基礎,這與構造隆升強烈、河流不斷下切的喜馬拉雅山和念青唐古拉山的地貌格局顯著不同。夷平面海拔約4 500~4 700 m。夷平面以下河谷發育,多寬谷,山麓及斜坡上是茂密的高原森林,寬谷底部是彎曲的河道和密集的沼澤草甸。夷平面以上的古蝕殘余山海拔多在6 000 m 左右,峰頂終年積雪,是古代和現代冰川發育的中心,山脊呈刃狀,坡壁地形復雜,存在大量海拔較高的、基巖裸露的常年積雪或季節性積雪區域。這些夷平面上的山嶺相對高差多在500~1 500 m 之間,也是雪崩賴以發育的地形基礎。由于海拔高度、南北走向的山脈和大氣環流的影響,研究區屬高山高原氣候,太陽輻射強,日溫差大,降水季節分布不均,具有垂直分布明顯和區域性差異大的特點。據毗鄰的理塘縣氣象站(海拔3 948.9 m)監測數據,平均氣溫3.0 ℃,極端最高氣溫25.6 ℃,最低氣溫-30.6 ℃,年平均地面溫度5.9 ℃,年降雨量為722.2 mm。研究區降水主要集中于6、7、8 三個月,季節性雪崩區固態降水量約300 mm 左右,積雪層中深霜較為發育[26],為雪崩的發生提供了豐富的物質條件。

1.2 雪崩編目數據庫

雪崩運動過程不僅使積雪受到擾動、污染,在光譜上呈現明顯的變化,還影響植物群落的發育和分布,形成了區別于其他高海拔地區自然災害的遙感解譯特征[27-29]。主要有雪崩溝槽、雪崩碎屑尾、雪崩巨礫舌等地貌標志,植被缺失、植被群落改變等植被標志,以及雪崩雪堆光譜變化等。通過遙感解譯,輔以野外調查驗證[圖2(a)、2(b)],可建立較為完整的雪崩編目數據庫。

圖2 雪崩遙感解譯與分布圖Fig.2 Snow avalanche distribution based on remote sensing interpretation

本文采用的遙感數據源主要有Landsat 5、7、8等。ALOS DSM(12.5 m 分辨率)用于雪崩地形地貌校驗,冰川編目數據用于剔除高海拔區域的冰川這類在遙感影像上容易混淆的地物。筆者自2018年11 月以來,先后5 次到研究區開展現場調查。其中,前2次主要開展雪崩發育特征調查,結合文獻資料,梳理形成雪崩堆積體光譜變化標志、雪崩地貌標志、雪崩活動區域植被分布特征等雪崩遙感解譯標志;后3 次現場調查主要是開展遙感解譯結果的現場驗證。在遙感解譯中獲得了562 個解譯結果,通過野外調查驗證,剔除了26 個錯誤樣本。這26個錯誤樣本主要為巖崩,其地貌單元與雪崩有一定的相似之處,在積雪覆蓋時容易被錯誤識別為雪崩。最終,獲得536 處雪崩樣本數據[圖2(c)]。通過GIS隨機生成與雪崩樣本同等數量的隨機點作為非雪崩樣本(536 個),組成共計1 072 個樣本的數據集。其中,隨機抽取846 個(80%)樣本用于機器學習建模,余下226 個(20%)樣本用于模型檢驗,訓練樣本和檢驗樣本中的雪崩樣本和非雪崩樣本數量相同。

2 評價因子篩選與易發性評價模型

2.1 評價單元選擇

評價單元是雪崩易發性評價因子定量提取、易發性評價計算最基礎的單元。確定評價單元是區域雪崩易發性評價的一個重要步驟[30-31]。目前,易發性評價單元有柵格單元、斜坡單元、行政單元等。柵格單元劃分簡單易行、客觀且準確性高。因此,本文選取柵格單元作為評價分析單元。此外,柵格尺寸大小直接影響易發性評價結果的精度??紤]到研究區實際情況,選取100 m×100 m的柵格單元,共計713 033個柵格單元。

2.2 評價因子提取與篩選

雪崩形成的影響因素很多,包括積雪厚度、雪晶大小與形狀、含水率、密度、雪層結構、硬度、雪溫與溫度梯度、海拔、相對高差、坡度、坡向、植被類型與覆蓋率、風速、風向、降雪等[1]。從總體上來說,這些影響因素可以歸納為地形地貌、氣候氣象、積雪特性及其他因素。評價因子的提取應考慮到因子的代表性,及其能否較全面的反映雪崩形成條件、能否定量化表達等[30,32]。因此,選取了以下17 個可定量化提取因素,包含:海拔、坡度、坡向、地面曲率、地形起伏度、地面粗糙度、地表切割深度、高程變異系數、地形濕度指數、植被覆蓋指數、水系(距河流距離)、斷層(距斷層距離)、平均年降雪量、平均年降雪日數、1 月平均氣溫、年最大積雪深度、地表覆蓋類型。其數據源如表1所示。

表1 評價因子及數據源Table 1 Evaluate factors and data sources

易發性因子的篩選需要考慮到評價因子之間的多重共線性。多重共線性是指模型中的解釋變量之間由于存在精確相關關系或高度相關關系而使結果不夠客觀準確[33]。本文采用方差膨脹因子(VIF)檢驗評價因子之間的多重共線性,篩選出更準確的評價因子。VIF 的取值大于1,VIF 值越接近于1,多重共線性越輕,反之越重。通常以10作為判斷邊界。當VIF<10,不存在多重共線性;當10≤VIF<100,存在較強的多重共線性;當VIF≥100,存在嚴重多重共線性[34]。通過提取訓練數據集及各樣本的所有評價因子的值進行共線性診斷,結果如圖3所示。依次剔除VIF值最大的因子(平均年降雪量、海拔、地形起伏度),最終篩選出因子為:坡度、坡向、地表曲率、地面粗糙度、地表切割深度、高程變異系數、地形濕度指數、植被覆蓋指數、水系、斷層、平均年降雪日數、1 月平均氣溫、最大積雪厚度、地表覆蓋類型,共計14個評價因子。在被剔除的因子中,平均年降雪量與海拔相關性較強,同時,又與最大積雪厚度存在較強的正相關關系,因而存在嚴重多重共線性;坡度、坡向、地表曲率、地形起伏度等地形地貌因子均為DSM 基礎數據通過GIS 空間分析獲得,因而檢驗出海拔、地形起伏度兩個存在多重共線性的因子。最終選定的各評價因子VIF值均小于10,其中最大值為7.205,最小值為1.014,滿足多重共線性分析的要求。

圖3 雪崩評價因子選擇過程Fig.3 The Selection process of snow avalanche conditioning factors

2.3 評價模型

2.3.1 支持向量機(SVM)

SVM(Support Vector Machine)是一種基于結構風險最小化原則的重要監督學習二值分類器模型,已被廣泛用于解決線性和非線性問題[35]。SVM的基本原理是通過預先選擇的非線性關系將輸入向量映射到高維特征空間,并在該空間中尋找最優分類超平面,使兩類之間的分類區間最大化[36],這個映射關系如下。

式中:ω是高維空間超平面的特征向量;φ是低維空間到高維空間變換的映射函數;b是閾值。

SVM 的關鍵是核函數的構造。核函數主要用于度量相似性,包括Sigmoid 核函數、徑向基核函數(RBF)、多項式核函數、線性核函數等。通過RBF可以將樣本映射到高維空間,對非線性樣本的預測和分析有很好的效果[37]。雪崩易發性評價是一個典型的受多種因素影響的非線性問題。因此,本文選擇RBF 作為核函數。RBF 的表現主要受懲罰因子C和徑向基函數參數γ的影響。

2.3.2 決策樹(DT)

DT(Decision Tree)是一種用于分類和回歸的非參數有監督學習方法,其目標是創建一個模型,通過學習從數據特性中推斷出的簡單決策規則來預測目標變量的值[38]。本文采用Python 調用“Scikit-learn”庫[39]中的決策樹算法。Scikit-learn 中的決策樹算法使用的是CART 算法的優化版本,其特征選擇是基于信息熵或者基尼系數實現的。

信息熵反應的是信息雜亂程度,信息越雜亂(越不純),則信息熵越大;反之,信息熵越小?;嵯禂翟诤喕P偷耐瑫r還保留了熵模型的優點?;嵯禂荡砹四P偷牟患兌??;嵯禂翟叫?,不純度越低,特征越好。這和信息增益(率)正好相反。此外,在不加限制的情況下,決策樹會生長到衡量不純度的指標最優,或者直到沒有更多的特征可用為止。這樣的決策樹往往會產生過擬合問題。為了讓決策樹有更好的泛化性,需對決策樹進行剪枝,主要涉及到限制樹的最大深度、內部節點再劃分所需最小樣本數、葉子節點最少樣本數等參數。

2.3.3 多層感知器(MLP)

MLP(Multilayer Perceptron)是一種前饋的人工神經網絡模型,它將多個輸入數據集映射到單個輸出數據集(圖4)。單層感知器只能學習線性函數,而MLP也可以學習非線性函數[40],適用于雪崩易發性評價這類非線性問題。MLP 的參數主要有隱藏層中的神經元數量、激活函數類型等。激活函數的作用是將非線性引入神經元的輸出。MLP 可使用任何形式的激活函數,但是為了使用反向傳播算法進行有效學習,激活函數必須限制為可微函數。常用的激活函數有Sigmoid、Tanh和ReLU等函數。

圖4 MLP模型結構示意圖Fig.4 Schematic diagram of MLP model structure

2.3.4 K最鄰近法(KNN)

KNN(K-nearest neighbor)是一種通過找到在距離上離待分類樣本最近的一些訓練樣本,并從這些樣本中預測待分類樣本標簽的方法[41]。在分類決策中,KNN 只根據最近的一個或多個訓練樣本的類別來預測待分類樣本的類別。KNN 方法思路簡單,易于實現,不足之處是計算量較大,因為需要對每一個待分類的樣本都要計算它到全體訓練樣本的距離,才能求得它的k個最鄰近點。KNN 主要依賴于周圍有限的相鄰樣本,k值的最佳選擇是高度依賴于數據的。較大的k會抑制噪聲的影響,但使分類邊界不那么清晰。一般來說,KNN 分類算法包括以下四個步驟[41]:

①準備數據并對數據進行預處理;

②計算待分類點與其他訓練樣本點之間的距離;

③對每個距離排序,然后選擇距離最小的k個點;

④根據少數服從多數的原則,將待分類點劃分為k個點中占比最高的類別。

2.4 模型精度檢驗

2.4.1 Kappa系數

Kappa 系數檢驗是一種用混淆矩陣檢驗模型預測結果與實際值一致性的方法。Kappa 系數檢驗是用混淆矩陣來計算Kappa 系數,將驗證數據集中的雪崩樣本標記為1,非雪崩樣本標記為0,模型的預測值與實際值的關系如表2所示。

表2 實際值與預測值關系的二進制表Table 2 Binary table of the relationship between actual and predicted values

Kappa系數的計算公式如下:

其中Pa為模型預測中正確劃分的樣本數與總樣本數之比,計算公式如下:

Pe為所有分類中預測樣本數與實際樣本數的乘積之和與總樣本數的平方之比,計算公式為:

Kappa 系數值域在-1 到1 之間,該值通常大于0。數值越大,說明評價模型的準確性越高[42-43]。Kappa系數各數值區間以及意義詳見表3。

表3 Kappa系數和AUC值域區間及意義Table 3 The ranges of Kappa coefficient and AUC and their significance

2.4.2 ROC曲線

ROC 曲 線(Receiver Operating Characteristic curve)是根據X軸上的真陽性率(敏感度)和Y軸上的假陽性(1-特異性)在不同閾值處生成的圖形來直觀表示模型評價精度。敏感度和特異性實質上表示模型正確判斷雪崩和非雪崩的概率,但這兩個指標并不能顯示模型性能的整體準確性,所以一般采用AUC(Area Under Curve)值來檢驗模型精度。AUC 值是指ROC 曲線與坐標軸圍成的面積,是計算二值分類器性能的評價指標。AUC 的值域為[0,1],當AUC 值越接近1 表明模型預測準確性越高[44-45],其各數值區間及意義詳見表3。整個評價過程如圖5所示。

圖5 雪崩易發性評價流程圖Fig.5 Flow chart of snow avalanche susceptibility evaluation

3 雪崩易發性評價結果與討論

3.1 雪崩易發性指數

通過GIS 平臺將訓練樣本和驗證樣本的各評價因子的值提取出來,借助于Python 語言調用“Scikit-learn”庫[39]中的SVM、DT、MLP 和KNN 算法進行運算,同時調用網格搜索(Grid search)算法進行參數尋優。運算結束后,將結果導入GIS 中輸出柵格。在SVM 模型中,通過網格搜索獲得了最優超參數:C 為1,γ 為0.1。將研究區各柵格單元的評價因子引入評價模型,計算易發性指數。最后得到雪崩易發性指數圖如圖6(a)所示,其值域為[0,0.964]。DT 模型對輸入樣本進行訓練之后自動構建分類規則,確定了不同分類特征及其閾值。經過調參尋優,形成了基于信息熵的分枝方法,最大深度為3 層、分割內部節點所需的最小樣本數為25、葉子節點上的最小樣本數為17 的決策樹。該模型雪崩易發性指數圖如圖6(b)所示,其值域為[0,815]。在MLP 模型中,通過調參尋優,構造了1個包含1 個輸入層、1 個隱含層和1 個輸出層的3 層網絡,形成30 個神經元,激活函數為Tanh。該模型雪崩易發性指數如圖6(c)所示,其值域為[0,995]。在KNN 模型中,通過網格搜索調參,獲得了最優超參數:N_neighbors(KNN 中的“K”)為10,P 為1(曼哈頓距離),Weights(權重)為Distance(權重和距離成反比,距離預測目標越近具有越高的權重)。該模型的雪崩易發性指數如圖6(d)所示,其值域為[0,1]。

圖6 雪崩易發性指數圖Fig.6 Snow avalanche susceptibility index maps

3.2 雪崩評價因子重要性分析

通過機器學習算法對訓練樣本的訓練建模過程中,可以獲得變量的重要性,即評價因子的權重,如圖7 所示。由于不同算法的原理不同,其計算得出的評價因子權重也并不完全一致。除去KNN 模型中各個評價因子權重均相同外,其他3 個模型得到的各評價因子權重在總體上存在著不同程度的類似和差異之處。其中,這3 個模型中最重要的因子都是1 月平均氣溫。1 月平均氣溫表征了雪崩發育區域的冷儲條件,也是區別于雪崩不易發區域的重要特征。DT、MLP 和SVM 模型中重要性排序第2 的因子分別為植被覆蓋指數、植被覆蓋類型和高程變異系數,排序第3的因子分別是最大積雪厚度、高程變異系數和坡度。此外,超過平均數的因子還有平均降雪日數、水系。植被覆蓋指數和植被覆蓋類型涉及到雪崩形成的下墊面狀況,其中裸地、草地等有利于雪崩的形成,茂密的森林是雪崩形成和運動的主要阻礙。高程變異系數和坡度體現了局地地形變化,而高差懸殊和適宜的坡度區間正是積雪等斜坡物質運動形成的必要的地形條件。最大積雪厚度表征了雪崩形成的物質(積雪)條件。平均降雪日數是一年中降雪日數的總和,從側面表征了當地降雪強度及頻率等,體現了雪崩的物質(積雪)來源。

圖7 評價因子權重條形圖Fig.7 Bar chart of evaluation factor weight

3.3 模型精度檢驗結果與對比分析

驗證數據集通過SVM、DT、MLP 和KNN 四種模型預測結果的相關值及Kappa 系數如表4 所示。SVM、DT、MLP 和KNN 模型的Kappa 系數分別為0.720、0.570、0.711 和0.672,除了DT 外,其余的Kappa 系數均大于0.6,表明SVM、MLP 和KNN 模型對驗證數據集的預測結果與實際值存在高度的一致性,DT 對驗證數據集的預測結果與實際值存在中等的一致性。ROC 曲線如圖8 所示。SVM、DT、MLP 和KNN 模型的AUC 值分別 為0.912、0.801、0.891 和0.903,均 大 于0.8,表 明SVM 和KNN 模型的預測精度高,DT 和MLP 模型的預測精度較高。綜合Kappa 系數和ROC 曲線檢驗的結果,這4中機器學習算法在雪崩易發性評價上都具有較好或很好的預測能力,其中SVM 模型的Kappa系數和AUC值均為最高,為該項雪崩易發性評價精度最佳的模型。

圖8 驗證數據集ROC曲線Fig.8 ROC curve of prediction rate for the four models with validation dataset

表4 各模型結果相關值及Kappa系數Table 4 Kappa coefficients and relevant values of the prediction results

此外,結合現場調查的認識,這4種機器學習算法得到的易發性指數圖是合理的。易發性指數圖中易發性指數較高的區域主要分布在海拔較高的區域,在金沙江、巴曲等干熱河谷兩岸區域的易發性指數最低,這與野外調查中雪崩發育的區域基本一致。同時,易發性指數圖還指明了此前遙感解譯中未曾解譯到的部分區域,有助于研究區內更多雪崩范圍的遙感解譯。機器學習算法在雪崩易發性建模過程中,對各評價因子的值域進行解析,建立了基于學習樣本的雪崩分類函數或分類規則,然后對研究區內各評價單元進行分類計算,得到各評價單元雪崩易發分類的原始傾向評分。理論上,這些結果也與各評價因子的雪崩易發值域的空間分布疊加結果基本一致。模型精度結果也表明了這4種模型均具有較好的預測精度。因此,這4 種機器學習算法均適用于沙魯里山系雪崩易發性制圖。

3.4 雪崩易發性分區

采用自然間斷法將AUC 值最高的SVM 模型易發性指數圖劃分為極高、高、中、低和極低易發性區,得到雪崩易發性區劃圖(圖9)。其中,極高、高、中、低和極低易發性區分別占總面積的13.1%、12.9%、11.1%、17.6%和45.3%。易發性高的區域主要分布在格聶山、日拱山等地,多位于夷平面(海拔約4 500~4 700 m)以上,海拔較高。其中,極高易發區平均海拔約4 939 m,高易發區平均海拔約4 859 m。這些區域基巖裸露,在雪季多有積雪。研究區雖然遠離大洋,但是研究區南側的三江并流區的怒江、瀾滄江、金沙江等深切河谷構成了南來濕潤氣流北上的通道。該區域年均降雪量(300 mm)雖說沒有帕隆藏布流域(約1 000 mm)等地那么大,但是降雪量分布較集中,往往集中在每年降雪最大的2~3 次降雪過程中。特別是在每年春季,孟加拉海水汽順深切河谷北上進入研究區,在高海拔地區降落大量濕雪,為雪崩的發生奠定了物質基礎。夷平面上的蝕余山經過長期的冰川作用、流水作用后,古冰斗和雪蝕洼地地貌發育,成為良好的儲雪場地。蝕余山的坡度條件為雪崩的運動提供了足夠的動力條件。而在夷平面(海拔約4 500~4 700 m)以下,一方面年平均氣溫較高,年降雪相對較少,特別是在靠近金沙江一側,為典型的干熱河谷,據巴塘氣象站監測數據,年極端最大積雪深度僅4 cm,出現時間為2006年12月13日;另一方面,山麓及斜坡上多是茂密的高原森林,茂密的森林在強降雪天氣時能夠在很大程度上阻礙新雪的沉降和再次分配,還能形成錨點,提供抗滑力鎖固積雪層。因而在夷平面高程以下區域,雪崩并不易發。

圖9 基于SVM的雪崩易發性分區圖Fig.9 Zoning map of snow avalanche susceptibility based on SVM

從雪崩易發性指數圖和區劃圖可以看出,雪崩對現G318 國道(川藏公路)、G215 國道影響較小。王彥龍在其專著《川藏公路雪害研究》中記錄的川藏公路海子山埡口段的雪害主要為風吹雪,并無雪崩記錄[26]。此外,川藏鐵路海子山越嶺段線路行走標高略低于現G318 國道,且為隧道形式從毛埡草原西側穿越折多山至德達附近,其受雪崩影響相較于川藏公路更小。經德達后北上,過茶洛鄉、沙馬鄉等地附近,直至金沙江邊,主要以隧道形式穿行于沙魯里山系中。這一段隧道進出口選址高程均較低、周邊植被茂密,受雪崩影響較小。但是,研究區北部蓋玉鄉前往山巖鄉的越嶺路段、南部波密鄉至巴塘縣的越嶺路段,主要位于雪崩高易發區。由于這兩段公路均屬于鄉村公路,行車量較少,且較偏僻,現代通訊不一定覆蓋到,其雪崩活動鮮見報道。不過,在研究區南部的格聶山主峰附近有2 次關于雪崩的報道。其中一次是在2006 年12 月,美國著名登山家查理·福勒(Charlie Fowler)和克里斯汀·博斯科夫(Christine Boskoff)嘗試從格聶東壁攀登的時候,在5 300 m 的冰川附近遭遇雪崩遇難[46]。另外一次是在2020 年5 月,一只徒步探險隊在理塘縣章納鄉老冷古寺附近拍到格聶主峰東坡(99.6409° E,29.8108° N)正在流動的溝槽型濕雪崩視頻[圖9(b)、9(c)為該次雪崩視頻截圖][47]。這兩次雪崩事件均發生在研究區內夷平面以上海拔較高的人跡罕至的區域。

4 結論

本文通過遙感解譯輔以野外調查驗證,構建了沙魯里山系中段雪崩編目數據庫,借助SVM 等4 種機器學習算法開展雪崩易發性評價,得出以下結論。

(1)通過遙感解譯識別雪崩562處,結合野外調查驗證,剔除了26 個錯誤樣本,共計獲得536 處雪崩樣本數據,建立了較為完整的雪崩編目數據庫。選取17個可定量化提取的評價因子,通過方差膨脹因子(VIF)檢驗評價因子之間的多重共線性,篩選出坡度、坡向、地表曲率等共計14個評價因子。

(2)采用SVM、DT、MLP、KNN 機器學習算法訓練模型,獲得的易發性指數分別在[0,0.964]、[0,815]、[0,0.995]、[0,1]范圍內,其Kappa 系數分別為0.720、0.570、0.711 和0.672,AUC 值分別為0.912、0.801、0.891 和0.903。結果表明這4 種模型均具有較好或很好的預測精度,適用于沙魯里山系中段雪崩易發性評價,其中SVM 模型的Kappa系數和AUC 值均為最高,為該項雪崩易發性評價精度最佳的模型。機器學習算法建模過程中獲得的主要影響因子有1 月平均氣溫、植被覆蓋指數、植被覆蓋類型、高程變異系數、最大積雪厚度、坡度等。

(3)該區域雪崩極高、高、中、低和極低易發性區分別占總面積的13.1%、12.9%、11.1%、17.6%和45.3%。雪崩極高易發區和高易發區主要分布在格聶山、日拱山等地,多位于夷平面以上,極高易發區平均海拔約4 939 m,高易發區平均海拔約4 859 m。雪崩對現G318 國道(川藏公路)、G215 國道影響較小,對橫穿研究區內的川藏鐵路的影響相較于川藏公路更小。但是,研究區北部蓋玉鄉前往山巖鄉的越嶺路段、南部波密鄉至巴塘縣的越嶺路段主要位于雪崩高易發區。該結果可為橫穿沙魯里山系的川藏鐵路等重大工程建設的雪崩防災減災工作提供科學依據和方法借鑒。

猜你喜歡
雪崩易發樣本
機用鎳鈦銼在乳磨牙根管治療中的應用
貴州省地質災害易發分區圖
雪崩大危機
夏季羊易發疾病及防治方法
冬季雞腸炎易發 科學防治有方法
用樣本估計總體復習點撥
雪崩時,沒有一片雪花是無辜的
The shocking disappearance of flights
推動醫改的“直銷樣本”
隨機微分方程的樣本Lyapunov二次型估計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合