?

基于梯度提升的優化集成機器學習算法對滑坡易發性評價:以雅魯藏布江與尼洋河兩岸為例

2024-01-22 07:50林琴郭永剛吳升杰臧燁祺王國聞
西北地質 2024年1期
關鍵詞:易發滑坡因子

林琴,郭永剛,吳升杰,臧燁祺,王國聞

(西藏農牧學院水利土木工程學院,西藏 林芝 860000)

雅魯藏布江與尼洋河位于青藏高原東南部,盆地內山脈縱橫起伏,形成大量沖溝、峽谷和河流。內部動力作用非?;钴S,地殼中初始高壓應力釋放,盆地巖石結構松弛。崩塌、滑坡和泥石流等自然災害頻繁發生(蘇立彬,2020;武辰爽,2021)?;率亲匀缓腿祟惢顒右鸬膶ν寥赖钠茐模═aalab et al.,2018)。它是一種以大量巖石、碎屑或泥土向坡面移動為特征的自然災害。無論是由自然還是人類活動造成的滑坡,每年都會造成重大的經濟損失(Tien et al.,2018)。因此,利用高效穩定的滑坡災害評估技術,針對滑坡易發區,快速準確地識別高易發區的災害,預測滑坡災害的發生,可以有效地提高災害預測的效率,減少滑坡災害造成的損失,為防災減災提供參考(張琪等,2023;周硼焜等,2023)。

滑坡易發性劃區是通過滑坡發生后的影響因子屬性來預測滑坡發生的概率,是滑坡預測的有效方法(沈玲玲等,2016;孟曉捷等,2022)?;乱装l性評價通常采用傳統的定性方法和定量方法(賈俊等,2023)。定性方法依賴于專家在歷史資料和滑坡清單的經驗和意見,如加權線性組合與層次分析法(Rehman et al.,2022),但計算結果受人為因素影響。定量方法包括數據模型和確定性模型。確定性模型可以提供精確的分析結果,但需要大量的數據,尤其是在大尺度地區實踐中難以獲得(楊創奇等,2022)。近年來,包括機器學習和統計學的數據驅動模型在地質災害研究方面取得了顯著進展,如證據權模型(WoE)(Batar et al.,2021)、頻率比(FR)(Khan et al.,2019)和確定性系數法(CF)(喬德京等,2020)等。這些算法計算簡便,甚至在一些大型區域也能適用,但是過分依賴樣本質量且無法有效處理復雜的滑坡及其影響因子之間的關系。機器學習中的隨機森林(Arabameri et al.,2019)、決策樹(Hong et al.,2018)、BP神經網絡(康孟羽等,2022;張林梵等,2022)、梯度提升等也被廣泛地運用在滑坡識別中(張文龍等,2023),較好地解決了非線性關系表達的問題,提高了滑坡識別的精度。然而,這些模型通常依賴于單一的學習器,滑坡易發性所涉及的影響因子眾多,通常很難獲得理想的預測結果,容易發生過擬合現象。因此,筆者利用集成學習將多個單學習器組合起來進行區域滑坡易發性評估,以比較其與傳統方法更具有優越性和高效性。

近年來,大量基于機器學習的方法被成功應用于地質災害研究,而較新的梯度提升(Boosting)模型,包括XGBoost 和LightGBM 模型,在滑坡易發性方面很少被研究與比較,且不平衡類分布可能會影響特征選擇的假設。在此基礎上,筆者以雅魯藏布江與尼洋河兩岸為例,首次引入了基于基尼系數的加權隨機森林作為特征選擇過程過程,并與基于Boosting 算法的XGBoost和LightGBM 模型對研究區滑坡易發性進行分析和比較。

1 研究區與數據

1.1 研究區

筆者選取雅魯藏布江下游與尼洋河兩岸為研究對象(圖1)。研究區位于西藏自治區林芝市西部,E 92°09′~95°51′,N 27°55′~30°36′,總面積約為68 000 km2,包括工布江達縣、波密縣、米林縣、朗縣、墨脫縣。研究區屬于典型的高原丘陵、高山峽谷地貌,是世界陸地垂直地貌落差最大的地帶,區內地形起伏大,呈現北高南低走勢,山脈多為東西走向,絕大多數為高海拔大起伏山地,其次為高海拔極大起伏山地與中高海拔極大起伏山地,最高海拔7 782 m,地處米林縣與墨脫縣的交界地帶。研究區位于高原溫帶濕潤半濕潤季風區氣候帶寒帶跨越到熱帶。地區水汽含量高,雨季開始得早,結束晚,持續時間長,年平均降水量約為650 mm,年平均氣溫為9.1 ℃。研究區內有日土-青丁斷裂、達機翁-朗縣斷裂、賈桑斷裂、札達-邛多斷裂等斷裂帶,主要出露底層有盆地相上三疊統的砂巖、夾板巖、火山巖以及海相下—中三疊統的千枚巖、砂巖、含礫狀灰巖等。由于高降雨量以及土壤和板塊內動力活躍,該區域極易發生滑坡。

圖1 研究區地理位置及滑坡分布Fig.1 Geographical location and landslide distribution of the study area

1.2 數據來源與處理

主要數據來源包括:①地理空間數據云的ASTER GDEM 30 m 分辨率數字高程數據,基于ArcGIS 軟件對坡度信息進行了提取。②1∶5 萬地質圖來源于中國地質調查局,用來提取地層巖性性質。③Landsat8影像來源于地理國情普查,用于土地利用數據的提取。④滑坡數據出自中國科學院資源環境科學數據中心。⑤斷層帶從地震活動斷層探察數據中心獲取。

筆者在已有的研究方法上將30 m×30 m 柵格大小設定為基礎的評價單元(Tanyas et al.,2019),研究區域劃分為123 156 296 個網格。同時為了解決樣本不均衡問題,筆者采用下采樣方式從非滑坡區選取等量滑坡點組成188 個樣本點(Polykretis et al.,2018),滑坡單元設為1,非滑坡單元設為0,從中隨機抽取70%(131)數據作為訓練樣本,剩余30%(57)作為測試樣本?;曼c具體流程見圖2。

圖2 流程圖Fig.2 Flow Chart

2 評價因子選取與獨立性檢驗

2.1 評價因子選取

已有對雅魯藏布江流域的研究結果和現場勘查表明:河水對河谷的不斷侵蝕作用加上高海拔高寒區凍融加劇滑坡區巖石的風化,使得雅魯藏布江流域極易孕育滑坡(趙永輝,2019);地層巖性是滑坡產生的重要因素(趙永輝,2021);坡度為滑坡發生的主控因素(王瑞琪等,2019)。再根據對研究區的地質災害形成條件與地質環境背景研究分析,選取高程、坡度、斷裂帶與斷層、河流、道路、地層巖性、土地利用7 個評價因子。利用ArcGIS 軟件,將高程、坡度、地層巖性、土地利用4 個連續型因子結合分布規范,采用自然間斷法將研究區分為5 個等級(圖3a~圖3d),對于離散型因子例如斷裂帶與斷層、河流、道路利用多環緩沖區工具建立0~200、200~400、400~600、600~800、>800 m 共5 個等級范圍(圖3e~圖3g)。

統計各評價因子分級范圍內滑坡點數量并繪制蔟類柱狀圖(圖4)。結果表明:當高程處在32~1 544 m時,滑坡發生的最多,占總數的30.9%,其次是出現在2 722~3 752 m 范圍內。其原因是在海拔低于1 544 m時,開挖坡腳等人類活動頻繁,隨著海拔的提升,坡度增大,加劇了滑坡的發生;隨著坡度上升,滑坡數也增加,直到坡度上升達到閾值40°,發生災害的概率降低,由原來的41.5%逐漸降低到16.0%;當地層巖性為雅魯藏布江帶閃片巖時,相比其他巖性,滑坡發生最頻繁;草地土壤侵蝕嚴重,是淺層滑坡的重要原因。本研究中大量滑坡點分布在坡度為10°~20°的草地上;斷裂帶與斷層會降低巖層的強度和完整性,是滑坡易發性增大的關鍵,在距斷層帶200 m 以內容易發生滑坡,滑坡點占總數的41.5%,離斷裂帶與斷層越遠滑坡災害越少;河岸受水流不斷沖刷,土石在地下水及重力作用下越發失穩,因此越靠近河流越容易發生滑坡,滑坡在距河流200 m 以內,發生次數最多,達到40.4%;修建鐵路、公路時因大力爆破、強行開挖,常使坡體下部失去支撐而發生下滑,距離道路200 m 以內的滑坡數占了總數一半以上達到52.1%,距離道路越遠,滑坡活動減少。文中結論與相關研究均吻合(Kouhartsiouk et al.,2021;Zweifel et al.,2021)。

2.2 評價因子獨立性檢驗

為了研究各評價因素的相對獨立性以及評價模型的準確性和可靠性,筆者采用皮爾遜相關系數計算影響評價因子的相關性。皮爾遜相關系數是用于度量兩個變量之間的線性關系,利用兩個變量間的協方差和變量的標準差進行計算而來(Lee et al.,2020)。

式中:X,Y表示變量,N表示取值個數。

變量間呈現極弱相關時,相關系數為0.0~0.2;0.2~0.4 表示變量之間弱相關性。將評價因子的7 個屬性值代入式(1)計算,結果見表1,發現相關性最高為坡度與道路(R=0.349 3),其他變量間相關關系均小于0.4??傮w而言,變量的共線性不強。

表1 因子間皮爾遜相關系數表Tab.1 Pearson correlation coefficient between factors

3 雅魯藏布江與尼洋河兩岸滑坡易發性評價

3.1 基于Gini-RF 的滑坡易發性評價

隨機森林(Random Forest)是一種基于決策樹模型的Bagging(Bootstrap AGgregation)的優化版,由于其具有對特征魯棒性強、適用于高維稠密性數據、并行集成、對不平衡的數據集可自動調整誤差、微調超參數等優勢,可以獲得準確結果,常被用于各種分類和回歸任務(Alsahaf et al.,2018)。它的基本單元是決策樹,但其本質是集成學習方法,是機器學習的一個分支,其核心思想始終為Bagging。然而,已經做了一些特有的改進,隨機森林使用CART 決策樹作為基學習器。

基于Gini 系數的隨機森林建立在許多決策樹上并支持各種特征權重度量。其中之一為特征與不平衡數據輸出的相關性,一旦分類器測量了Gini 系數,這種特征選擇技術就在 RF 中采用了權重調整技術。Gini 指數具有在特定節點中劃分二進制類的能力(Disha et al.,2022)。對于具有兩個以上不同值的屬性,考慮屬性子集,通過調整不平衡類分布的隨機森林算法中的權重,使用Gini 系數標準來分裂樹,計算特征重要性得分。GI 值越高,特征對模型預測的平均貢獻越大,模型的解釋能力越好,所有GI 特性之和為1。

公式(2):GIm為基尼指數,K代表k個類別,pmk表示節點m中k的比例;公式(3):表示特征i在第j顆樹的權重;公式(4)表示對所求出的所有重要度得分進行歸一化處理。

筆者把94 個滑坡點記為‘1’,等量非滑坡點記為‘0’,將7 個評價指標因子的屬性提取至訓練集,構造隨機森林二分類模型,并從sklearn 庫中調用Random Forest Classifier 方法,將訓練集代入RF 模型進行訓練。同時為了確保結果的可靠性和準確性,在原本的參數設定基礎上,采用貝葉斯優化算法搜索最優參數值。優化結果中,當每次迭代完成后更新權重時的步長取0.1,max_depth 取4,num round 取30 時,效果最佳。用測試集對RF 模型進行預測,結合公式(3),將得到各評價因子的權重歸一化后導入ArcGIS 中的柵格計算器生成滑坡易發性圖,采用自然間斷法將分區圖劃分為極高、高、中、低、極低5 個等級(圖5),易發性越高代表越容易發生滑坡。

圖5 Gini-RF 模型滑坡易發性分區圖Fig.5 Susceptibility zoning map of Gini-RF

3.2 XGBoost 易發性評價

XGBoost 是一種基于決策樹模型和梯度提升的集成機器學習算法,為了控制模型的復雜度,它將正則化項添加到損失函數中,正則項包括每個葉子節點權重的平方和與節點個數。XGBoost 處理缺失值并通過學習模型選取缺失值最佳的默認分割方向(Inan et al.,2021)。

描述的數據在預處理過程之后,基于Python3.6與R 語言,采用Scikit-learn 構建XGBoost 多分裂滑坡易發性模型(Alsahaf et al.,2018)。同時為了在獨立的驗證數據集上對子序列進行測試降低偶然性,選取最優子樹,通過貝葉斯算法優化,利用五折交叉驗證獲得每個模型評價度量的平均值,所有測試集的平均指標被認為是最終結果。將預測結果導入ArcGIS 繪制滑坡易發性圖(圖6)。樣本集在所選參數值上的交叉驗證準確度結果顯示:當進行第5 次五折交叉后,訓練集和測試集的AUC 值達到最大值并趨于穩定(圖7)。

圖6 基于XGBoost 的滑坡易發性圖Fig.6 Susceptibility zoning map of XGBoost

圖7 XGBoost 五折交叉驗證結果Fig.7 XGBoost 50% ross validation results

3.3 LightGBM 易發性評價

Light Gradient Boosting Machine(LightGBM)是一種高性能、開源、快速的分類、回歸、排名的方法,同時也是基于決策樹算法的梯度提升算法。LightGBM采用直方圖算法來降低內存消耗,使數據分割更簡單,將浮點的連續特征離散化為式子中的k 個離散值,構造一個寬度為 k 的直方圖,將數據進行遍歷訓練,計算直方圖中每個離散值的累積統計信息,在特征選擇中,只要根據直方圖離散值搜索最佳的分割點即可(Zeng et al.,2019)。

在4.2 使用方法基礎上,將研究區的123 156 296個柵格提取各評價因子的屬性值到點,生成123 156 296×7的表格,導入訓練好的機器學習模型中,預測每個柵格發生滑坡的概率,利用點轉柵格工具將所有的點生成柵格數據,再用自然間斷法將研究區的滑坡易發區分為極高、高、中、低、極低5 個類別(圖8)。圖9 為LightGBM 的學習曲線。

圖8 基于LightGBM 的滑坡易發性圖Fig.8 Susceptibility zoning map of Gini-RF

圖9 LightGBM 學習曲線Fig.9 LightGBM learning curve

4 滑坡易發性評價結果驗證

4.1 易發性分區結果與對比

基于ArcGIS,分別統計3 種不同機器學習模型在每個易發性分區的柵格個數與滑坡點個數(表2),3種模型的滑坡易發性結果呈現出一定的差異,但整體趨同。Gini-RF、XGBoost 和LightGBM 模型均在極低類別中的百分比值最高。對于Gini-RF 模型,從極高到極低易發性的面積比分別為11.99%、12.63%、19.58%、26.77%和29.03%。XGBoost 模型的極高、高、中、低和極低易發性區域分別占12.05%、12.50%、19.62%、26.78% 和29.05%。對于LightGBM 模型,極低、低、中、高和極高易發性區域分別占12.14%、12.41%、19.43%、26.47%和29.55%。根據滑坡位置的分布可以看出,大多數歷史滑坡記錄位于高易發性地區,正如Gini-RF、XGBoost 和 LightGBM 模型所預測的那樣。LightGBM 模型的性能最高,其次為XGBoost 與Gini-RF。

表2 機器學習模型易發性分區對比Tab.2 Comparison of machine learning model vulnerability zones

根據評價因子的選取及易發性評價分區圖可知,滑坡高和極高易發區多位于墨脫縣的達木鄉、幫辛鄉,林芝縣的丹娘、里龍、扎西饒登鄉,朗縣的隴村,工布江達的江達鄉。在這些地區應采取相應的地質災害防治措施。特別是位于雅魯藏布江與尼洋河兩岸海拔較低、坡度為30°~40°,距河流、道路、斷裂帶200 m以內的區域。

究其原因,這類地區位于雅魯藏布江與尼洋河兩岸南部與印度板塊和亞歐板塊交界,地殼運動劇烈,孕育一系列區域性斷裂,斷裂帶與斷層降低了巖層的完整性和強度,并且高程多位于200~1 000 m,大多數坡度小于40°,在此范圍內人工多進行切坡建房和道路建設等強烈活動,造成大量的裸露斜坡,加上長期的流水作用,使河流兩岸遭受嚴重的侵蝕和沖刷,導致沉積物飽和,從而降低斜坡的完整性,使斜坡運動或質量運動,且距道路越近,道路建設所造成的破壞性會對邊坡穩定性產生負面影響,因此滑坡災害頻發。

相反,滑坡低易發區主要分布在工布江達縣的錯高、朱拉區,林芝市的沖果俄、港阿如,米林縣的蘇魯胖地區,其特點是坡度較緩、人類活動較少,遠離道路、河流、斷裂帶。

4.2 模型精度比較

在機器學習中,性能指標通常用于二進制分類中測試集的正確預測數。筆者使用準確度(Accuracy)、精確度(Precision)、召回率(Recall)、F1 分數、(ROC)曲線和AUC 值6 個指標對不同機器學習模型的精度進行了評價。準確度分數是評估模型在二元分類問題中的性能的最常用指標,表示在所有樣本中,能被正確識別的概率;精確度是通過計算模型預測為真時實例為正樣本的頻率來評估模型性能的度量;召回率是模型正確檢測真陽性實例的度量;F1 分數是召回率和精度之間的權衡指數,同時考慮了FP 和FN,使模型整體更具準確性。具體公式如下:

式中:TP和TN分別為真陽性和真陰性,代表正確分類的像素數;FP和FN分別是假陽性和假陰性,代表錯誤分類的像素數。

為了得到不同機器學習算法在測試數據集上的預測準確性,基于上述方法,利用公式(5)~公式(8)計算精確度、精確度、召回率和F1 指數,隨機抽取30%樣本作為測試樣本,得出模型的泛化能力和準確率(表3)??梢钥闯?,基于不同框架算法的預測性能不一樣。3 種機器學習模型中,LightGBM 模型在超參數優化下其AUC(0.843 2)、ACC(0.853 1)、F1 分數(0.834 5)、Precesion(0.825 1)均高于另外兩種機器學習模型。

表3 各機器學習模型準確率Tab.3 Accuracy of each machine learning model

在機器學習中,ROC 曲線被廣泛應用于二分類問題中來評估分類器的可信度(張玘愷等,2020)。AUC為ROC 曲線下面積。AUC=1 表示該曲線存在至少一個閾值能得出完美預測。曲線縱軸為真陽率TPR,橫軸為假陽率FPR,越靠近左上角,則認為該判斷指標預測能力越好。從這條 ROC 曲線可以看出,經過網格搜索與5 折交叉驗證后的藍色曲線LightGBM 模型更接近左上角,AUC 值為0.843 2,與Gini-RF 模型的0.822 5 有較大提升,且準確率高于XGBoost 模型的0.935 8(圖10)。XGBoost 相比Gini-RF 而言,對模型的損失函數進行了改進,并加入了模型復雜度的正則項,而LightGBM 是在XGBoost 基礎上,優化了模型的訓練速度。因此,LightGBM 的泛化能力最好,易發性劃區可靠性高。

圖10 機器學習模型ROC 曲線Fig.10 ROC curve of machine learning model

4.3 典型滑坡驗證

對比近幾年來雅魯藏布江與尼洋河兩岸發生的滑坡事件(表4),將9 個滑坡信息導入生成的滑坡易發性圖中,可知3 個滑坡點位于中易發區,3 個滑坡點位于高易發區,剩余均出現在極高易發區。

表4 近幾年以來滑坡事件Tab.4 Landslide events in recent years

為了進一步驗證本研究分析方法的可靠性,選擇羌納巴嘎滑坡與墨脫縣公路滑坡兩處滑坡現場調查進行對比驗證(圖11)。

圖11 典型滑坡驗證Fig.11 Verification of typical landslides

西藏自治區林芝地區米林縣羌納鄉巴嘎村滑坡位于E 94°24′34″,N 29°20′16″;所處地形地貌為高山河谷地貌;下付基為板巖;斜坡結構為巖土復合斜坡,坡度為30°;植被覆蓋率一般,土地利用較低;滑坡前緣至斜坡下方公路,后緣至斜坡山脊處,滑坡體主要為碎土石,滑床為板巖。該滑坡變形特征主要為前方公路開挖斜坡坡腳,導致斜坡失穩。

林芝地區墨脫縣公路地處E 93°38′10″,N 29°08′28″,滑坡長為30 m,寬為40 m,厚度為2 m,面積為1 200 m2,體積為2 400 m3,坡度為35°,坡向為260°,滑坡側邊界、前緣清晰可辨。該滑坡微地貌為陡坡,地層巖性為泥巖,位于白龍斷層附近,斜坡結構類型為土質斜坡,坡形為凸形,滑坡下方人類活動較少,僅有一小段公路,植被覆蓋率較低,為低矮灌叢,滑坡位于河流右凸岸。目前狀況為不穩定。

兩處滑坡均處于滑坡高易發區,再次驗證了本研究機器學習模型劃區的準確性。研究結果可供區域滑坡防治相關部門參考。

5 結論

(1)統計各評價因子分級范圍內滑坡點數量,表明在高程為32~1 544 m 與2 722~3 752 m、坡度為30°~40°、地層巖性為雅魯藏布江帶閃片巖、土地利用為草地、距斷裂帶、河流與道路200 m 以內滑坡發生的次數最多。

(2)采用五折交叉驗證后,基于貝葉斯優化算法的Gini-RF 模型準確率由原來的0.752 4 提升到0.822 5,XGBoost 與LightGBM 模型準確率也提升了0.032 3與0.017 6。3 種模型對研究區的滑坡分區都具有很高的準確性,其中LightGBM 模型的性能最好,AUC 值、精確度、F1 分數、泛化能力、擬合程度、精確率更高。

(3)利用Gini-RF、XGBoost、LightGBM 等3 種集成機器學習模型對滑坡易發性進行分析,表明滑坡高和極高易發區多位于 墨脫縣的達木鄉、幫辛鄉,林芝縣的丹娘、里龍、扎西饒登鄉,朗縣的隴村,工布江達的江達鄉。特別是位于雅魯藏布江與尼洋河兩岸海拔較低、坡度為30°~40°、距河流、道路、斷裂帶200 m以內的區域。在這些地區應采取相應的地質災害防治措施。

(4)滑坡極高與高易發性區占比分別為12.14%和12.41%,低和極低易發區分別占26.47%與29.55%,區內一半以上的地區不容易發生滑坡災害?;乱装l性分區結果與現場滑坡災害調查結果吻合較好,同時利用研究區近幾年已發生的滑坡點進行驗證,表明模型的可靠性高,滑坡分區圖可為有關地方部門的防災減災活動提供指導。

猜你喜歡
易發滑坡因子
機用鎳鈦銼在乳磨牙根管治療中的應用
貴州省地質災害易發分區圖
夏季羊易發疾病及防治方法
因子von Neumann代數上的非線性ξ-Jordan*-三重可導映射
滑坡推力隱式解與顯式解對比分析——以河北某膨脹土滑坡為例
冬季雞腸炎易發 科學防治有方法
一些關于無窮多個素因子的問題
影響因子
我的健康和長壽因子
淺談公路滑坡治理
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合