?

滑坡易發性預測建模的不確定性:不同“非滑坡樣本”選擇方式的影響

2024-02-02 09:29黃發明曾詩怡熊浩文范宣梅黃勁松
工程科學與技術 2024年1期
關鍵詞:易發緩沖區坡度

黃發明,曾詩怡,姚 池*,熊浩文,范宣梅,黃勁松

(1.南昌大學工程建設學院,江西南昌 330031;2.成都理工大學地質災害防治與地質環境保護國家重點實驗室,四川成都 610059;3.紐卡斯爾大學巖土科學與工程卓越研究中心,紐卡斯爾 2287)

滑坡對生命和財產造成的破壞十分嚴重且影響范圍較大[1–2]?;乱装l性預測作為滑坡風險評估的基礎非常重要,在GIS和機器學習等技術快速發展的背景下,利用多學科交叉融合方式開展滑坡易發性建模已成為滑坡風險評估的有效工具之一[1,3–4]。

當前,滑坡易發性建模(LSP)過程主要包括獲取滑坡編錄與環境因子、劃分模型訓練/測試集、確定合適的機器學習模型、分析預測結果的不確定性等步驟[5]。其中,存在各種影響建模結果的不確定性,例如數據測量、不同聯接方法、不同數據驅動模型的不確定性等等,已有研究分析了部分因素的不確定性[6–8]。根據機器學習建模原理可知,由滑坡和非滑坡樣本共同組成的訓練/測試集作為機器學習的核心在整個建模過程中至關重要。其中滑坡樣本通常根據歷史滑坡編錄或遙感影像及航片進行選取,其存在的不確定性較小[9–10]。而非滑坡樣本通常無法直接獲取,文獻顯示大多通過采集“偽”負樣本來代替非滑坡樣本且目前沒有統一的選擇方式[11–13]。因此,非滑坡的選擇相對于滑坡樣本而言不確定性更大,是影響模型訓練/測試集質量的關鍵因素之一,合理地選擇可信度高的非滑坡樣本有利于降低建模不確定性[11]。

現有研究大多在整個研究區內未發生滑坡的區域中隨機選擇非滑坡樣本[14–15]。一般而言,滑坡在河道、溝谷等低坡度區域內發生的概率較小,因此,可利用高分辨影像解譯低坡度屬性區并從中隨機選擇非滑坡[16–17]。此外,緩沖區控制采樣法也常應用于滑坡易發性預測,即從滑坡面緩沖區以外的區域選擇非滑坡樣本[11,13,18]。對于上述非滑坡選擇方式,全區隨機選擇雖然避開了已知滑坡點,但是難以保證非滑坡樣本的可靠性,導致樣本誤差較大,進而將誤差傳遞給了易發性建模。從低坡度屬性區中選擇雖然改善了非滑坡的穩定性,但使采樣工作被坡度因子主導。另外緩沖區外選擇非滑坡對緩沖半徑的確定并無統一標準,緩沖區過大或過小均會造成建模的不確定性,且采集的滑坡點不同將影響緩沖區的位置從而改變選擇范圍[11]。

信息量(IV)法和半監督法選擇非滑坡樣本的原理類似,即極低和低易發區內發生滑坡概率較小,在此范圍內選擇非滑坡樣本的可靠性更高[9,19]。信息量法不需要非滑坡樣本也能得到初始滑坡易發性分區[20]。半監督法結合了全監督和無監督的優點,在僅有少量已標記樣本的情況下能夠利用隱藏在大量無標簽樣本中的數據分布信息來提升學習性能[21]。

綜上所述,由于上述各類選擇方式的主觀性和隨機性較強,導致獲取的非滑坡樣本不具有足夠的代表性,降低測試集的質量,從而影響后續建模性能。本文以江西省南康區為例,采用5種非滑坡樣本選擇方式,即全區隨機選擇[14]、坡度小于5°的特定屬性區內隨機選擇[16]、滑坡面緩沖300m外隨機選擇[11]、信息量法[20]以及半監督法[21];將得到的非滑坡樣本與機器學習耦合構建模型預測易發性;對比5種方式的易發性結果,進而探究不同非滑坡選擇方式對建模不確定性的影響規律;比較不同機器學習的應用效果,發現隨機森林(RF)所需輸入參數和調整較少,且預測精度較高[8,22–23];故最終構建隨機RF、低坡度RF、緩沖區RF、IV–RF和半監督RF模型進行易發性預測。

1 滑坡易發性預測建模方法

1.1 研究思路

本文構建隨機RF、低坡度RF、緩沖區RF、IV–RF和半監督RF模型開展易發性建模并對比分析。具體流程如圖1所示:1)獲取研究區滑坡編錄信息并采集19種基礎環境因子數據,利用頻率比相關性分析得到各因子的值;2)基于環境因子相關數據,利用IV模型、隨機RF模型進行初始易發性分區,將極低和低易發區作為選擇范圍獲取高可靠性的非滑坡樣本;3)合并獲得的非滑坡樣本與歷史滑坡樣本,耦合構建隨機RF、低坡度RF、緩沖區RF、IV–RF和半監督RF模型進行易發性預測;4)對比5種選擇方式耦合的RF模型的預測結果,采用ROC(receiver operation characteristic curves)曲線和易發性指數分布規律分析建模不確定性,并探討半監督RF模型中樣本非對稱的情況。

圖1 不同非滑坡樣本選擇方式的滑坡易發性預測建模流程Fig. 1 Flow chart of LSP modeling under different non–landslide sample selection methods

1.2 非滑坡樣本選擇

全區隨機選擇時先剔除整個研究區內的已知滑坡區域,從得到的無滑坡區中隨機選擇非滑坡樣本[14]。從低坡度區域選擇時根據研究區的坡度特征設置合理的坡度值,篩選出坡度小于該值的區域后從中隨機選擇單元作為非滑坡樣本[16]。結合研究區地理環境以及歷史滑坡信息確定緩沖距離的大小后基于歷史滑坡面數據利用ArcGIS 10.2創建滑坡緩沖區,選擇整個研究區緩沖區以外的區域作為非滑坡樣本的選擇范圍[11]。

信息量法選擇非滑坡首先利用信息量模型計算獲得各環境因子的信息量值,對其進行疊加后得到總信息量值[20]。在A rcGIS 10.2中運用自然斷點法對全區總信息量值進行初始分區。由于信息量值越高表明發生滑坡的概率越大,在極低、低易發區內進行非滑坡樣本的選擇。

在全區隨機選擇非滑坡進行易發性建模的基礎上建立半監督法。由于初始預測得到的極低、低易發區內的柵格單元發生滑坡易發性小,在此區域內進行非滑坡樣本的采集更加合理,提高了非滑坡樣本的可信度。

1.3 隨機森林(RF)模型

RF模型基于決策樹算法通過獨立采樣和隨機選擇特征變量構建多個決策樹模型進行預測和分類得到綜合分析結果[22]:1)從原始訓練集樣本中進行有放回的重復采樣以獲得與原始樣本特征數目相同的樣本,作為決策樹根節點處訓練集;2)從N個特征中隨機選取n個(n?N)為決策樹節點的分裂建立特征集并擇取其中一個作為某節點的分裂屬性;3)決策樹上每一節點按2)中進行分裂并建立此類大量決策樹形成隨機森林[8]。由于建立一組決策樹進行預測會產生泛化誤差的限制值,使用RF模型能有效避免模型過擬合問題的出現,顯著提高模型的有效性和優越性[20]。

1.4 滑坡易發性建模不確定性評價

1.4.1基于ROC曲線的精度分析

采用ROC曲線分析易發性建模精度,能有效降低因測試集差異而產生的干擾,使模型性能評估工作更客觀[24]。由式(1)~(2)計算的真陽性率(RTPR)和假陽率(RFPR),分別代表分類器識別滑坡的準確程度[22]:

式中,nTP、nFN分別為被正確識別為滑坡的滑坡點個數和被錯誤識別為非滑坡的滑坡點個數,nFP、nTN分別為被錯誤識別為滑坡的非滑坡點個數和被正確識別為非滑坡的滑坡點個數。結合ROC曲線下面積SAUC對模型進行量化分析,反映出隨機挑選的結果中滑坡樣本排名高于非滑坡樣本的概率[8]。SAUC值一般在0.5~1.0范圍內,越接近1.0,說明該模型的預測性能更優越。利用式(3)計算SAUC:

式中,n0、n1分別為非滑坡與滑坡樣本個數,ri為第i個非滑坡樣本在整個測試樣本中的排序。

1.4.2基于混淆矩陣的精度評價

基于混淆矩陣衍生得到的Kappa系數(KC)和總體分類精度(OA)是滑坡易發性模型精度評價的重要指標。Kappa系數通常用于一致性檢驗,而總體分類精度能夠直接反映模型分類正確的比例,由式(4)~(5)計算得到:

式(5)中,KC系數值通常在0~1.0范圍內。當KC在0.6~1.0時,則說明模型具有高可靠性;當KC大于0.8時,說明預測結果與實際較一致[20]。Pe為期望一致率,即兩次檢驗結果由于偶然機會所造成的一致率:

1.4.3滑坡易發性指數分布

滑坡易發性指數分布特征主要通過均值和標準值兩個指標進行分析,二者分別反映了易發性指數分布的平均水平和離散趨勢[20]。均值較小,表明極低和低易發區包含了大部分易發性指數,結合高SAUC精度,進一步表明此時建模的不確定性更??;標準差大,說明整體易發性指數的分散程度高,結合高SAUC精度,進一步表明滑坡易發性指數的可識別性強,且與野外滑坡實際分布情況更契合[25]。

2 研究區概況及環境因子選取

2.1 南康區概況及其滑坡編錄

如圖2所示,南康區地處江西省贛州市西部,屬中亞熱帶季風濕潤氣候。年均降雨約1443.2mm,雨量充沛但分布不均,境內水資源豐富。地處山脈區間高度范圍為96~995m,呈縱長橫狹之勢,總面積約1844.96km2。地形地貌以丘陵、山地為主,且章江、上猶江兩岸分布有較平整的河谷平原。根據南康區自然資源部門所知,1970—2010年累計發生約233處滑坡。當地滑坡以中小型規模為主,大部分為牽引式滑坡,滑體主要是第四紀堆積層?;驴臻g分布較均勻,北部和南部的低山、高丘陵山區、中部低丘陵區(紅層盆地)為滑坡多發區,其中地層界線交界處、道路兩側及植被分布較少的區域分布有較多滑坡。而在受人類活動影響較小的植被豐富地區滑坡數量更少,如鏡壩—三江—龍華河谷階地。為避免原始滑坡點的空間位置誤差引起建模不確定性,在繪制滑坡樣本的邊界時將邊界向外合理且盡可能準確地擴展。相關文獻綜述表明南康區內誘導滑坡發生的主要原因是強降雨,其次人類活動也對滑坡的發生具有一定的影響[21]。

圖2 南康區概況及滑坡編錄Fig. 2 Overview of Nankang District and landslide inventory

2.2 數據源

研究采用的數據源主要包括:1)南康區自然資源局歷史滑坡編錄資料及地質勘察報告;2)30m分辨率的數字高程模型(DEM)用于獲取地形地貌和水文環境等環境因子;3)采用1∶105比例尺的地質圖提取巖性因子;4)采用30m分辨率的La n d s a t TM 8遙感影像1景(2013.07.03,軌道號119/041)提取地表覆被因子;5)從中國科學院地理數據貢獻平臺獲取研究區的年均降雨量、人口密度、GDP等數據用于提取相關環境因子。本文采用30m的分辨率表達DEM和遙感影像,符合國家基礎空間數據庫的建庫標準且能有效反映地形地貌特征,同時能夠避免出現因柵格數過多造成模型計算困難的問題[26]。最終將233個滑坡編錄劃分成2 598個滑坡柵格單元,即易發性建模時共有2 598個滑坡樣本。

2.3 環境因子頻率比分析

滑坡的發生是由多種內部因素和外部因素共同作用的結果[27–28]。參考江西省內其他與南康類似的研究區相關文獻資料,考慮相關環境因子的客觀實在性、統計繼承性等原則,從數據源中獲取地形地貌、基礎地質、氣象水文、地表覆被4個方面的19個環境因子數據用于易發性建模[29]。選擇頻率比(FR)模型處理滑坡與環境因子間的非線性響應關系來反映環境因子對滑坡易發性的影響程度[27]。當FR>1時,說明該因子所屬區間有利于滑坡孕育;當FR<1,則說明不利于滑坡孕育。利用ArcGIS 10.2的自然斷點法,將連續型的環境因子劃分為8個子區間見表1[8],具體分布如圖3所示。

2.3.1地形地貌因子

基于DEM利用ArcGIS 10.2獲取其他地形地貌因子。由表1和圖3(a)、(b)可知,高程在163.4~360.9m、坡度在6.2°~21.2°內,FR>1,表明中等程度海拔和坡度的區域是南康區滑坡的主要發生地。剖面曲率和平面曲率分別體現垂直方向、水平方向的地形復雜程度[23]。當剖面曲率介于1.3~10.4、平面曲率小于28.7時,FR>1,易造成滑坡的發生。地形起伏度從宏觀角度反映研究區的地貌特征,其在20.0~100.1m內滑坡發生的概率較大。

2.3.2基礎地質因子

巖性通過直接影響基巖和堆積體的力學性質來干擾滑坡的孕育[16,26]。地質調查顯示,研究區內主要出露有變質巖、碳酸鹽巖、碎屑巖,其中變質巖和碎屑巖的FR均>1?;旅芏缺硎疽欢ǚ秶鷥人幕曼c數量[27],滑坡密度大的區域是滑坡的高易發區。斜坡形態包括凹形坡、直線形坡、復合形坡和凸形坡4類。由表1可知,研究區內凹形坡和復合形坡有利于滑坡的發育。土壤黏/砂粒含量與水的滲透、侵蝕聯系密切[30]。當土壤表層結構中黏粒比砂粒含量更低,底層黏粒比砂粒含量更高時土壤中水分的滲透作用增強,加重了斜坡體重量,從而促進滑坡面的形成[31]。

2.3.3氣象水文因子

邊坡受降雨沖刷易發生軟化,且雨水下滲會改變坡體內部的力學性質[32]。由表1可知,降雨量高的區域滑坡發生的概率也更高。采用溝壑密度和改進的歸一化差異水體指數(MNDW I)因子反映水文環境對滑坡的影響。溝壑密度定義為單位面積內溝壑河道的長度之和[33]。溝壑越密集的區域,受降雨、水系的侵蝕作用更加嚴重,滑坡發生的概率更高。MNDWI則能有效突顯影像中的水體信息,揭示水體微細特征。

2.3.4地表覆被因子

歸一化建筑指數(NDBI)能有效表示出研究區內建筑用地的信息,當NDBI在0.56~0.75范圍內時有利于滑坡發生[25]。歸一化植被指數(NDVI)反映區域內植被生長情況和覆蓋程度,覆蓋度高的區域通?;掳l生的可能性較小[21]??傒椛浒ㄋ降乇硭邮芴柕闹苯虞椛渑c漫射輻射,通過影響植被生長和土壤濕度間接作用于滑坡的發生[8]。人口密度和GDP密度分別表示單位面積內人口數量和經濟的分布特征。公路密度體現了研究區內公路修建的密集程度,道路修建過程中的開挖切坡行為會改變坡體的自然結構,破壞邊坡坡腳的穩定從而促進滑坡的發生[16]。

3 不同非滑坡選擇下的易發性結果

全區隨機選擇的方式從無滑坡區內隨機選擇與滑坡樣本等量的2 598個非滑坡樣本。根據南康區歷史滑坡的地理特征和相關文獻[16–17],認為坡度小于5°的屬性區發生滑坡的概率較小,故篩選研究區坡度低于5°的柵格從中選擇2 598個單元作為非滑坡。從緩沖區外選擇時基于2 233個歷史滑坡面創建距離大小為300m的滑坡緩沖區,在該范圍以外隨機選擇2 598個非滑坡樣本。

信息量法加權處理環境因子信息量值后,得到總信息量值的范圍為–21.15~8.83。分區后在極低、低易發區中隨機選擇2 598個柵格單元作為非滑坡樣本。

采用半監督法選擇時從隨機RF模型易發性分區的極低、低易發區中隨機選擇2 598個柵格作為可靠性更高的非滑坡樣本。另外在進行樣本非對稱分析時,為構建滑坡與非滑坡比例為1∶2的樣本集,將非滑坡樣本個數增加至5 196個柵格。

表1 部分基礎環境因子 F R 值Tab.1 Frequency ratios of some environmental factors

圖3 滑坡基礎環境因子Fig. 3 Basic environmental factors of landslide

3.1 RF的易發性建模

整個研究區采用30m的分辨率劃分為2 0 6 3 002個柵格單元,將所有環境因子頻率比分析后重新賦值的結果作為RF模型的輸入變量。利用ArcGIS 10.2轉換得到的2 598個滑坡柵格單元易發性并將其賦值為1,各方式選擇的非滑坡樣本易發性賦值為0,二者共同組成預測模型的輸出變量[8]。聯接滑坡與非滑坡樣本及環境因子的FR值后合并構成等比例樣本集作為訓練/測試集,按7∶3隨機劃分為兩部分,其中70%用于模型訓練,30%用于模型測試[21]。

利用Python 3.8.8的Pandas、NumPy、Scipy等庫對數據進行讀取、計算和預處理,以及Scikit–learn庫實現RF模型的機器學習過程[34]。由于構建RF模型時決策樹的數量將對模型的整體精度造成影響,根據重復實驗驗證得最優的RF決策樹數目并在模型中應用該參數進行預測[20]。

3.2 滑坡易發性預測結果

基于5種選擇方式得到的非滑坡樣本,利用Python 3.8.8對整個南康區柵格單元進行易發性預測,將易發性指數導入A rcGIS 10.2中制圖。為方便對比不同選擇方式的預測結果,結合易發性指數分布規律和自然間斷點法將預測的易發性指數均按10%、10%、20%、30%和30%的比例劃分為極低、低、中等、高和極高5個級別[12]。不同非滑坡樣本選擇方式的建模結果如圖4和表2。

圖4 基于不同非滑坡樣本選取方法的滑坡易發性Fig. 4 Landslide susceptibility maps under different non–landslide selection methods

表2 基于5種非滑坡樣本選擇方式的易發性評價等級的統計結果Tab.2 Statistical results of susceptibility classification based on five non–landslide sample selection methods

由圖4和表2可知,隨著滑坡易發性級別的提高,其對應的FR值也逐漸增大,各方式預測的極高和高易發區內均包含了大部分的滑坡柵格單元。由此可見,5種選擇方式預測的易發性圖整體上相似,但對比細節發現預測結果間仍存在差異。使用等比例樣本集(滑坡∶非滑坡=1∶1)的情況下,隨機RF、低坡度RF、緩沖區RF、IV–RF和半監督RF模型中極高和高易發區的歷史滑坡占比分別為87.83%、67.71%、88.53%、54.16%和90.07%。其中,半監督RF預測的極高和高易發區中包含的歷史滑坡數量最多,表明半監督RF的易發性結果與已知滑坡的分布特征更加吻合,具有更優的建模性能。

4 滑坡易發性預測結果不確定性分析

4.1 模型精度評價

4.1.1 ROC精度評價

上述6種模型的ROC曲線及SAUC如圖5所示。由圖5可見:隨機RF和緩沖區RF模型的ROC曲線相近且凸出程度較低,SAUC分別為0.895、0.896;低坡度RF模型SAUC高達0.973,可見,在坡度<5°的區域內,選擇非滑坡樣本顯著提升了模型精度;半監督RF和IV–RF模型的ROC曲線均高于上述3種方式的ROC曲線,其中IV–RF的 SAUC為0.990,滑坡與非滑坡的比例分別為1∶1和1∶2時,半監督RF的 SAUC高達0.997和0.999,可見半監督RF模型的性能更佳,同時其在滑坡:非滑坡=1∶2的比例條件下預測精度最高。

圖5 不同非滑坡樣本選擇方式模型的ROC曲線Fig.5 ROC curves of different non–landslide sample selection models

4.1.2精度統計指標

各耦合模型的精度統計指標如表3所示。由表3可知:KC和OA的大小排序均為隨機RF<緩沖區RF<低坡度RF

4.2 不同非滑坡樣本選擇方式的易發性指數分布

將易發性指數在[0,1]范圍內均分為100個區間進行統計分析,如圖6所示。由圖6可見,均值越小且標準差越大,說明建模過程中存在的不確定性越小。

表3 不同耦合模型驗證指標Tab.3 Validation indicators of coupled different models

圖6 不同非滑坡樣本選擇方式對應的易發性指數分布Fig. 6 Susceptibility indexes distribution of different non–landslide sample selection methods

1)隨機RF與緩沖區RF模型的易發性指數分布規律較一致,整體上呈現隨易發性指數增大而分布逐漸減小的趨勢,且在極低易發區內均出現一段小幅增加。低坡度RF、IV–RF和半監督RF模型(滑坡∶非滑坡=1∶1)的易發性指數分布表現為低易發區和高易發區的分布較集中,而中間易發區分布較少。

2)各耦合模型的易發性指數按均值大小排序為:均值(IV–RF)>均值(低坡度)>均值(半監督1∶1)>均值(緩沖區)>均值(隨機)>均值(半監督1∶2)。按標準差大小排序為:標準差(IV–RF)>標準差(低坡度)>標準差(半監督1∶1)>標準差(半監督1∶2)>標準差(緩沖區)>標準差(隨機)?;隆梅腔?1∶1時各耦合RF模型的均值普遍較大。其中,隨機RF和緩沖區RF的均值較小,分別為0.318和0.321;但二者的標準差也較小,分別為0.209和0.215,說明利用這兩種方法進行預測時對易發性的區分度不高。低坡度RF和IV–RF的均值為0.518和0.625,標準差分別為0.351和0.371,相對于其他非滑坡選擇方式,其均值和標準差均較大。半監督RF的均值為0.438,小于低坡度RF和IV–RF;且標準差為0.314,大于隨機RF和緩沖區RF,綜合而言半監督RF模型的預測性能更優。在滑坡∶非滑坡=1∶2時,半監督RF模型的均值為0.202,在6種模型中其均值最小,且易發性指數大部分位于極低和低易發區內,說明利用少量的高易發性指數能反映出盡量多的歷史滑坡編錄信息[8]。

4.3 滑坡環境因子重要性分析

環境因子的重要性是評估各因子對滑坡發生的影響程度的指標之一。將基礎環境因子中具有較高重要性的因子稱為滑坡易發性主控因子。在滑坡易發性預測過程中分析基礎環境因子的重要性程度對易發性研究起到參考作用。本文利用Python 3.8.8對6種耦合模型中的19種環境因子進行分析,獲得相應的重要性后,通過origin 2018軟件處理得到各基礎環境因子的重要性排序,如圖7所示。

圖7 不同非滑坡樣本選擇方式對應的環境因子重要性排名Fig. 7 Environmental factor importance ranking of different non–landslide sample selection methods

綜合對比圖7(a)~(f)可知,各耦合模型的環境因子重要性程度大同小異。隨機RF和緩沖區RF中的環境因子重要性排序大致相同,兩種模型中距離水系距離、坡度和滑坡密度等因子的重要性程度均較大。低坡度RF和IV–RF在因子重要性方面表現相似,坡度、地形起伏度、高程、巖性和滑坡密度等因子的重要性程度較大。而低坡度RF模型中坡度因子重要性占比更大,間接反映了非滑坡樣本根據坡度特征進行選擇。半監督RF模型中坡度因子對模型的影響程度最為顯著,其次是距離水系距離、坡度、滑坡密度和年均降雨量等因子。

總體而言,坡度是南康區滑坡發生最重要的主控因子之一,在所有耦合模型中其因子重要性均較大。而MNDW I、NDBI和NDVI等環境因子對南康區滑坡事件發生的影響較小。結合南康區的滑坡成因以及地理環境條件可知半監督RF模型計算的環境因子重要性更加契合實際,可信度更高。

5 討 論

5.1 滑坡易發性分區結果

上述5種不同的非滑坡樣本選擇方式預測的滑坡易發性結果整體上類似。由于研究區內中等程度高程與坡度的地形地貌有利于邊坡堆積層的形成從而促進滑坡發育,由表1可知,中等程度高程和坡度地區的FR均大于1。結合圖3(a)~(b)和圖4觀察發現,滑坡的極高和高易發區常分布于此類地區。降雨量豐富且溝壑密度大的區域內,地表/地下水的滲流現象明顯,滑帶濕潤情況嚴重會導致抗滑力顯著下降[22],年均降雨量超過1322.9mm、溝壑密度在0.2~0.8的區域包含較多的極高和高易發區。當地的碎屑巖及變質巖原本的結構應力平衡易被破壞使坡體的力學強度下降[8],碎屑巖和變質巖對應的頻率比分別為1.18和1.41,對比圖3(g)和圖4可知,這兩種地層巖性區域滑坡易發性較高。觀察NDVI環境因子可知,上述區域通常植被覆蓋程度不高,間接加速了巖體的風化作用。南康區的滑坡極低和低易發區普遍海拔較高,且降雨作用不明顯,水流下滲對斜坡體形成的影響較小,同時植被覆蓋程度較高,有效降低了滑坡發生概率[21]。

5.2 不同非滑坡樣本選擇方式下的易發性建模

隨機RF模型選擇非滑坡樣本減少人為的干擾,其預測精度整體效果尚可且操作簡便,故目前大多數研究采用隨機方式選擇非滑坡[15]。但由于該方法未考慮到無歷史滑坡區域存在高易發性樣本的可能,將影響非滑坡樣本的質量和可靠性[35]。

從低坡度屬性區選擇非滑坡樣本一定程度上提高了建模精度,目前已有部分研究應用此方式開展,例如Kavzoglu等[7]選擇在坡度小于5°的地區進行采樣。利用此方法時需要結合研究區地形確定合適的坡度范圍以得到更可靠的非滑坡樣本。對比圖3(b)和圖4發現,該模型預測結果中低坡度區內易發性指數均較低,而其他區域的易發性指數普遍較大,表明利用此方法選取得到的非滑坡樣本進行預測一定程度的降低了模型地泛化能力,難以合理識別全區滑坡易發性。實際情況中低坡度地區與低易發區不能完全劃等號,可見在低坡度區內選擇非滑坡樣本存在顯而易見的缺陷[36]。

緩沖區RF模型能降低非滑坡樣本的錯誤率,本研究對比不同緩沖距離的預測結果后,選擇以300m作為緩沖距離展開研究。研究中最佳緩沖距離的確定與所選研究區的環境特征、數據源等有關,需要反復實驗才能更好地確定[18]。不同研究區之間對緩沖距離的選擇可能存在較大差異,如鮑帥[13]、Lucchese[18]等選擇以1 km作為緩沖距離,而繆亞敏等[11]將200~500m范圍作為最佳緩沖距離。然而由于人為局限了非滑坡樣本的空間范圍,易使非滑坡樣本分布不夠均衡。

針對上述非滑坡樣本選擇方式中存在的問題,現有研究中還存在基于自組織映射神經網絡[12]、DBSCAN[13]的聚類分析法、目標空間外向化采樣法[35]等均能獲得更加可靠的非滑坡樣本。本文進一步分析信息量法和半監督法以探索更高效準確地選擇非滑坡樣本。構建IV–RF模型進行預測時對易發性結果的可識別性效果不佳。結合精度和易發性指數分布規律可知,半監督法相比于其他4種方式具有更高的預測精度且更強的易發性指數分布規律性。

事實上,研究各類模型均是基于RF算法,差別在于不同選擇方式得到的非滑坡樣本可靠程度不同,從而影響滑坡易發性預測建模過程中訓練測試集的質量。半監督模型的優勢在于減小了模型訓練和測試過程中由于非滑坡樣本的質量產生的誤差。半監督機器學習根據初次易發性預測結果,從極低和低易發區進行更加準確的采樣工作,一定程度上提高了訓練測試集的質量,從而提高了模型預測的精度且降低了建模的不確定性。

5.3 半監督機器學習中滑坡與非滑坡不同比例的預測建模

雖然各種方式構建等比例的滑坡–非滑坡樣本開展易發性建模的預測精度均較高,但圖6(a)~(e)顯示其普遍存在易發性指數均值較大等問題。為進一步避免滑坡易發性指數分布不合理等問題,考慮采用不同的滑坡/非滑坡比例以嘗試解決該問題。由于滑坡區域占少數,而非滑坡區域占多數,通過擴大非滑坡比例使模型更貼近研究區內真實的滑坡與非滑坡的數量關系[37]。對比5種非滑坡選擇方式可知,半監督法的效果最好,故本文利用更具代表性的半監督法構建滑坡∶非滑坡=1∶2的樣本集進行易發性建模,并與等比例樣本集下的半監督RF模型對比。

由圖5可知,相較于等比例樣本集,利用滑坡∶非滑坡=1∶2比例的樣本集進行易發性建模的不確定性最低。其表現為1∶2比例下的結果中易發性指數主要分布在低和極低易發區且均值顯著降低,使滑坡易發性指數分布更合理。當然,本文僅討論了利用滑坡∶非滑坡=1∶2時構建半監督RF模型的情況,滑坡與非滑坡比例的問題有待研究,比如滑坡∶非滑坡=1∶3、1∶4、1∶5、1∶6等比例下的建模情況仍需進一步探索。

6 結 論

1)利用低坡度、緩沖區、信息量法、半監督法等方式選擇非滑坡樣本進行滑坡易發性預測建模時,構建的耦合RF模型具有比隨機RF模型更高的預測精度??梢娎闷渌绞竭x擇更可靠的非滑坡樣本對提升易發性建模性能具有顯著作用,準確的非滑坡樣本有利于降低建模不確定性。

2)5種非滑坡選擇方式耦合模型中半監督RF建模結果的精度高于IV–RF模型,其次是低坡度RF、緩沖區RF、隨機RF模型。半監督RF模型結果中的均值和標準差分別為0.438和0.314,均值相對較小且標準差較大,其不確定性較小。半監督RF模型計算得到的滑坡環境因子重要性結果更貼合實際,半監督RF模型的滑坡易發性預測性能更優。

3)對比滑坡與非滑坡不同比例的工況顯示,滑坡∶非滑坡=1∶2的半監督RF模型預測得到的滑坡易發性的均值顯著減小到0.202,且獲得的預測精度和Kappa系數最高,分別達到0.999和95.6%。由此可見,采用滑坡∶非滑坡=1∶2的比例建模能獲得更準確可靠的滑坡易發性指數分布規律。

猜你喜歡
易發緩沖區坡度
機用鎳鈦銼在乳磨牙根管治療中的應用
貴州省地質災害易發分區圖
夏季羊易發疾病及防治方法
冬季雞腸炎易發 科學防治有方法
關于公路超高漸變段合成坡度解析與應用
嫩江重要省界緩沖區水質單因子評價法研究
基于圖像處理的定位器坡度計算
坡度在巖石風化層解譯中的應用
CT和MR對人上脛腓關節面坡度的比較研究
關鍵鏈技術緩沖區的確定方法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合