?

基于GEE的洱海流域土地利用/覆被分類算法對比研究

2024-01-20 02:46董亞坤何紫玲曾維軍
西北林學院學報 2024年1期
關鍵詞:洱海土地利用流域

董亞坤,王 鈺,何紫玲,王 鵬,趙 昊,曾維軍*

(1.云南農業大學 水利學院,云南 昆明 650201;2.云南農業大學 資源與環境學院,云南 昆明 650201;3.自然資源部 云南山間盆地土地利用野外科學觀測研究站,云南 昆明 650201)

土地利用/覆被變化(LULC)反映區域的經濟水平和城鎮化的發展[1-3]。準確分類和評估土地利用變化對于保護土地和生態環境及制定可持續發展戰略至關重要[4]。遙感影像具有觀測面積廣、周期短等優點,在監測大面積及長時序土地覆被變化方面具有優勢,因此在LULC分類中被廣泛使用[5]。從單一類型的LULC變化監測,如森林、水域等,到地表覆被的全部分類[6];從傳統的人工目視解譯,到如今的人工智能自動、批量化解譯[7]。隨著遙感技術及處理平臺的發展,機器學習算法、人工智能解譯在遙感影像分類中的應用,分類和回歸樹(classification and regression tree,CART)[5]、隨機森林(random forest,RF)[8]、支持向量機(support vector machines,SVM)[9]等方法廣泛應用于遙感圖像分類中,GEE是一個采用JavaScript或Python語言調用、處理和分析數據的平臺[6],其性能穩定,尤其適合大范圍、長時間、多源遙感數據解譯,一經推出便被眾多科研人員使用,研究區涉及平原[10]、島嶼[11]、流域盆地[1]等地形地貌。

洱海流域內的大理市屬于旅游勝地,頻繁的人類活動造成地表變動劇烈[12]。目前,有關洱海流域土地覆被產品,如Globeland30、GLC_FCS30等是公認度較高的土地覆被產品,但總體精度不高,各有優缺點[5],在對分類精度要求更高的中小尺度內會存在區域適應性不強的問題[8]。如GLC_FCS30在云南山區會將湖泊、耕地錯分成草地、林地或城鎮用地;許曉聰等[13]指出Globeland30 分類結果細節表現不足且經過人工處理,而GLC_FCS30在中國南部的丘陵城市、印度中部的鄉村、美國的東部平原,會出現部分地類錯分或者分類結果不完整。陳逸聰等[14]指出,FROM_GLC、GLC_FCS30 和 GlobeLand30總體對占長三角地區面積越高的地類其分類精度越高。此外,谷曉天等[15]、戴琴等[16]對比4種分類算法,指出區域最優的分類算法并進行精度對比;賈玉潔等[17]將面向對象特征的決策樹、 ISODATA法和最大似然法對Sentinel-2A影像進行分類對比,指出面向對象特征的決策樹方法在大理市的適用性較好。眾多分類方法多集中于單期的土地利用/覆被分類,缺少長時間序列下較大面積復雜高原山區的快速、準確提取。而高原山區受山脈陰影、地形復雜等因素影響,在遙感影像的長時間、高效分類上,難以滿足研究需求。

因此,本研究利用GEE平臺,利用CART、RF和SVM 3種常用的機器學習方法,進行洱海流域的長時間土地利用覆被變化分類,尋找最適合的分類方法,為洱海流域土地的合理開發利用及產業布局規劃提供數據參考。

1 材料與方法

1.1 研究區概況

洱海流域位于中國云南省大理白族自治州境內,流域面積2 565.0 km2,屬于川滇生態屏障區的重要組成部分[18]。流域氣候濕潤,是典型的亞熱帶高原季風氣候,具有年溫差小、日溫差大、干濕季節分明的氣候特點[19]。

1.2 數據來源和處理

1.2.1 數據來源 基于Google Earth Engine(GEE)平臺數據集,選取數據見表1。

表1 數據來源

1.2.2 數據處理 首先,基于GEE平臺加載研究區矢量邊界和已有的土地利用/覆被數據(GLC_FCS30);選取研究區地表植被生長狀況較好的時間段,同時為消除冬季高山積雪影響,設置各年份影像獲取時間均為3-10月(此時間段雖橫跨3個季節,但卻為研究區種植水稻等糧食作物時節,也是植被生長旺盛時期,可利用季節性差異進行土地覆被分類),通過年份篩選含云量低于20%的遙感影像;其次,采用GEE中的算法對每期原始衛星影像數據進行裁剪等預處理,構建光譜指數;基于DEM數據提取高程、坡度等,構建地形特征,聯合光譜指數構建多維分類特征集;然后,基于Google Earth Pro、遙感影像和GLC_FCS30產品數據選取樣本點,進行洱海流域的LULC分類;之后進行八鄰域空間濾波等分類后處理,平滑影像。研究技術路線見圖 1。

1.3 研究方法

1.3.1 土地利用分類和樣本點選擇 結合研究區實際情況,將洱海流域的土地利用類型分為耕地、林地、草地、水域、建設用地和未利用地 6 類。樣本點的選取采用“多源一致、時序穩定、均勻選取”的方法[5]。首先在GLC_FCS30等產品中遴選分類可信、穩定不變的區域選取樣本點;其次利用實地調查數據、 Google Earth Pro歷史影像、不同波段的影像組合選取樣本點;在此基礎上,再根據分類結果、評價精度,結合實地確認的地類,以目視方式,適當修正少量樣本點,保證樣本均勻分布的同時反復調整訓練樣本使不同方法分類效果達到較優狀態[15]。經對不同地類、不同年份的樣本點計算,樣本點的重合率在80%以上,重合的區域為湖泊、永久基本農田、受人類活動影響較小的林地和草地以及建設用地(表2)。

圖1 技術路線

表2 訓練樣本點

1.3.2 分類特征 洱海流域地形、地貌多樣,有高聳的蒼山山脈,需要選擇多種特征參數進行輔助分類,以提高分類精度。首先應用遙感影像豐富的光譜信息,因此光譜特征是最主要的特征參數。而山體陰影、坡度等會影響洱海流域土地利用/覆被分類,所以地形特征是分類過程中除光譜特征外最主要的特征參數[17]。在光譜特征中,植被在洱海流域中所占面積最大,NDVI和EVI是區分植被與非植被的重要參數;洱海流域存在大面積水域,城鎮用地主要分布在洱海周圍壩區與盆地壩區,MNDWI和NDBI對水域和城鎮用地的提取具有重要作用。

1.3.3 土地利用分類算法 選取目前常用的3種機器分類方法——CART、RF和SVM分別進行土地利用分類,選取其中最適合研究區的分類算法。

CART方法是一種決策樹學習分類器,其基本原理是從訓練數據中構建預測模型,通過遞歸分割數據空間,擬合每個分區預測模型來預測連續的測試變量和目標變量,獲得決策樹模型[5]。

RF運用Bootstrap方法進行隨機且有放回地從訓練集中抽取訓練樣本[20]。RF需要設置決策樹個數和結點特征數2個參數,決策樹個數過多會影響模型效率,過少則影響模型精度,因此在兼顧效率和精度的同時,通過試驗確定決策樹個數為30[3]。

SVM是Vapnik根據統計學習理論提出的一種廣義機器學習方法,通過計算出待分離樣本之間的最佳分離超平面對樣本進行歸類[2]。

GEE中樣本點的選擇是隨機的,分別選取60%、70%、80%、90%的樣本點作為訓練樣本并進行分類對比,最終選取約70%的樣本作為訓練樣本,約30%的樣本作為驗證樣本。分類精度采用總體分類精度(OA)、消費者精度(UA)、生產者精度(PA)和Kappa系數進行評價[5]。

2 結果與分析

2.1 整體分類結果對比分析

在GEE中使用CART、RF和SVM對2000、2005、2010、2015年和2020年的洱海流域LULC進行分類,3 種分類算法的精度評價見表3。RF的總體精度和Kappa系數均在90%以上;CART的總體精度在90%,Kappa系數在87%;SVM的總體精度最高為91%,Kappa系數最高為88%。單從總體精度和Kappa系數來看,RF的總體精度和Kappa系數都最高,CART,SVM的總體精度和Kappa系數都最低。同時RF和CART的5期精度評價數值整體起伏變化基本一致,而SVM 5期精度評價數值結果波動較大,總體精度最大相差17%,Kappa系數最大相差22%。

表3 分類精度評價

以2020年為例,3 種分類算法的分類結果及各土地利用類型的評價精度見圖2、表4。圖2中,CART、RF和SVM均能夠很好地對洱海流域的LULC進行分類。其中CART和RF的分類結果一致度更高,而SVM的分類結果和CART、RF有明顯差別,尤其是在建設用地的分類中,如大理市區。

圖2 2020年CART、RF和SVM土地利用分類結果

表4 2020年3種分類算法下的混淆矩陣

RF算法下的6種土地利用類型的PA和UA整體要好于CART和SVM算法。除了未利用地的PA較低之外,其余土地利用類型的PA和UA均在80%以上,達到良好的分類效果。而通過比較,3種分類方法下的PA和UA均水體最高,林地次之,未利用地的分類精度結果最低。RF算法比CART和SVM算法的結果更準確,更適合于洱海流域的地類劃分。

2.2 局部分類結果對比分析

由圖3可知,CART解譯的結果細節較為突出,如道路能夠準確提取。但圖斑較破碎,實際準確度不夠高,有錯分區域,如草地錯分成耕地,林地錯分成水域;SVM圖斑較為連貫、成片,但線狀地物不夠突出,實際分類結果也不夠高,存在錯分或少區域,如建設用地比實際縮小或錯分成未利用地;相比之下,RF在線狀地物提取的準確度不如CART,在圖斑連續性不如SVM,但實際分類結果要高于二者,盡管也存在錯分地類,如草地錯分成耕地。在滿足評價精度和實際準確度的基礎上,RF在三者當中分類精度最高,同時也可以處理分類上的微小差異。因此,得到了基于RF算法的5期洱海流域LULC分類結果,稱為Erhai_RF(圖4)。

圖4 Erhai_RF算法分類結果

由表5可見,協同使用光譜和地形特征獲得了最高解譯精度,單獨使用地形特征解譯精度最低。洱海流域2000、2005、 2010、2015年和2020年最高總體精度分別為93.10%、92.9%、95.0%、93.3%和93.3%,對應Kappa系數分別為91.2%、90.6%、93.4%、91.5%和91.3%,滿足分析要求。與單獨使用光譜特征和地形特征的分類相比,加入光譜和地形特征后,5期OA平均分別提高了2.7%和20.8%??梢?聯合光譜和地形特征后,總體精度得到一定提高。

表5 RF不同特征組合的分類精度

2.3 Erhai_RF與Globeland、GLC_FCS對比分析

以2020年為例,選取了海西海水庫北部(圖5A)、山中道路(圖5B)、大理機場(圖5C)、典型草地(圖5D)和洱海入水口(圖5E)與出水口(圖5F)共6個區域進行對比分析。圖5A海西海水庫北部的水體,圖5B、5E、5F的道路、橋梁,Globeland和GLC_FCS 解譯出部分或者未能完全解譯出來,而Erhai_RF能夠較完整地解譯出水體、道路和橋梁;從圖5C來看,Erhai_RF和Globeland均能夠解譯出機場跑道,但Erhai_RF卻將機場附近的草地錯分成耕地。GLC_FCS 未能將機場解譯出;由圖5B、5D看,Erhai_RF和GLC_FCS均能將林地和草地準確解譯出,但Erhai_RF也出現將草地錯分成耕地。Globeland也能夠準確解譯出林地但卻將部分草地大面積錯分成耕地。

A.海西海水庫北部;B.山中道路;C.大理機場;D.典型草地;E.洱海入水口;F.洱海出水口

由表6分析可知,Erhai_RF2020的PA和UA幾乎全部高于Globeland30和GLC_FCS30,最少也高出3.49%;同時OA和Kappa系數也至少高出Globeland30和GLC_FCS30 7.6%。其中Erhai_RF2020的草地的PA和UA較于Globeland30和GLC_FCS30相差最大,最大為74.04%;未利用地的PA和UA相較于二者相差最小,最小為4.34%。

表6 Erhai_RF2020與Globeland30、GLC_FCS30的精度比較

總之,局部區域解譯對比顯示,Erhai_RF與Globeland、GLC_FCS 均存在錯分區域。但Erhai_RF與Globeland、GLC_FCS較少存在錯分,同時在線狀地物上如道路提取更加準確。

3 討論

使用RF、CART和SVM 3種分類算法進行洱海流域的土地覆被解譯,均取得良好的分類結果。RF分類算法總體精度最高,CART次之,SVM最差,與Kulithalai等[3]、戴聲佩等[2]學者的研究結果一致。3種分類算法在不同地類之間的分類精度各有優缺點。CART在城鎮用地細節上更加突出,SVM在草地分類上準確度更高,而RF更適合實際分類準確度和評價精度都較高的地類。主要原因在于3種分類算法的原理不同,其次地形地貌、樣本點的質量和數量也是原因之一。在多次分類試驗中,使用高分辨率的遙感影像、樣本點選取進一步準確、遙感影像進行正射校正消除山體陰影等都會進一步提高解譯的精度。經對比分析,3種分類算法當中,RF的實際分類結果、總體精度等都最適合洱海流域,說明RF算法適合高原、山區、平原等地形地貌。同時在大范圍內也可使用RF算法[13],適用地形較多。

訓練樣本點的質量、數量和分布對于分類結果至關重要[13,20]。樣本點的數量和研究區的面積、地形、地類復雜度具有相關性。研究區面積越大、地形越復雜、分類地物越多所需樣本點數量越多[21]。樣本點數量要根據研究區的實際情況確定,樣本點過多會影響解譯的速度和效率,過少會影響解譯的精度[3]。盡管將Google Earth Pro、已有的GLC_FCS產品、各種波段組合的影像聯合在一起來選取樣本點,但地表“同物異譜”“異物同譜”現象普遍存在,如坡耕地和草地,裸巖石區域和建設用地,從而不可避免地造成遙感圖像分類過程中的錯分、漏分等現象[21]。

洱海流域屬于高原山間盆地,流域面積2 000多km2,屬于中小尺度流域,分類只按一級地類。因此對樣本點的選取力求隨機均勻地分布在整個研究區。經多次試驗,樣本點選取的數量也只有數百個,和Globeland、GLC_FCS等全球范圍內的土地覆被產品選取數千甚至上萬的樣本點相比,相差巨大。但正是研究區域較小,所以RF分類方法在分類速度、分類精度上能夠達到甚至超過Globeland、GLC_FCS,但在地類分類數量上不如二者。一方面是尺度不同,Globeland、GLC_FCS等是面向全球范圍的LULC產品,另一方面是面向的使用者不同,需求不同。小范圍的研究區更追求分類結果的準確性。結合洱海流域的地形地貌,相關學者[6]提出RF的分類方法精度更高,與本研究結果一致,但仍存在不足之處。遙感影像分辨率可進一步提高,如使用高分辨衛星影像、多源影像融合等方法以達到更好的結果。另外,本次引入的主要特征為光譜及地形特征,在提高分辨率后可加入紋理特征,并使用其他分類方法如面向對象的分類方法進一步提高解譯精度。同時今后選取更加準確的訓練樣本也會提高解譯精度。

4 結論

在RF 、CART和SVM分類算法中,RF對洱海流域分類精度最高,均超過90%,其次是CART,在90%左右,SVM最低,在85%左右;在使用相同數據源和訓練樣本的情況下,RF分類方法能夠更準確識別各類地物信息,更適于洱海流域土地利用分類的研究。

洱海流域土地覆被分類與地形地貌、樣本點等具有相關性。RF 、CART和SVM算法在洱海流域土地利用分類中均對水體的分類精度較高,對未利用地的分類精度較低。

Erhai_RF與Globeland、GLC_FCS雖在局部分類上存在一定差異,但是在空間布局上保持著較高的一致性,具有較高的分類精度,滿足研究需求。

猜你喜歡
洱海土地利用流域
壓油溝小流域
堡子溝流域綜合治理
羅堰小流域
洱海月下
洱海,好美
洱海
打造智慧流域的思路及構想——以討賴河流域為例
土地利用生態系統服務研究進展及啟示
愛上洱海,只需要這十個瞬間
濱??h土地利用挖潛方向在哪里
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合