?

基于集成學習的高原山區水稻種植信息提取
——以云南馬龍區為例

2023-11-02 12:36王加勝苗旺元
計算機應用與軟件 2023年10期
關鍵詞:植被指數分類器精度

陳 波 王加勝 王 剛 苗旺元

(云南師范大學信息學院 云南 昆明 650500)

(西部資源環境地理信息技術教育工程研究中心 云南 昆明 650500)

0 引 言

水稻是全球最重要的糧食作物之一[1],更是我國約65%的人口的食物來源[2]。水稻的產量關系到社會穩定,同時也是農業遙感研究的重要內容[3]。遙感具有效率高、成本低、覆蓋范圍廣、多時相、空間連續等特點,可用于作物面積估算、土地利用及覆蓋識別等領域[4-5]。遙感提供的技術與方法,讓準確、快速獲取水稻時空分布成為可能[6]。鄔明權等[7]利用多源時序遙感數據提取了大范圍的水稻種植面積;張峰等[8]用光學和微波遙感影像對泰國水稻面積月變化進行遙感監測;陸俊等[9]融合時空數據提取了漢江平原水稻種植信息。目前水稻種植信息提取的研究中,研究區大多是平原地帶,較少學者將其研究區定位在地形崎嶇、作物種植種類繁多的高原山區。

準確獲取高原水稻種植信息仍然是一大挑戰,提取精度受目視解譯采集的樣本點的準確率及分類提取方法雙重影響。高原山區地形復雜,依賴光譜特征分類精度不理想,而機器學習領域的智能分類方法會比單一地依賴光譜特征分類更理想[10]。不同的機器學習分類方法各有優缺點,而集成學習通過結合多個分類器來完成學習任務,能夠在一定程度上綜合各分類器的優點、克服自身缺點,比單一的分類器泛化性能好,已廣泛應用于混合像元分解、植被監測、變化檢測等領域[11-13]。Foody等[14]利用分類器集合實現了目標分類與制圖,分類精度均高于每一個單分類器。柏延臣等[15]在《結合多分類器的遙感數據專題分類方法研究》一文中表明多分類器結合的方法能夠提高總體分類精度。

在云計算、大數據、人工智能的沖擊下,線下分類方法存在不足,基于遙感提取植被信息的方法迅速發展,云平臺(GEE)也獲得國內外學者的青睞[16]。Patel等[17]利用GEE從Landsat遙感數據自動提取了城市區域并且進行了人口分布制圖。徐晗澤宇等[18]通過GEE平臺,使用隨機森林算法提取了柑橘果園,分類平均總體精度為93.15%,Kappa系數0.90。譚深等[19]利用GEE平臺,采用隨機森林分類器提取海南省2016年水稻種植范圍,總體精度為93.2%。因此,機器學習領域的智能分類方法與云計算的結合將會進一步提高高原山區作物的分類精度和效率。

本文基于GEE平臺,以云南省馬龍區為研究區,通過集成學習的方法應用Landsat 8影像提取高原山區水稻種植信息。在Google Earth Pro歷史影像上選擇訓練樣本點,以分類回歸樹、支持向量機、最大熵模型為個體分類器,采用投票法結合策略把三個個體分類器集成一個強分類器對研究區進行水稻信息提取;然后對比分析對各種分類方法遙感提取的結果并進行精度評估。

1 研究區

1.1 研究區概況

本文以云南省馬龍區為研究區(圖1),馬龍區位于云南省東部,介于東經103°16′~103°45′、北緯25°08′~25°37′之間,屬于低緯高原季風型氣候,冬春季干旱,夏秋季濕潤,干濕季節分明,雨量充沛。年平均日照1 985 h以上,年平均降雨量1 032 mm,城區年平均氣溫13.4 ℃,每年無霜期241天,適合種植各種農作物和經濟作物。馬龍區屬云貴高原滇東北丘陵地區,地處金沙江水系與南盤江水系的分水嶺,四面環山,中間山谷、丘陵、河流縱橫,被分別流入長江和珠江的7條河流分割為11個8 km2以上的小壩子,在地形與作物分布方面具有較好的代表性。

圖1 研究區位置示意圖

1.2 水稻生長期

馬龍區水稻為一年一熟,基本都是農戶種植,斷斷續續大部分播種從5月開始最晚不超過6月份、收獲期從10月份開始最晚不超過11月份。掌握研究區水稻生長時間可以為特征選擇提供參考和依據。研究區水稻播種期到完熟期等10個階段如表1所示。

表1 馬龍區水稻生長期

2 實 驗

作物物候是反映農作物生長發育狀況的現象。水稻生長期間,地表覆蓋類型呈現出裸土—水體—植被—裸土的變化現象,其生長過程中對水的需求是分類的關鍵因素,體現于分蘗期和齊穗期。通過構建的光譜、紋理、地形和物候特征,以分類回歸樹(Classification and Regression Tree)、支持向量機(Support Vector Machine)、最大熵模型(Maximum Entropy Model)為個體分類器,最后利用集成學習方法集成三種分類器為一個強分類器,提取研究區水稻種植信息。本文提取水稻種植信息過程如圖2所示。

圖2 水稻種植信息提取過程

2.1 實驗環境

實驗通過GEE云平臺在線編程實現,這是一個專門處理衛星圖像和其他地球觀測數據云端運算平臺(圖3)。該平臺提供豐富的API以及工具幫助方便查看、計算、處理、分析各種影像等GIS數據。Earth Engine編程包括JavaScript版的API和Python版的API兩個接口,本實驗使用的是JavaScript API在線編輯器,編輯器界面如圖4所示。

圖4 Earth Engine在線編輯器界面

2.2 實驗數據

Landsat 8數據可以更好地區分植被和非植被區域,短紅外波段可應用于云檢測。Landsat 8上的遙感器具有指向偏離航跡一個角度獲取信息的能力,可以收集到本來要后面的軌道圈才處于衛星下面的地面信息。有助于及時獲取需多時相對比研究的圖像。

因此本文使用遙感數據Landsat8 OLI/TIRS,通過GEE平臺在線調用、處理。樣本點數據來源谷歌地球歷史數據。水稻種植的區域都是比較平緩,因此還用到了DEM高程數字模型數據。

2.3 數據預處理

Landsat8 OLI/TIRS影像產品,已經過輻射矯正、幾何矯正和大氣矯正等數據預處理。2019年內覆蓋研究區的影像總共有35幅。因研究區水稻生長期間(5月到11月)多云雨,云的存在影像質量不高,必須對影像進行去云處理。GEE在線編程中,去云采用CFMASK算法,調用updateMask(mask)函數。Landsat8 OLI/TIRS影像產品去云代碼如圖5所示。

圖5 Landsat8去云代碼

對其進行云量篩選后,去云的地方就會有數據缺失,出現了“空洞”現象,通過擴大時間范圍(5月到12月)填補缺失的數據選取了覆蓋研究區的21幅影像,然后通過平均值合成年內無云影像(圖6)。

圖6 均值合成代碼

2.4 樣本點

根據實地考察,研究區主要地物類型為林地、建筑用地、水體、草地、耕地,其他地類很少或沒有,不宜參與分類,會降低分類精度。

由于提取的是水稻種植信息,耕地中水稻須單獨挑出來。若直接在谷歌地球水稻樣本點采集是很難的,因此根據研究區種植水稻的時間、環境,以及實地采集的水稻樣本點和現場觀察,積累先驗知識,并根據實地采集的樣本點在谷歌地球影像上的特點,才開始在谷歌地球通過目視解譯采集樣本點。實地采集的少數樣本點和利用谷歌地球采集的多數樣本點共686個,其中:林地82個、建筑用地123個,水體94個、水稻143個、草地98個、耕地146個。實地考察到水稻基本都是農戶種植,沒有其他大規模的集中種植,地類的靈活性很強,水稻田可能會有其他作物地塊混在其中,其他作物地塊可能出現一小塊水稻田,這些噪聲信息會提高分類難度以及降低分類精度。樣本點處理代碼如圖7所示。

圖7 樣本點處理代碼

2.5 植被指數

本文分類中用到的指數包括:歸一化植被指數(NDVI)[20]、陸表水指數(LSWI)[21]、歸一化建筑指數(NDBI)[22]、改進的歸一化水體指數(MNDWI)[23]、增強型植被指數(EVI)[24]和三角植被指數(TVI)[25],計算公式如表2所示,其中:NIR為近紅外光反射;RED為紅光反射;SWIR為中紅外光反射;BLUE為藍光反射;L為土壤調節參數;Green為近綠外光反射。

表2 植被指數計算公式

2.6 特征構建

本文在GEE云平臺構建光譜特征、紋理特征、地形特征進行水稻信息提取。光譜特征包括11個原始光譜波段和6個植被指數作為一個獨立的光譜波段添加到原始影像中;紋理特征選用相關性(CORR);地形參數包括坡度(slope)。

2.7 分類算法

(1) 分類回歸樹(CART)。CART可以用于分類和連續變量的預測[26]。當目標變量為離散值時稱為分類樹;當目標變量為連續值時稱為回歸樹[27]。CART算法采用二分遞歸分割的技術,采用經濟學中的基尼系數(Gini Index)作為選擇最佳測試變量和分割閾值的準則[28]?;嵯禂档臄祵W定義如下:

(1)

(2)

(3)

生成的完整決策樹必須進行修剪,然后再用測試數據對修剪以后的局冊數進行測試[29]。GEE在線調用分類回歸樹代碼如圖8所示。

圖8 調用分類回歸樹分類器代碼

(2) 支持向量機(SVM)。支持向量機是一種具有最大間隔的線性分類器,可以通過核函數解決非線性的問題。支持向量機是一種重要的統計學習算法,它是一種基于結構風險最小化、優化和核函數的線性分類器。SVM是一種非參數方法,即使數據不符合標準概率密度分布,也可以工作。SVM分類器泛化能力強,樣本數據的數量不需要太多,適用于遙感分類[30-31]。GEE在線調用支持向量機代碼如圖9所示。

(3) 最大熵模型(MaxEnt)。生物學家Jaynes[32]在1957年第一次提出了最大熵模型原理,他把最大熵問題當作是一個帶約束條件的最優化問題。近年來,最大熵模型逐漸被應用到遙感領域,在已知條件下,熵最大的地類最接近它的真實地類,因此最大熵模型可以用于遙感圖像分類。GEE在線調用最大熵模型代碼如圖10所示。

圖10 調用最大熵模型分類器代碼

(4) 集成學習(Ensemble Learning)。集成學習通過構建多個學習器來完成學習任務,有時也稱為多分類器系統(Multi-classifier System)、基于委員會的學習(Committee-based Learning)等。通過結合多個學習器,集成學習通??色@得比單一學習器顯著優越的泛化性能。要獲得好的集成,個體學習器應“好而不同”,即個體學習器要有一定的“準確性”,即學習器不能太壞,并且要有 “多樣性”,即學習器間具有差異[33]。集成學習過程如圖11所示。在線編輯集成學習代碼如圖12所示。

圖11 集成學習過程示意圖

圖12 集成學習代碼

3 結果與分析

3.1 植被指數時間序列分析

水稻容易和耕地混淆,需要構建容易區分這兩類地類的特征,根據水稻的生長特點,結合歸一化植被指數NDVI和陸表水指數LSWI能夠有效區分水稻和耕地。在GEE平臺上選擇每類地類各7個樣本點,對每類地物各時相進行了均值計算,得出研究區2019年的5月到12月的NDVI、LSWI變化曲線如圖13(a)和圖13(c)所示,可以看出變化曲線出現了異常點、斷點的情況,這是由于植被指數會受到外界因素的干擾。因此有必要對NDVI和LSWI變化曲線進行平滑處理,盡可能達到降低噪聲、減少誤差影響的目的[34]。本文采用諧波分析HANTS(圖14)對研究區的NDVI和LSWI進行平滑處理,結果如圖13(b)和圖13(d)所示,經過平滑處理后的曲線更接近真實地類的變化規律。

(a) 6類地物的NDVI曲線 (b) 平滑后的NDVI時間序列

NDVI反映了植被覆蓋度,從平滑后的時間序列曲線可以看出,非植被(水體、建筑用地)在整個時間序列的值都較低,植被有明顯的先升后降的趨勢。林地一年四季沒有太大變化,NDVI一直處于較高的狀態。水稻、耕地、草地的變化趨勢類似,4月份水稻田還在休耕狀態,NDVI較耕地、草地低;6月份水稻移栽到水田,NDVI值呈現上升趨勢,且上升速度快于耕地和草地;7月份達到最大值一直持續到8月份,且高于耕地、草地;9月份到10月份是水稻成熟的季節,水稻依次經歷了乳熟、蠟熟、完熟,NDVI值呈現下降趨勢,速度快于耕地和草地;11月份水稻前前后后收割完畢,NDVI較耕地、草地低。LSWI反映了土壤濕度和植被含水量,本文在利用NDVI提取水稻的基礎上,還根據水稻特有的灌水移栽期,進一步提取水稻種植信息。

因此,可以綜合利用水稻移栽期、生長期、收獲期的NDVI、LSWI均值合成作為特征提取水稻種植信息。6類地類移栽期、生長期、收獲期的NDVI均值合成圖如圖15(a)所示;6類地類移栽期、生長期、收獲期的LSWI均值合成圖如圖15(b)所示。

(a) 各地類NDVI均值 (b) 各地類LSWI均值圖15 NDVI、LSWI均值合成

可以看出,移栽期水稻的NDVI均值和耕地的差別較小,和其他地類差別較大,LSWI均值和其他地類差別都較大;生長期水稻的NDVI均值和水體的差別較大,LSWI均值和建筑用地差別較大,NDVI和LSWI均快速增大;收獲期的水稻NDVI、LSWI和其他地類的差別較大,且水稻收獲期的LSWI已降為負值。

3.2 分類方法結果對比

本文使用的精度評價方法是混淆矩陣,是一個用于表示分為某一類的像元個數與地面檢驗為該類的數的比較陣列。一般陣列中的列代表參考數據,行代表遙感數據分類得到的類別數據。具體評價指標有總體精度、制圖精度、用戶精度等,這些精度指標從不同方面反映了圖像分類的精度[35-36]。

根據以上構建的水稻提取特征,進入分類器分類。利用谷歌地球采集到的686個樣本點,驗證分類結果。其中林地82個、建筑用地123個、水體94個、水稻143個、草地98個、耕地146個。本文選取的年份是2019年,缺少研究區2019年的統計年鑒數據,因此利用研究區2018年的統計年鑒數據與本文結果進行對比分析。根據統計年鑒,研究區2018年水稻總種植面積75 km2。以此數據為參考,分別計算5種方法的面積提取精度,面積精度計算公式為:

式中:Ai是遙感影像提取的面積;A0是統計年鑒數據。評價指標除了面積精度,還可以利用GEE平臺提供的混淆矩陣進行精度評價。4種分類方法提取的水稻面積以及各種評價指標如表3所示。

表3 水稻種植信息精度評價分析表

可以看出,集成學習相較于分類回歸樹、支持向量機、最大熵模型總體精度提高了3.43百分點、0.7百分點、2.06百分點。集成學習分類的面積精度91.94%、用戶精度84.10%、制圖精度75.51%、總體精度86.61%,集成學習較其他四種分類法穩定、可靠,能夠有效區分水稻與耕地、草地等相似地類,因此利用集成學習方法提取研究區2019年水稻種植信息。用集成學習分類的混淆矩陣如表4所示。

表4 隨機森林分類混淆矩陣

本文使用的是Landsat 8影像,影像空間分辨率為30 m,研究區地塊比較破碎,有可能出現影像一個像元內覆蓋多種作物,加大了分類難度?!巴锂愖V”和 “異物同譜”的現象,嚴重影響分類精度,從混淆矩陣可以看出11個水稻樣本點錯分成了耕地,6個耕地樣本點又錯分成水稻,造成誤分、漏分。

3.3 研究區2019年水稻種植空間分布

根據構建的分類特征,用集成學習方法提取研究區2019年水稻種植空間分布信息(圖16)。

圖16 2019年馬龍區水稻空間分布

可以看出,提取出來的水稻種植信息比較破碎,因為研究區屬云貴高原的滇東北高山丘陵區,農戶種植的水稻分散、規模小。其次是大部分分布在王家莊鎮、通泉鎮、月望鄉,聚集的部分基本是靠近河流以及人工水庫,因為這些地方小壩子相對較多,相對于其他地方來說比較平緩,適合種植水稻,且人口比較密集,對水稻有需求。

4 結 語

本文基于GEE云平臺,以機器學習領域的集成學習方法提取研究區水稻種植信息取得一定成效,說明本文方法可應用于地塊破碎、種植作物類型復雜的高原山區作物種植信息提取。研究區屬于云貴高原滇東丘陵區,地形復雜,水稻種植規模小、分散,很容易和其他農作物種植信息混在一起,構建分類特征是關鍵點。根據實驗過程和結果,本文得出以下結論:1) 歸一化植被指數(NDVI)、陸表水指數(LSWI)是區分水稻與其他地類的關鍵植被指數;2) GEE云平臺與智能機器學習方法集成學習的結合能夠快速、高效地提取研究區水稻種植信息,水稻提取面積為68.952 3 km2,總體精度86.61%,Kappa系數0.837 8;3) 馬龍區水稻分布在王家莊鎮、通泉鎮、月望鄉,聚集的部分基本是靠近河流以及人工水庫地帶。

但是,本文研究區水稻生長期間多云雨,去云之后很容易有數據缺失;采集樣本點時很難獲取到研究區水稻生長期的影像。雖然采用了集成學習方法,但是最終結果還不是很理想,地塊破碎會造成誤分現象,特別是水稻容易和耕地混淆,水稻的用戶精度只達到84.10%,制圖精度達75.50%。因此,今后可以考慮融合Landsat數據與高時間分辨率影像數據,以此融合的數據和本文的方法結合進一步提高分類精度。

猜你喜歡
植被指數分類器精度
基于植被指數選擇算法和決策樹的生態系統識別
AMSR_2微波植被指數在黃河流域的適用性對比與分析
基于DSPIC33F微處理器的采集精度的提高
河南省冬小麥產量遙感監測精度比較研究
BP-GA光照分類器在車道線識別中的應用
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
GPS/GLONASS/BDS組合PPP精度分析
主要植被指數在生態環評中的作用
改進的Goldschmidt雙精度浮點除法器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合