?

基于多源光學雷達數據融合的黃淮海平原冬小麥識別

2023-03-07 03:30馮權瀧姚曉闖牛博文陳泊安趙圓圓
農業機械學報 2023年2期
關鍵詞:冬小麥精度分類

馮權瀧 任 燕 姚曉闖 牛博文 陳泊安 趙圓圓

(1.中國農業大學土地科學與技術學院,北京 100193;2.自然資源部農用地質量與監控重點實驗室,北京 100193)

0 引言

冬小麥是我國三大主糧作物之一,與國家糧食安全息息相關。黃淮海平原作為我國重要的農業生產區,同時是全國最大冬小麥產區,小麥產量占全國總產量的75%[1],及時精準地獲取冬小麥種植面積和空間分布信息對我國農業發展具有重要意義。當前基于統計數據和遙感監測的冬小麥提取研究仍為主流研究方法,效率低且耗費大量人力成本,難以滿足當前快速、準確地獲取農作物信息的實際需求[2-4]。而運用遙感可快速獲取大范圍地表覆被信息,在不同時空尺度的冬小麥識別方面得到了廣泛應用[5]。常用的提取冬小麥面積的方法是結合遙感影像,通過比較植被指數時序變化選擇合適閾值,進而提取冬小麥的空間分布信息[6-8];另外,機器學習和深度學習等算法的發展也為農作物分類、冬小麥面積提取提供了新的方法[2,9]。隨著對遙感圖像處理能力需求的提高,高效處理圖像數據的各類云平臺需求也逐漸增加。遙感云計算平臺(例如:Google Earth Engine,GEE)具有強大的計算能力,能夠快速分析遙感影像并及時獲取大范圍的農作物信息[10-15]。由于遙感數據的工作限制和原理的不同,單一傳感器難以完整反映地表覆被特征?,F階段作物識別研究多基于光學影像作為數據源,運用多時相數據增強不同地物之間的光譜可分性,能夠更好地分析冬小麥的生長發育規律在遙感影像上表現出的時相變化特征,有效提高冬小麥識別和分類精度。

目前融合多種傳感器的多時空分辨率的光學遙感影像被用來提取農作物種植結構并取得了大量成果[16]?;诟叻直媛视跋駭祿M行農作物提取也受到廣泛關注[17]。雷達遙感相對于光學遙感最大的優點在于可穿透云雨,不受日照影響和限制,可全天時、全天候工作。諸多學者也將雷達數據與光學數據結合用于農作物種植結構信息提取。ARIAS等[18]探討了基于Sentinel-1時間序列數據進行農作物分類的可行性;GEE是一個免費的遙感云計算平臺,基于GEE云平臺已進行了諸多在遙感領域的研究。SHELESTOV等[19]基于GEE云平臺進行農作物分類研究,利用云平臺獲取大量多時相遙感數據,并采用多種主流分類器進行農作物提取,對比了各分類器的提取效果;譚深等[10]運用融合多源遙感數據進行多云氣候區的水稻分類研究,并基于機器學習中的隨機森林分類方法獲取2016年的水稻分布圖,獲得較好結果。

綜上,本文基于2020年12月至2021年5月黃淮海平原的哨兵1號(Sentinel-1)SAR雷達影像和哨兵2號(Sentinel-2)光學遙感影像,分別構建各地物類型的光譜特征、極化特征和紋理特征數據,分析不同地物在以上特征中的時序曲線差異、冬小麥的生育周期以及對應的植被指數特征差異。利用GEE云平臺,基于多種機器學習分類算法(樸素貝葉斯、支持向量機、決策樹和隨機森林)進行分類及精度驗證,從而得出最優分類算法,并利用已選擇的冬小麥的樣本點,提取樣本長時間序列的特征向量,基于深度學習中長短期記憶網絡(Long short term memory,LSTM)和Bi-LSTM進行冬小麥的像元尺度的模型訓練?;趯嶒灲Y果,獲得2021年黃淮海平原區域冬小麥種植面積及其時空變化特征,以期為該區域輪作休耕政策制訂以及農業生產提供數據支持。

1 研究區域與數據來源

1.1 研究區概況

黃淮海平原位于北緯32°~40°,東經114°~121°,面積3×105km2??缭骄?、津、冀、魯、豫、皖、蘇7省市,地勢平坦,河湖眾多,交通便利,年均氣溫13℃,年均降水量710 mm,屬溫帶大陸性季風氣候,雨熱同期,土質肥沃,主要生長的農作物為小麥、玉米、大豆等,其中冬小麥多于每年的10月上、中旬播種,次年6月收獲[20]。黃淮海平原研究區域范圍劃分參考文獻[21],包含北京、天津、河北、河南、山東、安徽、江蘇7個省級行政區(圖1)。

圖1 研究區范圍示意圖

1.2 數據來源與預處理

選用Sentinel-1 SAR數據和Sentinel-2光學數據進行冬小麥面積提取。Sentinel-2A衛星覆蓋13個光譜波段,為獲得無云且包含冬小麥生長期的影像數據,通過擴大影像的時間跨度,設置時間范圍為2020年12月至2021年5月,得到黃淮海平原空間分辨率為10 m的Sentinel-2衛星影像數據,在月尺度上進行均值合成,篩選云量低于20%的影像。Sentinel-2數據的裁剪、鑲嵌處理通過GEE平臺在線編寫代碼實現。Sentinel-1是主動微波遙感衛星,能夠全天候、全天時地對地面進行觀測,具有單極化、雙極化等多種極化方式[22-23]。本研究運用VV、VH極化數據進行極化特征計算,并在月尺度上進行均值合成,影像空間分辨率為10 m。

1.3 特征變量與數據集

1.3.1特征構建

結合研究區的地理位置與農作物的物候期,選取Sentinel-2光學影像的光譜反射率、光譜特征和紋理特征進行計算?,F有研究表明農作物遙感分類研究僅計算光譜特征會導致“同物異譜、異物同譜”的現象,影響最終分類效果,而不同地物類型在遙感影像上紋理表現差異較大。冬小麥在遙感影像上具有規則的紋理信息,易于與其他地物類型進行區分?;诖?,本文運用灰度共生矩陣(Gray-level co-occurrence matrix, GLCM)進行紋理特征的構建,根據植被光譜曲線可知,植被在近紅外B8波段具有最高的反射峰,植被反射率在可見光波段差異小,但近紅外波段的差異明顯。因此本文采用Sentinel-2光學影像的近紅外B8波段計算紋理特征能夠更好地區分植被等信息。為避免因選取過多紋理特征而導致信息冗余,故只選取灰度共生矩陣生成的角二矩陣(Angular second moment, ASM)、對比度(Contrast, CONTRAST)、相關性(Correlation, CORR)和熵值4個紋理特征變量。選擇Sentinel-1 SAR數據的極化特征變量,共2個特征變量。本研究共選取16個特征變量,如表1所示。

表1中,歸一化差異植被指數(Normalized difference vegetation index, NDVI)反映植被生長狀態,通過計算近紅外和紅光波段之間的差異來識別植被。歸一化水體指數(Normalized difference water index, NDWI)用于水體識別,對波段進行歸一化差值處理,其對植被冠層的液態水含量變化敏感。增強型植被指數(Enhanced vegetation index, EVI)的計算常用于植被茂密區域的計算,可減少大氣和土壤的影響,反映地表植被特征。綠色歸一化差異植被指數(Green normalized difference vegetation index, GNDVI)用于計算葉片葉綠素濃度。綠葉指數(Green leaf index, GLI)反映研究植被的顏色變化信息。優化土壤調節植被指數(Optimization soil-adjust vegetation index, OSAVI)能夠反映冬小麥的生長狀況信息[24-28]。

表1 特征變量

1.3.2不同地物類型間的時序植被指數差異分析

綜合分析文獻[15]和研究區的地物類型分布特征,為便于進行不同地物的植被指數差異比較,共選取冬小麥和非冬小麥兩大類樣本點,非冬小麥地物類型由水體、不透水面、其他(植被+裸地)3類地物組成,結合遙感影像繪制各類地物在12月到次年5月的NDVI變化曲線(圖2)。研究區冬小麥從1月到3月的NDVI逐月增加,變化趨勢明顯有別于其他地物類型,說明該階段冬小麥綠色加深,根據研究區冬小麥物候信息可知該階段為返青期。3—4月冬小麥NDVI偏高,為冬小麥孕穗期。4—5月NDVI植被指數呈現明顯下降趨勢,但總體指數值仍較高,該時期冬小麥葉綠素含量下降,5月以后的冬小麥NDVI植被指數與其他地物類型較為相似,不易進行農作物提取研究?;谔卣髦挡町愒酱?,分類精度越高的原則,選取返青期影像作為選擇樣本的基礎影像,數據日期為2021年2月1日至3月1日。

圖2 2020年12月—2021年5月研究區各地物類型時序NDVI變化曲線

1.3.3樣本數據集

本文分類目標作物為冬小麥,通過分析遙感影像的地表覆被信息和易混作物信息,選取20 000個樣本點,綜合文獻[2]中的訓練集測試集劃分比例和本研究樣本數據量以便于更準確地反映模型效能,從中隨機抽取30%作為測試樣本,70%作為訓練樣本,獲得研究區訓練樣本集及測試樣本集(表2)。驗證數據來自各省2020年統計年鑒發布的冬小麥播種面積數據。根據1.1節可知黃淮海平原非7省完整區域,故以黃淮海平原包括的各個市的小麥播種面積為統計數據驗證提取結果。

表2 樣本數據集

基于2021年2月1日至3月1日的Sentinel-1影像和Sentienl-2影像,制作了各類地物的目視解譯標志,如表3所示。

表3 目視解譯標志

2 研究方法

2.1 總體研究技術路線

本研究技術路線圖如圖3所示。首先利用GEE云平臺獲取多時相的遙感影像,構建地物類型的光譜特征、極化特征和紋理特征,基于多種機器學習分類算法和深度循環神經網絡對冬小麥樣本點進行訓練和精度驗證,得出2021年黃淮海平原區域的冬小麥種植信息。

圖3 技術路線圖

2.2 分類算法

隨機森林(Random forest, RF)是利用若干個決策樹對樣本進行訓練預測的一種分類方法,由多個Bagging集成學習技術訓練得到的決策樹組成,對輸入的數據集進行判別與分類,同時給出各個變量的重要性評分,評估變量在分類中所起的作用。該方法能夠在大數據集上運行,具有極好的準確率,能夠較為準確地評估各個特征在分類中的重要性,解決了決策樹的性能瓶頸的問題,具有良好的并行性和擴展性。樸素貝葉斯(Naive Bayes, NB)分類算法是貝葉斯分類算法中最為簡單和常見的分類方法,該方法假設每一個輸入的樣本數據集變量均為相互獨立的,極大簡化了算法復雜性,因此針對實際的數據中存在屬性或類別之間存在關聯的情況,其分類準確率會降低[30]。支持向量機(Support vector machine, SVM)是一種按監督學習方式對數據進行二分類模型,通過尋找最優的邊距超平面對輸入的樣本數據進行分割,是一個監督式學習的方法[31]。該方法適用小樣本學習,計算的復雜性不取決于樣本的空間維數,具有較好的魯棒性,提高了模型的泛化能力,但解決多分類問題較為困難,模型效果好壞與參數和核函數的選擇關系密切。決策樹(Decision tree, DT)劃分方法簡單,運用遞歸思想,以信息熵為度量構造熵值下降最快的樹,到葉子節點處熵值為0,是用概率分析的方法[32]。

本研究基于GEE平臺運用Sentinel-1 SAR雷達影像和Sentienl-2光學影像進行月度均值合成,基于返青期的光學遙感影像選擇監督分類的樣本點。隨機森林的參數設置上,進行Grid Search調參,尋找分類的最佳參數,通過調參結果與冬小麥提取的精度、與統計數據的誤差以及計算效率,將決策樹的數量設置為80,決策樹最大深度為7。隨機森林模型通過調用GEE平臺接口ee.Classifier.smileRandomForest實現,樸素貝葉斯、支持向量機、決策樹模型均基于SKlearn框架構建,編程語言為Python。支持向量機算法參數設置懲罰系數為1.0,核函數類型為‘rbf’,gamma值為1/13;決策樹模型采用CART決策樹分類,分裂評價指數為基尼系數(Gini);樸素貝葉斯算法選用高斯樸素貝葉斯,該方法不需要進行參數設置。

2.3 精度評價方法

冬小麥的識別精度結果通常采用兩種精度評價方法。常用的遙感分類結果的驗證方法為混淆矩陣(Confusion matrix)。分類結果評價精度的指標主要包括總體分類精度(Overall accuracy,OA),Kappa系數以及各個類別的制圖精度(Producer’s accuracy, PA)、用戶精度(User’s accuracy, UA)。Kappa系數是可以衡量總體分類精度的指標,綜合了用戶精度和生產者精度兩個精度的評價參數。取值范圍在-1和1之間,值越大圖像分類精度越高,說明分類效果越好。

2.4 深度循環神經網絡

2.4.1LSTM網絡

循環神經網絡(Recurrent neural network, RNN)是一種用于處理序列數據的神經網絡。長短時記憶網絡(Long short term memory network, LSTM)是一種改進之后的深度循環神經網絡,可以解決RNN無法處理長距離的依賴的問題,相比RNN結構,LSTM循環結構能夠在長序列中展示更好的結果。該網絡的每個循環結構有2個輸出,由輸入門、遺忘門、輸出門和單元狀態組成,不斷保持一個持久的單元狀態進行傳遞,決定信息是否遺忘或繼續傳遞[33]。LSTM網絡結構如圖4所示。圖中xt是當前時刻模塊的輸入值,ht是當前模塊的輸出值,it、ot、ft分別對應輸入門、輸出門和遺忘門,gt為當前時刻的記憶。輸入門決定當前網絡的輸入有多少內容保存到單元狀態ct中,遺忘門主要用于計算上一時刻單元狀態ct-1保留多少內容到當前時刻狀態ct,而輸出則控制當前狀態ct有多少內容會輸出到下一階段LSTM模塊中(即ht)。

圖4 LSTM網絡結構

2.4.2Bi-LSTM網絡

雙向長短記憶網絡(Bi-LSTM)是循環神經網絡的一種擴展形式,由前向LSTM與后向LSTM組合而成,實際的模型應用中,預測需要考慮完整的上下文信息,需要使用完整的輸入序列信息,因此采用雙向的循環神經網絡建模上下文信息,前向LSTM和后向LSTM層輸出向量可以使用相加、平均值或連接等方式進行處理(圖5)[34]。

圖5 Bi-LSTM結構圖

3 結果與分析

3.1 分類結果及精度分析

運用4種機器學習方法對研究區進行冬小麥識別,得到研究區冬小麥分類精度OA如表4所示。

表4 不同機器學習分類器冬小麥分類精度比較

由表4可知隨機森林在4種機器學習方法中提取精度最高。黃淮海平原冬小麥面積分層圖和冬小麥空間位置分布圖如圖6所示。

圖6 2021年黃淮海平原冬小麥面積分層、空間分布圖

在ArcMap上對分類結果圖進行多維分析處理,對各省市的冬小麥面積進行統計。圖7為黃淮海平原冬小麥種植面積的縣級分布分層統計圖,由淺到深的顏色表示冬小麥種植面積由少及多。對每個研究區內的冬小麥種植面積求和,將其相加得到黃淮海平原冬小麥種植總面積,并計算每個研究區的種植面積在總面積中的比例,計算式為

圖7 冬小麥種植面積的縣級分布分層統計圖

(1)

(2)

式中W——黃淮海平原冬小麥種植面積

Wi——研究區i的冬小麥種植總面積

αi——研究區i冬小麥面積占總面積的比例

黃淮海平原冬小麥總面積為16 226 667 hm2,占研究區總面積的49.17%,研究區涵蓋的各市冬小麥播種面積統計數據總和約為15 690 949.13 hm2,為檢驗提取準確性,計算相對誤差為3.41%。5個研究區中,河南省的冬小麥種植面積最多,約為4 647 334 hm2,占黃淮海平原冬小麥總種植面積的28.64%;江蘇省次之,約為3 427 012 hm2,占黃淮海平原冬小麥總種植面積的21.12%;京津冀地區種植面積最少,約為1 886 401 hm2,僅占總面積的11.63%;山東省、安徽省的冬小麥種植面積分別占黃淮海平原冬小麥總種植面積的19.77%、18.84%。本研究黃淮海地區的各省冬小麥提取面積相對誤差均在5%以內,由文獻[15]可知,相對誤差在5%以內即為提取誤差較小、提取效果較好。黃淮海平原的冬小麥種植分布呈現一種由東向西、由南向北遞減的趨勢。

3.2 消融實驗

基于隨機森林的消融實驗是通過對比單一傳感器和多傳感器遙感數據的冬小麥分類識別精度,僅使用月度均值合成的Sentinel-1 SAR數據,總體精度為87.38%,Kappa系數為0.763 8;僅使用月度均值合成的Sentinel-2光學數據,其總體精度為93.95%,Kappa系數為0.972 0;而以Sentinel-1和Sentinel-2多源遙感數據為數據源,選擇多時相影像在月尺度上進行均值合成,得到的冬小麥分類結果為總體精度為94.30%,Kappa系數為0.978 4。因此融合時序Sentinel主被動遙感數據能夠提高分類總體精度和冬小麥的識別精度。

3.3 深度學習精度結果

本實驗的深度學習框架為Tensorflow 2.3.0、Keras 2.4.3。操作系統為Ubuntu 18.04,CPU為Intel Core i7-9700K @ 3.60 GHz,GPU為NVIDIA RTX 2080ti。編程語言及版本為Python 3.7.0,學習率為10-5,迭代次數為2 000次,批處理大小為1 000,損失函數為交叉熵,優化函數為Adam。

基于深度學習的LSTM和Bi-LSTM網絡架構進行冬小麥識別提取研究,隨機森林、LSTM和Bi-LSTM模型的冬小麥識別精度分別為94.30%、93.73%、93.87%,表明深度學習的冬小麥識別精度略低于機器學習隨機森林方法,所以進行深度學習與機器學習的泛化性對比實驗。本研究只嘗試了LSTM系列模型,并不能完全代表所有的深度學習模型的冬小麥分類精度均低于隨機森林方法。

3.4 泛化實驗結果

為探究機器學習算法對新樣本的適應能力,將具有同一規律的其他數據集輸入已經訓練好的網絡,判斷輸出結果的優劣即為模型的泛化能力。對在某一省份已訓練好的網絡中輸入另一省份的冬小麥樣本數據集,并輸出精度,得到基于隨機森林方法泛化結果(表5),將5個區域矩陣對角線精度計算平均值,得到在原本區域的預測結果為99.11%;對角線以外的其余精度的平均值代表在其他區域的預測能力,二者對比即泛化能力,分別為90.98%、94.09%、92.63%、87.63%、92.44%。由此說明,隨機森林只在原本實驗區域預測精度較高,在其他區域的識別精度較低,泛化性低。

表5 隨機森林方法泛化實驗結果

基于深度循環神經網絡方法Bi-LSTM的泛化實驗結果如表6所示,得出深度學習在原本區域的預測精度為96.65%,對角線以外的其余精度的平均值代表其在其他區域的預測能力,分別為93.72%、96.00%、94.39%、90.84%、95.24%。由此說明,深度學習的泛化能力在5個區域均高于隨機森林方法,深度學習在其他地區的泛化性高于隨機森林的泛化性,隨機森林只在當前實驗區域識別精度較高,在其他區域的識別精度較低。

表6 深度學習的Bi-LSTM泛化實驗結果

4 結論

(1)黃淮海平原冬小麥總面積為16 226 667 hm2,其中河南省的冬小麥種植面積最多,約為4 647 334 hm2;黃淮海平原的冬小麥種植分布呈現一種由東向西、由南向北遞減的趨勢。

(2)河南省的冬小麥種植面積最多,占黃淮海平原冬小麥總種植面積的28.64%;京津冀地區種植面積最少,僅占總面積的11.63%。

(3)隨機森林在4種機器學習方法中識別精度最高,總體分類精度為94.30%,其他機器學習方法的總體分類精度分別為決策樹92.20%,樸素貝葉斯88.20%,支持向量機91.40%。

(4)融合時序Sentinel主被動遙感數據能夠提高分類總體精度和冬小麥的識別精度。

(5)在大范圍的冬小麥分類上,深度學習模型的泛化性高于機器學習方法。隨機森林泛化性較低,并只在當前實驗區域識別精度較高,在其他區域的識別精度較低。

猜你喜歡
冬小麥精度分類
分類算一算
分類討論求坐標
基于DSPIC33F微處理器的采集精度的提高
數據分析中的分類討論
教你一招:數的分類
甘肅冬小麥田
GPS/GLONASS/BDS組合PPP精度分析
冬小麥和春小麥
改進的Goldschmidt雙精度浮點除法器
冬小麥——新冬18號
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合