?

基于Sentinel-2數據多特征優選的農作物遙感識別研究

2023-12-28 07:27陳健李虎劉玉鋒常竹韓偉杰劉賽賽
自然資源遙感 2023年4期
關鍵詞:分類器農作物精度

陳健, 李虎, 劉玉鋒, 常竹, 韓偉杰, 劉賽賽

(1.安徽師范大學地理與旅游學院,蕪湖 241003; 2.滁州學院計算機與信息工程學院,滁州 239000;3.資源環境與地理信息工程安徽省工程技術研究中心,蕪湖 241003)

0 引言

農作物種植面積是農情監測和農業種植結構調整的重要基礎數據。傳統農作物種植面積統計通常采用抽樣和逐級上報的方式進行,不僅費時費力,還受到一定的主觀因素影響[1]。衛星遙感技術能夠實現大面積、長時間的對地觀測,可以在短時間內客觀、準確地獲取農作物的分布信息,是目前農業遙感研究的一個熱點[2-3]。

由于存在“同物異譜、同譜異物”的現象,單一時相的遙感數據往往難以準確反映農作物的分布情況[4]。學者們選擇從多時相數據源入手,根據作物在遙感影像上的表征隨時間變化的特性實現作物分類,如王德軍等[5]、楊歡等[6]通過構建能夠反映作物物候信息的時間序列植被指數,有效識別出了不同農作物。遙感分類過程中,如果將所有時相的特征都參與計算容易弱化分類器性能,造成維度災難和信息冗余,從而降低精度和效率。因此,如何從多時相、多特征組合中優選出最佳特征是解決農作物分類問題的關鍵所在。

近年來,特征優選在農作物遙感分類中得到了不同程度的應用,為更好地識別出農作物提供了可能。RF_RFE由于能夠量化每個變量的相對重要性,通常被用于高維的特征優選。梁繼等[7]采用RF_RFE算法分析了不同特征對農作物識別的重要程度,篩選出有利于農作物識別的特征,提高了農作物分類的精度和效率。周小成等[8]使用RF_RFE算法優選出有利于林地信息提取的特征,實現了基于無人機數據對竹林、針葉林和闊葉林的分類識別。Relief F是經典的過濾式特征選擇算法,在特征優選中具有運算速度快、泛化能力強等特點。劉家福等[9]基于Landsat8數據研究提取濱海濕地信息時,發現基于Relief F算法結合隨機森林(random forest,RF)分類器具有高精度、高效率的優勢。劉瑩等[10]通過Relief F算法對Landsat8數據的71個特征進行特征優選,然后結合SVM分類器有效的識別出城市的不透水面覆蓋面積。張東彥等[11]在對安徽北部平原的大豆區進行提取時,使用Relief F算法提取特征,并對比了RF、反向傳播神經網絡(back-propagation,BP)、支持向量機(support vector machine,SVM)等3種分類器的分類效果,結果表明RF分類器結合Relief F算法的識別結果更加接近真實情況?;谙嗨菩缘奶卣鲀炦x(correlation-based feature selection,CFS)算法是用來綜合評價特征與分類結果之間的相關性和特征之間冗余度的方法。張文博等[12]對比了CFS算法和Relief F算法提取旱區植被的分類效果,結果表明CFS算法能夠在保證較少特征的同時具備較高的分類精度。

綜上所述,在基于遙感數據多特征優選的分類識別研究中,分類特征的選擇固然重要,但還存在盲目性和不穩定性,對不同的地物識別效果差異也較大,不同的特征優選方法適用于何種遙感數據和分類場景尚未形成統一的定論。本研究以滁州市全椒縣為研究區,借助GEE平臺,基于Sentinel-2衛星數據構建多時相多維遙感特征,選用RF_RFE,Relief F,CFS這3種特征優選算法,探究不同的特征優選算法在農作物分類中的效果優劣,并確定可用于農作物種植類型識別的最佳特征優選方法; 在此基礎上,通過與其他的分類方法比較,進一步探究最佳特征優選算法在不同分類器中的識別農作物種植結構的性能差異。

1 研究區概況與數據源

1.1 研究區概況

全椒縣地處安徽省滁州市的最南端,E117°48′~118°24′、N31°50′~32°14′之間。位于江淮分水嶺和滁河之間,為亞熱帶季風氣候,年平均氣溫范圍為11.4~16.6 ℃。北部為山區,海拔最高396 m,南部為平原帶,東部為主城區,上半年以種植小麥、油菜為主,下半年以種植水稻為主,地理位置及樣本點分布如圖1所示。

圖1 研究區地理位置及其樣本分布

1.2 數據源與預處理

1.2.1 Sentinel-2影像數據

相較于GF-2衛星數據和Landsat衛星數據,Sentinel-2衛星數據具有重訪周期短、分辨率高的綜合優勢,且具備對農作物分類有重要影響的紅邊特征。依據全椒縣農作物的物候特征(表1)以及相關的前期研究,選擇農作物的返青期2022年2月25日、拔節期2022年3月12日、孕穗期2022年4月21日共3景Sentinel-2多光譜數據作為數據源。在GEE中選擇的Sentinel-2數據是經過輻射定標和幾何校正的Level-1C產品,其中包含13個光譜波段,本文剔除掉氣溶膠、水蒸氣以及卷云波段這3個無關波段,并利用QA60波段進行去云掩模操作,除去卷云和厚云的影響,最終得到3個時相的全椒縣Sentinel-2無云影像。

表1 全椒縣午季農作物生長周期

1.2.2 樣本數據

本文根據全椒縣實地調查情況,將研究區土地覆蓋類型分為居民地、道路、裸地、冬閑田、小麥、油菜、水體和森林8類,并于2022年2月24日—2022年2月26日對研究區開展地面調查,獲取各種地物樣本以及農作物的類型、種植結構、地理位置并拍照記錄。共獲得512個樣本數據,其中居民地68個、道路23個、裸地27個、冬閑田76個、小麥105個、油菜148個、水體26個、林地39個,具體的樣本分布情況如圖1所示。本文將樣本數據按照7∶3的比例隨機分為訓練樣本和驗證樣本。

2 研究方法

基于GEE平臺提取全椒縣農作物種植類型的具體流程如圖2所示。首先通過GEE平臺獲取并處理覆蓋全椒縣的Sentinel-2數據,從中提取出光譜特征、紋理特征、植被指數特征。然后采用RF_RFE,Relief F,CFS對多時相、多維遙感特征進行優選,分析不同特征在農作物識別中的重要性程度,并采用混淆矩陣方法評估分類精度確定最佳的特征優選算法。在此基礎上,對比RF,SVM、最小距離分類(minimum distance classification,MDC)3種分類方法,探究最佳特征優選算法在不同分類器中的性能差異,采用全國第二次土地調查數據中的耕地范圍對分類結果做掩模處理,并將非農作物類型合并在一起,只分析農作物的識別結果。

圖2 研究區農作物信息提取的技術流程圖

2.1 特征集構建

為了分析不同的特征對農作物遙感識別的影響,提高農作物的識別精度,本文選擇光譜特征、植被指數特征、紋理特征等共計90個特征構成數據集,詳見表2。表中,光譜特征直接選擇每個時相影像的10個原始波段,3個時相的影像共計30個光譜特征。植被指數中,紅邊波段是哨兵數據特有的,且紅邊指數特征對植被更加敏感。本文不僅考慮常規植被指數,而且加入了6個與農作物生長過程有關的紅邊指數,分3個時相共計18個無紅邊植被特征和18個紅邊植被指數特征。

表2 農作物遙感識別特征集

紋理特征[17]的構建選擇灰度共生矩陣GLCM來提取,GEE平臺上提供了基于GLCM快速計算紋理特征的函數,可以計算出18種不同的紋理特征,考慮到若將所有特征都用于分類必定會導致冗余。因此根據前人研究,通過對原始影像的10個波段進行主成分分析,提取主成分的第一成分來計算最常見的紋理指標用于區分不同地物的空間結構差異[18],同樣分3個時相共計24個紋理特征。

2.2 特征優選方法

2.2.1 基于RF_RFE算法的特征優選

基于RF_RFE算法的特征優選方法如下: 首先,對于隨機森林中的每一個決策樹而言,使用相應的袋外數據來計算袋外誤差,記作errOOB1; 然后,隨機地對袋外數據OOB所有樣本的特征X加入噪聲干擾,再計算其袋外數據誤差,記作errOOB2; 最后,計算特征重要性X,計算公式如下:

,

(1)

式中N為樹的個數,式中X的值越高,則說明特征X越重要[8]。把需要的特征子集初始化為整個特征子集,每次剔除掉重要性分數最低的數據,直到獲得最后的特征集。

2.2.2 基于Relief F算法的特征優選

Relief F算法是根據樣本鄰近原則,賦予不同特征的權重。具體步驟如下: ①選擇特征樣本,從樣本集中隨機選擇一個樣本X,從不同類中找到一個最近鄰的樣本Y,從同類的樣本中找到一個最近鄰的樣本Z。②計算特征權重,在某個特征的條件下,比較X與Y之間的距離和X與Z之間的距離大小; 如果不同類之間的距離較大,說明該特征容易區分,增加特征的權重; 反之,則減少特征的權重。③重復上面的步驟,求取各個特征權重的平均值,特征權重越大代表該類的區分能力較強[19]。

2.2.3 基于CFS算法的特征優選

基于相似性的特征選擇是過濾式選擇的一種的方法,該方法的核心是采用啟發的方式評估特征子集的價值,該方法假設思想是: 好的特征子集包含與類高度相關的特征,但特征之間彼此不相關。啟發方程式為:

,

(2)

式中:Merittk為包含k個特征子集t的啟發值;Zcf為特征與類之間的相關性的平均值;Zff為特征與特征之間的相關性;Z為相關系數。啟發值越大代表這個特征的分類效果越好[12]。

2.3 隨機森林分類

隨機森林分類是集成分類的一個子類,它依靠決策樹投票選擇來決定最后的分類結果,將若干個弱分類器的分類結果進行投票選擇,從而組成強分類器。其具體操作步驟包括以下幾個方面: 首先,在原始的樣本中,隨機且有放回地抽取N(約為總體樣本集的2/3)個訓練樣本組成訓練樣本集,剩余的1/3樣本作為袋外數據進行內部交叉驗證; 然后,根據抽取的樣本集分別建立N棵決策樹組成的隨機森林,每個決策樹隨機抽取M個特征,采用基尼系數最小的原則進行節點分裂; 最后,將生成的多顆決策樹組成隨機森林分類器,采用投票的方式決定新樣本的類別[20]。

2.4 精度評價方法

根據地面實測樣本數據,采用混淆矩陣來評估不同模型的分類效果。使用制圖精度來反映分類中的漏分誤差、使用用戶精度來反映分類中的錯分誤差。通過Kappa系數來評估不同分類模型的優劣,其計算公式如下:

,

(3)

式中:N為像元的總數;m為類別數;xii為混淆矩陣對角線上的像元個數;xi+和xj+分別為第i行和第j列的像元總數。

3 結果與分析

3.1 特征重要性分析

本文共選擇了90個特征參與全椒縣的農作物遙感提取,通過GEE平臺以及分類樣本的特征值,結合RF_RFE,Relief F,CFS這3種特征優選算法分別計算出相應的特征重要性。為了避免傳統閾值方法的人為主觀性影響,本文參考前人已有的研究[18],根據特征重要性大小對不同特征進行降序排列,并從中選出前50個特征組成特征集進行實驗。每次從特征集中刪除一個特征重要性排在最后的特征,并將保留下來的特征子集用于農作物分類和計算分類精度。重復以上過程,通過逐次迭代計算,從而最終確定特征優選結果變量數目與分類精度之間的關聯關系。為了方便統一比較,這里都選擇RF作為特征優選后特征子集的分類器,保留下來的特征子集需要確保分類精度較高但特征個數較少,不同特征子集的特征個數對應的Kappa系數見圖3。

圖3 不同特征數目下的Kappa系數

由圖3可知,隨著特征參入分類的特征個數的增加,分類精度開始隨著特征數的增加而逐漸增大,當達到一定值的時候,Kappa系數出現小范圍的波動。最終的RF_RFE算法、CFS算法、Relief F算法優選特征的Kappa系數分別維持在0.89,0.88和0.83左右波動。圖中用紅色標記了特征優選的最佳精度的位置,3種特征優選算法的結果其對應的特征見表3。

表3 3種優選結果的特征分布

從表3中可以看出(表中特征名以特征加時間命名,如B20225代表2022年2月25日影像的B2波段,同一個特征在不同的特征優選算法里面出現至少2次的用斜體顯示),3種特征優選算法在4月份的特征數量最多,是農作物提取的最佳時相,其原因是4月份是小麥和油菜的孕穗期和中花期,兩者之間的形態和光譜反射都會產生較大的差異,易于辨識區分。其次是3月份,此時的小麥和油菜正處于拔節期和初花期,此階段小麥和荒地之間有一定的差異。2月份的小麥和油菜正處于拔節期和現蕾期,小麥和油菜剛有成長,處于苗期,而樹林處于長勢茂盛期,易于區分,此時間段容易產生“同譜異物”的現象,對分類結果存在一定的干擾。表3中有13個特征至少被2種優選算法同時優選出來,表明這13個特征在分類中起到重要作用,有利于農作物的識別。這些重要的特征在RF_RFE算法、Relief F算法、CFS算法優選的特征集中分別占比47.61%,42.10%和40.74%。因此,相比于Relief F和CFS,RF_RFE在Kappa系數和優選出的特征穩定性上均有利于農作物的地物分類。

對于RF_RFE算法,優選出來的特征集的特征重要性得分如圖4所示。在優選的特征中,原始光譜特征占比最多,21個特征中包含15個原始光譜特征,其中的短波紅外B11和B12共出現4次,表明短波紅外的加入能夠在一定程度上提高農作物的分類精度。其次,B5,B6,B7相關的紅邊特征在農作物分類中也起到了重要的作用。此外,紋理特征中的逆差距有利于農作物的分類,展現出較好的分類效果。

圖4 特征名稱及其對應的重要性得分

3.2 不同特征優選方法下RF分類精度對比

為了比較3種不同的特征優選方法在農作物分類中的效果,本文以RF分類器為例進行實驗研究,表4展示了3種不同特征優選方法在RF下的分類結果,表中3種分類結果的Kappa系數均高于0.83。RF_RFE的分類精度最高,在特征數目為21時,總體精度為92%,Kappa系數為0.89。其余的特征優選算法Kappa系數略低于RF_RFE,從相同的RF分類器下,對比不同的特征優選方法來看,Relief F在特征變量19個時,總體精度和Kappa系數分別為0.83和0.88,相比于RF_RFE算法,特征維度減少了2個,但是總體精度和Kappa系數分別降低了4%和5%。CFS相比于RF_RFE,在Kappa系數略微降低0.01,同時在特征上多使用了6個特征參加計算。從用戶精度和生產者精度來看,小麥均高于油菜,說明小麥的可分離性要優于油菜。在RF_RFE算法中,小麥和油菜的精度均達到了最大值,其中,小麥的生產者精度和用戶精度分別為96.2%和93.2%,油菜的生產者精度跟用戶精度分別為83.5%和88.8%。為了能夠更加清楚地知道分類結果,本文將其與2022年3月2日的高分一號衛星多光譜與全色的融合影像進行對比(表5)。

表4 基于不同特征優選方法和隨機森林的地物分類精度

表5 不同特征優選方法的局部結果圖

由表5可知,從高分一號融合影像上看,油菜和小麥在影像上呈現不一樣的色調。從RF的3種分類方法的局部結果圖中看,樣地一表示破碎地塊的農作物分類結果,從中可以看出Relief F出現錯分,誤分的情況較為嚴重,部分居民地旁邊的冬閑田被錯誤識別為小麥,CFS和RF出現這種現象的程度較輕。樣地二表示地塊較完整的農作物分類結果,3種分類結果中有部分將田埂、道路錯分為農作物的現象,導致這種現象的原因是10 m分辨率的Sentinel-2數據存在混合像元現象。但從整體上來看3個分類結果都較為準確的識別出農作物,局部的差異較小。樣地三表示林地附近的農作物分類結果,其中Relief F和CFS都出現漏分現象,對圖中紅色標記內的農作物,未能準確的識別處理,而RF能夠較完整的識別農作物。綜上所述,將RF_RFE作為最佳的優選特征,主要有以下2個原因: ①從分類的精度來看,RF_RFE算法在不同的特征優選結果中各項分類指標都最高,且特征個數也偏少; ②從分類效果來看,分類結果中出現較少的錯分或漏分的程度最輕。

3.3 不同機器學習分類對農作物識別精度的影響

基于RF_RFE特征優選算法,對不同分類方法的農作物識別精度進行比較,結果見圖5。與SVM(圖5(a))和RF(圖5(b))相比,MDC(圖5(c))的分類結果存在明顯的差異,MDC在分類過程中存在將冬閑田錯分和誤分為農作物的狀況,并沒有準確的將農作物提取出來。而SVM與RF的分類結果較為接近,SVM和RF的農作物主要分布在東北角的耕地區,西南角的耕地區農作物較少,這與西南角耕地區實施高標準農田建設有關。從分類器的機理來看,這種現象可能是由于本實驗特征數量較多,MDC處理大量的特征變量時,出現負載情況導致分類效果較差,而SVM和RF能夠很好地使用小樣本和特征進行分類。

(a) SVM (b) RF (c) MDC

對比不同分類方法的分類精度(表6)可知,RF的分類精度表現較為優越,總體精度比SVM和MDC分別高0.7百分點和30.5百分點; Kappa系數比SVM和MDC分別高 0.01和0.41,表明SVM和RF更適用于研究區的地物分類。在RF分類器下,小麥和油菜的用戶精度和生產者精度均高于83.5%。小麥的生產者精度和用戶精度和油菜的用戶精度均達到最大值96.2%,93.2%和88.8%; 在油菜的生產者精度略比SVM低1.2百分點,從數值上來看,除了RF在油菜的生產者精度小于SVM以外,其余的分類精度均大于SVM。綜上所述可知,3種機器學習分類方法中,RF在農作物信息提取的分類結果上與SVM分類結果相近,在總體精度上略高于SVM,而MDC 分類算法不適合高維度、大數據量的分類,對比可知,RF分類算法可以有效的識別出農作物。

表6 RF_RFE特征優選下基于不同機器學習分類的農作物分類精度

4 結論與討論

4.1 結論

1)根據RF_RFE的特征重要性得分可知,不同的特征影響著農作物的識別精度,各類特征的得分值從高到低排列依次是光譜特征、紅邊特征、傳統植被指數特征、紋理特征。其中短波紅外波段B11和B12,紅邊波段B5和B6對農作物的識別具有重要的作用。

2)對比RF分類器下的不同的特征優選方法的分類精度?;赗F_RFE的特征優選算法的分類精度最高,總體精度為92%,Kappa系數為0.88,且將特征維度從90維降低到21維。

3)基于相同的RF_RFE特征優選的條件下,RF的Kappa系數比SVM,MDC分別高0.01和0.41,在分類結果中,RF相比于其他的分類,存在較少的錯分和漏分現象。因此,RF結合RF_RFE算法是適用于農作物種植結構信息提取的方法。

4.2 討論

本文基于從Sentinel-2衛星數據中提取的多時相、多維度遙感特征,采取不同的特征優選算法結合RF分類器實現對全椒縣的農作物種植結構信息提取。選擇有關農作物生理狀況和形態結構的特征構造出多維特征,使用RF_RFE,Relief F和CFS計算出不同特征的重要性,依次消除特征重要性最小的特征,避免了采用傳統的閾值方法在判定最佳維度時存在的主觀性。B3,B5,B8A,B11,NDVI,NDTI,LSWI,EVI和pc1_contrast在至少2種特征優選方法中出現過,表明紅邊、短波紅外以及紋理特征在農作物種植結構識別中具有顯著優勢,這與文獻[7,10,14]的研究結論一致。在特征子集相同的條件下,通過對比不同的機器學習分類方法,證明了RF結合RF_RFE算法在農作物種植結構的信息提取中的有效性。對于接下來的研究中,能否基于多時相多特征的特征優選算法,結合高分辨率遙感影像并推廣應用到其他地區需要進一步探究。

猜你喜歡
分類器農作物精度
高溫干旱持續 農作物亟須“防護傘”
俄發現保護農作物新方法
夏季農作物如何防熱害
厲害了!農作物“喝”上環保酵素
基于DSPIC33F微處理器的采集精度的提高
BP-GA光照分類器在車道線識別中的應用
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
GPS/GLONASS/BDS組合PPP精度分析
改進的Goldschmidt雙精度浮點除法器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合