?

基于SVM+SFS策略的多時相緊致極化SAR水稻精細分類

2018-12-20 11:03國賢玉李坤王志勇李宏宇楊知
自然資源遙感 2018年4期
關鍵詞:水稻田特征參數區分

國賢玉, 李坤, 王志勇, 李宏宇, 楊知

(1.山東科技大學測繪科學與工程學院,青島 266590;2.中國科學院遙感與數字地球研究所,北京 100101;3.中國地質大學(北京)地球科學與資源學院,北京 100083;4.中國電力科學研究院輸變電工程研究所,北京 100055)

0 引言

水稻是世界三大糧食作物之一,為我國一半以上的人口提供糧食來源。種類和種植方式的不同導致水稻長勢、產量存在一定差異,傳統的水稻制圖(區分水稻和非水稻)已經難以滿足高精度農業應用的需求。因此實現水稻精細制圖,區分不同水稻品種與種植方式,為水稻長勢監測提供更精準的信息,對于現代農業的發展具有重要意義。

緊致極化SAR(compact polarimetry synthetic aperture Radar,CP-SAR)降低了系統復雜度與能耗,縮小了傳感器體積,已成為新一代對地觀測SAR系統的重要發展趨勢之一[1]。與全極化SAR相比,CP-SAR不僅能夠保持豐富的極化信息,還能實現更大的幅寬與入射角范圍。近年來,CP-SAR相關研究主要集中在3方面:①CP-SAR系統接發模式研究[2-3];②CP-SAR模擬與偽極化(pseudo-quad-pol,PQ)SAR重建方法研究[4-5];③CP-SAR應用研究,如信息提取[6]、作物分類[7]、森林參數反演[8]、海冰和溢油[9-10]等。雖然目前基于CP-SAR的應用研究覆蓋面很廣,但還不夠深入,以農業應用為例,大多數研究都集中在簡單的作物制圖上,對于種植方式和種類的區分研究很少。

目前SAR水稻制圖方法主要依據有3類:①后向散射特性的時相變化規律[11-12];②不同極化后向散射特性的差異[13];③全極化散射機理特點[14-15]。前2類方法都只利用后向散射強度信息,不包含雷達回波的相位信息。第3類方法精度高,普適性較強,對數據時相的要求也較低。雖然全極化SAR在水稻制圖中具有較大優勢,但全極化系統的脈沖重復頻率是單雙極化的2倍,相應的幅寬也小,限制了大范圍水稻制圖的應用。因此,在同時兼顧制圖精度與面積的情況下,CP-SAR是最佳選擇之一。2013年,Brisco等[16]基于CP-SAR開展水稻制圖研究,對比分析了單雙極化、CP-SAR與全極化SAR的制圖效果,結果表明CP-SAR在水稻制圖中的應用效果可與全極化相媲美,遠優于單、雙極化數據;2015年,Uppala等[17]基于RISAT-1衛星CP-SAR數據利用監督分類進行水稻識別,得到了較高的制圖精度。這些研究表明了CP-SAR在水稻制圖中的應用潛力,但集中于區分水稻和非水稻,對于水稻種類以及種植方式的區分研究不足。

鑒于此,以江蘇金湖地區為研究區,開展CP-SAR水稻精細制圖方法研究。針對插秧秈稻/粳稻、撒播粳稻3類水稻田,考慮水稻植株分布特征、生理結構特點以及下墊面的影響,研究分析其CP-SAR響應特征以及時相變化規律,在此基礎上,針對CP-SAR多維特征信息,引入基于支持向量機和序列前進搜尋(support vector machine and sequential forward selection,SVM + SFS)[18]策略的特征選擇方法,構建基于決策樹和SVM的水稻精細分類方法。

1 研究區概況與數據源

研究區位于江蘇金湖(E118°41′34″~119°16′27″,N33°17′05″~33°56′39″),屬于亞熱帶季風氣候區,地勢平坦,地塊規則。該區水稻一年一熟(6—11月)。水稻種類為秈稻和粳稻,播種方式分為插秧和撒播,故水稻田可分為插秧秈稻田(TH)、撒播秈稻田、插秧粳稻田(TJ)和撒播粳稻田(DJ)4類。由于該區幾乎沒有撒播秈稻田,因此主要針對TH,TJ和DJ這3類(圖1),開展精細制圖方法研究。

(a) TH(幼苗期) (b) TJ(幼苗期) (c) DJ(幼苗期)

(d) TH(乳熟期) (e) TJ(乳熟期) (f) DJ(乳熟期)

在研究區獲取了9景RADARSAT-2精細全極化SAR數據,方位向和距離向空間分辨率分別為5.2 m和7.6 m。由于封行之前3類水稻田差異相對較大,因此,選擇對應時段的SAR數據進行水稻精細分類方法研究,獲取日期分別為2012年6月27日、7月11日和7月21日。首先基于3個時相的全極化SAR數據模擬CP-SAR數據。模擬數據為圓周極化發射線性極化接受模式(circular transimit and linear receive,CTLR),發射右旋圓(R)極化、接收水平(H)和垂直(V)極化[19],空間分辨率為30 m,噪聲水平為-25 dB(圖2)。獲取SAR數據的同時,開展了地面實驗,采集了水稻種類、種植方式和物候等信息,并利用高精度GPS獲取了41塊水稻樣田的矢量數據,其中包括24塊TH、6塊TJ、11塊DJ,還選擇了8塊水體和10塊城鎮建筑。

圖2 CP-SAR模擬數據在不同極化通道的假彩色合成影像(CP-SAR RR(R),RV(G),RH(B)假彩色合成)

2 研究方法

研究流程主要包括CP-SAR數據模擬與特征參數提取、數據預處理、基于SVM + SFS的CP-SAR特征參數優選以及基于優選特征利用決策樹和SVM方法進行水稻田精細分類,具體技術流程如圖3所示。

圖3 技術路線

2.1 數據預處理

基于CP-SAR模擬數據,根據特征參數定義,提取22個CP特征參數(表1)。然后對特征參數進行輻射定標、幾何糾正、研究區裁剪和斑點噪聲濾波等預處理。通過比較選擇Frost濾波方法,以7×7窗口進行降噪處理。在此基礎上,基于地面樣方,提取不同類型水稻田、水體和城鎮建筑的CP-SAR特征參數。

表1 提取的22個CP特征參數

(續表)

2.2 SVM + SFS策略特征選擇方法

為了充分挖掘CP-SAR多維特征信息,同時保證分類方法的簡潔性,引入基于SVM + SFS的特征選擇方法,對22個CP-SAR參數進行優選。把每一特征參數看作由一個向量和一個標記組成,即Di=(xi,yi),x=[x1,…,xi,…,xn]為訓練數據向量,n為訓練數據個數,yi為分類標記(yi取-1或1)。定義函數和超平面分別為

g(xi)=〈w,x〉+b,i∈[1,n]

(1)

〈w,x〉+b=0

(2)

式中:w為系數向量,其維度為n;b為常數變量。若使分類數據被超平面分成2類,超平面必須滿足yi(〈w,x〉)≥1。SVM思想是使所求最優超平面能夠具有最大的分類間隔,分類間隔δi表示為

(3)

式中:||w||為向量w的范數;|g(xi)|為g(xi)的絕對值。這等同于求二次規劃問題,即

(4)

yi(〈w,x〉+b)≥1,i∈[1,n]

(5)

引入Lagrange算子α*,令α*≥0,滿足式(6)有唯一解,即

(6)

式中b*為最優化的常數變量。當樣本點到超平面距離為最短距離,則yi(〈w,x〉+b)=1且α*≠0,否則yi(〈w,x〉+b)>1且α*=0。α*=0的樣本稱為支持向量(support vector,SV),樣本的總個數稱為SV個數(number of SV,NSV)。在SVM分類算法中,可分性的優劣就是由NSV判斷,NSV越小,可分性越好。

除了3類水稻田的最優特征,利用上述方法還選出了區分水稻與非水稻的最優特征。

2.3 3類水稻田CP-SAR響應規律

面向水稻田精細分類,利用SVM + SFS方法,優選出的CP特征參數如表2所示。圖4給出了3類水稻田在優選參數上的差異,且將優選特征參數分為2類:①強度特征參數;②非強度特征參數。

表2 利用SVM + SFS方法優選的CP-SAR特征參數

(a) 強度極化特征參數 (b) 非強度極化特征參數

相對于TH和TJ,DJ水稻植株密度更大,因此其后向散射和體散射都比較大;而TH和TJ的下墊面為水面,引起鏡面反射使其后向散射和體散射較小,這導致DJ與TH,TJ的后向散射和體散射差異較大。由于σ0RH和σ0RV主要來自體散射的去極化作用,因此DJ的σ0RH和σ0RV大于TH和TJ(如圖4(a)所示),差值約為0.8 dB;而g0,g1與后向散射密切相關,2參數對于區分DJ與TH,TJ有較大貢獻。TH下墊面為水面,且秈稻幼苗植株更高且粗壯,下墊面與植株垂直結構更容易形成二面角,因此TH的二次散射更強;TJ植株高度較小,DJ下墊面為土壤,因此TJ和DJ的二次散射相對較弱。由于二次散射在RR上的響應較強,因此TH的σ0RR大于TJ和DJ,差值約為1.3 dB;m-χ_db和m-δ_db表征二次散射的強度,因此TH的m-χ_db和m-δ_db強度值大于TJ和DJ,差值約為3.8 dB。所以σ0RR,m-χ_db和m-δ_db對于區分TH與TJ,DJ有較大貢獻。DJ下墊面為土壤,其面散射貢獻最大;TJ植株相對弱小,下墊面粗糙面散射貢獻較大,TH植株相對高而粗壯,面散射最弱,由于σ0RL,g3,m-χ_s,m-δ_s與面散射密切相關,因此3類水稻田對應的這4個參數差異較大(如圖4(a)所示)。以g3為例,其差值約為3 dB,對于區分3類水稻田貢獻較大。TJ植株密度相對較小,而且粳稻植株相對弱小,因此其體散射相對于DJ和TH較小。m-δ_vol和m-χ_vol表征地物體散射,故TJ的這2個參數小于DJ和TH,其差值約為0.7 dB,對于區分TJ與DJ,TH貢獻較大。

Hi表征散射機制的復雜程度,由于體散射更為復雜,因此體散射貢獻越大Hi越大。通過前面3類水稻田的散射機理分析,DJ的體散射貢獻最大,TH次之,TJ最小,由圖4(b)可以看出,DJ的Hi大于TH且遠大于TJ,因此,Hi對于區分DJ和TJ貢獻較大。μ和α都與散射機理密切相關,μ從大到小分別表示面散射、體散射和二次散射;而α反之。因此DJ的μ值大于TJ和TH,而DJ的α值小于TJ和TH。μC也與目標的散射機理密切相關,其值與面散射的貢獻成反比,DJ對應的μC值小于TJ和TH,對于區分TH與DJ貢獻較大。

2.4 基于CP-SAR優選特征的水稻精細分類

基于SVM + SFS方法優選CP-SAR特征,分別采用決策樹和SVM方法進行水稻精細分類。另外,將3類水稻田、城鎮建筑和水體樣方分為訓練和驗證樣本2部分,TH、水體和城鎮建筑的訓練和驗證樣本各占一半,二者之間沒有重疊。由于TJ和DJ的樣本數較少,訓練和驗證樣本之間約有30%的重疊。

2.4.1 決策樹分類

首先利用CP-SAR優選特征區分水稻與非水稻,再進行3類水稻田的區分,最終實現精細分類,決策樹分類如圖5所示。圖中變量的數字后綴代表影像獲取日期。

圖5 3類水稻田的分類決策樹

研究區非水稻區域主要包括城鎮建筑和水體等,水稻與水體、建筑的二次散射貢獻差異很大(圖6),而RR極化對二次散射敏感,因此首先根據σ0RR,區分水稻和非水稻。水體的m-δ_db約為-35 dB,小于其他非水稻區域,因此利用m-δ_db區分水體;最后再利用m-δ_db和σ0RR將城鎮建筑與其他非水稻區分開。針對3類水稻田,先利用6月27日(幼苗期)m-χ_db_0627,μC_0627和m-δ_vol_0627區分不同種植方式,即DJ與TH,TJ。因為撒播田下墊面為土壤,且植株矮小,二次散射比插秧田弱,而由于植株密度較大,其體散射較弱大于TJ,小于TH。另外,針對TH與TJ可分性較弱,且二者種植方式相同,田塊結構相似,只能依靠水稻植株形態差異進行區分。7月11日,TH在RR上的響應較強,21日由于冠層密度增加,衰減增大,TH發生二次散射的能量減少,在RR上的響應減弱;而TJ剛好與之相反,因此利用二者在2個時相上的差異來實現區分。

2.4.2 SVM分類

基于CP-SAR優選特征,利用SVM進行分類。選擇徑向基核函數(radial basis function,RBF),其Gamma值為輸入圖像波段的倒數,懲罰參數為100;分級處理等級為0,以原圖像空間分辨率進行分類處理;分類概率閾值為0。

3 結果與分析

通過設計4組對比實驗進行結果分析:①利用6月27日12個CP優選參數進行SVM分類,并與全部22個參數SVM分類結果進行比較;②考慮時相信息,利用3個時相28個優選參數進行SVM分類,并與全部66個參數分類結果進行比較;③利用決策樹方法進行TH,DJ與非水稻區的區分;④利用決策樹進行3類水稻田與非水稻區的區分。最后利用驗證樣本對分類結果進行精度評價(表3)??梢钥闯?,水體和城鎮建筑分類效果較好,生產者精度和用戶精度均在90%以上,不同方法、不同時相組合對應的分類結果差異不大。

表3 2種分類方法的分類精度比較

①在Tm-n-k中,m表示用于分類的SAR數據時相數;n表示參與分類的CP-SAR特征參數個數;k表示水稻分類類別。

對于水稻來說,單一時相12個優選參數SVM分類,TH平均精度約為70.6%;TJ的生產者和用戶精度都很低。多時相28個優選參數SVM分類,3類水稻的精度都有所提高,因此多時相對區分水稻種類、種植方式具有一定貢獻;但是TJ生產者精度只有24.16%,即大部分TJ被錯分成TH,說明水稻種類的區分能力仍然不高。多時相全部66個參數SVM分類,總體精度為91.38%,Kappa系數為0.880,與多時相28個優選參數SVM分類結果相近,可見對于水稻精細分類,基于SVM + SFS策略優選的28個特征參數能夠與全部66個參數達到同樣效果,避免了數據贅余、提高了運算效率。

利用多時相28個優選參數,進行決策樹方法,區分TH和DJ,總體精度為97.44%,Kappa系數為0.962;區分3類決策樹分類總體精度達到92.57%,Kappa系數達到0.896。與優選參數SVM分類對比總體精度提高1%~9%,Kappa系數提高0.01~0.12。TJ生產者精度為45.74%,比SVM分類精度提高了0~40%??傮w來看,SVM + SFS策略優選參數決策樹分類要優于SVM分類,并且分類速度更快。

從分類精度來看,TJ生產者精度較低,區分效果不好主要有以下幾方面原因:①由于播種方式的不同,幼苗期插秧稻田種植稀疏,植株成行成壟,而撒播稻田植株較稠密,在雷達響應上表現差異性大,因此DJ容易與TH,TJ區分。幼苗期TH和TJ這2類水稻具有水稻共性,并且幼苗期水稻植株小,導致在雷達響應上表現差異性??;分蘗期和拔節期2類水稻植株表現出差異性,但隨著植株生長,植株間的縫隙減小,這種差異性又淹沒在水稻群體中,導致在雷達響應上差異性小,使得TJ區分效果不好;②研究區TJ種植面積少,在研究區地面獲取的樣方也少,影響TJ生產者精度;③本研究使用CP-SAR模擬數據,空間分辨率為30 m,噪聲水平為-25 dB,空間分辨率和噪聲水平與真實SAR數據(以RADARSAT-2全極化為例,空間分辨率8 m,噪聲水平約為-32 dB)存在一定的差異。

采用SVM和決策樹分類方法,3個時相28個參數分類結果如圖7所示。

(a) SVM分類 (b) 決策樹分類

從圖7(a)中可看出,城鎮建筑和水體被明顯分出,這與城鎮建筑、水體與水稻的散射特性差異性大有關。除水體和城鎮建筑外,水稻田分為3類,TH多分布在東南區,TJ和DJ多分布在西北部,以TH分布最為廣泛。這與研究區實際水稻種植分布現狀基本相符;在圖7(b)中,利用決策樹分類比SVM分類效果更細,將村莊道路也區分出來,從整體來看,依然是TH分布在金湖地區東南部,TJ和DJ分布在西北部,城鎮多分布在研究區南部。

4 結論

利用CP-SAR模擬數據提取多維特征信息,引入基于SVM + SFS的特征選擇方法,構建了基于決策樹和SVM的水稻精細分類方法,為水稻長勢監測與估產提供了更精準的信息。具體結論如下:

1)利用多時相CP-SAR模擬數據,分析了不同種植方式、不同品種的3類水稻田的CP-SAR響應特征、散射機理及其時相變化規律。

2)針對CP-SAR多維特征參數,引入基于SVM + SFS的特征選擇方法,建立了面向水稻田精細分類的CP-SAR最優特征集,并結合物理意義分析了這些特征在不同水稻田區分中的優勢。

3)基于優選的CP-SAR特征參數,建立了不同種植方式、不同品種的3類水稻田的精細分類方法,TH與DJ的分類精度較好,平均精度分別達到88%和82%。TJ的分類結果相對較差,平均精度達到60%。

4)當利用3個時相CP-SAR數據水稻精細分類時,基于SVM + SFS優選特征的分類結果優于全部特征的分類結果。

但是TJ分類精度不高,應繼續分析TJ與TH,DJ的差異,充分利用CP-SAR數據,提高TJ分類精度將是我們下一步的工作重點。

猜你喜歡
水稻田特征參數區分
家鄉的白鷺
冕洞特征參數與地磁暴強度及發生時間統計
基于交通特征參數預測的高速公路新型車檢器布設方案研究
怎么區分天空中的“彩虹”
區分“我”和“找”
基于PSO-VMD的齒輪特征參數提取方法研究
基于視頻的車輛特征參數算法研究
水稻田雜草防除技術要點
怎祥區分天空中的“彩虹”(一)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合