?

基于交叉驗證的遙感影像精細分類研究

2016-08-16 05:58張俊前王文進重慶市勘測院重慶40000重慶建筑工程職業學院重慶40007
城市勘測 2016年2期
關鍵詞:高分辨率協方差分類器

張俊前,王文進(1.重慶市勘測院,重慶 40000; .重慶建筑工程職業學院,重慶 40007)

基于交叉驗證的遙感影像精細分類研究

張俊前1?,王文進2
(1.重慶市勘測院,重慶 400020; 2.重慶建筑工程職業學院,重慶 400072)

隨著遙感技術的發展,多光譜和高分辨率遙感已成為重要發展趨勢。這對分類方法提出更高要求,也增加了難度,特別在精細分類實踐應用中,相似地物間性狀差異較小,同物異譜、同譜異物現象普遍存在。本文以美國印第安納州地區高光譜影像(AVIRIS影像)和武漢九峰地區高分辨率影像(Quickbird影像)為研究對象,利用交叉驗證的方法進行參數估計,分別采用支持向量機(Support Vector Machine,SVM)和留一驗證法(Leave-One-Out Cross Validation,LOOCV)對影像進行分類,并根據實地調查數據估計精度,實驗結果顯示出該方法有較高精度和良好效果。

高光譜;高分辨率;SVM;LOOCV;交叉驗證

1 引 言

遙感影像可以真實地反映一定區域范圍內的地物信息。隨著遙感技術的發展,對地觀測技術不斷提高,高光譜和高分辨率遙感已成為重要發展趨勢。傳統的多光譜遙感以其較高的光譜分辨率和空間分辨率可以在一定程度上識別和區分地物類別,但難以滿足精細分類的需要,尤其單景多光譜影像幾乎達不到精細分類的目的。高光譜遙感是20世紀80年代發展起來的重要技術,具有前所未有的光譜分辨率,使圖譜合一成為現實,也使基于遙感影像的精細分類成為可能。高分辨率遙感一般指空間分辨率在 10 m以內的遙感影像[1]。它具有豐富的空間信息,地物幾何結構和紋理信息更加明顯,更便于認知地物目標的屬性特征[2]。高分辨率遙感的出現使得植被類型判讀的精度大大提高[3]。

傳感器技術的發展增加了人們對地物識別的需求,尤其體現在精細程度上,這不僅對分類方法提出更高要求,也增加了分類難度。特別地,在精細分類實踐應用中,相似地物間性狀差異較小,同物異譜、同譜異物現象普遍存在,且人工選取樣本具有一定的局限性,會帶來樣本不純凈、樣本數量不足、樣本偏斜等問題。在這種情況下,傳統分類器的性能降低,其原因主要有兩方面:一是分類器的模型框架自身存在缺陷;二是分類器參數選擇不合理。

本實驗利用統計增強的思想,在訓練樣本訓練分類器的過程中,采用交叉驗證的方法,估計分類器的參數,并利用高光譜影像和高分辨率影像分別做了實驗,實驗結果表明該方法可以較好地估計分類器的參數,并具有一定的普適性。

2 交叉驗證方法介紹

交叉驗證(Cross Validation,CV)方法多用來驗證模型或分類器的性能,是一種統計分析的方法?;舅枷胧前岩阎獢祿驑颖具M行分組,一部分作為訓練集,另一部分作為測試集。首先利用訓練集訓練模型或分類器,再把模型或分類器應用到測試集,來驗證訓練好的模型或分類器,交替進行,以平均性能指標作為評價模型或分類器的標準。

常見的交叉驗證方法主要有兩種:

(1)K折交叉驗證(K-fold Cross Validation)

把原始數據平均分成K份,每一份輪流作為測試集,其余(K-1)份作為訓練集,這樣得到K個模型或分類器,利用K個模型或分類器對與其對應的K個測試集的驗證精度的平均值及均方根誤差等,作為分類器的性能指標。K值是根據數據量大小和應用需求確定的,一般大于2。

(2)留一法交叉驗證(Leave-One-Out Cross Validation,LOOCV)

LOOCV是K-fold的極限情況,假設樣本數量為n,那么K=n,即每一個樣本單獨作為測試集,其余所有樣本作為訓練集,各個測試集的驗證精度作為分類器的性能指標。該方法優點是訓練的模型或分類器更適應樣本的分布,結果可靠;缺點是計算成本高,在訓練樣本數量非常多時,會消耗計算時間。

在每次交叉驗證中采用不同的模型或分類器參數,平均精度最高的交叉驗證結果所對應的參數就是最佳參數。

? 收稿日期:2015—12—17

作者簡介:張俊前(1981—),男,高級工程師,主要研究方向為航測與遙感。

基金項目:住房城鄉建設部2015年科學技術項目(2015-K8-009)

3 分類算法概述

3.1 SVM

支持向量機(SVM)是一種建立在結構風險最小化原則(Structural Risk Minimization,SRM)[4,5]和VC維(Vapnik-Chervonenkis Dimension,VC)理論基礎上的學習機,它在解決小樣本、非線性和高維模式識別問題中有較大優勢。

SVM的基本公式是:

約束條件:

引入拉格朗日乘子αi,問題轉化為:

約束條件:

求解此二次優化問題(求解過程略)得到w,b,分類函數為:

對于線性不可分的情況,引入松弛變量ξi,目標函數轉化為:

約束條件:

C被稱為懲罰系數,反映了算法的復雜性和松弛性之間的平衡度。

對于非線性可分的情況,還可利用核函數:

K(x,x)=φ(x)φ(x)(8)

把數據映射到高維特征空間,在高維特征空間中建立超平面,φ(x)表示向量x的某種非線性變換。分類函數變為:

核函數可以有多種形式,包括徑向基核函數(Radial basis function,RBF):exp(-g?|u-v|^2);Sigmoid核函數:tanh(r?u′?v+coef);線性核函數(linear): u′?v;多項式核函數(Polynomial):(g?u′v+coef)^ degree。根據不同情況可選擇不同核函數及參數,目前對于核函數的選擇仍沒有明確的指導原則。

3.2 留一法協方差估計

在高維數據的應用中,當訓練樣本數量不足時,高斯概率密度函數難以描述樣本分布,尤其當樣本數與數據維數相當或小于后者時,會導致協方差矩陣近似奇異或奇異。由中心極限定理得知,當樣本數趨近于無限大時,高斯概率密度函數才服從正態分布,從而使得經典最大似然法分類失效,為了消除這種統計估計誤差,需要對協方差矩陣進行有效估計。留一法協方差估計含有4個參數:類別協方差矩陣、總體協方差矩陣以及兩者的對角陣,采用分段兩兩組合的方法進行優化,來判斷何種組合更適合此數據集。

(1)協方差估計形式

協方差估計具有如下形式:

αi的取值意義如下:

0:類別中各個特征之間不相關,不同類的協方差矩陣不同;

1:類別中各個特征之間相關,不同類的協方差矩陣不同;

2:類別中各個特征之間相關,不同類的協方差矩陣相同;

3:類別中各個特征之間不相關,不同類的協方差矩陣相同;

其他:兩種分布的混合。

其中,αi取1時,就是最大似然法分類器的默認參數。

(2)留一法協方差估計

參數αi的估計是由留一法交叉驗證得到的,具體過程如下:

①去除一個樣本,利用剩余樣本估計均值向量和協方差矩陣,見式(11):

其中i|k表示第i類中去除了樣本k。

②利用①中得到的均值向量和協方差矩陣計算該去除的樣本的log似然值,每一個樣本輪流替換,并計算平均log似然值:

③αi從0~3變化,使平均log似然值最大的αi為其最終估計值。αi確定后,我們可以利用完整的樣本集完成協方差的估計,見式(10)。最終的結果可以應用在最大似然分類器(Maximum Likelihood Classification,MLC)中。

4 基于交叉驗證的遙感影像精細分類

4.1 實驗數據

(1)Indian Pine數據集(高光譜)

Indian Pine數據集是由 Airborne Visible/Infrared Imaging Spectrometer(AVIRIS)機載高光譜成像傳感器獲取的美國印第安納州影像。該影像空間分辨率為20 m,數據大小為145×145像元,包含400 nm~2 500 nm共220個波段。該數據集被分為12個類別,共 10 171個有標記像素點,主要覆蓋農作物和樹木等農業用地,是最常見的標準數據集之一。本實驗中去掉水汽吸收嚴重和噪聲較大的波段,共選取158個有效波段。

AVIRIS影像信息 表1

Indian Pine 數據集地面實況數據分布 表2

圖1 Indian Pine數據集影像

(2)九峰地區Quickbird(快鳥)影像(高分辨率)

九峰森林保護區占地333公頃,擁有植被580多種,其中喬木200余種,整個保護區林木綠化率達63.2%,林種配置合理,具有武漢地區最豐富的森林資源。

Quickbird影像多光譜星下點分辨率為 2.44 m,包括藍、綠、紅、近紅外4個通道,如表3所示。本文所采用九峰地區的Quickbird原始影像為 2 439×5 837,根據實驗需要,截取其中物種相對集中和多樣的800× 800區域作為實驗區域。該區域覆蓋8類地物,包括水、針葉闊葉混交林、針葉林、闊葉林、耕地、荒山、苗圃以及工業用地。

Quickbird影像光譜波段 表3

圖2 九峰地區彩色合成快鳥影像

4.2數據預處理

針對高光譜影像預處理,本文采用了基于流形學習的降維方法。流形學習是21世紀開始在模式識別領域興起的一種非線性特征提取方法。該方法以微分幾何學中的黎曼流形為基礎,從高維樣本數據空間中找到低維流形結構,該方法是基于數據分布的特征提取方法,適應性要強于基于模型的方法,如主成分分析(Principal component analysis,PCA)、最小噪聲分離變換(Minimum Noise Fraction Rotation,MNF Rotation)等。流形學習最具代表性的兩種算法是等角特征映射算法(Isomap)[6]和拉普拉斯特征映射算法(Laplacian Eigenmaps)[7],本文采用精度較高的等角特征映射算法進行數據降維。

對具有220個波段的AVIRIS高光譜影像,去掉水汽吸收嚴重和噪聲較大的波段,保留其中158個波段。對其采用等角特征映射算法進行降維處理,保留10個特征,作為分類的輸入。

4.3 分類實驗

(1)高光譜影像分類

對Indian Pine數據集采用SVM和LOOCV算法分類。對于SVM分類器,分別選用徑向基(Radial basis function,RBF)和多項式(Polynomial)兩種核函數做了實驗。我們選取的訓練樣本數占有效像素的10%,將全部樣本(有標記像素點)平均分成10份,選取其中1份作為訓練樣本,其余作測試樣本,輪流實驗,取平均精度為最終分類精度。

基于交叉驗證的分類器參數優化過程是在訓練樣本中進行的,即將樣本平均分成5份,其中4份做訓練,1份做測試,交替實驗。這一過程是在分類器參數不斷變化中進行的。5次交叉驗證的最高平均精度所對應的分類器參數將被應用到全部測試樣本中,我們認為這組參數是適合此分類問題的。

對于徑向基核函數,實驗中默認參數degree為2,只對其余3個參數估計,且范圍相對較小,步長相對較大,這是因為參與估計的參數增加會消耗巨大的計算時間;對于LOOCV算法,只列出單次實驗的參數估計情況,其總體精度為67.9677%。

分類精度和參數估計情況如表4~表6所示。

通過比較實驗結果,對于SVM分類器RBF精度略高于POLYNOMIAL,而且更穩定,不過POLYNOMIAL核函數的參數多,估計范圍較小,步長較大,會影響精度;LOOCV精度最低。從參數估計表中可以明顯看出,對于任意帶參分類器,訓練樣本不同,引起的最佳分類器參數的變化是很大的,而不是固定不變的。

SVM-RBF分類精度表 表4

SVM-POLYNOMIAL分類精度表 表5

LOOCV參數估計表(單次實驗) 表6

(2)高分辨率影像分類

對九峰地區的Quickbird影像,所采用的分類器為SVM,核函數為 RBF。我們結合實地調查資料和GOOGLE地圖,人工從影像上選擇 6 773個訓練樣本,精度的評定是在樣本集中進行的,隨即選取其中20%的樣本做測試,其余樣本作為訓練樣本,實驗得到精度如表7所示。

分類精度/混淆矩陣(最優C=9;最優g=0.11) 表7

圖3 截取九峰地區精細分類效果圖

從實驗結果中可以看出,總體上達到較高的精度,即使去除精度類別精度較高的水體和工業用地,僅針對植被,精度也達到了82.74%;值得一提的是闊葉林的類別精度較高,用戶精度和制圖精度分別為98.3%和97.2%;不過耕地、荒山、苗圃之間錯分率較高。本實驗區域的混交林中針葉林占的比重較高,混交林和針葉林混雜程度也較高,這是造成錯分現象的一重要原因。

4 結 語

本文利用交叉驗證的思想,分別采用支持向量機和留一交叉驗證法對高光譜和高分辨率遙感影像分類,達到較高精度和良好效果。從實驗結果中不難得出結論,在大多遙感影像精細分類的實踐中,我們利用訓練樣本訓練分類器,僅訓練得到其未知參數(如SVM中w、b,MLC中的均值和方差)是不夠的,對固定參數(如SVM中的懲罰系數和MLC中的混合系數)的估計是提高分類精度的重要途徑。

此外,對高分辨率影像的實驗只是在光譜上進行的,沒有加入紋理信息,而紋理特征在高分辨率影像上是較為顯著的,光譜與紋理等輔助信息的結合是下一步研究的重點之一。

隨著遙感傳感器和植被精細分類技術研究的深入,我們需要在已有植被分類體系的基礎上,建立一個全新的、面向遙感的植被精細分類體系,體系的構建可以對可分性提供預測,指導分類方法的選擇,為植被精細分類問題提供依據。

[1]文沃根.高分辨率IKONOS衛星影像及其產品的特性[J].遙感信息,2001(1):37~38.

[2]杜鳳蘭,田慶久,夏學齊等.面向對象的分類方法分析與評價[J].遙感技術與應用,2004,19(1):20~23.

[3]陳君穎,田慶久.高分辨率遙感植被分類研究[J].遙感學報,2007,11(2):221~227.

[4]Vapnik VN.Statistical Learning Theory[M].NY:Springer,1998:732.

[5]Vapnik VN.The Nature of Statistical Learning Theory[M]. NY:Springer,2000(3).

[6]J.B.Tenenbaum,V.de Silva,J.C.Langford.A Global Geometric Framework for Nonlinear Dimensionality Reduction[J]. Science,2000,290(5500):2319~2323.

[7]Mikhail Belkin,Partha Niyogi.Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering[C].Boston:MIT Press,2001:586~691.

[8]Jan Tigges,Tobia Lakes,Patrick Hostert.Urban vegetation classification:Benefits of multitemporal RapidEye satellite data[J].Remote Sensing of Environment,2013,136:66~75.

[9]周源,方圣輝,李德仁.利用光譜角敏感森林的高光譜數據快速匹配方法[J].武漢大學學報·信息科學版,2011,36(6):687~690.

The Research of Remote Sensing Image Fine Classification Based on Cross Validation

Zhang Junqian1,Wang Wenjin2
(1.Chongqing survey institute,Chongqing 400020,China;
2.Chongqing vocational college architectural engineering,Chongqing 400072,China)

With the development of remote sensing technology,the remote sensing of multispectral and high resolution has become an important development trend.This put forward higher requirements on the classification method,also increased the degree of difficulty.Especially in the fine classification practice,there is similarly small difference between objects.Synonyms spectrum and foreign body in the same spectrum are common phenomenon.In this pater,we took hyperspectral image of Indian Pine and high resolution image of Jiufeng Wuhan as research objects.We used cross validation methods to estimate parameters of classifiers,and applied Support Vector Machine(SVM)and Leave-One-Out Cross Validation(LOOCV),approach to AVIRIS and Quickbird Images.Field survey data was used to estimate the accuracy which showed high accuracy and good effect.

hyperspectral;high resolution;SVM;LOOCV;cross validation

1672-8262(2016)02-88-06中圖分類號:P236

A

猜你喜歡
高分辨率協方差分類器
高分辨率合成孔徑雷達圖像解譯系統
用于檢驗散斑協方差矩陣估計性能的白化度評價方法
基于實例的強分類器快速集成方法
多元線性模型中回歸系數矩陣的可估函數和協方差陣的同時Bayes估計及優良性
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
二維隨機變量邊緣分布函數的教學探索
不確定系統改進的魯棒協方差交叉融合穩態Kalman預報器
高分辨率對地觀測系統
基于Curvelet-Wavelet變換高分辨率遙感圖像降噪
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合