?

基于稀疏MK-LSSVM的高光譜圖像不平衡分類

2016-08-16 05:58晁拴社楚恒
城市勘測 2016年2期
關鍵詞:訓練樣本光譜聚類

晁拴社,楚恒

(1.重慶郵電大學,重慶 400065; 2.重慶市勘測院,重慶 400020)

基于稀疏MK-LSSVM的高光譜圖像不平衡分類

晁拴社1,2?,楚恒1,2

(1.重慶郵電大學,重慶 400065; 2.重慶市勘測院,重慶 400020)

針對高光譜圖像分類中沒有考慮高光譜數據地物種類復雜、數據規模較大以及樣本分布不規則而導致的少數類分類精度較低,分類器魯棒性差的問題,提出一種基于稀疏多核最小二乘支持向量機(Multiple Kernel Least Squares Support Vector Machine,MK-LSSVM)的高光譜圖像不平衡分類方法。該方法先用k均值聚類將多數類的訓練樣本分為k類,然后利用采樣技術對每一群組中的樣本進行處理與少數類樣本均衡,最后建立最MK-LSSVM分類器。該方法對于MK-LSSVM不稀疏的問題,引入了壓縮感知理論對其進行稀疏求解。實驗表明本文提出的分類方法提高了少數地物的分類精度,同時減少了標準支持向量機訓練樣本時間消耗大的問題。

高光譜圖像;不平衡分類;稀疏MK-LSSVM;壓縮感知

1 引 言

高光譜圖像(Hyperspectral Image,HSI)數據有著豐富的光譜信息,可以對地物進行精細的光譜分類,所以近年來被應用在軍事勘察、礦業勘測、醫學檢測等多個領域[1]。由于傳統的高光譜圖像分類方法沒有考慮不平衡分類問題,即沒有考慮少數類(像素點少的地物類別)與多數類(像素點多的地物類別)在分類上的不同,從而導致少數類分類精度不高的問題[2]。目前針對不同地物類別中像素點數差距較大即數據不平衡的分類問題主要有兩種方法:一種是利用合適的采樣技術對訓練樣本進行預處理。采樣技術分為欠采樣和過采樣技術,欠采樣技術主要是隨機欠采樣方法,過采樣技術主要運用的是少數類樣本合成過采樣技術(Synthetic Minority Over Sampling Teachnique,SMOTE);另一種就是設計新的分類方法來解決數據的不平衡分類問題。支持向量機(Support Vector Machine,SVM)是目前解決Hughes現象最有效的分類方法[3],而且在解決高維、小樣本分類問題上有很好的分類性能。LSSVM[4]是1999年Suykens提出的一種新的支持向量機,將最小二乘線性系統引入到支持向量機中代替傳統的支持向量機直接采用二次規劃方法解決分類與函數估計問題[5],簡化了標準支持向量機的計算復雜性,適合于處理較大規模的學習問題。但也丟失了標準SVM的稀疏性,使得LSSVM分類平面上的支持向量個數增多,計算復雜度變大。2010年,Jie Yang,Abdesselam Bouzerdoum等[6]提出將壓縮感知理論來解決最小二乘支持向量機的欠稀疏性問題。

本文結合采樣技術和MK-LSSVM來解決高光譜圖像的不平衡分類問題。先用k均值聚類將多數類的訓練樣本分為k個群組,對聚類后的k個群組與少數類樣本數作比較,對聚類后樣本數多的群組采用隨機欠采樣技術,對聚類后樣本數少的群組采用SMOTE過采樣,然后訓練分類器進行高光譜圖像的分類。針對高光譜數據分類中的不平衡問題,提出基于稀疏MLLSSVM分類模型,不僅節省了訓練樣本時間、提高了少數類地物分類精度,而且也使得部分多數類地物的分類精度有所提高。

2 LSSVM

SVM集成了結構風險最小化、凸二次規劃和核函數映射等幾項技術,有效解決了在經典機器學習中出現的“維數災難”,但同時SVM計算復雜度高的缺點。LS-SVM采用最小二乘線性系統作為損失函數,簡化了標準支持向量機的計算復雜性,適合于處理較大規模的學習問題.最小二乘支持向量機高光譜分類模型可表示為:

(1)

? 收稿日期:2015—12—04

作者簡介:晁拴社(1989—),男,碩士研究生,主要研究方向:高光譜圖像的分類、機器學習。

基金項目:重慶市博士后科研項目(Rc201336)

其中K(xi,xj)=φ(xi)φ(xj),α?i,b?為(3)式中α 和b的最優解。

3 基于稀疏ML-LSSVM的不平衡分類

本文考慮到高光譜圖像數據中多數類與少數類的訓練樣本數差距過大,在進行訓練之前先對訓練樣本進行預處理。利用SMOTE技術對少數類樣本進行過采樣,然后對預處理后的樣本訓練ML-LSSVM分類器,再利用奇異值分解設計一種新的觀測矩陣并對原稀疏的ML-LSSVM分類模型進行改進,最后利用改進的稀疏的ML-LSSVM分類模型對測試樣本進行分類。

3.1 預處理訓練樣本

傳統的高光譜分類方法沒有考慮少數類與多數類在分類上的不同,以LS-SVM為例,為了減少訓練誤差和增強LS-SVM的泛化能力一般就需要合理的設置式(1)中的C值(懲罰系數)使得在訓練誤差合理的范圍內獲取最大的分類間隔(即泛化能力)。但是因為高光譜數據存在不平衡分類問題,使得C值的設置失去意思,所以本文首先將訓練樣本中的多數類k均值聚類分為m個群,第二部分是對聚類后的k個群組與少數類樣本數作比較,對聚類后樣本數多的群組采用隨機欠采樣技術,對聚類后樣本數少的群組采用SMOTE技術。SMOTE方法主要思想是在距離較近的少數類樣本之間進行插值,產生新的少數類樣本,增加少數類樣本的數目[7],從而提高少數類樣本的分類精度,這里的少數類特指多數類聚類后樣本少的群組。設xi為少數類的樣本,選擇其近鄰的k個樣本,按照式(4)合成新的少數類樣本點yi。

random(0,1)表示區間(0,1)之間的任意數,將新合成的樣本添加到原有的少數樣本中以均衡訓練樣本集,然后建立稀疏MK-LSSVM分類模型。

3.2 稀疏MK-LSSVM分類器

為了避免SVM模型中的凸優化問題,本文采用了LSSVM分類方法,但同時也失去了SVM稀疏性特點,使得計算復雜度增加。所以本文提出稀疏MK-LSSVM分類模型進行高光譜圖像分類。由上文可知最小支持向量機模型的分類函數中只需要求出α和b便可,已知對w,b求偏微分并令它們等于0,得到約束條件:

帶入式(2)也可求出ξi值,所以可以將式(2)寫為線性矩陣的形式:

結合上文可知,稀疏LS-SVM分類模型問題轉化為利用壓縮感知來重構信號的問題。信號的重構是壓縮感知理論的核心,E.cande等證明了信號重構問題可以通過求解最小l0范數問題加以解決[9,10]。在信號X稀疏或者可壓縮的前提下,求解欠定方程組y=ΦX的問題轉換為最小0范數問題[8]。如式(11)所示:

如果直接用貪婪算法對式(11)求解時,因為N太大,計算過于復雜,這時可由壓縮感知的第二部分觀測矩陣的設計來減少計算量,通過保證采樣得到M個觀測值,并保證從中能重構出長度為N的信號??梢越o左右兩邊同時乘以采樣矩陣(觀測矩陣)Φ。觀測矩陣Φ∈RM×N(M<<N)是用來對N維的原信號進行觀測得到M維的觀測向量y,然后可以利用最優化方法從觀測值y中高概率重構X。對比式(4)可將其化為:

分類中效果較好的徑向基核。LSSVM的分類性能受核函數的選擇、參數的設置的影響,對樣本分布不均衡的高光譜圖像分類問題表現一般,特別是對少數類地物的分類效果很差,而且分類模型的魯棒性較差導致有時部分多數類分類精度也會很低,所以本文利用MK-LSSVM來代替單核LSSVM以解決高光譜圖像的地物種類復雜、數據規模較大以及樣本分布不規則的而導致的少數類分類精度較差。利用MK-LSSVM來代替單核LSSVM以解決高光譜圖像的地物種類復雜、數據規模較大以及樣本分布不規則的而導致的少數類分類精度較差,分類器魯棒性差的問題。與第1部分式(1)的化簡過程相同引入拉格朗日乘子,對其求偏微分計算出新的約束條件,最終化簡為對偶的形式:

利用LSSVM分類模型中求出α值并固定,則J (d)對dm的微分為:

利用梯度下降算法對多核系數進行最優求解。γt為更新步長,可通過一維線性搜索計算得到,Dt為梯度下降方向。通過迭代求出最優dm。

然后將其在帶入到式(7)通過貪婪算法比如正交匹配追蹤算法(Orthogonal Matching Pursuit,OMP)對式(7)求解[6]。

3.3 設計新的觀測矩陣

由上文可知稀疏MK-LSSVM分類模型,但是對于稀疏基和觀測基沒有做討論。已知稀疏基,設計新的合適的觀測矩陣對分類模型至關重要。

如果稀疏基和觀測基不相關,則很大程度上保證了RIP性[9]。CandeS和Tao等證明:獨立同分布的高斯隨機測量矩陣可以成為普適的壓縮感知測量矩陣(即觀測矩陣)。同時當觀測矩陣Φ與稀疏基矩陣Ψ相干性越小,則所需的訓練樣本數越少。一般選取隨機高斯矩陣為觀測矩陣[10~12],受主成分分析啟發本文對稀疏基矩陣Ψ進行奇異值分解(Singular Value Decomposition,SVD)Ψ=UΛV,選取前P個奇異值(按大小排列),計算求得對應的UP,轉置得到,令作為觀測矩陣Φ,由稀疏基矩陣Ψ推出的觀測矩陣Φ與其必不相關。令B=Φ?Ψ,計算均方根誤差(IN-BTB的F范數),有實驗已表明采用作為測量矩陣的均方根誤差比隨機高斯矩陣的均方根誤差(即F范數)更小,所以將作為觀測矩陣。與之前的隨機高斯矩陣相比,結合稀疏基矩陣Ψ與新的觀測矩陣使用相同的訓練樣本的稀疏MK-LSSVM具有更好的泛化能力,使得高光譜圖像的分類精度更高。

本文提出稀疏ML-LSSVM分類器來解決高光譜圖像的分類問題,并且通過稀疏基來設計新的觀測矩陣,用于在解決高光譜圖像的地物種類復雜、數據規模較大以及樣本分布不規則的而導致的少數類分類精度較差,分類器魯棒性差的問題。

4 實驗與分析

4.1 實驗

本文實驗采用1992年AVIRIS采集印第安納州西北部的 Indian pines高光譜數據,數據大小、220個波段,去除由于噪聲和水汽吸收的20個光譜波段,一般有16種地物覆蓋類型。將每一類的10%作為標記樣本用作訓練共有 1 043個,剩下的90%用作測試。如表1所示,苜蓿、收割牧地、燕麥地的訓練樣本只有幾個,而大豆略耕地的訓練樣本有幾百個,出現不平衡分類問題。多核SVM分類的參數主要包括懲罰系數C、高斯核參數σ從此以及多核權系數dm。在分類時需要預先設置,在本文的實驗中,權系數的初始值設置為1/M,M為基核函數個數,C的取值范圍設置為{10-4,10-3…,104},利用簡單多核學習工具箱SimpleMKLtoolbox通過梯度下降法選擇最優dm相對應的核參,C值可通過訓練樣本的交叉驗證獲得,最優值為100,權系數的初始值設置為1/M,M為基核函數個數即不同核函數對應核參數個數總和。本文主要比較LSSVM 和ML-LSSVM以及本文提出的稀疏ML-LSSVM 3種方法的分類精度、總體分類精度(Over Accurary,OA)以及各方法的訓練時間、Kappa系數等。

每一類別地物的訓練樣本個數 表1

3種分類方法分類精度、訓練樣本時間 表2

續表2

因為本文提出的方法比傳統的高光譜圖像分類方法考慮了不平衡分類問題以及高光譜圖像的地物種類復雜、數據規模較大以及樣本分布不規則等問題。所以本文首先對多數類預處理,k均值聚類然后對每個類進行采樣使其與少數類均衡,然后訓練分類器,并且利用稀疏化MK-LSSVM對高光譜圖像進行分類。由實驗結果可知LSSVM,MK-LSSVM和本文方法對于少數類苜蓿的分類精度分別為36.84,82.86和87.50;收割牧地的分類精度為68.33,80.00和86.05;燕麥地的分類精度為52.75,81.04和86.16,而且如圖1黑框/黑橢圓所示本文方法很明顯地提高了少數類分類精度。部分多數類地物的精度也有部分提高如表2黑色標注所示,訓練樣本時間本文方法較LSSVM和MKLSSVM分類方法分別減少171.21(s),291.68(s)。Kappa系數本文提出的分類方法達到0.885高于LSSVM分類的0.736和MK-LSSVM分類的0.807。通過迭代5次,分析聚類個數k對高光譜圖像不平衡分類的影響當聚類個數8時總體分類精度趨于穩定。實驗結果表明本文提出的分類方法提高了少數類地物的分類精度,同時也提高了部分多數類地物的分類精度以及減少了支持向量機訓練樣本時間消耗大的問題。

圖1 Indian Pines的真實地物圖和各分類方法的分類結果

4 結 語

本文提出新的稀疏MK-LSSVM分類方法解決高光譜數據的不平衡分類問題,先將多數類k均值聚類,然后待聚類結束后比較少數類與k個多數類群組的樣本數,對樣本數多于少數類的群組進行欠采樣,反之進行過采樣,最后由處理后的樣本訓練MK-LSSVM模型并且對其進行稀疏。實驗表明本文提出的分類方法提高了少數類地物的分類精度,同時解決了支持向量機計算復雜運算速度慢的缺點。盡管不平衡高光譜分類問題可以提高少數類的分類精度,但是也會使一些多數類分類精度有所降低,在接下來的研究中可以聯合光譜和空間信息進行高光譜數據的分類。

[1]杜培軍,譚琨,夏俊士.高光譜遙感影像分類與支持向量機應用研究[M].北京:科學出版社,2012.

[2]Japkowicz N,Stephen S.The class imbalance problem:A systematic study[J].Intelligent data analysis,2002,6(5):429~449.

[3]Melgani F,Bruzzone L.Classification of hyperspectral remote sensing images with support vector machines[J].Geoscience and Remote Sensing,IEEE Transactions on,2004,42(8):1778~1790.

[4]Suykens J A K,Vandewalle J.Least squares support vector machine classifiers[J].Neural processing letters,1999,9 (3):293~300.

[5]Wu L,Feng Q,Zhang K.Classification of remote sensing image using improved LS-SVM[C].Proc 4th IEEE Conf Photonics and Optoelectronics(SOPO).ShangHai:IEEE Press,2012:1~4.

[6]Yang J,Bouzerdoum A,Phung S L.A training algorithm for sparse LS-SVM using compressive sampling[C].Proc 35th IEEE Conf Acoustics Speech and Signal Processing(ICASSP).Texas:IEEE Press,2010:2054~2057.

[7]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of artificial intelligence research,2002:321~357.

[8]石光明,劉丹華,高大化等.壓縮感知理論及其研究進展[J].電子學報,2009,37(5):1070~1081.

[9]CANDES E,TAO T.Never optimal signal recovery from ran-dom projections:Universal encoding strategies[J].IEEE Transaction on Information Theory,2006,52(12):5406~5425.

[10]瞿廣財,張淑芬,呂衛等.基于圖像分塊的Toeplitz結構測量矩陣設計[J].計算機工程,2012,38(16):212~ 214.

[11]史久根,吳文婷,劉勝等.基于壓縮感知的圖像重構算法[J].計算機工程,2014,40(2):229~232.

[12]鄒偉,李元祥,楊俊杰等.基于壓縮感知的人臉識別方法[J].計算機工程,2012,38(24):133~135.

The Imbalanced Hyperspectral Image Classification Based on Sparse MK-LSSVM

Chao Shuanshe1,2,Chu Heng1,2
(1.Chongqing University of Post and Telecommunication,Chongqing 400065,China;2.Chongqing Survey Institute,Chongqing 400020,China)

Aiming at the problem that the low classification accuracy of minority classes in classification of complex hyperspectral imagery data,this paper proposed an imbalanced classification method based MK-LSSVM.Firstly,to keep the same size between the minority class and the majority class,this method partitions the majority class into different groups with k-means clustering.After clustering,the proposed method apply sampling techniques to balance every group and minority classes.At last,build MK-LSSVM classifiers and Hyperspectral Image Classification.For the MK-LSSVM model is not sparse,the compressive sensing theory can be introduced to solve this problem.Experimental result on real HIS dataset show that our method can effectively improve the classification accuracy for the minority classes in the imbalance dataset and reduce the consumption time when training model.

hyperspectral Image;imbalance classification;sparse MK-LSSVM;compression sensing

1672-8262(2016)02-69-05中圖分類號:TP751.1

A

猜你喜歡
訓練樣本光譜聚類
基于三維Saab變換的高光譜圖像壓縮方法
人工智能
基于K-means聚類的車-地無線通信場強研究
基于高斯混合聚類的陣列干涉SAR三維成像
寬帶光譜成像系統最優訓練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識別算法
基于稀疏重構的機載雷達訓練樣本挑選方法
基于Spark平臺的K-means聚類算法改進及并行化實現
基于改進的遺傳算法的模糊聚類算法
星載近紅外高光譜CO2遙感進展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合