?

基于PCA與t-SNE特征降維的城市植被SVM識別方法

2020-01-13 09:59于慧伶霍鏡宇張怡卓
實驗室研究與探索 2019年12期
關鍵詞:維空間降維特征提取

于慧伶, 霍鏡宇, 張怡卓, 蔣 毅

(1.東北林業大學 a.信息與計算機工程學院; b.機電工程學院,哈爾濱 150040; 2.黑龍江省計算中心,哈爾濱 150001)

0 引 言

城市植被是城市平衡、協調發展的重要組成部分,對構建生態城市起著舉足輕重的作用。近年來,隨著高光譜技術的發展,高光譜技術已經廣泛地應用于城市植被的精確獲取和動態監測[1]。高光譜圖像具有數據量大、數據維數高和數據冗余性強等特點[2]。如果直接對獲取的用于城市植被提取的高光譜圖像數據進行分類,龐大的數據量不僅會影響運行的速度,也會降低分類器的泛化能力,影響分類的精度,從而無法得到理想的分類結果[3]。高光譜圖像分類常常需要先進行數據降維等預處理操作[4]。

目前,高光譜圖像降維主要分為線性降維和非線性降維兩類。線性降維主要包括主成分分析法(Principal Component Analysis,PCA)和線性判別式分析(Linear Discriminant Analysis,LDA)及相應的改進算法等[5]。非線性降維主要包括局部線性嵌入算法(Locally Linear Embedding,LLE)和等距離映射算法(Isometric Mapping,Isomap)及相應的改進算法等[6]。白楊等[7]提出了一種改進的K2DPCA方法,但這種方法需要較多的主成分來重新構建原始的高光譜圖像,降維效果并不理想。張鵬強等[8]提出了基于核半監督判別分析的方法,在訓練樣本較少的情況下可以將特征空間中的樣本數據更好地聚類,但是在訓練樣本較多的情況下,該算法的分類精度不是很高。楊磊等[9]利用基于流形學習的非線性降維算法對高光譜圖像進行特征提取,實驗結果表明,Isomap算法降維時間較長,LLE和拉普拉斯特征映射算法(Laplacian Eigenmaps,LE)需要更多的特征波段才能得到較好的分類效果。吳東洋等[10]對于高光譜圖像降維和分類提出了多流形LE算法,但在度量同一類之間的權值時不準確。

流形學習中的t-分布式隨機鄰域嵌入算法(t-Distributed Stochastic Neighbor Embedding,t-SNE)是可以用來可視化數據降維的一種方法[11]。該算法不僅能將流型上的附近點映射到低維表示中的附近點,還能保留所有尺度的幾何形狀,即將附近的點映射到附近的點,將遠處的點映射到遠處的點,但是該算法內存占用大,運行時間較長。如果在保持基本上不丟失信息的前提下,先利用PCA算法對高光譜圖像進行初步的降維,然后再利用t-SNE算法進行二次降維處理,可以提高運算效率。本文將PCA與t-SNE降維方法融合用于城市植被信息提取的高光譜圖像降維,然后利用支持向量機(Support Vector Machine,SVM)分類,完成對城市植被分布信息的精準獲取。

1 研究方法

1.1 基于PCA的高光譜圖像降維

PCA可以將原始的高光譜圖像從多個波段轉化為少數幾個具有綜合性的波段,盡可能去除波段之間的相關性[12],減少波段的數目,從而實現高光譜圖像的降維處理。

給定高光譜圖像的樣本數為m,波段數目為n,可以用矩陣X來表示此m×n個數據。

(1)

式中,xmn代表第m個樣本中第n個波段的數值。

通過對X進行標準化得到矩陣A;接著,計算A的協方差矩陣R;計算協方差矩陣R的特征值以及相應的特征向量和確定所要降到的低維空間的維數w,從而輸出所要的主成分。

1.2 基于t-SNE的高光譜圖像降維

t-SNE算法是一種利用概率進行降維分析的方法[13],它將高維空間中任意兩個數據點間的歐氏距離轉換為相似概率,并且用高維空間數據點和對應低維空間模擬的數據點之間的聯合概率代替了隨機鄰域嵌入算法(Stochastic Neighbor Embedding,SNE)中的條件概率,從而解決SNE算法中不對稱的問題[14]。另外,該算法在低維空間中采用t分布,t分布是一種典型的長尾分布,可以使高維度下中低等距離的數據點在映射后有一個較大的距離,從而有效解決低維空間中數據點擁擠的問題。

對于給定高光譜圖像數據X是m行n列的矩陣,它的另一種表現形式{x1,x2,…,xs,…,xm}。式中,xs=[xs1,xs2,…,xsn],s=1,2,…,m。

步驟1計算n維空間下高光譜圖像聯合概率pef。

n維空間的數據點{x1,x2,…,xs,…,xm}兩兩之間的相似條件概率pe|f和pf|e:

(2)

(3)

式中,σe是以數據點xe為中心的高斯分布的方差。

高維空間聯合概率可以表示為:

(4)

步驟2計算低維空間下高光譜圖像聯合概率qef。

因為t-SNE算法在低維空間采用的是t分布,自由度為1,低維空間的數據點{z1,z2,…,zm}之間的聯合分布qef可以表示為

(5)

步驟3計算pef和qef之間的KL散度,將其設為目標函數C,即:

(6)

步驟4用目標函數C對輸入數據對應的低維表達式進行求導,如式(7)所示,并把該低維表達式作為可優化變量進行尋優,得到輸入值在低維空間內的最佳模擬點。

(7)

步驟5為了獲得最小的C,可以對原始數據進行多次的迭代運算,通過不斷調整迭代次數n_iter、學習率learning_rate,降低結果的誤差。

步驟6定義困惑度perplexity。

由步驟1可知,σe是以數據點xe為中心的高斯分布的方差,任何特定值σe在所有其他數據點上都會誘發概率分布Pe。該分布會隨著σe的增加而增加。t-SNE算法使用困惑度perplexity的概念,用二分搜索的方式尋找一個最佳的σe。其中困惑度定義為:

Perp(Pe)=2H(Pe)

(8)

式中,H(Pe)是以比特字節測量的香農熵,

(9)

perplexity是控制擬合的主要參數,會影響高維空間中高斯分布的復雜度,所以需要不斷調整perplexity的大小,輸出最優的降維結果。

1.3 SVM

SVM的基本思想是尋找一個分類的最優超平面,使得離最優超平面比較近的點能有更大的間距[15],進而將訓練樣本中的兩類樣本能夠很好地分開。

支持向量機中的核函數主要有線性核,多項式核,徑向基核以及Sigmoid核。在4種核函數中,RBF核函數可以應用到低維、高維、小樣本、大樣本等情況[16],所以,本文實驗選用徑向基函數(RBF),其核函數如下:

(10)

式中:a為空間中的任意一點;a′為核函數的中心;b為函數的寬度參數。

1.4 基于PCA-t-SNE-SVM的城市植被識別方法

步驟1采用PCA對X進行初步的降維處理,設方差貢獻率為95%時,得到d個特征值,將d個特征值對應的特征向量(主成分)作為PCA算法的低維輸出數據Y。

步驟2然后,使用t-SNE算法二次降維處理,將d維特征向量映射到s維空間中得到低維數據T。

在實驗的過程中,為了提高降維的效果,更好地提取城市植被高光譜圖像的本質特征,通過多次試驗尋找最優的參數perplexity,learning_rate以及n_iter。

步驟3最后,將降維后的特征矩陣T作為SVM算法的輸入矩陣,選取RBF作為核函數,通過gridsearch方法找到最優參數c和gamma,最終得到泛化能力最好的分類結果。

該方法的流程圖如圖1所示。

圖1 流程圖

2 實驗結果和分析

2.1 實驗數據

采用肯尼迪航天中心(Kennedy Space Center,KSC)的地物高光譜遙感影像數據集為實驗對象。該地物高光譜遙感影像大小為512×614像素,其空間分辨率能夠達到18 μm,采用的光譜范圍為0.4~2.5 μm,共包含了176個波段,影像覆蓋了美國Florida Kennedy附近的地物信息。圖2是KSC高光譜遙感影像,圖3是KSC數據集地物理想分類以及各類地物分布和名稱。

圖2 KSC高光譜遙感影像

圖3 KSC數據集地物分類及名稱

KSC高光譜圖像類別信息如表1所示,標記的樣本總數為5 211,樣本集共13類。

表1 KSC高光譜圖像類別信息

2.2 實驗結果分析

實驗采用的計算機配置是i7-6700 CPU,12 G RAM,軟件為Spyder(3.2.6)。

(1) 高光譜圖像特征提取。圖4是基于PCA算法降維后的可視化結果,從中可以看出,雖然有一部分呈線性分布,但是仍出現嚴重重疊的情況,無任何規律,沒有明顯特征和聚類。PCA算法特征提取的運行時間為8 s。

圖4 基于PCA算法降維后的可視化結果

圖5是基于t-SNE算法降維后的可視化結果。在運用t-SNE進行特征提取時,perplexity,learning_rate以及n_iter會影響降維后的效果和結果的誤差。通常情況下,perplexity在5~50之間,learning_rate在10~1 000之間,n_iter至少為250,采用實驗方法確定參數的取值,perplexity(per)的值選取為5、30、50,learning_rate(lr)的值選取為10、200、1 000,n_iter(ni)的值選取為250、1 000、3 000,總共對高光譜圖像進行了27次的降維試驗。圖5列出了部分降維后的圖像。

圖5 基于t-SNE算法降維后的可視化結果

從圖5可以看出,在perplexity=30,learning_rate=200,n_iter=1 000時,同一類之間距離較近,聚集能力較強;不同類之間的距離較遠,聚集能力較弱;重疊情況也不是很嚴重。由此可以看出,在此參數下的降維結果最為理想,t-SNE算法特征提取的運行時間為94 s。

圖6是基于PCA-t-SNE算法降維后的可視化結果。首先,采用PCA算法進行主成分分析,表2中顯示的是主成分貢獻率和累計貢獻率的值,可以看到第一階主成分貢獻率最高達到61.1%,此后各階主成分貢獻率逐漸遞減,當累計貢獻率達到95%時,階數達到11,從而獲取相應的特征向量。

圖6 基于PCA-t-SNE算法降維后的可視化結果

階數貢獻率/%累計貢獻率/%階數貢獻率/%累計貢獻率/%161.161.170.992.4218.579.680.893.237.186.790.793.942.288.9100.694.551.590.4110.595.061.191.5

其次,運用t-SNE算法再對11維特征向量進行降維處理。在經過27種不同參數組合的試驗后,同樣在perplexity=30,learning_rate=200,n_iter=1 000時,能很好地提取到高光譜圖像的本質特征。由圖8可見,類內距離更小,類間距離更大,降維效果較為理想,圖6是PCA-t-SNE算法特征提取后的可視化結果,運行時間為46 s。

綜上所述,由3種算法的降維運行時間可以看出,PCA算法的運算速率高、運行時間短;t-SNE算法內存占用大、運行速率低、運行時間長;PCA算法與t-SNE算法結合后,可以有效減少降維運行時間,運行時間為46 s,與t-SNE算法相比減少了48 s。

(2) 高光譜圖像分類。在樣本中隨機選取60%的標記樣本作為訓練樣本建立SVM城市植被識別模型,另外40%的標記樣本作為測試樣本。其中,SVM算法的c和gamma均在{2-10,…,210}范圍內,在實驗的過程中可以通過gridsearch方法獲得相應的最優參數,參數如表3所示。

表3 SVM最優參數

圖7是實際分類的效果圖,紅色框所圈區域為分類錯誤的主要區域。從圖7(a)中可以看出分類的效果不是很理想,存在很多的噪聲散點;從圖7(b)中可以看出,噪聲散點相對減少,分類效果較為理想;從圖7(c)中可以看出,噪聲散點最少,分類效果最理想。實驗表明PCA-t-SNE-SVM具有良好的識別效果。

圖7 實際分類效果圖

(3) 結果分析。OA定義為正確分類的樣本數與所有分類樣本數的比值。3種算法的OA如表4所示,PCA-t-SNE-SVM的總體分類精度最高,達到92.06%,與PCA-SVM,t-SNE-SVM相比,分別提高了13.51%,3.33%。t-SNE-SVM與PCA-SVM相比,總體的分類精度提高了10.18%。由此可以看出,t-SNE算法可以有效解決數據點在二維空間的擁擠問題,進而提高了高光譜圖像的分類精度。

Kappa系數表示的是地物分布結果與真實地物分布之間的相似度??傮w分類精度過于依賴類別數和樣本,而Kappa系數能夠考慮各種漏分和錯分的樣本。公式如下:

(11)

式中:r為混淆矩陣的行數或者列數;xi+和x+i分別代表各行與各列之和;xii是i行i列(混淆矩陣對角線)的值即被正確分類的樣本數。通常Kappa系數在0~1間。

PCA,t-SNE與融合算法下的Kappa系數值如表4所示。由表4可以看出,PCA-t-SNE-SVM錯分的樣本數最少,Kappa系數最高,達到0.91,與PCA-SVM,t-SNE-SVM相比,分別提高了0.15,0.04。t-SNE-SVM與PCA-SVM相比,Kappa系數提高了0.11。由此可以看出,改進的算法可以有效減少由“同物異譜”或“異物同譜”導致的錯分現象的產生,進而提高用于城市植被信息提取的高光譜圖像的分類效果。

表4 不同算法的分類結果

Ci為各類別的分類精度。在3種算法下的各類別Ci的分類精度如圖8所示,橫坐標為類別,縱坐標為各類別Ci的分類精度的百分比。

圖8 各類別Ci的分類精度

PCA-t-SNE-SVM最優分類類別的分類精度與最差分類類別的分類精度相差31.58%,而t-SNE-SVM兩者相差41.23%,PCA-SVM兩者相差79.73%,這一定程度上說明PCA-t-SNE-SVM對類間光譜特性差異性相對魯棒;從這13類分類性能變化趨勢來看,影響分類精度的一個關鍵因素是地物本身的光譜特性;從這3種分類算法中可以看出,對C1,C11,C13都具有較高的分類精度,而對于C5,C6都具有較低的分類精度。

3 結 語

本文根據PCA與t-SNE的問題及自身的優劣特點,提出了將PCA與t-SNE算法結合對高光譜圖像進行降維的方法,并建立了基于SVM的城市植被識別模型。該方法在保留有用信息的基礎上,利用PCA算法快速地實現一次降維,應用t-SNE算法二次降維優選出關鍵特征,運用SVM算法實現城市植被的識別。實驗結果表明: PCA-SVM雖然在特征提取的時間上有明顯優勢,但是對高光譜圖像的分類效果不好;t-SNE-SVM可以較好地實現對高光譜圖像的分類,但是特征提取時間長,運算速率明顯下降;基于PCA與t-SNE特征降維的SVM城市植被識別方法可以有效地提取高光譜圖像的本質特征,降低特征提取的時間,提高高光譜圖像的分類精度,通過與PCA-SVM和t-SNE-SVM進行比較,驗證了特征融合降維方法在時間和分類精度的明顯優勢。

t-SNE算法中的perplexity,learning_rate,n_iter設置會對降維的效果造成影響,后續將會研究一種最優參數自動匹配的方法,能根據樣本的復雜性和特性自動調整參數的大小,從而獲得更好的城市植被分類識別效果。

猜你喜歡
維空間降維特征提取
混動成為降維打擊的實力 東風風神皓極
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
Update on Fengyun Meteorological Satellite Program and Development*
降維打擊
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
從零維到十維的空間之旅
一種改進的稀疏保持投影算法在高光譜數據降維中的應用
十維空間的來訪者
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合