?

半監督空譜局部判別分析的高光譜影像特征提取

2024-03-05 08:15呂歡歡黃煜鋮張輝王雅莉
液晶與顯示 2024年2期
關鍵詞:光譜聚類精度

呂歡歡, 黃煜鋮, 張輝, 王雅莉

(1.遼寧工程技術大學 軟件學院, 遼寧 葫蘆島 125105;2.湖州師范學院 信息工程學院, 浙江 湖州 313000)

1 引言

高光譜遙感圖像的波段通常連續且多達十個甚至數百個,光譜分辨率高,具有較強的地物分類和識別能力,目前廣泛應用于環境監測、軍事偵察和城市規劃等領域[1]。但是現有的高光譜圖像日益多元化且數據量呈指數級增長,波段間的相關性和冗余度高[2],在地物進行分類任務時,易出現“維數災難”[3]的問題。對高光譜圖像進行特征提取是解決這個問題的途徑之一。特征提取不僅可以降低波段間的相關性和冗余性,提高分類精度,而且能提升高光譜圖像的處理效率以及減少空間存儲的成本。

特征提取算法按照數據結構可劃分為基于全局結構的特征提取算法和基于局部結構的特征提取算法。主成分分析(Principal Component Analysis,PCA)[4]和線性判別式分析(Linear Discriminant Analysis,LDA)[5]都是經典的全局線性方法。PCA以方差最大化準則尋求達到全局最佳逼近的投影方向,LDA考慮了有類標數據的類內和類間判別信息。這些方法只考慮了數據的統計性質,無法真正揭示高光譜數據集的非線性多模結構[6]。為了更好地分析數據內在屬性,流形學習的發展揭示了數據的幾何結構,代表性的算法為等距離映射[7](ISOMAP)、局部線性嵌入[8](LLE)和拉普拉斯特征映射[9](LE)。它們是局部特征提取的主要算法,3種方法都屬于非線性投影且考慮了高維數據在低維空間中的某種局部特性來描述其內在流形,將樣本外映射到相應的低維空間中,但無法給出具體的投影矩陣。為了解決樣本的泛化性問題,將LLE和LE線性化為局部保持投影(LPP)[10]和近鄰保持嵌入(NPE)[11],通過近鄰圖來揭示數據的局部近鄰關系,在低維空間中也保持局部幾何結構?;趫D框架的觀點,已經發展出許多先進的方法來更好地揭示數據的內在屬性,如邊界Fisher分析[12](MFA)、局部Fisher判別分析[13](LFDA)、正則化局部判別嵌入[14](RLDE)和局部幾何結構Fisher分析[15](LGSFA)等。

上述算法都屬于無監督算法或者有監督算法。無監督算法一般很難達到預期的結果,但可以發現隱藏的非線性結構的數據信息;有監督算法需要大量的標記樣本,但是高光譜數據標記成本高并且不易獲取。因此,結合有監督和無監督算法的半監督算法成為研究的熱點話題。根據圖學習理論,設計的半監督算法有半監督圖學習(SEGL)[16]、半監督局部Fisher判別分析(SELF)[17]和半監督局部判別分析(SELD)[18],它們都是在LDA原理上構建起來的??紤]了數據的流形結構的算法即半監督子流形保留嵌入[19](S3MPE)和半監督稀疏流形判別分析[20](S3MDA),增強本征特征的表達。這些算法充分利用少量標記樣本的判別信息來保持數據集的可分性,深入發掘未標記樣本包含的局部流形結構信息或方差信息,提高了特征提取效果,提升了分類能力。

上述算法僅利用了光譜數據,而忽略了高光譜中地物空間分布的特征。高光譜具有“圖譜合一”的特點,空間相關性強,相鄰像素點具有明顯的光譜相關性,因此,學者們開始融合高光譜數據的光譜信息和空間信息來提高地物分類性能[21]。Chang等人在SELD的基礎上提出了NNSELD[22]算法。侯榜煥等人通過加入空間近鄰散度矩陣,提出了S3ELD[23]算法。黃鴻等人提出了一種半監督多圖嵌入的高光譜影像特征提取算法(SSMGE)[24],注重高維空間的位置關系,構建監督和非監督超圖及普通圖表征數據間的復雜幾何結構。這些方法都注重流形重構過程中近鄰點的空間信息,大多采用監督和無監督方法聯合使用的方法,但是忽略了可利用的標記樣本數過少的問題以及在低維空間矩陣中保持與原來同樣的空間結構特性。

鑒于以上問題,本文提出了一種半監督空譜局部判別分析的高光譜影像特征提取算法,通過利用高光譜的近鄰像元的空間特征提升分類效果,主要思想是利用像素融合后重構的空譜特征,增加正則化項至類內類間散度保持無標記樣本的空間一致性。為了獲取無標簽樣本的聚類結構,算法首先采用模糊C均值聚類算法求解聚類偽標簽。與其他聚類算法相比,該算法不需要將某類確定為哪類,通過迭代進行聚類篩選最終的聚類中心。算法的提出大幅降低了人工成本,融合后的像素有效利用了高光譜數據的空間信息,保持不同類的區分能力并進行有效降維。為了驗證算法的有效性,在實驗階段通過不同算法在不同標記樣本、不同維數下利用支持向量機(SVM)分類器進行分類操作,最后在Pavia University和Indian Pines數據集上進行實驗驗證,結果表明分類精度得到了進一步的提高。

2 相關算法及構造

2.1 空間鄰域信息構造

假設含有n個d維數據的高光譜數據集為Xn={x1,x2,…,xi,…,xn},對應的低維嵌入為Z={z1,z2,…,zi,…,zn},zi∈Rr且r<d。

由于高光譜圖像的空間特征就是空間近鄰像元在很大程度上屬于同類地物,同類地物往往呈塊狀分布,距離越近的地物從屬于同一類別的概率越大。近鄰像元不但具有較強的光譜相關性,還有顯著的空間相關性,且距離越近,相關性越強。在低維嵌入的過程中,依然保持數據集的像元的空間近鄰結構。

令Ωi表示像元xi的近鄰空間,空間內的近鄰點為xij。鄰域空間是以像元xi為中心的邊長為ω×ω的矩形區域。ω是空間因子,表示空間近鄰的大小,取奇正整數。近鄰點的個數為s=ω2-1。如果像元xi處于邊緣或者角落,用中心像元xi代替缺失的像元。根據空間一致性原理,本文將xi與附近空間內的點結合進行像元融合,彌補單一像元度量的不足,減小噪點干擾,降低數據冗余。圖像上任意像元xi融合周圍近鄰點的集合表示為:

式中:ξ0表示任意像元xi的光譜矢量;ξ1,ξ2…,ξs表示在像元的近鄰空間內其他像元xij的光譜矢量;將矩陣Q按列堆棧起來得到一個一維列向量F,并將F作為重構像元xi'的空-譜特征。重構后空譜特征的像元集合為Xn'={x1',x2',…,xi',…,xn'},其表示方式如圖1所示。

引入光譜信息散度[25]分析近鄰像元的相關性。像元越相似,構造近鄰散度時權值越大。重構后xi'的近鄰像元與xi'之間的光譜信息散度表示為:

S代表相對熵,概率向量可表示為

2.2 空間局部Fisher判別分析算法

傳統經典算法FDA只有當數據呈現單模態表示的高斯分布時,才具有較好的降維效果。但這種算法均是基于高光譜圖像數據是全局線性結構的假設前提,無法揭示數據的內在非線性結構特性。為解決這個問題,提出類內散度局部化FDA算法(LFDA),克服了同類樣本存在獨立聚類或者一些噪聲這種多模態問題。

LFDA降維的子空間不受類別約束。傳統FDA降維最高為c-1,受限于類間散度矩陣的秩。高光譜數據集中有類別標簽樣本xa(a=1,2,…,m),類別標簽記為ya∈{1,2…,C},通過空間鄰域重構后的樣本所屬集合為Xm'={x1',x2',…xa',…,xb',…xm'},加入空-譜信息后的LFDA類內散度矩陣和類間散度矩陣可表示為:

公式(3)、(4)轉為矩陣可表示為:

式(5)、(6)中,類間散度矩陣和類內散度矩陣的拉普拉斯矩陣可表示為:

Dslb和Dslw是對角矩陣,其第a'個對角線元素表示為:

融合后的像元由原來的標記樣本進行約束。訓練樣本xa'和xb'之間的熱核參數相似度量Aa'b'可表示為:

2.3 模糊C均值聚類算法

模糊C均值聚類算法是由Bezdek提出的基于模糊理論的聚類算法。它的思路是使被劃分到同一類的對象之間的相似度達到最大,不同類對象之間的相似度達到最小。Xn={x1,x2,…,xi,…,xn}∈Rd×n表示假設待劃分的數據集,將數據集里的元素劃分為c(2≤c≤n)類,V={v1,v2,…,vk,vg,…,vc}表示聚類中心。FCM算法的聚類準則為使最小化聚類目標函數J可表示為:

式中:Xn的模糊C劃分為可用隸屬度矩陣U=[uki]c×n表示,uki表示第i(i=1,2,…,n)個數據點屬于第k=(1,2,…,c)類的隸屬度,滿足約束條件p∈(1~∞)為隸屬度的加權指數,控制由此產生的模糊性分區,調整類之間的分類程度。是樣本點xi和聚類中心vk之間的歐氏距離。

利用拉格朗日求解隸屬度和聚類中心,可表示為:

由上述兩個必要條件,模糊C均值聚類算法是一個簡單的迭代過程。對參數進行初始化后,求解FCM算法中的聚類中心vk和隸屬度矩陣U,使目標函數達到最優。

3 基于空譜特征的半監督局部Fisher判別分析算法

空間LFDA算法的目的是尋找一個投影矩陣,使類內樣本彼此之間相互靠近,類間樣本彼此相互遠離。但是,當訓練標簽樣本過少時,空間LFDA算法大概率會出現過擬合的現象。為了防止過擬合現象的產生,針對如何使用高光譜數據內的大量無標簽數據的結構特性,本文利用模糊C均值聚類算法對重構后的樣本集合進行偽標簽約束。為了保持聚類結構的一致性,將重構后的包含空間信息的樣本標簽以正則化項的形式合并到空間LFDA中。

3.1 無標記樣本偽標簽構造

步驟一:設置q=0,初始化聚類中心V(q);

步驟二:更新U(q);

?k,g表示聚類中心,i'表示高光譜數據集重構后的像元,如果d(xi',vk)(q)>0,則

步驟三:更新聚類中心v(q+1);

根據U(q)或V(q+1),樣本xi'的類別可表示為

通過上述聚類算法,我們得到重構后像元集合Xn'的類標簽集合為

3.2 正則化約束項構造

本文通過FCM聚類算法對所有重構后的訓練樣本Xn'進行聚類分析。聚類個數c不需要與類別數C相同,得到像元的聚類標簽集合為這能使其更好地適應多模態數據分布情況。根據以上表述構建局部聚類的類間散度Sulb和局部聚類的類內散度矩陣Sulw,描述方法可表示為:

式(20)和式(21)中,Wulb、Wulw是n'×n'的矩陣,可表示為:

3.3 半監督空譜局部判別分析

為了合理應用高光譜具有無標簽樣本所含的結構信息,這里將上面兩個正則項分別合并到空間LFDA算法的類間散度和類內散度中,合并后的半監督類間散度和類內散度矩陣可表示為:

式中:Sslb、Sslw為空譜融合后有標簽測試樣本類間散度和類內散度矩陣,Sulb、Sulw為空譜融合后全體測試樣本的聚類類間散度和聚類類內散度矩陣。β∈[0,1]為半監督程度參數,用來控制有標簽樣本和無標簽樣本的重要性。半監督空譜LFDA算法優化目標函數可表示為:

S4LFDA的目標函數可以用式(26)的廣義特征值問題進行求解運算:

假設廣義特征值按降序排序如下:λ1≥λ2…≥λr,最終,Hs4lfda可以表示為:

半監督空譜局部判別分析的高光譜影像特征提取算法的具體過程如下:

輸入:Xn∈Rd×n為高光譜數據集訓練樣本集,n表示樣本集合的大小,d為高維高光譜樣本的維度,窗口大小為ω,模糊C聚類的類別數為c,降維的維度為r。

(1)對數據集按照空間窗口ω的大小進行像素融合。

(2)求解空間像素融合后有標簽樣本類間散度矩陣和類內散度矩陣。

(3)對空間融合后的全體訓練樣本進行模糊C均值聚類。

(4)求解融合后全體訓練樣本的聚類類間散度和聚類類內散度。

(5)求解廣義特征值問題,得到對應的特征向量φ1,φ2,…φr。

輸出:低維數據Y=HTX。

4 實驗數據及設置

4.1 實驗數據集

為評估本文S4LFDA的分類性能,使用具有代表性的Pavia University[26]和Indian Pines[27]高光譜遙感數據集進行分類實驗。

Pavia University數據集的圖像是2002年由反射光學系統成像光譜儀獲取得到,圖像大小為610像素×340像素,空間分辨率為1.3 m。包含了光譜范圍內的115個波段,光譜分辨率為4~12 nm。去除噪聲影響嚴重的波段后,剩余103個波段用于實驗。該圖像參考數據樣本共計42 776個,含有9類地物信息。其假彩色圖像和真實地物信息如圖2所示。

圖2 Pavia University數據集Fig.2 Pavia University dataset

Indian Pines數據集的圖像由AVIRIS傳感器在美國印第安納州的一塊印度松樹測試地獲得。圖像大小為145像素×145像素,空間分辨率為20 m。包含了光譜范圍內的224個波段,該圖像參考數據樣本共計10 249個,含有16類地物信息。其假彩色圖像和真實地物信息如圖3所示。

圖3 Indian Pines數據集Fig.3 Indian Pine dataset

4.2 實驗設置

為了驗證本文方法的有效性,實驗中選取Baseline、LPP、LFDA、SELF、基于混合因子分析的有監督和無監督的特征提取算法[28](S2MFA)、RLDE和基于SLIC超像素的穩健主成分分析[29](SURPCA)與本文方法進行比較。其中Baseline是直接利用原始光譜數據,LPP是無監督特征提取方法,LFDA是有監督特征提取方法,SELF、S2MFA、RLDE和SURPCA是半監督特征提取方法。正則化參數α在{0,0.1,0.2,…,0.9,1.0}中選取,達到SELF算法的分類精度最優。S2MFA中的參數混合成分數量M對OA不敏感,潛在因子設置在25~50之間時保持穩定。RLDE算法中空間窗口大小ω設置為7,正則化參數β設置為0.7,空間均值濾波的濾波度設置為γ0=0.9。SURPCA中超像素數在100~200之間選取為最優。為了確保對比實驗的公平性,各種對比算法參數均通過交叉驗證調到最佳,低維嵌入特征維數設置為30。

在特征提取時,在數據集中每類地物隨機選取10,20,30個標記樣本,然后從剩余像元中隨機選取3 000個無標記樣本,用作訓練樣本組成訓練樣本集,剩余樣本作為測試樣本集。對于地物數量較少的樣本最多選取1/2作為測試集,其中無監督和半監督方法采用整個訓練集進行訓練,而有監督方法只利用標記樣本進行訓練。首先通過訓練數據集計算特征提取方法的投影矩陣,然后得到測試樣本集的低維嵌入特征,最后采用支持向量機(SVM)分類器進行分類。采用總體分類精度(Overall Accuracy, OA)、平均分類精度(Average Accuracy, AA)和Kappa系數作為分類結果的評價指標。為了保證實驗結果的可靠性,實驗在每種條件下重復進行10次,并取10次結果的平均值作為最終實驗結果。

4.3 實驗結果及分析

4.3.1 Pavia University數據集上的實驗結果及分析

根據實驗設置,各方法在Pavia University數據集上不同維數下的總體分類精度如圖4所示,不同標記樣本數量下的最優總體分類精度見表1。

表1 不同樣本標記下各類算法的總體分類精度(平均精度±標準差)Tab.1 Overall classification accuracy of various algorithms under different sample markers (mean accuracy±standard deviation) %

圖4 不同算法在不同標記樣本、不同維數下的分類精度。Fig.4 Overall accuracies of different algorithms with different labeled samples in different dimensions

由圖4可知,隨著低維嵌入維數的增加,各方法的總體分類精度不斷提高,并逐漸達到最優值,之后出現精度平穩或下降的現象。這是因為隨著嵌入維數的增多,其所包含的地物判別特征越來越豐富,從而分類精度也相應提高;但當有足夠多的特征來描述地物信息時,如果持續增加特征的維數,有可能引入噪聲或冗余信息,導致分類精度不再提高,甚至出現下降現象。由圖4可知,本文算法在低維度的分類精度增長緩慢,但是在10~25維時,分類精度高于其他算法且分類精度略有上升,逐漸達到最高的分類精度。保留30維特征時,每類算法都取得了最大的分類精度,符合高光譜分類的特點。表1表示維數約簡至30維時,各個算法的分類精度。由表1可知:

(1)隨著標記樣本數量的增加,各方法的總體分類精度也隨之提高。這是因為訓練樣本越多,特征提取時從樣本數據中獲取的先驗知識越豐富,進而提取出低維嵌入特征的判別能力越強,其分類結果越高。與其他算法相比,S4LFDA算法的10次實驗的總體分類精度的平均值高于其他算法。S4LFDA高出其他算法約1%~13%,且訓練樣本越少,相較于其他算法分類精度提高越明顯。

(2)各種特征提取方法在保留特征維數為30的情況下,均可以獲取最優的分類精度,并且分類精度都在一定程度上高于Baseline方法,說明了這些特征提取方法的有效性。

(3)LFDA由于利用了樣本的類別信息,分類精度高于無監督特征提取LPP方法,但低于其他幾種半監督特征提取方法。這是因為半監督方法同時利用了有標記樣本和無標記樣本,有效解決了有標記樣本不足的問題。

(4)在其余幾種半監督特征提取方法的比較中,對比SELF、S2MFA、RLDE和SURPCA可得,同一地物,除了Asphalt,都有所提高。尤其是Bitumen的精度顯著提高,因為這片區域具有集中分布的特點。本文算法對于成片狀分布的區域有更高的分類精度,因為引入了空間信息并極小化保持投影空間的類別可分性,增強了在低維空間內的屬于同一類別像元和同一空間像元的聚集性,從而提高了分類效果。

(5)本文方法在不同的標記樣本數目下,分類精度始終是最優的。這是因為該方法在低維嵌入時,充分挖掘了影像的空間信息,利用有標記樣本極小化類內散度矩陣和極大化類間散度矩陣,保證了低維空間類別的可分性。同時利用聚類方法對無標記樣本進行聚類,生成偽標記信息,構造無標記樣本的類內和類間散度矩陣來約束原始局部Fisher判別分析的目標函數,提高了特征的判別能力,改善了特征提取的結果。

為探索各方法在各類地物上的分類性能,實驗中隨機在每類地物中選取30個標記樣本、300個無標記樣本作為訓練樣本。對于地物數量較少的樣本最多選取1/2作為測試集,剩余作為測試樣本。表2為各方法在Pavia University數據集上每類地物的分類精度、總體分類精度(OA)、平均分類精度(AA)和Kappa系數的對比。由表2可以看出,各方法對于大部分地物都有較好的區分度,相較于地物Meadows和Bitumen識別的其他算法,本文算法的精度有顯著提高,提高約6%~40%,這表明本文提出的算法對于大片同種區域以及地物邊緣化有著更明顯的感知力。圖5為其對應的分類結果圖??梢钥闯?,Bare Soil區域分類變得比其他算法更加光滑。

表2 Pavia University數據集上每類地物在不同算法下的分類精度Tab.2 Classification accuracy of every feature under different algorithms in Pavia University dataset %

4.3.2 Indian Pines數據集上的實驗結果及分析

在Indian Pines數據集上也進行了相同的實驗,圖6表示不同對比算法在不同維度下的分類精度曲線,表3表示每類算法對應的最高OA精度。

表3 不同樣本標記下各類算法的總體分類精度(平均精度±標準差)Tab.3 Overall classification accuracy of various algorithms under different sample markers (mean accuracy±standard deviation) %

圖6 不同算法在不同標記樣本、不同維數下的分類精度。Fig.6 Overall accuracies of different algorithms with different labeled samples in different dimensions

不同算法對Indian Pines數據集各類地物的分類精度如表4所示。每類選取30個有標記樣本,采用SVM分類器得到表4中數據結果。從表4可以看出:

表4 不同算法對Indian Pines數據集各類地物的分類精度Tab.4 Classification accuracies of every feature under different algoriyhms in Indian dataset %

(1)與其他無監督算法相比。S4LFDA與LPP算法比對可知,前者的OA和Kappa系數都優于后者,本文算法有效地利用了樣本的標記信息,提高了樣本之間的相似度,顯著提高了樣本的分類效果,也驗證了半監督思想的可行性和樣本空間利用的重要性。

(2)與LFDA算法相比。S4LFDA與LFDA算法比對可知,前者的OA和Kappa系數都優于后者,進一步驗證了半監督思想以及利用空-譜信息構建權重關系的可行性,彌補了大量無標記樣本無法利用的問題,充分發揮了算法中嵌入的無標記樣本所包含結構信息的作用,使本文算法即使在訓練標簽樣本較少的情況下,依然能獲得很高的分類精度。

(3)與其他監督算法相比。S4LFDA與SELF、S2MFA、RLDE、SURPCA算法比對可知,除了第6、7類地物,S4LFDA分類精度相較于其他算法都有所提高,尤其是第12類地物提高顯著,比其他半監督算法高出9.55%~20.84%。鑒于表現同譜異物現象在高光譜影像數據中,采用S4LFDA算法提取后的分類精度高于S2MFA、SURPCA。與其他算法對比得出:S4LFDA可以全面考量每個樣本的空間關聯性、光譜相似性,在低維空間中影像數據的空間區分效果更好,從而得到的分類結果較好

不同算法在Indian Pines上的分類結果圖如圖7所示。本文算法噪聲點少且大片區域地物較為光滑,地物Woods和Soybean-mintill幾乎沒有錯分點。其他算法不同地物正確分類的地物不盡相同,有利有弊,本文算法的地物分類精度更高。

圖7 Indian Pines數據集上各類算法的分類識別圖Fig.7 Classification identification diagram of various algorithms on the Indian Pines dataset

4.3.3 空間鄰域大小對總體分類精度的影響

S4LFDA算法利用了空間的一致性,將空間像元點重新融合成新的像元,因此鄰域的大小與樣本有著密切的關系。為探索本文方法參數中空間窗口ω對分類精度的影響。分別從Pavia University和Indian Pines數據集中每類地物選取15個標記樣本進行實驗,其余作為測試樣本,ω的取值范圍設置為3,5,7,9,11??梢詮膱D8中觀察到,隨著窗口大小的增加,空間鄰域內的像元逐漸增多,會引入更多不屬于同一地物的像元,像元的融合向量偏離了同類地物的光譜特征,導致融合像元在低維空間投影時也偏離同類地物,所以精度會逐漸降低。例如Pavia University數據集的9類地物中大多呈現零散分布,地物磚塊和地物瀝青道路更呈現條狀分布,所以選擇較小的鄰域空間ω包含空間較少,不易混入不同地物的像元,鄰域空間ω的增大會使分類精度逐漸降低。

圖8 不同窗口大小下的分類精度Fig.8 Classification accuracy under different window sizes

4.3.4 半監督系數對總體分類精度的影響

半監督系數對總體分類精度的影響如圖9所示。由圖9可知,隨著半監督系數的增加,Pavia University和Indian Pines數據集的地物分類精度呈現先增加后減少的趨勢。這是由于隨著半監督系數的增加,樣本標記過擬合現象減弱,嵌入的無標記樣本的信息逐漸增加,提供的空間結構信息愈來愈多,因此精度有所提高。但是隨著半監督系數的增加,有標記樣本系數的指導能力逐漸削減,無標記樣本提供的信息有限,導致精度有所下降。

圖9 半監督系數對總體分類精度影響Fig.9 Effect of semi-supervised coefficients on overall classification accuracy

4.3.5 有無標記樣本數目對總體分類精度結果的影響

使用兩個實驗驗證不同樣本數對分類精度的影響效果。實驗一:首先從Pavia University數據集和Indian Pines數據集中任何類地物抽樣選取10個被類別標記的樣本,再從所有樣本中選取無標記樣本(100,500,1 000,1 500,2 500,3 000,3 500)作為訓練集,余下沒有被選取的樣本作為測試集進行實驗。實驗二:從兩種數據集每類地物中選取有標記的樣本(10,20,30,40,50,60,70),再從高光譜影像余下的樣本中選取3 000個無標記的樣本,合并之后當作訓練集,余下的樣本作為測試集驗證實驗。兩種高光譜影像下不同的無類標數(10個有類標樣本點)的分類精度如圖10所示。從圖10可以看出,當每種地物的類別標記數為10用于S4LFDA算法時,伴隨無標記的樣本數目的增加,采用支持向量機分類后,OA和Kappa的變化趨勢。

圖10 無標記樣本(10個有類標樣本)的分類精度Fig.10 Classification accuracy unlabeled samples (10 labeled)

由圖10可知,如果每類地物有類標樣本設置為10時,隨著沒有類標的樣本數的增長,OA和Kappa的精度展現了上升趨勢,說明提出的方法可以有效利用無標記樣本空間的信息。隨著無類標數增長接近3 000時,OA和Kappa的精度增長極其緩慢甚至不再增加。這是因為無標記樣本提供的空間結構信息有限,再增加樣本效果提高不明顯且耗費訓練時間。

圖11表示S4LFDA選取無標記訓練樣本為3 000應用在本文算法時,支持向量機(SVM)分類后的總體分類精度(OA)和Kappa系數伴隨有類別標記樣本數的變化趨勢。

圖11 有標記樣本(3 000個無標記樣本)的分類精度Fig.11 Classification accuracy labeled samples (3 000 unlabeled)

由圖11可知,設定無類標樣本的數目不變,伴隨有類標樣本數目的增加,OA和Kappa也相應增加。接著發現每類地物有標記的樣本數達到30之后,分類精度變化不顯著。這是因為隨著有標記樣本數目的增加,能夠獲取樣本的先驗知識也愈加豐富,在特征提取過程中使樣本數據的總體分類精度也越高。隨著有標記樣本的增加,可能會出現類似全監督算法一樣的過擬合問題,且標記都需要人為操作,引入不必要的噪聲會導致精度的下降。

4.3.6 聚類數目及模糊系數對無標記樣本的影響

Pavia University數據集上數目和模糊系數對精度的影響如圖12所示。由圖12可知,模糊個數c=70、模糊系數p=2時,得到最高總體分類精度為95.90%。隨著聚類個數c的增加,精度逐漸增大,最高總體分類精度也在逐漸增大。聚類個數在10~50時,精度提升顯著,之后精度基本保持不變。因為聚類數目越多,可供劃分的無標簽樣本也越細致,可以利用的無標記樣本的局部信息也越多。從圖12中可以觀察到模糊系數p設置為2時,總體分類精度達到最高。后續實驗中將模糊系數設置為2。

圖12 Pavia University數據集上聚類個數和模糊系數對精度的影響Fig.12 Effect of the number and fuzzy coefficient on Pavia University dataset

5 結論

本文利用高光譜圖像的空間一致性,提出一種基于空譜重構的半監督Fisher判別分析算法,核心是利用高光譜空間像元融合后重構的空譜特征進行維度約簡,利用少量的標記信息以及大量的無標記空間樣本像元保持高維的空間結構特征,使數據包含的判別信息和空間近鄰結構得以在低維子空間中保存,總體分類精度達到95.60%和94.38%,有效提高了地物分類能力。相比于最近較火的深度學習算法,本文算法整體模型運行速度較快,參數調整簡便,實際開銷小,在現實應用中內存占比低,可以更好地對高光譜遙感數據集進行有效的分析。

猜你喜歡
光譜聚類精度
基于三維Saab變換的高光譜圖像壓縮方法
基于DSPIC33F微處理器的采集精度的提高
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
GPS/GLONASS/BDS組合PPP精度分析
星載近紅外高光譜CO2遙感進展
一種層次初始的聚類個數自適應的聚類方法研究
改進的Goldschmidt雙精度浮點除法器
苦味酸與牛血清蛋白相互作用的光譜研究
鋱(Ⅲ)與PvdA作用的光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合