?

基于字典優化的聯合稀疏表示高光譜圖像分類

2021-04-19 12:39陳善學王欣欣
信號處理 2021年4期
關鍵詞:訓練樣本字典波段

陳善學 王欣欣

(重慶郵電大學通信與信息工程學院,移動通信教育部工程研究中心,移動通信技術重慶市重點實驗室, 重慶 400065)

1 引言

隨著遙感技術的發展,高光譜圖像(Hyperspectral image,HSI)因其具有高光譜分辨率及豐富光譜信息的特點而廣泛應用,如目標檢測、環境監測、農林業、軍事等。分類是高光譜遙感圖像研究中的一個熱點內容,學者提出了許多的分類方法,如隨機森林[1-2]、支持向量機[3- 4]、神經網絡[5-7]、稀疏表示[8]等。

稀疏表示通過較少訓練樣本的線性組合來表達大量的待測樣本,最后通過重構殘差對待測樣本進行分類判別,目前稀疏表示已經廣泛應用于HSI分類。文獻[9]將稀疏表示應用于HSI分類,考慮到同質區域的存在,相應提出了聯合稀疏表示的方法,假設相鄰像元具有共同的稀疏模式,即位于同一鄰域內的相鄰像元由相同的訓練樣本稀疏表示,但稀疏向量不一定相同;文獻[10]根據待測中心像元與鄰域像元的結構相似度給各個鄰域像元賦予相應的權重,構建加權聯合稀疏表示;固定的鄰域窗口存在一定的局限性,不能完全反映空間信息,文獻[11]采用核函數度量待測像元與鄰域像元間的相似性,使聯合稀疏表示的鄰域窗口自適應。另外文獻[12-14]通過提取空間-光譜特征利用空間信息用于稀疏表示HSI分類。以上文獻都在一定程度上利用了空間信息提升分類精度,但是,基于稀疏表示的HSI分類精度一定程度上依賴于訓練樣本的質量和數量,訓練樣本越多,字典包含的地物特征越豐富,訓練樣本的獲取主要依靠專家人為標記,成本昂貴,在實際分類中,存在因訓練樣本量少而分類精度低的問題。

針對上述問題,本文提出了基于字典優化的聯合稀疏表示高光譜圖像分類(joint sparse representation hyperspectral image classification based on dictionary optimization, DO-JSRC)算法。結合空間信息將HSI劃分為多個子集;利用已知標簽信息的訓練樣本標記子集中可能成為訓練樣本的像元,組成備選集;通過光譜相似性準則篩選備選集形成優化字典。通過優化字典方式擴大了訓練樣本的數量,用于聯合稀疏表示提高HSI分類精度。此外,HSI的成像機制使它包含了數百個連續波段的光譜信息,高維數據在帶來豐富信息的同時,也使得在處理數據時計算量大幅度增加;連續波段間的信息可能會造成數據冗余,降低數據分析效率。為了降低高光譜數據維度的同時保留有用的光譜信息,相應的提出了許多基于特征提取[15]和波段選擇[16-17]的降維方法。由于噪聲波段與其他波段間的差異較大,基于聚類的波段選擇方法通常對噪聲波段比較敏感,容易使噪聲波段單獨聚類,影響選擇結果。因此,本文采取基于層次聚類的波段選擇方法,利用自適應距離計算方式改善噪聲對波段選擇的影響。

2 聯合稀疏表示

本文的HSI分類是基于聯合稀疏表示的分類方法,聯合稀疏表示可以結合鄰域像元的空間信息,提升HSI分類精度,其過程如下:

X1=[x1x2...xl]=[Da1Da2...Dal]=DS

(1)

式(1)中的al表示對應像元xl的稀疏向量,al中元素只有少數非0項,S為稀疏向量組成的稀疏矩陣。

待測像元x1可以通過稀疏矩陣和字典進行重建,聯合稀疏表示重建可表示為:

S=arg min ‖S‖row,0s.t.DS=X1

(2)

‖S‖row,0表示稀疏矩陣S的非零行行數。為了解決式(2)中非確定性多項式的問題,許多學者對此進行了研究并提出解決方案,本文采用文獻[9]提出的同時正交匹配追蹤(simultaneous orthogonal matching pursuit, SOMP)算法。得到稀疏矩陣后重建待測像元可得到重構殘差,則使用第c類字典得到稀疏重構殘差可以表示為:

(3)

(4)

3 基于字典優化的聯合稀疏表示高光譜圖像分類

本文提出基于字典優化的聯合稀疏表示高光譜圖像分類方法改善由于訓練樣本少而分類精度低的問題??紤]到HSI數據維度高,存在冗余,在字典優化前采用層次聚類的波段選擇對原始HSI數據降維。整體算法框架如圖1所示。

圖1 DO-JSRC算法框架Fig.1 DO-JSRC algorithm framework

3.1 波段選擇

本文利用層次聚類的方式實現波段選擇,用于HSI數據降維。層次聚類采用自下而上的方式構建波段層次,可將HSI的波段劃分為簇數量Ncluster∈(1, 2, ...,B)任意的多個波段簇,將相似度高的波段聚類成簇,各個簇之間的波段差異較大。在每個簇內選取最具代表性的波段形成新的高光譜數據,從而降低HSI維度。

本文基于層次聚類的波段選擇主要分為三個步驟:相互近鄰搜索、合并相鄰簇、選擇波段。對于原始HSI數據處理如下:

用無向圖G=(V,E)來表示HSI數據,其中頂點V=[b1b2...bB]∈RN×B表示光譜波段,這里將每個波段看作一棵樹??紤]HSI光譜波段的連續性,相鄰波段間聯系緊密、相似性大的特點,邊es表示第s個簇和第s+1個簇之間的相似度量,不計不相鄰簇之間的邊,所以,邊的集合可表示為E=[e1,e2, ...,es, ...,eS],S∈[1,B-1],第一個簇和最后一個簇形成的頂點只有一條與相鄰簇的邊,其他簇均有兩條邊,如圖2所示。

圖2 高光譜圖像的無向圖Fig.2 Undirected image of hyperspectral image

(1)相互近鄰搜索

在聚類過程中引入相互近鄰的概念,假設存在4個相鄰簇s-1、s、s+1、s+2之間的三條邊es-1、es、es+1,若同時滿足es

(2)合并相鄰簇

在一次合并過程中,若存在相互近鄰簇,滿足合并條件則按照邊從小到大合并兩個相互近鄰簇;若不存在相互近鄰簇,滿足合并條件則合并邊最小的兩個簇。

將聚類過程中某次合并形成的S個簇表示為C=[C1C2...Cs...CS],其中CS中包含ns(1≤ns≤B)個波段,由式(5)更新第s個簇的聚類中心。歐式距離是度量兩個變量之間差異的基本度量,通過式(6)計算第s個簇和第s+1個簇之間的距離。

(5)

(6)

考慮到波段中可能存在噪聲的情況,只利用歐式距離可能使噪聲波段單獨形成一個簇,因為噪聲波段通常與相鄰波段差距較大,為此提出了一種自適應距離計算方式。在第s個簇和第s+1個簇之間的距離計算過程中引入內類散度矩陣,將Cs與Cs+1包含的波段視為同一個類,類中心可用式(7)得到,并通過式(8)計算類內離散度,則第s個簇和第s+1個簇之間的自適應距離定義為式(9)。類內散度值越大,兩個簇形成的類越離散,波段間相似性越低,式(9)將簇包含的波段數加入計算是為了改善噪聲單獨成簇的問題。

(7)

(8)

es=ds,s+1×Ss,s+1×ns×ns+1

(9)

上述相互近鄰搜索和合并相鄰簇是基于層次聚類思想對HSI數據處理的過程,HSI層次聚類流程圖如圖3所示。

圖3 HSI層次聚類流程圖Fig.3 HSI Hierarchical clustering flowchart

(3)選擇波段

經過層次聚類將B個波段劃分為K個簇,每個簇內的波段相似性較高,可能存在冗余,從每個簇中選擇最具代表性的波段組成期望波段子集,本文采取基于排序的方法從每個簇中選取信息量最大的波段。波段的信息量可以通過峰度度量,對于任意波段b:

(10)

式(10)中Ku表示波段b的峰度,峰度越大,波段數據越偏離正態分布,波段包含的信息量越大。

基于層次聚類的波段選擇具體過程如表1所示。

表1 基于層次聚類的波段選擇

3.2 字典優化

為了解決訓練樣本量少的問題,本文提出了相應的字典優化方案,主要分為以下三個步驟:

(1)第一步:通過聚類利用HSI中每個像元的光譜信息和像元間的空間信息,將波段選擇后的HSI數據集XBS拆分成多個子集,使每個子集自適應的包含一定數量的像元。其中,每個像元與聚類中心間的距離計算公式(11)和聚類中心更新公式(12)如下:

(11)

式(11)中,p用于平衡光譜角距離和歐式距離,γ用于平衡光譜信息和空間信息。

(12)

式(12)中,Xt表示第t個子集,NCt表示該子集包含的像元數量。

(2)第二步:利用已知標簽信息的訓練樣本標記子集內可能成為訓練樣本的像元,形成訓練樣本備選集。

(3)第三步:通過光譜相似性準則篩選備選集形成優化字典。具體實現方法如表2所示。

表2 結合聚類的字典優化

3.3 基于字典優化的聯合稀疏表示高光譜圖像分類

為了減少HSI數據冗余,本文采用基于層次聚類進行波段選擇降低數據維度,將處理后的HSI數據用于后續的分類;由于稀疏表示的分類方法依賴于訓練樣本,本文提出字典優化改善訓練樣本少而分類精度低的問題;最后,將字典優化后得到訓練字典用于聯合稀疏表示,對HSI進行稀疏重構,判斷HSI中每個像元所屬地物類別,得到分類結果。具體實現過程如表3所示。

表3 DO-JSRC算法

續表3

4 實驗分析

本次實驗仿真條件:電腦的運行內存8 GB、主頻3 GHz、處理器為Inter(R)Core(TM)i5- 8500,仿真平臺為MATLAB R2014a。通過Indian Pines數據集和Pavia University數據集驗證本文提出的基于字典更新的聯合稀疏表示高光譜圖像分類方法的分類效果,體現分類性能的評價指標有:總體分類精度(Overall Accuracy, OA)、平均分類準確率(Average accuracy,AA)和Kappa系數。將本文提出的算法DO-JSRC與SD-JSRC[18]、K-JSRC[11]、CODL[19]和cdSRC[20]四個算法進行對比。

4.1 數據集

Indian Pines數據集:該HSI數據包含145×145個像元,200個波段,由16個類別的地物組成。本文主要選取其中9個類別的地物進行實驗仿真,它們分別為Buildings-Grass-Trees-Drives、Corn-Mintill、Grass-Pasture、Grass-Trees、Hay-Windrowed、Wheat、Soybean-Mintill、Soybean-Clean、Woods,總共包含7425個像元,該地物分布如圖4所示。

圖 4 Indian Pines地物分布Fig.4 Indian Pines feature distribution

Pavia University數據集:該數據集包含610×340個像元,除去噪聲波段剩余103個波段,共包含9類地物,分別為Asphalt、Gravel、Bitumen、Meadows、Trees、Painted metal sheets、Bare Soil、Self-Blocking Bricks、Shadows。

4.2 參數設置

圖5 Indian Pines數據集參數p、γ對總分類精度的影響Fig.5 The influence of Indian Pines data set parameters p and γ on the total classification accuracy

本文提出算法的相關參數設置:字典優化中設置聚類迭代次數S=10。在Indian Pines數據集仿真實驗時,固定平衡空間信息與光譜信息的參數γ=1,如圖5所示,依據光譜角距離和歐式距離間的平衡參數p對總體分類精度影響,選定參數p=0.25;固定參數p=0.25,如圖5所示,依據參數γ對總體分類精度影響,選定參數γ=0.9,兩次實驗中訓練樣本數目均為30,子集個數設置為T=2500。

圖6展示了字典優化中不同子集數量時的總分類精度,將后續仿真實驗中Indian Pines數據集和Pavia University數據集的子集個數設置為T=2000和T=20000。在基于層次聚類的波段選擇方法中期望選取波段數目K對HSI分類的影響可通過總分類精度來驗證,根據圖7(a)選定Indian Pines數據集中基于層次聚類的波段選擇中的波段數量為K=60,根據圖7(b)選定Pavia University數據集中期望波段數K=40,兩個數據集的訓練樣本均為10。

圖6 字典優化中子集數量對總分類精度的影響Fig.6 The impact of the number of subsets in dictionary optimization on the total classification accuracy

圖7 波段數量對分類效果的影響Fig.7 The influence of the number of bands in the Indian Pines data set on the classification effect

4.3 仿真分析4.3.1 Indian Pines數據集

仿真實驗中,通過選取不同數量的訓練樣本組成字典對比幾個算法的分類效果,如表4所示,選取1、5、10、20、30、50、100、200八種不同原子個數的像元作為訓練樣本,對應剩余地物像元作為測試樣本,對比各個算法的分類效果。由于訓練樣本的選取是隨機的,不同訓練樣本的樣本質量不同會影響分類效果,因此本文的實驗結果均是重復10次實驗并對結果取平均值。將表4中的數據繪制成圖8所示的折線圖,可以更加直觀地展示不同字典原子對各個分類算法的影響,以及對比各個算法間的分類效果。使用不同的灰度值表示各個地物類別,生成對應的假色圖像,圖9是選取30個類字典原子時各個算法的分類結果。

從圖8可以清晰地看出每個算法的總分類精度均隨著字典原子個數的增加而提高,類字典原子個數從1個增加30個的過程中,各個算法的總分類精度的增幅較大,而后平緩。

圖8 Indian Pines 9類地物總分類精度Fig.8 The total classification accuracy ofIndian Pines 9 features

在類字典原子個數為1時,本文算法的總分類精度可以達到68.58%,相較于SD-JSRC、K-JSRC、CODL、cdSRC算法分別高出15.07%、18.38%、17.34%、18.71%,當類字典原子個數為5時,相較于SD-JSRC、K-JSRC、CODL、cdSRC算法分別高出9.35%、10.91%、7.71%、17.35%,當類字典原子個數達到10時,本文算法的總分類精度達到86.47%。從表4實驗仿真數據可以看出本文提出算法在已知地物類別的訓練樣本數量較少時也能夠達到較好的分類效果。

圖9展示了類字典原子個數為30時各個算法的分類效果,從圖中可以看出cdSRC算法每個類都存在錯分的現象,K-JSRC、CODL和SD-JSRC算法存在分類正確的類。而本文所提出算法能夠完全正確分類的地物類別相較于K-JSRC、CODL和SD-JSRC進一步提升,這里完全正確分類的地物類別有3類,可以看到本文算法的分類效果與標準地物分類更加接近。

表4 Indian Pines總體分類精度(%)

圖9 Indian Pines數據集分類結果Fig.9 Classification results of Indian Pines dataset

4.3.2 Pavia University數據集

本文選取類字典原子個數為30對各個分類算法進行驗證,如表5所示,通過平均分類準確率、總體分類精度和Kappa對比本文算法和SD-JSRC、K-JSRC、CODL和cdSRC幾個算法間的分類效果。圖10是各個算法分類結果生成的假色圖像,直觀地展示了分類效果。由于訓練樣本的選取是隨機的,實驗過程中對10次實驗結果取均值。

圖10 Pavia University數據集分類結果Fig.10 Classification results of Pavia University dataset

表5中可以看到相較于cdSRC算法和CODL算法,本文算法得到的Pavia University數據集的9種地物絕大部分的平均分類精度均有所提升,如:對于地物Gravel,本文算法的平均分類精度比SD-JSRC算法和K-JSRC算法、CODL算法、cdSRC算法分別提高1.86%、10.86%、2.87%、20.48%。本文算法的總分類精度達到93.04%,比SD-JSRC算法、K-JSRC算法、CODL算法、cdSRC算法分別提高了1.04%、3.77%、1.47%、15.18%,同樣Kappa也相應提升了1.24%、4.69%、1.89%、18.44%。

圖10展示了類字典原子個數為30時各個算法的分類效果,從圖中可以看出cdSRC算法的分類效果較差。K-JSRC算法、CODL算法和SD-JSRC算法的分類效果較cdSRC提升較大,本文的DO-JSRC算法通過對訓練樣本組成的字典進行選擇優化,進一步提升了分類精度,分類效果更接近真實地物。

表5 Pavia University數據集總體分類精度(%)

5 結論

本文提出了基于字典優化的聯合稀疏表示高光譜圖像分類算法。一方面,由已知標簽信息的訓練樣本標記可能加入訓練樣本備選集的像元,通過光譜相似度準則對備選集進行篩選優化字典;另一方面,為了降低高光譜數據維度,減少冗余,本文采取一種基于層次聚類的波段選擇方法,通過自適應距離增加聚類可靠度,減少噪聲波段的影響。在Indian Pines數據集和Pavia University數據集上進行實驗仿真,驗證本文提出的算法和幾個對比算法的分類效果,實驗結果表明本文提出算法能夠有效地提高分類精度,并且在訓練樣本較少的情況下也能獲得很好的分類效果。本文還有許多值得進一步研究的地方,例如,如何進一步增強算法的穩定性,減少由訓練樣本質量差異帶來的影響等。

猜你喜歡
訓練樣本字典波段
人工智能
字典的由來
大頭熊的字典
寬帶光譜成像系統最優訓練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識別算法
基于稀疏重構的機載雷達訓練樣本挑選方法
正版字典
M87的多波段輻射過程及其能譜擬合
日常維護對L 波段雷達的重要性
基于SPOT影像的最佳波段組合選取研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合