?

基于元學習和K均值聚類的高分遙感影像變化檢測

2024-01-05 11:10許自昌
遙感信息 2023年5期
關鍵詞:變化檢測重構像素

許自昌

(1.中國地質大學 資源學院,武漢 430074;2.福建省地質測繪院遙感中心,福州 350011)

0 引言

地表覆蓋變化檢測與信息提取是測繪、規劃和土地等相關機構和職能部門日常工作的基礎環節,對提升城市管理水平、促進土地集約利用、改善人居環境具有重要意義[1-2]。隨著遙感數據獲取技術的不斷進步,高分影像數據成為包括地表變化檢測在內的各種應用的主流數據源,但空間分辨率提高使高分影像的光譜異質性增大,“同物異譜”“異物同譜”、陰影與細小地物對信息提取的干擾更為嚴重,基于高分影像的變化檢測也更具挑戰性[3]。

基于機器學習的方法是當前變化檢測領域的研究熱點,但是面對復雜多變的高分影像場景,單一的分類算法和固有的優化策略在高分影像變化檢測中并未展現出良好的泛化性能,難以適合用于所有類別的地表變化信息提取。近年來部分學者采用集成學習算法進行土地利用和土地覆蓋信息提取[4-6],均取得了較理想的檢測效果。集成學習是指對若干個個體學習器進行訓練,再采用一定的結合策略,充分利用各學習器的特性,形成一個強學習器。集成模型構建過程一般包括個體學習器生成和學習器組合輸出兩個步驟。常用的個體學習器生成策略有boosting[7]、bagging[8]、RSM[9]。boosting策略是通過算法迭代提升個體學習器精度,以加權平均形式輸出學習器組合模型的集成方案,更關注偏差降低。相較boosting策略,bagging更關注降低方差以增強個體學習器的多樣性。而RSM的特征空間抽取是比boosting的數據重賦權和bagging樣本抽取更有效地提升基學習器多樣性的策略。學習器組合方法可分為全員組合法和選擇組合法兩類。選擇組合法的相關研究較少,常用的全員組合法有投票法[10]、基于D-S證據理論的方法[11]、基于元學習的方法[12]等,其中元學習算法是一類將個體學習器產生過程和組合過程相結合的策略,通過將人工先驗知識獲取的手工特征翻譯為機器更易理解的抽象特征,對原始訓練集進行特征重構或合并,提升數據集的線性可分性。部分研究表明當原始數據特征維度較低時,將原始特征集與初級學習器產生的特征集組合重構,可擬合效果更佳的次級學習器判別模型。

鑒于此,本文從監督變化檢測算法的時間復雜度角度切入,提出一種基于元學習同/異質混合集成和K-means聚類分析的兼顧算法精度與效率的高分影像變化檢測模型,利用K-means聚類分析完成堆疊的訓練集分割出訓練子樣本集,提供多元次級學習器提煉輸出層的最終決策邊界,并利用雙重約束濾波優化初檢結果,從算法運行效率、泛化性能和檢測精度3個維度確保變化檢測結果魯棒可靠,為相關領域研究與工程實踐提供新的技術實現途徑,具有重要的理論意義與應用價值(圖1)。

圖1 基于元學習和K-means聚類的變化檢測

1 研究方法

本文選用梯度提升樹、隨機森林和極端隨機樹作為元學習的初級(組件)學習器。先通過5折交叉驗證分別訓練各組件學習器,并對原始訓練集和測試集進行預測,將各組件學習器的概率預測標簽作為抽象特征與原始樣本集的手工特征進行組合重構,再通過K-means算法對重構的訓練樣本集進行聚類分析,得到K個重構訓練樣本子集擬合邏輯回歸算法,輸出多元次級學習器,完成分類器混合集成模型的構建,最后測試階段首先度量重構測試樣本集中每個待分類像元與K個聚類中心的歐式距離,就近選擇判別像元的次級學習器完成最終分類。

1.1 基于K-means聚類和元學習的變化檢測算法

1)基于交叉驗證的樣本集特征空間重構。為提升元學習的泛化能力,避免過擬合現象,通過交叉驗證的形式分段訓練初級學習器進行樣本集特征空間重構。交叉驗證元學習算法流程如下。

設原始訓練樣本集RO為N×P維矩陣(N個樣本,每個樣本有P維特征),原始測試樣本集EO為M×P維矩陣,初級學習器(算法)為{Y1,Y2,…,YQ}(其中1,2,…,Q代表不同的初級學習器算法),次級學習器(算法)為L,元學習集成模型的目標就是通過初級學習器將RO和EO分別重構為N×(P+Q)維的堆疊訓練樣本集RF和N×(P+Q)維的堆疊測試樣本集EF,然后基于RF擬合次級學習器L,最后通過L處理EF輸出集成模型最終判別結果。

單種初級學習器的樣本集交叉驗證重構過程如圖2所示。首先對原始訓練樣本集RO進行5折劃分,復制5組大小相同的樣本集(圖2上部),每組樣本集包括1折臨時訓練集(4份藍色訓練集構成)和1折臨時測試集(1份橙色測試集),前者的樣本數是后者的4倍;其中,5組臨時測試集(橙色)互不重疊。利用第1折臨時訓練集擬合初級學習器算法Y1得到分類模型M11,并通過M11預測該折臨時測試集和原始測試樣本集的標簽,分別得到A11和B11,A11對應的位置索引為原始訓練樣本集中的后N/5條樣本。同理分別采用另外4折樣本集訓練-測試得到A12、A13、A14、A15并結合A11構成N×1維特征,將新特征加入RO構成新的訓練樣本集Rs(N×(P+1)維)。相應地,將B11、B12、B13、B14、B15組合成5維特征,計算它們的均值,產生M×1維新特征加入原始測試樣本集EO中構成新的測試樣本集Es(M×(P+1)維)。至此完成第一種初級學習器算法Y1的特征重構過程,同法獲取另外Q-1種學習算法的重構特征,組合最終的堆疊訓練樣本集RZ和堆疊測試樣本集EZ,通過RZ訓練次級學習器對EZ進行最終判別。

圖2 基于5折交叉驗證的元學習初級學習器生成過程

2)初級學習器的選擇。為權衡算法效率、泛化性能和分類精度,保證元學習集成模型的變化檢測結果魯棒可靠,本文綜合利用集成學習中的boosting和bagging的優點,選用梯度提升樹(gradient boosting decision tree,GBDT)、隨機森林(random forest,RF)和極端隨機樹(extreme random tree,ERT)3種集成算法構建元學習的初級層。

①梯度提升樹。GBDT是集成學習提升策略的代表算法,可用于處理回歸和分類問題,但基學習器都僅采用CART回歸樹。由于大多數損失函數的優化過程較為復雜,Friedman[13]提出通過求解損失函數的負梯度來逼近損失函數值最優解的優化方案,擬合回歸樹構建新的集成模型?;诖烁禄鶎W習器,可以降低基學習器的偏差,提升集成模型精度,本文選用GBDT作為元學習混合集成模型的一種初級學習器。在變化檢測二分類中,GBDT選用二項似然函數構建損失函數,然后計算它的負梯度值gm(xi),并通過gm(xi)擬合一棵包含J個葉節點的CART回歸樹,最后通過更新強學習器輸出最終集成模型FM(x)。

在測試階段,對于任一待分類像元xt,集成模型對其的預測值為p=FM(xt),通過二項似然對數將預測數值映射為二分類概率標簽。由式(1)計算出變化像元xt的概率P+(xt),則可判別未變化像元的概率為1-P+(xt)。

(1)

②隨機森林。bagging策略中最常用的算法是隨機森林,本文選用C4.5決策樹作為RF的基學習器。RF基于bagging的自主采樣策略,在運算過程中由于隨機過程的引入,RF的算法運行效率和泛比性能顯著提升,且對數據缺失不敏感,因此bagging是一種非常高效的集成策略。

③極端隨機樹。ERT是一種隨機森林的變種算法。ERT中沿用RF中的自助采樣和隨機特征子集策略,在決策樹擬合過程中,仍然通過信息增益率搜索每層決策樹樁的最佳分裂特征fi,但分裂特征值si則是在原始樣本集中特征f的所有取值里隨機選擇一個。由于ERT在生成過程中引入更多的隨機過程,在集成模型泛化性能方面通常優于RF。

3)基于K-means聚類分析的多元次級學習器。本文選用boosting算法(GBDT)和兩種bagging算法(RF和ERT)構建元學習算法的第1層,重構原始樣本集特征空間,快速提升樣本的可分離性。經上述混合集成處理后,原始訓練樣本集RO(N×P維)和測試樣本集EO(S×P維)被轉換為堆疊訓練樣本集RZ(N×(P+3)維)和堆疊測試樣本集EZ(S×(P+3)維)。通常元學習的第2層利用RZ擬合一個次級學習器L(如線性SVM、邏輯回歸等),對EZ進行最終判別。為提升集成模型的精度,本文在次級學習學習器生成過程中引入K-means聚類分析,構建多元次級學習器提煉輸出層的最終決策邊界,過程如下。

(2)

步驟4:將P1、P2和P3作為K-means算法的初始聚類中心,對堆疊訓練集RZ進行聚類分析,算法迭代結束時RZ被分割為3個子集RZ1、RZ2和RZ3,聚類中心更新為Q1、Q2和Q3。

步驟5:基于RZ1、RZ2和RZ3分別擬合3個邏輯回歸分類器L1、L2和L3,構建元學習的輸出層(次級學習器)。

步驟6:在分類階段,對于堆疊測試樣本集EZ中的任一待檢測像元u,首先計算它和Q1、Q2和Q3的歐式距離,根據就近原則選取相應的邏輯回歸分類器對其進行標簽判別。

步驟7:采用雙重約束濾波優化檢測結果。

1.2 雙重約束濾波優化處理

簡單線性迭代聚類(simple linear iterative clustering,SLIC)超像素分割算法[14]是對K-means的一種改進算法,算法復雜度較低,且分割所得的超像素塊能較好地保持與地理實體的邊緣一致性。SLIC算法中的K值用于指定生成的超像素塊數。本文按照Chen等[15]將SLIC超像素分割算法與高分影像空間鄰域信息相結合構建雙重約束濾波,優化集成模型的監測結果,減輕以像元為處理單元所產生的“椒鹽噪聲”,降低變化檢測誤檢率和漏檢率,提升檢測精度。雙重約束濾波優化過程如下。

步驟1:對雙時相影像的差值影像D進行SLIC分割。

步驟3:遍歷步驟2處理的二值影像中的所有像元,統計每個像元空間八鄰域的像元標簽,若變化像元數量大于等于6,則將鄰域中心像元設置為變化類別,產生最終的變化檢測結果圖。

雙重約束濾波優化通過步驟2分割對象邊界約束可有效抑制基于像元的檢測方案所產生的“椒鹽噪聲”,降低變化檢測誤檢率。通過步驟3挖掘空間上下文鄰域信息,可有效減少基于像元的檢測結果中的地理實體內部破碎現象,使檢測結果更加完整,降低變化檢測漏檢率。

2 實驗

2.1 數據源

本文選用WorldView-2和SPOT 5兩組雙時相高分影像為數據源(圖3),兩組數據源均通過ENVI 5.2進行數據預處理,處理內容包括輻射定標、大氣校正、幾何校正和G-S融合。SPOT 5影像包含綠、紅、近紅外、短波紅外和全色共5個波段,全色波段為2.5 m。兩景影像成像時間分別為2006年12月和2007年12月,區域位于廣東省清遠市,影像大小為512像素×512像素,主要變化為水體變成裸地,以及裸地變為植被。WorldView-2影像包含紅、綠、藍、近紅外和全色共5個波段,全色波段為0.5 m,多光譜波段均為1.8 m。兩景影像的成像時間分別為2012年11月和2016年10月,區域位于福建省福州市,影像大小為1 800像素×1 300像素。主要變化是植被、裸土和建設用地三者之間的轉換。

圖3 變化檢測的原始影像

2.2 實驗結果與分析

首先,對預處理后的雙時相影像的差值影像提取每個波段的光譜特征、GLCM 紋理特征和形態學特征,構建原始訓練樣本集,其中數據集1的紋理特征,方向設置為0°,掃描窗口大小為3像素×3像素,灰度量化等級為16;數據集2紋理特征的掃描窗口為5像素×5像素,其他參數設置同數據集1。兩個數據集的形態學結構算子均設置為圓形,掃描窗口為3像素×3像素。其次,通過提出的結合元學習和K-means的方案(MK,空間約束處理后為MK-SC)分別對兩組數據集堆疊重構進行變化檢測。對比算法包括GBDT、RF、ERT和HCM-SC[16]。

隨著基學習器數量的迭代增加,不同集成方法的學習曲線如圖4所示。從圖4可以看出,對于數據集1,GBDT、RF、ERT和MK的最佳基學習器個數分別為41、54、68和51,相應的錯誤像元數為8 658、9 504、9 164和6 095。數據集2相應的最佳基學習器個數和錯誤像元數分別為45、74、87、63以及167 565、174 236、160 807、101 473。算法HCM-CS對于兩組數據集的最佳基學習器個數分別是60和70,錯誤像元數分別為5 306和89 248。在算法迭代初期,隨著基學習器數量的增加,4種變化檢測方法的錯誤像元數均迅速降低。由于采用了最速下降法優化參數,兩組實驗中GBDT算法收斂時基學習器數量均少于對比算法,由于ERT在決策樹葉節點分裂階段比RF引入了更多的隨機過程,基學習器的多樣性隨之增強,因此需要更多基學習器(決策樹)來改善集成模型精度。兩組數據集中ERT的收斂決策樹棵樹大致為65和81,RF的收斂棵樹大致為50和68,且ERT的收斂精度均優于RF。本文算法綜合GBDT、RF和ERT 3種算法的特性,并通過交叉驗證和K-means聚類分析降低過擬合風險、提升算法精度,兩組數據集中MK的基學習器數量分別在50和60左右算法進入收斂。相較元學習集成前的3種算法,本文方法誤檢像元數最少。

圖4 不同基學習器個數下4種集成方法的學習曲線

表1展示了5種算法到達最佳變化檢測精度時(最佳基學習器個數)的運行時間。兩組數據集中,bagging系列算法(RF和ERT)的運行效率均優于GBDT;雖然ERT算法需要比RF算法更多的基學習器才能收斂至最佳精度,但由于決策樹生成過程中更多隨機過程的引入,ERT算法擬合單棵決策樹的平均時間和算法運行總時間都小于RF。本文提出的MK算法時間復雜度顯著低于HCM-SC。

表1 5種算法到達最佳變化檢測精度時(最佳基學習器個數)的運行時間

從圖5、圖6可以看出,兩組數據集中未經空間約束處理的4種方法(GBDT、RF、ERT和MK)的檢測結果均有“椒鹽噪聲”和不同程度的地理實體內部破碎現象。對于3種同質集成算法(GBDT、RF和ERT),綜合4種評價指標,數據集1的最優檢測算法是GBDT,針對影像中大面積水域變化以及東南側裸地到植被變化的檢測結果較為完整。ERT的總體精度略優于RF,但漏檢現象多于GBDT。由于數據集2的場景較為復雜,GBDT算法通過貪心策略尋求最優解,產生大量漏檢現象。相較而言,RF和ERT引入隨機過程使基學習器的多樣性大幅提升,檢測結果總體優于GBDT,其中隨機過程更強的ERT表現出可觀的檢測效果,4種評價指標均優于RF。因此適當提升基學習器的多樣性、增強學習器之間的差異可提升復雜場景的變化檢測效果。此外,3種同質集成算法在兩組數據集中均有大面積的漏檢區域和較多的誤檢碎斑,數據集1的漏檢區域主要集中在影像東北側裸地到植被的部分偽變化和陰影區域。數據集2漏檢區域主要為影像西北部和南部從植被-裸地混合區域到建設用地的轉換。

圖5 數據集1變化檢測結果

圖6 數據集2變化檢測結果

本文提出的元學習-聚類分析混合集成模型(MK)綜合3種同質集成算法的特性,檢測結果中誤檢和漏檢現象得到明顯改善,4種精度評價指標均優于混合集成前的同質算法。經空間約束優化后(MK-SC)的檢測結果中大量“椒鹽像元”被濾除,總體精度和誤檢率得到改善,但由于部分被正確檢測的細小地物以及地理實體內部的少量不連續像元被“誤刪”,如表2、表3所示MK-SC的漏檢率相對于MK有略微提升(數據集1為0.132 1和0.128 3,數據集2為0.215 2和0.201 0)。值得說明的是,本文構建的混合集成模型的綜合精度評價結果僅略低于HCM-SC算法,但算法運行時間卻大幅縮短,MK對于兩個數據集的處理耗時分別為40.843 s和417.308 s,而HCM-SC對于兩個數據集的處理耗時分別為570.495 s和15 121.635 s。

表2 數據集1變化檢測精度評價

表3 數據集2變化檢測精度評價

3 結束語

本文結合元學習和K-means聚類分析實現的混合集成高分影像變化檢測算法通過快速重構原始樣本集特征空間、增強數據集的線性可分離性,在保證泛化性能和檢測精度的同時提高了分類效率,為變化檢測提出新的研究思路,結論如下。

1)元學習算法可對不同策略的同質集成算法(boosting和bagging)進行混合異質集成,在降低基學習器的偏差的同時也能降低基學習器的方差,是一種處理集成學習中基學習器精度-多樣性權衡難題的有效途徑。

2)通過交叉驗證策略進行元學習的堆疊樣本集重構,可有效避免算法過擬合風險。而通過K-means聚類分析提煉元學習輸出層的決策邊界,構建多元次級學習器的元學習混合集成模型能有效處理復雜場景變化檢測任務。

3)元學習混合集成策略的變化檢測精度雖然略低于HCM-SC算法,但前者的算法運行效率顯著優于后者,更適合用于海量時序高分遙感數據源的變化檢測工作。

本文提出的基于元學習同/異質混合集成和K-means聚類的高分影像變化檢測方法可在較高檢測精度下大幅縮減集成算法的運行時間,從算法運行效率、泛化性能和檢測精度3個維度確保變化檢測結果魯棒可靠,但針對建筑物密集的復雜地表,檢測結果仍有待提升。同時,如何合理選擇異質弱分類器并針對其特定的組合構建高效、魯棒的集成策略,如何將該方法拓展到多類變化檢測樣本自動選擇均是后續研究的重點和努力的方向。

猜你喜歡
變化檢測重構像素
趙運哲作品
用于遙感圖像變化檢測的全尺度特征聚合網絡
像素前線之“幻影”2000
長城敘事的重構
基于多尺度紋理特征的SAR影像變化檢測
“像素”仙人掌
基于稀疏表示的視網膜圖像對變化檢測
北方大陸 重構未來
基于Landsat影像的黃豐橋林場森林變化檢測研究
北京的重構與再造
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合