?

顧及時空感知的輕量級遙感影像變化檢測方法

2024-03-18 05:12孫雨生邢華橋項俊武王海航
科技創新與應用 2024年7期
關鍵詞:變化檢測十字交叉

孫雨生,邢華橋,項俊武,王海航

(山東建筑大學測繪地理信息學院,濟南 250101)

變化檢測是遙感領域的一個重要研究方向,其利用影像和圖像處理方法及數學模型,結合地物特征和相應的遙感成像機制,在多期遙感影像和同一地表區域的相關地理空間數據中過濾出不相干變化信息,找出感興趣的變化信息[1]。變化檢測通過識別地面物體在不同時期的影像變化,為城市規劃與重建、環境監測、災害評估等諸多領域提供研究依據,具有廣泛的應用場景[2]。

在實際大多數變化檢測中,常用方法仍然是目視解譯及人工手動勾畫,這種方法依賴于解譯人員的主觀判斷,解譯效果差、自動化程度低、局限性大。近年來,深度學習在計算機視覺、自然語言處理、語音識別等領域取得了突破性進展,引起了遙感領域的廣泛關注。早期研究者通過早期融合,一種將不同時相影像融合后輸入網絡的方法,處理多時相影像變化檢測問題,但這種方式導致不同影像特征相互影響,破壞了影像的高維特征,導致精度不高。Daudt 等[3]提出一種孿生的端到端的網絡模型FC-Siam-conc 和FCSiam-diff,通過通道拼接和計算絕對值的方式融合雙時相影像數據,基于跳躍連接實現孿生體系融合,從而實現比早期融合更高的精度,但模型表達泛化能力較低。

因此,上述模型不足以完成高分辨率變化檢測任務挑戰,本文提出一種顧及時空感知的輕量級遙感影像變化檢測方法,在雙時相的遙感影像檢測過程中,引入一種十字交叉時空注意力機制,并對模型的結構進行優化。本文設計的時空注意力模塊可以將此種時空注意力方便高效地應用于各級多尺度特征,而不必下采樣到固定的尺度,具有良好的多尺度特性。本文模型在大規模建筑變化檢測數據集上取得了較好的結果。

1 顧及時空感知的輕量級遙感影像變化檢測方法

1.1 總體思路

本研究模型的總體結構如圖1 所示,包括3 部分:編碼器、十字交叉時空注意力模塊、解碼器。編碼器用于提取雙時相遙感圖像的深層次特征,十字交叉時空注意力模塊用于細化提取變化特征和相應的語義特征,最后的解碼器用于得到該模型的變化檢測結果。

圖1 模型總體網絡結構

1.2 十字交叉時間注意力模塊結構

本文提出的十字交叉時空注意力模塊基于十字交叉注意力模塊(criss-cross attention,CCA)[4]構建,可分為十字交叉空間注意力模塊部分和十字交叉時間注意力模塊部分。十字交叉注意力模塊使得各時相圖像每個像素可以捕獲所有像素對它的長依賴。

其中,時間注意力模塊部分專注于建模雙時相影像變化信息,通過相似性函數自適應提取變化部分注意力,強化兩時期影像之間差異特征,模塊結構如圖2所示。

圖2 CCTA 模塊結構

為更有效地提取多時態像素間的關系,將十字交叉注意力模塊擴展成十字交叉時間注意力模塊(CCTA)可以有效地聚合橫縱方向上的、時空方向上的像素,與Non-local 網絡相比大大減少模型占用的內存和復雜度,增強了像素的表征能力。步驟是將多尺度地物特征圖輸入到CCTA 模塊,以獲取更具信息表達能力的特征。具體是對第一時相特征M和第二特征時相N輸入一個CCTA 模塊得到聚合多時相像素長依賴的特征M′、N′,之后循環經過CCTA 模塊,最終得到聚合信息更強具備更全面的特征空間表達能力的特征M″、N″。

十字交叉時間注意力模塊(CCTA)是通過2 個不同卷積層對地物特征圖M得到空間維度張量Q、V1,另外2 個不同卷積層對地物特征圖N得到空間維度張量K、V2,其中

式中:C′是特征的通道數小于C,獲得Q、K、V1、V2 后計算Q和K的親和度得到時間注意力權重矩陣

具體是Q在每個位置u上時得到向量QU∈RC′,同時,在K對應于該位置u的橫縱方向上可以得到向量KU∈RW+H-1,Ki,U是第i∈RW+H-1位置的KU。相似度計算公式因此可以定義為

式中:di,u所屬的D∈R(W+H-1)×(W×H)就是QU和Ki,U的相似度。將softmax 函數應用于D得到時間注意力權重矩陣

式中:softmax函數指歸一化指數函數將數字映射為0到1的數字。V1在每個位置u上可以得到向量V1U∈RC′,在V1對應于該位置u的橫縱方向上可以得到向量Φ1U∈RW+H-1。V在每個位置u上可以得到向量V2U∈RC′,在V2對應于該位置u的橫縱方向上可以得到向量Φ2U∈RW+H-1。因此,最終的聚合操作被定義為

式中:MU′是u位置上的M′∈RC×W×H,Ai,U是u位置第i個標量值的A,Φ1i,U是u位置第i個標量值的Φ1,Φ2i,U是u位置第i個標量值的Φ2。

1.3 十字交叉空間注意力模塊結構

與時間注意力模塊部分注重部分不同,空間注意力模塊部分專注于建模單時相影像內部空間信息,通過相似性函數自適應提取注意力,強化感興趣種類語義特征。

該模塊結構如圖3 所示,采用十字交叉注意力原理,圖像先通過編碼器獲得特征H,之后送入十字交叉空間注意力模塊(CCSA)獲得一個聚合了長依賴上下文信息的特征H′,由于H′只聚合了橫縱方向上的信息,特征不夠充分。所以,將H′再送入一個CCSA 模塊,獲得有更強表征能力的特征H″。因此,H″的每個像實際上都集合了所有像素的貢獻。前后2 個CCSA 模塊共享權重,避免過多參數。CCSA 模塊具有占用更少的內存,具備更高的計算效率,模型更高的精度等優點。

圖3 CCSA 模塊結構

1.4 編解碼器結構

本文權衡準確性與模型大小采用ESNet 模型[5]作為骨干編碼網絡。ESNet 基于ResNet,由4 個基本組件組成,包括下采樣單元、上采樣單元,分解轉換單元(FCU)及其并行版本。

本文使用了與PSPNet 類似的經典逐級上采樣解碼器。為了減少不同子區域間上下文信息的丟失,PSPNet[6]提出了一個有層次的全局先驗結構(金字塔池化模塊),包含不同尺度、不同子區域間信息,擁有在深層神經網絡的最終層特征圖上構造全局場景先驗信息的能力。

2 實驗與分析

2.1 實驗數據

使用公開的LEVIR-CD 數據集驗證實驗。LEVIR-CD 是一個大規模遙感建筑變化檢測數據集。LEVIR-CD 由637 個超高分辨率圖像塊對組成,大小為1 024×1 024 像素。LEVIR-CD 的作者提供了一個標準的訓練/驗證/測試拆分方式,分配70%的樣本進行訓練,10%用于驗證,20%用于測試。遵循作者提供的標準拆分方式,采用帶有128 像素重疊的裁剪方式,將一對1 024×1 024 像素影像裁剪為9 對512×512像素影像。

2.2 實施細節

在PaddlePaddle 框架上實現模型,并通過NVIDIA Tesla V100 32 GB 顯卡訓練模型。在訓練期間,通過隨機翻轉、隨機重新縮放、隨機旋轉、高斯模糊、隨機顏色抖動和隨機交換影像應用數據增強。使用交叉熵(CE)、AdamW 優化器訓練模型,使用的批次大小設置為16。使用余弦退火算法動態調節學習率,每20 輪循環一次。模型總共訓練100 輪。其中,選擇驗證數據集精度最高的保存模型,作為訓練結果。

2.3 對比實驗

本小節介紹本方法與其他幾種變化檢測方法在LEVIR-CD 數據集上的結果比較,包括FC-EF、STANet、BIT、ChangeFormer。本文應用了這些方法,并在相同的數據集上進行了實驗,前5 種評價指標取自對應論文實驗結果,最后一列為本文重現結果。

圖4 為各模型在LEVIR-CD 數據集上直觀的實驗結果,從圖中可以看出5 種方法可以很好地檢測出基本的變化目標。從整體上看本文提出的方法提取效果最好,定量比較結果見表1,準確率(Precision)、召回率(Recall)、F1 分數(F1-Score)、OA 的單位為%??倕盗?、總計算量單位為MB??傆嬎懔繛槟P屯ㄟ^形狀為(1,3,512,512)的特征的計算量。在這些指標上獲得更好的表現。

表1 在LEVIR-CD test 數據集上對比實驗定量總參數量結果

圖4 LEVIR-CD 數據集對比實驗結果

此外,本文網絡的參數量3.24 MB,總計算數據大小1 737.23 MB,顯著低于除了BIT 外其他方法,這表明本文在參數量較少的情況下,檢測精度更高,證明了本文方法較好地平衡了分割精度與計算效率。

3 結束語

近年來,變化檢測在土地資源管理、農林監測、自然災害監測與評估等相關領域有重要應用。本文通過引進十字交叉注意力,在參數量較少的情況下,實現了更高效的時空注意力機制,達到更高的檢測精度,在公開數據集上檢測精度F1 分數達到91.18,而模型參數量僅為3.24 MB。本文改進的時空注意力孿生網絡模型還存在一些不足,單獨應用時間與空間注意力均有較好的精確率表現,組合網絡檢測結果的精確率較低。下一步,一方面將對網絡結構進行修改、探索時空注意力的不同組合方式,一方面嘗試引入全局特征提取模塊,探索在Transformer 結構下,建模更高效的多尺度時空關系。

猜你喜歡
變化檢測十字交叉
用于遙感圖像變化檢測的全尺度特征聚合網絡
張竹君與中國赤十字會
基于多尺度紋理特征的SAR影像變化檢測
十字棋
“六法”巧解分式方程
基于稀疏表示的視網膜圖像對變化檢測
2018車企進階十字訣
巧用十字相乘法解題
基于Landsat影像的黃豐橋林場森林變化檢測研究
連一連
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合