?

遙感圖像跨域語義分割的無監督域自適應對齊方法

2024-01-08 02:50沈秭揚管海燕
測繪學報 2023年12期
關鍵詞:源域語義精度

沈秭揚,倪 歡,管海燕

南京信息工程大學遙感與測繪工程學院,江蘇 南京 210044

地物分類(語義分割)是遙感地學分析的基礎,得到了廣泛研究。這些研究引入經典的機器學習方法和深度學習技術,推動了遙感圖像語義分割的自動化和實用化。經典的機器學習方法,如支持向量機[1]、人工神經網絡[2]、決策樹[3]、隨機森林[4]及自適應增強[5]等,難以建模深層特征空間的語義信息,難以在遙感圖像語義分割任務中取得精度突破。深度學習方法,如卷積神經網絡[6-7]、圖卷積網絡[8]、Transformer[9]及多模態融合[10]等,有效建模高層次語義信息,進一步提高了遙感圖像語義分割精度。但是,深度學習模型要求用于訓練的源域數據與目標域數據間服從同一分布。在成像傳感器和地理環境不同時,同分布要求無法滿足,即源域和目標域之間存在域偏移,阻礙了深度學習模型的泛化能力。如圖1所示,直接將訓練好的模型應用于存在域偏移的目標域數據集上,難以取得預期結果[11]。因此,如何將模型遷移到存在域偏移的目標域數據集上,是當前遙感領域需要解決的重要問題[12]。

圖1 源域模型在源域和目標域的分割結果對比Fig.1 The comparison between segmentation results produced by source-domain model in source and target domains

目前,無監督域自適應是解決域偏移問題的有效方法,僅利用源域標簽進行訓練,便可得到適用于目標域的語義分割模型。無監督域自適應方法分為兩大類[13],即基于差異測度和基于生成對抗網絡(generative adversarial nets,GAN)[14]的方法?;诓町悳y度的方法通過不同測度,如MMD(maximum mean discrepancy)[15-16]、CORAL(correlation alignment)[17-18]及CMD(central moment discrepancy)[19]等,來衡量源域和目標域之間的差異,進而實現差異最小化?;贕AN的方法根據應用方式的不同,又可分為兩個子類。第1類利用GAN的重構能力,如通過CycleGAN[20]、ColorMap GAN[21]和ResiDualGAN[22]等方法對源域圖像進行風格轉換,并對轉換后的源域圖像進行監督訓練,從而緩解域偏移問題;第2類則使用GAN在特征[23]或輸出[24]空間進行對抗學習,并引入實例[25]和類別[26-27]信息,提取穩健的域不變特征?;贕AN的方法在遙感圖像語義分割域自適應任務中應用更為廣泛,但由于對抗學習過程的復雜性,GAN難以同時拓展到多個空間?;诖?本文舍棄GAN思想,采用基于差異測度的方法,引入最優傳輸理論,從數學角度構建源域和目標域對齊途徑,并充分利用圖像、特征和輸出空間信息。

基于最優傳輸理論的域自適應思想通過減小域間的Wasserstein距離來對齊源域和目標域分布[28]。該思想首先利用最優傳輸,根據目標域特征遷移源域圖像,然后對遷移后的源域圖像進行監督學習,并引入參考分布[29]、空間原型信息[30]和注意力機制[31],提高跨域泛化能力。通過最優傳輸與域自適應理論的結合,模型能夠以一種合理的幾何方式衡量源域和目標域的特征分布差異[32-33]。但是,目前基于最優傳輸的域自適應方法主要面向自然圖像分類任務,即每一張圖像僅對應一個標簽,尚無法充分顧及高分遙感圖像語義分割任務需求。為彌補以上問題,本文基于最優傳輸理論,提出一種顧及多空間分布對齊的全局域自適應方法,以解決高分遙感圖像語義分割的域偏移問題。本文方法的核心即在圖像空間、特征空間和輸出空間,利用最優傳輸理論來減輕源域和目標域的分布差異。本文的創新點如下:①將最優傳輸理論引入遙感圖像語義分割域自適應任務,給出了整合最優傳輸與語義分割域自適應框架的具體方案;②構建了一種基于最優傳輸的全局域自適應模型,與現有方法相比,進一步減弱了域偏移影響,取得了更高精度。

1 基于最優傳輸的無監督域自適應方法

本文方法具體分為3個部分:圖像空間風格遷移、特征空間和輸出空間對齊。方法的整體框架如圖2所示,首先在圖像空間計算源域圖像和目標域圖像之間的最優傳輸矩陣,利用最優傳輸矩陣將源域圖像風格轉換至目標域;其次將轉換后的源域圖像、目標域圖像輸入語義分割網絡,同時獲取源域和目標域的深度特征(對應特征空間)和模型預測(對應輸出空間);再次計算源域和目標域特征空間Wasserstein距離(earth mover distance,EMD),作為特征空間損失;然后在輸出空間計算源域和目標域之間的EMD,作為輸出空間損失;同時為保證模型穩定性,將源域輸出空間結果進行上采樣,作為源域預測結果,利用源域標簽計算交叉熵損失,實現源域監督學習;最后將訓練好的模型應用于目標域圖像,以完成目標域語義分割。

注:OT為最優傳輸;Lossfeature為特征空間損失;Lossoutput為輸出空間損失;Lossseg為語義分割損失。圖2 本文方法框架Fig.2 Framework of the proposed method

本文采用基于ResNet101[34]的DeepLab-V2框架作為語義分割網絡,并遵循文獻[24]的做法,移除最后一個分類層,將最后兩個卷積層的步長從2修改為1,使得輸出特征的尺寸是輸入圖像的1/8;網絡在最后兩個卷積層中應用擴張卷積以增大感受野,其步長分別為2和4;在特征提取后,使用ASPP(atrous spatial pyramid pooling)[35]作為最終預測層。

1.1 最優傳輸和域自適應

最優傳輸[36]理論可以找到從一個分布ds(如源域分布)至另一個分布dt(如目標域分布)的最優映射方案。具體而言,最優傳輸在ds和dt之間搜索一個具有最小傳輸成本的概率耦合γ∈Π(ds,dt),如式(1)所示

(1)

式中,c是成本函數,可以用來衡量源域樣本xs和目標域樣本xt之間的差異。Tds,dt可以進一步定義ds和dt之間的p階Wasserstein距離,具體為

(2)

式中,d(xs,xt)p是一種距離度量,對應式(1)中的成本函數c(xs,xt)。Wasserstein距離在計算機視覺領域也被稱為EMD[37]。

在本文的域自適應問題中,源域和目標域的分布ds和dt只能通過離散樣本獲取,故離散化后的最優傳輸公式為

(3)

1.2 圖像空間最優傳輸

T(xs)=(xs-μs)·A+μt

(4)

式中,A為傳輸矩陣;xs和xt分別表示源域和目標域樣本。值得注意的是,可行傳輸矩陣A的結果不唯一,但最優可行解,即最優傳輸矩陣不存在多個解[38]。通過最優傳輸可以找到一個最優的映射T來最小化源域和目標域分布之間的距離,即

(5)

式中,c的含義和式(1)中的含義一致,即成本函數,本文采用歐氏距離形式。式(5)對應的最優傳輸矩陣為

(6)

圖像空間最優傳輸的具體步驟如下:

(1) 統計源域和目標域圖像色彩空間分布直方圖,獲取源域和目標域色彩分布參數μs、Σs、μt、Σt;

(2) 根據式(6),計算最優傳輸矩陣A;

(3) 利用式(4)對源域圖像xs進行轉換,得到具備目標域色彩風格的源域圖像T(xs),如圖2圖像空間部分所示。

1.3 特征空間與輸出空間最優傳輸

文獻[33]提出DeepJDOT方法,最早將JDOT[32]引入深度學習域自適應任務。但是,該方法僅在特征空間進行最優傳輸,且僅可以應用于圖像分類任務。在語義分割任務中,所需傳輸的樣本數量遠大于圖像分類任務,直接將DeepJDOT應用于語義分割任務是不現實的。若降低輸入圖像尺寸,則會增加特征空間匹配難度,導致源域和目標域特征錯誤匹配、傳輸,降低整體域自適應效果。

針對上述問題,本文提出了以下解決方案:①在不降低輸入圖像尺寸的情況下,在特征空間進行下采樣,進一步壓縮需要匹配的樣本數量,在保證特征能夠成功匹配的情況下降低最優傳輸計算量;②在輸出空間進行最優傳輸,通過輸出空間類別邊緣分布保證源域和目標域對齊。

特征空間和輸出空間的優化過程為

(7)

1.3.1 特征空間最優傳輸

在特征空間,本文采用L2距離衡量源域和目標域特征之間的差異,即

(8)

進而,特征空間的損失函數為

(9)

1.3.2 輸出空間最優傳輸

輸出空間包含重要的類別分布信息,通過輸出空間對齊,可以減弱源域和目標域的類別分布差異。具體而言,本文采用L2距離衡量源域和目標域輸出空間距離,即

(10)

進而,輸出空間的損失函數為

(11)

1.4 模型優化

為了保證所提出方法的基礎性能,本文添加源域監督學習過程,即根據源域圖像的預測結果和其對應的標簽信息,計算交叉熵損失,具體為

(12)

結合特征空間與輸出空間的損失函數,整體模型優化損失為

Loss=Lossseg+β1Lossfeature+β2Lossoutput

(13)

式中,β1、β2為特征空間和輸出空間最優傳輸損失的控制參數。默認設置為β1=0.01,β2=0.01。

需要說明的是,圖像空間風格遷移,特征空間、輸出空間最優傳輸,源域監督學習的損失函數計算可以在同一次訓練中進行;即本文方法不需要單獨訓練源域模型,域自適應過程與源域監督學習可以同步進行,有效減少了人工干涉,縮短了訓練時間,進一步提高了模型自動化能力。

2 試 驗

2.1 試驗數據與精度評價指標

本文使用國際攝影測量與遙感學會(ISPRS)所提供的兩個高分航空遙感數據集,即Potsdam數據集和Vaihingen數據集。其中Potsdam數據集由38張6000×6000像素圖像組成,分辨率為0.05 m,包括IRRG和RGB兩種波段組合;涵蓋6個常見地物類別,即不透水層、車輛、樹木、低矮植被、建筑物和背景。Vaihingen數據集由33張大小不一的圖像構成,圖像平均大小為2000×2000像素,分辨率為0.09 m,具備與Potsdam數據集相同的地物類別體系,但僅有IRRG波段組合。如圖3所示,Potsdam數據集和Vaihingen數據集在圖像色彩、地物外觀及尺度上均存在較大差異,這為跨域語義分割任務帶來了挑戰。為定量評估方法性能,本文使用當前主流的交并比(intersection over union,IoU)指數來評估各類別分割精度。同時,本文引入所有類別的IoU精度平均值(mean intersection over union,mIoU),以衡量模型的整體性能。

圖3 ISPRS Potsdam數據集和Vaihingen數據集Fig.3 ISPRS Potsdam datasets and Vaihingen datasets

2.2 試驗設置

為了充分驗證所提出方法有效性,本文對Potsdam數據集IRRG→Vaihingen數據集IRRG、Vaihingen數據集IRRG→Potsdam數據集IRRG、Potsdam數據集RGB→Vaihingen數據集IRRG、Vaihingen數據集IRRG→Potsdam數據集RGB這4組跨域場景進行試驗。試驗使用Pytorch框架和單個NVIDIA GTX 2080Ti顯卡進行訓練,并使用動量為0.9、權重衰減為5×10-4的SGD算法優化網絡。試驗初始學習率lr設置為5×10-4,并以0.9的冪進行多項式衰減

(14)

式中,iter為迭代次數;max_iter是最大迭代次數;max_iter設置為50 000。訓練時,模型隨機裁切源域圖像為1000×1000像素的圖像塊進行訓練,并隨機進行圖像豎直翻轉和水平翻轉等增強處理;測試時使用1000×1000像素的滑動窗口進行整幅圖像預測。

關于超參數β1和β2的設置,本文通過Potsdam數據集IRRG→Vaihingen數據集IRRG的試驗進行了驗證。β1和β2代表特征空間和輸出空間最優傳輸在整個訓練過程中的影響權重,數值越大,模型在訓練過程中對域遷移關注度越高。β1和β2數值為0.010 0時,本文方法取得最高精度(表1和表2)。在逐步增大β1和β2過程中,模型精度略有下降,這是由于模型過度關注源域和目標域分布對齊,而忽略源域語義分割監督訓練的結果;在逐步減小β1和β2的過程中,模型精度也緩慢下降,這說明特征空間和輸出空間域遷移對精度提升的積極作用。因此,本文將β1和β2的默認值設置為0.010 0。

表1 超參數β1的選擇

表2 超參數β2的選擇

為說明本文方法的優勢,本文與5種代表性域自適應方法進行了對比。這些方法包括CycleGAN[20]、AdaptSegNet[24]、SIM(stuff instance matching)[25]、CaGAN(class-aware generative adversarial network)[26]和UDA方法[27]。這些方法的語義分割模型均為基于ResNet101的DeepLab-V2。此外,本文加入了“僅源域”(即僅在源域進行監督訓練,直接用于目標域預測),并將僅源域訓練精度作為幾組試驗的基線精度。

2.3 試驗結果與分析

2.3.1 精度對比與分析

試驗精度結果見表3—表6,其中僅源域訓練精度最低,這說明不同域之間存在分布偏差,單純源域訓練所得到的模型難以在目標域上取得較高精度。此外,如表3和表4、表5和表6的精度差異所示,即便訓練任務中源域和目標域存在相同的域偏移,但由于遷移順序的差異,仍會帶來不同的精度結果,且圖像數量較多的源域具備更加多樣化的特征分布,可以在遷移至目標域時取得更高精度。CycleGAN方法在Vaihingen數據集→Potsdam數據集遷移任務中,即表4和表6中,較好地減弱了低矮植被與樹木兩個類別的域偏移問題,但在其他地物類別上精度較低,如表4的不透水層和表6的車輛,相對于僅源域訓練的精度有所下降,且CycleGAN方法的mIoU指數提升并不明顯,這表明單一的圖像空間風格遷移并不能較好地解決域偏移問題。AdaptSegNet方法在多組試驗中的表現相對較好,但由于缺乏圖像空間色彩分布和特征空間高維特征分布對齊,其在復雜的跨域任務Vaihingen數據集IRRG→Potsdam數據集RGB中表現較差,建筑物類別精度相對于僅源域訓練精度有所下降;引入實例和類別信息的SIM、CaGAN和UDA(Chen)方法,進一步緩解了域偏移問題,保證了各類別精度的穩步提升。相比于其他方法,本文方法通過結合多個空間最優傳輸優勢,在僅源域訓練的精度基礎上,取得了顯著的精度提升(表3—表6),mIoU指數分別提高了17.39%、22.02%、16.91%、17.84%,且高于其他方法,這表明多空間最優傳輸相結合可以有效提高模型總體的域自適應能力。

表3 Potsdam數據集IRRG→Vaihingen數據集IRRG精度結果

表4 Vaihingen數據集IRRG→Potsdam數據集IRRG精度結果

表5 Potsdam數據集RGB→Vaihingen數據集IRRG精度結果

表6 Vaihingen數據集IRRG→Potsdam數據集RGB精度結果

2.3.2 可視化結果與分析

可視化結果如圖4—圖7所示。在所有測試方法中,僅源域訓練的結果最差,在目標域圖像場景復雜度較高時(如圖6(c)和圖7(c)所示),地物的邊界完全模糊,預測類別混亂,僅在少量結果中可以看到建筑物的大致輪廓。CycleGAN能夠較好解決因色彩差異而導致的域偏移問題,但由于缺少高維特征分布對齊,地物邊界存在模糊不清現象,背景類與其他類別混淆嚴重。AdaptSegNet方法相比于CycleGAN方法具備一定優勢,但在源域和目標域圖像波段組合不同時,如圖6(e)、圖7(e)所示,建筑物、低矮植被與背景的分類結果混淆,部分區域存在明顯誤判現象。CaGAN在輸出空間對抗訓練的基礎上添加了類別信息,進一步緩解了模型在部分類別中的錯分問題,但地物邊界仍然模糊,且由于高維類別特征分布差異較大,簡單的類別特征分布對齊反而帶來了負遷移問題,即未能找到源域和目標域分布的合理對齊方式。如圖4(a)和圖6(d)結果所示,CaGAN將建筑物錯分為背景,可視化結果不及AdaptSegNet;SIM和UDA(Chen)方法也存在諸多誤判現象,但它們分別采用實例對齊和判別器逐類判別過程,部分解決了遙感圖像復雜的類內差異所引起的遷移困難問題。

圖4 Potsdam數據集IRRG→Vaihingen數據集IRRG可視化結果Fig.4 The visual results of Potsdam IRRG→Vaihingen IRRG

圖5 Vaihingen數據集IRRG→Potsdam數據集IRRG可視化結果Fig.5 The visual results of Vaihingen IRRG→Potsdam IRRG

圖6 Potsdam數據集RGB→Vaihingen數據集IRRG可視化結果Fig.6 The visual results of Potsdam RGB→Vaihingen IRRG

圖7 Vaihingen數據集IRRG→Potsdam數據集RGB可視化結果Fig.7 The visual results of Vaihingen IRRG→Potsdam RGB

本文提出多空間結合的最優傳輸域自適應方法,能夠有效結合多空間最優傳輸優勢,在保持地物邊界的同時有效區分紋理和色調相近的地物,提高了模型在目標域上的分割效果。如圖4(c)所示,本文方法較好地分類了低矮植被,未出現其他方法中常見的低矮植被與背景的混淆問題,這緣于最優傳輸可以在分布間差異較大情況下,提供具備完備幾何意義的距離度量,這對遙感圖像復雜場景的分割任務是至關重要的。此外,如圖6、圖7所示,即便在復雜遷移任務中,本文方法也能夠清晰界定地物輪廓,內部噪聲較少,相對準確地識別復雜形態地物(如樹木)。

2.3.3 模型復雜度分析

為了定量評估模型效率,本文采用參數量和計算量(floating-point operations per second,FLOPs)兩個指標,在輸入圖像尺寸(512×512像素)相同情況下,測試模型運算的復雜度,具體結果見表7。其中,CycleGAN的參數量和FLOPs值顯著高于其他方法;本文方法的參數量和FLOPs值最小。這表明,相對于采用GAN的域自適應方法,包括CycleGAN,AdaptSegNet,SIM,CaGAN和UDA(Chen)方法,本文方法的模型復雜度更小,訓練更加便捷。

表7 測試模型的參數量和FLOPs

2.4 消融試驗與分析

為驗證本文方法各模塊的有效性,本文在Potsdam數據集IRRG→Vaihingen數據集IRRG遷移任務上進行了消融試驗,表8和圖8顯示了每個模塊及其不同組合的作用和可視化效果。在單空間對齊測試中,輸出空間最優傳輸的測試精度最高(mIoU指數達到46.88%),這緣于輸出空間同時包含幾何和類別信息。同時,即便特征空間維度較高,最優傳輸理論仍然可以充分考慮特征中隱含的幾何結構,因此,特征空間最優傳輸也能取得精度提升(mIoU指數達到42.11%)。此外,在圖像空間最優傳輸和輸出空間最優傳輸的可視化結果中,地物類別更加準確,而在特征空間最優傳輸的可視化結果中,地物邊界的界定則更加清晰(如上方建筑物)。

表8 消融試驗精度分析

圖8 消融試驗可視化結果Fig.8 The visual results of ablation study

在多空間組合對齊測試中,精度普遍高于單空間對齊,這說明多空間最優傳輸可以有效提高跨域語義分割精度。將圖像空間與特征空間或輸出空間最優傳輸進行結合(即圖像空間+特征空間最優傳輸,圖像空間+輸出空間最優傳輸),可獲取相對完整的預測結果,地物邊界相對清晰,類別錯分現象有所減少,有效消除單輸出空間或特征空間最優傳輸結果中出現的過分割現象。將圖像空間、特征空間和輸出空間最優傳輸相結合(即本文方法),能夠獲取清晰準確的地物邊界,地物內部缺失問題得到改善;并且,圖中右側部分車輛和樹木細節的分割結果也較好。這與表8的定量化精度結果相呼應,圖像空間、特征空間和輸出空間最優傳輸相結合所取得的精度最高(mIoU指數達到53.83%)。這說明基于最優傳輸構建的單空間對齊模塊可以簡單而有效的結合在一起,充分發揮各個模塊的優勢,提高整體域自適應性能。

3 總 結

本文提出了一種基于最優傳輸理論的無監督域自適應方法,用于解決遙感圖像跨域語義分割時普遍存在的域偏移問題。首先,本文利用最優傳輸理論構建了一種更為簡單的色彩映射方法,在圖像空間進行風格遷移,減弱圖像空間域偏移影響;然后,將最優傳輸引入語義分割無監督域自適應框架,分別在特征空間和輸出空間使用最優傳輸理論計算損失,減輕數據分布差異,提升了模型的跨域語義分割性能。試驗引入Potsdam數據集和Vaihingen數據集,利用IoU指數,對本文方法進行測試。結果表明,相對于其他單一空間域自適應方法,本文方法能夠有效結合高維特征空間、輸出空間與圖像空間域自適應方法優勢;在不同域遷移任務中,本文方法皆表現出較為明顯的優勢,得到了更高的跨域語義分割精度。

本文方法尚未充分研究并細化源域和目標域潛在的類間關系,在后續研究中,將對該問題進行深入研究,尋求突破。

猜你喜歡
源域語義精度
基于參數字典的多源域自適應學習算法
語言與語義
基于DSPIC33F微處理器的采集精度的提高
“上”與“下”語義的不對稱性及其認知闡釋
GPS/GLONASS/BDS組合PPP精度分析
可遷移測度準則下的協變量偏移修正多源集成方法
改進的Goldschmidt雙精度浮點除法器
認知范疇模糊與語義模糊
巧用磨耗提高機械加工精度
語義分析與漢俄副名組合
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合