?

基于改進深度子域適應網絡的圖像分類方法

2024-01-10 17:05郝海燕
沈陽理工大學學報 2024年1期
關鍵詞:源域準確率卷積

郝海燕,李 芳

(沈陽理工大學信息科學與工程學院,沈陽 110159)

以深度學習為基礎的圖像分類方法是計算機視覺中應用最廣泛的技術之一。 為成功構建圖像分類系統,需預先為每個特定的分類任務提供數量足夠的標注數據集,且要保證測試數據和訓練數據具有相同的數據分布[1]。 然而,人為采集的數據由于光照強度、拍照角度和使用場景各不相同,對其進行標注極為繁瑣耗時,且對于醫學影像、稀有動植物等特殊領域標準數據集的獲取十分困難[2]。 此外,由于不同領域的數據分布存在差異,現有數據集訓練出來的模型往往難以在有別于訓練環境的目標領域保持良好的泛化性能,使得源領域的知識難以遷移到目標領域,即存在領域偏移[3]。 針對上述問題,人們提出了基于遷移學習的領域自適應方法,利用源領域中豐富的標記數據提高目標領域中未標記數據的分類準確率[4],從而改善模型在跨領域任務中的性能。

領域自適應方法按特征對齊方式分為兩類:以度量學習為主的域適應方法和以對抗學習為主的域適應方法。 基于度量學習的域適應方法中用于衡量域與域之間分布差異的指標包括KL 散度、最大均值差異(maximum mean discrepancy,MMD)、沃瑟斯坦(Wasserstein)距離等[5]。 Pan等[6]將KL 散度與原型網絡相結合,提出了可移植原型網絡(TPN),使得源域和目標域中每個類的原型在嵌入空間中均比較接近。 Pan 等[7]使用MMD 衡量邊緣分布的差異,并據此提出遷移成分分析(TCA)方法,實現了源域知識到不同但相關目標域的轉移。 Li 等[8]基于TCA 提出了一種局部保留聯合分布適配(LPJT)方法,將兩個域的樣本映射到一個低維特征空間,實現了條件概率分布和邊緣概率分布的最小化。 基于對抗學習的域適應算法通過在域判別器上施加一個對抗性目標,將域間分布差異的度量轉化為對源域和目標域進行領域混淆,從而使兩個領域的特征分布盡可能一致。 Ganin 等[9]將生成對抗網絡(GAN)的思想應用到域適應問題中,提出了域對抗神經網絡(DANN),利用對抗學習方法對特征提取器和域判別器進行優化,實現了源域到目標域的知識遷移。 Shen 等[10]提出了Wasserstein 距離引導表示學習(WDGRL)方法,通過優化特征提取器,以對抗的方式降低了源域樣本和目標域樣本之間的經驗Wasserstein 距離。 Tzeng 等[11]將對抗性學習與判別性特征學習相結合,提出了對抗判別域適應(ADDA)方法,通過非權重共享的方式完成源和目標的獨立映射,從而學習更多領域特定的可提取特征。

與更細粒度的基于對抗學習的方法相比,基于度量學習的方法收斂更容易、收斂速度更快,但分類準確率較低。 Zhu 等[12]提出的基于度量學習的深度子域自適應網絡(DSAN)則在保證收斂速度的同時,達到甚至超過了目前主流的基于對抗學習算法的分類準確率。 但DSAN 算法尚存在的問題有:缺少對數據集的處理,易在多種多樣的跨域任務中出現過擬合現象;僅通過卷積運算提取特征,無法區分哪些特征更重要,導致丟失許多有價值的信息;只在子領域進行對齊,導致對全局特征的關注度不夠,影響特征對齊效果。

針對以上問題,本文在DSAN 的基礎上引入卷積神經網絡正則化方法,加強模型在不同跨域任務中的泛化能力;加入高效通道注意力機制,使模型在提取特征時關注特征在通道間的關系,提取輸入圖像中的關鍵信息;增加全域適應損失約束,增強模型同時對齊全局特征和局部特征的能力,促使模型在訓練過程中學習到更多用于域自適應的可轉移特征,提升模型在無標簽目標域上的分類準確率。

1 網絡結構與原理

1.1 深度子域適應網絡

DSAN 算法采用類別作為劃分子領域的依據,其模型結構如圖1 所示。 圖中:Xs為源域數據;Xt為目標域數據;Ys表示源域數據的真實標簽;和分別表示網絡模型預測的源域和目標域數據標簽;Zsl和Ztl分別表示Xs和Xt在l層激活(l=1,2,…,L),L表示神經網絡的層數,在深度網絡的第l層進行特征適應需將l層作為激活層。Xs和Xt通過深度神經網絡時被映射到同一個特征空間,經過特征提取后,兩個域的數據均被劃分為若干個子領域,分別在l層的同一子域內對Ys和使用局部最大平均差異(local maximummean discrepancy,LMMD)計算源域和目標域數據分布的距離,通過使相關域的數據分布保持一致來減少域間的特征差異。

圖1 DSAN 模型結構Fig.1 DSAN model structure

1.2 改進深度子域適應網絡

1.2.1 神經網絡正則化

為使源域上訓練的模型在目標域上仍有良好的表現,需要提高模型的泛化能力。 DSAN 僅采用隨機水平翻轉的方式對訓練集數據進行增強,該方式對模型在不同域適應任務中泛化能力的提升有限。

Dropout 是一種卷積神經網絡正則化方法[13],Cutout 是基于Dropout 的擴展操作,Dropout 對經過網絡提取后生成的圖像特征進行遮擋,而Cutout 直接遮擋輸入的圖像,對噪聲的魯棒性更好。 Cutout 通過在輸入圖像中隨機選取一固定比例的正方形區域,將這一區域的像素值設定為0 或其他統一值,從而對訓練數據集進行加噪處理,防止模型過度擬合,同時增加數據集的多樣性,進而提升模型在不同數據集上的泛化能力。經Cutout 處理后的數據集如圖2 所示。

圖2 經Cutout 處理后的數據集Fig.2 Data sets after Cutout processing

1.2.2 高效通道注意力機制

DSAN 模型主要依賴深度神經網絡提取源域和目標域的特征,然后在該特征空間中對兩個領域的特征進行對齊。 神經網絡提取領域特征的效果對減少兩個領域間的特征差異有直接影響,DSAN 采用ResNet50 網絡模型進行特征提取,對圖片的所有信息給予相同的關注度,無法區分圖像的哪個部位更重要。 本文將高效通道注意力(ECA)模塊[14]應用于DSAN 模型的特征提取網絡,改進后的特征提取網絡結構如圖3 所示。

圖3 特征提取網絡Fig.3 Feature extraction network

首先通過卷積(Conv)操作對輸入神經網絡的源域和目標域數據進行特征提取,同時使用批歸一化(BN)和激活(ReLU)操作加速模型收斂。為提升網絡模型的表征能力,在最大池化(Maxpool)操作前加入ECA 模塊,將卷積層輸出的特征圖進行通道注意力加權,以強化重要的特征并減少不重要的特征。 然后將加權特征圖輸入到殘差網絡中進行多個殘差塊(Residual Block)的計算,進一步對輸入特征圖進行特征提取,最終輸出具有更高層次語義信息的特征圖。

在特征提取網絡中,ECA 模塊通過全局平均池化(GAP)將維度為H×W×C的特征圖進行空間特征壓縮,獲取1 ×1 ×C的特征圖;對壓縮后的特征圖進行通道特征學習,通過一維卷積,學習不同通道之間的重要性,此時輸出圖像的維度仍為1 ×1 ×C;將經過通道特征學習的特征圖(維度為1 ×1 ×C)與原始輸入特征圖(維度為H×W×C)逐通道相乘,最終輸出帶通道注意力的特征圖。

在執行卷積操作時,卷積核大小會影響感受野的范圍,對于不同尺度的特征圖,需使用不同大小的卷積核才能有效提取信息,但這樣會增加模型的復雜度和計算量。 為解決該問題,ECA 使用動態卷積核,通過自適應函數確定卷積核的大小,進行一維卷積,然后利用Sigmoid 函數學習通道注意力。 在通道數較大的層,使用較大的卷積核,更多地進行跨通道交互;在通道數較小的層,使用較小的卷積核,較少地進行跨通道交互。 卷積核大小s和通道數C的關系定義為

式中:odd 表示取奇數;γ和b用于改變通道數和卷積核大小之間的比例,分別設置為2 和1。

將ECA 引入DSAN 的特征提取網絡可有效提高模型捕獲跨通道交互信息的能力,有助于模型學習更高效的通道注意力,從而提取輸入圖像中的關鍵信息,學習更多用于域自適應的域不變特征。

1.2.3 全局特征對齊

DSAN 在進行特征對齊時,根據類別劃分子領域,只考慮了源域和目標域相關子領域之間的關系,在對齊局部特征的同時,忽略了源域和目標域的整體對齊。

MMD 是一種用于度量源域和目標域分布距離的核學習方法[15],根據所選擇的核函數不同,MMD 有不同的類型,對于某一個具體任務而言,選擇最適配的MMD 比較困難。 多核最大均值差異(multi-kernel MMD,MK-MMD)是將多個核函數綜合起來構造一個總的核函數,可避免核函數選擇困難的問題。 MK-MMD 定義為

式中:p和q分別表示源域和目標域數據的概率分布,(p,q)為p和q之間的MK-MMD 距離;E(·)表示期望值;Hk表示一個再生核希爾伯特空間;φ(·)表示映射函數,通過該映射函數可將源域數據和目標域數據映射到同一個Hk;k表示與特征映射φ(·)相關的特征核。

MK-MMD 中的特征核k定義為m個不同核的加權和,設βu表示第u個特征核ku的權重系數,若滿足βu≥0,且,則

將式(2)計算得到的(p,q)作為源域和目標域的全域適應損失項添加到損失函數中,重新構造的損失函數E表示為

式中:J(·,·)為交叉熵損失函數,用于計算分類損失;表示子域自適應損失函數;λ為域適應損失和分類損失的權衡參數。

為使模型更好地適應訓練的不同階段,采用動態調整λ的方式平衡域適應損失和分類損失之間的權重,λ計算式為

式中:t為當前的訓練輪數;T為總訓練輪數。 在訓練初始階段,λ取值接近于0,該階段的主要任務是訓練分類器;隨著訓練的深入,λ逐漸增大,最終趨近于1,域適應損失約束逐漸增強,該階段的主要任務是將源域數據的特征遷移到目標域,并根據目標域的數據分布對特征進行調整和優化。

本文通過在損失函數中增加全域適應損失約束,促使深度自適應網絡在訓練過程中更加關注全局特征,源域和目標域數據達到更好的特征對齊效果,提高模型在跨域任務中的適應能力。

2 驗證實驗與結果分析

2.1 數據集

為證明改進算法的有效性,本文在公開數據集Office-31 上進行驗證。 該數據集是域適應領域廣泛使用的標準數據集,包含了31 類辦公室環境中常見的目標物體,共4 110 張圖像。 這些圖像主要源于在線電商圖片Amazon(A)、網絡攝像頭拍攝的低解析度圖片Webcam(W)和由單反相機拍攝的高解析度圖片DSLR(D),A 中有2 817張圖片,W 中有795 張圖片,D 中有498 張圖片。

由于使用單一域適應任務會導致實驗結果出現偶然性,因此本文選取并設定了A→W、A→D、D→W 三種不同的域適應任務,其中箭頭左邊代表源域,右邊表示目標域。

2.2 實驗環境與參數設置

實驗環境采用Ubuntu 20.04 操作系統,GPU為Tesla P40,使用Python 3.8 版本,深度學習框架為Pytorch 1.11.0。

為方便訓練,在數據集輸入模型前,首先將圖片大小裁剪為256 ×256。 實驗中采用帶動量的隨機梯度下降算法進行參數更新,動量為0.9,批量大小為32。

2.3 實驗結果分析

2.3.1 對比實驗

本文采用未經域適應算法的普通模型(Source-only)及原DSAN 模型進行對比實驗,各模型在A→W、A→D、D→W 三種跨域任務中的分類結果如表1 所示。

表1 不同域適應任務下的分類準確率對比Table 1 Comparisons of classification accuracy underdifferent domain adaptation tasks %

由表1 可以看到,與Source-only 相比,兩種域適應算法均可顯著提高跨域任務的分類準確率。 與原DSAN 模型相比,本文改進算法的性能在三種域適應任務中都得到了提升,在A→D 的域適應任務中,本文改進算法的準確率達到了92.17%,比原DSAN 算法提高了2.00%,在A→W的域適應任務中,本文改進算法的準確率相較于原算法提升了0.94%,在D→W 的域適應任務中,本文改進算法的準確率提升了0.13%。

為對比原算法和改進算法在不同迭代次數下的分類準確率,直觀反映不同算法在整個訓練進程中的性能差異和優化效果,圖4 和圖5 給出兩個算法在A→D 和A→W 兩個域適應任務中的分類準確率與迭代次數的關系。

由圖4 和圖5 可見:在訓練的前20 輪,隨著迭代次數的增加,原算法和改進算法的分類準確率均有較大提高;隨著訓練的深入,兩個算法的分類準確率在達到一定水平后趨于穩定;在兩個域適應任務中,本文改進算法在第10 輪到第50 輪的訓練中始終比原算法保持更高的準確率,且在A→D 任務中分類準確率的提升優于A→W 任務。

2.3.2 消融實驗

為進一步評估本文方法對域適應圖像分類效果的影響,在DSAN 算法的基礎上,通過依次改進損失函數、加入ECA、引入Cutout,探究各模塊對算法性能的影響,在A→W、A→D 兩個域適應任務中進行實驗,結果如表2 所示。

表2 各模塊對域適應圖像分類準確率的影響Table 2 Impact of each module on the classification accuracy of domain adaptation image %

由表2 可見,本文方法通過改進DSAN 算法的損失函數,增加全域適應損失約束,在A→W 和A→D 任務中的分類準確率分別提升了0.40%和0.66%,說明全域適應損失約束能夠促進特征對齊,增強對目標領域的適應性。 本文方法在網絡結構中引入ECA,在A→W 和A→D 任務中的分類準確率分別提升了0.26%和0.67%,說明注意力機制能夠更好地捕捉到特征之間的關系,進一步驗證了其在域適應圖像分類任務中的有效性;本文應用Cutout 神經網絡正則化方法,在A→W和A→D 兩個域適應任務中的分類準確率分別提升了0.26%和0.66%,說明Cutout 能夠有效增強模型在不同數據集上的泛化能力。

2.3.3 實驗結果可視化

三種域適應任務下源域數據和目標域數據在域適應前后特征對齊效果的t-SNE 圖分別如圖6、圖7 和圖8 所示。 圖中紅色表示源域樣本,藍色為目標域樣本。

圖6 A→W 任務的t-SNE 圖Fig.6 t-SNE diagram of A→W task

圖7 A→D 任務的t-SNE 圖Fig.7 t-SNE diagram of A→D task

圖8 D→W 任務的t-SNE 圖Fig.8 t-SNE diagram of D→W task

由圖6 ~8 可以看出:在域適應前,源域和目標域樣本散亂地分布在一起,并沒有呈現出明確的不同域間的特征關系;經過本文算法進行域間對齊后,源域和目標域中相同類的類間距離非常接近,同一類呈現出較好的聚集效果,不同類之間分散且類間距離較大。 本文提出的改進算法能夠捕獲每個類別的更多細粒度信息,使源域和目標域的分布盡可能保持一致,提升了特征對齊的效果。

3 結論

本文以DSAN 算法為基礎,應用Cutout 緩解了過擬合現象,增強了模型的魯棒性和泛化能力;引入ECA 增強了模型通道權重的選擇能力,提升了模型特征提取效果,有利于模型在后續過程中進行特征對齊;訓練過程中引入全域適應損失進行約束,提高了模型的全局特征對齊能力,促使模型在訓練過程中學習更多用于域自適應的域不變特征。 在Office-31 數據集上的實驗表明,相較于原算法,改進算法在跨域圖像分類任務中表現更好。

猜你喜歡
源域準確率卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
基于參數字典的多源域自適應學習算法
從濾波器理解卷積
高速公路車牌識別標識站準確率驗證法
基于傅里葉域卷積表示的目標跟蹤算法
可遷移測度準則下的協變量偏移修正多源集成方法
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合