?

基于動態定位和特征融合的多分支細粒度識別方法

2024-02-28 01:26楊曉強黃加誠
計算機工程與科學 2024年2期
關鍵詞:細粒度特征提取注意力

楊曉強,黃加誠

(西安科技大學計算機科學與技術學院,陜西 西安 710000)

1 引言

對物體進行分類是計算機視覺領域最為常見的一項任務。經典的貓狗分類旨在對2大類物體進行跨物種劃分,即粗粒度分類。而細粒度分類重點在于對單一大類物體進行進一步分類,是目前研究熱點之一。

細粒度分類方法可根據是否需要額外標注信息分為2大類:一是基于強監督的細粒度分類方法,除圖像標簽外,該類方法還需要對象標定框或關鍵節點等標注信息輔助分類;二是基于弱監督的細粒度分類方法,該類方法只需圖像標簽即可完成分類工作。

基于強監督的細粒度分類方法有以下研究成果。Zhang等[1]設計了基于部位的區域卷積神經網絡Part-based R-CNN(Part-based Region- Convolutional Neural Network),使用自下而上的區域推薦算法學習整個對象和部位檢測器。Branson等[2]在姿態歸一化網絡中使用鳥類原型對部位級別圖像進行姿態對齊操作。Huang等[3]提出部件堆積網絡,該網絡包含2個部分:一部分為全卷積網絡,負責定位部件;另一部分為雙流分類網絡,負責物體以及部件的特征編碼工作。Lin等[4]構建了部件定位、對齊和分類網絡,其中閥門連接函數是對齊子網絡中的關鍵模塊,負責網絡的反向傳播,同時協調優化分類和定位子網絡之間的銜接。Wei等[5]在掩膜卷積網絡Mask-CNN中借助全卷積網絡來分割頭部和軀干部位。額外的標注信息需要專業人員手工制作,耗時耗力,因此基于弱監督的細粒度分類逐漸成為研究的主流。

基于弱監督的細粒度分類方法有以下研究成果。Xiao等[6]在兩級注意力模型中借助對象級、部件級區域特征完成分類。Liu等[7]設計了基于強化學習的全卷積注意力網絡來定位部件,首先獲取置信度映射圖,然后選取置信度最高的區域作為部件區域。Zhao等[8]借助注意力畫布從輸入圖像中采樣多尺度的子區域圖像,并使用LSTM(Long Short Term Memory)學習子區域圖像特征的多個注意力映射。Fu等[9]反復使用遞歸注意力網絡裁剪注意力區域,以得到多個尺度的注意力圖像。Zheng等[10]設計了一種多級注意力網絡,通過對每個部件進行分類促使網絡學習更多的判別性特征。Yang等[11]構建了一種自監督團結協作學習模型。Zhuang等[12]在成對交互網絡中通過2幅圖像間的成對交互來捕捉對比線索。Gao等[13]設計了一個通道交互網絡,模擬了圖像內部和圖像之間的通道交互。He等[14]提出基于 Transformer 的細粒度圖像識別網絡框架,使用部分選擇模塊選取具有判別性的圖像塊。Zhang等[15]通過選擇注意力收集模塊過濾、篩選重要圖像塊。Liu等[16]使用峰值抑制模塊和知識引導模塊來輔助網絡進行識別。Conde等[17]提出了一種多階段的細粒度圖像識別框架,利用ViT(Vision Transformer)自帶的多頭注意力機制定位關鍵圖像區域。Wang等[18]構建了一種特征融合視覺 Transformer框架,使用token選擇模塊有效地引導網絡選擇具有區別性的token。

細粒度識別存在以下識別難點:(1)類間差異小,不同類別的目標物體外貌十分相似,非專業人員難以區分。(2)類內差異大,同一類別的目標物體受姿態動作、拍攝背景等因素影響而存在較大的差異。這些因素影響了目前相關方法的識別精度,因此細粒度識別仍是一項具有挑戰性的研究。

Swin Transformer是Liu等[19]2021年提出的視覺領域Transformer,其在視覺任務上的綜合表現優于ViT和各類CNN網絡,是當下一種泛用性較高的特征提取網絡。本文針對細粒度識別存在的問題,以Swin Transformer為基礎,提出了改進的多分支特征融合模型TBformer(Three Branch transformer)。TBformer的創新點有如下幾點:(1)使用ECA(Efficient Channel Attention)[20]、Resnet50(Residual network 50)[21]和SCDA(Selective Convolutional Descriptor Aggregation)[22]相結合的動態定位模塊DLModule(Dynamic Localization Module)消除圖像背景干擾信息并定位目標。同時,設計了基于DLModule的三分支特征提取模塊,充分提取目標關鍵特征。(2)提出了基于ECA的特征融合方法來融合多特征,融合后特征內部的細粒度信息表征更豐富、更精確。(3)采用對比損失[14]和交叉熵損失相混合的方法,以一種新穎的多損失訓練模型,提升模型整體性能。

2 Swin Transformer

Swin Transformer[19]網絡結構如圖1所示。首先,Patch Partition模塊將三通道原圖像劃分為若干大小為4×4像素的獨立Patch,將Patch在通道方向上展平,通道數相應地擴充至原先的16倍;然后,通過4層Stage網絡生成不同大小的特征圖;最后通過分類層輸出最終結果。Stage1網絡通過Linear Embedding層將每個Patch維度重新編碼為C。Stage2~Stage4網絡使用Patch Merging層對Patch進行下采樣,將上一層每2×2的像素合并為一個Patch,Patch經過拼接、線性映射后大小減半,深度翻倍。每層Stage中的Swin Transformer Block用于對Patch進行自注意力計算。Swin Transformer Block使用2種不同的改進多頭注意力:基于規則窗口的多頭注意力和基于移動窗口的多頭注意力。這2種注意力在網絡中成對使用。

Figure 1 Structure of Swin Transformer圖1 Swin Transformer結構

3 TBformer

TBformer總體結構如圖2所示,圖中Transformer為Swin Transformer骨干層。該模型可概括為3個部分:三分支特征提取、特征融合和分類3個模塊,其中特征提取和特征融合2個模塊為主要部分。三分支特征提取模塊使用DLModule提取用于消除背景信息的定位圖像,并充分提取原始圖像和定位圖像中目標判別性特征。特征融合模塊基于ECA對特征進行融合,充分挖掘特征深層細粒度信息,以構建更全面和精確的特征表示,提高模型的魯棒性。TBformer首先從原始圖像和定位圖像中提取3個分支特征,然后對3個分支特征進行特征融合,最后分類模塊處理融合特征并輸出預測結果。TBformer采用多損失策略訓練模型,使性能得到有效提升。

Figure 2 Structure of TBformer圖2 TBformer結構

3.1 三分支特征提取模塊

三分支特征提取模塊包含2個部分:一部分為定位特征提取分支,其循環使用DLModule獲取定位圖像并從定位圖像中提取特征;另一部分為原始特征提取分支,負責從原始圖像中提取特征。

首先,將原始圖像輸入至DLModule中,在DLModule第1次作用下,生成去除部分背景的初步定位圖像,并輸出交叉熵損失loss1。然后,以初步定位圖像作為輸入,在DLModule第2次作用下,生成去除更多無關背景的深度定位圖像,并輸出交叉熵損失loss2。最后,將初步定位圖像和深度定位圖像輸入至Transformer1中提取定位特征,將原始圖像輸入至Transformer2中提取原始特征。三分支特征提取模塊最終輸出原始特征、初步定位特征和深度定位特征3個分支特征。

3.1.1 定位特征提取分支

拍攝的原始圖像含有較多復雜背景信息,這對模型識別產生了干擾。傳統的物體定位方法有中心裁剪定位、隨機裁剪定位等,但這些定位方法的定位方式要么不夠靈活,要么隨機性太強,并不能有效地捕獲關鍵物體。SCDA[22]為一種圖像檢索領域中的局部定位方法,該方法基于特征圖來高效地定位物體并裁剪出帶有關鍵物體的圖像。文獻[22]中SCDA使用VGG16(Visual Geometry Group 16)[23]作為特征提取網絡,但VGG16參數較多導致訓練時間過長。本文用嵌入ECA通道注意力的Resnet50(簡稱ERnet)替換VGG16得到動態定位模塊DLModule。DLModule利用參數可更新的ERnet為SCDA提供特征圖,并以此動態性地提取關鍵物體圖像。DLModule結構如圖3所示。

Figure 3 Structure of DLModule圖3 DLModule結構

(1)ECA通道注意力。

ECA-Net[20]提出了新型的通道注意力ECA模塊(如圖4所示)。適當的跨信道交互相比直接降維更能促進通道注意力的學習,所以在采用不降維的局部跨信道交互策略和一維卷積核大小自適應函數的基礎上,ECA實現了更高效的注意力學習,既提升了模型性能又降低了模型復雜度。

Figure 4 ECA module圖4 ECA模塊

ECA通道注意力模塊工作原理如圖4所示。首先,對輸入圖像特征進行全局平均池化得到池化特征。接著,通過快速一維卷積獲取跨信道交互特征。然后,將跨信道交互特征輸入至激活函數生成各通道的權重。最后,對原始特征和通道權重做元素智能乘法操作,以獲取具有通道注意力的特征。

(2)ERnet結構。

ERnet結構如圖5所示。由于淺層網絡的低維特征包含更多局部信息,深層網絡的高維特征包含更多全局信息,而細粒度識別在已有全局信息條件下需要局部信息輔助分類。故不同于將注意力模塊嵌入Resnet50[21]瓶頸層中的做法,本文在圖像經過第1個卷積層conv1卷積后連接一個ECA注意力模塊,ECA通過捕捉低維特征有效通道內的局部信息,協助網絡區分目標與干擾項。

Figure 5 Structure of ERnet圖5 ERnet結構

(3)基于ERnet的SCDA。

ERnet最后一個卷積層有3個卷積塊。記F∈RC×H×W為輸入圖像X在某個卷積塊最后一次卷積后得到的特征圖,其中,C、H、W3個參數依次代表圖像的通道數、高、寬。特征圖F所有通道聚合而成的激活特征圖A如式(1)所示:

(1)

其中,Sn代表第n個通道的特征圖。

通道對應的感興趣區域呈現不同的分布,有的聚焦頭部或軀干部位,有的則偏向關注無關背景。通過激活特征圖A和如式(2)所示的閾值a可進一步準確定位關鍵物體區域。

(2)

其中,(x,y)是激活特征圖A中的位置坐標;A(x,y)為坐標值;a為閾值,取值為激活特征圖中所有位置坐標值的平均值,用于判斷激活特征圖中的元素是否為物體的一部分。從ERnet最后一個卷積層的第2個卷積塊convblock_2和第3個卷積塊convblock_3的特征圖中按式(3)提取特征,設得到的初始掩碼分別為Mconvblock_2和Mconvblock_3。

(3)

由于關鍵物體總是在初始掩碼的最大聯通區域內,故使用最大聯通區域的最小外接邊框作為物體對象定位結果。設Mconvblock_3的最大聯通區域為Maxconvblock_3,將Mconvblock_2和Maxconvblock_3按式(4)取交集以實現魯棒性更強的物體對象定位,最終的掩碼記為Mintersection。最后將Mintersection的最小外接邊框映射至圖像對應區域,并對映射區域進行上采樣處理得到最終定位圖像。

Mintersection=Mconvblock_2∩Maxconvblock_3

(4)

定位特征提取分支使用DLModule消除背景信息,并獲取目標圖像。提取到的目標圖像分為2種:初步定位圖和深度定位圖,如圖6所示。由于首次提取到的圖像仍含有冗余背景信息,故將初步定位圖再次輸入至DLModule,得到關鍵信息密度更高的深度定位圖。將2類定位圖輸入至定位特征提取分支中的Transformer1提取定位特征。

Figure 6 Examples of original images and positioning images圖6 原始圖和定位圖樣例

3.1.2 原始特征提取分支

除定位特征外,本文還將原始特征納入判別性特征提取范圍內,原始特征由原始特征提取分支網絡中的Transformer1從原始圖像中提取。DLModule的原理是提取ERnet感興趣的區域,由于存在ERnet只關注目標某些部分的可能,導致定位區域內關鍵物體有時會丟失某些部位。如圖6所示從上到下分別對應3種不同的鳥類,第1行初步定位圖和深度定位圖均缺失了尾部,第2行深度定位圖頭部及尾部均有缺失,第3行深度定位圖缺失了腳部,而這些缺失部位有可能是區分不同類別的關鍵部位。故引入原始特征能在一定程度上彌補定位特征潛在的損失。

3.2 特征融合模塊

原始特征、初步定位特征、深度定位特征組成了三分支特征。為了充分挖掘三分支特征包含的細粒度信息,使用一種基于ECA[20]通道注意力的融合方法來融合特征。

圖7為特征融合流程,初步定位特征和深度定位特征由Transformer1從定位圖像中提取,原始特征由Transformer2從原始圖像中提取。記fswt1為初步定位特征,fswt2為深度定位特征,fswt3為原始特征,3個特征通道維度均為1 024。首先在通道維度上拼接特征fswt1、fswt2和fswt3,該操作用“”表示,記拼接操作為cat(fswt1,fswt2,fswt3),拼接后特征為fc,其通道維度為3 072。然后由于fc為三維特征,經過重塑形狀、轉換維度處理后轉換為四維拼接特征fc2。fc2隨即在ECA注意力模塊的作用下轉化為注意力特征fe,記該操作為E(fc2)。接著在融合特征前注意力特征fe經過轉換維度、重塑形狀處理后轉換為三維注意力特征fe2。最后對拼接特征fc和注意力特征fe2做元素智能加法操作生成融合特征ff,該操作用符號“⊕”表示,記該操作為fc+fe2。

Figure 7 Process of feature fusion圖7 特征融合流程

本文提出了基于ECA通道注意力的特征融合方法處理三分支特征,幫助網絡更高效地挖掘多特征中的深層細粒度信息。融合后的特征表示更全面精確、更具有區分性,模型的魯棒性也得到提升。特征融合操作如算法1所示。

算法1 特征融合輸入:3個特征fswt1、fswt2、fswt3。輸出:融合特征ff。Step 1 fc=cat(fswt1,fswt2,fswt3);Step 2 B,D,U=fc.size();Step 3 d=sqrtD();Step 4 fc2=fc.view(B,d,d,U).permute(0,3,1,2);Step 5 fe= Efc2();Step 6 fe2=fe.permute(0,2,3,1).view(B,D,U);Step 7 ff=fc+fe2。

3.3 多損失訓練

由于細粒度分類存在類間差異小、類內差異大的問題,僅使用交叉熵損失不足以完全監督多特征的學習,為此本文引入對比損失[14]Lcon輔助模型更新參數。Lcon通過擴大類間方差、縮小類內方差,形成類間相對比而類內相促進的學習關系,從而改善網絡對多特征學習的不完全監督性,提升網絡整體性能。不同父類類別間相對子類間的差異較大即方差較大,為了防止Lcon被方差較大的不同父類類別樣本主導,設定一個閾值k,只有方差小于k的樣本才對Lcon的計算起作用。Lcon計算如式(5)所示:

(5)

其中,m為數據批次大小,np為實際標簽值,nq為預測標簽值,zp和zq為經過L2范數歸一化預處理的特征圖矩陣和特征圖轉置矩陣,dot(zp,zq)為zp和zq的點積。

本文采用多損失訓練模型。圖2中loss1 和loss2為ERnet輸出的交叉熵損失;loss3為TBformer輸出的交叉熵損失;Lcon為不經過TBformer全連接層的對比損失。最后記本文的總損失為L,如式(6)所示:

L=loss1+loss2+loss3+Lcon

(6)

4 實驗與結果分析

4.1 數據集

本文使用了3個公開的數據集CUB-200-2011[24](CUB)、Stanford Dogs[25](DOG)、NABirds[26](NAB)。表1為各數據集相關統計信息。TBformer不需要邊界框或位置關鍵點等標注信息,僅使用分類標簽即可完成端到端的弱監督訓練及測試。

Table 1 Statistical information of each dataset

4.2 實驗環境及參數設置

實驗采用的顯卡為NVIDIA RTXTMA5000專業圖形顯卡,CPU為14核Intel?Xeon?Gold 6330 @2.00 GHz,內存為30 GB,Python版本為3.8,CUDA版本為11.3。實驗基于版本為1.10.0的PyTorch框架進行開發,并在Ubuntu系統環境下運行。實驗采用的Resnet50和Swin Transformer網絡均從官方權重進行遷移學習,其中Swin Transformer選擇的版本參數如下:patch大小為4,window大小為7,其加載的權重為swin_base_patch4_window7_224_in22k。

本文方法只需分辨率為224×224的圖像進行實驗。訓練初始學習率為0.002,采用SGD(Stochastic Gradient Descent)隨機梯度下降算法作為優化器,動量設置為0.9,每16幅圖像為一個批次進行訓練,學習率每訓練20次衰減為原來的0.1。

4.3 實驗結果

4.3.1 對比實驗

為了驗證本文方法的有效性,對Part-based R-CNN[1]、API-Net(Attentive Pairwise Interaction Network)[12]、CIN(Channel Interaction Network)[13]、PC-DenseNet-161(Pairwise Confusion Dense convolutional Network 161)[27]、TASN (Trilinear Attention Sampling Network)[28]、BARAN (Bilinear Aggregate Residual Attention Network)[29]、ACNet (Attention Convolutional binary Neural tree)[30]、 MHEM(Moderate Hard Example Modulation)[31]、GCL(Graph-propagation based Correlation Learning)[32]、Grad-CAM(Gradient-weighted Class Activation Mapping)[33]、GAT(Gaze Augmentation Training)[34]、PCA-Net (Progressive Co-Attention Network)[35]、Knowledge Transfer[36]、PAIRS(Pose-AlIgned RepreSentation)[37]、Ding[38]、 GB-HO-RD(Graph-Based High-Order Relation Discovery)[39]、PMG(Progressive Multi-Granularity)[40]、AENet (Alignment Enhancement Network)[41]、PART(PArt-guided Relational Transformers)[42]、Mix+(attribute Mix)[43]、Stacked LSTM[44]、Bilinear-CNN(Bilinear Convolutional Neural Network)[45]、MaxEnt-CNN(Maximum Entropy Convolutional Neural Network)[46]、FCAN (Fully Convolutional Attention Network)[47]、BYOL+CVSA (Bootstrap Your Own Latent+ Cross View Saliency Alignment)[48]和MAMC(Multi-Attention Multi-class Constraint)[49]在CUB、DOG和NAB上進行實驗對比,結果見表2~表4。其中,Method表示對比方法,Resolution表示輸入圖像分辨率,Acc(Accuracy)表示識別準確率,Baseline指代Swin Transformer。

Table 2 Experimental results on CUB

Table 3 Experimental results on DOG

在CUB上,TBformer的準確率比Baseline的高3.19%,比MHEM的高2.7%,比Stacked LSTM的高0.5%。在DOG上,TBformer的準確率比Baseline的高3.47%,比FCAN的高1.78%,比MAMC的高0.78%。在NAB上,TBformer的準確率比Baseline的高1.09%,比MaxEnt-CNN的高2.31%。表5對比了TBformer和Baseline的復雜度、參數量和推理速度。從表5可知,雖然TBformer的復雜度和參數量增長較為明顯,但其推理速度相比Baseline的只減弱了25%左右。綜合考慮精度與速度因素,TBformer仍是一種性價比較高的模型,且其只需輸入低分辨率圖像即可達到較先進的水平,具有一定程度的優越性。

Table 5 Comparison results of model complexity,parameter number and inference speed

4.3.2 消融實驗

為了驗證本文模型的有效性,在CUB上對三分支特征提取、特征融合和多損失訓練進行消融實驗,實驗結果如表6所示。

Table 6 CUB ablation results

由表6可知,本文提出的三分支特征提取、特征融合和多損失訓練均比Baseline表現更佳。DLModule負責消除冗余背景信息的干擾并定位關鍵目標。定位雙分支捕獲了定位圖像中更精細的特征信息。三分支特征提取引入原始特征作為定位特征的補充,充分提取了目標判別性特征。特征融合成功捕捉了多特征中的深層細粒度信息。多損失訓練通過調整類間、類內方差,有效改善了模型對多特征的不完全監督性。最終本文方法在CUB上的識別準確率達到了90.9%,相比Baseline的提升了3.19%,證明了提出的三分支特征提取、特征融合和多損失訓練的有效性和互補性。

4.3.3 輔助對比實驗

為了驗證ECA通道注意力的有效性,表7在CUB上對TBformer引入不同注意力機制進行了對比。TBformer通過自注意力計算像素間的依賴,在特征融合時,CBAM(Convolution Block Attention Module)[50]和GCNet(Global Context Network)[51]由于引入了空間維度信息干擾了網絡對特征的自注意力建模,導致網絡識別能力下降。SE(Squeeze-and-Excitation)[52]和ECA通過篩選出有效通道,對計算像素間依賴起到正向調節作用。SE直接降維損失了部分通道信息,ECA避免直接降維保留了更多關鍵通道信息,因此后者效果好于前者的。分析表明,TBformer中引入ECA通道注意力的確是一種有效的做法。

Table 7 Performance comparison of different attention mechanisms

為了進一步驗證ERnet中ECA嵌入方式的有效性,表8在CUB上對不同嵌入方式進行了對比。特征經過4層主干卷積后維度逐層加深。隨著特征維度增加,ECA能捕捉的局部信息減少,影響了ERnet對目標的定位,削弱了DLModule提取定位圖像的準確性,從而導致TBformer的識別能力下降。在ERnet主干卷積層前嵌入ECA對TBformer識別能力的提升最為明顯,是一種有效的嵌入方式。

Table 8 Comparison of ECA embedding methods in ERnet

4.3.4 熱力圖分析

為了直觀地表現出TBformer的先進性,本文選取CUB數據集中2種不同父類進行可視化分析。圖8為Baseline和TBformer對部分圖像的熱力圖,每一部分從上到下依次為原始圖、Baseline熱力圖、TBformer熱力圖。模型重點關注部分以熱力圖中白色實線包圍區域表示,其中黃胸大鶯無兄弟類,靛藍彩鹀、琉璃彩鹀、麗色彩鹀同屬彩鹀類。TBformer通過多分支特征提取模塊剔除無關背景和其它干擾因素并充分提取關鍵特征,且使用特征融合模塊構建更精確、更全面的特征,從而相比Baseline其克服復雜背景、抗干擾、識別能力更強。對于黃胸大鶯類別,在簡單或復雜背景下,TBformer都能更準確地捕獲頭部判別性區域。琉璃彩鹀的判別性區域為頭部,靛藍彩鹀和麗色彩鹀的判別性區域為腹部和翅部,對于這3類彩鹀,TBformer仍能更準確地捕獲各類判別性區域。上述分析表明,在某個類別有或無子類的情況下,TBformer都比Baseline表現更佳,是一種有效的細粒度分類方法。

Figure 8 Heat maps of four species of birds based on Baseline and TBformer圖8 Baseline和TBformer對4種鳥類的熱力圖

4.3.5 探討性實驗

考慮到定位圖像仍含有部分背景,對方法性能有一定的影響,因此本節嘗試對圖像做進一步分割處理。由于目前CUB、DOG、NAB數據集缺少絕大多數分割算法需要的相應標注,如trimap(三元圖,一般用白色表示前景,黑色表示背景,灰色表示待識別的部分)或scribbles(在前景和背景畫幾筆的草圖),導致分割操作難以進行。GrabCut[53]是一種只需分割對象的指定邊界框即可完成分割的算法,用在本文中邊界框大小可用圖像的原始大小代替。

GrabCut基于圖割(Graph Cut)實現圖像分割,通過高斯混合模型GMM(Gaussian Mixture Module)來分離背景和前景。由于部分圖像(包括原始圖像和定位圖像)前景和背景的顏色、紋理較為相似,導致基于GrabCut的分割效果較差,從而影響方法最終性能,故考慮對分割圖像進行人工弱篩選處理。而且,模型在訓練時需等待分割完成后才順序處理分割圖像,而基于GrabCut的分割由CPU完成,其速度較為緩慢,故若在TBformer內進行分割操作將造成GPU資源的浪費,從而使模型訓練時間大幅度延長。

綜合上述分析,最終本文選擇在對圖像進行預處理時采用分割操作,并采取圖9所示的預處理方法完成分割以及弱篩選過程。

預處理方法具體操作步驟如下:首先,使用GrabCut處理原始圖像生成分割圖像;然后,對分割圖像進行如下弱篩選:依次觀察分割圖像每個類別數據,一經發現某個類別下含有丟失較多部位的圖像,則將此類下所有分割圖像復原為原始圖像,即該類下圖像一律不進行分割處理;最后,分割圖像經弱篩選后轉變為由原始圖像和分割圖像組成的混合圖像。

對原始圖像進行預處理后將混合圖像輸入至TBformer進行訓練,TBformer在原始數據、分割數據以及混合數據上的結果對比如表9所示。

Table 9 Results of TBformer on raw data,seg data and mixed data

由表9可知,TBformer在分割數據上的性能較原始數據上的反而有所下降,而在經過弱篩選的混合數據上性能較原始數據上的則有所提升,在CUB、DOG、NAB數據集上的準確率分別提升了0.52%,0.71%和0.31%,證實了對分割圖像進行弱篩選的有效性。但是,在數據標注缺失、不對分割圖像做輔助處理的情況下,如何得到高準確率的分割數據仍是一個挑戰。

5 結束語

在Swin Transformer基礎上,本文提出了一種改進的細粒度識別模型TBformer。該模型使用DLModule提取目標定位圖像,有效緩解了背景的干擾。為了彌補定位圖像潛在的損失,設計了基于DLModule的三分支特征提取模塊,充分提取了目標判別性特征。在提取特征后使用特征融合模塊處理三分支特征,該模塊通過挖掘特征內深層細粒度信息,增強三分支特征的全面性、精確性,提高模型的魯棒性。為了完全監督多特征的學習,混合交叉熵損失和對比損失得到多種損失,基于多損失訓練模型,提升了本文方法整體性能。相較基礎方法,本文方法的性能在CUB、DOG、NAB數據集上取得了較為顯著的提升。相較其它方法,本文TBformer在3個數據集上也有不俗的表現。最后,由于定位圖像仍含有的部分背景可能對方法性能造成一定的影響,本文對圖像分割進行了探討性實驗。TBformer在經過GrabCut處理的分割數據上的性能反而不如原始數據上的,而對分割數據進行弱篩選后,TBformer在混合數據上的性能較原始數據上的則有所提升,表明對分割圖像進行弱篩選確實是一種有效的做法。但是,在目前分割算法所需相應標注缺失、不對分割圖像做輔助處理的情況下,如何獲得高準確率的分割數據仍是一個挑戰,未來將對該方面工作做進一步研究。

猜你喜歡
細粒度特征提取注意力
融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
讓注意力“飛”回來
細粒度的流計算執行效率優化方法
基于Daubechies(dbN)的飛行器音頻特征提取
基于雙線性卷積網絡的細粒度圖像定位
“揚眼”APP:讓注意力“變現”
Bagging RCSP腦電特征提取算法
支持細粒度權限控制且可搜索的PHR云服務系統
A Beautiful Way Of Looking At Things
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合