?

基于視覺信息積累的行人重識別網絡

2023-01-13 07:03譚紅臣李敬華王立春
圖學學報 2022年6期
關鍵詞:集上分支全局

耿 圓,譚紅臣,李敬華,王立春

基于視覺信息積累的行人重識別網絡

耿 圓,譚紅臣,李敬華,王立春

(北京工業大學人工智能與自動化學院,北京 100124)

在以往的行人重識別方法中,絕大部分的工作集中于圖像注意力區域的學習,卻忽視了非注意力區域對最終特征學習的影響,如果在關注圖像注意力區域的同時加強非注意力區域的特征學習,可進一步豐富最終的行人特征,有利于行人身份信息的準確識別?;诖?,提出了視覺信息積累網絡(VIA Net),該網絡整體采用兩分支結構,一個分支傾向于學習圖像的全局特征,另一個分支則拓展為多分支結構,通過結合注意力區域和非注意力區域的特征逐步加強局部特征的學習,實現視覺信息的積累,進一步豐富特征信息。實驗結果表明,在Market-1501等行人重識別數據集上,所提出的VIA Net網絡達到了較高的實驗性能;同時,在In-Shop Clothes Retrieval數據集上的實驗證明:該網絡也適用于一般的圖像檢索任務,具有一定的通用性。

行人重識別;視覺信息;注意力區域;非注意力區域;度量學習

行人重識別任務是指在不同的監控攝像頭下的行人檢索問題,其目標是在經過裁剪的行人圖像上查詢匹配同一個人,即:給定一張行人的查詢圖像,該任務需在其他監控攝像頭拍攝的大量圖像中識別出包含該行人的圖像。行人重識別在現實世界中有很多的應用場景,如視頻監控安全、視頻檢索和人機交互。但是由于監控攝像頭視角變化、分辨率較低,行人圖像背景雜亂和遮擋等問題的影響,重識別目前依然是個具有挑戰性的任務。

最初,行人重識別的解決思路是利用從裁剪后的行人圖像中提取的手工特征進行相似性度量實現重識別[1-3],如顏色和紋理等視覺特征,但早期的方法性能低且魯棒性差。隨著深度學習技術的發展,目前基于深度學習的行人重識別成為了主流,其大多數工作[4-6]都集中于利用卷積神經網絡(convolutional neural networks,CNN)學習對人體姿勢和視角變化等具有魯棒性的特征表示。但在實際中,由于人臉、四肢等身體部位會隨著監控攝像頭視角的變化發生改變,甚至產生遮擋,因此CNN在學習的過程中,會更多地關注人的主體部位,忽略了其他的身體部位也會產生判別特征。

為了解決這個問題,一些基于姿態的方法通過定位不同的身體部位并對齊相關特征進行重識別。姿態歸一化生成對抗網絡[7](pose-normalized generative adversarial network,PN-GAN)考慮行人重識別中的姿態歸一化設計了生成對抗網絡,通過將數據中的所有行人姿態歸一化到8種標準姿態中,以學習沒有姿態變化影響的行人特征。姿態不變方法[8](pose-invariant embedding,PIE)則引入了姿態不變嵌入向量作為行人描述子,首先使用PoseBox結構使行人與標準姿態對齊,其次設計了一個以原始圖像、PoseBox和姿態估計置信度為輸入的PoseBox Fusion (PBF) CNN結構以減少姿態估計誤差。還有一些基于身體部位的方法使用粗分割或注意力網絡來改進特征學習。PCB-RPP[9]提出了基于部位的卷積基線網絡(part-based convolutional baseline,PCB),即輸入一張圖像,能夠輸出若干個部位級別的特征;同時還提出了優化部位池化(refined part pooling,RPP)策略以避免分割時每個部位中出現極端值。關系感知全局注意力[10](relation-aware global attention,RGA)是基于全局注意力的行人重識別工作,提出了關系感知全局注意力模塊以充分利用全局相關性,通過對行人不同部位的特征施加權重實現增強判別特征,抑制無關特征。注意力金字塔[11](attention pyramid,APNet)提出了一種通過注意力金字塔以多尺度的方式模仿人類視覺感知過程的方法,首先將特征分割為數個局部區域并學習相應的注意力,之后合并注意力并將其與殘差連接堆疊形成注意力金字塔。

可以看出,絕大部分的工作集中于圖像注意力區域的學習,也證明了關注注意力區域對最終重識別任務的有效性。但是很少有工作涉及到非注意力區域的學習,考慮到非注意力區域也可能存在有用的判別特征,因此本文試圖將非注意力區域與注意力區域的特征同時考慮,以進一步豐富最終的行人特征,從而有利于行人身份信息的準確識別。

盡管基于身體姿態和部位的方法可以獲得不錯的實驗效果,然而上述網絡通常需要附加的身體姿態信息。此外,這些網絡是根據具體的研究對象使用特定的劃分機制設計的,如水平部位劃分,其適合于行人重識別任務,但并不通用,很難推廣到其他任務上。隨著技術的不斷發展,行人重識別任務已不再是一個簡單的分類問題,正逐漸演變為度量學習問題[12],即類內樣本(同一個行人)之間的距離至少應小于類間樣本(不同的行人)之間的距離。因此,本文設想構建一個簡單且通用的網絡,不僅可以用在行人重識別任務上,還可用于其他度量學習任務。

基于以上分析,本文提出了一個基于視覺信息積累的重識別網絡,該網絡整體上采用兩分支結構,包括全局分支(global branch)和視覺信息積累分支(visual information accumulation branch),使得網絡在關注人主體部位的同時不忽略其他身體部位的判別特征,促使網絡學習到更加全面的特征。由于傳統的兩分支結構一定程度上限制了特征的多樣性[13],本文在兩分支的基礎上進一步拓展——將視覺信息積累分支拓展為多分支。具體來說,全局分支對全局特征表示進行編碼,網絡會著重學習人主體部位的判別特征;視覺信息積累分支則在拓展的多分支上利用注意力機制逐步進行視覺信息的積累,實現注意力區域和非注意力區域同時關注,不斷地關注新的局部細節特征,網絡著重學習其他身體部位的判別特征。

對于行人重識別任務,本論文在CUHK03[14],Market-1501[15]和DukeMTMC-reID[16]等數據集上進行了模型的訓練與測試。對于一般的度量學習任務,在In-Shop Clothes Retrieval[17]數據集上進行了實驗。實驗結果表明本文方法實現了較高性能的行人重識別,也適用于一般的度量學習任務。如,在Market-1501數據集上的mAP指標達到了83.6%,Rank-1指標達到了93.5%;在In-Shop Clothes Retrieval數據集上Recall@1指標達到了93.0%,Recall@20指標達到了99.1%。

1 VIA Net網絡

圖1為本文所提出VIA Net的網絡框架圖,該網絡由主干網絡ResNet-50、全局分支(global branch)和視覺積累分支(visual information accumulation branch)組成。在全局分支中,特征圖經全局平均池化(global average pooling,GAP)得到2048-dim的特征,再降維得到具有全局信息的512-dim特征,該分支提供全局判別特征。在視覺積累分支中,卷積塊注意力模型(convolutional block attention module,CBAM)為本文使用的注意力機制,V1~V3 sub為3個子分支,concat為維度拼接操作,GMP為全局最大池化(global max pooling,GMP)。在V1 sub上,將通過主干網絡得到的特征圖作為輸入,減去其經過注意力機制細化后的特征圖,可得到除去注意力區域的其他區域,將得到的特征圖作為V2 sub的輸入。在V2 sub和V3 sub上,再次執行與V1 sub相同的步驟,最后將3個子分支得到的特征圖進行維度拼接作為該分支最后的輸出特征圖,實現視覺信息的積累。

圖1 VIA Net網絡框架圖

1.1 CBAM注意力機制

本文的VIA Net網絡所用到的注意力機制是CBAM[18]機制,如圖2所示,該機制結合了通道(channel)與空間(spatial)的注意力,對輸入的特征圖進行細化,使得網絡集中關注圖像中最感興趣的區域。

圖2 CBAM注意力機制

通道注意力模塊如圖3所示,輸入的特征圖分別經過GAP和GMP后共同輸入到共享多層神經網絡(shared MLP)中,然后對輸出的特征進行相加后經過Sigmoid激活函數得到權重系數c。將c與輸入的特征圖進行相乘操作得到通道注意力模塊生成的特征圖,即需要送入空間注意力模塊的特征。

圖3 通道注意力模塊

空間注意力模塊如圖4所示。將通道注意力模塊的輸出作為空間注意力模塊的輸入,同樣對該輸入的特征分別經過GAP和GMP后依照通道拼接兩部分特征。之后經過一個7×7的卷積層,再經過一個Sigmoid線性激活函數得到權重系數,將與此模塊的輸入特征圖進行相乘操作得到最終的特征圖。

圖4 空間注意力模塊

方便起見,在此后的介紹中將該注意力機制用式(1)進行描述

其中,為輸入的特征圖;T(*)為通道與空間注意力操作;*為經過注意力機制的輸出特征圖。由于CBAM為即插即用,因此可方便地插入網絡中任何需要的地方。如圖1所示,將其插入到視覺積累分支的3個子分支中。

1.2 網絡結構

(1) 主干網絡。與行人重識別中的大部分方法相同,本文采用ResNet-50[19]作為主干網絡用于特征提取。同時為了與主流的方法進行比較,將主干網絡的第4階段起始時的下采樣操作刪除,以得到大小為2048×24×8的特征圖。

(2) 全局分支(global branch)。其由GAP層、1×1卷積層、批歸一化層(batch normalization,BN)和線性整流函數(rectified linear unit,ReLU)組成。通過在Stage4層生成的2048×24×8的特征圖上進行GAP得到2048-dim的特征向量,再利用1×1卷積層、BN層和ReLU層將其進一步降低到512-dim,使用三元組損失和交叉熵損失約束全局特征的學習。全局分支在多分支網絡結構中一般用于提供全局特征表示[20]。在本文中,全局分支關注行人的主體部位,學習全局判別特征。

(3) 視覺信息積累分支(visual information accumulation branch)。其由注意力模塊CBAM、GMP層和1×1卷積層、BN層和ReLU層組成,與全局分支類似,利用三元組損失和交叉熵損失約束網絡的學習。為進一步豐富特征信息,本文將視覺信息積累分支拓展為多分支結構,如圖1所示的V1~V3子分支,依次利用CBAM注意力機制進行視覺信息的積累,具體過程如下:

可以注意到:在VIA Net中全局分支使用GAP,而視覺信息積累分支使用GMP,這是因為GMP會鼓勵網絡在減去最具辨別力的部分后仍可在剩余弱特征中識別出相對顯著的特征。綜上,在全局分支關注圖像全局特征的同時,視覺信息積累分支通過注意力相減操作融合注意力區域和非注意力區域的特征,從而不斷地關注新的局部特征,最終將2個分支的特征進行拼接,使得最終獲得的特征表示更加全面。

(4) 損失函數。其是全局分支和視覺信息積累分支上的重識別損失與難樣本三元組損失[21]之和,即

reid重識別損失采用標簽平滑交叉熵損失[22]。得到的行人特征利用全連接層(fully connected layer)和softmax激活函數可得到對應的預測概率,進而使用標簽平滑交叉熵損失進行約束。為了在計算損失函數時減少真實樣本標簽類別的權重,即達到防止過擬合訓練集的目的,對真實的概率分布進行改進,即

其中,為行人類別數;()為預測概率;為權重;為真實的樣本標簽。

triplet為難樣本三元組損失,使用時為每個anchor找到其最難的正樣本和負樣本,即為每個anchor找到其最不相像的正樣本和最相像的負樣本進行三元組損失的計算,從而使得類內樣本之間的距離減小,類間樣本距離增大,即

在測試過程中,將來自全局分支和視覺信息積累分支的特征維度拼接,作為行人圖像的嵌入向量。值得注意的是本文所提出的VIA Net的全局分支和視覺信息積累分支皆具有通用性,因此可以應用于除行人重識別任務之外的其他度量學習任務,這一點將在下一部分的實驗中給出證明。

2 實驗結果分析

在主流的行人重識別數據集上驗證了本文所提出的VIA Net網絡,在訓練過程中,將輸入圖像的大小調整為384×128,然后通過隨機水平翻轉和標準化進行數據增強,訓練過程設置為400 epochs。測試圖像調整為同樣大小,僅通過標準化進行增強。在In-Shop Clothes Retrieval數據集上驗證了本文的網絡同樣適用于一般的度量學習任務,訓練和測試過程中均將圖像進行填充并調整大小為256×256,訓練過程設置為300 epochs。網絡訓練時使用Adam優化器,在前50個epochs學習率為10–3,在200個epochs后學習率為10–4,在300個epochs后學習率為10–5。在2個任務上將本文結果分別與前沿方法進行了比較與分析。

推薦理由:本書介紹了中國改革開放發展成就,主要從改革路徑、對外開放、宏觀經濟、區域發展、“三農”政策、扶貧脫貧、產業發展、科技引領、生態文明、人力資源、社會保障、收入分配這十二個方面講述中國故事。中國改革開放促進發展與分享的成功故事,以及建立經濟特區和試驗區先行先試,繼而實施區域發展戰略,在中西部地區創造條件重演沿海地區發展奇跡的有益經驗。

2.1 行人重識別任務實驗

2.1.1 數據集及評價指標

本文在行人重識別數據集上進行網絡的訓練與測試,包括Market-1501,DukeMTMC-reID和CUHK03數據集。Market-1501數據集使用6臺攝像機收集了1 501個身份,共有32 668張行人圖像。該數據集含有12 936張751個身份的圖像的訓練集,以及含有3 368張查詢圖像和750個身份的15 913張的圖庫圖像的測試集。DukeMTMC-reID數據集包含1 404個身份,由2臺以上的攝像機拍攝,一共有36 411張圖像。訓練集則包含702個身份和16 522張圖像,測試集包含其他的702個身份。CUHK03數據集包含標記的14 096張圖像和檢測到的14 097張圖像,據此將數據集分為CUHK03-Label和CUHK03-Detect2個數據集,數據集中共有1 467個身份,767個身份用于訓練,700個身份用于測試。

對于每個查詢圖像,按照與查詢圖像的歐氏距離降序排列所有圖庫圖像,并計算累積匹配特征(CMC)曲線,本文使用Rank-1值和mAP值作為評價指標。

2.1.2 與前沿方法的比較與分析

本文在ResNet-50主干網絡的基礎上聯合全局分支(global branch)構成本文的基線網絡(Baseline)。表1展示了本文所提出的VIA Net網絡在CUHK03-Label,CUHK03-Detect,DukeMTMC-reID和Market-1501數據集與一些前沿方法之間的統計比較。結果表明,本文方法的mAP值與Rank-1值均高于絕大多數前沿方法。

表1 VIA Net在行人重識別任務上與前沿方法的比較

注:加粗數據為最優值

可以看到,在簡單的Market-1501數據集上,VIA Net相比于基線網絡提升了1~2個百分點,在相對復雜的CUHK03-Label,CUHK03-Detect和DukeMTMC-reID數據集上,VIA Net提升了大約4~9個百分點。分析原因可能是當數據集較為復雜時,網絡關注全局特征已無法取得良好的判別特征,此時視覺信息積累分支關注局部細節特征的優勢相對突出。這表明:VIA Net的視覺信息積累分支在復雜數據集上有明顯的優勢。

2.1.3 消融實驗

表2 消融實驗(Branch)

注:加粗數據為最優值

表2顯示,當網絡只使用全局分支時,網絡的性能并不高;當只使用視覺信息積累分支時,網絡的性能優于表2的基線網絡,聯合使用全局分支可以進一步提高網絡性能。這表明全局分支和視覺信息積累分支對于網絡的整體學習是相互增強的,缺一不可。

表3 消融實驗(Sub Branch)

注:加粗數據為最優值

從表3中可以看出,當網絡使用V1+V2+V3子分支時的性能是最優的,當減少或增加子分支時,實驗性能均有所下降。當只使用V1子分支或V1+V2子分支時的實驗性能有所下降,原因可能是此時子分支數較少,網絡學習時積累的視覺信息不夠豐富;當采用V1+V2+V3+V4子分支時,雖然網絡積累的視覺信息可能會增加,但是由于視覺信息積累分支關注的是局部細節特征,在子分支上進行注意力區域逐步相減的操作,使得有用的判別信息隨著逐分支遞增而減少,再積累視覺信息反而不利于網絡的學習。

2.1.4 可視化分析

使用本文提出的VIA Net分別在Market-1501和CUHK03-Detect數據集上進行可視化實驗,將與query圖像相似度top-7 (排名前7)的行人圖像進行展示,結果如圖5和圖6所示。最左側的圖像為query圖像,右側有邊框的為檢索到對應的top-7行人圖像,其中,綠色邊框表示檢索正確,紅色邊框表示檢索錯誤。

圖5 Market-1501數據集上的可視化檢索結果((a) Baseline檢索結果;(b) VIA Net檢索結果)

圖6 CUHK03-Detect數據集上的可視化檢索結果((a) Baseline檢索結果;(b) VIA Net檢索結果)

由可視化結果可知,在簡單的Market-1501數據集上,基線網絡在top-7的檢索中,僅在第6張時出現了檢索錯誤;而VIA Net無錯誤匹配出現。在較復雜的CUHK03-Detect數據集上,基線網絡在top-7的檢索中,出現了3張檢索錯誤;而VIA Net只出現了1張檢索錯誤??梢钥闯?,數據集較為簡單時,使用基線網絡可以達到不錯的效果,VIA Net對結果的提升比較有限;而在較為復雜的數據集上,在使用基線網絡效果不佳時,使用視覺信息積累分支關注局部細節特征,可使VIA Net會更有優勢,這與2.1.2節中的分析一致。

2.2 度量學習任務實驗

2.2.1 數據集及評價指標

本文在In-Shop Clothes Retrieval數據集上驗證了該網絡同樣適用于一般的度量學習任務,具有一定的通用性。該數據集為賣家秀的圖像集,一共包括7 982件商品,52 712張圖像,圖像從不同角度拍攝而成,具有較大的挑戰性。本文使用標準召回率Recall@K衡量圖像檢索性能的指標。

2.2.2 與前沿方法的比較與分析

表4為本文網絡在Clothes數據集上與一些前沿方法之間的統計比較。

表4 VIA Net在度量學習任務上與前沿方法的比較

注:加粗數據為最優值

結果表明,本文方法Recall@1值達到了93.0,同時在Recall@10與Recall@20指標上也有較高地提升,均高于前沿算法的表現。

3 結 論

本文提出了一個基于視覺信息積累的簡單且通用的重識別網絡(VIA Net),該網絡整體上包含全局分支和視覺信息積累分支。其中,全局分支關注于圖像的主體區域,學習全局判別特征;視覺信息積累分支利用注意力機制實現注意力區域和非注意力區域同時關注,進而進行視覺信息的積累,著重學習其他身體部位的判別特征,關注局部特征,從而使得學習到的判別特征更加全面。實驗結果顯示,本文提出的VIA Net不僅在行人重識別數據集上達到了較高的實驗結果,在一般的圖像檢索數據集上也有很好的性能表現。

[1] BAZZANI L, CRISTANI M, PERINA A, et al. Multiple-shot person re-identification by HPE signature[C]//The 20th International Conference on Pattern Recognition. New York: IEEE Press, 2010: 1413-1416.

[2] MIGNON A, JURIE F. PCCA: a new approach for distance learning from sparse pairwise constraints[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 2666-2672.

[3] LI Z, CHANG S Y, LIANG F, et al. Learning locally-adaptive decision functions for person verification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 3610-3617.

[4] CHEN D P, XU D, LI H S, et al. Group consistent similarity learning via deep CRF for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8649-8658.

[5] ZHAO L M, LI X, ZHUANG Y T, et al. Deeply-learned part-aligned representations for person re-identification[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 3239-3248.

[6] ZHENG Z D, ZHENG L, YANG Y. A discriminatively learned CNN embedding for person reidentification[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2017 14(1): 13.

[7] QIAN X L, FU Y W, XIANG T, et al. Pose-normalized image generation for person re-identification[M]//Computer vision - ECCV 2018. Cham: Springer International Publishing, 2018: 661-678.

[8] ZHENG L, HUANG Y J, LU H C, et al. Pose invariant embedding for deep person re-identification[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2019, 28(9):4500-4509.

[9] SUN Y F, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and A strong convolutional baseline)[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 501-518.

[10] ZHANG Z Z, LAN C L, ZENG W J, et al. Relation-aware global attention for person re-identification[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3183-3192.

[11] CHEN G Y, GU T P, LU J W, et al. Person re-identification via attention pyramid[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2021, 30: 7663-7676.

[12] SU C, LI J N, ZHANG S L, et al. Pose-driven deep convolutional model for person re-identification[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 3980-3989.

[13] WU X F, XIE B, ZHAO S L, et al. Diversity-achieving slow-DropBlock network for person re-identification[EB/OL]. [2022-05-05]. https://arxiv.org/abs/2002.04414.

[14] LI W, ZHAO R, XIAO T, et al. DeepReID: deep filter pairing neural network for person re-identification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 152-159.

[15] ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2016: 1116-1124.

[16] RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[M]//Lecture notes in computer science. Cham: Springer International Publishing, 2016: 17-35.

[17] LIU Z W, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1096-1104.

[18] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[19] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[20] CHENG D, GONG Y H, ZHOU S P, et al. Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1335-1344.

[21] HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[EB/OL]. [2022-05-07]. https://arxiv.org/abs/1703.07737.

[22] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 2818-2826.

[23] ZHENG Z D, ZHENG L, YANG Y. Pedestrian alignment network for large-scale person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(10): 3037-3045.

[24] CHEN Y B, ZHU X T, GONG S G. Person re-identification by deep learning multi-scale representations[C]//2017 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2017: 2590-2600.

[25] 吳紹君, 高玲, 李強. 基于多層次深度學習網絡的行人重識別[J]. 山東師范大學學報: 自然科學版, 2020, 35(2): 208-216.

WU S J, GAO L, LI Q. Multi-level deep learning network for person re-identificatioin[J]. Journal of Shandong Normal University: Natural Science, 2020, 35(2): 208-216 (in Chinese).

[26] ZHONG Z, ZHENG L, KANG G L, et al. Random erasing data augmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Washington, DC: AAAI, 2020: 13001-13008.

[27] WANG Y, WANG L Q, YOU Y R, et al. Resource aware person re-identification across multiple resolutions[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8042-8051.

[28] ALMAZAN J, GAJIC B, MURRAY N, et al. Re-ID done right: towards good practices for person re-identification[EB/OL]. [2022-04-25]. https://arxiv.org/abs/1801.05339.

[29] 厙向陽, 李蕊心, 葉鷗. 融合隨機擦除和殘差注意力網絡的行人重識別[J]. 計算機工程與應用, 2022, 58(3): 215-221.

SHE X Y, LI R X, YE O. Pedestrian re-identification combining random erasing and residual attention network[J]. Computer Engineering and Applications, 2022, 58(3): 215-221 (in Chinese).

[30] 田智慧, 鄭付科, 高需. 內容一致性行人重識別算法[J]. 計算機工程, 2021, 47(3): 237-242.

TIAN Z H, ZHENG F K, GAO X. Content-consistent pedestrian re-identification algorithm[J]. Computer Engineering, 2021, 47(3): 237-242 (in Chinese).

[31] ZHUANG Z J, WEI L H, XIE L X, et al. Rethinking the distribution gap of person re-identification with camera-based batch normalization[M]//Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 140-157.

[32] 宋曉茹, 楊佳, 高嵩, 等. 基于注意力機制與多尺度特征融合的行人重識別方法[J]. 科學技術與工程, 2022, 22(4): 1526-1533.

SONG X R, YANG J, GAO S, et al. Person re-identification method based on attention mechanism and multi-scale feature fusion[J]. Science Technology and Engineering, 2022, 22(4): 1526-1533 (in Chinese).

[33] YUAN Y H, YANG K Y, ZHANG C. Hard-aware deeply cascaded embedding[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 814-823.

[34] XUAN H, SOUVENIR R, PLESS R. Deep randomized ensembles for metric learning[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 751-762.

[35] GE W F, HUANG W L, DONG D K, et al. Deep metric learning with hierarchical triplet loss[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 272-288.

[36] OPITZ M, WALTNER G, POSSEGGER H, et al. Deep metric learning with BIER: boosting independent embeddings robustly[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 276-290.

[37] KIM W, GOYAL B, CHAWLA K, et al. Attention-based ensemble for deep metric learning[M]//Computer vision - ECCV 2018. Cham: Springer International Publishing, 2018: 760-777.

[38] DAI Z Z, CHEN M Q, GU X D, et al. Batch DropBlock network for person re-identification and beyond[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2020: 3690-3700.

Visual information accumulation network for person re-identification

GENG Yuan, TAN Hong-chen, LI Jing-hua, WANG Li-chun

(School of Artificial Intelligence and Automation, Beijing University of Technology, Beijing 100124, China)

The preceding person re-identification methods were mostly focused on the learning of the image attention region, but ignored the impact of the non-attention region on the final feature learning. If the feature learning of image non-attention regions is enhanced while focusing on attention regions, the final person features can be further enriched, which is beneficial to the accurate identification of person identity information. Based on this, this paper proposed a visual information accumulation network (VIA Net), adopting two branches. One branch tended to learn the global features of the image, and the other branch was expanded into a multi-branch structure. By combining the features of the attention and non-attention regions, the learning of local features could be gradually strengthened, thus realizing the accumulation of visual information and further enriching the feature information. The experimental results show that the proposed VIA Net could attain high experimental performance in terms of person re-identification datasets such as Market-1501. At the same time, the experiment on the In-Shop Clothes Retrieval dataset shows that the network could also be applicable to general image retrieval tasks and possess certain universality.

person re-identification; visual information; attention region; non-attention region; metric learning

TP 391

10.11996/JG.j.2095-302X.2022061193

A

2095-302X(2022)06-1193-08

2022-08-02;

:2022-11-10

第7批全國博士后創新人才支持計劃項目(BX20220025);第70批全國博士后面上基金項目(2021M700303)

耿 圓(1997-),女,碩士研究生。主要研究方向為行人重識別、視覺語言導航。E-mail:geng1455289970@163.com

譚紅臣(1992-),男,講師,博士。主要研究方向為行人重識別、圖像生成、視覺定位等。E-mail:tanhongchenphd@bjut.edu.cn

2 August,2022;

10 November,2022

The 7th National Postdoctoral Innovative Talent Support Program (BX20220025); The 70th Batch of National Post-Doctoral Fellowships (2021M700303)

GENG Yuan (1997-), master student. Her main research interests cover person re-identification and vision-and-language navigation. E-mail:geng1455289970@163.com

TAN Hong-chen (1992-), lecturer, Ph.D. His main research interests cover person re-identification, image generation, object detection, etc. E-mail:tanhongchenphd@bjut.edu.cn

猜你喜歡
集上分支全局
實數集到時標上的概念推廣的若干原則
一類離散時間反饋控制系統Hopf分支研究
軟件多分支開發代碼漏合問題及解決途徑①
GCD封閉集上的冪矩陣行列式間的整除性
巧分支與枝
落子山東,意在全局
記憶型非經典擴散方程在中的全局吸引子
師如明燈,清涼溫潤
幾道導數題引發的解題思考
碩果累累
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合