?

基于動態前景聚焦與偽孿生網絡的跨分辨率行人重識別*

2023-07-03 08:49吉海瑞張寶華
內蒙古科技大學學報 2023年1期
關鍵詞:分支行人分辨率

吉海瑞,張寶華

(內蒙古科技大學 信息工程學院,內蒙古 包頭 014010)

行人重識別(Person Re-identification,ReID)旨在研究同一身份行人在非重疊監控場景下的匹配檢索問題.在實際場景中,不同攝像機捕獲的同一行人圖像分辨率差異顯著,直接跨分辨率匹配會使網絡性能下降.

為解決分辨率不匹配問題,JIAO等[1]人提出一種級聯超分辨率(Super Resolution,SR)模型和Re-ID子網絡的方法,通過多尺度的SR網絡重建低分辨率圖像中的高頻信息. WANG等[2]人通過級聯多個GAN網絡,通過尺度自適應放大因子逐步重建低分辨率圖像中的細節,以解決跨分辨率圖像特征不一致問題.這些方法利用級聯圖像超分辨率或GAN網絡的優勢解決跨分辨率問題,而SR和ReID聯合網絡的兼容性問題并未得到有效解決.為此,CHENG等[3]人利用超分辨率技術和行人重識別之間的底層關聯信息增強子網絡之間的兼容性,從訓練策略角度優化超分辨率技術和行人重識別的聯合框架,以提高網絡性能.ZHANG等[4]人利用教師學生模型分階段訓練網絡,以減少跨分辨率圖像之間的特征分布差異.而這些方法卻忽略了如何在超分辨率重建過程中獲取有效的判別區域.

為此,提出了一種基于動態前景聚焦與偽孿生網絡的跨分辨率行人重識別算法.該算法利用動態前景聚焦超分辨率網絡,恢復低分辨率圖像.然后構建偽孿生網絡,實現對不同粒度特征進行自適應特征提取,以學習細粒度局部特征和粗粒度全局特征.

1 基本原理

1.1 網絡框架

整體網絡框架由2部分組成,分別為動態前景聚焦超分辨率網絡(Dynamic Foreground Focusing Super Resolution, DFFSR)和偽孿生網絡(Pseudo Siamese Network, PSN)模塊,如圖1所示.

圖1 整體網絡架構

1.2 DFFSR網絡

DFFSR網絡由編碼器(Encoder),動態感知模塊(Dynamic Perception Network, DPN)和解碼器(Decoder)3部分組成,其中,動態感知模塊是由n個Attention in Attention Block(A2B)網絡構建而成鏈式子網絡,每個A2B由非注意力分支(Non-attention Branch),注意力分支(Attention Branch)和動態注意模塊(Dynamic Attention Module, DAM)3分支組成,如圖2所示.

圖2 動態前景聚焦網絡

首先,原圖像經過編碼器學習得到中間特征Fc,通過動態感知模塊動態感知中間特征中的顯著區域,得到具有判別信息的中間特征Fd.其次,經過解碼器進行超分辨率重建,得到超分辨率圖像.最后,利用高斯掩碼抑制背景雜波干擾.

編碼器用兩個以步幅為2的卷積層對輸入圖像進行下采樣,得到中間特征Fc,然后將其輸入到動態感知模塊,得到具有判別區域的中間特征Fd.公式如下:

(1)

式中:f(·)為非注意力分支和注意力分支與由輸入特征確定的動態權重相結合的函數.

在每個A2B中,動態注意力模塊分支利用加權求和方式平衡注意力分支和非注意力分支,控制兩分支的動態加權貢獻,自動丟棄不重要的注意力特征.計算公式如下:

(2)

πn=fatt(xn) .

(3)

式中:fatt為動態注意力模塊計算函數.

提取到具有判別性的中間特征后,通過解碼器對Fd進行重建.首先使用最近鄰插值對其上采樣,并在低層和高層之間添加跳躍連接,保留原始圖像中的視覺線索,提高重建圖像的質量.最后對輸入圖像特征和重建后特征融合,生成超分辨率特征Fsr.

行人前景可以為行人重識別提供更多的特征信息,為了在行人前景上恢復更多視覺線索并抑制雜亂的背景,提出動態前景聚焦SR損失LDFFSR,計算公式如下:

(4)

1.3 PSN網絡

單獨應用DFFSR網絡不足以挖掘深層語義信息,并且低分辨率和高分辨率圖像傳達的視覺線索數量不同.為此,設計了PSN網絡進行分辨率自適應特征提取.在PSN網絡,首先利用Stage0、Stage1和Stage2提取特定分辨率特征圖的低頻信息;然后將Stage3和Stage4設置為具有共享參數的偽孿生網絡框架進行粗細粒度特征學習,實現分辨率自適應特征提取.

在細粒度分支,經過Stage4后將n個局部特征向量連接成單個列向量,學習具有局部分辨率的判別特征:

(5)

進一步用于產生ID預測損失:

(6)

式中:Wj、Wyi分別為權重矩陣W(g的單個分類器)的第j列和第yi列對應的權值.

該分支采用難樣本挖掘三元組損失作為細粒度分支損失函數Lf_tri,對于batch中的每個特征fa,通過挖掘最難正負樣本對fp和fn來構造三元組以計算細粒度分支損失.

在粗粒度分支,采用異中心三元組損失函數[5]作為粗粒度分支損失函數Lc_tri.對于每個行人,通過關注跨分辨率正中心對和最難(模態內和模態間)負中心對.PSN模塊總損失為:

LPSN=Lf_tri+Lid(f)+Lc_tri+Lid(fc) .

(7)

式中:Lf_tri為細粒度三元組損失,Lid(f)為細粒度分支分類損失;Lc_tri為粗粒度三元組損失,Lid(fc)為粗粒度分支分類損失.

1.4 跨分辨率數據特征間的約束準則構建

在目標函數構建方面.行人重識別任務的目標是最小化同一個人圖像之間的距離,同時保持不同人圖像之間的較大距離.考慮到行人圖像分辨率的影響,將跨分辨率行人重識別的目標函數O定義為:

(8)

式中:Fsim為計算同一行人兩張圖像之間的特征距離函數;Fdif為計算不同行人兩張圖像之間的特征距離函數;r1和r2分別為距離計算中2個圖像的分辨率.

2 實驗結果與分析

2.1 數據集評估與評價標準

實驗所涉及的數據集包括2個用于傳統行人重識別任務的高分辨率數據集(MLR-Market-1501[6]、MLR-DukeMTMC-ReID[7]),2個以隨機的下采樣率對所有圖像進行預處理的合成數據集(MLR-Market-1501、MLR-DukeMTMC-ReID),和一個本身存在高低分辨率圖像的數據集:CAVIAR[8].

實驗采用首位命中率Rank-1和前5位命中率Ran-5作為實驗評估指標.

2.2 實驗配置與實驗細節

實驗是在2張NVIDIA GeForce RTX 2080Ti顯卡環境下實現的.實驗中采用PyTorch1.10.0框架,輸入圖像尺寸大小為256×128,網絡基本結構為OSNet50[9],設置batch大小為64.采用Adam優化器優化參數,模型初始學習率為3.5×10-5.

2.3 實驗結果分析

2.3.1消融實驗

首先,對DFFSR網絡進行有效性驗證.實驗在MLR-Market-1501數據集上進行.采用RestNet50作為特征提取模型,并且測試了不同的超分辨率方法(雙線性插值Bilinear,NLSN[10]和EMASRN+[11]),結果如表1所示.

表1 不同超分辨率模型的精度對比(準確率,%)

從表1中可以看出,在DFFSR網絡中僅應用注意力分支比僅應用非注意力分支稍有提升,可以得出注意力機制更有利于SR模型感知判別特征.當2個分支結合后,相對僅應用注意力分支,Rank-1和Rank-5分別提高了2.5%和0.8%,表明將2個分支結合更有利于低分辨率圖像的恢復,捕獲判別特征.在雙分支的基礎上應用動態注意力模塊后,精度明顯提升,這說明該模塊可以更好地抑制無效感知區域,增強對關鍵特征的感知能力.當結合高斯掩碼后,Rank-1和Rank-5提升至55.1%和73.6%,表明結合高斯掩碼后的DFFSR能有效地提取更多的圖像前景關鍵信息,緩解多分辨率圖像攜帶的高低頻信息特征差異,并且一定程度上增強了模型的檢索性能.通過與目前主流超分辨率模型(NLSN,EMASRN+)對比,算法有明顯提升.

其次,對PSN網絡進行有效性驗證.實驗在MLR-Market-1501數據集上進行.采用雙線性插值作為超分辨率重建模塊.為評估PSN網絡不同深度設置的影響,對其進行研究,結果如表2所示.由于OSNet50有5個殘差塊,表中的C0-S1234為將第一個殘差塊作為淺層,其余4個塊作為偽孿生網絡共享深層.其他方法也以同樣方式命名,其中C01234為沒有設置偽孿生網絡.

表2 PSN網絡不同深度設置的精度對比(準確率,%)

從表2可以看出,C01234在所有方法中性能最差,說明構建偽孿生網絡是必要的,并且隨著淺層深度的增加和偽孿生網絡的深度的減小,識別性能先提高后降低.當淺層深度較小時,無法充分提取不同模態的模態特征.當淺層深度較大時,不同形態的2個分支過于獨立,提取的特征差異太大,C012-S34在2個數據集上性能最佳.因此實驗將OSNet50的前3個殘差塊設置為淺層,后2個殘差塊設置為偽孿生網絡架構.

將PSN網絡與四種特征提取模型進行對比,實驗結果如表3所示.

表3 不同特征提取模型的精度對比(準確率,%)

在表3中可以發現,OSNet50比ResNet50精度少有提升,這是因為ResNet網絡具有下采樣特性,導致分辨率的降低.通過融合2個ResNet50和兩個OSNet50來增加網絡參數會比單獨1個分支帶來更多邊際改進,進一步提高了網絡精度,其中,Rank-1分別提高了1.5%和1.8%.在比較的方法中,PSN網絡取得了最好的性能,Rank-1比基線高出了6.3%,結果表明,PSN網絡可以更好地挖掘深層語義特征,增強對判別性特征的提取能力.

最后,進一步驗證DFFSR和PSN對公式(9)中定義的目標函數的影響.實驗在MLR-Market-1501和MLR-DukeMTMC-ReID數據集上進行.為簡單起見用基礎網絡ResNet作為特征提取器.結果如圖3所示.

圖3 DFFSR和PSN對目標函數的影響

在具有不同r1和r2組合的2個數據集上計算O(r1,r2),其中,圖(a)和(b)是在MLR-Market-1501數據集上進行的結果,圖(c)和(d)是在MLR-DukeMTMC-ReID數據集上進行的結果.圖(a)和(c)為固定r1=r2并將它們的值從0.25增加到1.可以觀察到,較低的分辨率會導致較大的O,從而導致較低的準確率.圖(b)和(d)為固定r2=1并將r1從0.25增加到1.可以得出,2個圖像分辨率差較大時,會降低識別精度.從圖中也可以發現,DFFSR和PSN都降低了目標函數的值,并且都降低了原始曲線的斜率,意味著所提算法可更好地處理分辨率變化的行人圖像.結合DFFSR和PSN可帶來最佳性能.

2.3.2與現有主流算法比較

為了驗證所提算法的有效性,將其與最近的7種跨分辨率行人重識別算法(SING[1],CSR-GAN[2],INTACT[3],RIPR[12],CAD-Net[13],CAD-Net++[14]和B-F+RFD[15])比較.在表4中總結了3個數據集的實驗結果.

表4 與其他先進算法的精度對比(準確率,%)

從表4中可以看出,所提算法在3個數據集上的Rank-1和Rank-5指標均超越了之前算法,取得目前領先效果.這說明所提算法可以有效提取跨分辨率行人圖像的模態不變性特征,以實現更好的檢索與匹配.

3 結論

針對跨分辨率行人重識別場景復雜等問題,提出了一種跨分辨率行人重識別算法,通過動態前景聚焦超分辨率重建網絡恢復低分辨率圖像中缺失的判別性特征,通過構建多粒度相互協同的偽孿生網絡實現了對超分辨率重建圖像的精細化識別.通過端到端訓練,使模型強有力地解決了多分辨率圖像特征不一致、網絡級聯訓練困難等問題.實驗結果表明,所提算法有效提高了多分辨率情況下的識別準確率,相比于主流算法具有一定優勢.

猜你喜歡
分支行人分辨率
毒舌出沒,行人避讓
巧分支與枝
EM算法的參數分辨率
路不為尋找者而設
原生VS最大那些混淆視聽的“分辨率”概念
一類擬齊次多項式中心的極限環分支
我是行人
基于深度特征學習的圖像超分辨率重建
一種改進的基于邊緣加強超分辨率算法
生成分支q-矩陣的零流出性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合