?

多分支融合注意力機制的行人重識別方法

2022-08-16 03:11王成龍
計算機工程與設計 2022年8期
關鍵詞:池化分支全局

郭 彤,趙 倩,趙 琰,王成龍

(上海電力大學 電子與信息工程學院,上海 201306)

0 引 言

行人重識別[1]是一項跨攝像機的圖像檢索任務,用于判斷多攝像頭檢測的行人序列中是否存在同一行人,該技術廣泛應用于視頻監控、智能安防和智能攝像頭等領域。

深度學習的應用使行人重識別的性能得到了極大提升。Wang等[2]將深度卷積神經網絡每一階段輸出的全局特征進行權重控制并通過級聯的方式融合,該模型在多個數據集上被證明有效,但當行人發生遮擋時,基于全局特征的重識別方法將達不到預期效果。因此,基于局部特征的方法被引入到行人重識別任務中。Zhao等[3]將姿態估計與行人重識別任務相結合,提出Spindle Net網絡,該網絡將姿態估計模型生成表征人體部件的7個區域和采用卷積神經網絡提取的全局特征融合生成多尺度特征,但是基于姿態估計的行人重識別方法依賴于姿態估計模型的準確性。Zhang等[4]提出了一種最短路徑對齊方法,通過動態的計算圖像對局部特征之間的距離來完成重識別任務,避免了分割帶來的圖像對之間的不匹配問題。徐等[5]采用多尺度的自適應滑動窗口提取局部特征并進行最優選擇,以此聯合全局特征共同完成行人重識別。然而,實際監控場景中的行人運動、背景等因素會對行人身份信息帶來干擾,導致行人重識別的準確性降低。

基于此,本文提出了一種多分支融合注意力機制的行人重識別方法,該方法設計了一個基于注意力機制的全局分支,提取更加具有顯著性的全局特征,采用獨立的分支提取局部特征,避免網絡共享參數導致的性能下降,并且使用特征補充提取相鄰局部特征之間連接處的特征,保證局部特征的完整性。在Market-1501、DukeMTMC-reID和CHUK-03數據集上進行多次實驗,結果表明該網絡模型能夠有效提高行人重識別的性能。

1 行人重識別網絡模型

1.1 網絡結構

在訓練神經網絡時,隨著網絡深度不斷增加,訓練的準確率會逐漸平緩,但是誤差卻會變大,殘差網絡中殘差模塊的設計很好地解決了這種網絡退化現象,因此本文采用殘差網絡ResNet50[6]作為基礎網絡。本文網絡結構如圖1所示,將ResNet50的Conv4-1之后的部分,分成兩個分支。第一個分支為全局分支,該分支中,在Conv4之后加入注意力機制,通過注意力機制增強網絡特征學習的能力,使網絡在有限的特征信息中更加關注行人信息,減少圖像背景復雜造成的誤差。對Conv5-1塊中的stride-2卷積層進行下采樣,然后在相應的輸出特征圖上執行全局最大池化操作,并使用批處理歸一化的1×1卷積層和ReLU將2048維特征減少為256維。第二個分支為局部分支,包含局部-2分支、局部-3分支和特征補充分支。該分支將行人特征圖分割為基本塊,使得網絡更關注細微但必要的局部特征區域,聯合全局特征和局部特征將促使網絡在有限的信息中探索有用的細粒度信息。該分支中,在基礎網絡不同深度分別進行局部水平池化,將相應的輸出特征圖水平均勻地切分成局部基本塊,記為局部-N分支,其中N表示分支中基本塊的數量。

由于硬分割會造成圖像分割邊緣信息的丟失,并且局部-2分支和局部-3分支中分割存在重疊部分,因此只在局

圖1 網絡結構

部-3分支引出特征補充分支,對目標切割部位進行特征補充,避免特征丟失,同時對其余部分的特征進行丟棄,避免與局部-2分支中提取的特征信息重復,造成特征冗余。該分支在Conv5中不進行任何下采樣操作以保留更完備的局部信息,與全局分支一樣,對所用到的基本塊降維至256維。在測試階段,將所有縮小到256維的特征合并為一個特征向量來測試該網絡的性能,結合了全局和局部信息,使提取的特征信息更全面。

1.2 基于注意力機制的全局分支

為了增強網絡提取顯著特征的能力,使網絡更加關注行人特征,在全局分支中引入注意力機制,設計了基于注意力機制的全局分支。在提取局部特征時分塊策略可以起到弱注意力的作用,因此只在全局分支引入注意力機制。本文采用CBAM(convolutional block attention module)[7]注意力機制,設計了基于注意力機制的全局分支,注意力機制如圖2所示,將ResNet50的Conv4-X輸出特征圖依次通過通道注意力和空間注意力。通道注意力集中于輸入圖像“是什么”上,采用平均池化和最大池化操作聚合特征圖的空間信息,得到兩個1×1×C的通道矩陣,將這兩個矩陣輸入到同一個多層感知機后合并輸出特征向量,如式(1)和式(2)所示

Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

(1)

F′=Mc(F)?F

(2)

式中:F表示輸入行人特征圖,σ為Sigmoid激活函數,AvgPool(F)和MaxPool(F)分別為平均池化和最大池化,MLP(multi-layer perceptron)為多層感知器,Mc(F)為通道注意力模塊,F′表示經過通道注意力后得到的特征??臻g注意力集中于“在哪里”,是對通道注意的補充,采用平均池化和最大池化操作來聚合一個特征映射的信道信息,生成兩個W×H的2維空間矩陣,然后將它們拼接并通過一個標準的卷積層,生成二維空間注意力,如式(3)和式(4)所示

Ms(F′)=σ(f([Avgpool(F′);MaxPool(F′)]))

(3)

F″=Ms(F′)?F′

(4)

式中:Ms(F′) 為空間注意力模塊,f為卷積層運算,AvgPool(F′)和MaxPool(F′)分別為平均池化和最大池化,σ為激活函數,F″表示經過空間注意力后得到的特征。

圖2 注意力機制

1.3 局部分支網絡

由于在多攝像頭下采集的行人數據集中存在大量的困難樣本,使得單獨使用全局特征或者單一的局部特征不能完全將圖片的關鍵信息表征出來。因此,如何提取更具代表性和判別力的局部特征和如何合適地統一全局特征與局部特征,成為提升行人重識別性能的關鍵。目前常用的局部特征提取方法有姿態關鍵點匹配、語義分割、圖像切塊等方法,其中圖像切塊是一種簡單有效的方法。圖像切塊可以捕獲到圖像的細節信息,但是圖像切塊容易導致邊緣信息丟失,因此本文采用多尺度特征提取和特征補充的方法彌補圖像切塊的缺陷,并將其與全局特征聯合進行行人重識別任務。

受到MGN(multiple granularity network)[8]網絡的啟發,本文在提取局部特征部分包含在網絡不同深度將行人特征水平均勻分割為2個基本塊的局部-2分支、將行人特征圖水平均勻分割為3個基本塊的局部-3分支和對其進行特征增強的特征補充分支。局部-2分支中,將基礎網絡Conv4輸出特征圖進行局部池化操作,水平均勻分割為2個基本塊dij(i=2;j=1,2); 局部-3分支中,將ResNet50的Conv5輸出特征圖進行局部池化操作,水平均勻分割為3個基本塊gij(i=3;j=1,2,3); 由于局部-2分支和局部-3分支中的分割具有重疊部分,因此在局部-3分支中Conv5輸出特征圖再次進行局部池化操作,水平均勻分割為4個基本塊,取其中與局部-3分支中的分塊之間存在重疊部分的基本塊,即第2和第3個基本塊wij(i=4;j=2,3), 作為特征補充分支的基本塊,為了避免與局部-2分支中提取的特征信息重復,將剩余的基本塊wij(i=4;j=1,4) 丟棄,共7個基本塊進行模型訓練。特征補充分支既可以較好避免因硬分割所帶來的局部邊緣信息的丟失,也可以避免與前面分支中的多個局部基本塊重復所帶來的特征冗余,具體實驗部分在2.3節進行具體闡述。

行人圖像切分效果如圖3(a)所示,與HPM(horizontal pyramid matching)[9]網絡(圖3(b))相比,本文的方法采用參數不共享的獨立分支結構,可以避免一個分支共享參數導致網絡性能的退化。在提取局部特征時,首先根據人體基本結構,將行人分成上半身和下半身兩個部分提取局部特征;其次考慮到還有更細小的特征待發掘,并且與前面二等分相配合,將行人三等分提取較精細但必要的局部特征;最后提出特征補充分支來避免前面硬切分帶來的圖像切分邊緣精細特征的丟失,同時為了防止特征冗余和本地資源的浪費,有區分地選取局部特征基本塊。HPM網絡則是將特征圖和其進行二等分、四等分和八等分后分別預測行人身份,來完成行人重識別任務。但由于行人具有較強的靈活性,同一身份的行人圖片之間往往會出現身體部分錯位、不對齊的情況,這種情況下過于細小的特征分塊不僅對于最后的識別結果沒有提升,反而會浪費本地更多的硬件資源和訓練成本。

圖3 行人圖片切分效果

1.4 多損失函數聯合學習

在訓練網絡模型時,聯合多種損失函數共同學習可以使得網絡模型更具魯棒性。本文組合3種不同的損失函數:softmax損失、三元組損失(triplet loss)和中心損失(center loss)共同訓練網絡。由于三元組損失和中心損失使用的度量方法是歐式距離,而softmax損失使用的是余弦距離,且局部特征基本塊之間存在不匹配問題,因此對于圖1中降維之前1024維的全局特征和局部分支所用到的基本塊使用softmax損失函數約束;對于降至256維的全局特征使用三元組損失和中心損失共同約束,以達到收斂效果。行人重識別問題可以看成一個分類任務,對于訓練網絡過程中每個批次學習到的特征,Softmax損失如式(5)所示

(5)

式中:Wk對應于k類的一個權向量,N為訓練過程中的批量大小,C為訓練數據集中的類數。根據文獻[10]該損失函數丟棄了線性多分類器中的偏量,有助于提高識別能力。本文使用基于難樣本挖掘的三元組損失[11],定義如式(6)所示

(6)

(7)

式中:fti表示第i張圖片的特征值,cyi表示第i張圖片對應特征值所屬的特征中心,M是一個批次中行人圖片的數量。中心損失可以使得同一類行人之間的特征向內聚集,類內特征更為緊湊,與三元組損失共同約束特征向量使得同一行人的特征更加接近,不同行人之間的特征距離增大,提升網絡的檢索能力。因此,改進之后的損失函數如式(8)所示

L=Lsoftmax+Ltriplet+Lcenter

(8)

2 實驗結果及分析

2.1 數據集及評估協議

為了驗證本文所提方法是否有效,在常用的行人重識別數據集 Market-1501、DukeMTMC-reID和 CUHK03上分別進行測試[13-15],并將其與目前主流的行人重識別方法進行對比,表1是行人重識別數據集的介紹。Market-1501數據集是在夏天拍攝,樣本具有較大的姿態和光照變化,行人檢測框由人工和DPM算法進行標注;DukeMTMC-reID數據集是在冬天拍攝,行人樣本具有較大的外觀變化,行人檢測框由人工進行標注,數據集內不同行人之間具有很高的相似度,同一行人之間卻有很大的差異性;CUHK03數據集由和人工標注檢測框(CUHK03-labeled)和DPM算法標注檢測框(CUHK03-detected)兩部分組成,該數據集是在樓道拍攝得到的,攝像頭相比于其它兩個數據集較多,并且空間密閉狹窄,存在較多側面和背影行人樣本,測試集行人類型少于訓練集行人類型,增加了測試的難度,具有較大的挑戰性。

表1 行人重識別數據集介紹

本文采用累積匹配特征(cumulative matching characteristic,CMC)曲線[16]中的Rank-1精度和平均精度均值(mean average precision,mAP)這兩個標準來評價行人重識別方法的性能。Rank-1表示模型返回的排序列表中第一個結果即為查詢目標的概率。平均精度均值是對待查詢集中所有圖片返回的結果進行計算,具體公式如式(9)所示

(9)

式中,N為查詢集,mi為每個查詢圖像返回正確匹配結果的數量,Precision(Rij)表示返回第j正確匹配結果的平均精度。

2.2 實驗設置

實驗使用ImageNet分類的Resnet50作為提取特征的基礎網絡。訓練過程中,輸入圖像分辨率調整為384×128,并應用隨機擦除來對圖像進行數據增強。設置批處理大小為16,每批次中隨機抽取4個行人,每個行人抽取4張圖像,三元組損失函數中的閾值α設為1.2,初始學習率為0.0002。整個訓練過程持續400個epoch,并采用自適應梯度優化器(Adam)更新參數。本文所提方法是在深度學習框架pytorch上進行實現的,所有實驗均使用單一查詢方式。

2.3 消融實驗

為驗證算法性能,設置消融實驗。由于CUHK03數據集中的行人圖片遮擋較多,且背景復雜,具有較大的挑戰性,因此在CUHK03中的兩個數據集(labeled和detected)上來驗證所提方法每個組件的有效性,每次實驗均與上文所述的實驗設置保持一致,實驗結果見表2。其中AM-GB表示基于注意力機制的全局分支,LB-2表示局部-2分支,即圖1中的局部-2分支,LB-3表示局部-3分支,LB-4表示局部-4分支,即沒有進行丟棄前的特征補充分支,加入此分支消融實驗可以更為直觀說明特征補充分支的有效性,FSB表示特征補充分支,SM表示softmax損失函數,T表示三元組損失函數,C表示中心損失函數。由表2可以看出,每加入一個單獨的組件其性能都有不同程度的提高,局部-4分支相對于特征補充分支而言,其性能有所下降,在CUHK03-labeled和CUHK03-detected數據集上Rank-1分別下降了4.36%和5.14%,mAP分別下降了3.49%和3.98%,進一步說明了特征補充分支可以提高重識別效果。

表2 不同方法的實驗結果對比

2.4 結果可視化

為了能夠更加直觀體現本文算法的檢測效果,圖4展示了部分在Market-1501數據集上查詢前10名的結果。圖中最左側query是查詢目標,右側1~10為相似度排名前十的行人圖像。第一、二個查詢圖像在自行車混淆行人信息的情況下,本文網絡可以通過不同粒度的局部分支為全局分支提供更全面的特征,從而獲得較好的結果。第三、四排行人的查詢圖像是在低分辨率下采集的,且背景雜亂無章,該網絡仍然可以魯棒地表示其特征信息。最后一個行人圖像的查詢結果Rank-8、Rank-9和Rank-10雖然沒有明顯的紅色元素作為強有力的特征,該網絡仍然可以找出正確的行人圖像,這得益于不同層次的語義信息和不同粒度的局部分支對網絡的影響。

圖4 Market-1501數據集部分圖像結果可視化

2.5 與主流方法的比較

為了驗證所提方法的性能,將該方法與主流的行人重識別方法進行對比,對比結果見表3和表4。由表3可知,本文方法在Market1501和DukeMTMC-reID數據集上的Rank-1分別達到了95.68%和89.84%,相比于只使用局部特征的PCB網絡分別提高了3.38%和8.14%;mAP分別達到了87.20%和79.14%,相比于PCB網絡分別提高了9.8%和13.04%,這得益于該網絡局部分支中在網絡的不同深度提取不同層次的語義信息,增加了局部特征的豐富性;多分支提取不同粒度的局部特征,獲取行人圖像更具魯棒的特征。由表4可知,本文方法在labeled和detected數據集上的Rank-1分別達到了83.21%和79.21%,相比于只包含多個分支結構,但沒有考慮局部特征之間聯系的MGN網絡分別提高了15.21%和12.41%;mAP分別達到了79.95%和75.67%,相比于MGN網絡分別提高了12.55%和9.67%,這得益于局部分支中引入了采用不同于基礎特征部分的切分方式的特征補充機制,避免了邊緣信息的丟失。

表3 Market-1501和DukeMTMC-reID數據集上 與主流方法性能對比

表4 CUHK03數據集上與主流方法性能對比

3 結束語

本文提出了一種多分支融合注意力機制的行人重識別網絡,多分支網絡結構可以增強網絡的特征提取能力,注意力機制使網絡更關注行人的關鍵特征。此外,通過不同尺度的局部特征與特征補充的聯合,進一步挖掘行人特征的潛在信息,使特征信息更加完整。實驗在3個主流行人重識別數據集上進行驗證,實現了較好的重識別效果,相較于現有行人重識別方法性能有所提高。在未來的研究中,將嘗試對模型進行輕量化,在保證精度的同時盡可能降低模型對設備資源的需求。

猜你喜歡
池化分支全局
基于高斯函數的池化算法
一類離散時間反饋控制系統Hopf分支研究
卷積神經網絡中的自適應加權池化
軟件多分支開發代碼漏合問題及解決途徑①
巧分支與枝
基于卷積神經網絡和池化算法的表情識別研究
落子山東,意在全局
用于手寫漢字識別的文本分割方法
記憶型非經典擴散方程在中的全局吸引子
碩果累累
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合