?

基于注意力機制的多級監督人群計數算法

2023-05-14 05:26王勇杰王少坤朱姜華張曉宇
計算機與網絡 2023年6期
關鍵詞:注意力機制卷積神經網絡

王勇杰 王少坤 朱姜華 張曉宇

摘要:針對人群計數問題,提出了一種基于卷積神經網絡的人群計數網絡,該網絡由主干網和多級監督分支結構組成,在主干網絡的多個階段引入注意力機制學習不同尺度的人群特征。算法采用VGG16模型的前13層作為主干網,并且加入膨脹卷積網絡結構,融合圖像中的多尺度人群特征,解決多尺度人群計數問題,從而生成高質量的密度圖。同時,在3個不同尺度的分支結構中引入注意力機制,在損失函數中加入不同尺度的注意力損失,從而使整個網絡聚焦圖像中的人群區域。算法在4個主要的數據集上進行了測試,算法結果優于最近其他的方法。

關鍵詞:人群計數;卷積神經網絡;注意力機制;多級監督

中圖分類號:TP391.4文獻標志碼:A文章編號:1008-1739(2023)06-67-6

0引言

人群計數技術可以獲得圖像或視頻中的人群準確數量,可以用于安全監控和行為建模。在廣場、景區等公共場所,人群計數的結果對一系列社會治安問題的預警具有重要作用[1-2]。因此,人群計數問題已經成為視頻行人檢測和分析的重要組成部分。根據分析結果,不僅可以知道圖像中的總人數,還可以知道圖像中人群的分布情況,從而可以有效防止一些潛在危險事件的發生。

較早的人群計數方法一般采用基于檢測的方式,利用行人檢測窗口[3]對圖片中的行人進行檢測,從而獲得行人總數。過程中,為了解決圖像中存在的遮擋問題,進一步提出了基于回歸的方法[4]。這種方法的主要思想是學習行人特征與行人總數之間的映射關系。隨著深度學習技術的快速發展,基于人群密度估計的方法被廣泛應用于人群計數任務中。

本文也采用基于密度估計的方法,在算法模型中引入多尺度行人特征和注意力機制,有效提升了人群檢測準確率。

1基于人群密度估計的方法

采用人群密度估計的方式能夠很好地處理圖像中的遮擋和行人頭部尺度變化等問題。由于卷積神經網絡強大的特征學習能力,同樣被研究人員用在人群密度估計的研究任務當中,并且取得了很大的進步。人群密度估計方法如圖1所示。

由于圖像中不同位置的人表現出不同的大小和尺寸,為了解決行人的尺度變化問題,許多研究人員已經做了大量的人群計數研究工作,這些方法包括多分支結構[5]、顯式網絡集合[6]、多尺度卷積網絡[7]、注意機制[8]或特殊結構[9]等,這些方法都取得了顯著的效果。然而,這些方法的實現通常需要復雜的結構和復雜的訓練過程。

本文提出了一種由主干網和多分支結構組成的人群密度估計網絡,并引入注意力機制。網絡主干使用VGG16模型的前3個最大池化層。每個池化層之前增加多分支結構,利用膨脹卷積提取不同感受野的特征。同時在訓練過程中,還將多分辨率注意力圖產生的多尺度損失加入到損失函數中。

2本文算法

本文算法的核心是在模型訓練過程中引入更多的監督,使整個網絡聚焦于圖像中的人群區域,從而降低圖像中的背景噪聲影響,網絡模型利用膨脹卷積和注意力機制來生成多尺度的注意力圖。最后,網絡模型將主干網絡不同階段的多尺度特征融合在一起,生成最終的密度圖,回歸總人群數。

2.1網絡結構

網絡模型結構如圖2所示。

圖2中的卷積層用通道數/內核大小×內核大小/膨脹率表示,C表示級聯操作,U表示上采樣操作。網絡模型結構采用VGG16模型的一部分作為主干網絡,即采用只有3×3卷積核的單主干網絡用作特征提取器。由于主干網絡中的卷積核尺寸較小,因此整個網絡模型計算量較小,收斂速度較快。網絡模型的融合特征分別來自主干網絡的4個卷積層:Conv1-2、Conv2-2、Conv3-3和Conv4-3。主干網絡VGG16模型有5個最大池化層,最大池化層可以通過降低圖像分辨率來減少計算量。但是為了避免特征圖太小,網絡模型只保留前3個最大池層。網絡模型為了得到充足的圖像特征,網絡將低層到高層的圖像特征進行融合,得到最終的密度圖。網絡模型使用了來自ImageNet的預先訓練過的VGG16模型參數,并根據人群圖像進行了微調。由于預訓練模型在許多具有挑戰性的數據集上表現出良好的性能,因此選擇了這種策略,并通過實驗結果驗證了模型的訓練效果。

網絡模型的多分支結構用來生成多尺度的注意力圖,每個分支中采用膨脹卷積擴大卷積感受野,從而提取不同尺度的圖像特征。膨脹卷積可以獲得比正常卷積更大的感受野,并利用正常卷積進一步得到特征圖。多分支結構利用多尺度信息從局部到全局降低圖像的背景噪聲。多分支結構的輸出是注意力圖。在訓練過程中,采用不同分辨率的注意力圖(原始輸入圖像分辨率的1/4、1/16、1/64)對網絡進行多尺度監督。

多分支結構的末尾通過Sigmoid激活函數將融合后的特征圖生成注意力圖。Sigmoid激活函數可以從特征圖中給出0或1的值,從而將圖像背景區域和人群頭部區域用注意力圖區分。因此,多分支結構中的注意力圖給出了融合特征圖中的頭部概率區域。在融合特征圖中,頭部的可能性區域設置為1,背景的可能性區域設置為0。在整個網絡模型訓練過程中,注意力圖用于調整網絡模型的焦點。

與以前的方法不同,很多模型算法中有太多的池化層,導致最終生成的密度圖分辨率太小。過多的池化層雖然可以加速模型的計算過程和防止過擬合,還能使模型提取更高層的特征信息,但在降低分辨率的過程中會丟失一些空間信息。因此模型使用上采樣操作將密度圖的大小恢復到原始輸入的大小,從而增加更多的圖像細節信息。此外,在每一次級聯操作之前,采用膨脹卷積從局部到全局得到圖像中的前景(人群區域),然后利用前景和真值密度圖計算注意力損失。由于從高層次提取的特征比從低層次提取的特征更具鑒別能力,因此模型對由高層次特征生成的密度圖賦予了更高的權重。

因此,該模型的整個流程是:將輸入圖像輸入到模型中,通過主干網絡進行特征提取獲得特征圖。將獲取的特征圖通過多分支結構得到級聯的特征圖,同時利用注意力機制生成多尺度的注意力圖,在網絡模型的多個階段進行監督。由于批訓練和批歸一化可以穩定訓練過程,加速模型損失收斂,所以在每個卷積層之后都應用了批歸一化。除了最后一層,模型在每個卷積層之后添加ReLU激活操作。

2.2密度圖

2.5參數訓練

在訓練過程中,為了避免數據冗余,只從輸入圖像的任意位置隨機裁剪固定大小。根據不同的數據集,裁剪的尺寸大小是不同的。裁剪后的圖像以概率0.5隨機水平翻轉,并用概率為0.3的參數0.5~1.5進行伽瑪對比度變換,達到數據增強的目的。由于UCF-QRNF數據集中的圖像分辨率很高,將這些數據集中的所有圖像調整為1 024 pixel×768 pixel。如上所述,真值注意力圖的分辨率大小調整為原始圖像的1/4、1/16、1/64。

對于網絡模型的主干網絡,使用來自ImageNet的預先訓練的模型來初始化。模型的其他卷積層用高斯函數初始化,標準差為0.01。算法模型使用具有固定學習率1×10-4的Adam來優化網絡。批量大小設置為4,采用英偉達RTX 2080TI的GPU來加速計算過程。算法模型采用的軟件框架是Pytorch 1.1.0。

3實驗

算法模型已經在4個公開的具有挑戰性的數據集(ShanghaiTech、UCF-QRNF、WorldExpo10和UCF_CC_50)上進行了大量實驗,實驗結果證明了算法模型的有效性。

3.1評價標準

3.2數據集

3.2.1 ShanghaiTech數據集

該數據集由文獻[5]提出,共包含1 198幅圖像,分為兩部分:PartA和PartB。PartA包含的482張圖片都來自互聯網,其中300張用于訓練,182張用于測試。PartB包含的716張圖像都來自上海街頭的監控,其中400張用于訓練,316張用于測試。在訓練過程中,PartA數據集中的圖像裁剪大小為300 pixel×300 pixel,PartB中圖像的裁剪大小為512 pixel×512 pixel。

將算法模型的實驗結果與其他最近的方法進行了比較。如表1所示,算法模型的實驗結果是所有比較方法中最好的。與排名第二的模型相比,模型的實驗結果使PartA的MAE提高了1.3,PartB的MAE提高了0.3,PartB的MSE提高了1.2。

3.2.2 UCF_CC_50數據集

該數據集包含50幅圖像,由文獻[19]提出的。由于數據集中的圖像數量較少,且圖像中人群分布不均勻,因此該數據集具有很大的挑戰性。由于圖像數量較少,采用了5折交叉驗證的方法來評估算法模型。在訓練過程中,此數據集中的圖像裁剪大小為300 pixel×300 pixel。

實驗結果如表2所示。從表2可以看出,在MAE和MSE方面,本算法模型取得了最好的實驗結果。與排名第二的模型相比,該方法的MAE提高了25.9,MSE提高了21.2。

3.2.3 WorldExpo10數據集

文獻[7]提出了包括199 923標簽頭在內的2010年世博會數據集。數據集中的所有圖像都來自真實的世博場景。該數據集的3 980幅圖像用于訓練,其余圖像分為5個場景,每個場景120幅圖像用于測試。同時,該數據集還提供了ROI區域,因此實驗中的所有訓練和測試都是在ROI區域進行的。在訓練過程中,由于數據集中的圖像大小相同,該數據集中的裁剪大小就是圖像的原始大小。

表3顯示了本模型算法和其他最近網絡模型的對比結果,在5個測試場景中的3個場景中獲得了最低MAE(越低越好),并且在所有5個場景中獲得了最低的平均MAE。與第二排序法相比,該方法的MAE降低了0.8%。

3.2.4 UCF-QRNF數據集

這個包含1 535幅圖像的數據集是由文獻[20]提出的。該數據集中的1 201幅圖像用于訓練模型,其余圖像用于測試模型。此數據集中的所有圖像也來自互聯網。與其他數據集相比,該數據集中的圖像更為稠密,圖像中的背景更接近實際場景,對網絡應用具有更大的現實意義。如上所述,此數據集中的圖像大小調整為1 024 pixel×768 pixel,以加快計算速度。在訓練過程中,此數據集中的圖像裁剪大小為512 pixel×512 pixel。

實驗結果如表4所示,從表4可以看出,模型在這個數據集上并沒有得到最好的結果,只得到了第三名,但是結果非常接近最優結果的值。與最佳網絡相比,模型在MAE上高出7.3,在MSE上高出14.5。

3.3消融實驗

在這一部分中,注意力圖損失的有效性在ShanghaiTech數據集上得到驗證。在實驗中,只使用VGG16主干和多分支結構來訓練模型,因此損失函數沒有注意力圖損失,結果如表5所示。與最近的其他方法相比,無注意力圖損失網絡的結果在該數據集的性能上也取得了顯著的進步。實驗結果表明,注意力損失對結果有很大的影響。

同時,還討論了損失函數中不同參數對最終結果的影響。在ShanghaiTech PartB數據集上嘗試了3個不同數量級的參數,結果如表6所示。當設置為0.01時,結果最好。

4結束語

針對人群計數問題,提出了一種新的基于卷積神經網絡的模型來處理圖像中人頭尺度變化和背景噪聲。該模型利用VGG16主干網不同階段的多尺度特征生成密度圖。在主干網絡的多個階段引入膨脹卷積,融合多尺度特征圖,利用Sigmoid函數生成注意力圖。利用多尺度的注意力圖,模型可以更好地確定頭部的位置,生成高質量的密度圖。實驗結果表明,該模型比現有的方法具有更好的性能。

在進一步的研究過程中,將考慮圖像中存在的惡略自然天氣和光照變化等環境因素,提高算法在實際環境中的魯棒性。

參考文獻

[1]鈕嘉銘,楊宇.基于CNN的人群計數與密度估計研究綜述[J].軟件導刊, 2021, 20(8):247-252.

[2]向飛宇,張秀偉.基于卷積神經網絡的人群計數算法研究[J].計算機技術與發展, 2021, 31(7):42-46.

[3] DOLLAR P, WOJEK C, SCHIELE B, et al. Pedestrian Detection: An Evaluation of the State of the Art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4):743-761.

[4] CHAN A B, VASCONCELOS N. Bayesian Poisson Regression for Crowd Counting[C]// 2019 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009:545-551.

[5] ZHANG Y Y, ZHOU D S, CHEN S Q, et al. Single-image Crowd Counting via Multi-column Convolutional Neural Network[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE, 2016:589-597.

[6] ZHANG L,SHI Z,CHENG M, et al. Nonlinear Regression via Deep Negative Correlation Learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(3): 982-998.

[7] ZHANG C, LI H S, WANG X G, et al. Cross-scene Crowd Counting via Deep Convolutional Neural Networks[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 833-841.

[8] GUO D, LI K, ZHA Z J, et al. Dadnet: Dilated-attentiondeformable ConVent for Crowd Counting[C]// Proceedings of the 27th ACM International Conference on Multimedia. Nice: ACM, 2019:1823-1832.

[9] SAM D B, SURYA S, BABU R V. Switching Convolutional Neural Network for Crowd Counting[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5744-5752.

[10] LIU N,LONG Y,ZOU C, et al. ADCrowdNet: An Attention-injective Deformable Convolutional Network for Crowd Understanding[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3320-3229.

[11] CHEN X Y, BIN Y R, GAO C X, et al. Relevant Region Prediction for Crowd Counting[J]. Neurocomputing, 2020, 407: 399-408.

[12] WANG S Z, LU Y, ZHOU T F, et al. SCLNet: Spatial Context Learning Network for Congested Crowd Counting[J]. Neurocomputing, 2020, 404:227-239.

[13] WANG Y J, ZHANG W, LIU Y Y, et al. Multi-density Map Fusion Network for Crowd Counting[J]. Neurocomputing, 2020, 397:31-38.

[14] VARIOR R R, SHUAI B, TIGHE J, et al. Scale-aware Attention Network for Crowd Counting[J/OL]. (2019-01-17)[2022-10-13]. https://arxiv.org/abs/1901.06026.

[15] JIANG X L, XIAO Z H, ZHANG B C, et al. Crowd Counting and Density Estimation by Trellis Encoder-Decoder Networks[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 6126-6135.

[16] SHI M J, YANG Z H, XU C, et al. Revisiting Perspective Information for Efficient Crowd Counting[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019:7271-7280.

[17] ZHANG L, SHI M J, CHEN Q B. Crowd Counting via Scale-adaptive Convolutional Neural Network[C]// IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018:1113-1121.

[18] ZHU L, ZHAO Z J, LU C, et al. Dual Path Multi-scale Fusion Networks with Attention for Crowd Counting[J/OL].(2019-02-04) [2022-10-13]. https://arxiv.org/abs/1902.01115.

[19] IDREES H., SALEEMI I. SEIBERT C, et al. Multi-source Multi-scale Counting in Extremely Dense Crowd Images[C] // 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013:2547-2554.

[20] IDREES H, TAYYAB M, ATHREY K, et al. Composition Loss for Counting, Density Map Estimation and Localization in Dense Crowds[C]// European Conference on Computer Vision. Munich: Springer, 2018:544-559.

猜你喜歡
注意力機制卷積神經網絡
面向短文本的網絡輿情話題
基于自注意力與動態路由的文本建模方法
基于深度學習的問題回答技術研究
基于LSTM?Attention神經網絡的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個基于知識庫的問答系統
基于卷積神經網絡溫室智能大棚監控系統的研究
基于深度卷積神經網絡的物體識別算法
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網絡的人臉年齡分析算法與實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合