?

融合混合注意力的自編碼器視頻異常檢測

2024-02-22 07:45楊曉文謝劍斌歐陽楠楠忽欣諭王晉濤
計算機工程與設計 2024年2期
關鍵詞:編碼器注意力卷積

鄭 重,楊曉文,謝劍斌,歐陽楠楠,忽欣諭,王晉濤

(1.中北大學 計算機科學與技術學院,山西 太原 030051;2.中北大學 機器視覺與虛擬現實山西省重點實驗室,山西 太原 030051;3.山西省視覺信息處理及智能機器人工程研究中心,山西 太原 030051;4.湖南中科助英智能科技研究院,湖南 長沙 410076)

0 引 言

隨著計算機視覺技術的不斷發展,深度學習在視頻異常檢測領域取得了巨大的成功[1]。U-net網絡被廣泛應用在視頻異常檢測中,Tang等[2]通過構建生成器實現將預測與重構相結合,生成器由兩個連續的U-net組成,第一個U-net預測過渡時刻的幀,第二個U-net利用該幀預測未來時刻的幀,通過強度值與梯度值最小化重構誤差。Mem-AE[3]提出了一種存儲記憶模塊,并在U-net網絡中嵌入存儲記憶模塊存儲正常數據的潛在特征,降低了模型的“泛化”能力。Hao等[4]提出了一種外觀運動一致性網絡,利用外觀和運動信息的先驗知識在特征空間中捕獲其對應關系?;谥貥嫽蝾A測方法的視頻異常檢測,U-net網絡的跳連接能使重構或預測圖像獲得較高的分辨率,但也會導致異常行為區域被清晰的重構或預測。

為提高模型對樣本正常行為特征的提取能力,同時抑制異常行為的生成,本文提出了一種融合混合注意力的自編碼器視頻異常檢測網絡,包含編碼器、解碼器、混合注意力模塊(channel spatial cross fusion attention module,CSCFAM)、存儲記憶模塊(Memory)4個部分。在編碼器和解碼器之間的跳連接上逐層融合本文提出的CSCFAM模塊,訓練時對正常樣本以高權重聚焦重要信息,測試時異常行為特征的提取不符合此權重,因此一定程度上抑制了異常行為的生成。同時,在瓶頸結構處引入Memory模塊記錄正常樣本不同模式的深層語義特征,進而使異常樣本產生更高的預測誤差。

1 相關工作

1.1 基于深度學習的視頻異常檢測

基于深度學習的視頻異常檢測方法主要分為基于重構和基于預測的方法[5]?;谥貥嫷姆椒ê诵乃枷胧钱惓颖颈日颖井a生更大的重構誤差。胡海洋等[6]提出了一種融合自編碼器和one-class支持向量機的異常事件檢測模型,結合了傳統模型與深度學習模型,使視頻異常事件檢測結果更加準確。Deepak等[7]等提出了一種殘差時空自動編碼器模型,通過對正常樣本的時空表示進行無監督學習,并利用殘差塊緩解梯度消失問題。Dong等[8]提出了一種基于雙鑒別器生成對抗性網絡結構的半監督算法,該算法利用幀鑒別器和運動鑒別器以生成更真實的幀。Luo等[9]提出了一種時間相干稀疏編碼TSC網絡,使用時間相干保持兩個相似幀之間的相似性,減少優化字典和稀疏系數交替更新的計算成本。目前基于重構的方法由于模型的“泛化”能力太強,異常行為也可能被很好重構,因此并不能保證正常樣本的重構誤差小于異常樣本的重構誤差。

基于未來幀預測的視頻異常檢測方法通過給定幾個連續幀以訓練模型預測下一個未來幀。Lu等[10]受半監督生成模型的啟發,提出了一種基于未來幀預測結構的序列生成模型,將ConvLSTM與VAE相結合預測未來幀,從而提升了異常檢測精度。Yang等[11]提出了多尺度結構相似性(multi-scale structural similarity,MS_SSIM)損失緩解前景背景不平衡問題,使網絡在訓練過程中更關注前景的邊界。為增強傳統生成對抗網絡的時空利用率和檢測效果,劉成明等[12]在生成對抗網絡中融入門控自注意力機制抑制與異常檢測任務不相關背景區域的特征表達。目前基于未來幀預測的方法大多未考慮正常樣本的多樣性,并且無法有效的抑制異常行為的生成。

1.2 注意力機制

注意力機制[13]可以為特征圖中不同目標分配不同的權重,有用信息分配高權重,噪音、冗余等無用信息分配低權重,并且可不斷調整權重,具有較高的可擴展性和魯棒性。為直接建模權重向量和輸入之間的對應關系,Wang等[14]提出了通道注意力機制(efficient channel attention,ECA),該機制只考慮每個信道與其k近鄰之間的直接交互,從而控制模型的復雜性。Woo等[15]提出了卷積塊注意力模塊(convolutional block attention module,CBAM),該模塊將通道注意力和空間注意力串聯,通道注意力特征圖和空間注意力特征圖解耦以提高計算效率,并通過引入全局池化獲得空間全局信息。Liu等[16]提出了一種全局注意力機制(global attention mechanism,GAM),通過減少信息的損失和提高全局特征的交互,提高了深度神經網絡的性能。Li等[17]提出了一種基于注意力機制的未來幀預測的視頻異常檢測框架,在自編碼器中引入注意力機制實現了更高異常檢測精度。

2 方 法

2.1 總體框架

本文提出了一種融合混合注意力的自編碼器視頻異常檢測算法,如圖1所示,整個網絡由4個部分組成:編碼器、解碼器、混合注意力模塊(CSCFAM)、存儲記憶模塊(Memory)。在編碼器和解碼器的跳連接上融合本文提出的CSCFAM模塊,并在瓶頸結構處引入Memory機制。編碼器中,每層特征先進行兩次卷積(Conv、BN、Relu)使特征圖的通道數量翻倍,然后通過CSCFAM模塊獲得混合注意力特征,再使用最大池化下采樣將其尺寸大小減半。為了保證空間信息的結構和完整,編碼器的最后一層不使用BN和Relu,Memory模塊讀取從編碼器提取的查詢項特征并更新其存儲項特征,再將查詢項特征和存儲項特征拼接傳遞至解碼器中。解碼器中使用反卷積進行特征圖尺寸大小翻倍和通道減半,并與混合注意力特征拼接。本文是基于視頻幀預測的方法,將連續的4幀作為輸入以獲取第5幀的預測,根據預測幀與真實幀的差異判斷真實幀是否異常。

2.2 跳連接融合混合注意力模塊

為充分學習正常樣本的局部和全局信息,并抑制測試時異常行為的生成,本文提出了混合注意力模塊(CSCFAM),并將其融合至跳連接層。CSCFAM體系結構如圖2所示,包含通道注意力(channel attention,CA)、空間注意力(spatial attention,SA)、交叉融合模塊(cross fusion block,CFB)3個部分。先分別提取輸入特征圖Fin的通道注意力特征Fch和空間注意力特征Fsp, 再將Fch和Fsp交叉融合傳遞到解碼中。

圖2 混合注意力CSCFAM模塊

(1)通道注意力。通道注意力用于分配每個特征通道的重要性,如圖2中通道注意力模塊所示,將原始輸入特征圖Fin通過全局平均池化獲得聚合特征,再用動態卷積核大小為k的1維卷積提取其特征,并使用Sigmoid函數得到各個通道分配的權重,最后將權重與原始輸入特征圖對應通道的元素相乘,以此實現通道注意力。動態卷積核大小為k的定義如式(1)

(1)

式中:k表示卷積核大小,C表示通道數,|·|odd表示k只能取奇數,γ和b用于改變通道數C和卷積核大小和之間的比例。

(2)空間注意力??臻g注意力用于提取圖像中感興趣的區域,忽略無關緊要的區域。如圖2中空間注意力模塊所示,為關注空間信息,使用3個不同尺度的卷積層進行多尺度空間信息融合。首先通過卷積核為1×1的卷積縮減通道數量,減小計算量;然后先后經過卷積核3×3和5×5的卷積操作;再使用1×1的卷積增加通道數量,保持與原始輸入通道數量的一致,并經過Sigmoid輸出空間注意力特征圖;最后將注意力特征圖與原始輸入特征圖對應元素相乘,得到最終的輸出特征圖。

(3)交叉融合模塊。交叉融合模塊用于將通道注意力特征和空間注意力特征融合形成交叉注意力特征。交叉融合模塊運算如式(2)~式(4)所示

(2)

(3)

(4)

圖3 矢量化特征運算VO

本文實驗結果表明,跳連接融合CSCFAM模塊增強了模型的性能,顯著提高了對視頻異常事件檢測的準確率。在第3節消融實驗中,進行了CSCFAM中通道注意力、空間注意力、交叉融合3個模塊不同組合的性能比較。

2.3 存儲記憶模塊

為降低自編碼器的模型的“泛化”能力,本文在自編碼器的瓶頸結構處引入存儲記憶模塊[18]來記錄正常行為的潛在特征。如圖4所示,首先將編碼器輸出的特征圖C×H×W分成K個查詢項 (q1,q2,…,qK), 其中K=H×W, 每個查詢項的大小為C×1×1, 共有M個C×1×1大小的存儲項,存儲項用于記錄正常數據的潛在特征。存儲記憶模塊主要由讀取模塊和更新模塊組成,其工作原理是:讀操作首先計算每個查詢項與所有存儲項的余弦相似度,再將其歸一化后作為查詢項與存儲項對應的讀取權重,通過權重的加權平均值讀取存儲項。

圖4 存儲記憶模塊

更新操作則與之相反,計算每個存儲項與所有查詢項的余弦相似度并歸一化后作為相應的更新權重,進而更新存儲項的特征,通過讀操作和更新操作實現存儲記憶功能。

2.4 網絡訓練的約束函數

2.4.1 強度約束

(5)

式中:|·|2表示歐幾里得距離,用于計算強度損失。

2.4.2 多尺度梯度幅度相似性約束

為抑制僅使用強度損失Lint導致預測幀的模糊性,使用多尺度梯度幅度相似性損失(multi-scale gradient magnitude similarity,MSGMS)[19],MSGMS損失是基于梯度強度相似性損失(gradient magnitude similarity,GMS)改進的多尺度梯度幅度相似性損失,能獲得更清晰的預測幀。首先計算真實幀的梯度強度,如式(6)所示

(6)

式中:hx和hy是沿x和y維度3×3的濾波器,*表示卷積操作。真實幀與預測幀之間的梯度相似度,如式(7)所示

(7)

(8)

2.4.3 存儲記憶模塊的特征緊湊性約束和特征分離性約束

(1)特征緊湊損失使查詢項和存儲項的特征距離更小,所有查詢都在存儲項中緊密映射,因此能更好查詢各種正常模式的潛在特征。如式(9)所示

(9)

(10)

(2)特征分離損失存使類似的查詢項分配給同一存儲項,以減少存儲項的數量和內存大小,且避免存儲器失去記錄各種正常模式的能力。如式(11)所示

(11)

式中:α表示裕度,n的定義如式(12)所示

(12)

2.5 目標函數

在訓練階段,網絡學習目的是使得預測幀與真實幀的差異最小,為達到更好的訓練效果,因此本文結合了強度損失、多尺度梯度損失以及存儲記憶模塊的特征緊湊和特征分離損失,目標函數如式(13)所示

(13)

式中:L為綜合損失,Lint為強度損失,Lg為多尺度梯度損失,Lcompact為存儲器特征緊湊損失,Lseparate為存儲器特征分離損失;λint,λg,λc,λs代表各部分的權重參數。

2.6 異常檢測分數

由于存儲記憶模塊錄了正常數據的原型模式,假設從正常視頻幀獲得的查詢項與存儲項類似,計算每個查詢項與最近的存儲項之間的L2距離,如式(14)所示

(14)

(15)

式中:N為每幀像素個數,當PNSR越小,表明預測幀異常的概率越大。

(16)

(17)

最終使用式(16)和式(17)兩個度量的和作為最終異常分數,如式(18)所示

(18)

式中:λ為平衡兩者的權重參數。

3 實驗分析

3.1 實驗數據集

為驗證本文提出的融合混合注意力的視頻異常檢測算法的可行性,實驗中使用兩個公開數據集UCSD Ped2、CUHK Avenue進行訓練和測試。

UCSD Ped2數據集[20]包含16個訓練視頻和12個測試視頻,訓練視頻共2550幀全部為正常樣本,測試視頻共2010幀正常樣本和異常樣本,其中異常樣本包含騎自行車、駕駛車輛和滑板等異常類型。

CUHK Avenue數據集[21]包含16個訓練視頻和21個測試視頻,訓練視頻共15 328幀全部為正常樣本,測試視頻15 324幀正常樣本和異常樣本,其中異常樣本包含跑步、投擲物體、游蕩等異常行為。

3.2 參數設置與評價指標

本文所有實驗均在單張NVIDIA GeForce RTX 2080 Ti顯卡上完成,輸入視頻幀統一調整為256×256大小,且每幀都標準化為[-1,1]的范圍,采用Adam優化器,初始學習率設置為0.0002,并使用余弦退火方法對其進行衰減,batch size設置為4。對式(13)中各部分損失對應的權重λint,λg,λc,λs分別設置為1、0.2、0.1、0.1;對式(18)中的參數λ設置為0.6。UCSD Ped2、CUHK Avenue數據集上都訓練60個epoch,都用連續4幀預測第5幀,Memory模塊中的存儲項個數全部設置為10。

根據式(18)計算的異常分數,參照文獻[2,7,17]的評價方法,使用ROC曲線下的面積(area under curve,AUC)作為評價指標,AUC越大說明異常檢測效果越好。

3.3 與現有方法的比較

將本文算法與現有視頻異常檢測算法進行對比,表1中列出了不同方法在UCSD Ped2、CUHK Avenue數據集上得到的幀級AUC結果。本文方法在UCSD Ped2數據集上AUC達到97.3%,在CUHK Avenue數據集上達到87.0%。

表1 本文方法與其它方法在不同數據集的

如表1所示,在兩個數據集中本文算法幀級AUC指標均最高。與第二名的STCEN[4]相比,在UCSD Ped2和CUHK Avenue數據集上幀級AUC均提高了0.4%。本文在編碼器和解碼器的跳連接上添加通道空間混合注意力CSCFAM模塊,能更好提取特征圖的全局和局部信息,因只有正常數據參與訓練,所以對于測試集中的異常行為特征CSCFAM混合注意力機制往往是不能很好提取,避免了編碼器特征直接拼接到解碼器中導致異常行為也能很好的生成。瓶頸處的存儲器機制記錄正常數據的原型模式,在測試中可以對異常行為特征進行約束,降低了模型的泛化能力,也提高了準確率。

如圖5所示,方框內表示異常行為,圖5(a)、圖5(b)

圖5 UCSD-ped2數據集和CUHK Avenue

分別展示了本文算法在UCSD Ped2和CUHK Avenu測試數據集上部分連續幀上的真實標簽和異常分數,標簽為0表示正常樣本,為1表示異常樣本。由圖5(a)可知,對于UCSD Ped2數據集正樣本的異常分數大多數小于0.15,異常樣本的異常分數大多數大于0.15;由圖5(b)可知,對于CUHK Avenue數據集正樣本的異常分數大多數小于0.1,異常樣本的異常分數大多數大于0.1。圖中連續異常幀的異常分數波動較大,主要是因為騎自行車、駕駛車輛、跑步等異常行為存在被正常行為如正常行走的人遮擋。

3.4 定性結果

圖6展示了本文算法在UCSD Ped2(圖6(a)、圖6(b)) 和CUHK Avenue(圖6(c)、圖6(d))測試數據集上預測幀和真實幀之間誤差圖的可視化結果。由圖6(b)和圖6(d)可知,本文算法對于正常行為區域的誤差比異常行為區域的誤差要小,能很好定位自行車、奔跑中的人等異常行為區域。

3.5 消融實驗

(1)有效性比較。為驗證存儲記憶模塊和混合注意力模塊的作用,以UCSD Ped2數據集為例,在本文網絡中逐一增加存儲器記憶模塊和CSCFAM模塊來驗證其有效性。如表2所示,Memory模塊使幀級AUC提升了0.7個百分點,CSCFAM模塊使幀AUC提升1.8個百分點,驗證了在編碼器和解碼器的瓶頸結構處融合Memory模塊、跳躍連接處融合CSCFAM模塊能夠有效提升視頻異常檢測的效果。

表2 在UCSD Ped2數據集上有/無Memory和

圖7展示了跳連接層有無CSCFAM模塊的預測誤差圖,圖8展示了有無Memory和CSCFAM模塊的ROC曲線。由圖7可知:對于正常幀而言,有無CSCAFM模塊對預測誤差圖的結果影響不大,預測誤差圖中的誤差都較??;但對于異常幀而言,有CSCAFM模塊使得預測誤差圖中的異常行為區域更加明顯,驗證了跳連接層融合CSCFAM模塊能夠一定程度上抑制異常行為的生成,具有更好的檢測效果。

圖7 有/無CSCFAM模塊的預測誤差圖結果對比

圖8 有/無Memory和CSCFAM模塊的ROC曲線

(2)CSCFAM中通道注意力(CA)、空間注意力(SA)和交叉融合(CFB)3個模塊不同組合方式結果比較。如表3所示,serial表示串聯,paralle表示并聯。由表3可知,CA模塊和SA模塊并聯并將其注意力特征直接相加融合的幀級AUC為96.5%,而并聯后使用CFB模塊交叉融合的幀級AUC達到97.3%,提高了0.8%。

表3 在UCSD Ped2數據集上CSCFAM中各模塊不同組合方式的消融實驗

(3)不同損失函數結果比較。如表4所示,為驗證不同損失函數的影響,在L2損失的基礎上以UCSD Ped2數據集為例,通過逐步消融不同的損失函數驗證了存儲記憶模塊的特征緊湊性損失Lcompact、 特征分離性損失Lseparate和多尺度梯度損失Lg對模型性能的影響。實驗結果表明,本文的模型加入多個約束條件使得幀級AUC更高。

表4 在UCSD Ped2數據集不同損失函數的消融實驗

4 結束語

為提高視頻異常檢測算法的性能,本文提出了一種融合混合注意力的自編碼器視頻異常檢測算法。通過在編碼器和解碼器的跳連接層上融合混合注意力模塊(CSCFAM)來增強模型對正常行為的征提取能力,并一定程度上抑制異常行為的生成。同時,在自編碼器的瓶頸處引入存儲記憶模塊(Memory)來記錄正常樣本的潛在特征,降低了模型的“泛化”能力。在UCSD Ped2和CUHK Avenue公共數據集上進行了大量的實驗,驗證了本文算法的有效性,與近年其它視頻異常檢測算法相比性能有所提升。下一步,將探索視頻連續幀之間的關系以及如何高效提取視頻連續幀的時空特征,進一步提高性能。

猜你喜歡
編碼器注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
基于FPGA的同步機軸角編碼器
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
基于PRBS檢測的8B/IOB編碼器設計
A Beautiful Way Of Looking At Things
JESD204B接口協議中的8B10B編碼器設計
多總線式光電編碼器的設計與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合