?

基于卷積神經網絡的視頻監控異常事件檢測研究

2023-05-30 01:22徐曉
電子技術與軟件工程 2023年6期
關鍵詞:骨架重構樣本

徐曉

(濟南工程職業技術學院工程管理系 山東省濟南市 250200)

智能視頻監控系統憑借其能夠自主理解視頻內容并反饋異常情況,在維護社會公共安全秩序和保障人民生命財產安全方面發揮重要作用。作為智能監控系統的核心功能之一,視頻異常事件檢測技術旨在采用圖像處理與機器學習相關方法,自動識別監控視頻場景中各類目標(行人、汽車等)引發的各種偏離常規的事件。該項技術可以最大程度上協助工作人員及時發現并處理異常事件,在降低人力成本同時提高監控效率,減少誤報和漏報情況。

近年來,研究人員開始探索基于卷積神經網絡(Convolutional Neural Network,CNN)的視頻異常事件檢測方法,并陸續發表了一系列先進成果。相較于先前異常檢測領域綜述文獻[1,2],本文根據不同方法提供的異常檢測結果的精細程度與語義水平,創新地將現有基于CNN 的異常檢測方法分為幀級別檢測方法、像素級別檢測方法及目標級別檢測方法[3,4]。

其中,幀級別檢測方法判斷每幀圖像內是否包含異常事件,僅能提供視頻序列時間維度上異常檢測結果,無法提供空間維度檢測結果;像素級別檢測方法在識別異常圖像幀基礎上,能夠判斷視頻幀內哪些像素為異常;而目標級別檢測方法可以檢測視頻幀內由哪些監控對象(車輛,行人等)引發異常事件。因此,相較于幀級別檢測方法,目標級別檢測方法能夠提供精細程度更高異常檢測結果;而對比像素級別檢測方法,目標級別檢測方法可以實現更高語義水平的異常檢測。由此目標級別檢測方法成為視頻異常事件檢測領域主流方法,本文重點關注該類方法的相關工作。

目標級別異常檢測方法重點針對監控場景中各目標空間外觀信息與時序運動狀態進行聯合建模,檢測可疑情況、定位并追蹤異常目標,主要包括場景目標感知、檢測模型學習以及異常目標推斷等步驟,如圖1所示。

圖1:目標級別異常檢測方法基本流程

1 場景目標感知

通常情況下,監控場景中發生的事件取決于各類前景目標運動與行為,受重復、靜止的背景影響不大。因此,為了避免因考慮背景而引入噪聲和冗余信息進而增加運算開銷的問題,目標級別異常檢測方法首要環節是場景目標感知,將視頻場景中高語義層次上監控對象由背景分割出來,繼而進一步提取其位置、尺寸、類別、軌跡、動作、外觀等信息。

1.1 基于目標檢測的感知方法

最常用的目標感知方法是基于目標檢測方法,利用邊界框精準定位前景目標區域位置,同時提供類別標簽。其中,YOLO(You Only Look Once)算法作為一種實時高幀率的目標檢測方法,被廣泛使用[5~7]。此外,Li 等[8]對昏暗監控場景的視頻圖像進行彩色處理,并利用區域全卷積網絡(Region Fully Convolutional Network,RFCN)實現與場景背景表觀極為相似目標的精確檢測,進而提取目標軌跡特征。在文獻[3]中,Hinami 等采用多任務快速RFCN 網絡學習場景目標的外觀、動作、類別等通用的常識性知識。Yu 等[9]則在利用級聯RFCN 模型獲取目標感興趣區域基礎上,使用啟發式濾波算法去除錯誤檢測的目標區域,同時利用輪廓檢測算法基于時序梯度特征定位級聯RFCN 未能檢測到的目標。

1.2 基于人體姿態估計的感知方法

基于目標檢測的感知方法僅能根據邊界框提供監控對象整體剛性運動與外觀信息,難以刻畫局部非剛性姿態變化(重點針對行人)。因此,部分研究工作基于人體姿態估計方法如AlphaPose 等檢測視頻場景中人體目標骨架關節點,而后設計骨架特征來刻畫人體動作[4,10,11]。

Morais 等[4]使用骨架關節點坐標連接成的特征向量作為骨架特征表示,并將其分解為全局特征分量與局部特征分量。全局分量用于提供人體骨架整體剛性運動信息,反映人體運動;而局部分量負責提供骨架內部非剛性形變信息,反映人體動作??紤]到基于特征向量的表示方法難以反映骨架關節點間空間連接關系,Markovitz等[10]構建時空骨架圖在時間和空間兩個維度上聯合表示骨架特征。骨架關節點作為圖節點,符合人體結構的不同關節點間自然連接作為圖空間邊,而不同時刻同一關節點間連接作為圖時序邊。

2 檢測模型學習

檢測模型學習是目標級別異常檢測方法至關重要一步,旨在根據訓練視頻中不同目標的運動、外觀、動作等特征表示構建目標模型,該模型能夠精準建模不同目標狀態,并檢測待測視頻中與其他目標具有明顯差異的異常目標。近年來,各類CNN 如卷積自編碼器CAE 和生成對抗網絡GAN 被用作異常檢測模型。根據所用訓練數據集中樣本標簽情況,現有目標級別異常檢測方法中檢測模型學習過程可分為半監督學習方法、自監督學習方法以及無監督學習方法。

2.1 半監督檢測模型學習方法

考慮到實際監控場景中正常事件發生頻率較高,樣本易于獲取。半監督檢測模型學習方法基于僅包含人工標注為正常的事件樣本的訓練視頻數據集,學習表征正常目標狀態檢測模型。

Hinami 等[3]利用核密度估計方法學習監控場景正常事件中目標外觀、動作等特征分布概率模型。Yu 等[9]基于正常目標外觀與運動信息學習一個生成式CNN作為檢測模型,該模型以U-Net 網絡為基礎架構,利用U-Net 基于上下采樣特征拼接機制的生成能力,能夠對正常目標連續運動過程中丟失部分進行補全。

類似地,Morais 等[4]構建消息傳遞編碼器-解碼器循環神經網絡(Message-Passing Encoder-Decoder Recurrent Neural Network,MPED-RNN)對正常目標骨架軌跡特征的全局和局部分量同時進行重構和預測,以此建模正常目標運動和動作模式。MPED-RNN 包含兩個分支,分別處理全局和局部分量。每個分支中的模型均為由三個RNN 模塊組成的單編碼器-雙解碼器結構:編碼器、重構解碼器及預測解碼器。兩個分支間通過消息傳遞機制進行交互。

針對人體目標骨架特征的時空圖表示,Markovitz等[10]采用時空圖卷積網絡挖掘骨架時空圖中關節點間空間連接信息。

2.2 自監督檢測模型學習方法

相較于半監督學習方法,自監督檢測模型學習方法能夠自動根據正常目標特征樣本構造偽異常目標特征樣本,共同用于學習檢測模型,實現檢測模型全監督式學習,從而進一步提升檢測模型表征能力,進而獲得更好異常目標檢測效果。

當前基于自監督檢測模型學習方法的相關研究較少。Georgescu 等[6]率先提出基于自監督學習策略的異常檢測方法:首先,以t時刻目標為中心,由t-T到t+T連續時刻目標按時序維度進行連接組成正常目標運動序列;其次,保留中心時刻目標,在中心時刻t之前以隨機時間間隙N跳幀添加T個先前時刻目標,同時在t之后以隨機時間間隙N跳幀添加T個后續時刻目標,將組成的非連續的、間歇性的目標運動序列作為異常樣本;最后,使用3D-CNN 提取正常序列與異常序列時空特征圖,基于二分類交叉熵損失函數訓練2D-CNN 預測頭作為目標運動異常檢測模型。

2.3 無監督檢測模型學習方法

對比半監督與自監督學習方法,無監督檢測模型學習方法不依賴任何人工標注的訓練樣本,換言之,此類學習方法不需要獲得任何先驗知識,能夠自動根據對待測視頻中目標分析結果構建檢測模型。

由于缺乏人工標注的訓練數據提供監督信息,無監督檢測模型學習方法往往需要依賴于一些假設,其中最為常用的假設就是認為無標注數據中異常程度較高的樣本往往所占比例較低,而正常樣本所占比例較高;其次,異常樣本通常明顯區別于正常樣本。遵循該假設,Li 等[8]將待測視頻場景中出現頻率較高的目標類別視為正常,并以此構建正常類別庫,同時將不屬于此正常類別庫的目標類別判為異常。

3 異常目標推斷

異常目標推斷步驟旨在遷移訓練階段學習到的檢測模型計算待測視頻場景中目標異常得分,用于目標異常程度評估,實現異常目標檢測。異常目標推斷方法取決于檢測模型類型,大致可分為基于距離的推斷方法、基于概率的推斷方法、基于分類的推斷方法及基于重構的推斷方法。

3.1 基于距離的推斷方法

基于距離的推斷方法核心在于訓練階段學習CNN作為特征提取模型,使正常目標對應提取到的特征向量分布盡量緊湊,換言之,盡可能縮短正常目標特征分布內樣本間距離(類內距離);在測試階段,通過計算待測目標特征與正常目標特征間距離作為度量標準進行異常檢測,度量距離超過設定閾值的被判為異常。

Doshi 等[5]首先對目標運動、位置及外觀特征進行拼接融合,并基于小部分正常目標特征構建正常特征集合Θ;而后,計算Θ 中任意正常特征樣本對間kNN(k-Nearest Neighbor)歐氏距離,形成kNN 距離集合Θ;最后,計算待測目標特征與Θ 中任意樣本間kNN 距離,并取最大值與Φ 中距離進行對比,若偏差較大,則待測目標為異常目標。

3.2 基于概率的推斷方法

基于概率的推斷方法依賴概率統計模型實現,訓練階段學習概率模型描述正常目標特征分布情況,主要估計概率模型的各種參數;在測試階段,計算待測目標特征在該模型下概率值作為異常得分,由于分布差異,異常目標對應較低概率值。

部分方法無需對特征概率分布類型做出假設,而是通過大量樣本對模型進行擬合。其中核密度估計(Kernel Density Estimation,KDE)方法是最為經典的方法。例如,Hinami 等[3]基于高斯核采用KDE 方法學習正常目標外觀、動作等特征分布概率模型。測試階段,計算待測場景不同目標外觀、動作特征在該模型下的概率密度值作為異常得分,用于判別異常目標。

3.3 基于分類的推斷方法

基于分類的推斷方法依賴分類模型實現,訓練階段由單類正常目標特征生成正常及異常等多類樣本,學習分類模型區分正常和異常樣本;在測試階段,利用分類模型對待測目標特征進行正常/異常二分類。較為常用分類模型有SVM 分類器(傳統機器學習模型)與CNN分類器(先進深度學習模型)兩種。

Ionescu 等在經典二分類SVM 基礎上引入多分類SVM 進行異常目標推斷,計算待測目標特征在k 個正常SVM 分類器下的類別概率,并取最大值作為異常得分。由于異常目標特征不屬于先前劃分多類正常特征中任何一種,因此輸出較低類別概率,以此完成異常目標檢測。

Georgescu 等[6]通過引入自監督學習策略獲取正常目標運動序列與異常目標運動序列,并以其對應高層次特征圖為輸入,基于交叉熵損失函數訓練2D-CNN 作為分類模型;對于待測目標運動序列,將其對應輸出分類矩陣中屬于異常類別的概率值作為異常得分,很明顯,異常目標將獲得更高異常得分。

3.4 基于重構的推斷方法

基于重構的推斷方法依賴生成式CNN 模型如CAE實現,其核心思想在于訓練階段對輸入的正常目標特征進行編解碼操作,并以較低誤差重構正常輸入為目標訓練網絡模型;在測試階段,針對訓練過程未出現過的異常目標特征進行重構時,將得到較差的重構樣本,進而獲得較大的重構誤差。

由于生成式CNN 具有較強的泛化能力,即使僅基于正常目標特征進行訓練,針對部分異常目標特征也可以較好地重構,從而產生較低重構誤差,導致異常漏檢。因此,另一種基于預測的方法被提出,通常與基于重構的方法融合使用,以彌補其不足。

Morais 等[4]訓練所設計的MPED-RNN 網絡對正常目標骨架軌跡特征的全局和局部分量同時進行完美重構和預測;針對待測目標骨架軌跡,直接對重構誤差與預測誤差進行求和融合作為異常目標檢測依據。

Liu 等[12]則構建ML-MemAE-SC 網絡與CVAE 網絡分別對正常目標運動狀態與外觀信息進行重構及預測;在測試階段,提出一種加權融合策略對待測目標重構誤差與預測誤差進行融合,用于異常目標推斷。

4 總結與展望

本文針對主流的目標級別異常事件檢測方法進行了回顧,從其3 個關鍵步驟(場景目標感知、檢測模型學習集異常目標推斷)出發對相關前沿工作進行了分類與梳理。然而,現有研究仍具有一定局限性與片面性。本文對現有研究不足進行了總結,并對未來重點研究方向進行了展望:

4.1 面向真實復雜場景的異常事件檢測研究

實際場景中,異常事件通常在城市商業區等人員密集區域出現,時常伴隨雨霧和夜景等復雜氣象、光照條件。面對這類復雜場景,現有依賴簡單實驗場景視頻數據訓練的方法性能銳減。因此,未來工作需要考慮將常用可見光數據(RGB 圖像)與紅外數據、深度數據等進行多模態融合實現真實復雜場景全天候的異常事件檢測。

4.2 跨多攝像機交接的異常事件檢測研究

實際場景中,異常目標運動軌跡復雜多變,常常連續跨多攝像機運動。面對異常目標遠離當前攝像機監控區域而出現在另一攝像機監控區域內的情況,現有方法難以實現交接檢測。因此,未來工作需要考慮基于多攝像機目標接力跟蹤算法實現跨多攝像機的異常目標接力檢測。

4.3 在線自適應的異常事件檢測研究

實際場景中,異常事件種類可能會隨場景變化而變化。面對這種變化,現有基于監督式檢測模型學習模式的方法難以完成自適應檢測。因此,未來工作需要考慮結合場景信息實現在線場景自適應的異常事件檢測。

猜你喜歡
骨架重構樣本
淺談管狀骨架噴涂方法
北方大陸 重構未來
推動醫改的“直銷樣本”
論中止行為及其對中止犯的重構
村企共贏的樣本
內支撐骨架封抽技術在突出煤層瓦斯抽采中的應用
鐵骨架配合物凝膠的合成、表征及催化性能
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合