?

面向鐵路周界防護的多源圖像目標檢測研究綜述

2023-12-30 09:15余祖俊周杏芳郭保青白丁元
北京交通大學學報 2023年5期
關鍵詞:周界紅外鐵路

余祖俊, 周杏芳 , 郭保青, 白丁元

(北京交通大學a.機械與電子控制工程學院,b.智慧高鐵系統前沿科學中心,北京 100044)

隨著我國鐵路建設規模的不斷擴大,列車時速不斷提高,鐵路沿線環境安全問題日益凸顯.根據國家鐵路局發布的《2019 年鐵路安全情況公告》[1],行人非法上道仍是鐵路交通事故造成人員傷亡的主要原因,公鐵交匯區段機動車肇事撞擊鐵路橋梁、侵入線路等影響鐵路運行安全的問題時有發生,因此加強鐵路周界安全防護十分必要.

鐵路周界安全主要防范對象是人員、動物等非法侵入鐵路限界的事件和行為,為此,我國鐵路線路已建有鐵路綜合視頻監控系統,并且隨著深度學習的飛速發展,鐵路綜合視頻監控系統已具備初步視頻分析和自動識別入侵行為及事件的能力.針對惡劣天氣條件、夜晚及光線較差情況下誤報率高檢出率低的問題,以及小目標檢測、多場景適應性及實時性等難題,很多學者對基于視頻圖像的周界入侵檢測算法進行了研究[2-5],但由于視頻監控設備根據物體的光反射成像,在夜間低照度和惡劣天氣情況下,圖像成像質量差,即使應用深度學習算法,基于視頻的周界入侵檢測技術也無法完全克服光照和天氣變化的影響.所以為實現全天候且有效的鐵路周界安全防護,周界防護手段需從單一化、人員防護向組合化、技術防護轉變.

近年來,基于雷達與視頻圖像協同的鐵路周界入侵監測方法[6-8]、利用激光攝像機與紅外熱成像攝像機高精度聯動開發的鐵路安全視頻監控和智能分析系統[9]、以振動光纖傳感和視頻相結合的復合型周界安全監測系統[10-11]等相關研究成果不斷涌現,將視頻圖像與其他手段相結合,利用不同技術間的優勢互補,精確識別周界入侵目標已然成為鐵路周界防護研究的主流趨勢.

在眾多鐵路周界防護手段組合中,紅外熱成像根據物體自身熱輻射成像,其不受光線變化和惡劣天氣的影響,在針對行人、動物等能自身產生熱輻射的防范對象進行全天候監測方面具有天然優勢,而視頻監控可以獲取目標清晰的紋理輪廓等細節信息,因此紅外熱成像與可見光視頻監控組合既能夠全天候有效工作,同時又能有效提高夜間及惡劣光線條件下目標檢測的準確率、檢出率和可靠性.與雷達和視頻圖像協同的方式相比,紅外圖像與可見光視頻圖像均是二維平面成像,可視化效果好,二者結合能夠提升鐵路監測場景的直觀性和可理解性,便于進一步智能分析.

本文在分析現有鐵路周界防護技術的基礎上,以紅外與可見光圖像結合實現鐵路周界防護的角度出發,從異源圖像配準和目標檢測的研究重難點、圖像配準和目標檢測的一般方法及流程、研究進展及鐵路場景下的相關研究現狀幾方面進行了綜述,最后對未來發展方向進行了展望.

1 鐵路周界防護技術現狀分析

目前鐵路周界技術防護手段主要有振動光纖探測、電子圍欄探測、對射探測、雷達探測、紅外熱成像、視頻監控等[8,12-13],如表1 所示.任意單一技防手段都各有劣勢,無法全天候工作,所以多種技防手段結合是實現鐵路周界全天候防護的發展趨勢.由于目前視頻監控手段以直觀性強、監測范圍廣、安裝架設方便等優點被廣泛應用,而將紅外與可見光視頻監控結合不僅可以實現遠距離、全天候的目標檢測,同時能提高檢測結果在夜間等惡劣光線條件下的可視化效果,所以本文進一步研究鐵路場景下基于紅外與可見光圖像的目標檢測技術.

表1 鐵路周界技術防護手段對比Tab.1 Comparison of technical protection measures for railway perimeter

2 鐵路多源圖像目標檢測難點

面向鐵路周界防護的多源圖像目標檢測目的是保證全天候條件下目標檢測的準確性和實時性.多源圖像目標檢測首先需要確定紅外與可見光圖像目標間的映射關系,研究可以分為圖像配準和目標檢測2 個重點階段.鐵路周界防護具體應用場景為:紅外相機負責檢測運動目標,固定拍攝大場景;可見光相機負責實時跟蹤定位目標的具體位置,拍攝場景隨檢測目標的大小和位置進行切換.因此在保證目標檢測準確性和實時性的同時,設計快速有效的自動化配準算法非常必要,但該研究目前存在一定的難點與挑戰.

2.1 紅外與可見光圖像配準的難點與挑戰

與一般圖像配準不同,鐵路周界防護場景下的紅外與可見光圖像配準還要考慮異源圖像特征不一、圖像間較大幾何變化以及場景縱深差異的問題.

1) 異源圖像間的配準.

紅外與可見光相機因成像原理及機制不同,圖像間具有強度分布相關性小、特征信息表示不一致、圖像分辨率大小有差異的特點,使得紅外與可見光圖像配準與單一的可見光圖像配準相比更有挑戰.

2) 較大幾何變化的圖像配準.

由于紅外與可見光相機任務分工不同,紅外相機拍攝大場景,可見光相機跟蹤目標的具體位置.相機間位姿、視場不同,使得紅外與可見光圖像間存在較大的平移、旋轉、縮放和尺度等幾何變化,而目前具有幾何不變性的特征檢測算子多是基于可見光圖像設計,對于異源圖像還需要考慮其模態差異,不能直接適用.

3) 縱深差異下的圖像配準.

鐵路場景下相機監控區域基本沿著鐵軌方向,在較近距離范圍內,拍攝場景中存在的縱深差異不容忽視,該情況下圖像間變換關系更為復雜,單一的參數模型無法適用.

2.2 紅外目標檢測及融合目標檢測的難點與挑戰

在目標檢測階段,由于紅外熱成像能夠全天候探測,不受光線及天氣變化的影響,因此以紅外檢測為主,或者將紅外與可見光圖像融合進行目標檢測,是實現全天候目標檢測可行的思路,但還需要解決一些難點問題.

1) 紅外圖像對比度和分辨率較低問題.

雖然紅外相機能夠捕捉夜間和惡劣光線條件下的目標,但是在白天,周圍環境或其他物體的溫度可能比行人或動物的目標溫度更高,對比度低使得背景和關注的目標變得不易區分;而且受相機傳感器器件發展水平限制,紅外相機成像分辨率低,圖像整體較為模糊,目標檢測識別難度大.

2) 紅外圖像目標遮擋與小目標檢測問題.

紅外目標檢測同樣存在可見光目標檢測面臨的小目標、遠距離目標以及目標遮擋等難題,加上紅外圖像本身缺乏對比度,目標缺少紋理細節等信息,使得這些難題更具挑戰.

3) 多源圖像融合目標檢測的融合策略制定.

利用紅外與可見光圖像特征融合來提升目標檢測性能是可行的,但如何實現不同模態間特征的充分融合,盡可能大地提升目標檢測性能,是紅外與可見光融合目標檢測研究的一大趨勢和挑戰.

在保證算法準確性的基礎上,還需要考慮算法的實時性、對不同場景的適應性和可靠性.此外,實際人員或動物入侵鐵路周界的樣本少,而且紅外圖像目標標注難度大,這些與深度學習算法效果相關的外在因素也是需要考慮的.

3 圖像配準算法現狀與分析

圖像配準是將不同成像設備、不同條件下(拍攝位置、時間、角度、環境光照、氣候變化)獲取的兩幅或多幅圖像進行匹配的過程.面向鐵路周界防護的紅外與可見光圖像配準其意義在于兩點,一是將紅外圖像中檢測到的目標通過求得的圖像間幾何變換模型參數直接映射到可見光圖像中對應位置,二是配準好的紅外與可見光圖像可以用于后續的多源圖像融合目標檢測.

3.1 圖像配準一般方法及流程

圖像配準算法主要根據灰度信息、變換域和特征3 類信息實現配準[14-15],各類配準算法原理、特點及代表算法如表2 所示.

表2 圖像配準算法分類匯總Tab.2 Classification and summary of image registration algorithms

由于紅外與可見光圖像配準除了要處理圖像之間存在的平移、旋轉、縮放、拉伸等幾何變化,還要解決因不同光譜成像造成的灰度、梯度和結構差異,基于特征的圖像配準算法更適用于紅外與可見光圖像配準,其配準流程一般包括特征提取、特征匹配和圖像變換3 個步驟,如圖1 所示.

圖1 基于特征的圖像配準流程Fig.1 Flowchart of feature-based image registration

3.1.1 特征提取

特征提取包括關鍵位置檢測與特征描述兩部分.關鍵位置檢測關注的是圖像中突出或獨特的屬性,比如角點、邊緣、輪廓區域等;特征描述使用特征向量來描述該關鍵位置的鄰域特性,通??紤]局部鄰域的邊緣方向、強度和尺度信息等.在特征提取階段,點特征、直線特征和區域特征應用最為普遍.

最具代表性的點特征提取算子是尺度不變特征變換算子(Scale-Invariant Feature Transform,SIFT)[16],對尺度、光照和旋轉變化具有強魯棒性.后來隨著配準需求的增加,誕生了加速穩健特征算子(Speeded-Up Robust Features, SURF)[17]、基于主成分分析的尺度不變特征變換算子(Principal Component Analysis-SIFT, PCA-SIFT)[18],以及具有更快特征檢測速度的基于加速分割測試的特征算子(Features from Accelerated Segment Test,FAST)[19]和面向FAST 的旋轉二進制魯棒獨立初等特征算子(Oriented FAST and Rotated Binary robust independent elementary features, ORB)[20].但上述點特征算子是為具有線性強度變化的可見光圖像設計,而可見光和紅外圖像間存在非線性強度變化,圖像間特征點的表示與描述有差異,所以對于紅外與可見光圖像配準需要進一步改進與優化.

典型的傳統直線提取算法有霍夫變換(Hough Tranform)[21]、線段檢測器(Line Segment Detector,LSD)[22].Hough 變換在直線特征明顯的情況下檢測效果良好,具有很好的抗噪性,但是計算量大;LSD是一種“感知聚類”方法,其精度、算法復雜度要優于Hough 變換.但是這類傳統的直線特征提取方法調參比較費時、缺乏魯棒性,基于深度學習的直線特征提取網絡方法后來居上,如直線檢測網絡線框圖(Wireframe)[23]、面向直線的卷積神經網絡(Line-Convolutional Neural Network, LCNN)[24]、基于三點的線段檢測器(Tri-Points based Line Segment Detector, TP-LSD)[25]等方法,對直線的檢測精度和魯棒性提升顯著.

常見的區域特征檢測方法包括最大穩定極值區域特征算子(Maximally Stable Extremal Regions,MSER)[26]、基于邊緣的區域檢測器(Edge-Based Region detector, EBR)[27]和顯著性區域算法[28].區域特征檢測主要提取圖像中均勻區域的范圍和形狀等信息,由于紅外圖像比可見光圖像分辨率低、邊緣更加模糊,圖像間區域強度分布不一致,因此難以保證區域特征提取方法的穩定性.

3.1.2 特征匹配

尋找特征間的對應關系是對齊圖像的關鍵.特征匹配一般是基于提取到的特征及特征描述子,利用相似性度量表征特征點間的匹配程度,通過搜索策略匹配圖像特征點對.特征描述子的相似性度量通常定義為某種代價函數或者距離函數,浮點型描述子采用歐式距離,二進制描述子采用漢明距離.

最常用的特征匹配方法是暴力匹配和快速近似最近鄰(Fast Library for Approximate Nearest Neighbors, FLANN)[29].暴力匹配遍歷計算每一個待匹配特征與目標特征集合的相似度后返回相似度最高的項,算法原理簡單但搜索效率低.FLANN 相比暴力匹配,在搜索策略上有所改進,先建立索引再進行搜索,索引方式包括線性索引、K 維二分查找樹(K-Dimensional binary search Tree, KD-Tree)索引、K 均值索引等,搜索方式有搜索K 近鄰和半徑近鄰,在特征數量較多的情況下,搜索效率更有優勢.上述匹配方法雖然能獲得足夠多的匹配對,但同時摻雜著大量的誤匹配情況.通常使用交叉驗證或者利用先驗知識進行匹配對篩選,以及用隨機抽樣一致性(Random Sample Consensus, RANSAC)[30]剔除誤匹配對,獲得精確匹配結果.

3.1.3 圖像變換

圖像變換包括模型變換參數估計和圖像重采樣.模型變換參數估計首先需要根據應用場景選擇合適的變換模型,然后利用特征匹配結果估計模型變換參數.常見的圖像變換模型從簡單到復雜包括歐式變換、相似變換、仿射變換、投影變換以及非剛性變換.對于研究場景僅存在剛性運動的情況,當平面拍攝或者超遠距離拍攝時,通常選用仿射變換或者投影變換這類單一的參數模型;而對于近距離場景無法忽視縱深差異的情況,多選擇非剛性變換模型或者對單一的參數模型進行改進.

在完成模型變換參數估計后對圖像進行變換及重采樣.具體包括像素坐標變換和亮度插值,像素坐標變換是將輸入圖像像素映射到輸出圖像,然后在原圖像中找到變換后像素的最佳匹配點,并利用鄰域中點的亮度插值計算該點的亮度值作為變換后的亮度值.

3.2 紅外與可見光圖像配準研究進展

由于基于單一特征的圖像配準算法無法滿足鐵路場景下紅外與可見光圖像配準在精度、效率、穩定性和泛化性等方面的要求,近年來相關研究多是針對特征及配準流程改進、利用深度學習算法輔助、基于目標模型優化迭代等方式來實現紅外與可見光圖像配準.

3.2.1 基于特征的改進圖像配準

基于特征的改進圖像配準算法大都是對特征提取、特征描述子構造以及整個配準框架進行調優.

在改進特征提取或特征描述子方面,文獻[31]利用視覺顯著性具有良好魯棒性和不變性的特點,提出一種融合視覺顯著性和SIFT 的紅外與可見光圖像配準方法,以提高紅外和可見光圖像之間配準的穩定性.文獻[32]考慮到形態梯度可以同時突出可見光圖像和紅外圖像的邊緣,將形態梯度和聯合尺度不變特征變換算子(Combined SIFT, C_SIFT)結合來實現可見光和紅外圖像的實時自適應配準.文獻[33]設計一種基于剪切波的模態魯棒描述子(Shearlet-based Modality Robust Descriptor, SMRD),以克服多模態圖像間非線性強度變化對特征點匹配的影響.上述改進在一定程度上提升了紅外與可見光圖像配準的精度.

在優化整體配準框架方面,文獻[34]提出改進的SURF 算法(Modified-SURF, M-SURF),優化特征提取后,引入匹配點的空間關系和加強圖變換匹配(Weighted Graph Transformation Matching,WGTM)來消除錯誤匹配.為實現不同視場角、不同分辨率下的紅外與可見光圖像準確匹配,文獻[35]提出一種尺度不變的部分強度不變特征描述子(Scale Invariant-Partial Intensity Invariant Feature Descriptor, SI-PIIFD)和強魯棒性的特征匹配方法,采用Harris 角點檢測提取特征點,利用SI-PIIFD對特征點進行描述,在特征匹配后引入魯棒貝葉斯框架來保證圖像變換模型的準確估計.文獻[36]提出一種基于多尺度Harris 部分強度不變特征(Multi Scale-Harries-PIIFD, MS-Harris-PIIFD)的圖像配準框架,構建了一種新的多尺度部分強度不變特征描述符(Multi-Scale PIIFD, MS-PIIFD).文獻[37]針對紅外與可見光圖像配準時間長等問題,提出一種改進曲率尺度空間角點檢測(Curvature Scale Space, CSS)算法,引入Freeman 鏈碼提高特征提取精度,利用SURF 算法獲得特征描述子,并采用雙邊FLANN 匹配和RANSAC 獲得正確的匹配點對.文獻[38]提出一種基于輪廓角方向(Contour Angle Orientation, CAO)由粗到細的配準框架,也是利用CSS 提取輪廓中的特征點,將得到的各特征點輪廓角方向作為主方向,并改進SIFT 描述子進行特征點描述,然后進行雙向匹配及由粗到細的精配準.以上優化整個配準框架的研究,在較大程度上提升了配準精度或速度.

3.2.2 基于深度學習的圖像配準

近兩年,利用深度學習方法實現紅外與可見光圖像配準的研究逐步興起,其中,生成對抗網絡因其可以實現跨域圖像映射被頻繁應用于多模態配準,利用卷積神經網絡提取異源圖像特征的相關方法也在同步探索.

生成對抗網絡在紅外與可見光圖像配準研究中通常被用來生成可見光圖像的偽紅外圖像.文獻[39]設計一種利用生成對抗網絡的兩級Transformer 結構,包括一個域轉換網絡和一個幾何變換模塊,第一階段將可見光圖像轉換為偽紅外圖像,第二階段對偽紅外和真實紅外圖像實現圖像配準變換.文獻[40]提出模態轉換與魯棒特征相結合的配準算法,得到生成對抗網絡轉換的偽紅外圖像后,利用傳統基于特征的圖像配準方式實現配準.文獻[41]提出一種跨空間感知風格轉換網絡(Cross-modality Perceptual Style Transfer Network, CPSTN)來生成以可見光圖像作為輸入的偽紅外圖像,由于CPSTN具有良好的幾何保存能力,生成的偽紅外圖像具有清晰的結構,更利于將交叉模態圖像對齊轉換為單模紅外圖像配準,同時還引入一個多層次重構配準網絡(Multi-level Refinement Registration Network,MRRN)來預測失真和偽紅外圖像之間的位移矢量場,重建配準紅外圖像.上述方法一定程度上降低了異源圖像配準的難度.

與生成偽紅外圖像的思路不同的是,文獻[42]利用對抗性學習和單模態相似性度量解決了跨模態圖像配準相似性度量的泛化性問題,提出一種具有幾何不變性的圖像轉換網絡來消除模態差異的影響,再使用空間對齊網絡實現圖像配準,該方法不受模態種類限制,適用于多種模態圖像間的配準.基于此研究,文獻[43]將該幾何保持圖像轉換網絡應用于紅外與可見光圖像配準,并進行了改進,提升了紅外與可見光圖像配準的精度.

除了生成對抗學習,基于卷積神經網絡的紅外與可見光圖像配準也在創新探索階段.文獻[44]基于卷積神經網絡提出一種梯度信息引導的圖像配準網絡(Gradient Guided Multispectral Image Registration using CNN, RegiNet),利用Sobel 算子獲取可見光圖像的梯度圖像并與紅外圖像一同輸入到RegiNet 網絡,實現端到端配準.文獻[45]利用卷積神經模型計算出圖像間的局部匹配點對,然后利用移動直接線性變換(Moving Direct Linear Transformation,MDLT)估計圖像間的局部單應性矩陣,實現紅外與可見光圖像配準.文獻[46]通過卷積神經網絡模型判斷紅外與可見光圖像特征匹配的程度,并利用邊緣結構信息和注意力模塊來提高紅外與可見光圖像特征的匹配率.這些方法均在嘗試利用卷積神經網絡提取紅外與可見光圖像的共同特征,也取得了一定突破.

3.2.3 基于目標模型優化迭代的圖像配準

上述基于特征的改進圖像配準和基于深度學習的圖像配準方法在一定程度上克服了紅外與可見光圖像的模態差異,取得了良好的配準效果,但是這些算法多針對特定的平面場景或較遠距離目標,利用仿射變換或透視投影變換等相對簡單的幾何變換,難以適應景深差異較大的情況.為提高紅外與可見光圖像對場景的適應能力和泛化性,許多研究引入了非線性變換模型,并將紅外與可見光圖像特征點間的匹配問題轉化為目標函數模型優化問題,估計變換模型最優參數的同時輸出最佳的特征點對匹配關系.

文獻[47]提出了基于混合特征的紅外與可見光圖像非剛性配準算法,利用多特征輔助高斯混合模型對輪廓點和角點混合的特征點集進行建模,使用期望最大化算法求解模型,由于采用了非剛性變換模型,該算法在室內和室外近距離非平面場景拍攝存在較大視差的場景下均實現了良好配準.為克服場景景深的多變性、紅外與可見光圖像的差異性,文獻[48]提出了自適應增強仿射變換(Adaptive Enhanced Affine Transformation, AEAT)方法,將仿射模型從線性情況推廣到非線性情況.首先從紅外和可見光圖像的邊緣圖中提取特征點集,并設計高斯加權形狀上下文特征描述符(Gaussian Weighted Shape Context, GWSC)來測量多模態圖像之間的結構相似性,然后通過分段優化策略,估計出AEAT 模態的最優參數實現全局圖像配準.與之類似,文獻[49]提出的自適應混合多項式變換(Adaptive Polynomial Mixture Transformation,APMT),可以準確地描述待配準紅外與可見光圖像之間形變的全局非線性規律.上述方法在不同的場景下具有較好的全局配準魯棒性和泛化性.

3.3 鐵路場景下紅外與可見光圖像配準研究現狀

鐵路周界防護應用場景下的紅外與可見光圖像配準問題,在工程實際中通常采用相機聯動方式,預先對大場景圖像劃分網格,然后人工操作可見光相機記錄相應的俯仰旋轉等姿態角度并制作成表,再通過查表控制可見光相機來保證聯動過程中匹配到大致準確的范圍以及聯動效率.但是該方式下目標聯動準確性依賴于網格劃分的精細程度,而且變換場景后需要再次進行網格劃分,前期需要投入較大的人力成本,自動化程度低,而且不能實現目標的精確關聯與匹配,還需要人工做二次判斷.

文獻[11]利用激光攝像機與紅外熱成像攝像機聯動開發了一款全天候工作的鐵路安全視頻監控和智能分析系統,通過相機空間位置匹配標定解算算法,將目標在紅外視頻畫面中的相對位置解算為激光攝像機的物理方位及鏡頭焦距參數,以此控制激光攝像機伺服系統響應來實現具體目標的識別確認.該套設計利用仿射變換模型實現空間位置對應,適合遠距離大場景的監控,對于近距離或相機間位姿差異較大的情況難以適用.文獻[50]提出了改進的SURF 算法,結合先驗知識通過逐級匹配策略實現了鐵路場景下不同視場的紅外與可見光圖像配準,但是該算法針對特定的鐵路場景設計,缺少魯棒性和泛化性,而且算法實時性有待考證.文獻[51]利用鐵路場景下鋼軌明顯的直線特征實現了可見光與紅外圖像配準,該算法對于直線特征明顯的場景具有一定的魯棒性,但由于采用的是單一的透視變換模型,對于近距離無法忽視場景縱深差異的情況,配準精度還有待提高.

目前鐵路場景下紅外與可見光圖像配準的研究還不是很多,而且配準精度和速度有很大的提升空間.在鐵路周界防護應用中隨著目標在圖像中的位置和距離不同,可見光圖像和紅外圖像存在一定的景深變化,而且可見光圖像場景可能只是紅外圖像場景的一部分,所以為提高配準的穩定性和可靠性,可以依賴鐵路場景中鋼軌、立桿等顯著的直線特征,并根據不同場景變化選擇合適的圖像變換模型,復雜情況下可以嘗試泛化性較好的點集與模型迭代優化配準方法.

4 目標檢測算法現狀與分析

4.1 目標檢測一般方法及流程

目標檢測是利用多源圖像實現鐵路周界入侵檢測的另一大研究重點.目標檢測根據算法發展階段來劃分,主要分為早期目標檢測算法和基于深度學習的目標檢測算法.

4.1.1 早期目標檢測算法

目標檢測的目的是在視頻圖像中對感興趣目標進行分類并標記出對應位置.早期的目標檢測算法按照利用的特征信息分類,可以分為利用目標與背景差異性進行檢測的方法和利用目標本身特征進行檢測的方法.

利用目標與背景差異性進行檢測的方法,包括經典的運動目標檢測算法,如靜態背景下應用的幀差法[52]、背景差分法[53-54]、光流法[55]、視覺背景提取器(Visual Background extractor,ViBe)算法[56]等,還有運動背景下應用的塊匹配[57]和光流估計方法[58],該類方法不關注目標類別.

利用目標本身特征進行檢測的方法,早期幾乎都是手工設計特征,主要包括方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征[59]、Haar 特征[60]、局部二值模式(Local Binary Pattern,LBP)特征[61]等.該方法包括區域選擇、特征提取、分類器分類3 個步驟.

步驟1:區域選擇.采用滑動窗口策略,提取圖像不同大小的滑動窗口作為目標檢測候選區域.

步驟2:特征提取.對候選區域提取梯度方向、灰度變化、紋理細節等視覺特征.

步驟3:分類器分類.將提取到的特征送入訓練完成的分類器進行分類,分類器通常采用支持向量機(Support Vector Machines, SVM)模型[62],自適應增強學習(Adaptive Boosting, AdaBoost)[63]、可變形部件模型(Deformable Parts Model, DPM)[64]、隨機森林(Random Forest classifier, RF)模型[65]等.

但是該方法存在2 個問題:一是滑動窗口數量和大小的選取缺少針對性的設計,會產生較多冗余的窗口,降低算法效率;二是手動設計的特征對于多目標檢測、復雜背景以及遠距離等場景缺乏魯棒性.DPM 模型雖然在HOG 結合SVM 方法的基礎上進行了改進并實現了性能提升,但模型算法復雜度較高,目標檢測的實時性較差.

4.1.2 基于深度學習的目標檢測算法

現在主流的目標檢測算法多基于深度學習實現,利用卷積神經網絡學習自動提取特征.根據檢測算法處理階段的不同,可以分為兩階段和單階段算法,分別對應的處理流程如圖2 所示.

圖2 深度學習主流目標檢測算法流程Fig.2 Flowchart of mainstream object detection algorithms based on deep learning

兩階段算法包括候選框提取和目標分類.第一步在特征提取后會生成一個有可能包含待檢測物體的候選區域,第二步通過卷積神經網絡對候選區域進行分類和定位回歸.常見的兩階段算法有區域卷積神經網絡(Region-based CNN, RCNN)[66]、空間金字塔池化網絡(Spatial Pyramid Pooling Networks, SPP-Net)[67]、快速區域卷積神經網絡(Fast RCNN)[68]、更快區域卷積神經網絡(Faster RCNN)[69]等,此類算法以準確率高為特點.

單階段算法不用生成候選區域,而是通過端到端的網絡提取特征并預測目標分類和位置,即在特征提取后直接分類加定位.常見的單階段算法有單發多框檢測(Single Shot multibox Detector,SSD[70]、一次性檢測(You Only Look Once,YOLO)系列的YOLOv3[71]、YOLOv5[72]等.此類算法以計算速率快為特點.

上述主流的目標檢測算法都將目標檢測問題建模成對一些候選區域進行分類和回歸的任務.在單階段檢測算法中,這些候選區域就是通過滑窗方式產生的錨框;在兩階段檢測算法中,候選區域是由區域提議網絡(Region Proposal Network, RPN)生成的,但是RPN 本身仍然是對滑窗方式產生的錨框進行分類和回歸.這些基于錨框的檢測器存在一些缺點:一是檢測性能對錨框的大小、長寬比和數量都很敏感,對最終預測結果有較明顯的影響;二是預置的錨框大小、比例在檢測差異較大的物體時不夠靈活;三是大量的錨框會導致運算復雜度增大,產生較多的參數.

考慮到上述存在的問題,無錨框的目標檢測算法在近幾年大量涌現,如基于角點的檢測網絡(CornerNet)[73],基于中心點的檢測網絡(CenterNet)[74]、基于極值點的檢測網絡(ExtremeNet)[75]等,這類方法不需要預設錨框,只需要對不同尺度特征圖的目標中心點和寬高進行回歸,極大減少了耗時和需要的算力,在檢測速度上具有優勢,但是在精度上還不能和最先進的基于錨框算法相媲美.

4.2 紅外目標檢測研究進展

考慮到目前單獨依靠可見光圖像實現目標檢測的算法在夜間或惡劣光線條件下的效果并不理想,而紅外相機無論白天還是夜間都能捕捉到比周圍環境溫度更高的目標,理論上更適用于全天候目標檢測,所以在鐵路場景下以紅外圖像目標檢測為主.

早期的紅外視頻序列運動目標檢測多采用幀差法[76]、背景差分法[77-78]、高斯混合模型[79]、ViBe[80]等傳統算法,這類算法利用圖像幀之間像素點的灰度變化來分離出前景目標和背景區域,原理簡單,但當背景有異動、目標停留或者相機抖動時,其檢測效果參差不齊,難以應用到實際場景中.

近年來由于深度學習技術在目標檢測領域發展飛速,紅外目標檢測研究也逐步轉向深度學習.與通用深度學習目標檢測算法相比,基于深度學習的紅外目標檢測優化改進主要集中于優化骨干網絡、引入注意力機制、結合生成對抗網絡的設計,同時與多尺度融合、損失函數優化等細節相結合.

4.2.1 優化骨干網絡的紅外目標檢測

基于深度學習的目標檢測算法都需要骨干網絡作為目標的特征提取器,為提升紅外目標檢測的精度、效率和魯棒性,以及小目標檢測效果,有相關研究對骨干網絡進行了調整改進.

文獻[81]提出了一種基于卷積神經網絡的紅外與可見光圖像目標檢測網絡(Thermal Infrared image object detection based on CNN, TIRNet),采用深度卷積神經網絡模型VGG 作為輕量級特征提取器,為得到精確的盒回歸和分類的魯棒性和鑒別特征,引入殘差分支,同時提出連續信息融合策略來解決背景復雜、遮擋等問題,提升了紅外圖像目標檢測的效率和魯棒性.文獻[82]對YOLOv3 網絡模型進行了優化,使用輕量級網絡MobileNetv2 取代YOLOv3 中傳統的特征提取模塊,用焦點損失代替YOLOv3 網絡中的原始損失函數來解決負樣本的數量不平衡問題,降低網絡模型大小的同時提高了紅外目標檢測的速度. 文獻[83]設計了一種以YOLOv5 為核心的改進紅外目標檢測網絡(Improved YOLOv5 for Infrared image object detection,YOLO-FIRI),特征提取網絡部分,對淺層的跨階段部分連接(Cross Stage Partial connections, CSP)模塊進行擴展和迭代以最大限度地利用淺層特征,并且在殘差塊中引入改進的注意力模塊以聚焦對象和抑制背景,同時增加多尺度檢測以提高小目標檢測精度,改善了紅外目標檢測因長距離、弱對比度和低分辨率導致的低識別率和高誤報率問題.

4.2.2 引入注意力機制的紅外目標檢測

針對紅外因圖像模糊、分辨率低、對比度低導致目標特征不明顯以及遠距離小目標檢測的問題,引入注意力機制可以聚焦目標特征等關鍵信息,降低背景的關注度,同時提高模型效率.

文獻[84]提出了基于注意力機制的多尺度紅外目標檢測算法,引入注意力機制提升對紅外圖像的特征提取能力,通過多尺度模塊不同尺度的特征圖獲取來提高小目標檢測效果.文獻[85]提出了基于聚焦和注意力機制的YOLO 模型,通過在訓練過程中使用負樣本聚焦機制,減輕復雜的背景信息和遮擋的影響,從而使模型更準確地區分目標和背景,此外為增強紅外小目標的特征,在YOLOv4 模型添加了擴展的卷積注意力模塊,該方法對目標遮擋及小目標檢測性能有較大的提升.文獻[86]針對紅外圖像因對比度低、缺乏細粒度和紋理信息而影響目標檢測性能的問題,提出了2 種輕量級注意機制,即切片拼接和多感受野空間組增強模塊(Sliced Concatenate and Multi Receptive-field Spatial Group-wise Enhance module, SCMR-SGE)和聯合注意力模塊.SCMR-SGE 模塊利用分組特征操作,通過在每個語義組的各個位置生成注意因子來增強子特征,并抑制不相關信息;聯合注意力模塊通過不同的池化層產生的注意因子,選擇性地增強或抑制信道信息,然后將這2 種模塊嵌入到特征金字塔網絡(Feature Pyramid Network, FPN)中.與主流的注意力模塊(Squeeze-and-Excitation,SE)、基于卷積神經網絡的注意力機制(Convolutional Block Attention Module,CBAM)相比,該輕量級注意機制可以更加有效地提高紅外目標的檢測性能.

4.2.3 結合生成對抗網絡的紅外目標檢測

生成對抗網絡包括生成模塊和判別模塊,通過2 個模塊間的互相博弈學習產生最終輸出.在紅外目標檢測任務中,由于紅外圖像存在標注數據稀缺、收集困難,以及圖像模糊、對比度低等問題,生成對抗網絡最常用于圖像增強和提高圖像分辨率.

文獻[87]為提高環境可解釋性并解決紅外圖像目標樣本標注困難問題,提出一種基于自上而下注意力機制和梯度對齊的生成對抗網絡(Top-down attention and gradient alignment based Generative Adversarial Network, PearlGAN),利用自上而下的引導注意力模塊和相應的注意力損失函數,來減少轉換過程中的語義編碼歧義和幾何失真,引入結構化的梯度對齊損失以改進偽模態圖像和原始圖像之間的邊緣一致性.該算法在模態轉換任務中表現優異,而且在目標檢測任務中能夠更好地保留行人結構.文獻[88]提出一種無監督圖像生成增強自適應方法,包括基于循環生成對抗網絡(CycleGAN)的圖像到圖像轉換和強度反轉變換.首先將生成的偽紅外圖像作為更新的源域,然后利用域自適應更快的RCNN 來減少生成的中間域和紅外目標域之間的差距,該方法對于缺乏標注數據的紅外目標檢測具有一定的有效性和優越性.文獻[89]提出一種用于將可見光圖像轉換為紅外圖像的域自適應框架,該框架使用基于生成對抗網絡的多風格遷移網絡將曲率和邊緣等低級特征從可見光譜域轉移到紅外域,從頭開始對多風格轉換后的圖像進行訓練,提高了紅外目標檢測的魯棒性.文獻[90]針對紅外圖像模糊的問題,提出一種用于紅外圖像重建的去模糊-超分辨率重建生成對抗網絡(Super-Resolution Reconstruction GAN, SRRGAN)算法和用于紅外目標檢測的加權掩膜區域卷積神經網絡(Mask RCNN)方法,紅外圖像恢復和目標檢測均取得了不錯的效果.

4.3 紅外與可見光圖像融合目標檢測研究進展

在全天候目標檢測任務中,由于紅外圖像和可見光圖像的特征具有互補性,將紅外與可見光圖像融合有助于增強目標檢測算法的魯棒性,提升夜間目標檢測的準確率,甚至增強目標檢測結果的可視性.根據融合策略的不同,目前利用紅外與可見光圖像融合來進行目標檢測的研究可以大致分為基于通用融合策略的融合目標檢測、結合模態特性的融合目標檢測2 類.

4.3.1 基于通用融合策略的融合目標檢測

紅外與可見光圖像的通用融合策略可以分為像素級融合、特征級融合與決策級融合.文獻[91]提出了早期融合和晚期融合2 種模型融合方式,其中早期融合也是像素級融合,即直接將像素級的紅外與可見光圖像通道信息疊加輸入到模型中進行特征提取和目標檢測,晚期融合對應于特征級融合,使用單獨的特征提取分支分別對紅外與可見光圖像進行特征提取,最后用全連接層將特征組合再輸入到檢測器中.文獻[92]采用像素級融合、特征級融合以及決策級融合策略,并引入早期、中期、晚期融合和置信度融合4 種不同的網絡融合方法用于多光譜行人檢測任務.文獻[93]為解決紅外和可見光圖像中小目標檢測難的問題,提出一種基于中心和尺度預測網絡(Center and Scale Prediction Network,CSPNet)的紅外與可見光融合方法,采用特征級融合策略,將紅外與可見光特征提取模塊的3 個深層卷積層進行特征融合,再輸送到無錨框的目標檢測器.該算法對小目標有較好的檢測性能,而且檢測效率很高.文獻[94]為提取紅外與可見光圖像的互補特征,利用2 個卷積神經網絡分別從多個卷積層中提取紅外圖像和可見光圖像的多尺度特征,并利用Kullback-Leibler 散度定義差異最大損失函數來進一步指導2 個網絡的學習方向,以提取更多的互補和多樣化特征,然后通過通道連接分別將每個階段的紅外特征和可見特征進行組合.此外還設計了一個聚焦特征增強模塊并在深層卷積層添加了級聯語義擴展模塊,分別提高了小目標和大目標的檢測精度.上述融合檢測方法雖然取得了一定效果,但是融合策略通用化、模式化,沒有充分考慮紅外與可見光圖像的特質,理論上在性能方面還能有更大的提升和突破.

4.3.2 結合模態特性的融合目標檢測

與基于通用融合策略的融合目標檢測方法不同,結合模態特性的融合目標檢測相關研究深入探討了紅外與可見光圖像的模態差異、照明條件變化以及紅外圖像的溫度特性,設計了較為充分的特征融合方法,并取得了理想的效果.文獻[95]發現白天和夜間光照條件的差異以及目標在紅外與可見光圖像中特征表示不一致會影響目標檢測的性能,為此提出了一種模態平衡網絡,首先在特征提取階段嵌入差分模態感知融合模塊來融合紅外與可見光模態信息,然后在進入提取錨框階段之前引入光照機制解決光照模態不平衡的問題,在提取錨框后進行2 種模態特征的自適應對齊.該網絡檢測效果突出并且檢測速度也很快.文獻[96]考慮了照明條件、不同數據源以及紅外圖像的溫度特性對目標檢測結果的影響,首先利用FLIR 紅外與可見光數據集訓練光照條件分類模型,然后提出通道注意和先驗溫度掩模模塊(the Channel Attention and a Priori Temperature Mask module, CAPTM),利用溫度信息作為先驗知識,采用2 個嵌入CAPTM 的分支網絡分別提取可見光圖像和紅外圖像的特征,再根據分類結果融合特征輸入特征金字塔網絡,最后輸入預測器得到目標檢測結果.該方法較大提升了在夜間及其他弱光照條件下的目標檢測精度.文獻[97]考慮到紅外與可見光圖像隱含互補信息的模態差異對于融合和后續檢測任務的重要性,針對融合與檢測聯合問題提出了一個兩層優化模型,并將其展開到目標感知雙對抗學習(Target-aware Dual Adversarial Learning network,TarDAL)融合網絡和目標檢測網絡.融合網絡通過生成器和雙鑒別器,從差異中學習的同時尋求共同點,保留了來自紅外的目標結構信息和來自可見光的紋理細節.該算法既提高了目標檢測精度,也增強了檢測結果的可視性效果.

4.4 鐵路場景下多源圖像目標檢測研究現狀

鐵路場景下利用紅外與可見光圖像實現全天候目標檢測的研究還處于探索階段.文獻[98]采用紅外與可見光圖像像素級融合的方式實現鐵路異物目標檢測,在完成圖像配準的基礎上,基于總變差和Contourlet 變換結合的融合策略實現圖像像素級融合,然后利用背景差分和幀差法結合的目標檢測算法對融合視頻圖像序列實現運動目標檢測,然而整個實現過程計算量較大、耗時較長.文獻[99]基于改進ViBe 的目標增強算法對像素級加權融合的圖像進行鐵路異物入侵目標檢測,提升了目標檢測的魯棒性和效率,同時為提升融合圖像的質量和可理解性,利用相位一致性和非下采樣輪廓波變換(Nonsubsampled Contourlet Transform, NSCT)實現了目標檢測結果圖像的融合后處理.該研究在一定程度上提升了配準和目標檢測的效率,但是對于滿足實時性要求還有一定差距.文獻[100]為增強紅外圖像在夜間的目標檢測性能,提出了一種基于CycleGAN 圖像轉換的數據增強策略.首先根據白天的鐵路場景圖像和夜間的非鐵路場景圖像生成合成圖像,然后使用生成的合成樣本訓練SSD 目標檢測模型,最后將訓練好的SSD 模型用于夜間紅外圖像的目標檢測,該數據增強策略和目標檢測方法具有一定有效性.

當前不論是利用紅外圖像、還是利用紅外和可見光圖像融合來實現鐵路周界入侵檢測的研究都比較少,而且還不太成熟,距離實現全天候實時有效的目標檢測還有很大差距.但是鐵路場景下目標檢測面臨的都是領域內的共性問題,完全可以從當前紅外目標檢測、紅外與可見光圖像融合目標檢測相關研究中學習到有用的研究思路、方法和手段.

5 鐵路多源圖像目標檢測發展趨勢

鐵路周界防護場景下將紅外與可見光圖像相結合既能實現全天候有效地入侵目標檢測,又能保證入侵目標的可視化效果,便于后續智能分析.基于紅外與可見光圖像配準和目標檢測2 個關鍵任務,根據當前研究基礎和相關技術發展現狀,分析鐵路場進行多源圖像目標檢測未來的發展趨勢主要有以下3 個方面.

1) 充分利用鐵路場景特有的直線特征實現紅外與可見光圖像配準.鐵路場景下的鋼軌和立柱等直線特征比較突出,而且通常出現在圖像中的主要位置,所以以直線特征為主,結合其他特征信息或者是利用深度學習方法輔助實現鐵路場景異源圖像配準是未來的一大發展趨勢.

2) 無錨框的目標檢測方法與融合策略相結合實現鐵路場景下的全天候目標檢測.對同時注重實時性和準確性的應用場景,可以利用無錨框的目標檢測算法檢測速度快的特性來達到實時性要求;同時深入探索適合鐵路場景全天候檢測的多模態融合策略,能夠從源頭上輔助提升檢測的準確性,這種結合方式值得嘗試和探索.

3) 建立鐵路場景紅外與可見光數據集.當下絕大多數算法都是在公開數據集上進行算法性能測試和比較,由于目前缺少基于紅外與可見光圖像的鐵路場景數據集,將算法直接遷移到鐵路場景后效果并不理想.為實現鐵路場景下的異源圖像配準以及驗證鐵路周界入侵目標檢測的效果,建立鐵路場景紅外與可見光數據集是必不可少的.

6 結論

本文在充分探討現有鐵路周界防護技術的基礎上,研究了紅外與可見光圖像結合實現鐵路入侵檢測的問題.重點圍繞圖像配準和目標檢測階段,分別從異源圖像配準、紅外目標檢測以及多源融合目標檢測等方面進行了論述,研究結果表明,將多類特征信息結合實現異源圖像配準、無錨框算法與深度融合策略結合實現多源目標檢測、建立鐵路場景下的紅外與可見光圖像數據集是今后的研究方向.考慮到遠距離全天候目標可靠檢測的應用需求,以及鐵路場景下紅外圖像與可見光圖像具有較大視場差異的實際情況,大視場差異和惡劣光線條件下的異源圖像配準以及遠距離小目標檢測的實現具有一定復雜性,鐵路場景下的多源圖像目標檢測研究還需要不斷摸索改進.

猜你喜歡
周界紅外鐵路
網紅外賣
閃亮的中國紅外『芯』
沿著中老鐵路一路向南
周界報警系統在石油化工企業中的應用
基于生成對抗網絡的鐵路周界行人樣本生成算法
TS系列紅外傳感器在嵌入式控制系統中的應用
鐵路通信線路維護體制改革探索與實踐
周界報警系統在城軌車輛段及停車場中的應用
基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
無人值守變電站周界光電一體化安防系統設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合