?

基于深度卷積神經網絡的小型民用無人機檢測研究進展

2022-11-25 08:08李邵港王以政
紅外技術 2022年11期
關鍵詞:卷積特征圖像

楊 欣,王 剛,李 椋,李邵港,高 晉,王以政

專欄:〈紅外目標檢測〉

紅外目標探測具有工作距離遠、抗干擾能力強、測量精度高、不受天氣影響、能晝夜工作等特點,在軍事和民用領域得到了廣泛的應用。近年來,在以深度學習技術為代表的智能化浪潮推動下,目標探測領域取得了長足的發展與進步?;诖?,《紅外技術》面向研究人員推出“紅外目標檢測專欄”,力圖展示目標檢測技術的最新研究成果,為從事相關研究的讀者提供參考。

通過廣泛征集和嚴格評審,本期專欄收錄了來自南京工業大學、西安電子科技大學、蘇州大學等從事紅外目標檢測團隊的8篇論文。論文內容既有對小型無人機檢測等熱門研究方向的綜述與分析,也有針對弱小目標檢測、抗遮擋目標跟蹤、三維目標識別等人工智能最新應用技術的研究。

然而,紅外目標的多樣性、探測環境的復雜性、應用場景的開放性等都對紅外目標檢測技術的發展和應用提出了更嚴峻的挑戰。本期專欄只是一個起點,希望能夠啟發廣大讀者作出更多更精彩的研究。

最后,感謝各位審稿專家和編輯的辛勤工作。

——王衛華

基于深度卷積神經網絡的小型民用無人機檢測研究進展

楊 欣1,2,王 剛2,3,李 椋2,李邵港1,2,高 晉4,王以政2

(1. 南華大學,湖南 衡陽 421001;2. 軍事科學院軍事認知與腦科學研究所,北京 100850;3. 北京腦科學與類腦研究中心,北京 102206;4. 中國科學院自動化研究所,北京 100190)

小型民用無人機預警探測是公共安全領域的熱點問題,也是視覺目標檢測領域的研究難點。采用手工特征的經典目標檢測方法在語義信息的提取和表征方面存在局限性,因此基于深度卷積神經網絡的目標檢測方法在近年已成為業內主流技術手段。圍繞基于深度卷積神經網絡的小型民用無人機檢測技術發展現狀,本文介紹了計算機視覺目標檢測領域中基于深度卷積神經網絡的雙階段算法和單階段檢測算法,針對小型無人機檢測任務分別總結了面向靜態圖像和視頻數據的無人機目標檢測方法,進而探討了無人機視覺檢測中亟待解決的瓶頸性問題,最后對該領域研究的未來發展趨勢進行了討論和展望。

計算機視覺;目標檢測;視頻目標檢測;無人機檢測;深度卷積神經網絡;

0 引言

隨著無人航空技術的快速發展,小型民用無人機一方面被廣泛應用于安全巡查、農業監測、抗災救援等任務中,為人類生產和生活帶來極大的便利和幫助;另一方面,無人機憑借其價低便攜、易于部署、隱蔽性強等特性,也成為違禁品走私、間諜測繪、抵近偵察等違法行為的重要手段,對公共安全造成巨大威脅。因此,開發面向低空近程小型無人機的預警探測系統具有重要意義。由于小型無人機雷達反射面小、飛行高度低、運動速度慢,而且常隱藏在樓宇、山坳或樹林等背景中,傳統雷達探測易受地雜波干擾難以辨別目標,因而光電傳感器(包括紅外和可見光等頻段)相比于雷達更適于復雜背景下的低空近程無人機目標探測。光電傳感器獲得圖像視頻數據后,需要進一步采用視覺目標自動識別技術輸出無人機檢測結果。

視覺目標檢測是指在圖像中發現、識別并標記特定目標的過程[1],與物體分類、目標跟蹤和圖像分割技術密切相關。經典目標檢測方法[2-4]通常采用滑動窗口策略,即采用一系列的滑動窗口遍歷整個圖像來判斷圖像中目標可能存在的位置,然后在圖像窗口上提取一些手工設計的特征,例如尺度不變特征變換[5],方向梯度直方圖[6]和局部二值模式[7]等,再使用支持向量機(support vector machine,SVM)[8]或AdaBoost[9]分類器對提取的特征進行分類。由于分類后仍然可能存在許多冗余窗口,還需要再使用非極大值抑制[10]技術排除冗余窗口,實現目標檢測。由于經典目標檢測算法采用滑動窗口策略來生成目標候選區域,窗口冗余計算量大,時間復雜度高,目標檢測效率有限。同時,采用手工設計的特征來進行檢測,可移植性差,難以應對目標形態和背景的變化,而且每次對新類別目標檢測都要花費大量時間來設計手工特征。

為了解決經典目標檢測方法存在的上述瓶頸性問題,研究人員在近年來將最初應用于物體分類的深度卷積神經網絡(deep convolutional neural networks,DCNNs)引入到目標檢測領域[11],將特征學習和模式判別統一到同一模型框架下,同時借助大規模標注數據和高性能計算資源,實現了低階圖像特征和高階語義特征的層次化表征,在多個大型公開數據集取得了可觀的目標檢測精度。因此,基于DCNN的方法已成為目標檢測領域的主流手段之一[12-13]。在通用目標檢測技術的基礎上,業內已經提出了一些面向小型無人機的目標檢測算法,在檢測精度和實時性方面取得了一定的積極進展。本文對業內現有的無人機目標檢測算法進行了歸納總結,探討了現有算法在實際應用中尚存在的瓶頸性問題,并對基于DCNN的無人機目標檢測未來發展方向進行了展望。

1 基于DCNN的視覺目標檢測

基于深度卷積神經網絡的目標檢測算法[14]主要可以分為基于候選區域的雙階段算法和端到端的單階段算法,表1[15-43]對該類代表性算法進行了歸納。這些工作重塑了計算機視覺領域中目標檢測的架構和思路,對無人機目標檢測算法的開發具有重要的支撐作用和借鑒意義。

1.1 雙階段方法

深度卷積神經網絡最初用于物體分類,識別圖片中是否包含某個感興趣的目標,即主要回答“what”的問題,而目標檢測還需要對目標進行定位,解答“what is where”的問題。針對經典目標檢測方法存在的局限性,R-CNN[15]將DCNN從圖像分類引入目標檢測,采用DCNN代替手工設計來自動提取和表征特征。R-CNN首先從輸入圖片中選擇性搜索選出約2000個候選區域,將每個候選區域縮放到固定大小再輸入到類似AlexNet[16]的網絡模型,提取一個維度為4096×1的特征向量,然后分別對每個類別訓練一個SVM分類器,判斷每個候選區域是否包含某個類別的目標,進而訓練回歸器來修正候選區域中目標的位置,最后用訓練好的模型對新輸入的圖片做預測。這種將目標檢測分為候選區域提取和目標分類的方法一般被稱為雙階段方法(如圖1所示)。R-CNN在VOC2012數據集上取得了53.3%的按類均值平均精度(mAP),相對于之前的經典目標檢測算法提升了30%左右,展示出DCNN在目標檢測領域的巨大潛力。然而,該算法對生成2000個候選區域提取特征,候選區域之間重疊多,提取特征時存在著大量的冗余計算,影響檢測速度,同時每一個候選區域提取特征前要縮放到固定尺寸,這會導致區域內目標發生幾何形變,影響目標檢測的性能。

針對上述問題,2015年He等人提出了空間金字塔池化(Spatial Pyramid Pooling)的SPPNet[17]模型,空間金字塔池化能夠在輸入任意大小的情況下產生固定大小的輸出,只需一次性提取整張圖片的特征,然后在特征圖中找到每個候選區域對應的特征圖,在每個候選區域的特征圖上應用空間金字塔池化,形成這個候選區域的一個固定長度的特征向量,再用SVM分類器分類。該方法與R-CNN相比速度提升了100倍,但是由于SPP的結構阻斷了梯度下降的反向傳播,網絡難以對卷積層參數進行有效更新,導致檢測準確度降低。

此外,R-CNN訓練中需要將提取到的特征進行保存,然后為每個類訓練單獨的SVM分類器和邊界框回歸器,需要耗費大量的存儲空間。2016年提出的Fast R-CNN[18]將物體分類與檢測框回歸在同一網絡框架下訓練,不需額外存儲特征。Fast R-CNN還借鑒了SPPNet中的空間金字塔池化層,將網絡的最后一個池化層替代為ROI pooling,用softmax全連接層來代替SVM分類器。Fast R-CNN極大地縮短了訓練時間和預測時間,基于VGG16的Fast R-CNN模型在VOC2012數據集上獲得了66%的mAP值,在訓練速度上比R-CNN提升近9倍,比SPPNet提升近3倍,測試速度比R-CNN快大約213倍,比SPPNet快大約10倍。

表1 視覺目標檢測領域代表性算法歸納

圖1 以R-CNN算法[15]為例的雙階段目標檢測算法示意圖

上文介紹的R-CNN、SPPNet和Fast R-CNN都是用選擇性搜索來生成候選區域,計算效率低,沒有實現端到端的目標檢測。針對該問題,Faster R-CNN[21]提出了區域候選網絡來代替選擇性搜索,而且區域候選網絡與檢測網絡共享卷積特征,同時引入錨框(Anchor box)適應目標外形的變化,提升了檢測精度和速度。

大多數目標檢測算法輸出的結果是目標的類別標簽及其矩形外接框(bounding box),在外接框中既包括目標本身也包含局部背景。但在一些任務中需要輸出像素級的檢測結果,即輸出實體分割結果。Mask R-CNN[27]在原有Faster R-CNN的基礎上,在每個感興趣區域上添加基于全卷積網絡的掩模(mask)預測分支,用于判斷給定像素是否屬于目標,還添加了原始圖像與特征圖對齊的模塊,進而同時得到像素級別的圖像分割和目標檢測結果。

1.2 單階段方法

相比于雙階段算法,單階段目標檢測算法同時預測目標類別和位置信息,不需要顯式地生成候選框(如圖2所示),因此檢測速度通常較快。

2016年提出的YOLO[33](You Only Look Once)實現了端到端的模型訓練和目標檢測,在單階段目標檢測的發展過程中具有里程碑的意義。該模型以GoogLeNet為骨干網絡,將輸入圖片分為×個網格,每個網格負責預測個檢測框和個類別概率,相應地,每個網格輸出的目標預測框包含5個參數,即,,,,confidence;其中,(,)表示預測框中心相對當前網格的偏移量,(,)表示預測框相對整張圖像的大小,confidence表示預測框包含某類目標的置信度。YOLO算法的損失函數由坐標誤差、置信度誤差和分類誤差3個部分構成,通過調整坐標誤差和分類誤差的權重,進而提高坐標誤差的比重,適當降低分類誤差權重,可以防止網絡過早收斂,提高網絡的穩定性。YOLO算法不需要生成一系列候選框,直接在整張圖像上做回歸和分類,能夠大幅度提升檢測速度。然而,由于該算法假定每個網格內只有1~2個目標,極大地限定了預測目標數量的上限,因此檢測小型目標和群簇目標時極易出現漏檢。

圖2 以YOLO算法[33]為例的單階段目標檢測算法流程示意圖

鑒于淺層網絡通??梢詫W習和表征圖像更多的細節信息,針對多尺度目標檢測任務,Liu[35]等人以VGG16為基礎提出了SSD(Single Shot MultiBox Detector)模型,將VGG16網絡中的全連接層改為卷積層,并在末端增加了4個卷積層,同時使用5個層次的卷積特征圖進行檢測;借鑒Faster RCNN算法的思想,在特征圖上設置不同幾何尺寸的先驗檢測框,并直接在特征圖上進行密集采樣提取候選框,檢測準確度和速度相比YOLO均有提升。但是由于淺層特征在目標表征方面存在局限性,SSD在檢測小目標時仍然存在一定困難。

2017年提出的YOLOv2算法[36]采用了若干改進策略來提升初版YOLO算法的準確度和召回率。YOLOv2在卷積網絡中加入批歸一化(Batch normalization),加快了模型收斂;通過添加passthrough層,將淺層特征與深層特征聯系起來,改進神經網絡模型對細節特征的提取和表征能力;借鑒Fast R-CNN方法的anchor box思想,用k-means聚類算法生成更具代表性的先驗檢測框;進行多尺度輸入分辨率訓練,使得網絡在檢測時能適應不同分辨率。YOLOv2雖然解決了YOLO模型召回率低和定位準確性差的問題,但在小目標檢測方面的改進仍然有限。

2018年Redmon等人提出了YOLOv3算法[38]。該算法借鑒了殘差網絡中捷徑連接架構,有效緩解了網絡退化的問題;采用了類似特征金字塔的思想,面向3個尺度進行目標檢測;通過特征圖上采樣和特征融合,使網絡能夠從早期特征映射中的上采樣特征和更細粒度的信息中獲得更精細的語義信息,從而提升小目標的檢測效果;通過優化卷積核尺寸提高了計算效率。在后續的YOLOv4[42]中,作者比較不同訓練技巧和算法,設計了一個能夠應用于實際工作環境中的快速目標檢測,而且能夠在單塊GPU上訓練的模型。

2 基于DCNN的小型無人機視覺檢測研究

2.1 無人機目標檢測數據集

基于DCNN的目標檢測算法通常需要依靠較大規模的數據集進行模型訓練和性能評估。然而,當前業內仍然缺乏公開的大型無人機檢測數據集?,F有的無人機檢測國際挑戰賽數據集和公開發表文獻中的自建數據集介紹如下。

2.1.1 Anti-UAV2020數據集

Anti-UAV2020[44]數據集包含160段較高質量的雙模態(可見光+近紅外)視頻序列,其中100段視頻用于訓練和驗證,60段視頻用于測試。該數據集涵蓋了多種場景、多種尺度和多種機型(包括DJI-Inspire、DJI-Phantom 4、DJI-Mavic Air、DJI-Mavic PRO)的商用無人機。該數據集中的示例圖片如圖3所示??梢姽馀c近紅外視頻數據分別由固定于地面的可見光和紅外光電傳感器采集獲得。已公開的標注數據真值由專業數據標注員給出,其中標注信息包括:檢測框位置和大小、目標屬性(大、中、小型目標,白天、夜晚、云霧、樓宇、虛假目標、速度驟變、懸停、遮擋、尺度變化)以及表示當前幀是否存在目標的標志位。在第二屆Anti-UAV2021[45]反無人機挑戰大賽中,數據集已擴展到280段高清紅外視頻數據,涵蓋多種復雜場景下無人機目標的快速運動,使無人機探測任務更具挑戰性。

圖3 Anti-UAV2020數據集示例圖片(左列為可見光圖像,右列為紅外圖像)

2.1.2 Drone-vs-Bird Detection Challenge數據集

Drone-vs-Bird Detection Challenge[46]數據集包含11個在不同時間拍攝的MPEG4格式視頻,每個視頻文件對應有XML格式的標注文件。如圖4所示,場景中的無人機呈現出多尺度、多視角和亮度異質性。特別地,數據集中包含大量遠距離的小尺寸無人機和飛鳥,很多無人機的面積小于20像素,有300多個無人機的目標標注檢測框邊長甚至低至3~4個像素,對這些微小目標的檢測非常具有挑戰性。

圖4 Drone-vs-Bird Detection Challenge[46]數據集示例圖片

2.1.3 未開源自建數據集

除了上述公開數據集外,許多研究人員通過自建數據集來訓練網絡,并在其公開發表的論文中進行了相應的介紹。

文獻[47]建立的Anti-Drone Dataset包含449個視頻,所拍攝的無人機機型包括Mavic pro,Phantom 2和Phantom等,視頻幀分辨率為2048×1536和1024×768,幀速率為24 FPS。如圖5所示,該數據集中的視頻畫面涵蓋了不同的相機角度、放大倍率、天氣、白天或黑夜等情況,反映出無人機目標檢測任務的復雜性。

圖5 Anti-drone Dataset[47]中示例圖片

UAV data[48]采集了20款無人機的圖像,其中包括15種旋翼無人機、3種固定翼無人機和2種無人直升機。該數據集還特別突出了背景的復雜性和多樣性,如圖6所示,畫面中的無人機背景包括居民建筑、商業中心、山地、林木、河流、工廠、海岸等30個不同的地點,較好地反映了無人機探測系統在實際部署時可能會遇到的多種場景。該數據集包含200000張圖像,其中包括140000張訓練集圖像和60000張測試集圖像以及每張圖像對應的標注真值,圖像分辨率為1920×1080。

圖6 UAV dataset[48]示例圖片

2.2 面向靜態圖像的無人機檢測

圍繞無人機探測預警任務,業內學者基于主流目標檢測的算法開發了相當數量的無人機目標檢測算法。這些算法主要解決的問題包括:基于通用目標檢測算法的多尺度無人機目標檢測、少樣本無人機目標檢測和紅外圖像無人機目標檢測等。

2.2.1 基于通用目標檢測算法的無人機目標檢測

無人機目標檢測算法按照是否顯式生成候選區域,同樣可大致分為雙階段和單階段算法,兩種類型的算法各具優勢。在相同的數據集中,不采用任何優化算法的情況下,雙階段的Faster R-CNN算法有較高的檢測準確率,單階段的YOLO系列算法處理速度較快。當前計算機視覺領域提出的面向靜態圖像的無人機目標檢測算法介紹如下。

針對遠距離無人機在成像視野中尺寸小的問題,Vasileios[49]通過在Faster R-CNN訓練中加入深度超分辨率模型提出了新型無人機目標檢測算法。如圖7所示,該算法中的超分辨率模型[50]采用深度殘差網絡來提取特征并重構圖像,提升輸入圖像中無人機小目標的分辨率,進而提升基于Faster R-CNN目標檢測模型的召回率。Celine Craye[51]等人將無人機的檢測分為兩個步驟,首先將視頻圖像的時空序列輸入U-Net[52]模型中來獲取無人機候選區域,再使用ResNet101模型對其進行分類,該算法與雙階段算法R-CNN相似,能夠提升對小目標無人機的檢測效果。然而,采用基于Faster R-CNN等雙階段的檢測方法在計算實時性方面存在一定局限性。

鑒于YOLO系列算法計算效率方面存在優勢,文獻[53]開發了基于YOLOv2的無人機目標檢測算法。然而,由于YOLOv2算法在工作時需要在圖像上劃分網格,而且每個網格最多只能預測單個目標,因此多個目標落入同一個網格時就會出現漏檢。此外,傳統深度卷積網絡在所學特征對方向和尺度變化魯棒性差,因此對于小物體和重疊物體檢測效果不佳。

圖7 超分辨率增強模塊結合Faster R-CNN模型的無人機檢測算法流程圖[49]

文獻[54]基于YOLOv3的Darknet53骨干網絡采用Gabor濾波器調制DCNN中的卷積核,借以增強特征對方向和尺度變化的魯棒性,并在數據集上進行了驗證,性能超過了基于尺度不變特征變換(Scale-invariant feature transform, SIFT)特征和局部特征聚合描述符、詞袋和費舍爾向量等分類模型相結合的方法。但是該算法尚未與YOLOv3等基于DCNN的目標檢測方法進行對比,Gabor濾波器調制DCNN算法的優勢沒有得到驗證。

由于無人機目標在成像視場中的尺度變化較大,YOLOv3中在3個尺度層面的檢測難以有效覆蓋無人機尺度變化范圍。針對該問題,文獻[55]在YOLOv3模型中加入多尺度的特征融合,來檢測尺度變化顯著的無人機。文獻[48]同樣基于YOLOv3模型提出了針對無人機目標檢測的UAVDet模型(如圖8所示),將YOLOv3擴展為4個尺度進行預測,而且在第二個下采樣后增加兩個殘差模塊來獲得更多定位信息。需要指出的是,由于單階段算法沒有顯式生成候選框的過程,YOLO系列算法需要事先使用k-means[56]聚類算法根據數據集生成先驗框,因此在使用YOLO系列算法進行目標檢測時,同樣需要使用k-means對特定的無人機數據集聚類生成更適合無人機的先驗框。同時,為了解決圖像中存在的運動模糊問題,對數據集用高斯模糊和運動模糊的方法進行數據增強,有效提升檢測準確度和召回率。

圖8 基于多尺度YOLOv3的UAVDet算法[48]流程示意圖

2.2.2 遷移學習和數據增廣在無人機檢測中的應用

如前文所述,基于DCNN目標檢測算法通常是數據驅動的監督學習算法,需要依靠較大規模的數據集進行模型訓練和性能評估,但是目前業內缺乏公開的大型無人機檢測數據集,基于少樣本數據集訓練DCNN模型容易造成過擬合問題,因此研究人員通過遷移學習和數據增廣來緩解這個矛盾。

遷移學習是一種機器學習領域常用的技術,通常指將一個預訓練的模型被重新用在另一個任務中的過程,能夠將模型在一種數據集中學到的知識遷移應用在另一個數據集中,進而提高模型的泛化性能。具體在無人機檢測任務上,可以首先在其他類型(如通用目標檢測)的大規模數據集中對模型進行比較充分的訓練,然后將預訓練的網絡在特定的相對較小規模無人機檢測數據集上進行微調。Muhamma等人[57]將經過ImageNet數據集預訓練過的模型在Drone-vs-Bird Detection Challenge數據集上進行微調,進而使模型能夠更好地檢測無人機。作者采用Faster R-CNN算法,對比了ZFNet,VGG16和VGG_CNN_1024三種特征提取網絡的檢測性能,結果顯示VGG16模型在該數據集取得相對更好的性能。在2019年的Drone-vs-Bird Detection Challenge挑戰賽中,競賽數據引入了更復雜的目標背景、更豐富的光照條件以及更多變的畫面縮放,甚至還有很多低對比度畫面和多種鳥類存在的場景。Nalamati等人[58]采用了類似的遷移學習技術路線,并且對比了Faster R-CNN和SSD算法,其實驗結果表明基于ResNet101網絡的Faster R-CNN算法檢測準確度較好,但是在實時性方面存在局限性。

數據增廣是另外一種緩解模型訓練過擬合問題的常用手段,通過變換現有數據或根據現有數據創建新的合成數據來增加樣本數量。常用的數據增廣方法有圖像幾何變換、翻轉、顏色修改、裁剪、旋轉、添加噪聲、隨機遮擋、透明度混疊、裁剪混疊等。這些方法都可以引入到無人機目標檢測中來緩解少樣本的問題。例如,針對大規模無人機目標檢測數據獲取困難的問題,文獻[59]將鳥和無人機的圖像塊拼接到不同的背景圖片中,最終得到了676534張圖片,進而可以更好地訓練無人機目標檢測模型。

2.2.3 紅外圖像無人機檢測

可見光圖像分辨率高,通常具有較好的紋理和形狀信息,非常利于DCNN模型進行特征學習和表征,進而實現無人機檢測。但是,在霧天或夜間等光照條件差的情況下,可見光傳感器獲得的圖像數據能見度差,難以捕獲無人機目標。相比之下,紅外成像傳感器具有探測距離遠、全天候工作、光照條件適應性強等優勢,但同時也存在分辨率小、對比度差、信噪比低、紋理形狀信息缺乏等缺點,因此面向紅外圖像的無人機目標檢測更具挑戰性。文獻[60]對紅外圖像進行倒置,直方圖均衡,去噪和銳化預處理后,在YOLOv3模型的基礎上引入SPP模塊和GIOU(Generalized Intersection over Union)損失函數,改善了模型對近距離大目標和邊緣目標的檢測能力。文獻[61]使用全卷積神經網絡對紅外圖像進行分割,利用視覺顯著性機制對小目標進行增強,抑制背景和虛警,檢測結果優于典型的紅外目標檢測算法。文獻[62]利用紅外圖像與可見光圖像的互補特性進行多尺度顯著特征融合,使用改進的YOLOv3模型進行檢測,采用注意機制對輔助網絡和骨干網絡的特征信息融合,增強有效信息通道,抑制無效信息通道,提升小目標檢測效果。

當紅外圖像中的無人機目標尺寸非常小時(例如小于9×9像素),需要將無人機目標看作紅外小目標進行檢測?;谑止ぬ卣鞯募t外小目標檢測典型方法包括高斯差分濾波器、局部對比度算法[63]、二維最小均方濾波器[64]、形態學Top-hat變換[65-66]算法、非線性圖像塊處理[67]模型等。針對基于手工特征的方法自適應能力有限的問題,近來有學者將DCNN引入紅外小目標檢測領域。文獻[68]將小目標檢測問題轉化為小目標位置分布分類問題,利用全卷積網絡對紅外小目標進行背景抑制和目標增強,同時獲得目標潛在區域;然后將原始圖像和目標潛在區域同時輸入分類網絡,進而輸出目標檢測結果。在50000張圖片上的訓練和測試結果表明,該方法能夠有效檢測復雜背景和低信噪比甚至存在運動模糊的小目標。但是,該方法仍然存在虛警率較高的問題,這是因為在很多情況下,僅僅依賴靜態外觀特征難以區分真實小目標和背景中的非目標點狀物體。因此,在復雜背景和低信噪比情況下有效利用時空上下文信息進行紅外小目標檢測仍然是一項具有挑戰性的任務[69]。

2.3 面向視頻數據的無人機檢測

面向視頻數據的無人機檢測是無人機檢測的核心任務,一方面是因為基于光電傳感器的無人機探測數據通常為視頻數據(即圖像序列),另一方面在單幀靜態圖像上無法辨識目標時需要借助視頻數據中的上下文時空信息進行目標增強和檢測識別。然而,基于視頻數據實現無人機檢測也存在若干難點。一是視頻序列中的連續幀之間存在大量冗余信息;二是復雜運動模態的背景會對目標檢測造成極大干擾;三是無人機劇烈運動或者傳感器鏡頭失焦會造成目標外觀模糊。因此,面向視頻數據的無人機檢測需要聯合靜態外觀信息和目標特異性運動信息(即空域和時域的上下文信息)進行判別。如前文所述,計算機視覺領域已經提出了相當數量的面向靜態圖像的目標檢測方法,但是面向視頻數據的目標檢測特別是無人機檢測的研究還相對較少,已有的工作主要借助光流和時序特征來表征運動信息,進而更好地實現視頻數據中的目標檢測任務。

2.3.1 基于光流場的視頻目標檢測

視頻運動目標檢測是在視頻的連續圖像序列中將運動物體檢測出來的過程,運動目標檢測方法包括兩幀/多幀差分法、背景抑制法和光流法等,其中光流法對運動信息的表征最為有效。光流的概念通常是指空間中的運動物體在成像平臺上像素運動的瞬時速度(包含速率和方向)。如果圖像中沒有運動目標時,整幅圖像中的光流是連續變化的;如果存在運動目標,那么運動目標形成的光流場與背景的光流場就會存在差異,進而可以將運動目標與背景進行區分。光流場的有效計算方法最初是由Horn和Schunck[70]于1981年提出,該方法假設物體的瞬時灰度值不變且在整個圖像上平滑變化來求解光流。Lueas和Kanade[71]提出了改進光流算法,假設在一個小空間領域上運動矢量保持恒定,然后使用加權最小二乘法估計光流。但是以上方法需要通過迭代的方式計算光流,通常計算量比較大。更重要的是,該類方法對圖像連續幀亮度恒定的假設過于嚴格,因而在復雜光照條件下的光流計算準確度有限。2015年Fischer將光流計算轉化為監督學習問題,提出了基于深度學習的FlowNet[72]方法。如圖9所示,FlowNet模型的輸入為連續的兩幀圖像(支持RGB圖像),網絡分為卷積下采樣和反卷積上采樣兩部分,其中下采樣網絡負責分層提取特征和編碼高級語義信息,反卷積網絡利用高級語義信息解碼和分層提取的特征進行光流預測,借助大量數據的訓練,顯著提升了光流計算性能。后續的FlowNet2.0[73]模型和RAFT[74]模型進一步提高了基于DCNN的光流計算能力。

圖9 FlowNet[72]模型計算光流過程示意圖

鑒于光流場在目標運動信息表征方面存在許多優良特性,可以預期將光流信息引入視頻運動目標檢測將顯著提升視頻目標檢測的性能。一種思路是利用光流信息消除圖像連續幀之間的冗余信息。例如,文獻[75]發現DCNN模型提取的相鄰幀圖像的特征圖通常非常相似,因此利用DCNN模型逐幀處理視頻將消耗大量的非必要計算資源,因此可以在處理視頻時按固定時間間隔僅選取和處理關鍵幀,而非關鍵幀的特征可以由關鍵幀的特征借助光流信息遷移獲得。由于光流計算速度遠高于DCNN特征提取速度,因此該方法大幅減少了視頻處理的計算量,從而提升了視頻目標檢測速度。然而,該方法主要適用于運動物體和背景在相鄰幀之間連續變化的情況。另一種利用光流信息進行視頻運動目標檢測的思路是將光流信息與靜態外觀信息進行疊加,從而進一步增加目標與背景之間的差異性。文獻[76]采用DCNN模型獲得當前幀和參考幀的外觀特征圖,同時采用FlowNet模型預測當前幀和參考幀的光流場,然后將對應幀的外觀特征圖與光流信息疊加為時空混合特征圖,進而根據當前幀和參考幀的時空混合特征圖獲得目標檢測結果。這種方法有效地利用了視頻數據的時空信息,而且有助于解決運動目標模糊的問題,因此顯著提升了目標檢測性能。但是該方法對目標強度和局部信噪比有一定的要求,而且主要適用于離線視頻目標檢測,在實時在線目標檢測方面還需要改進。借助無人機視頻及其標注數據,這些基于光流場的目標檢測模型可以有效遷移到無人機檢測任務中。

2.3.2 基于多幀相關特征的無人機檢測

光流法通常在視頻圖像質量較高時能夠有效表征目標運動信息,但在目標模糊或者極端弱隱的情況下容易失效。針對該問題,Rozantsev等人[77]利用時序維度上的多個連續幀對目標能量進行累積進而達到目標增強的目的。如圖10所示,首先用不同尺度的滑動窗口在圖像序列中獲取時空圖像立方體(Spatio-Temporal Image Cube);然后對每個cube進行運動補償得到時空穩像立方體,這個操作能夠極大地增強候選目標的能量,增強潛在目標的局部信噪比;最后再采用分類器判斷該時空穩像立方體是否包含目標,并通過非極大值抑制技術優化目標檢測結果。該方法與基于光流的方法相比,抗復雜背景干擾和抗目標運動模糊的能力顯著提高。

由于卷積神經網絡訓練過程丟失時間維度信息,無法保證特征的時空一致性的問題,除了上述用運動補償來獲得時空穩定特征的方法外,有研究者提出輸入圖像序列到神經網絡中來提取隱含的運動信息,主要包括Siamese[78]和循環神經網絡(Recurrent Neural Network, RNN)[79]網絡。文獻[80]提出了基于全卷積神經網絡的目標檢測框架,該框架通過使用Siamese網絡來提取時序信息,同時,RNN作為一種時間序列模型也能夠提供時序信息,在循環神經網絡中,當前層的輸出不僅與輸入有關,還取決于前一時刻的輸入,使得神經網絡具有“記憶”功能,RNN主要應用于自然語言處理領域。

面向視頻數據的無人機檢測在實際應用中通常會遇到樹枝、飛鳥等動態的非目標干擾物,單純利用幀間光流信息難以將其與真實目標區分開來。針對該問題,文獻[81]發現無人機作為一種人工設計的飛行器,其飛行動力學具有一定的特異性規律,因此提出一種基于多幀目標形態變化特性和航跡規律的無人機目標檢測方法,能夠一定程度上降低目標檢測虛警率。但是該方法的目標分割過程建立在背景差分法之上,因此對背景運動復雜度以及傳感器運動(包括移動、轉動和擾動)幅度具有較高的要求。

2.4 無人機檢測的難點問題及解決思路

2.4.1 無人機檢測的難點問題

如圖11所示,小型民用無人機目標檢測的難點主要包括目標特性復雜性和背景復雜性兩個方面。

無人機檢測的目標特性復雜性主要體現在:①無人機的型號、顏色、外形、運動特性等復雜多變;②無人機數量較多時,在成像視場中有時會出現相互重疊、遮擋等情況;③無人機距離傳感器較遠時,在成像視場中尺寸較小,缺乏形狀和紋理等信息;④無人機快速機動或者傳感器失焦時會造成目標模糊;⑤無人機運動或者傳感器變焦時會造成目標尺度變化。

無人機檢測的背景復雜性主要體現在:①無人機的天空背景有時會存在云朵、強光等干擾;②無人機飛行高度較低時,其背景會出現建筑物、塔吊、山坳等靜態物體或者樹枝、旗幟、海浪等動態物體;③無人機飛行時背景中會出現飛鳥、風箏等干擾物。

此外,圖像噪聲和成像過程擾動也會顯著降低深度卷積網絡的模式判別正確率。而且,業內目前缺乏大型公開無人機數據集,為高容量模型的訓練和評估造成一定困難。若干已有工作[47-48]雖然通過自建數據集來緩解數據需求矛盾,但是難以用于算法性能的橫向對比。

圖10 運動補償的目標檢測算法流程[77]

圖11 無人機檢測的難點和瓶頸性問題示例圖像

注:第一行:目標小尺寸且缺乏外觀信息[47,55,62];第二行:背景復雜多樣[47-48];第三行:目標尺度異質性問題[53]

Note: Row 1: Targets that are small and weak in appearance information[47,55,62]; Row 2: Targets in complex and diverse backgrounds[47-48];Row 3: Targets that have heterogeneous scales[53])

2.4.2 突破小型無人機檢測瓶頸的若干思路

通過前文對視覺目標檢測文獻的梳理可以發現,當前算法雖然已經初步實現了小型民用無人機的自動化檢測,但是在復雜條件下實現低虛警率、高召回率、強魯棒性的無人機檢測仍然是一項極具挑戰性的任務。針對基于深度卷積神經網絡的小型民用無人機檢測系統存在的瓶頸性問題,未來工作在以下幾個方面值得深入研究。

一是更合理地根據靜態圖像中上下文信息搜索和辨別目標特性復雜的無人機目標。人類在目標發現和識別過程中通常伴隨眼跳現象,即反映眼動規律的注視點會按照無意注意和任務驅動有意注意的規律跳躍性感知語義要素,并通過高級推理快速完成目標價值判定。與通用目標檢測和顯著性檢測等視覺任務不同,小型無人機目標的尺寸、紋理、形狀等信息的特異性較低。因此探究如何利用空間上下文(Spatial Context)信息進行任務驅動的推理式快速搜索以及根據關鍵語義要素實現無人機目標模式判別具有重要的理論及應用意義。

二是更有效地提取和表征目標運動信息,并將其作為關鍵特征用于無人機目標判別。從小型無人機檢測的人類行為實驗結果顯示,在很多復雜場景下即使是人類也很難僅憑小型無人機的靜態表觀特性完成目標檢測任務,而視頻數據的時間上下文(Temporal Context)信息是準確檢測目標的重要基礎。人腦視覺信息加工過程中,同樣需要借助背側通路和腹側通路分別處理運動和靜態表觀信息,并在多個層次上進行橫向信息投射和跨層交互融合。因此,探究無人機目標運動信息提取和表征方法,利用目標視覺運動信息輔助目標定位和識別,進而通過消除相鄰視頻幀的冗余信息增加目標檢測效率,具有重要的研究價值。

三是更好地融合目標靜態表觀特征和運動特征,綜合利用時空上下文信息進行無人機目標檢測。人腦視覺系統中存在并行信息處理的大細胞通路和小細胞通路,在腦區架構方面存在背側通路和腹側通路,分別處理視覺運動和靜態表觀信息,并在多個層次上進行有效融合。因此,綜合利用時空上下文信息進行無人機目標檢測將是未來解決小型無人機目標檢測瓶頸問題的關鍵。

四是建立大規模公開小型無人機數據集。由于目前業內基于深度卷積神經網絡的先進算法大多是基于數據驅動的算法,需要依賴標注數據進行模型訓練、驗證和測試。業界現有的若干數據集在反映多類型復雜背景和多樣化無人機目標方面還存在一定差距,因此建立大規模公開無人機數據集對促進小型民用無人機檢測技術的研究和發展具有重要意義。此外,引入自監督學習、無監督學習等機器學習技術也是緩解無人機數據不足矛盾的一個重要思路。

3 總結與展望

小型民用無人機為人類社會帶來便利的同時也給公共安全造成了較大威脅。面向高準確性和高魯棒性的無人機目標檢測,計算機視覺領域已經提出了相當數量的算法。本文首先介紹了目標檢測領域中基于深度卷積神經網絡的主流算法,然后針對小型無人機檢測任務分別總結了面向靜態圖像和視頻數據的無人機檢測方法,進而歸納了造成無人機檢測困難的主要原因。

業內現有工作雖然已經初步實現了小型民用無人機自動目標檢測,但是在復雜條件下實現低虛警率、高召回率、強魯棒性、低能耗性的無人機檢測仍然是一項極具挑戰性的任務。目標特性復雜性和目標背景復雜性都會對無人機檢測算法的性能造成嚴重影響,圖像噪聲和對抗性擾動也會顯著降低深度卷積網絡的模式判別正確率。此外,業內目前缺乏大型公開無人機數據集,為高容量模型的訓練和評估造成一定困難。雖然有研究人員通過自建數據集來緩解數據需求矛盾,但是難以用于算法性能的橫向對比。針對基于深度卷積神經網絡的小型民用無人機檢測系統存在的瓶頸性問題,預期未來工作將圍繞圖像空間上下文信息提取與表征、視頻時間上下文信息提取與表征、視覺時空上下文信息融合和大規模數據集的建立等方面展開。

值得指出的是,深度卷積神經網絡模型已經在通用目標檢測和物體分類等視覺任務中取得了較好的性能,然而在復雜背景下的低慢小目標檢測任務中依然無法達到人類甚至非人靈長類的識別水平。深度卷積神經網絡雖然符合神經可塑性、非線性整合和分層加工等機制,但仍然是對生物神經系統高度抽象化的模型,關于深度卷積網絡的可解釋性、小樣本泛化性、對抗魯棒性等方面的研究還處于初始階段,人工智能和計算機視覺領域還比較缺乏能夠有效模擬靈長類認知推理、學習記憶、反饋調節等機制的算法和模型。因此,通過借鑒和模擬靈長類視知覺和學習記憶等神經機制提出更符合生物視覺特性的視覺計算模型[82],對于突破小型無人機視覺檢測在可解釋性、魯棒性、可遷移性和低功耗等方面存在的瓶頸性問題具有重要的理論研究價值和良好的應用前景。

[1] WANG J, LIU Y, SONG H. Counter-unmanned aircraft system (s)(C-UAS): State of the art, challenges, and future trends[J]., 2021, 36(3): 4-29.

[2] LI Xiaoping, LEI Songze, ZHANG Boxing, et al. Fast aerial UAV detection using improved inter-frame difference and SVM[C]//, 2019, 1187(3): 032082.

[3] WANG C, WANG T, WANG E, et al. Flying small target detection for anti-UAV based on a Gaussian mixture model in a compressive sensing domain[J]., 2019, 19(9): 2168.

[4] Seidaliyeva U, Akhmetov D, Ilipbayeva L, et al. Real-time and accurate drone detection in a video with a static background[J]., 2020, 20(14): 3856.

[5] ZHAO W, CHEN X, CHENG J, et al. An application of scale-invariant feature transform in iris recognition[C]///12th,, 2013: 219-222.

[6] SHU C, DING X, FANG C. Histogram of the oriented gradient for face recognition[J]., 2011, 16(2): 216-224.

[7] SHEN Y K, CHIU C T. Local binary pattern orientation based face recognition[C]//,, 2015: 1091-1095.

[8] YUAN Xiaofang, WANG Yaonan. Parameter selection of support vector machine for function approximation based on chaos optimization[J]., 2008, 19(1): 191-197.

[9] FENG J, WANG L, Sugiyama M, et al. Boosting and margin theory[J]., 2012, 7(1): 127-133.

[10] WEI L, HONG Z, Gui-Jin H. NMS-based blurred image sub-pixel registration[C]//2011: 98-101.

[11] 羅會蘭, 陳鴻坤. 基于深度學習的目標檢測研究綜述[J]. 電子學報, 2020, 48(6):1230-1239.

LUO Huilan, CHEN Hongkun. Survey of object detection based on deep learning[J]., 2020, 48(6): 1230-1239.

[12] Bosquet B, Mucientes M, Brea V M. STDNet: exploiting high resolution feature maps for small object detection[J]., 2020, 91: 103615.

[13] SUN H, YANG J, SHEN J, et al. TIB-Net: Drone detection network with tiny iterative backbone[J]., 2020, 8: 130697-130707.

[14] LIU L, OUYANG W, WANG X, et al. Deep learning for generic object detection: a survey[J]., 2020, 128(2): 261-318.

[15] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//, 2014: 580-587.

[16] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//, 2012, 25: 1097-1105.

[17] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]., 2015, 37(9): 1904-1916.

[18] Girshick R. Fast R-CNN[C]//, 2015: 1440-1448.

[19] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//, 2014: 818-833.

[20] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL].:1409.1556, 2014.

[21] REN S, HE K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]., 2016, 39(6): 1137-1149.

[22] Bell S, Lawrence Zitnick C, Bala K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks[C]//, 2016: 2874-2883.

[23] LE Q V, Jaitly N, Hinton G E. A simple way to initialize recurrent networks of rectified linear units[J/OL].: 1504.00941, 2015.

[24] DAI J, LI Y, HE K, et al. R-FCN: Object detection via region-based fully convolutional networks[J/OL].:1605.06409, 2016.

[25] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//, 2016: 770-778.

[26] LIN T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//, 2017: 2117-2125.

[27] He K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//, 2017: 2961-2969.

[28] XIE S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//, 2017: 1492-1500.

[29] LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//, 2018: 8759-8768.

[30] LI Y, CHEN Y, WANG N, et al. Scale-aware trident networks for object detection[C]//, 2019: 6054-6063.

[31] DUAN K, XIE L, QI H, et al. Corner proposal network for anchor-free, two-stage object detection[C]//, 2020: 399-416.

[32] Newell A, YANG K, DENG J. Stacked hourglass networks for human pose estimation[C]//, 2016: 483-499.

[33] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//, 2016: 779-788.

[34] Szegedy C, LIU W, JIA Y, et al. Going deeper with convolutions [C]//, 2015: 1-9.

[35] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//, 2016: 21-37.

[36] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]//, 2017: 7263-7271.

[37] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//, 2017: 2980-2988.

[38] Redmon J, Farhadi A. YOLOv3: An incremental improvement[J/OL].: 1804.02767, 2018.

[39] ZHOU P, NI B, GENG C, et al. Scale-transferrable object detection[C]//, 2018: 528-537.

[40] HUANG G, LIU Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//, 2017: 4700-4708.

[41] LAW H, DENG J. Cornernet: Detecting objects as paired keypoints[C]//, 2018: 734-750.

[42] Bochkovskiy A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[J/OL].: 2004.10934, 2020.

[43] Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//, 2020: 213-229.

[44] JIANG N, WANG K, PENG X, et al. Anti-UAV: A large multi-modal benchmark for UAV tracking[J].:2101.08466, 2021.

[45] ZHAO J, WANG G, LI J, et al. The 2nd Anti-UAV Workshop & Challenge: Methods and results[J].:2108.09909, 2021.

[46] Coluccia A, Fascista A, Schumann A, et al. Drone-vs-Bird detection challenge at IEEE AVSS2019[C]//, 2019: 1-7.

[47] WU M, XIE W, SHI X, et al. Real-time drone detection using deep learning approach[C]//, 2018: 22-32.

[48] ZHAO W, ZHANG Q, LI H, et al. Low-altitude UAV detection method based on one-staged detection framework[C]//, 2020: 112-117.

[49] Magoulianitis V, Ataloglou D, Dimou A, et al. Does deep super-resolution enhance UAV detection?[C]//, 2019: 1-6.

[50] Kim J, Kwon Lee J, Mu Lee K. Accurate image super-resolution using very deep convolutional networks[C]//, 2016: 1646-1654.

[51] Craye C, Ardjoune S. Spatio-temporal semantic segmentation for drone detection[C]//, 2019: 1-5.

[52] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]//, 2015: 234-241.

[53] Aker C. End-to-end Networks for Detection and Tracking of Micro Unmanned Aerial Vehicles[D]. Ankara, Turkey: Middle East Technical University, 2018.

[54] 張錫聯, 段海濱. 一種基于Gabor深度學習的無人機目標檢測算法[J].空間控制技術與應用, 2019, 45(4): 38-45.

ZHANG X, DUAN H. A target detection algorithm for UAV based on Gabor deep learning[J]., 2019, 45(4): 38-45.

[55] 馬旗, 朱斌, 張宏偉, 等. 基于優化YOLOv3的低空無人機檢測識別方法[J]. 激光與光電子學進展, 2019, 56(20): 279-286.

MA Q, ZHU B, ZHANG H, et al. Low-Altitude UAV detection and recognition method based on optimized YOLOv3[J]., 2019, 56(20): 279-286.

[56] Cohen M B, Elder S, Musco C, et al. Dimensionality reduction for k-means clustering and low rank approximation[C]//, 2015: 163-172.

[57] Saqib M, Khan S D, Sharma N, et al. A study on detecting drones using deep convolutional neural networks[C]//, 2017: 1-5.

[58] Nalamati M, Kapoor A, Saqib M, et al. Drone detection in long-range surveillance videos[C]//, 2019: 1-6.

[59] Aker C, Kalkan S. Using deep networks for drone detection[C]//, 2017: 1-6.

[60] 張汝榛, 張建林, 祁小平, 等. 復雜場景下的紅外目標檢測[J]. 光電工程, 2020, 47(10): 128-137.

ZHANG R, ZHANG J, QI X, et al. Infrared target detection and recognition in complex scene[J]., 2020, 47(10):128-137.

[61] 劉俊明, 孟衛華. 融合全卷積神經網絡和視覺顯著性的紅外小目標檢測[J]. 光子學報, 2020, 49(7):46-56.

LIU J, MENG W. Infrared small target detection based on fully convolutional neural network and visual saliency[J]., 2020, 49(7): 46-56.

[62] 馬旗, 朱斌, 程正東, 等.基于雙通道的快速低空無人機檢測識別方法[J]. 光學學報, 2019, 39(12): 105-115.

MA Q, ZHU B, CHENG Z, et al. Detection and recognition method of fast low-altitude unmanned aerial vehicle based on dual channel[J]., 2019, 39(12): 105-115.

[63] CUI Z, YANG J, JIANG S, et al. An infrared small target detection algorithm based on high-speed local contrast method[J]., 2016, 76: 474-481.

[64] ZHAO Y, PAN H, DU C, et al. Bilateral two-dimensional least mean square filter for infrared small target detection[J]., 2014, 65: 17-23.

[65] Lange H. Real-time contrasted target detection for IR imagery based on a multiscale top hat filter[C]//, 1999, 3720: 214-226.

[66] BAI X, ZHOU F, ZHANG S, et al. Top-Hat by the reconstruction operation-based infrared small target detection[C]//, 2012: 867-873.

[67] 王剛, 陳永光, 楊鎖昌, 等. 采用圖像塊對比特性的紅外弱小目標檢測[J]. 光學精密工程, 2015, 23(5): 1424-1433.

WANG G, CHEN Y, YANG S, et al. Infrared dim and small target detection using image block contrast characteristics[J]., 2015, 23(5):1424-1433.

[68] 吳雙忱, 左崢嶸. 基于深度卷積神經網絡的紅外小目標檢測[J]. 紅外與毫米波學報, 2019, 38(3): 371-380.

WU S, ZUO Z. Infrared small target detection based on deep convolutional neural network[J]., 2019, 38(3): 371-380.

[69] 李俊宏, 張萍, 王曉瑋, 等. 紅外弱小目標檢測算法綜述[J]. 中國圖象圖形學報, 2020, 25(9): 1739-1753.

LI J, ZHANG P, WANG X, et al. A survey of infrared dim target detection algorithms[J]., 2020, 25(9): 1739-1753.

[70] Horn B K P, Schunck B G. Determining optical flow[C]//, 1981, 281: 319-331.

[71] Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision[C]//, 1981: 674-679.

[72] Dosovitskiy A, Fischer P, Ilg E, et al. Flownet: Learning optical flow with convolutional networks[C]//, 2015: 2758-2766.

[73] Ilg E, Mayer N, Saikia T, et al. FlowNet 2.0: Evolution of optical flow estimation with deep networks[C]//, 2017: 2462-2470.

[74] Teed Z, Deng J. Raft: Recurrent all-pairs field transforms for optical flow[C]//, 2020: 402-419.

[75] ZHU X, XIONG Y, DAI J, et al. Deep feature flow for video recognition[C]//, 2017: 2349-2358.

[76] ZHU X, WANG Y, DAI J, et al. Flow-guided feature aggregation for video object detection[C]//, 2017: 408-417.

[77] Rozantsev A, Lepetit V, Fua P. Flying objects detection from a single moving camera[C]//, 2015: 4128-4136.

[78] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//, 2016: 850-865.

[79] Stewart R, Andriluka M, Ng A Y. End-to-end people detection in crowded scenes[C]//, 2016: 2325-2333.

[80] ZHAO B, ZHAO B, TANG L, et al. Deep spatial-temporal joint feature representation for video object detection[J]., 2018, 18(3): 774.

[81] 劉宜成, 廖鷺川, 張勁, 等. 基于軌跡和形態識別的無人機檢測方法[J]. 計算機工程, 2020, 46(12): 283-289.

LIU Y, LIAO L, ZHANG J, et al. UAV detection method based on trajectory and shape recognition[J]., 2018, 18(3): 774.

[82] 吳飛, 陽春華, 蘭旭光, 等. 人工智能的回顧與展望[J]. 中國科學基金, 2018, 32(3): 243-250.

WU F, YANG C H, LAN X, et al. Retrospect and prospect of artificial intelligence[J]., 2018, 32(3): 243-250.

Civil Drone Detection Based on Deep Convolutional Neural Networks: a Survey

YANG Xin1,2,WANG Gang2,3,LI Liang2,LI Shaogang1,2,GAO Jin4,WANG Yizheng2

(1.,421001,; 2.,,100850,; 3.,102206,; 4.,,100190,)

Vision-based early warnings against civil drones are crucial in the field of public security and are also challenging in visual object detection. Because conventional target detection methods built on handcrafted features are limited in terms of high-level semantic feature representations, methods based on deep convolutional neural networks (DCNNs) have facilitated the main trend in target detection over the past several years. Focusing on the development of civil drone-detection technology based on DCNNs, this paper introduces the advancements in DCNN-based object detection algorithms, including two-stage and one-stage algorithms. Subsequently, existing drone-detection methods developed for still images and videos are summarized separately. In particular, motion information extraction approaches to drone detection are investigated. Furthermore, the main bottlenecks in drone detection are discussed. Finally, potentially promising solutions and future development directions in the drone-detection field are presented.

computer vision, object detection, video object detection, civil drone detection, deep convolutional neural networks

TP391.4

A

1001-8891(2022)11-1119-13

2021-09-03;

2021-10-13.

楊欣(1997-),女,碩士研究生,研究方向為視頻目標檢測。E-mail: yangxinioi@163.com。

王剛(1988-),男,副研究員,研究方向為類腦視覺感知。E-mail: g_wang@foxmail.com。

北京市自然科學基金(4214060);國家自然科學基金(62102443)。

猜你喜歡
卷積特征圖像
離散型隨機變量的分布列與數字特征
基于3D-Winograd的快速卷積算法設計及FPGA實現
淺析p-V圖像中的兩個疑難問題
巧用圖像中的點、線、面解題
有趣的圖像詩
卷積神經網絡的分析與設計
從濾波器理解卷積
抓特征解方程組
不忠誠的四個特征
基于傅里葉域卷積表示的目標跟蹤算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合