?

基于L-FPN的無人機上小目標識別模型輕量化方法

2024-04-18 06:13魏昊坤劉敬一陳金勇楚博策孫裕鑫朱進
航空兵器 2024年1期
關鍵詞:目標檢測無人機

魏昊坤 劉敬一 陳金勇 楚博策 孫裕鑫 朱進

摘 要:????? 由于遙感圖像拍攝的高度和設備不同導致每張圖像的地面采樣間隔(GSD)也不同, 許多小目標往往易被忽略, 遙感圖像中旋轉框目標檢測成為當下研究熱點。 現有的旋轉框檢測算法主要面向通用場景下的多尺度目標檢測, 特征金字塔中特征融合計算操作復雜且耗時, 部署到無人機上的邊緣端設備時面臨很大的挑戰。 因此本文針對該場景下的小目標檢測提出基于L-FPN的無人機上小目標識別模型輕量化方法, 首先依據圖像的GSD信息進行尺度歸一化, 然后去除特征金字塔中冗余的高層特征圖, 最后針對小目標檢測調整錨框的尺寸。 本方法在DOTA數據集上進行訓練驗證, 結果表明本文提出的基于L-FPN的無人機上小目標識別模型輕量化方法在識別精度與傳統模型一致的情況下, 模型參數量較原模型減少2.7%, 模型大小減少28%, 推理速度提升13.24%。

關鍵詞:???? 目標檢測; 特征金字塔; 模型輕量化; 遙感圖像; 無人機

中圖分類號:??? ?TJ760

文獻標識碼:??? A

文章編號:??? ?1673-5048(2024)01-0097-06

DOI: 10.12132/ISSN.1673-5048.2023.0127

0 引? 言

針對無人機對地運動目標檢測場景中, 模型尺寸太大, 難以在無人機上高效運行進行研究。 現有的目標識別算法模型較大、 功耗較高, 經常會在高性能計算機上運行, 但受限于無人機上邊緣端設備的計算能力以及存儲空間, 算法直接移植到邊緣端設備上, 太大的模型會導致運行效果變差, 甚至無法運行。 邊緣端設備無法提供足夠的功率來支持模型的運行。 為了保證一些前沿的目標檢測算法在邊緣端設備上的運行效果, 且能夠應用到無人機對地目標檢測場景中, 本文從結構上對模型進行改進, 但直接改動模型結構, 會導致模型檢測精度降低, 因此還要對此場景中的檢測進行其他針對性的改進, 改進后可以維持原有模型的檢測精度, 同時能夠降低模型參數量和模型大小。

現有降低模型大小的方法有模型剪枝、 模型量化和知識蒸餾, 主要針對多數通用場景, 側重于模型計算上的優化, 而模型結構優化則在特定應用場景下有很好的應用表現。

減少模型尺寸和提高模型推理速度一直是人工智能領域優化模型研究的重要目標。 從計算資源的節向和應用實時性的方面來看,? 這都是必須滿足的要求。 在減少計算復雜度方面, 模型剪枝[1]是目前效果明顯的技術之一。 其通過去除神經網絡中權重較小的參數網絡結構, 同時保持或提升模型精度。 具體來說, 可以將原本設計為密集連接結構的模型轉變為稀疏結構, 只保留對模型影響最大的節點連接。? 另一些方法是通過對模型結構的優化, 來降低模型尺寸大小, 這些方法僅在卷積方式上做出創新, 設計出通用的輕量化網絡模型[2-3], 提高網絡計算效率, 并沒有針對相應的應用場景, 對模型其他冗余部分進行改進, 在模型的Neck部分還有很大的改進空間。 或者是利用模型量化的方法, 將網絡中參數的表示從高精度轉化為低精度, 來減少模型體積大小, 在邊緣端平臺上能夠提高運算速度。 這種壓縮參數的方法雖然能夠達到減小模型大小的目的, 但會改動模型中的參數, 導致模型精度的下降。

在無人機對地運動目標檢測場景中,? 由于目標的尺度較小, 現有的遙感圖像DOTA[4]數據集標注時, 往往會忽略掉其中小目標的標注, 錯過一些重要的信息。 圖1為DOTA數據集的標注信息, 圖2為DOTA數據集中被忽略掉的小目標。

在圖像特征融合方面, 還需要再利用特定的方法對其進行改進。 在目標識別模型中對于特征金字塔部分所做的工作主要是在不斷地改變各個特征層之間的融合方式來提高模型整體的預測精度, 這些方法不僅利用了多尺度上的特征圖, 而且還使這些特征圖之間的融合方式變得復雜, 導致模型參數量增多, 不利于在邊緣端設備上運行。

在面向無人機對地運動目標檢測場景時, 本文從模型結構入手, 提出了輕量化FPN的方法來減少模型參數量。 首先, 輕量化FPN方法針對傳統的目標檢測模型中, 特征融合模塊中冗余的過程進行簡化, 針對運動目標尺度較小的問題, 從各個特征層的感受野入手, 由于高層次的特征感受野太大, 不利于檢測小尺度的物體,? 因此在特征金字塔部分進行特征融合時, 采用一些低層次的特征來對小目標進行檢測識別, 降低特征整層融合的代價, 并且為了讓模型檢測到圖像中更多的小目標, 本文將圖像根據其GSD進行了像素級的調整, 讓圖像都處在同一GSD下, 充分地將更多的小目標的大小放縮到同一尺度上來解決相關的問題。

1 相關工作

現在模型輕量化工作主要是從模型的整體出發, 通過對整體進行壓縮去降低模型參數量, 使模型大小降低, 來減少模型運行所消耗的資源。 另外一種方法是從模型的整體結構入手, 更改網絡結構設計, 設計出符合需求的輕量化模型。

知識蒸餾[5]將大模型壓縮成小模型, 利用大模型中學到的知識來指導小模型的訓練學習, 使得小模型具有大模型的泛化能力, 模型參數量大大減少, 提高了模型計算性能。 利用小模型替代大模型實現推理階段的加速。

在訓練好的模型中, 卷積層和全連接層含有大量參數, 并且大量神經元的激活值趨近于零。 模型剪枝將這些激活值接近零的神經元去除后, 仍可保持同樣的模型檢測性能。 根據模型剪枝的粒度不同可以分為細粒度剪枝和粗粒度剪枝。 細粒度剪枝主要是針對神經元之間的連接權重進行剪枝, 對權重值進行排序, 去掉低于預設閾值的連接, 并且對剪枝后的網絡進行恢復性調整, 與原模型水平保持一致, 繼續去掉低于預設閾值的連接, 直到剪枝的結果滿足預設目標, 終止剪枝操作。

粗粒度剪枝主要是對模型進行通道剪枝, 如基于重要性因子的剪枝法, 該方法通過評估每個通道的有效性, 再配合約束通道數使模型結構本身具有稀疏性。 依據這種方法對模型進行剪枝, 可以獲得無需特定算法支持的精簡模型。

通道剪枝算法是通過判斷通道激活的稀疏性來評估其重要性, 通道稀疏性越高, 越應該被刪除, 利用Batch Norm中的縮放因子, 以重建誤差來指導剪枝。 該算法根據輸入特征圖各通道對輸出特征圖貢獻大小, 對模型進行剪枝。 這種方法可以直接反映進行稀疏通道剪枝后對特征的損失情況。

這些方法在特定場景下的小目標檢測計算中仍有冗余, 增加了不必要的計算過程, 識別精度較低。

2 模型輕量化方法

本文中進行驗證的算法是兩階段的旋轉框檢測算法, 整體的架構如圖3所示。 首先, 針對于原始圖像, 本文利用尺度歸一化的方法將其縮放到統一尺度, 減少了模型訓練的時間, 學習的目標都是統一尺度, 在預測上的壓力也會減少。 在模型特征提取模塊(Backbone), 本文選取了最經典且精度較高的Resnet50來提取圖像特征, 在Resnet50中會得到多個不同尺度上的特征圖, 并且送入到圖像融合模塊(Neck)中進行融合。 本文針對遙感圖像精簡了特征圖融合的計算過程, 將融合好的特征圖送入到預測模塊(Head)中進行圖像的預測。

2.1 圖像尺度歸一化

圖像的預處理是根據遙感圖像的地面采樣間隔(GSD)來進行的。 現有的用來做目標檢測的遙感圖像都是由不同的衛星或者航空飛機所采集, 其地面采樣間隔是不同的, 這就直接導致圖像中同類物體的大小尺度不同, 在進行模型訓練時, 要學習同類物體不同尺度上的特征信息, 增加了訓練負擔, 因此在進行圖像訓練之前要進行尺度歸一化。 尺度歸一化能夠將過大的目標縮小,

將過小的目標放大到較大尺度, 模型不必去學習過多的特征知識導致過擬合, 且能夠獲得更多的目標細節。 首先, 在GSD的選擇上, 本文選擇一個目標檢測數據集中在特定尺度下圖像最多的尺度。 根據選擇出來的GSD信息, 依據每張圖像各自的GSD來進行縮放, 計算出每張圖片需要進行縮放的倍數scale:

式中: standard為選定的GSD標準。

獲得每個圖像的縮放尺度之后, 利用最近鄰差值的方法對圖像進行縮放:

W=w×scale(2)

H=h×scale(3)

式中: w,h分別為原始圖像的尺寸大??; W,H分別為縮放后的圖像尺寸。

當圖像進行縮放時, 新產生的像素點的值會與周邊的像素值保持一致:

式中: M×N為原始圖像的大小, (x, y)為每個像素的坐標; P×Q為目標圖像的大小, (i, j)為每個像素的坐標。

本研究首先對數據集所有圖像進行解析, 提取其GSD信息, 并進行統計分析, 得出圖像數量最多的GSD值主流范圍。 隨后, 進一步比對該范圍內各GSD值對應的樣本量, 選擇樣本規模最大的某個GSD值作為數據集圖像特征的代表性指標。 此代表性GSD值被指定為圖像統一縮放的標準, 目的是使模型學習能更好匹配數據集整體分布特點, 從而提升目標檢測任務效果。 由于這一GSD尺度下采集的圖像樣本規模最大, 代表的是數據集主流場景, 所以采用這一標準進行模型訓練, 可以使訓練出的模型更好地適應數據集的整體特征和檢測任務需求, 充分挖掘數據集主要場景信息。

2.2 輕量化FPN設計

特征金字塔(FPN)[6]是目標檢測任務中建立金字塔結構網絡的經典網絡解決方案之一, FPN能夠在復雜的自然場景圖像中, 有效提升模型針對各尺度目標的檢測性能。 由于特征提取網絡輸出的特征圖是分層的, 高層次的特征圖具有更低的分辨率, 包含更多大尺度目標的信息, 更適合檢測大尺度目標, 低層次的特征圖具有更高的分辨率, 更適合檢測更多小尺度的目標。 在遙感圖像中移動目標的尺度相對較小, 高層次的特征圖做出的貢獻較少。 YOLOF[7]這項研究指出FPN的成功在于其分而治之的策略去優化目標檢測任務, 而不是多尺度上的特征融合。 然而在標準的模型上, FPN應用所有層次上的特征圖去檢測是非常冗余且低效的。

為解決這個問題, 本文對于FPN的結構進行調整, 針對遙感圖像中小目標檢測的任務場景去除了Resnet50輸出的上邊C4和C5兩個高層次的特征層, 這兩個特征層包含著更多大尺度目標的特征信息。 利用剩下的兩個低層次的特征圖C2和C3, 并且讓其繼續進行特征融合, 將融合后的特征圖P2, P3和P4送入旋轉框檢測部分用于小目標的檢測。 圖4是輕量化FPN的詳細結構。

2.3 低層次特征圖錨框設計

在去除冗余的特征圖和融合操作之后, 整個訓練完成的模型的參數量和大小會減少。 特征金字塔輸出的特征圖相較于原始模型會減少兩個特征層, 并且存在與預測模塊(Head)耦合不完整導致預測精度下降的問題, 這是由于圖像經過尺度歸一化處理后, 圖像中的目標大小也會進行相應的變動, 預測框難以準確地回歸預測到物體的位置信息。

本文所用算法是基于錨框模型的, 利用錨框來進行目標的定位和分類, 物體大小會隨之變化, 因此針對于無人機所拍攝的航空圖像以及遙感圖像中錨框的大小也要做出適當的調整。 以前錨框的設計是針對于多尺度目標的檢測, 現在移除C4和C5兩個上層特征層之后, 針對剩下的C2和C3進行回歸預測。 錨框大小設計的合理性能夠直接影響模型的檢測精度, 合理的錨框大小能夠很好的對目標進行包圍。 在錨框生成的階段錨框的大小受兩個因素的影響, 分別是錨框的基本大小和錨框的移動步長:

area=s×stride(6)

式中: area為錨框的大??; s為錨框的基本大??; stride為錨框移動的步長。

3 實? 驗

本文在DOTA數據集上開展相關實驗評估本文所提出的方法, 選取的算法是目前遙感圖像識別中精度排名前三的旋轉框檢測算法: Rotated FaterR-CNN[8], RoI Transformer[9]和Oriented R-CNN[10]。

3.1 數 據 集

DOTA是一個公開的, 專門用于尺度變化較大的遙感圖像檢測數據集, 由于遙感圖像中物體排列方向的任意性以及拍攝角度額不同, 此數據集中圖像標注信息全部采用旋轉框標注, 主要面向于旋轉框目標檢測。 DOTA數據集包含2 806張遙感圖片和188 282個標注信息。 其標注的目標當中有15個類別, 包含遙感圖像中常見的大型車輛、 游泳池、 飛機場、 小型車輛等。

由于本文主要針對于遙感圖像中的小目標檢測, 因此, 本文將只關注DOTA數據集中大型車輛和小型車輛兩個類別, 并將這兩個類別的注釋都提取出來, 訓練集和驗證集都采用進行縮放過后的圖像。

3.2 實驗設計

3.2.1 尺度歸一化設計細節

首先將DOTA數據集中每張圖像的GSD信息進行統計, 從GSD的分布中, 選擇該GSD中位數值作了代表, 是因為其能很好地反映出該數據集在該應用場景下的典型和最為廣泛的GSD水平。 0.72這個中位數從統計學的角度來看, 能夠有效代表DOTA數據集整體的GSD的值分布情況。 用選取的0.72作為縮放標準, 圖 5是圖像進行尺度歸一化之后的結果, 小尺度目標的大小都被調整到了合適的尺寸。 那些容易被忽略的小目標就會有更多的細節特征被學習到, 更多被忽略不易被識別的小目標被識別, 提高模型的識別能力。

3.2.2 訓練參數設置

在此次訓練中, 采用單卡RTX3090進行圖像訓練, batchsize=2, 在mmrotate[11]平臺上進行訓練。 整個網絡用GSD算法進行優化, 學習率設置為0.005。 針對于原始的圖像大小, 為了便于模型進行讀取訓練, 本文將圖像進行了切割, 切割成1 024×1 024大小的小圖像, 每張圖像切割時小圖像之間的重疊間距是200像素, 每個模型訓練都是12個epoch, 設置式(6)中錨框的基本大小s=10。

3.2.3 實驗結果

在原始的DOTA數據集上, 本文將小型車輛和大型車輛的注釋信息提取出來, 將其標注信息也根據圖像的尺度變化進行處理, 讓點能夠包圍住車輛, 對3個模型中的FPN部分進行了更改, 并且對其精度推理速度等參數進行了測試, 還將原始的模型訓練原始的DOTA數據作為baseline。

表1是3個模型經過本文所提出的方法改進之后的與原始的模型進行的對比, 所用的數據集是沒有經過縮放的圖像, 能夠看出, 經過本文的尺度歸一化以及輕量化處理, 模型針對于小目標的識別精度較原始模型有所提高。 實驗結果也表明本文的輕量化方法是有效的, 特征金字塔中, 高層次的特征圖對于小目標的檢測所起到的作用是很低的。

本文不僅從模型預測精度也從推理速度、 模型大小方面進行了對比, 所有的模型訓練集和驗證集是經過尺度歸一化處理后的圖像, 實驗結果如表2所示, 本文所改進的模型在檢測精度(mAP)上與原模型在同一水平, 在模型大小和模型尺寸比原模型精簡下降, 在參數方面, RoI Transformer模型下降了1.11 M, Oriented R-CNN模型下降了1.12 M, 模型大小都減少了68.8 MB, 模型推理速度都分別增加了2.9 FPS和1.8 FPS。

本文改進后的模型比原始的模型能夠識別更多的小尺度目標, 還能檢測到更多被忽略沒有被注釋的目標信息。 在實驗結果的對比中本文選取了4個不同的場景驗證改進模型的識別能力, 如圖6~9所示。 圖中左側為DOTA未縮放原始數據集的檢測效果, 右側為縮放后的數據集在進行改進后的模型上的檢測效果。

圖6展示了建筑密集的場景下小尺度目標的檢測結果, 小型車輛等小目標與較大的房屋建筑相比極易被忽略, 這些小型車輛在DOTA數據集中尺度更小, 在原始的檢測模型中有許多小型車輛未被檢測到, 而利用本文改進的模型能夠檢測更多的小型車輛目標。 圖7展示了在野外無過多建筑物, 車輛較為稀疏空曠場景的結果對比, 與周邊的道路和平原相比車輛目標屬于小尺度目標改進后的模型檢測到的目標更多。 圖8~9分別展示了車輛稀疏與車輛密集的場景下的檢測結果對比。 多場景實驗結果對比表明本文改進的模型的檢測效果不受稀疏或密集場景的干擾, 在大尺度目標周邊的小尺度目標同樣能檢測到, 且相較于原模型檢測能力更高。

4 結? 論

本文主要解決遙感圖像中小目標不易被檢測到, 并且解決訓練好的通用模型過大, 難以在嵌入式平臺上部署的問題。 針對遙感圖像中主流的旋轉框檢測算法進行改進, 模型整體性能取得了很大的提升。 將遙感圖像先進行尺度歸一化處理, 能夠解決小目標在這類檢測任務中被忽略的問題, 能夠選出最適合當前檢測場景的地面采樣間隔。 將模型進行輕量化處理之后模型的檢測精度相較與原來的模型相同, 并且模型大小, 參數量和推理速度有很大的提升。

在后續的工作中, 將會在錨框大小的選擇上將利用機器學習算法對其進行改進, 選擇出更合適的錨框大小。 同時會將訓練好的模型部署在無人機上, 去進行模型的實施推理。

參考文獻:

[1] Liu Z, Li J G, Shen Z Q, et al. Learning Efficient Convolutional Networks through Network Slimming[C]∥IEEE International Conference on Computer Vision (ICCV), 2017.

[2] 俞偉聰, 郭顯久, 劉鈺發, 等. 基于輕量化深度學習Mobilenet-SSD網絡模型的海珍品檢測方法[J]. 大連海洋大學學報, 2021, 36(2): 340-346.

Yu Weicong, Guo Xianjiu, Liu Yufa, et al. Detection Method of High Value Marine Food Organisms Based on Lightweight Deep Learning Mobilenet-SSD Network[J]. Journal of Dalian Ocean University, 2021, 36(2): 340-346.(in Chinese)

[3] Qin Z, Zhang Z N, Zhang S Q, et al. Merging-and-Evolution Networks for Mobile Vision Applications[J]. IEEE Access, 2018, 6: 31294-31306.

[4] Xia G S, Bai X, Ding J, et al. DOTA: A Large-Scale Dataset for Object Detection in Aerial Images[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 3974-3983.

[5] 邵仁榮, 劉宇昂, 張偉, 等. 深度學習中知識蒸餾研究綜述[J]. 計算機學報, 2022, 45(8): 1638-1673.

Shao Renrong, Liu Yuang, Zhang Wei, et al. A Survey of Know-ledge Distillation in Deep Learning[J]. Chinese Journal of Compu-ters, 2022, 45(8): 1638-1673.(in Chinese)

[6] Lin T Y, Dollar P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 936-944.

[7] Chen Q, Wang Y M, Yang T, et al. You only Look One-Level Feature[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13034-13043.

[8] Yang X, Yan J C, Feng Z M, et al. R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object[C]∥ AAAI Conference on Artificial Intelligence, 2021, 35(4): 3163-3171.

[9] Ding J, Xue N, Long Y, et al. Learning RoI Transformer for Oriented Object Detection in Aerial Images[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.

[10] Xie X X, Cheng G, Wang J B, et al. Oriented R-CNN for Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2021.

[11] Zhou Y, Yang X, Zhang G F, et al. MMRotate: A Rotated Object Detection Benchmark Using PyTorch[C]∥30th ACM International Conference on Multimedia, 2022.

A Lightweight Method for Small Object Detection Models on

Unmanned Aerial Vehicles Based on L-FPN

Abstract:Oriented object detection in remote sensing images is a current research hotspot. Due to the varying heights and equipment used in capturing remote sensing images, the ground sampling distance (GSD) of each image also varies, causing many small objects to be easily overlooked. Existing rotated object detection algorithms are mainly aimed at multi-scale object detection in general scenarios. The feature pyramid network (FPN) has complex and time-consuming fusion computations, which still faces great challenges when deployed on edge devices like UAVs. Therefore, this paper proposes a lightweight method for small object detection in UAVs based on L-FPN. First, normalize the scale according to the GSD information of the image. Second, remove redundant high-level feature maps in the FPN. Finally, adjust the anchor box sizes for small object detection. The method is trained and validated on the DOTA dataset.Results show that compared to the traditional models, the proposed L-FPN-based lightweight method for small object detection in UAVs achieves consistent recognition accuracy, with 2.7% fewer model parameters, 28% smaller model size, and 13.24% faster inference speed.

Key words: object detection; feature pyramid; model lightweight; remote sensing images; UAV

猜你喜歡
目標檢測無人機
視頻中目標檢測算法研究
行為識別中的人體運動目標檢測方法
高職院校新開設無人機專業的探討
一種適用于輸電線路跨線牽引無人機的飛行方案設計
移動機器人圖像目標識別
淺析無人機技術在我國的發展前景
基于背景建模法的運動目標檢測
基于P3電位的目標檢測研究
一種改進的峰均功率比判源方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合