一種融合注意力機制的無人機目標分割算法

2023-12-30 14:26王傳云姜福宏王靜靜

空間控制技術與應用 2023年6期

王傳云, 姜福宏, 王田, 高騫, 王靜靜

1. 沈陽航空航天大學, 沈陽 110136 2. 北京航空航天大學, 北京 100191 3. 中國電子科技集團公司電子科學研究院, 北京 100041

0 引言

近年來,低空空域無人機在民用消費領域呈現爆發式增長,在人們的日常生產生活中發揮了重要作用,廣泛應用于公安消防、搶險救災、森林防火、電力巡檢、搜索救援和地質勘測等領域[1].與此同時,一些非法入侵的無人機也給民用航空、軍事禁區、安防監控和個人隱私等帶來了極大的威脅和挑戰.因此,如何應對非法無人機的入侵成為廣大研究學者關注的問題[2].

由于低空空域無人機的尺寸小,通常需要使用高分辨率的圖像來進行檢測和跟蹤.同時,由于無人機飛行靈活性強,其運動軌跡通常比較復雜,在實際應用中,低空空域無人機的尺寸小、速度快,常常難以準確地檢測和識別.為此,需要開發高效、精準的無人機探測算法.同時,由于現有的無人機檢測算法往往需要依賴大數據集,這也給無人機反制任務的實施帶來了一定的困難.

另外,低空空域無人機的靈活性意味著它們可以很容易地避開常規的防衛設施進行攻擊.因此,在反制任務中需要采用多種技術手段,將無人機檢測、追蹤、控制和打擊等環節進行有效地整合,以提高反制效率.

針對該問題,部分研究人員提出了不同的方法來檢測入侵的無人機,如利用激光雷達來檢測非法無人機,雖然能夠達到較高的精度,但其成本過高,不易于區分無人機和鳥類,難以大規模普及[2].還有研究人員提出采用音頻的方法檢測無人機,利用無人機飛行過程中發出的聲音作為檢測信號,但是這種方法常常會受到其他噪音的干擾,且檢測距離有限,并不是一種很好的檢測方法[3].由于無人機需要操作員操控,其與無人機通信的射頻信號能夠作為檢測無人機的依據,但是犯罪分子通常篡改其通信頻率,使得這種方法難以進行檢測[4].

基于計算機視覺的無人機檢測方法更受到廣大研究學者的青睞,這種檢測方法最為直觀,且能夠結合紅外攝像機實現全天時、全天候的無間斷工作,且成本相對低廉,易于大規模普及[5].張錫聯等[6]利用基于Gabor濾波器的深度卷積神經網絡對無人機進行檢測,將Gabor濾波器集成到普通卷積核來完成無人機檢測任務,實驗結果表明,所建立的深度神經網絡模型能取得較高的精度和準確率.目標檢測算法能夠很出色地完成無人機檢測任務,但是其通常只給出包圍框,并不能具體地追蹤無人機的形狀,并且通常會出現漏檢情況[5].本文利用基于深度學習的目標分割算法,能夠更清晰地描繪出無人機的輪廓,且檢測過程是逐像素進行的,不易于出現漏檢現象.

目標分割算法大體可以分為兩種類型,一種是基于局部掩碼的兩階段目標分割算法,這類算法首先對輸入到網絡的圖片進行檢測,然后再根據檢測的結果進行進一步的逐像素分割,輸出最終的掩膜,通常情況下,這類算法精度較高,小目標效果較好,但是最終性能的好壞取決于檢測的效果,計算量也通常較大[7],這類算法比較典型的代表有Mask-R-CNN[8]、Cascade-R-CNN[9]等算法.而另外一種算法是基于全局掩碼的單階段目標分割算法,這類算法首先使用卷積神經網絡將輸入圖像映射到一組特征圖中.在特征圖上對每個位置的特征向量進行預測,得到物體的類別、邊界框位置以及掩膜表示,接著對掩膜進行解碼,得到物體的像素級別的掩膜信息,這類算法在精度表現上不如兩階段目標分割算法,但是具有模型運行速度快、性能優越等優點.比較典型的算法有YOLACT算法[10]和SOLO算法[11].

無人機探測技術和空間控制技術可以相結合來共同完成對非法無人機的反制任務.具體而言,無人機探測技術可以通過多種手段對無人機進行偵測和追蹤,包括雷達、紅外感應器和視覺監測等,以及利用智能算法進行數據分析和處理,進而判定是否有無人機侵入[12].而空間控制技術則可以通過建立空中障礙物控制區域等手段,限制無人機的飛行范圍,或者借助干擾信號或發射干擾彈等方式,使得無人機無法正常運作.將這兩項技術相結合,可以有效地防范無人機的侵入.首先,可以使用無人機探測技術來監控周圍的空域,如果有非法無人機進入被保護區域,則可以使用空間控制技術來干擾其飛行或者將其制服,從而保證區域的安全性.本文利用目標分割算法將非法無人機探測出來,為后續空間控制技術對其反制打下基礎.

針對低空空域無人機的特點給視覺檢測非法入侵無人機帶來了困難.為了解決無人機分割任務實時性的高要求,本文從基于目標分割算法的角度出發,對實時性較高的YOLACT算法進行了改進.該算法使用RepVGG[13]作為主干網絡,增強了特征提取的能力.RepVGG是一種輕量級網絡,采用卷積工作流設計,并引入跳躍連接來減少網絡深度,大大減少了參數數量和計算量,同時保證了特征提取的能力.此外,CBAM注意力機制[14]抑制無關信息的干擾,使神經網絡更注重有用信息的提取,加強整體網絡的分割性能.最終,本文提出了一種融合注意力機制的低空無人機目標分割算法,稱為Rep-YOLACT.

實驗結果表明,所提出的Rep-YOLACT算法能夠顯著超過基線算法的檢測性能.該算法使用RepVGG網絡結構進行特征提取,引入CBAM注意力機制對特征圖進行篩選和調整,減輕了網絡的負擔,提高了實時性并提升了分割性能.

1 YOLACT算法結構

隨著無人機技術的飛速發展,無人機在各個領域有了廣泛的應用,其中無人機視覺技術在實際應用中發揮著重要作用.與傳統物體檢測不同,無人機目標分割任務需要同時對圖像中的每一個目標進行識別并分割出其邊界,這就對算法的精度、魯棒性和實時性提出了更高的要求.然而由于無人機通常在整體視頻畫面中占據非常小的尺寸,這為目標分割帶來了很大的困難.同時,無人機還具有飛行靈活的特點,這就對目標分割算法的實時性和分割精度提出了更高的要求.

針對上述問題,本文選擇了YOLACT算法作為基礎算法.YOLACT是一種實時目標分割算法,具有分割精度高、實時性好等優點,更適用于工業化部署于邊緣設備.該算法將目標分割任務分成了兩個并行的任務.第一個分支使用全卷積網絡[15]生成最初形態的掩膜.第二個分支在目標檢測的基礎上添加了一個額外的檢測頭,這個檢測頭會針對每一個錨框都生成一個掩膜系數,最終通過將兩個分支的結果進行線性組合來得到最終的掩膜.

YOLACT算法的網絡結構如圖1所示.該算法主要由特征提取模塊、掩碼生成模塊和預測模塊組成.其中,特征提取模塊是YOLACT算法的核心組成部分,它主要由ResNet[16]和特征金字塔(FPN)[17]構成.這一部分主要作用是從輸入圖像中提取特征,同時輸出3個大小不同的特征圖P3、P4和P5,以及對P5進行上采樣得到P6和P7.這樣做的目的是為了更深層次、更全面地提取有用的信息,為后續的目標分割和檢測任務打下基礎.接下來,將目標分割過程分成兩個分支進行處理.其中,第一個分支將P3特征層輸入到掩碼生成模塊進行初步的掩碼生成,而另一個分支則是將P3～P7的特征圖送入預測模塊進行掩碼系數生成.最終,兩個分支的結果經過線性組合,并對其進行裁剪,最終輸出分割結果.

圖1 YOLACT算法網絡結構Fig.1 YOLACT algorithm network structure

2 Rep-YOLACT算法結構

YOLACT算法在實際應用中已經取得了不俗的結果,但對于一些高要求的場景,例如無人機分割任務,其表現還有所欠缺.雖然Mask R-CNN等算法在目標分割任務中具有較高的精度,但由于其速度較慢且難以部署,因此基于一階段全卷積網絡結構的YOLACT算法提出,旨在提供更快速、高效的目標分割解決方案.但是,該算法的目標分割效果可能受到諸如目標尺寸過小或目標停留時間短等問題的影響,據此可能需要進一步調整算法,改進其目標分割精度.因此,本文對YOLACT算法進行改進,以提高其在無人機分割任務中的精度.具體來說,將YOLACT原始網絡中的ResNet主干特征提取網絡更換為RepVGG網絡,并添加CBAM注意力模塊來優化信息提取.RepVGG是一種全新的卷積神經網絡結構,可顯著減少模型的計算量和參數量,同時具有更好的性能表現.CBAM注意力模塊可以根據每個位置上不同通道的重要性進行自適應的權重加權,從而提高網絡的性能.改進后的網絡結構如圖2所示.首先使用改進的RepVGG主干特征提取模塊提取特征,然后通過CBAM注意力模塊進一步增強特征提取,并輸出3個不同大小的特征圖P3、P4和P5,通過上采樣得到P6和P7.隨后使用掩碼生成模塊和裁剪模塊進行處理,最終輸出分割結果.

圖2 本文提出的Rep-YOLACT網絡結構Fig.2 The proposed Rep-YOLACT network structure

所提出的Rep-YOLACT算法相比于原始網絡在無人機分割任務中表現更加出色.通過使用RepVGG作為特征提取網絡,可以提取到更強的特征信息,從而提高模型的檢測.同時,將CBAM注意力模塊添加至特征提取層之后,可以更好地利用特征信息,提高模型的精度和穩定性.Rep-YOLACT算法具有更高的可靠性,為無人機分割任務等高要求場景的應用提供更加穩定和準確的解決方案.

2.1 主干網絡的改進

目前大多數目標分割算法特征提取網絡使用的均是ResNet系列,雖然ResNet網絡能夠達到很好的特征提取能力,但由于其引入了多分支結構,帶來了極大的內存消耗,而各個分支的結果又需要保存,直到最終融合的時候才能釋放,針對ResNet以上的問題,本文在YOLACT算法中引入了RepVGG主干特征提取網絡,其網絡結構是由一系列3×3卷積所構成,現有的硬件和計算庫對3×3卷積有著更深度的優化和支持,相比于其它卷積核,3×3卷積核計算的密度更高、更加有效果,速度上也能夠大幅度提升,而且能夠明顯地節省顯存.RepVGG引入了殘差分支,可以有效地避免梯度消失的情況,多分支結構對體系規范施加了約束,ResNet網絡中將卷積層組合成殘差塊,每個殘差塊最后的卷積層必須產生相同形狀的張量,這極大地限制了靈活性,多分支拓撲也限制了通道剪枝的應用,而RepVGG網絡中允許根據需求自由地配置每個卷積層,同時也支持通道修剪,從而能夠獲得更好的性能和效率平衡,ResNet和RepVGG結構對比如圖3所示.

圖3 ResNet和RepVGG對比Fig.3 Comparison of ResNet and RepVGG

RepVGG同樣也采用了ResNet的殘差結構,但是與之不同的是,RepVGG在每一層均引入了殘差結構,如圖3(b)所示,這樣的結構對訓練雖然有幫助,能夠更好地提取到特征信息,但對推理階段就會降低推理速度和內存利用率,RepVGG通過重參數化來解決這個問題,在推理階段采用如圖3(c)所示的結構,其融合過程主要分為兩類融合過程.一類是卷積層和BN層的融合,另一類是3×3卷積、1×1卷積和恒等連接的融合.

首先介紹卷積層和BN層的融合,RepVGG中大量運用卷積層+批量標準化,正常的卷積層公式為

Conv(x)=W(x)+b

(1)

而批量標準化的公式為

(2)

將卷積結果代入到式(2)中可以得到

(3)

進一步簡化為

(4)

這其實得到了一個卷積層,令

(5)

(6)

最終能夠得到融合結果為

BN(Conv(x))=Wfused(x)+Bfused

(7)

而3×3卷積、1×1卷積和恒等連接融合過程就是先將1×1卷積和恒等連接兩者均填充為3×3卷積的形式,再與3×3卷積相加運算,最后和特征圖進行卷積運算,通過此過程便可將BN層、1×1卷積、恒等連接和3×3卷積融合為一體,最終實現重參數化過程,將多分支網絡訓練高性能和單分支網絡推理高速度的特性完美結合,極大地增強了其特征信息提取能力.

RepVGG網絡包含很多不同的網絡規格,為了能夠更好地和YOLACT網絡相結合,考慮到進一步的模型復雜度和精度均衡,本文采用的網絡規格是RepVGG-B,其體系結構如表1所示,其中4×64a代表著階段2具有4個層,每個層具有64a通道.本文采用的是RepVGG-B系列中RepVGG-B1g2,為了進一步提升主干網絡的提取能力,將寬度因子設置成[8,8,8,64],每一階段的數量依然是[1,4,6,16,1],通過實驗發現改進后的RepVGG能夠更好地融合到YOLACT網絡中發揮作用.

表1 RepVGG-B體系結構Tab.1 RepVGG-B architecture

2.2 CBAM注意力機制

在神經網絡中,注意力機制(attention mechanism)是指在計算資源有限的條件下,使得神經網絡更加注重某個重要的任務,同時也是解決信息超載問題的一種資源分配方案,一般情況下,神經網絡模型的參數越多則模型的表達能力越強,同時,所儲存的信息量也越大,但是會引起信息過載的問題,一個解決方案就是引入注意力機制,在眾多的輸入信息中,讓網絡更加注重關鍵的信息,抑制其他的干擾信息,這樣一來,就可以很好地解決信息過載的問題,并提高任務處理的準確性和效率.

在本文中,為了更充分地利用主干特征提取網絡所提取的特征信息,在主干網絡輸出的3個有效特征層的末端添加了CBAM注意力機制.CBAM注意力機制包含了通道注意模塊和空間注意力模塊,兩者共同加強網絡的特征提取能力.通道注意模塊可以自適應地調整通道權重,以提高特征圖中不同通道的相關性.空間注意力模塊可以根據像素點之間的空間位置關系,學習每個位置的重要性,以抑制不相關的信息.兩個模塊共同作用,可以使神經網絡更加準確地提取重要特征,從而提高模型性能.

CBAM注意力機制在神經網絡中的應用已經獲得廣泛研究,其在不同領域的應用效果也得到了證明.在本文所使用的無人機分割任務中,引入CBAM注意力機制可以有效地提高模型的性能和魯棒性,為后續的無人機分割應用提供更加精準和可靠的解決方案.經過實驗結果表明,在引入CBAM注意力機制后,可以在不增加額外計算量的情況下,顯著提高模型的性能和準確率.

為了更充分地利用主干特征提取網絡所提取的特征信息,在主干網絡輸出的3個有效特征層的末端添加了CBAM注意力機制.CBAM注意力機制是一種極其有效的模塊,其中包含了通道注意模塊和空間注意力模塊,兩者共同加強網絡的特征提取能力,其網絡結構如圖4所示.

圖4 CBAM注意力機制Fig.4 CBAM attention mechanism

在通道注意力模塊中,使用了全局平均池化和全局最大池化兩種不同的方式來利用不一樣的信息,首先,特征圖F輸入到網絡中后,分別經過全局最大池化和全局平均池化得到兩個C×1×1的通道描述,然后分別將其送入權值共享的多層感知器(multilayer perception),輸出的特征經過激活處理后生成通道注意力權重Mc,最終將Mc與原始輸入的特征圖相乘,生成通道特征圖F′,其具體計算公式如下:

Mc(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))

(8)

在空間注意力模塊中,將通道注意力模塊輸出的F′輸入到空間注意力模塊中,分別進行全局平均池化和全局通道池化后,獲得了兩個1×H×W的通道描述,并將其拼接在一起,隨后將其輸入到一個7×7的卷積層,經過Sigmoid激活函數處理后拿到空間注意力權重Ms,最后通過將輸入特征圖F′與得到的空間注意力權重Ms相乘得到最終的輸出特征,其具體計算公式如下所示:

Ms(F)=σ(f7×7[AvgPool(F);(MaxPool(F)]))

(9)

其中:AvgPool表示全局平均池化,求取每個通道的像素的平均值;MaxPool表示全局最大池化,保留每個通道的特征圖的像素最大值;σ表示Sigmoid激活函數.

3 實驗設置與結果分析

3.1 實驗數據集

本文首先在無人機數據集FL-drones上進行了實驗,其是由ROZANTSEV等[18]所提出的一個記錄無人機飛行的數據集,該數據集包含室內和室外場景,飛行的無人機形狀也隨時發生變化,同時極端的照明和背景的復雜性也給無人機分割任務帶來了挑戰性,由于其所提供的是無人機視頻文件,首先通過提取視頻幀來生成用于無人機目標分割任務的圖像,視頻幀與幀之間有著極大的相似性,于是每8幀提取一張視頻幀,最終共提取4 872張視頻圖像,通過Python腳本將標簽文件轉換成適用于目標分割算法的COCO數據集[19]標簽格式,按照訓練集和測試集8∶2的比例進行劃分,其中3 897張用于訓練,975張用于測試.

本文進行實驗的另一個無人機數據集是由LIU等[20]發布的MUD無人機分割數據集,該數據集包含無人機在室內場景、城市場景和野外場景的飛行視頻,本文的研究方法是基于目標分割算法進行的,選取了其公布的無人機分割視頻圖像作為實驗的訓練集和測試集,共包含9 049張圖片,按照訓練集和測試集8∶2的比例進行數據集劃分,7 239張用于訓練,1 810張用于測試,通過Python腳本將Mask遮罩文件轉換成適用于目標分割算法的COCO數據集標簽格式,最終完成對數據集的訓練和測試.

3.2 實驗環境與訓練參數

在本次實驗中,服務器的操作系統為Ubuntu18.04LTS,GPU為NVIDIA GeForce RTX 2080Ti,CPU為Intel(R) Core(TM) i7-9700k@3.6GHZ,16G內存空間,深度學習框架PyTorch版本為1.7.0,CUDA版本為CUDA10.2,運行環境為Python3.7.

在本次實驗中,分別將所提出算法Rep-YOLACT在FL-drones數據集和MUD數據集上進行了300迭代次數和100迭代次數的訓練.一般來說,學習率越高,模型的收斂速度越快,但也可能導致模型無法穩定地收斂或過擬合.如果學習率過低,則模型需要更長時間才能收斂,但它更有可能達到一個良好的局部最小值點.然而,過低的學習率也可能會導致模型無法收斂或陷入局部最小化.最常見的方法是使用學習率衰減方法,如Steps、Cosine等,以獲得更好的結果,本文采用Cosine學習率下降方式,在網絡訓練的早期能夠保持較大的學習率,使得網絡更快地收斂,從而提高模型的泛化能力.初始學習率為2×10-3,使用的是SGD優化器,根據學習率的大小,設置權值衰減參數為5×10-4時,能夠避免過擬合現象的發生且得到更好的性能.

3.3 評價指標

本文的數據集是按照COCO數據集的格式制作而成的,因此選用預測框和目標分割掩膜的平均精度AP(average precision)和平均召回率AR(average recall)來評判算法模型的好壞,其中AP選用的為交并比為0.5時的平均測量值,AR選用的是交并比在0.5～0.95之間的所有召回率的平均值AR.精確率P和召回率R可以通過公式(10)～(11)計算

(10)

(11)

式中,TP表示算法模型識別為無人機且與真實標注相匹配的樣本數量,FP表示算法模型預測為無人機且與真實標注不匹配的樣本數,FN表示算法模型預測為無背景但真實標注為無人機的樣本數量.

以P為縱軸,R為橫軸繪制出P-R曲線,曲線與坐標軸所圍的面積即為平均精度AP.以R為縱軸,IoU為橫軸繪制出召回-IoU曲線,曲線與坐標軸所圍的面積的兩倍即為平均召回率AR.

3.4 實驗結果分析

3.4.1 網絡分割效果分析

為了更加直觀地顯示出改進后網絡的性能,從測試集中挑選出具有代表性的無人機圖片來測試網絡模型的分割效果,如圖5所示.圖片右上角所顯示的數值代表著所分割出無人機的置信度,由于本文引用了RepVGG特征主干網絡,能夠更好地提取出無人機的特征信息,添加的CBAM注意力模塊也能夠使得整體網絡更加關注于無人機存在區域,同時抑制其它無關信息的干擾,從而進一步使得網絡整體的性能有著明顯提升,可以直觀地看出所提出的Rep-YOLACT算法相比于YOLACT算法表現出更好的檢測效果.

在網絡訓練過程中損失值是否收斂及其最終的大小能夠衡量出一個深度神經網絡的好壞,損失函數主要用來計算輸出值和輸入值之間的差距.如圖6所示,分別繪制了FL-drones數據集和MUD數據集在訓練過程中損失值下降情況的曲線圖.從圖6中可見,當訓練100個迭代次數時,FL-drones數據集上的模型并未收斂,而到達300迭代次數時,模型才收斂.相比之下,在MUD數據集上,模型已經在100個迭代次數時完全收斂,算法模型表現出了很好的收斂能力,從而驗證了所提出算法的有效性.

圖6 FL-drones數據集和MUD數據集訓練損失曲線Fig.6 Training loss curves of FL-drones dataset and MUD dataset

3.4.2 消融實驗

為了驗證不同改進點對于整體網絡算法的提升效果,首先在FL-drones數據集上進行消融實驗,以此來驗證每個改進點的有效性,消融實驗結果如表2所示.

表2 FL-drones數據集消融實驗結果Tab.2 Results of ablation experiment results on FL-drones dataset

從表2中可以看出,與YOLACT算法相比,引入RepVGG主干特征提取網絡雖然在預測框AR方面略有下降,但在掩膜AR方面卻有顯著提升,提高了6.7%的精度.這說明RepVGG網絡的引入對于無人機目標分割任務有著明顯的效果.

同時,CBAM注意力機制的引入雖然在預測框AP方面略有下降,但在掩膜AP、掩膜AR和預測框AR方面的精度均有所提升,分別提高了0.5%、6.7%和6.6%.這是由于CBAM注意力機制能夠使得網絡更好地學習無人機的特征,從而進一步提高性能.

當RepVGG和CBAM兩者結合引入時,雖然預測框AP有所下降,但掩膜AP和掩膜AR分別提高了0.3%和11.7%,這表明所提出的算法在無人機目標分割任務中具有出色的性能,證實了算法的可行性和有效性.

在MUD無人機數據集上也進行了消融實驗,MUD數據集的無人機在整體畫面中所占尺寸更小,更具有挑戰性,其結果如表3所示.

表3 MUD數據集消融實驗結果Tab.3 Results of ablation experiments on MUD dataset

從表3中可以看出,對比于YOLACT算法,當引入RepVGG網絡后,在掩膜AP上提升了6.2%,說明了新引入的主干特征提取網絡能夠更好地提取出無人機的特征.當CBAM單獨引入時,可以發現在掩膜AP上提升了1.7%,在預測框AP和預測框AR上僅有微小的降低,說明了CBAM引入的必要性.當RepVGG和CBAM同時引入時,雖然在預測框AP指標上降低了0.1%,但在掩膜AP和預測框AR上提升了2.3%和5%,這進一步論證了所添加模塊的有效性.

3.4.3 對比實驗

為了驗證新的算法在目標分割效果上的改進效果,在FL-drones數據集和MUD數據集上進行了訓練.其中,選擇了幾種常見的目標分割算法進行對比,包括YOLACT算法、Mask R-CNN算法、SOLO算法、Cascade Mask R-CNN算法.這些算法各有優點,其中Mask R-CNN算法作為R-CNN系列算法中最具代表性的兩階段目標分割算法,在精度上表現出色.SOLO算法則是單階段目標分割算法的代表,具有較快的速度.而Cascade Mask R-CNN算法是在Mask R-CNN算法的基礎上進一步改進而提出的目標分割算法,因此在精度方面表現良好.針對不同的算法,在兩個數據集上進行了對比實驗,其實驗結果如表4～5所示.

表4 FL-drones數據集對比實驗結果Tab.4 Comparative experimental results of FL-drones dataset

從表4中可以看出,本文所提出的算法Rep-YOLACT對比于基線YOLACT算法在掩膜AP、掩膜AR評價指標上分別高出0.3%和11.7%,說明了改進算法的有效性.對比于Mask R-CNN算法,雖然在掩膜AP和預測框AP上不及Mask R-CNN算法,但是在預測框AP高出Mask R-CNN算法0.3%.對比于SOLO算法在掩膜AP上高出10.2%,SOLO算法在預測框AP和預測框AR上表現為0,這可能是由于分割的目標太小,該算法不能很好地預測.對比于Cascade Mask R-CNN算法,本文提出的算法在掩膜AP上不及Cascade Mask R-CNN算法,但在掩膜AR和預測框AP上分別高出8.4%和5%,綜合以上對比實驗結果,進一步驗證了所提出算法在無人機分割任務上的有效性.

從表5可以看出,本文所提出的算法Rep-YOLACT對比于基線YOLACT算法在掩膜AP和預測框AR評價指標上分別高出1.7%和5%,提升了基線算法的性能.對比于Mask R-CNN算法雖然在掩膜AP、掩膜AR和預測框AP上不及Mask R-CNN算法,但在掩膜AR上卻高出Mask R-CNN算法20%.對比于SOLO算法,Rep-YOLACT算法雖然在掩膜AP50上不及SOLO算法,但SOLO算法在預測框AP和預測框AR上均為0,這可能是由于MUD數據集中無人機尺寸過小,難以檢測,說明了SOLO算法在MUD數據集上并不能表現出良好的性能.對比于Cascade Mask R-CNN算法,Rep-YOLACT在預測框AR上高出5%.綜合以上對比實驗結果,說明了Rep-YOLACT算法的有效性.

4 結論

本文針對YOLACT算法在無人機目標分割任務上的精度不足問題,進一步改進YOLACT算法,利用RepVGG網絡改進原始網絡的ResNet主干特征提取網絡,提升整體網絡特征提取的能力,并引入CBAM注意力機制增強特征信息的表達能力,使網絡更關注有用的特征信息,從而提升算法的分割精度,提出Rep-YOLACT算法.通過實驗結果表明,所提出的Rep-YOLACT算法在兩個無人機分割數據集上表現良好,優于YOLACT算法及其他主流目標分割算法,在FL-drones數據集上分別高出基線方法0.3%和11.7%,而在MUD數據集上分別高出基線方法1.7%和5%.Rep-YOLACT算法的整體網絡結構的參數量似乎并不足夠小,如何在保證分割精度不變的情況下,盡可能降低模型的參數量是下一步的研究工作.