?

位置敏感Transformer 航拍圖像目標檢測模型

2024-04-08 07:30李大湘辛嘉妮
光學精密工程 2024年5期
關鍵詞:航拍注意力編碼

李大湘,辛嘉妮,劉 穎

(西安郵電大學 通信與信息工程學院,陜西 西安 710121)

1 引言

隨著飛行器與通信技術的快速發展,無人機作為一種新型的拍攝工具,憑借獨特的拍攝視角,以及攜帶方便與成本低的特點,在民用和軍事方面得到了廣泛的應用[1]。面向無人機航拍影像,為了提高用戶對航拍內容的觀看效率,基于機器學習技術設計無人機航拍圖像目標檢測算法已經成為當今計算視覺領域中的一個新興研究分支[2]。

近年來,深度學習作為無人機航拍圖像目標檢測的主流方法,根據是否使用錨框相關算法可分為兩大類?;阱^框(Anchor-based)的代表性算法有Faster R-CNN[3],Cascade R-CNN[4],SSD[5]與YOLOv4[6]等。針對航拍圖像目標檢測的應用需求,Yang 等[7]提出了用于小目標檢測的QueryDet 網絡,設計了一種簡單有效的級聯稀疏查詢機制,有效地利用航拍圖像高分辨率特征,提高對小目標的檢測性能。Li 等[8]提出了一種Oriented RepPoints 空中目標檢測方法,通過引入靈活的自適應點,能夠捕捉任意方向實例的幾何信息。Liang 等[9]提出了一個稱之為DEA-Net 的動態錨點增強網絡,該網絡實現了基于錨的單元和無錨單元之間的交互式樣本篩選,以生成合格樣本,提高檢測小目標的性能。這類基于錨框的方法雖然在航拍圖像目標檢測中取得了較好的性能,但在檢測過程中要依賴于人工預先設置的錨框信息,不僅會增加模型超參的數量(如:錨框的數量、尺寸與高寬比等),還會增大參數調試的復雜性,即無法通過反向傳播進行端到端訓練,通常需要人為仔細地調整錨框參數才能獲得最佳的檢測性能。

在無錨框方法的研究上,Law 等[10]提出的CornerNet 算法先預測目標左上角和右下角點,再對角點分類組合形成檢測框。Tian 等[11]提出的FCOS 算法針對每個圖像像素進行預測,得到該像素到檢測框的4 個邊框的距離,最終輸出整體目標的檢測框。Dai 等[12]提出了ACE 空中旋轉目標檢測方法,使用四邊形邊界框來定位任意方向對象和動態采樣方法,有助于關鍵點的準確定位。除了這些方法之外,近兩年來,由于Transformer 在計算機視覺領域的廣泛應用,Carion 等[13]將它整合到目標檢測基線中,設計了一種DETR 的目標檢測算法,該算法不需要任何的人工干預,可以用端到端的方式進行訓練。Zhu等[14]提出了一種Deformable DETR 的目標檢測算法,設計了可變形注意力模塊,該模塊只注意參考點周圍的某些采樣點,減少了計算量。Li等[15]通過引入帶有噪聲的真實邊界框作為查詢向量,通過去噪技術解決二分圖匹配的不穩定性問題,加速模型訓練?;赥ransformer 的方法框架簡潔,不用手工設置錨框及非極大值抑制(Non-Maximum Suppression,NMS),泛化能力強,建模圖像的全局依賴關系,有效利用上下文信息,減少由于錨框設置不合理導致的問題,但需要一些特殊的損失函數提高算法穩定性,小目標的檢測性能相對較差。

綜上所述,Transformer 框架下的DETR 雖然具有思想簡潔、結構清晰與無NMS 操作等優點,但因無人機拍攝距離過遠,小目標過多,現有模型很難取得理想的檢測效果。所以,本文設計了一種位置敏感Transformer 目標檢測(Position Sensitive Transformer Object Detection,PSTOD)模型。該模型在DETR 的基礎上,設計了一個基于位置通道嵌入三維注意力(Position Channel Embedding 3D Attention,PCE3DA)的多尺度特征融合(Multi-Scale Feature Fusion,MSFF)模塊,且將該模塊連接在骨干網絡和Transformer 之間,讓網絡更好地獲取具有多層級上下文信息的特征,以增強模型對小目標的檢測能力;此外,設計了位置敏感自注意力(Position Sensitive Self-Attention,PSSA)機制,用它替代原模型中的自注意力(Self Attention,SA),即使用可學習的相對位置敏感編碼信息,幫助Transformer 模型中的編-解器獲得更準確的目標位置信息,以提高無人機航拍圖像目標的定位能力及檢測精度。

2 模型設計

2.1 PS-TOD 模型架構

圖1 是本文設計的PS-TOD 模型示意圖,它主要由CNN 主干網絡、MSFF 模塊、位置敏感Transformer 編-解碼器與集合匹配預測模塊4 個組件構成。對于待檢測圖像,首先使用CNN 主干網絡與MSFF 模塊,獲得圖像的跨層融合多尺度特征;然后,采用帶有PSSA 機制的Transformer 編碼器,對圖像的多尺度特征連同其相對位置信息一起進行學習,獲得圖像的位置敏感編碼特征;其次,在Transformer 解碼器中再通過多頭SA 及交叉注意力將對象查詢向量轉換為解碼輸出;最后,利用兩個不同的FFN 對解碼器輸出的每個特征進行預測,分別得到它們所對應的框坐標和類標簽,以獲得最終的目標預測集合。

2.2 跨層多尺度特征融合模塊

小目標數量多作為無人機航拍圖像目標檢測的主要挑戰。DETR 算法[13]因只使用ResNet最后一個卷積模塊conv5_x 的輸出作為特征表示,即特征圖譜經32 倍下采樣后,導致原圖中的小目標消失在特征圖中從而造成漏檢。所以,本文設計了PCE3DA,且基于它構造了一個自底向上的跨層MSFF 模塊,在提高小目標檢測精度的同時還可兼顧整個算法對多尺度目標的檢測能力。

設IMG 表示任意一幅訓練圖像,將它送入主干網絡ResNet-50,conv3_x,conv4_x 與conv5_x輸出的特征圖譜分別記作F3,F4與F5,且使用1×1 卷積將它們的通道數均調整為256,分別記為。為了將它們的信息融合起來而得到圖像的多尺度特征表示,設計了一個自下而上的跨層特征融合方案,即圖1 中的MSFF模塊。

2.2.1 多尺度特征融合

圖2 PCE3DA 跨層特征圖譜融合方案示意圖Fig.2 Fusion scheme of PCE3DA cross layer feature map

將融合后的Fa通過設計的PCE3DA 進行加權得到加權特征,即:

為了保留特征的初始信息,使用殘差連接將自適應增強的特征與其原始特征分別相加。因此,獲得增強特征,分別為:

最后,分別通過3×3 卷積層后再進行特征相加融合,獲得跨層融合特征,即:

2.2.2 PCE3DA 原理

為了更好地提取無人機圖像的特征信息,傳統方法是分別對特征圖譜實施空間與通道注意力,這類方法導致參數與計算量大,且不能同時考慮空間維度和通道維度之間的相互關系,導致空間和通道信息相互孤立。如圖3 所示,在坐標注意力[16]的啟發下設計了PCE3DA,式(2)中采用PCE3DA 進行注意力加權,即:將空間位置信息嵌入到通道注意力中,這樣可以同時利用空間和通道維度的相互依賴信息,得到三維注意力權值,用于加強感興趣區域的特征表示,以幫助模型聚焦有助于目標精準定位的局部細節信息。

圖3 位置通道嵌入三維注意力流程Fig.3 Flow chart of position channel embedding 3D attention

設F∈RC×H×W表示任意輸入PCE3DA 的特征圖譜,其中C,H與W分別表示F的通道數、高度與寬度。首先,使用一個X軸的1×1 卷積對F中的數據沿水平方向進行聚合,在捕獲X軸長距離依賴關系的同時,也可以保留垂直方向的位置信息,該過程可表示為:

其中zX∈RC×H×1表示卷積結果。然后,將zX送入1×1 卷積,且經過歸一化與激活函數處理,得到:

其中:σ表示Swish 非線性激活函數,BN()表示批量歸一化,fX∈RC/r×H×1表示垂直方向上對空間信息進行編碼的中間特征圖。這里,r表示壓縮通道比例(實驗中r=4);隨后,利用另外一個1×1 卷積,將fX變換并與輸入特征圖F的通道數相同,記為:

其中gX∈RC×H×1表示通道擴充結果。

同理,采用另一個Y軸的1×1 卷積對F中的數據沿垂直方向進行聚合,在捕獲Y軸長距離依賴關系的同時,也可以保留水平方向的位置信息,該過程可表示為:

綜上所述,將gX與gY作廣播機制加法⊕,再經Sigmoid 函數處理之后,記為:

其中β∈RC×H×W,表示三維注意力權值。最后,將權值β與輸入F點乘?,從而得到經PCE3DA加權之后特征,記為:

2.3 位置敏感Transformer 編-解碼器

對于目標檢測任務,位置信息極為重要。在DETR 算法中,采用絕對位置編碼感知圖像的全局上下文信息,但在目標檢測中圖像的分辨率通常很高,目標特征更多依賴圖像的局部信息。因此,本文設計了一種PSSA 機制,且以此構造位置敏感Transformer 編-解碼器,以提高模型對位置信息的敏感能力,從而提升目標檢測精度。

2.3.1 PSSA 機制

為了利用每個元素在序列中的位置信息,提高它在計算機視覺任務中的表達能力,傳統的做法是將絕對位置編碼AP=[p1;p2;…;pN]嵌入到序列X的每個元素xi(如ViT[17])中,即:

其中pi∈Rdx表示第i個元素的絕對位置編碼向量,通??刹捎谜嘞液瘮涤嬎愕玫剑?7]。最后,絕對位置編碼SA 可表示為:

在目標檢測任務中,像素之間的相對位置信息對于提高模型對目標的定位能力尤其重要。如圖4 所示,這里利用序列各元素之間的相對位置信息,設計了一種PSSA 機制,即通過嵌入可學習的相對位置編碼向量到SA 機制中,利用圖像中各特征之間的相對位置關系,提高模型的位置敏感能力,從而實現目標的精確定位。

圖4 位置敏感自注意力機制Fig.4 Position sensitive self-attention mechanism

設Fms∈RC×H×W表示經MSFF 模塊得到的多尺度特征圖譜,其中C,H與W分別表示通道數、高度與寬度。首先,對Fms中每個位置(h,w)沿通道維度的C個數據抽取出來,由此可將Fms轉化成一個由N(這里N=W×H)個元素組成序列,記為S={sn(h,w)|n=1,2,…,N},其中sn(h,w)∈R1×C表示第n個元素,h∈[1,H]與w∈[1,W]分別表示它在Fms中對應的空間位置坐標;然后,為了建模sn(h,w)相對于S中任意其他元素sm(h,w)之間的相對位置關系,定義一個索引函數E(n,m)與3 個相對位置編碼向量,記為:

綜上所述,在輸入序列S中,根據兩個元素sn(h,w)與sm(h,w)之間的城區距離,為了學習它們之間的相對位置依賴關系,需額外考慮3 個與位置相關的向量,即在Query,Key 與Value 上分別加入相對位置編碼構成PSSA,記為:

其中:WQ,WK,WV∈RC×C'分別表示與Q,K,V相對應的且可學習的變換矩陣。C與C'分別表示輸入、輸出特征的維度,則對于S中的任意一個元素sn(h,w)∈R1×C,其PSSA 編碼過程可表示為:

其中:zn∈R1×C'表示PSSA 編碼輸出,ωnm表示使用縮放點積與SoftMax 計算的歸一化權重[18]。

2.3.2 位置敏感Transformer 編-解碼器

基于PSSA 機制,在DETR 算法[13]的啟發下,設計的位置敏感Transformer 編-解器如圖5所示,它主要由編碼器與解碼器兩部分組成。為了使模型在性能與參數量之間得到一個很好的平衡,如圖5 左側所示,編碼器由6 個相同的層構成,且每個層主要由多頭PSSA 與MLP 組成。對于輸入序列S,將其寫成矩陣形式S0∈RN×C,記為:

圖5 編-解碼器結構Fig.5 Encoder-decoder structure

編碼器重構特征的過程可表示為:

其中:LN(),MLP()與mhPSSA()分別表示層歸一化、多層感知機與多頭PSSA 等操作,Y∈RN×C表示第6 層編碼器的輸出,即對序列S的最終編碼結果。mhPSSA 作為PSSA 的擴展,即并行地運行K個不同的PSSA 操作,每個注意力頭將分別關注輸入信息的不同部分,并將它們的輸出串聯起來作為最終的編碼結果:

為了使S經mhPSSA 編碼之后,其輸入S與輸出Y保持相同的維度,每個PSSA 輸出的維度C'設置為輸入元素維度的K分之一,即。為了與DERT 模型進行公平比較,本文模型中的C也與其一樣也設置為256,且為了保證K能整除C,K只能取2,4,8,16 等整數。隨著注意力頭數的增加,模型計算復雜度會增加,所以本文后續實驗中K取4,一則可以在計算效率和性能之間達到折中;二則由于設計的模型面向無人機航拍圖像目標檢測,mhPSSA 機制中的每個頭將從不同的角度感知目標的不同部分。這些目標按4 個角度觀察也可滿足要求,例如車的車頭和車尾、人體的頭部和身體等,mhPSSA將從4 個角度感知這些目標,且捕捉它們之間的語義關系而提取圖像的全局特征,從而能夠提高目標檢測的準確率。

MLP 包括兩個FC 層,FC1 層將輸入擴大為原來的4 倍,由于殘差連接的存在,FC2 輸出層再恢復原始維度,相應的計算過程為:

其中:W1表示將特征從256 維投影到1 024 維的變換矩陣,W2表示從1 024 維投影回256 維變換矩陣,b1與b2均表示偏置向量。

如圖5 右側所示,解碼器類似于Transformer的標準結構,由6 個完全相同的層構成,每個層主要由多頭SA、多頭交叉SA 與MLP 組成。設B0=[b1;b2;…;bM]表示由M個元素組成的目標查詢(object query)序列,其中bi∈R1×C表示B中的第i個元素,對應的是圖像中第i個預測目標的特征向量。編碼器的第一個階段是先采用多頭SA 對進行編碼,然后,將輸出與編碼器的輸出Y相結合,再采用多頭交叉SA 進行編碼;最后,經類似于編碼器的MLP 處理,得到最終的解碼特征。該過程描述為:

其中mhCSA()表示由K個交叉自注意力CSA()組成的多頭交叉自注意力,即:

2.4 集合預測與損失函數

對于目標查詢序列B0=[b1;b2;…;bM],經解碼器輸出得到,再將它們輸入兩個不同的FFN,以分別預測每個解碼特征所對應目標的類別標簽與邊框,得到預測結果記為,相應訓練圖像所有真實目標的類別clsi與邊框boxi的Ground Truth集合記為,實驗中M設置為200,通常遠遠大于圖像中真實目標的數量J。在Transformer 這種端到端的目標檢測框架中,因不需要NMS 后處理,訓練時就得在U與二個集合之間尋找最佳匹配[13]。為了便于用匈牙利算法[19]在集合U與中找到最佳匹配,首先,將集合U填充M-J個?(表示無目標),使它與元素數量相等,對于U中的每個ui=(clsi,boxi),其中clsi是目標類標簽(可能是?),boxi∈[0,1]4是其相對于圖像尺寸的中心坐標及高度與寬度;然后,要在集合U與之間尋找最佳匹配,就是要尋找中M個元素的最佳置換σ∈ξM,使式(25)所示的匹配損失最小,即:

其中αt與γ為超參數,分別表示第clsi類的權重與衰減參數,αt=0.25,γ=2。

3 實驗結果及分析

3.1 數據集與實驗方法

為了驗證本文提出的PS-TOD 模型的有效性,本文使用公開的VisDrone 數據集[20]進行對比實驗。該數據集由天津大學AISKYEYE 團隊使用無人機在不同條件下低空拍攝獲得,包含1 360×765 和960×540 像素兩種圖像尺寸,涵蓋各種天氣和光照條件下日常生活中的各種場景,其中訓練集6 471 張圖像、測試集3 190 張圖像和驗證集548 張圖像。數據集的圖像中包括行人、人、汽車、公交車、自行車、卡車、三輪車、雨棚三輪車、面包車以及摩托車等十類目標。

本文采用COCO 數據集中的評價指標來評價模型性能[23],主要比較AP,AP50,AP75,APS,APM與APL,其中AP 表示在0.5 至0.95 步長0.05 共10 個交并比閾值下的平均檢測精度的平均值,AP50與AP75分別表示交并比閾值為0.5 和0.75 時的平均檢測精度,APS,APM與APL分別表示對測試集中的小目標(像素數量<322)、中等目標(322<像素數量<962)與大目標(像素數量>962)的平均檢測精度。實驗平臺采用Ubuntu18.04 操作系統,GPU 為NVIDIA TITANX×4,CPU 為Intel(R)Core(TM)Xeon E5-2640,內存為128 GB,編程語言為Python3.8,torch 版本為1.7.0。模型訓練過程中使用AdamW 優化器來優化模型,批大?。˙atch_size)為16,初始學習率為2×10-4,權值衰減為1×10-4,整個模型訓練500 個Epoch,為了加快訓練收斂速度,在初始訓練時使用官方提供的Transformer 預訓練模型。所有實驗均以VisDrone 的訓練集與驗證集來完成模型的訓練,然后對測試集中的所有圖像進行目標檢測,統計相應評價指標。

3.2 消融實驗

3.2.1 模塊消融實驗

為了驗證PS-TOD 模型中兩個關鍵模塊(即基于PCE3DA 的MSFF 模塊與基于PSSA 的Transformer 編-解碼模塊)以及修改損失函數在無人機航拍圖像目標檢測中的有效性,基于Vis-Drone 數據集進行了消融實驗,且在相同實驗條件下,再與基線模型DETR[13]進行對比,消融實驗結果如表1 所示。其中“Param”表示模型的參數量,單位取“兆(M)”,即當不同模塊被嵌入到“基線”模型之后,以對比改進模型參數量的變化。

表1 VisDrone 測試集上的消融實驗結果Tab.1 Ablation experiment results on VisDrone test set(%)

由表1 實驗結果可見,在基線模型的基礎上,分別只應用MSFF,PSSA 的Transformer 編-解碼或修改損失函數等部件,其AP 分別提高了1.7%,1.1%或1.3%,這說明本文所設計的兩個模塊與修改損失函數在無人機圖像目標檢測任務中是有效的;若同時使用其中任意二個模塊,較之只使用一個模塊檢測精度可得到進一步提高,當同時使用三個部件時,AP 達到最高28.8%。通過對各類目標的檢測結果分析可知,MSFF 模塊通過類似于殘差連接的方式進行多尺度特征融合,且在PCE3DA 的驅動下,模型在具備多尺度特征提取能力的基礎上,還可更好地保留小目標的特征信息;設計的PSSA 機制,較之原始的自注意力更能獲取像素之間的相對位置關系,在位置敏感的作用下,模型可以更好地關注圖像中的重點區域,并且在修改損失函數的約束下,不僅緩解了數據集類別以及正負樣本不平衡帶來的問題,同時使損失函數更加關注邊界框的位置,更能優化模型的訓練而提高無人機圖像中目標的檢測精度。雖然設計的模塊可提高目標檢測精度,但是會帶來參數量的增加,例如:當MSFF 或PSSA 模塊分別被引入之后,較之“基線”模型,會帶來2.4M 或3.3M 參數量的增加,同時引入MSFF 與PSSA 模塊時,模型參數量達到42.51M。

3.2.2 PCE3DA 機制消融實驗

為了驗證設計的PCE3DA 機制在MSFF 模塊中的有效性,設計了7 組消融實驗,即在A 組(Baseline DETR[13)的基礎上,B,C,D,E 與F 組分別表示基于-SE(SENet[24]的SE 通道注意力),-SA(BAM[25]的空間注意力),-CA(文獻[16]的坐標注意力),-CBAM(文獻[26]的通道和空間注意力)與-PCE3DA(本文設計的)等5 種不同的注意力機制,對骨干網絡的最后一層特征圖譜進行注意力加權;G 組表示在F 組的基礎上還采用MSFF 進行多尺度特征融合,再結合Baseline 模型中編-解碼器與檢測頭。消融實驗結果如表2所示。

表2 不同注意力機制及使用多尺度特征的實驗結果Tab.2 Experimental results for different attention mechanisms and using multi-scale features(%)

由表2 可知,骨干網絡的特征圖譜只要經注意力加權之后,不同尺寸目標的檢測精度均可得到提高,且空間注意力要優于通道注意力??傮w上,本文設計的PCE3DA(即F 組)優于其他4 種注意力,并且經MSFF 模塊對多層級特征圖譜進行融合,檢測效果達到最優(即G 組)。這主要得益于PCE3DA 能將特征更好地聚焦在感興趣區域,抑制無關信息,同時增強了特征表達與空間位置結構信息,融合后的特征圖具有更豐富的語義信息和幾何細節信息。

3.2.3 PSSA 機制消融實驗

在Transformer 編-解碼中,為了驗證設計的PSSA 機制的性能,與文獻[27]及[28]計算相對位置編碼的方法進行了消融實驗,實驗結果如表3 所示??梢钥闯?,在計算注意力得分時考慮兩個元素之間的相對位置,即引入相對位置編碼是必要的。本文所提相對位置計算方法最大程度提升了模型的AP 值,其主要原因是PSSA 通過定義的索引函數映射相對位置,使得到的相對位置編碼信息更加準確,模型能夠獲得一定的平移不變性,更加符合目標檢測任務的需求。

表3 不同相對位置計算方法的實驗結果Tab.3 Experimental results of different relative position calculation methods(%)

3.3 綜合對比實驗

為了進一步驗證本文提出的PS-TOD 模型在無人機航拍圖像目標檢測任務中的性能,在VisDrone 數據集上與經典及先進的目標檢測模型進行實驗對比,包括Cascade R-CNN[4]、YOLOv8[32]與PVTv2[33]等方法。為了對比的公平性,每種算法除了其專門參數沿用原文之外,學習率、批大小與Epoches 等超參設置均與3.1 節相同,實驗結果如表4 所示。

表4 不同算法在VisDrone 測試集上的性能對比Tab.4 Performance comparison of different algorithms on VisDrone test set(%)

根據表4 的數據,本文設計的PS-TOD 模型在無人機航拍圖像目標檢測中表現良好,其AP50,AP75與AP 值分別達到了51.8%,28.3%與28.8%。與YOLOv8(速度最快)相比,雖然FPS有所下降,但YOLOv8 識別物體位置的精準性差,而PS-TOD 的檢測精度獲得了2.3% 的提升;與具有相近檢測精度的QueryDet 模型相比,PS-TOD 的準確率AP 和檢測速度FPS 都高于該模型。但AP75較之低了0.5,原因是AP75指標對于目標檢測框的重合率要求更高,PS-TOD 模型作為一種無錨框引導的檢測方法,在目標定位精確方面可能稍弱于專門針對小目標優化的QueryDet 模型,但與其他模型相比,PS-TOD 在AP75方面仍然具有明顯的優勢,即PS-TOD 能較好地平衡檢測精度與檢測速度。綜上所述,通過對比實驗結果可知,在設計的PS-TOD 模型中,首先基于PCE3DA 機制構造自底向上的跨層MSFF 模塊,可讓網絡更好地獲取圖像的上下文多尺度特征,在提高小目標檢測精度的同時,還可兼顧多尺度目標的檢測能力;然后,基于PSSA 機制設計的Transformer 編碼器,可使用像素之間的相對位置信息,增強模型的位置敏感能力,提高了無人機航拍圖像目標的定位能力及檢測精度。

為了觀察PS-TOD 模型在無人機航拍圖像目標檢測中的具體表現,圖6 為可視化VisDrone測試集中各種情況下具有代表性的圖像檢測結果??梢钥闯?,本文模型在光照變化、復雜背景、高空拍攝視角、目標稀疏、目標密集與運動模糊等6 種不同的環境下,均能夠檢測出大多數的目標,說明設計的PS-TOD 模型對無人航拍機圖像在各種情況下都具有非常優秀的檢測能力,足以應對生活中發生的各類實際情況。

圖6 PS-TOD 在VisDrone 測試集上的部分檢測結果Fig.6 Partial detection results of PS-TOD on VisDrone test set

除此之外,為了進一步觀察PS-TOD 對每類目標的檢測性能,分別統計了它與基線模型DETR[13]對VisDrone 測試集中每類目標的具體檢測性能,如表5 所示。對比結果表明,PS-TOD 總體上改善了單類目標的平均檢測精度,尤其是對于小目標,提升效果非常明顯。在小目標比例較多的行人、人、自行車與摩托車這四類目標中,相較于基線模型檢測精度分別提升了4.2%,3.7%,2.6%與3.5%;另外,在目標尺寸相對較大的類別(如汽車類和卡車類)中同樣也有明顯優勢,如汽車類別別的AP 高達64.3%。綜合各種尺寸目標的檢測效果,充分驗證了本文提出的PS-TOD模型在提高小目標檢測精度的同時,還可兼顧其他尺度的目標檢測能力。

表5 VisDrone 測試集中不同類別實驗結果Tab.5 Experimental results of different categories on VisDrone test set(%)

為了更深入觀察基線DETR[13]模型與PSTOD 在小目標檢測中的性能優劣,在VisDrone測試集中選取小目標存在的夜晚和白天等兩種場景,如圖7 所示,可視化得到4 組檢測效果的對比圖。通過對比圖7(a)與圖7(e)、圖7(b)與圖7(f),在夜間較低照明的狀態下,基線模型由于背景噪聲信號的影響漏檢了圖7(a)中站立在高架橋上的行人與圖7(b)中大量行人,而PS-TOD通過注意力機制,減少背景影響、增加感興趣目標的特征信息,成功檢測到基線漏檢的行人;對比圖7(c)與圖7(g)、圖7(d)與圖7(h)可以發現,基線模型漏檢了圖7(c)大量遠處的人及汽車與圖7(d)中路口處的人及行人等小目標,而PSTOD 通過融合多尺度信息與添加位置信息,使得模型得到更好的目標特征信息,強化模型對小目標的定位能力,可精確檢測部分漏檢的小目標??傊?,PS-TOD 相對于基線模型具有更為優越的檢測性能,尤其針對較小尺寸目標具有更強的檢測辨別能力,有效降低小目標漏檢與誤檢的概率。

圖7 小目標檢測效果對比Fig.7 Comparison of small object detection result

4 結論

針對無人機航拍圖像小目標多且檢測困難的問題,本文在Transformer 框架下提出了一個PS-TOD 模型。首先,設計了基于PCE3DA 的多尺度特征融合模塊,即通過融合不同層級的特征圖譜,有效地利用它們在空間與通道二個維度中的上下文信息,以增加骨干網絡的多尺度特征提取能力;然后,結合相對位置編碼,設計了PSSA機制,且以此構造了一個Transformer 編-解碼器,以幫助模型在捕獲圖像全局上下文信息的長期依賴關系時,也可提高模型對位置信息的敏感能力,從而提升模型對小目標的檢測精度?;赩isDrone 數據集的實驗結果表明,所提PS-TOD作為一種端到端的目標檢測模型,其檢測過程不需要事先錨框設置與事后NMS 處理,在復雜背景下能精確地對無人機航拍圖像進行目標檢測,且有效地改善了小目標的檢測效果。在后續工作中,除了進一步優化PSSA 機制,以降低模型的參數量,提高檢測速度之外,還需要將研究成果應用到其他數據集中,進一步驗證所提模型的檢測精度與泛化能力。

猜你喜歡
航拍注意力編碼
讓注意力“飛”回來
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
航拍下的苗圃與農場
《全元詩》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應用
Genome and healthcare
難忘的航拍
《航拍中國》美得讓人想哭
“揚眼”APP:讓注意力“變現”
陜西畫報航拍
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合