?

目標檢測中特征不匹配問題研究進展

2021-11-29 06:54林文杰
關鍵詞:置信度檢測器定位精度

儲 珺,林文杰,徐 鵬

(1. 南昌航空大學 軟件學院,南昌 330063;2. 南昌航空大學 信息工程學院,南昌 330063;3. 九江市0901工程管理處,江西 九江 332000)

引 言

目標檢測是計算機視覺的基本任務之一,旨在給定的任意圖像上對含有語義信息的目標實例進行分類和定位。其在自動駕駛、人臉識別、行人檢測、醫療檢測等方面有著重要的應用。同時,目標檢測也可以作為圖像分割、圖像描述、目標跟蹤、動作識別等更復雜的計算機視覺任務的研究基礎[1]。

傳統目標檢測算法首先通過目標無關的滑動窗口等方法生成大量冗余的目標候選框,采用手工設計的特征提取器提取候選框特征,然后再將這些特征送入到SVM[2]、AdaBoost[3]分類器中判斷目標是否存在,最后對目標進行回歸。這類算法產生大量冗余計算,而且手工設計的特征提取器的特征表達能力有限,分類結果魯棒性較差,檢測性能往往不夠理想。

隨著計算機硬件的計算能力的飛速提升以及大規模數據處理技術的廣泛應用,深度神經以其強大的特征提取能力被廣泛應用到模式識別的各個領域。相較于傳統目標檢測算法,深度目標檢測器無論是精度還是泛化能力都更具優勢,摒棄了復雜的目標候選框后其推理速度更是超越前者。特別是Faster R-CNN[4]網絡的誕生,將傳統目標檢測算法的分段操作統一到深度網絡框架之下,真正實現了目標檢測任務的端到端訓練以及一步推理,奠定了現代目標檢測器的基礎。

深度目標檢測已經成為目標檢測的一個主流研究方向,按照是否生成區域候選,深度目標檢測器可以劃分為二階段目標檢測器[4-10]和一階段目標檢測器[11-20]。二階段目標檢測器的檢測流程與傳統目標檢測的流程類似,需要先生成候選區域,這一過程通常由RPN(Region Proposal Network) 實現;然后通過池化操作從候選區域提取出目標,進行分類和回歸。由于候選區域是由網絡生成的,具有不俗的定位精度,因此后續的回歸操作相當于進一步微調了定位邊界框,因此二階段目標檢測器具有更好的定位精度。一階段目標檢測器取消了區域候選生成操作,盡管這帶來更為嚴重的樣本失衡以及定位精度較差的問題,但也因此具有更快的運算速度,能滿足實時性的要求,具有更好的應用前景。特別是FCOS[12],YoLo系列[13-14]等優秀工作的提出,使得一階段目標檢測器在檢測性能上能夠媲美甚至超過大部分二階段目標檢測器。

盡管深度目標檢測器已經具備了很好的檢測性能,但其本身包含了分類和回歸兩個目標完全不同的子任務,而現有的大部分目標檢測算法中采用參數共享的檢測網絡實現分類和回歸任務,導致現有的深度目標檢測器性能提升出現瓶頸。深度目標檢測器本質上是對于目標特征的處理函數,即接受目標的特征作為輸入,產生相應的分類和定位輸出。因此不難看出,分類任務和回歸任務之間的沖突本質上是分類特征和回歸特征之間的沖突,這種沖突源自于分類特征和回歸特征的差異,其對檢測性能所造成的影響稱為特征不匹配問題。

本文首先分析特征不匹配問題的原因,指出特征不匹配問題對于網絡的輸出響應造成的影響,然后詳細介紹現有的解決方案,最后給出對于此問題的思考和未來的發展方向,為日后的研究提供一個可供參考的研究路徑。

1 特征不匹配問題

首先從目標檢測中分類和和回歸任務的本質來描述特征不匹配問題。目標檢測中的分類和回歸任務可以描述為:

其中:φ表示仿射變換函數;pcls和preg分別表示分類特征和回歸特征;Fc和Fr分別表示分類函數和回歸函數。從式(1)、式(2)可以看出分類函數和回歸函數對于輸入的響應存在差別,也就是說分類任務和回歸任務目標不一致。

深度目標檢測器中分類和回歸任務是通過對目標函數的優化來完成。目標檢測的分類和回歸任務的目標函數可以定義為:

其中:Lc和Lr分別表示分類目標函數和回歸目標函數;fone_hot表示one-hot函數;c和Δb?分別表示分類標簽和回歸標簽。從式(3)、式(4)可以看出分類任務的輸出是離散的,目標是尋找目標類別的決策邊界;而回歸任務的輸出是連續的,目標是尋找真實目標框的最優擬合。因此,分類任務和回歸任務的輸出空間也是不一致的。

由上述分析可知目標檢測的分類和回歸任務在目標和網絡的輸出上都存在不一致。那么分類和回歸任務的輸入特征是否也存在這種不一致性?

為了更好地說明這個問題,分別對并聯檢測網絡的分類特征和回歸特征進行可視化,可視化結果如圖1所示。其中:圖1a中第一行表示分類置信度高但定位精度低的候選框會抑制分類置信度低但定位精度高的候選框;第二行表示分類特征和回歸特征的聯合分布以及密集預測策略,其中紅色框均為真實目標框。圖1b給出了并聯檢測網絡輸出的前一層的特征熱圖,熱圖中顏色越深的地方說明響應越強,可以看出分類特征和回歸特征的分布有著非常明顯的差異。分類特征更多聚集在真實目標中包含更多語義信息的顯著區域,而回歸特征則更多分布在真實目標框的邊緣,也就是說分類任務和回歸任務的輸入特征確實是存在不一致性。

圖1 特征不匹配問題

從上面的分析和實驗結果都證明了目標檢測中確實存在特征不匹配的問題,本文認為這種不匹配是由于分類任務和回歸任務的監督目標的差異造成的。下面從網絡的監督優化過程來分析這種特征不匹配產生的原因。

在分類任務中,目標是訓練一個對真實標簽具有最大激活值的檢測器,而不關心它的真實類別,如常用的BCE (Binary Cross Entropy) 損失函數,標簽與分類預測之間在計算損失時并沒有明確的偏差,顯然這并不是一個度量空間。這意味網絡在訓練過程中只需要學習讓偏好類別的響應比其他類別高即可的推理模式。因此,隨著訓練的進行,為了更好的分類,網絡會更加關注不變的核心特征。

在回歸任務中,網絡需要預測當前空間位置與目標空間位置的偏移量,得到準確的真實空間坐標。無論選擇Smooth?L1還是IoULoss作為損失函數,顯然都滿足度量空間的約束。由于使用真實目標框作為回歸目標,為了學習準確的距離度量,網絡更注重邊緣特征來確定目標與背景的邊界,從而獲得更精確的候選邊界框。這就是分類特征和回歸特征的本質區別。

另一方面,注意到圖1c中分類和回歸的響應峰值存在明顯差異。這種差異顯然與其各自特征分布相關,我們認為是由于特征分布的不對齊導致了響應分布的不一致。也就是說,解決特征不對齊問題需要兼顧特征不匹配以及響應不一致兩個方面。接下來,將分別詳細描述特征不匹配問題當前的解決方案以及響應不一致和特征不匹配問題的聯系及其現有工作。

2 特征不匹配的解決方案

正如前面分析,特征不匹配是由于分類特征和回歸特征的分布不一致造成的,參數共享的并聯檢測網絡顯然不能很好地編碼這種差異,限制了網絡的檢測性能。因此,如何有效地分離分類特征和回歸特征,成為目前解決特征不匹配問題的主要方法。

RetinaNet[21]是第一個提出用參數獨立的并聯檢測網絡代替共享檢測網絡。因為參數獨立的分類網絡和回歸網絡在各自的監督信號下可以分別對分類特征和回歸特征進行編碼,其特征表達的準確性要高于共享檢測網絡。但并聯檢測網絡同時也意味著網絡參數的增加,在深度神經網絡中參數的增加在一定程度上能帶來檢測器性能的提升,因此并不能簡單地把檢測性能的提升簡單地歸結于并聯檢測網絡對于沖突特征的分離,而且文中也沒有具體分析對特征不匹配的原因。

Wu 等[22]采用并聯檢測網和共享檢測網絡的不同組合進行實驗,進一步研究檢測網絡對分類和回歸的影響。實驗采用全連接子網絡和卷積子網絡以共享或者并聯的方式,通過不同的排列組合構建了四組用于對照實驗的檢測網絡 (如圖2所示),分別進行訓練后在測試集上測試其性能。不同檢測網絡在MS COCO[23]數據集上的檢測性能如表1所示。

圖2 Double-Head不同檢測網絡對照

表1 不同檢測網絡的性能

從圖2a、圖2c可以看出網絡檢測性能的提升與采用并聯檢測網絡后網絡參數增加無關,因為采用了并聯檢測網絡(圖2c)的性能要低于采用共享檢測網絡(圖2a)。同樣地從圖2c、圖2d可以看出目標檢測中分類任務和回歸任務確實存在不一致性。分別采用全連接網絡和卷積網絡用于分類與回歸任務的監測性能要比卷積網絡用于分類、全連接網絡用于回歸的AP高出6%。因為分類任務比回歸任務更側重于目標的語義信息,而卷積網絡保留的空間結構信息更有助于目標的定位。在不考慮網絡結構具體設計的前提下,圖2d可以看作是參數獨立的并聯檢測網絡,圖2a可以看作是參數共享的并聯檢測網絡。

TSD認為盡管Double-Head采用并聯檢測網絡有效地分離了來自于FPN的共享特征中的分類特征和回歸特征,使得并聯檢測網絡的分類和回歸特征的編碼更精確[24]。但是,文中認為其分類子網絡和回歸子網絡的池化操作提取的目標特征來自于相同的目標候選區域,從空間上看2個子網絡的特征仍然來自于相同的區域,也就是說兩者的輸入特征編碼是相同的。因為RoIAlign操作不帶參數,因此輸入相同的情況下輸出也是相同。所以作者認為分類特征和回歸特征的沖突仍然存在,并提出了任務敏感的空間解耦操作(Task-aware Spatial Disentanglement,TSD)來解決這一問題。具體來說,就是引入可變形RoI池化替代RoIAlign操作,通過可變形RoI池化學習的偏移參數使分類子網絡和回歸子網絡從目標候選區域的不同空間位置提取合適的特征,極大地增強了并聯網絡對于分類特征和回歸特征的編碼能力,將網絡在MSCOCO val2017上的檢測性能從36.1%提升到了38.2%。

不難看出,上述工作均在模型的檢測網絡中對來自主干網絡的共享特征進行解耦操作,這說明目標檢測中分類特征和回歸特征的分布是不一致的,對分類特征和回歸特征進行分離可以有效地緩解特征不匹配問題。

3 響應不一致及其解決方案

現代深度目標檢測器為了提升召回率,通常采用密集預測策略,即網絡在特征映射的每個空間位置上都進行預測。對于同一實例,將不可避免地會產生多個輸出,如圖1a。從圖1c可以看出分類和回歸在最高響應上存在明顯差異,本文認為其很大程度是由于分類特征和回歸特征的分布差異,造成置信度高但定位精度低的問題,即分類和回歸響應不一致問題。對于這一問題的目前解決方法可以分為三類:基于不同重疊閾值的多區域候選網絡的方法,增加額外的定位置信度分支的方法,聯合預測分類和回歸分布的方法。

基于錨框的方法[25-26]采用具有不同重疊閾值的多個區域候選網絡來篩選出定位精度更高的樣本,通過高重疊閾值的級聯區域候選網絡施加額外的分類損失提高這些樣本的分類響應,增加推理時高置信度且高定位精度的樣本的數量。這類似于門控機制,一般采用三層級聯的方式[26],重疊閾值從低到高分別取0.5、0.75和0.95。樣本的定位精度越高,施加的額外的分類損失也越大。不過,這種基于樣本篩選機制的級聯結構往往會增加模型的復雜度,網絡在訓練時難以收斂。

增加額外的定位置信度分支的方法[27-28]要簡潔有效得多。當前大多數目標檢測器采用分類置信度作為后處理中非極大值抑制選擇最優預測邊界框的度量。但正如前文所述,網絡的分類響應和回歸響應并不一致,因此使用分類置信度選擇目標候選框并不一定是最好的定位結果。當前網絡中缺少能夠直接度量定位精度的結果,因此Jiang等[27]首次提出添加額外的定位置信度分支來預測定位精度的方法。定位置信度分支和分類分支類似,但預測結果是定位的精確度,用于替代分類置信度在極大值抑制操作中作為最好目標候選框選擇的度量或者作為調整分類置信度的權重。因為僅僅增加一個額外的分支,無論是計算量還是參數數量都遠小于級聯區域候選網絡的方法,訓練復雜度也大大降低。

Li等[29]首次提出了預測分類和回歸聯合分布的方法,通過分類和回歸的聯合權重來調整樣本的分類和回歸的梯度更新權重;另一方面采用分類和回歸的聯合標簽作為分類的優化目標,讓分類的預測輸出不僅包含類別信息,同時還包含定位的準確性度量。避免增加定位置信度預測分支所帶來的計算增加,也可以解決定位置信度預測帶來的誤差問題。在這一方向上,Li 等[30]進一步提出的generalized focal loss (GFL) 分類損失,直接采用回歸精度作為分類任務的訓練標簽,這是因為除了類別的通道信息外分類的真實目標并不能為分類和回歸響應的平衡提供額外的有效信息。而定位精度的預測,顯然能夠更準確地描述當前樣本的定位效果。

這一類工作開創了采用分類分支預測定位精度的全新研究方向,我們對它們進行總結并形式化如下:

其中:loci和clsi分別表示第i個樣本的分類置信度和回歸置信度(樣本和真實目標之間的IoU);BCE(·)表示分類損失函數;α和γ是權重調節因子。f表示變換函數,用以調整分類置信度和定位精度的幅值。

當α的取值范圍為(0,1)之間時,式7為Li[29]等人提出分類和回歸的聯合預測損失;當α設為1,變換函數f設為(clsi?loci)2,則為GFL[30]分類損失。

上述方法在一定程度上都可以視為利用樣本和真實目標之間的IoU來調節分類預測,從而調整分類響應和回歸響應之間的不一致性,但也可以看出這些方法還沒有很好地和特征解耦操作相結合,進一步調整網絡中的特征不匹配問題。

4 未來研究方向

從上文可以看到,特征不匹配問題同時存在分類特征和回歸特征空間分布不一致的問題以及兩種特征空間分布差異帶來分類響應和回歸響應不一致的問題。這兩個問題并不是相互獨立,而是存在因果上的聯系,但目前的解決方案沒有將兩個問題聯系起來?;谏衔牡难芯炕A和分析,本文分析了特征不匹配問題未來的3個發展方向:

1) 結合特征解耦操作和響應對齊策略作為一個整體的解決方案。一方面目前的解耦操作僅停留在檢測網絡部分,而輸入到FPN結構的特征中分類和回歸的分布沖突仍然存在。另一方面當前的響應對齊策略通常采用IoU作為樣本選擇的度量,但在分類特征和回歸特征分布存在差異的情況下,選擇兩個分布之間重合的高響應區域的樣本顯然是更好的策略。

2) 采用單一預測策略來替代目前廣泛采用的密集采樣策略。相對于特征分布不一致帶來的分類和定位精度下降的問題,密集采樣策略導致的置信度高但定位精度低的問題在目標檢測器的性能評估上的影響顯然更為顯著。因此,如果令網絡針對單個目標實例只產生一個目標預測將有效地降低響應不一致帶來的影響。不過,由于網絡參數的隨機初始化,如何有效地確定真實目標的樣本將會是一個挑戰。

3) 引入Transformer[31]通過網絡自身的學習自適應地分離分類特征和回歸特征,利用可學習的注意力機制針對某個真實目標產生相應的單一的預測結果。在消除極大值抑制的工作上,近期基于Transformer的工作DETR[32]已經取得了相當不錯的進展。但Transformer在小目標以及訓練復雜度上仍然值得探索。

5 結 論

將深度神經網絡引入到目標檢測領域確實能夠顯著地提升模型的檢測性能,尤其是現代深度目標檢測器已經將傳統目標檢測的分段式訓練和推理方式集成到了一個統一的框架下,極大提升了目標檢測訓練的便捷性和推理速度。但是深度神經網絡帶來的特征不匹配問題也越來越成為目標檢測器性能提升的一個瓶頸。本文首先從目標檢測器的分類和回歸任務的本質分析了特征不匹配問題產生的原因,詳細介紹了現有的解決方法,指出特征不匹配給密集預測策略帶來的分類和回歸響應不一致的影響以及在此問題上的解決方案,最后給出了特征不匹配問題解決的未來發展方向。

猜你喜歡
置信度檢測器定位精度
基于數據置信度衰減的多傳感器區間估計融合方法
北方海區北斗地基增強系統基站自定位精度研究
小米8手機在城市環境下的單點定位精度研究
一種基于定位置信度預測的二階段目標檢測方法
基于高速公路事故黑點的檢測器優化布設
參數可調的聯合子空間目標檢測方法 *
Galileo中斷服務前后SPP的精度對比分析
GPS定位精度研究
GPS定位精度研究
用于錄井專用氣相色譜儀的FID檢測器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合