?

錨點機制在目標檢測領域的發展綜述

2022-04-13 02:40伏軒儀張鑾景梁文科畢方明房衛東
計算機與生活 2022年4期
關鍵詞:錨點關鍵點樣本

伏軒儀,張鑾景,梁文科,畢方明+,房衛東

1.中國礦業大學 計算機科學與技術學院,江蘇 徐州221116

2.中國賽寶(山東)實驗室,濟南250013

3.中國科學院 上海微系統與信息技術研究所 無線傳感網與通信重點實驗室,上海200050

目標檢測是計算機視覺和圖像處理領域的基礎問題,為解決自動駕駛、姿態估計等下游視覺任務提供技術保障。目標檢測算法識別圖像中目標的類別和位置,結合目標分類和定位兩個任務。圖像中的目標存在形變、遮擋、尺度變化大等特殊情況,給目標檢測任務增加難度,目標檢測的發展就是完善檢測算法以應對特殊情況造成的檢測性能下降。目標檢測算法分為三個步驟:特征提取、生成候選區域與候選區域分類。在傳統的目標檢測模型中,使用滑動窗口提取特征,設計基于人工設計的特征算子描述圖像,使用分類器對特征進行分類?;瑒哟翱谌狈︶槍π?,導致計算冗余?;诘讓右曈X特征設計的特征算子難以匹配復雜的圖像特征,存在單一性、適應能力差等問題。2012 年AlexNet在ImageNet競賽中以超過第二名10.9 個百分點的絕對優勢一舉奪冠,引發深度學習的研究熱潮?;谏疃葘W習的目標檢測技術使用卷積神經網絡替代手工提取特征,大幅提升檢測精度和計算效率,推動目標檢測的新發展。

目前目標檢測方面已有綜述從時間先后順序,一階段、二階段分類等方面總結梳理,與現有綜述不同,本文圍繞錨點機制在目標檢測中的影響展開,介紹anchor機制的原理和優化anchor設置的目標檢測模型,同時重點關注新近無錨點算法的發展,探索兩類算法的本質區別,在主流數據集上對比典型算法的性能表現,便于本方向相關研究者參考和借鑒。

1 anchor原理及優化設置

1.1 anchor原理

anchors 是在數據集中識別到目標的候選框組合,考慮到目標大小和尺寸不同,在設置anchor 時選擇一定的尺寸和寬高比以適配目標。anchor 與傳統目標檢測中的滑動窗口不同,滑動窗口尺寸單一,無法識別不同尺度大小的目標;anchor 有針對地設計尺度和寬高比例參數,提高目標檢測的靈活度。Faster R-CNN提出anchor 機制以來,錨定方法(anchorbased)成為各種目標檢測模型的指導思想。圖1 展示Faster R-CNN 中anchor 設置情況,其中三種顏色代表的尺度分別為128×128、256×256、512×512,顏色相同的anchor寬高比分別為1∶1、1∶2、2∶1。

圖1 Faster R-CNN 中的錨點示意圖Fig.1 Schematic diagram of anchors in Faster R-CNN

1.2 anchor的問題和對應優化

基于anchor 的檢測架構將目標邊界檢測為多個錨框,預測每個錨框的偏移量和類別。在訓練過程中,網絡的輸出值都是相對錨點框的偏移量,值域范圍較小,容易收斂,減小訓練難度。因此anchor 機制廣泛應用于先進的深度學習檢測器中。一些檢測器不存在以anchor 命名的候選框,但使用了類似的思想,例如文獻[20]中的默認框(default boxes),文獻[21]中的先驗框(priors)以及文獻[16]中的網格(grid cell)等。與傳統檢測方法相比,基于深度學習的anchor-based 模型能夠提升檢測精度。但研究人員從中發現,anchor-based 系列模型存在以下三方面的問題:

(1)anchor 的尺寸需要精心設計,大量預定義的參數對模型的預測能力有一定影響,超參數的手工調制影響模型的魯棒性。超參數的設置與數據集相關,需要根據數據集的特點重新設計錨點框的超參數,因此限制了模型的泛化能力。

(2)anchor-based 方法本質上是對圖像進行密集采樣,DSSD中設置超過4 萬個anchor,RetinaNet超過10 萬。數量眾多的anchor 對交并比的計算增加了顯存的消耗。

(3)anchor 中的大部分為僅包含背景信息的負樣本,最終只有一小部分與真實目標重合,加劇了正負樣本不平衡的問題,模型的分類能力會被負樣本所主導。

針對anchor存在的問題,一些方法從尺度、角度、數量等方面增加anchor 的種類,達到優化anchor 設置的目的。在尺度方面,Cai等在不同的特征層設計不同尺度的檢測器。低層的卷積網絡感受野較小,用于小目標的檢測,而高層的卷積網絡適用于檢測大目標,改善Faster R-CNN 目標大小和模板不匹配的問題。Zhu 等提出一種生成anchor 的新策略,基于步長縮減anchor,用于檢測小目標的高分辨率特征圖感受野較小,為防止漏檢小目標,應當縮減anchor生成的步長(srtide)。另外在訓練時隨機抖動以增加anchor 與目標的重合度,提升人臉檢測對小目標的檢測性能。在數量方面,Ke 等提出一種多錨點學習的方法,基于交并比篩選一部分優質的anchor,構造屬于目標的錨點袋(anchor bag),再結合分類和定位分數評估anchor bag 中的正樣本,使用正樣本優化訓練損失。無論是尺度還是數量的增加,都進一步增加計算復雜度以及內存開銷,并不能取得理想的效果。另一類思路引入可形變卷積以解決目標形狀差異大的問題,提高檢測器的靈活性。但由于需要學習額外的偏移量,參數量大,增加訓練難度,依然是以犧牲效率為代價換取精度的提升。

基于增加anchor 種類的優化方法仍然依靠先驗知識,許多學者針對anchor 的先驗性提出質疑,指出基于人工先驗知識設計anchor 尺寸是檢測效果不佳的主要原因。Yang 等提出一種不依靠先驗知識的MetaAnchor。根據一些預設的anchor 結合圖像的特征隱式學習錨點框函數以預測目標,將人工先驗知識轉化為可學習的參數形式。MetaAnchor 對anchor的設定和目標的分布更加魯棒,適用于任何基于anchor 的目標檢測框架,有效縮減不同數據集之間邊界框分布的差異。Ma 等設計的檢測模型AABO(adaptive anchor box optimization)指出,每更換一個使用場景時,需要手工調整anchor的配置以適應新域的特性和分布。AABO 設計一種自適應的特征金字塔搜索空間,結合貝葉斯優化和子采樣方法優點的超參數優化方法,有效為特定數據集確定最優的anchor 配置。與其他工作的區別在于,AABO 學習到的anchor 配置在整個數據集上共享。anchor 的提出是基于多尺度檢測的需求,但如何獨立于先驗知識,使anchor 能夠主動學習特征,需要借助遷移學習等方面的技術進一步改進。

2 基于關鍵點的anchor-free模型

基于關鍵點的anchor-free 模型主要分為兩種思路,一類對特定位置的關鍵點分組,另一類結合中心關鍵點進行回歸預測?;陉P鍵點分組的anchorfree 模型從特征圖中檢測特定關鍵點,根據對關鍵點的匹配生成高質量的檢測框,減少預設錨框存在的特征不匹配、計算冗余等問題。此類模型有基于角點的CornerNet及其優化版本CornerNet-Lite,基于極值點的ExtremeNet等。結合中心關鍵點的anchor-free 模型在特征圖的每個位置輸出其為目標中心點的概率、回歸目標尺度、偏移量等信息進行邊框的預測。此類模型有Objects as Points及系列工作等。本章綜述基于關鍵點的anchor-free 模型主要思想和檢測框架,針對不同模型的優點和存在的問題進行詳盡分析。

2.1 基于特定關鍵點的anchor-free模型

Law 等提出了一種基于關鍵點分組的目標檢測方法CornerNet,算法受到Newell 等用于多人姿態估計的關聯嵌入法啟發,使用左上角和右下角配對構造的預測框檢測目標,檢測結構如圖2 所示。CornerNet使用單個卷積神經網絡Hourglass-104 輸出的一系列特征圖分別輸入兩個分支模塊,預測左上角點(top-left corners)和右下角點(bottom-right corners)。在圖2 中,每個分支模塊包含一個角點池化(corner pooling)層和3 個輸出:熱力圖(heatmaps)、嵌入向量(embeddings)和偏移預測(offsets)。輸出兩組heatmap代表不同種類角點的位置,embedding 對角點進行分組,分組依據是向量之間的距離差異。為了生成的預測框更緊密貼合目標,網絡還預測偏移量(offsets),以輕微調整角點的位置。

圖2 CornerNet檢測結構Fig.2 CornerNet detection framework

與其他視覺任務中的池化操作不同,角點池化試圖將特征圖的最大激活值從目標內部轉移到邊界。如圖3 所示,以左上角點池化(top-left corner pooling)為例:垂直方向自下而上提取特征圖的最大值,水平方向從右向左提取最大值,然后求和得到輸出結果,數值計算過程如圖。Corner Pooling 使用兩個獨立的特征圖分別在兩個方向上檢測最大激活值,降低2 路信號的相關性,加強單個方向上的邊緣信息,從而提高檢測性能。

圖3 左上角點池化數值計算過程Fig.3 Numerical procedure of top-left corner pooling

CornerNet 僅使用兩個角點預測目標缺乏物體內部信息,僅基于距離對角點進行匹配而導致多個相似目標被檢測為同一目標,檢測的準確性有待提升。另一方面,每張圖片的推理耗時1.147 s,難以滿足交互實時性要求。原團隊進一步的后續工作CornerNet-Lite提出兩種輕量級的CornerNet 變種:CornerNet-Saccade 首先獲取可能出現目標的初步位置及其尺寸,使用類似人眼掃視的注意機制,有重點地處理圖像中的像素點;CornerNet-Squeeze 引入新的緊湊骨干架構,將SqueezeNet 與堆疊沙漏網絡整合在一起,并應用于物體檢測。這兩種變體共同解決了有效目標檢測中的兩個關鍵用例:在不犧牲精度的情況下提高效率以及提高實時檢測的準確性。遺憾的是,CornerNet-Saccade 與CornerNet-Squeeze結合的效果不理想,主要由于CornerNet-Saccade 需要強大的主干網絡來生成足夠準確的特征圖,而CornerNet-Squeeze 則是減弱了主干網絡的表達能力進行加速,兩種變體只能各自解決單方面的問題,存在局限性。

ExtremeNet將目標檢測定義為完全基于外觀信息的關鍵點估計問題,提出一種目標檢測的新思路:使用標準的關鍵點估計網絡檢測上下左右4 個關鍵點以及中心點,根據幾何關系對5 個關鍵點分組。作者認為CornerNet 中提出的角點(corner point)只不過是另一種形式的包圍框,且角點大部分位于目標的外部。但是本文提出的極點(extreme point)是位于物體上的,因此在視覺上是可區分的,具有一致的局部外觀特征。另外,與CornerNet 使用關聯嵌入法(associative embedding)不同,本文的分類方法完全基于幾何外觀信息,避免隱式的特征學習。ExtremeNet沿用了CornerNet 網絡結構和損失函數,對關鍵點的分組方法與CornerNet 不同,且關鍵點個數增加至5個。顯然增加關鍵點能夠包含更多的信息,但同時增加了計算開銷。通過暴力枚舉極點對所有結果進行羅列,算法復雜度較高。在產生4 個方向極點的基礎上進一步計算幾何中心,后處理過程繁瑣。在極點的匹配過程中,容易產生假陽性(false-positive)樣本,影響檢測效果。

在錨定方法(anchor-based)引導的檢測中,列舉大量可能存在目標的anchor,是一種自上而下的檢測思路。以上基于特定關鍵點的anchor-free 模型開啟了真正意義上自底向上的目標檢測時代,對關鍵點的定義和組合方式提出優化?;陉P鍵點檢測思路的發展致力于加入更多關鍵點提供特征信息,自ExtremeNet 開始,關鍵點不僅限于角點,更多后續工作開始聚焦目標中心點對檢測效果的影響。將關鍵點檢測分解為更細致的任務,獲取到更多信息以及分解任務間的關聯性可能會對網絡產生好的影響。

2.2 結合中心點回歸預測的anchor-free模型

Objects as Points由ExtremeNet作者提出,因為完全基于中心點進行檢測,作者在論文中以CenterNet指代檢測器。CenterNet 將目標建模為一個中心關鍵點,在中心點位置回歸出目標的尺寸、姿態等其他信息。針對CornerNet、ExtremeNet依賴關鍵點分組后處理步驟降低了檢測速度的問題,CenterNet 提供了一種更為簡潔的思路,即提取每個目標的中心點,無需對多個關鍵點分組。與錨定(anchor-based)算法相似,CenterNet 將中心點類比于一個單獨且形狀未知的錨點。又因為這種錨點只和位置有關,不存在錨點重疊的問題,無需人為設置閾值來進行前景和背景的區分。在檢測過程的設計方面,CenterNet 沒有對關鍵點進行后處理分組,從而大大減少了網絡參數量和計算量。

同時期的另一種CenterNet-Triplets在CornerNet的基礎上發展而來,旨在解決CornerNet 存在錯誤的角點配對問題。作者將左上角、右下角和中心點結合為三聯體(Triplets),在角點的基礎上增加一個關鍵點來探索候選框靠近幾何中心位置的信息。對于角點構造的預測邊框,如果同類別物體的中心關鍵點也包含在該候選框的中心區域,則保留該檢測框,否則舍棄?;谌擉w關鍵點的CenterNet 結合物體內部信息,對角點的預測做后處理矯正。CenterNet-Triplets仍然停留在結合中心關鍵點矯正匹配的階段,粗略看來整合了角點和中心點的信息,大部分工作建立在ConerNet的基礎上完成。CenterNet-Objects as Points完全基于中心點,沒有后處理步驟,模型結構簡單。且該方法容易擴展到姿態識別等其他與關鍵點檢測相關的任務中,具有啟發性意義。

Dong 等提出的CentripetalNet 針對關聯嵌入法匹配關鍵點的導致的誤檢做出優化改進。文章指出,基于物體的外觀信息產生嵌入向量的做法缺乏魯棒性。同類別的物體具有相同的外觀,這時物體的角點所對應的嵌入向量十分相似,使得網絡的訓練難度較大,出現錯誤的關鍵點匹配對。CentripetalNet以CenterNet為基線,提出新的關鍵點分組方法,結合物體的外觀和關鍵點的位置信息。CentripetalNet使用基于向心位移(centripetal shift)的角點配對方法,以及一種能夠更好地預測向心偏移的交叉星形可變形卷積模塊。圖4 依次展示了CornerNet、CenterNet-Triplets、CentripetalNet的部分檢測效果圖,在同類型的相似物體高度集中場景中,前兩者出現了將多個目標識別為同一目標的情況,如第一種場景中的球員,第二種場景中的滑雪運動員。CentripetalNet成功移除錯誤的角點配對導致的誤檢,與CenterNet-Triplets相比,CentripetalNet的效果提升主要來自大中型目標,如第三種場景中,CentripetalNet對人體目標的識別效果更加精確。

圖4 改進關鍵點匹配系列模型檢測效果對比Fig.4 Detection results comparison of key point matching series models

另一種結合中心點的預測模型并不區分正負樣本,使用類似語義分割的思想,使用全卷積網絡逐像素預測。早期工作中,DenseBox首先提出:(1)直接對是否為某類中心點進行判別;(2)在中心點處直接回歸相關的幾何參數。以此為啟發,FCOS(fully convolutional one-stage)額外預測了每個位置上的中心置信度(centerness),抑制偏離中心過遠的誤檢。FCOS 僅憑借非極大抑制進行后處理,模型更加簡單靈活,可以擴展到其他計算機視覺任務中。檢測流程如圖5 所示:

圖5 FCOS 網絡的檢測結構Fig.5 Fully convolutional one-stage object detection framework

(1)輸入圖片,經過骨干網絡進行特征提取,結合特征金字塔獲得不同尺度的最終特征圖。

(2)在特征圖上逐像素點進行分類和回歸。確定每個點所屬物體類別,根據每個點到物體4 個邊界的距離確定包圍框(bounding box)。

(3)引入中心置信度分支,預測一個像素到對應邊框中心的偏差,降低低質量預測框的權重,減少非極大抑制后處理計算負擔。

其中中心置信度(centerness)分支的主要作用是篩選遠離目標中心的低質量bounding box。增加一個與分類平行的分支用以預測中心置信度。中心置信度描述的是某一位置到該位置到其所屬目標中心的距離。設定第個卷積塊的輸出特征圖為F,算法將F上一點(,)映射到原始的輸入圖片位置并回歸。在進行正負樣本判斷時,若(,)落入真值標簽(ground truth)邊界范圍內即視為正樣本,與anchorbased 模型相比大量增加正樣本的數量,幫助模型有效學習。正樣本位置的回歸目標可表示為:

中心置信度的取值范圍是(0,1),通過二元交叉熵損失訓練。測試時,最終分數由中心置信度預測結果和分類分數乘積得到。中心置信度降低遠離目標中心的bounding box 得分,結合非極大抑制后處理濾除低質量邊框,進而提高檢測效果。FCOS 在實驗分析中與anchor-based 模型對比了樣例總數和內存占用情況,樣例總數減少了90%,內存占用減少了67%,但缺乏實時性指標的對比。逐像素密集檢測相當于在每個像素點鋪設anchor,對檢測速度會產生影響。中心置信度的可解釋性有待進一步增強,需要從幾何理論等方面給出理論支撐。

現階段anchor-free 的主要檢測范式可以分為以上兩類,對特定位置的關鍵點分組和結合中心關鍵點進行回歸預測。最先提出基于關鍵點目標檢測的CornerNet引領了定義特定關鍵點的檢測思路,此方向的優化工作針對關鍵點的選取與組合方式。增加關鍵點個數是細分檢測任務的表現形式,獲取到更多信息以及分解任務間的關聯性可能會對網絡產生好的影響。關鍵點組合存在繁瑣的后處理過程,導致計算復雜度居高不下,推理時間緩慢,催生了輕量化的CornerNet-Lite。結合中心點回歸預測的anchorfree 模型中,Objects as Points直接檢測中心關鍵點進而回歸其他屬性,實現端到端的高效檢測。FCOS則在目標檢測中引入語義分割的思想,融合中心度過濾低質量檢測,不僅提供了一階段anchor-free 檢測的新思路,加強與其他視覺任務的關聯性,也可用于兩階段目標檢測的感興趣區域網絡(region proposal network,RPN)提升性能。

3 其他類型的anchor-free模型

CenterNet的作者團隊發表于2021 年的最新研究成果提出,目標檢測、實例分割和姿態估計都是對位置敏感的視覺識別任務,并設計一個統一的框架稱為位置敏感網絡(location-sensitive network,LSNet)。文章認為,不同的視覺任務本質上都是識別物體,不同之處在于表征物體的形式:目標檢測用包圍框,實例分割用mask,姿態估計用關鍵點。作者設計一個統一的框架將預測目標與真實的目標聯系起來,以一個anchor 點和指向關鍵點的個向量作為檢測框架。在目標檢測任務中,1 個anchor 點和指向極值點的4 個向量確定目標框;在實例分割任務中,1 個anchor 點和指向輪廓點的個向量確定mask;在人體姿態估計任務中,1 個anchor 點和指向17 個關鍵點的向量確定pose。

LSNet 分為兩個階段:第一階段從特征金字塔(feature pyramid networks,FPN)的頭部預測一個anchor 點并與一組landmark 聯系起來;第二階段組合landmark 描述目標對象的幾何形狀。為了準確定位目標,使用ATSS(adaptive training sample selection)分配器為目標分配盡可能多的anchor點,并在預測的landmark 上使用可形變卷積提取特征??紤]到目標檢測中的損失函數IoU loss 只能基于矩形框回歸優化,難以運用到實例分割任務中的多邊形和姿態估計中的離散關鍵點,作者提出一種新的損失函數Cross-IoU Loss。Cross-IoU Loss 對anchor 點到landmark 的每個向量計算交并比,將二維的交并比壓縮到一維,從垂直和水平兩個方向分解計算向量與真值標簽的重合程度。LSNet 拓展了anchor-free 方法應用于視覺識別的邊界,充分證明使用關鍵點定義和定位目標是一個值得研究的方向。

Zhang 等人開發的一階段目標檢測模型VarifocalNet(VFNet)是一種感知交并比的密集目標檢測器。作者在文章中指出高性能密集目標檢測器的關鍵在于對候選檢測目標進行排序篩選,之前的研究工作使用分類得分或將分類得分與定位得分相乘,兩個不可靠的預測相乘可能會導致候選目標的排名變差,損害檢測性能。文章提出感知交并比的分類得分(IoU-aware classification score,IACS)同時表示物體的存在置信度和定位精度,設計了一種新的高效星型邊界框表示法,以及變焦損失Varifocal loss訓練檢測器。VFNet 以FCOS+ATSS 作為基礎,作者深入理解每種技術的優點,并將它們組合到一個模型中。變焦損失Varifocal loss 借助調制因子平衡正負樣本的權重,非對稱地處理正負樣本,與第4 章融合anchor-based 與anchor-free 的思想類似,重點關注有關正負樣本選擇的問題。

4 融合anchor-based 與anchor-free的方法

Zhu等指出,在與特征金字塔結合使用的anchorbased 檢測模型RetinaNet中,基于人工經驗規則,將anchor 離散化到不同的特征層,又根據目標和anchor的交并比選擇最匹配的anchor 檢測目標。這種選定特征層的算法,特征級別不一定是最適合目標的?;谔卣鬟x擇的無錨點模塊(feature selective anchorfree module,FSAF),在特征金字塔的每一層都分出一個anchor-free 分支,允許在任意層上進行編碼和解碼。在訓練期間,動態地將每個目標分配到最合適的特征層,不設置anchor以限制特征層選擇。作者在原有的RetinaNet 的基礎上加入一個anchor-free 分支。該分支分為兩個卷積層,分別負責分類和回歸任務。以RetinaNet 主干網絡的到特征層構造特征金字塔,圖6 中展示了其中的三層,每層用來探測不同大小的目標。FSAF 模塊根據目標內容選擇最匹配的特征層,而不是僅僅根據目標框尺寸分配特征層。檢測過程如圖6 所示,目標輸入到特征金字塔的所有層,然后求得所有anchor-free 分支損失函數的和,選擇和最小的特征層來學習。在消融實驗中,加入FSAF 模塊后增加了6 ms 的計算時間,為ResNet-101 主干網絡的RetinaNet 帶來1.8 個百分點的精度提升。

圖6 FSAF 網絡的檢測結構Fig.6 FSAF detection framework

一種主樣本注意力策略(prime sample attention,PISA)提出,每個批次(batch)中的樣本是非獨立的,每個樣本給予的關注度也不應完全相同。PISA對正負樣本點權重一致性進行優化,使用層次局部排名重新定義樣本的重要性,根據重要性為樣本分配不同的損失權重,是后續研究一個具有潛力的起點。自PISA 開始,研究者們探索標簽分配(label assign)問題對檢測器的影響,在2.2 節中,FCOS也針對標簽分配方面進行了優化,通過空間和尺度約束選擇正負樣本,以采樣方式擬合anchor-based 與anchor-free 產生的性能差異,指出標簽分配策略可以進一步提升目標檢測器的上限,是anchor-based 與anchor-free 產生性能差異的根本原因。本章重點介紹圍繞標簽分配策略優化開展的工作,圖7 展示本章介紹的基于標簽分配優化的檢測模型關系。

圖7 基于標簽分配優化的檢測模型關系Fig.7 Relationship between detection models based on label assign optimization

FreeAnchor針對PISA 中發現的問題,設計了新的損失函數。為提高召回率,recall loss 確保每個實例有足夠好的正樣本。為保證精確度,precession loss 確保每個實例盡可能避免產生假陽性目標。論文拋棄以往根據IoU 硬性指定anchor 和GT 匹配關系的方法,提出FreeAnchor 方法來進行更自由的匹配。FreeAnchor 將檢測算法的訓練過程定義為最大似然估計的過程,除提升檢測性能外,一個突出的表現是對長條狀目標友好。

Zhang 等探 究anchor-based 和anchor-free的目標檢測算法之間產生差異的根本原因。作者分別選擇anchor-based/free 典型算法RetinaNet和FCOS 進行對比,將RetinaNet 鋪設的anchor 數改為1 后發現相同的正負樣本定義下的RetinaNet 和FCOS 性能幾乎一樣。由此指出anchor-based 與anchor-free 方法的主要區別在于對正負樣本的選擇,提出自適應訓練樣本選擇(adaptive training sample selection,ATSS)。ATSS 根據統計學特征劃分正負樣本,具體方法如下:在每個金字塔特征圖層中選擇個檢測框中心點和目標中心點距離最近的檢測框作為候選正樣本集。計算每個候選正樣本與標注的目標檢測框(ground truth,GT)的交并比D以及D的均值m和標準差v。以均值和方差的和作為篩選正樣本的閾值。ATSS 僅有一個超參數,且在實驗中證明在一定區間內的取值對檢測性能的影響微乎其微。但作為一種自適應方法,對篩選閾值的確定還是依靠先驗信息且缺乏對閾值設定的理論解釋,調參痕跡較重。Zhu 等進一步改進此問題,將分配過程自動化,對于一個目標檢測框,標記所有落入框內的樣本為正樣本,不落在框內的樣本為負樣本。由此設計AutoAssign 進一步提出根據數據集動態定義正負樣本,公平對待每個位置的正負樣本屬性,通過正負樣本的權重映射,動態調整每個位置的預測,運用在RetinaNet和FCOS上都能有穩定的性能提升。

表1 總結標簽分配策略的幾個維度及先驗形式?,F有的標簽分配策略都利用中心先驗(center prior),依賴于物體圍繞框中心的分布方式。若數據的分布不符合中心先驗,將不能取得良好的檢測效果。標簽分配分為尺度(scale)和空間(spatial)兩個維度,AutoAssign 定義的權重對兩個維度實現聯合訓練。目標檢測的標簽分配應該是連續的過程,沒有真正意義上的正負樣本之分,表1 中的大部分模型使用IoU 閾值定義正負樣本使標簽分配的過程離散化,不是一個合理的思路。如何設計連續的自適應標簽分配,將是未來的研究重點。

表1 標簽分配目標檢測模型總結Table 1 Summary of label assign object detection models

5 性能對比

在第1~4 章中介紹了基于無錨點的各類目標檢測算法,表2 對第2~4 章中列舉的部分目標檢測模型的原理、優缺點及使用范圍進行總結。表3 在COCO數據集上使用平均檢測精度及其變體對比檢測性能,以是否基于anchor 劃分為兩部分。、、、、是基于COCO 數據集定義的檢測精度評價指標,、用以評價不同的交并比閾值下的檢測效果,50 與75 表示預測框與標注框的交并比大于50%和75%時才會被認為預測正確。、、分別表示模型預測不同大小尺度目標的AP,s(small)為area<322,m(medium)為322962,area 是分割掩碼(segmentation mask)中的像素數量。模型的綜合性能表現受主干網絡、輸入圖像尺寸、硬件加速環境影響,權衡速度與精度,表3 列舉每個模型最佳性能表現的檢測指標。為公平起見,性能評價結果均基于COCO 數據集,論文中未具體描述的以“—”省略。

表2 各類無錨點目標檢測模型總結Table 2 Summary of various anchor-free object detection models

結合表2 與表3 可以得到以下幾點信息:

表3 各類目標檢測模型在COCO 數據集上的性能對比Table 3 Performance comparison of various object detection models on COCO dataset

(1)在anchor-free 方法中,CornerNet是最早提出的基于組合角點檢測模型,檢測精度達到42.1%,超過同時期基于錨框的檢測算法。后續推出的CornerNet-Lite中,CornerNet-Squeeze設計了更加輕量的檢測網絡,計算速度達到約33 frame/s,相比CornerNet 提高了約6 倍,是目標檢測模型在輕量化方面做出的重大改進,也表明輕量化是計算機視覺任務發展的迫切需求?;跈z測特定關鍵點的anchor-free 模型發展趨勢是以多樣化的關鍵點提取到豐富的目標信息,但組合關鍵點的后處理步驟拖累檢測速度,與結合中心關鍵點檢測的方法相比速度較慢。

(2)Objects as Points與基于三聯體關鍵點的CenterNet,聚焦中心關鍵點的作用,通過不同的方式充分利用中心點,提升了檢測精度,表明中心區域對關鍵點分組的重要性。CentripetalNet 針對圖像中相似物體的誤檢情況,進一步使用向心偏移提高小目標密集排列的檢測效果,檢測精度超過具有代表性的anchor-based 模型RetinaNet、SSD、YOLO v3。結合中心關鍵點的檢測方法默認目標的分布圍繞幾何中心,對不符合此分布的目標(如長條狀的行人)將產生不穩定的檢測效果,魯棒性較差。

(3)結合中心關鍵點回歸預測的anchor-free 方法,都利用特征金字塔(FPN)進行多尺度目標檢測。FCOS加入中心度分支剔除低質量檢測框提升檢測性能。融合anchor-based 與anchor-free 的檢測器FSAF通過在線特征選擇的方式,動態地為每個實例選擇最合適的特征層,提升中小型目標的檢測效果,表現為評價指標、有所提升。多尺度檢測是提升檢測效果的重要方法,但顯著增加的內存開銷和計算耗時是主要問題,下一步研究方向可以繼續探討構建“碎片式”圖像金字塔解決計算耗時問題。

(4)融合anchor-based&free 的方法中,標簽分配策略解決正負樣本不平衡的問題,擴充有利于模型訓練的正樣本數量,避免超參數的引入,降低手工調參的成本。

(5)現階段anchor-free 系列模型暫時沒有性能上的突出表現,但仍存在思想上的優越性?;陉P鍵點的檢測可以借助語義分割等其他視覺任務的先進方法,拓展模型的使用范圍??紤]到anchor的固有缺陷,可以認為anchor-free 的研究方向在未來仍舊值得繼續探索。

6 特定場景下的優化

目標檢測作為計算機視覺的一個研究熱點,無錨點目標檢測已逐漸成為其中的關鍵方法。借助無錨點目標檢測模型處理圖像,解決生產生活中的實際問題,涉及遙感圖像處理、輔助醫學臨床診斷、智慧交通等其他多個領域。下面分不同領域來介紹無錨點目標檢測的具體應用情況。

(1)遙感圖像分辨率高,圖像特征信息多種多樣。在部分圖像中只存在零星的物體,如果使用anchor-based 方法將存在大量的冗余anchor,且正負樣本極不平衡。由于目標變化的尺度較大,難以統一調整anchor 的尺寸,anchor 回歸效率較低,有必要應用anchor-free 檢測模型提高檢測效率。Liu 等將包圍盒編碼為矢量,在此基礎上提出包含方向信息的ProjectIoU 引導預測。設計一種組合損失函數,其中ProjectIoU 監督方向信息,GIoU 監督尺寸信息。在檢測頭中使用TanhExp 替換激活函數提高檢測速度,進一步影響無錨點檢測方法在遙感目標檢測領域的應用。蔣光峰等提出的RCNet使用中心關鍵點、旋轉角以及寬高表征遙感目標。添加一個用于預測方向的分支,實現旋轉中心點估計。RCNet使用DLA34 主干網在保持66.68%檢測精度的同時實現了29.4 frame/s 的運行速度,適合計算資源緊張同時對運算時間有一定限制的平臺。

(2)使用計算機視覺方法輔助醫學臨床診斷對疾病的早期診斷至關重要。??低暪咎岢龅腂MassDNet首次將FSAF結構應用于乳腺腫塊檢測中。乳腺腫塊的檢測困難主要在于腫塊的異質性,使用特征提取網絡的最后兩層與底層特征結合,能夠檢測不同尺寸的腫塊。加入FSAF 模塊后,在靈敏度(true positive rate,TPR)基本持平的情況下,平均每張圖片的假陽性比例(false positive per image,FPPI)降低0.141。BMassDNet 減輕醫生的視覺疲勞同時有效提高檢測精度,推動深度學習應用在醫學領域的發展。矩形包圍框在病理圖像旋轉時會發生角度變化,尤其在特定的醫學圖像如肺結節、腎小球的檢測方面,無錨點的目標表示方法具有優越性。CircleNet針對球形生物醫學目標進行優化,使用圓形包圍框(bounding circle)來檢測目標。與使用矩形包圍框(bounding box)需要學習寬高兩個維度相比,使用bounding circle 僅需學習半徑一個維度。表4 對比了不同表征目標方法的旋轉一致性,旋轉一致性的計算方法是旋轉后交并比大于0.5 的bounding box/circle數量除以bounding box/circle的總數量。

表4 旋轉一致性對比Table 4 Comparison of rotation consistency results

實驗結果表明,與矩形包圍盒相比,圓形的表示方法在自由度更小的情況下并沒有降低檢測效果,在采集的活檢掃描圖像數據集上平均檢測精度達到64.7%。

(3)在智慧交通領域內,華南理工大學提出的CircleDet借助站臺門上方部署的攝像頭截取視頻檢測地鐵客流量。在俯拍視角的攝像頭中,人的頭部在大部分情況下表現為圓形,矩形包圍框的表示并不適用。使用圓形表征目標降低了檢測難度,減少預測輸出,為設計更輕量的骨干網絡提供條件。作者在DLA(deep layer aggregation)網絡的特征圖深度聚合階段,將每個階段的深度削減為1,結合修剪通道數量設計輕量化網絡。CircleDet 在GPU 加速的情況下每幀檢測時間為9 ms,在邊緣設備僅依靠CPU 加速的情況下每幀檢測時間為130 ms,滿足實時性要求。

7 總結與展望

本文以基于深度學習的目標檢測算法為背景,從anchor機制提出的背景和原理出發,分別回顧優化anchor 設置和基于無錨點(anchor-free)以及融合anchor-based/free 等方向的研究工作進展,其中重點對比總結了anchor-free 方向的研究工作,從定性和定量兩個角度以列表形式總結?;阱^點機制在目標檢測領域的發展現狀,未來可以開展的工作包括以下幾個方面:

(1)anchor-free 目標檢測的一個重要手段是關鍵點檢測,但在特殊場景的小目標檢測中,關鍵點存在語義模糊性。例如遙感圖像中碼頭的密集船只,地鐵客流監控系統中出行高峰時段的行人目標,存在分布稠密、相互重疊的問題,有待進一步解決。

(2)當圖像的輸入尺寸過小時,能檢測到的關鍵點數量有限;若圖像輸入尺寸大,將影響檢測速度,在主干網絡中使用輕量化卷積將成為新的研究熱點。卷積作為深度學習的構成基礎,將卷積輕量化可最大限度地提高網絡計算效率,減少卷積間的冗余計算量,使模型在相同識別精度下,卷積在參數量或計算量上占比有所下降,使得模型便于在移動式視覺終端上使用。

(3)提出錨點機制的出發點是提供先驗知識,解決目標尺度變化大的問題。但anchor-based 發展的障礙也正是因為先驗知識并不能完全滿足多尺度檢測的需要,因此產生了anchor-free的研究方向。anchorbased 方法加入了人為先驗分布,訓練和回歸的值域變化范圍相對較小,anchor-free 擺脫先驗知識的限制,導致其檢測結果不穩定,需要設計更多的方法進行優化。

(4)在形式上,組合多個關鍵點的anchor-free 模型實際上使用類似anchor的矩形框檢測,基于單個關鍵點的anchor-free 模型相當于在每個位置上都有一個anchor,始終沒有真正打破anchor 的局限。值得一提的是,融合anchor-based 與anchor-free 的工作指出,正負樣本的定義才是兩類算法的本質區別,標簽分配成為連接兩類算法的橋梁,值得進一步探索。

猜你喜歡
錨點關鍵點樣本
藝術史研究的錨點與視角
——《藝術史導論》評介
論建筑工程管理關鍵點
肉兔育肥抓好七個關鍵點
建筑設計中的防火技術關鍵點
用樣本估計總體復習點撥
5G手機無法在室分NSA站點駐留案例分析
5G NSA錨點的選擇策略
5G NSA組網下錨點站的選擇策略優化
規劃·樣本
隨機微分方程的樣本Lyapunov二次型估計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合