?

遞歸投影融合對比機制的少樣本目標檢測方法

2024-02-22 07:45朱錦相
計算機工程與設計 2024年2期
關鍵詞:微調尺度樣本

陳 瀚,雷 亮,朱錦相,王 冬

(廣東工業大學 物理與光電工程學院,廣東 廣州 510006)

0 引 言

目前,深度學習技術的成熟使目標檢測領域取得了質的發展。這些模型的成功很大程度上歸功于目標檢測器能夠吸納和處理大規模的標注數據。少樣本目標檢測(few-shot object detection,FSOD)旨在解決傳統檢測器需要大量訓練數據的劣勢。在FSOD任務中,建立基類和新類特征相關性以及提高特征篩選的匹配能力是提高模型性能的關鍵[1,2]。因此,前人提出了很多特征遷移的方法[3-5],用于衡量特征之間的相似性[6,7]。然而,這些方法大多關注于表層特征學習,容易忽略類與類之間的深層映射聯系。在實際場景中,目標分布可能會散亂交織、尺度不一、存在遮擋殘缺、特征混淆等情況,容易導致漏檢、誤檢以及假陽性率過高的情況發生[8]。

針對以上不足,提出了一種遞歸投影融合對比機制的FSOD方法。該方法利用一個多尺度遞歸投影的正則化分支網絡減少特征尺度差異性,豐富特征表示。并且,在兩階段檢測器基礎上,增加了余弦分類編碼器,結合新類與基類特征共享的對比機制,實現了類別之間深淺層尺度信息的交流和特征匹配,直接有效地提高了模型檢測率。同時保證了新類與基類在空間上的特征對齊,采用共享權重的方式提高了知識遷移效率。該方法在PASCAL VOC和MS COCO數據集的廣泛實驗中,均取得了顯著的檢測結果,驗證了該模型的先進性。

1 相干工作

近年來出現很多關于FSOD的方法,如數據增強[9,10]、元學習(Meta-learning)[11,12]、度量學習(Metric-lear-ning)[13,14]、基于微調范式(Fine-tuning)[15]等。利用特征遷移的方法能夠從基類源域空間獲取目標前景特征信息,并轉移至新類域空間。LSTD[16]首次將遷移學習應用于FSOD任務,通過背景抑制(background depression,BD)和遷移知識(transfer knowledge,TK)正則化消除了分類任務和檢測任務之間的差距。目前主流方案主要基于元學習方法和微調范式。Meta-learning只進行一次性學習,從預訓練模型中推斷相似性[17]。例如,RepMet[18]設計了重生特定類的激活函數,提取原型空間中的圖像特征,通過計算與支持特征的歐氏距離以表示相似度,雖提升了遷移能力但精度有待提高。Meta-RCNN[19]和FsDetView[20]通過提取RoI(region of interest)特征對新類進行重新加權,提高了檢測性能。與之相比,Metric-learning方法性能更加優越,尤其是TFA[21],甚至在經過基類充分訓練后,加入新類后簡單微調檢測器,即能獲得可觀的結果。MPSR[22]認為原始檢測器僅增加尺度,不考慮尺度關聯性的方法存在局限性,難以在稀疏尺度信息中判斷陽性或者陰性建議,雖解決了尺度方差問題,但由于網絡構造復雜和人工調參干預導致過于繁瑣。

由于特征相關性和有效匹配性[23]是決定目標特征遷移效率的關鍵因素。然而,僅整體微調的方法存在一個本質的缺點——對于實例的遷移過于倉促,只能依賴增加迭代次數的經驗來加強遷移效果[24]。而加入新類的二次訓練會導致已學習的分類器置信度和定位精度產生偏差。在優先樣本的前提下,RoI難以提供強有力的特征表示[25]。當樣本稀疏時,決策最值分類器的作用不夠顯著。

因此本文致力于構建少樣本特征空間關聯性,如圖1所示,充分調用基類和新類特征關聯性以保持尺度不變性。同時使用余弦分類器[26]取締傳統的線性分類器,結合對比學習機制[27,28]重構特征分布區域,在遷移過程中準確地劃分簇空間,保證特征空間對齊,擴大類間間距,縮小類內間隙。

圖1 少樣本特征空間分布

2 模型設計原理

針對上述理論,構造了一種基于Faster-RCNN檢測框架的新穎模型CM-FSOD(contrastive mechanism fused multi-scale recursive projection for FSOD)。采用尺度投影對齊與對比機制相互結合,引導支持特征與查詢特征信息傳遞的有效化進程。通過重構空間特征分布[29],最大程度上挖掘基類和新類特征映射關系。本章節將詳細介紹該方法原理。

2.1 微調范式原理

CM-FSOD方法主要采用微調范式進行訓練,以TFA為基準線(Baseline)。如圖2所示,訓練過程主要分為基礎訓練階段和微調階段,并設定兩個訓練集,分別為樣本充足的基類Cbase和僅含少量樣本的新類Cnovel。Cbase∩Cnovel=?,C={(x,y)|x∈X,y∈Y}, 其中X指目標對象,Y是標簽信息。從這兩個類中選取部分樣本作為支持集(包含標簽)和另一部分樣本作為查詢集(不含標簽),通過學習基類的泛化知識,得到一個能夠檢測新類的檢測器Dnovel。在基礎階段,訓練方式與Faster-RCNN相同。而在微調階段,輸入K張帶標簽的支持集和無標簽的查詢集,然后微調分類器和回歸器,重新計算損失以表示新類。其余特征組件參數則被凍結固定不變。

圖2 基于微調范式

2.2 CM-FSOD體系結構

CM-FSOD算法體系結構如圖3所示。首先在原始特征提取器中加入了自適應正樣本特征細化分支MRP-FPN。然后,利用對比機制調用RoI特征池化,采用共享的對比分支對查詢和支持特征進行特征編碼,優化損失函數,并使用正交映射的方式對編碼特征進行加權。值得注意的是,在微調階段,沒有完全凍結參數,而是保留了RPN(region proposal network)建議框對查詢特征預判,引導特征有效化匹配。

圖3 CM-FSOD算法體系結構

2.3 多尺度遞歸投影機制

本節內容介紹了多尺度遞歸投影機制MRP-FPN(multi-scale recursive projection feature pyramid network)。MRP-FPN是一種尺度間的正樣本細化分支,由多尺度金字塔網絡、特征尺度加強模塊FEM(feature enhancement module)和遞歸尺度映射門路RPG(recursive projection gateway)組成。如圖4所示,首先在主干網絡上對特征空間進行壓縮,使用全局池化層GAP(global average pooling)保留大量的空間信息,使輸入尺寸更加靈活。其中FEM采取了通道級注意力機制的經典結構,對各個尺度的特征進行采樣。自適應池化層的卷積核數是可變的,能夠貼合各尺度輸出。

圖4 MRP-FPN結構

其感知特征由多個3×3卷積層和ReLU激活函數組成的模塊生成,其過程如式(1)所示

V=RC×Hi×Wi(Fc,ω)

(1)

其中,R為激活函數,Fc是C×Hi×Wi格式的輸入特征,ω為卷積函數。與此同時,支持集與查詢集共享Backbone,其在各尺度之間通道對齊,映射關系可以用正交關系如式(2)所示

Fn(VSi,VQi)=θ(VSi)θ′(VQi)

(2)

其中,θ與θ′表示反向傳播函數。Si和Qi分別表示支持和查詢特征。采用殘差結構對目標線索捕獲局部特征,獲取能夠產生尺度感知的上下文特征Fn*,其過程如式(3)所示

Fn*=(1+Ak)⊙Fn

(3)

其中,Ak為第k層特征圖,⊙表示通道級點積。FEM層對特定尺度的物體前景進行索引,以獲取目標感知特征ωij,其過程如式(4)所示

(4)

其中,Vij表示特定像素的特征向量,Wij是壓縮池化的向量值,σ是sigmoid激活函數,沿空間維度k進行權值轉化,Ω表示特征分布。RPG采用遞歸式投影的方法,在相鄰尺度之間設置自適應的融合模塊將Fn*投影至高層尺度,縮短跨尺度的空間差異,尺度間的投影信息傳遞用非線性映射的多元特征融合方式,如式(5)所示,其投影過程Pij為

(5)

ωqj,ωsj分別為查詢感知特征和支持感知特征。利用卷積層實現了向高階尺度輸送特征信息。同時能更深層過濾和抹除背景噪聲,對區分前背景也有幫助。在無大量篩除支持信息的前提下,增加了足夠有效的查詢特征以供匹配。

2.4 共享元對比損失機制

前文提及了僅微調檢測器只能更多地在表層特征上計算匹配程度。自監督學習中的對比損失可以彌補決策不夠的缺陷。由于一般對比機制只加入類的嵌入向量輔助損失函數計算,并不適用于元學習。因此本文采取選擇先為每個類優先提取特定的特征編碼,再創建類嵌入向量,如圖5所示。經過基類訓練后,RoI特征會被計算成初始基類的分布,其分布一般用高斯分布 {Ω=(μb,σb)} 表示,均值和方差分別為μb和σb。

圖5 共享元對比損失機制

微調階段采用動態的相關特征生成新的錨點,由查詢特征和支持特征共享特征編碼器,進行后續的分布匹配與較準。在RoI頭中嵌入數層MLP編碼器將特征信息轉為特征編碼。同時將每一批查詢圖像與支持圖像之間的相關性組成一個基本單元,測量提案嵌入之間的相似性,并通過移位補償更新已累積的特征分布,緩解了因過度對比增加的不確定性,避免匹配得分因相似特征而被放大的風險。

采用余弦相似度優化了匹配方式,防止提案向量值被激活后截斷的問題,把輸出的查詢向量與關聯映射的累積類權重做相似度計算,如式(6)所示,其相似度sim為

(6)

其中,qi為第i個查詢實例,wj為RoI的類特征權重,β為映射函數,用于梯度縮放。如式(7)所示,用此方法控制校準新類分布的離散度H(i)

(7)

如式(8)所示,然后在微調階段使用基于距離的損失函數Lsml

(8)

其中,P為匹配批次,N(i)為查詢值qi提案與支持特征的匹配個數,H(i)包含了錨框zj的特征分布,且數值上設定H(i)=|N/zj|,τ為對比機制超參數的溫度系數,提高類特征間的分離性。最后損失計算如式(9)所示

Ltotal=LRPN+Lcls+Lreg+λLsml

(9)

其中,LRPN為前背景框建議損失,Lcls為分類損失,兩者均采用二元交叉熵Cross-entropy損失,Lreg為邊框回歸損失采用Smooth-L1損失。微調階段加入元對比損失Lscl進行聯合優化,其中多任務檢測中一般設定λ為0.05~0.1,負責控制補償程度,使模型輸出最優效果。

3 實驗結果與分析

本模型在PASCAL VOC和MS COCO數據集進行了詳細實驗,并與現有的先進模型進行比較,其評估標準主要是新類的檢測精度nAP(novel average precision),主要衡量了模型從基類特征遷移知識的能力。實驗設置多組類型的分割數據集,并在PASCAL VOC數據集進行詳細的消融對比實驗。本章節將全面分析該模型的先進性。

3.1 數據集與評價指標

3.1.1 PASCAL VOC

PASCAL VOC數據集由VOC 07和VOC 12組成。采用3個不同的分割集(分別稱為split 1,2,3),均包含20個類別。訓練集均由15個數據充足的基類和5個僅含K個樣本(也稱為K-Shot)的新類組成。并在VOC 07測試集評估了K=1,2,3,5,10 shots的新類檢測值nAP50 (nAP50指IoU閾值設為0.5的新類平均檢測精度)。為了增加檢測的有效性,設置了10個以上的隨機種子計算平均檢測結果。

3.1.2 MS COCO

MS COCO數據集含80個類別,其中與VOC相同的20個類別作為新類,其余60個類作為基類。COCO測試集包含近5000張待測樣本,檢測規模更大,因而實驗測試了K=10,30 shots并報告nAP,nAP75檢測值作為評估標準(nAP,nAP75分別指標準平均精度AP和IoU閾值設為0.75的新類平均檢測精度)。nAP75通常被認為是更加苛刻的評估指標,被用來衡量模型在少樣本情況下的泛化能力和性能表現。

3.2 實驗設置

采用PyTorch深度學習框架開發,在NVIDA GeForce 3090 GPU進行測試,以TFA作為Baseline。其框架主要基于Faster R-CNN結合ResNet特征提取器。批量大小bs設置為4,基礎階段學習率為0.01,微調階段初始學習率為0.005。優化器采用隨機梯度下降SGD,其動量值為0.9,衰減系數為1e-4。

3.3 實驗結果分析

3.3.1 PASCAL VOC實驗

VOC實驗設置了10次隨機重復測試求平均值的做法,分別對3個分割集KShots情景進行測試,對比以往10個相關的先進方法,并報告了nAP50的平均性能。如表1所示,展示了檢測結果,其中該方法對比前者,均取得了最佳和次佳的檢測結果。結果顯示,該模型在3個不同分割集上均顯著優于Baseline TFA,獲得了比以前方法更全面的性能。例如split 2,在K=1,2,3,10 Shots的檢測中均取得了最先進的結果。在極低樣本K=1,2 Shots情景中nAP50提升尤為明顯,為該方法提供了一個強有力的證據。與TFA相比,在3個分割集的1-Shot檢測中平均提升了3.6%,并且在3個分割集上均表現最佳。極低樣本的檢測結果反映了模型對局部和零散信息的捕捉能力更加突出,更能解決關于隨機采樣的不確定性。同時較穩定的10-Shot也表現出了不俗的性能。

表1 PASCAL VOC測試模型檢測對比/%

3.3.2 MS COCO實驗

為了公平評估模型性能,本文進一步在MS COCO上測試10,30 Shots的檢測表現。實驗結果表明,該模型的表現同樣卓越。與VOC相比,MS COCO具有更穩定和更豐富的源數據集。因此檢測率的提升不像VOC那樣顯著。盡管MS COCO具有挑戰性,但該方法對檢測結果的提升依然可觀。如表2所示,采用了不同的檢測方式,并報告了nAP,nAP75檢測值。在10-Shot下nAP從原來的10%提升到了11.5%,nAP75從原來的9.7%提升到10.2%。隨著樣本數量增加,檢測結果會更加穩定,而該方法在30-Shot下的檢測結果同樣有所提高,這種程度的提高表明該模型更具有泛化性和魯棒性。

表2 MS COCO測試模型檢測對比/%

3.4 消融實驗

本節內容對這些組件產生的影響和貢獻分別進行了測試和分析,并報告了在VOC 07測試集的評估結果。

3.4.1 MRP-FPN模塊實驗

如表3所示,逐一測試了該模塊中的FEM和RPG組件及其組合方式,并報告了1,3-Shot的nAP檢測結果。盡管僅使用原始FPN已有所提升,但總體檢測率仍然不夠高。表格No.2,3分別展示了FEM和RPG的獨立測試結果,其中FEM的效果略優于RPG,在1-Shot情況下,FEM將nAP50提升至 39.6%,RPG則為45.1%。而從No.4中可以看出,兩者組合的效果更佳,3-Shot情況下 nAP50提高了2.6%。表明了FEM有效地聚焦了前景信息,保留了特征細節。而RPG實現了特征的深淺層交流以保持空間對齊。

表3 MRP-FPN消融實驗測試結果/%

為了挖掘組件潛能,充分解決RPN不確定性和提高RoI頭新類知識提取能力,進一步測試了MRP-FPN對RPN和RoI的影響。如No.5~7所示,微調階段嘗試解凍RPN和RoI,結果表明,合理解凍RPN能有效提升檢測率。這是因為組件鼓勵模型利用更多低質量的建議框。在以往測試中這些框容易被RPN篩除,而解凍的方法有助于優化少樣本場景設置中有限的數據,提供更多前景知識以供判斷。

3.4.2 SCL模塊實驗

對SCL組件聚合查詢和支持特征以生成相關特征的能力進行測試,并列舉了部分基類和全部新類的檢測結果,并增加測試了基類檢測率Base AP50(bAP50),其主要是指IoU閾值設為0.5的基類平均檢測精度,反映了基礎訓練階段對基類特征分布構造的能力。此外,還測試了傳統對比機制與共享對比機制對生成類功能的影響。如表4所示,兩種對比方式均提升了檢測率,尤其是在充分樣本下,基類檢測率分別提升了0.6%和1.1%,而采用查詢特征和支持特征共享fc層的做法對新類的提升更加明顯,說明這種類型的對比策略值得嘗試和拓展,尤其是對每個類的低維空間特征遷移和嵌入,有助于元學習對比查詢和支持圖像,并在同類之間創建相似的嵌入向量。No.4則直觀地展示了多尺度投影和共享元對比機制結合的優勢,幾乎對所有新類均有提升。

表4 SCL消融實驗測試結果/%

3.4.3 遷移效率與穩定性測試

前文實驗已經測試相應組件功能,上述表4也反映了CM-FSOD與基線模型的性能。在此基礎上,進一步測試該模型的整體訓練效率。由于訓練樣本稀缺,每一次的樣本方差測試均比較大,容易造成性能差異,很難公平比較其它方法。因此對Baseline和CM-FSOD進行了多次極低樣本K=1情景進行30次重復運行,最后繪制了具有95%置信區間的nAP50(/%)的累積平均值。如圖6所示,splitn_O,splitn_B分別表示本文方法和Baseline方法在分割集n(n=1,2,3) 上測試。多次運行后的平均值始終低于首次運行時的值,尤其在一次性運行情況下,隨著隨機樣本輸入增加,模型平均性能會出現顯著下降。進行了30次重復運行的模型,結果顯示前10次運行的置信區間比較大,當重復次數增加至在20~30次區間,性能普遍趨向穩定,從而允許進行更公平比較。

圖6 多次運行累積平均值

如圖7所示,為了測試模型穩定性,對VOC的基類和新類檢測性能進行了廣泛地評估,并報告了平均值AP、bAP以及nAP,其中K_Ours、K_Bs分別表示K-Shot情景下本文方法和Baseline方法的檢測結果 (K=1,2)。 綜上所 述,該方法穩定性可以媲美,甚至比原有的方法更加出色。側面反映了該方法有助于特征對齊,使模型趨向于穩定。

圖7 關于VOC的廣義目標檢測基準測試

3.5 結果可視化

我們通過定性可視化展示了在VOC數據集新類檢測的部分樣本實際檢測效果,包括遮擋、多物體、小目標等場景。如圖8(a)所示,相較于基線模型,該模型表現出更好的檢測效果,提升了置信分數,減少了錯誤分類。此外,我們還對執行投影機制前后的特征效果進行了可視化,如圖8(b)所示。通過投影前后的特征熱力圖比較,該模型能夠激活查詢特征,從而挖掘更多的細粒度信息,進一步提升了后續的檢測過程。這進一步驗證了該模型在全局和局部搜索能力上的提升,以及其對查詢特征的有效性。

圖8 測試結果可視化對比

4 結束語

本文提出了一種解決少樣本目標檢測中尺度關聯性差、空間不對齊等問題的算法。該方法通過正樣本細化分支修復空間錯位和特征不確定性,保證了尺度不變性。并利用共享對比機制為新類提供了更穩定的匹配方式。與先前方法相比,廣泛實驗驗證了該方法適應性更強、準確率更高,具有更強的應用性。在尚未解決的問題方面,本研究將探索該算法在具體場景和模型效率等方面的應用,并研究在其它下游任務(如細粒度檢測和顯著性檢測)的可行性。

猜你喜歡
微調尺度樣本
用樣本估計總體復習點撥
財產的五大尺度和五重應對
推動醫改的“直銷樣本”
一種新型微調擠塑模具的設計及應用
靈活易用,結合自動和手動微調達到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
隨機微分方程的樣本Lyapunov二次型估計
宇宙的尺度
村企共贏的樣本
9
全國大部省份結束2014高考 多地高考模式微調
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合