?

融合注意力機制下的弱監督目標檢測①

2024-01-06 13:59楊振文鄭海君
關鍵詞:集上分支實例

楊振文, 葛 斌, 鄭海君, 鄔 成

(安徽理工大學計算機科學與工程學院,安徽 淮南 232001)

0 引 言

由于弱監督目標檢測算法僅使用圖像級標簽訓練目標檢測器的弱監督目標檢測可以大大節約數據標注成本,具有重要的研究價值與實際意義[15]。但是,由于缺乏精確標注的監督,在進行檢測任務時,檢測器往往傾向于將最具辨別力的部分(如一張圖像中動物的頭部)作為目標對象,造成了檢測目標信息的不完整性,形成局部最優問題。

目前的弱監督目標檢測算法通常將弱監督目標檢測看做多實例學習(Multiple Instance Learning,MIL)任務[1-3],Bilen等[4]提出了一種雙流弱監督深度檢測網絡(Weakly Supervised Deep Detection Networks,WSDDN),網絡通過匯總分類流和檢測流的得分來選擇陽性樣本;Tang等人[5]在此基礎上提出使用在線實例分類細化(Online Instance Classifier Refinement,OICR)算法來緩解局部最優問題;劉,Gu等人[6,13]提出了一個集上下文感知和自適應多實例細化為一體的弱監督目標檢測算法,利用提出的全局上下文注意力模塊以及參數化空間丟失模塊對上下文特征進行充分利用,緩解局部最優問題;Wan等人[7]通過在空間圖和外觀圖上引入標簽傳播,挖掘了更多潛在對象來生成偽標簽。

然而,這些方法對圖像中目標信息檢測不夠充分,容易缺失圖像的邊緣紋理信息而忽略其他潛在對象,導致檢測缺失,同時由于缺乏準確的實例級注釋,難以確定一個邊界框是否包含一個完整的對象,局部最優的問題仍然存在。

為了解決上述問題,提出一種基于通道-空間全局注意力改進的弱監督目標檢測算法,引入注意分支充分考慮了目標的全局特征,提高了網絡的判別能力和檢測精度。同時,采用端到端的方式進行模型的訓練[14],具體框架流程如圖1所示。

1 基本原理

1.1 弱監督目標檢測算法流程

與傳統目標檢測算法流程不同,弱監督目標檢測旨在使用圖像級的標簽完成檢測任務,主要流程如圖2所示。對于輸入圖像,采用多實例學習(Multiple Instance Learning, MIL)的方法[8-10],利用cnn進行特征提取完成對MIL檢測器的訓練,將MIL檢測器選擇的建議作為同階段邊界盒回歸器的監督,以端到端的方式聯合訓練[11]。

圖1 方法的總體框架

圖2 弱監督目標檢測算法流程

1.2 多實例網絡

多實例網絡由多實例分支、多任務分支和回歸分支組成,具體網絡架構如圖3所示。將特征提取網絡生成的區域特征向量通過基礎多實例網絡選擇生成置信分數最高的候選框作為初始偽真值標簽,并用于監督后續多任務分支的訓練,多任務對輸入的特征向量進行優化處理生成偽真值注釋,經回歸分支后生成優質的目標定位檢測結果。

首先使用選擇性搜索算法為每幅輸入圖像生成提案,然后將提案輸入到預訓練的卷積網絡中生成每個提案的特征圖,獲得特征圖后,采用多實例分支來初始化偽真值標簽。

(1)

圖3 多實例網絡

多任務分支中每個分支由一個全連接層和一個Softmax 層組成,所有分支使用相同的特征,第K-1級優化器的輸出作為第K級的監督信息:

(2)

本文在候選框篩選中通過引入自適應函數進行動態閾值調整,避免模型的優化從一開始便陷入局部最優,選擇高質量的候選框作為最終的檢測結果,同時使用優化損失來指導優化器的訓練:

(3)

2 基于融合注意力機制下的弱監督目標檢測

注意力模塊由卷積層、非線性激活層和空間歸一化組成:

zi,j=F(wTxi,j+b)

(4)

圖4 注意力模塊

(5)

(6)

通過加入分類損失來指導注意力權重的學習,生成注意力圖A∈RH×W×C。注意力模塊形式化為:

(7)

(8)

(9)

通過在權重學習中引入分類監督,將注意圖A輸入到另一個卷積層和全局平均池化(GAP)層,得到分類評分向量。然后通過標準的多標簽分類損失對注意圖進行監督。將增強后的特征映射組件饋送到后續組件進行檢測。

使用隨機梯度下降法從四個分量中優化以下復合損失函數來訓練整個網絡:

(10)

3 實驗驗證與分析

3.1 實驗設置

選擇在目標檢測任務中常見的PASCAL VOC 2007和VOC 2012數據集上對本文的網絡結構進行了評估,使用由選擇性搜索窗口生成約2000個提案,使用5個圖像尺度(480,576,688,864,1200)來進行數據增強,采用在ImageNet[12]上預訓練的VGG16作為網絡的主干,對于測試,選用平均精度均值(mean of Average Precision,mAP)和正確定位率(Correct Localization, CorLoc)作為評價指標,均遵循 PASCAL VOC的計算標準,CorLoc計算了真實值與預測框大于等于0.5 IoU的比例。

3.2 消融實驗

在PASCAL VOC 2007上進行了消融實驗,基礎網絡由單一的多實例分支(Multiinstance branch,MIL)承擔,驗證了包括多任務分支(Multitask branch,MB)、回歸分支(Regression branch,REG)、融合注意力機制(Integrative attention mechanism,IAM)各個模塊的有效性,結果如表1所示。

表1 在Pascal VOC2007 數據集上的消融實驗(%)

由表1可得,相比于單一的多實例檢測網絡,融入多任務分支后,mAP提高了2.2%,CorLoc提高了2.1%,而融合注意力機制的加入,mAP提升了5.1%,CorLoc提升了4.1%;通過構造回歸分支,檢測精度達到了48.8%,定位精度達到了66.6%,引入引導注意力機制后,檢測精度達到了53.0%,定位精度達到了69.4%。

3.3 對比實驗

算法模型分別在PASCAL VOC2007、2012數據集的不同數據類別上對比了8種近幾年主流的弱監督目標檢測算法,其中,表2和表3 展示了在PASCAL VOC 2007 數據集上的實驗結果,表4展示了在PASCAL VOC 2012數據集上的實驗結果。從以上表看出,提出模型取得了不錯的性能, 進一步證明本文提出的網絡的有效性。

表2 VOC 2007測試集上不同算法的定位精度(%)

表3 VOC 2007訓練驗證集上不同算法的檢測精度(%)

方法在PASCAL VOC 2012數據集上也得到了很好的驗證,如表4所示,本文算法在PASCAL VOC 2012上取得了46.9%的mAP和66.2%的CorLoc,明顯優于OICR,PCL,WSCL,B-OICR等近年主流的弱監督目標檢測算法。

表4 VOC 2012 數據集上與主流方法的比較

3.4 可視化結果

為了更直觀地觀察到本文算法的有效性,展示了部分在 PASCAL VOC 2007 數據集上與OICR的預測結果,如圖5所示,圖中藍色框表示真實邊界框(Ground Truth),綠色表示預測結果正確的邊界框(與Ground Truth的IoU大于等于0.5),黃色框表示沒有檢測結果相交的真值標簽,紅色表示預測錯誤的結果。同時,在預測框左上方給出了圖像的預測類別及置信度??梢杂^察到,在第一行中的1,3,5列,傳統的OICR方法容易陷入局部最優解,只檢測到物體的顯著特征部分,僅定位到了狗、貓等動物的頭部,提出的方法有效地解決了局部定位問題(第2,4,6列所示)。此外,算法也解決了檢測時預測框過小或過大的問題,如圖5第二行所示,能得到更精確的檢測結果。從圖5中可視化結果的第三行來看,對于圖像中出現多個類別的物體時,所提方法均能檢測到,展示了良好的有效性與魯棒性。

圖5 部分可視化結果

4 結 語

針對弱監督目標檢測中存在的局部定位與進行特征提取時丟失了大量語義信息的問題,提出了一個基于融合注意力機制下的弱監督目標檢測,通過引入自適應監督的策略以端到端的方式共同優化了多實例檢測與回歸。同時,在模型里增加融合注意力機制,充分考慮了全局特征,增強了特征學習的定位能力,在PASCAL VOC 2007 和VOC 2012 數據集上均取得優異的結果,有效地緩解了局部定位的問題,提升了特征提取等多個方面的綜合性能。

猜你喜歡
集上分支實例
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
巧分支與枝
一類擬齊次多項式中心的極限環分支
復扇形指標集上的分布混沌
完形填空Ⅱ
完形填空Ⅰ
生成分支q-矩陣的零流出性
幾道導數題引發的解題思考
碩果累累
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合