?

多尺度特征金字塔網格的顯著性目標檢測

2022-05-10 08:45張衛明史彩娟任弼娟陳厚儒
小型微型計算機系統 2022年5期
關鍵詞:卷積顯著性尺度

張衛明,史彩娟,任弼娟,陳厚儒

(華北理工大學 人工智能學院,河北 唐山 063210)

1 引 言

作為計算機視覺和機器學習的基礎性任務,顯著性目標檢測能夠定位并提取圖像或視頻中最吸引人關注的部分.早期的顯著性目標檢測利用手工標注的特征對顯著性目標進行檢測,費時費力.隨著深度學習的發展,基于深度學習的顯著性目標檢測[1,2]得到廣泛研究,并在智慧視頻監控[3]和虛擬現實[4]等領域得到廣泛應用.

為了增強高層特征中的語義信息,提高顯著性目標檢測性能,一些研究采用不同的特征金字塔結構,多尺度操作,以及卷積操作等.

近年,特征金字塔網絡(Feature Pyramid Networks,FPN)[5]得到了廣泛研究和應用.FPN是對卷積神經網絡CNN特征提取的一種改進,主要包括3部分:自下至上的通路、自上至下的通路和橫向連接.FPN通過對多尺度多感受域多分辨率的特征進行融合,增強高層特征中的語義信息.此后,一些工作如Ghaisi等人提出的NAS-FPN[6],采用神經網絡結構搜索設計了一種新的特征金字塔結構進行目標檢測,取得了優于FPN的檢測性能.但是,NAS-FPN網絡結構復雜,訓練開銷較大.另外,還有一些工作通過添加新路徑的方式來提高原有FPN的性能.如Liu等人提出的PANet算法[7]在特征金字塔結構中添加了一條新的自下向上的路徑,進一步增強特征融合效果;Liu等人提出特征金字塔網格(Feature Pyramid Grid,FPG)[8],是由特征金字塔組成的深網格,對多種路徑進行融合,不僅取得了優于FPN的性能,同時復雜度也低于NAS-FPN.因此,本文對高層特征設計了一個多尺度特征金字塔網格結構,從而增強語義信息,提高本文所提算法的顯著性目標檢測性能.

對卷積神經網絡提取的特征進行多尺度操作,是當前提升目標檢測性能的主要措施之一.現有特征多尺度提取方式主要有兩種:空洞卷積和池化結合上采樣操作.空洞卷積的方式使用多個較小的卷積核完成大卷積核同樣的任務,得到多尺度輸出,從而降低了模型因為大卷積核導致的高復雜度和大計算量.空洞卷積的代表模塊是Chen等人提出的空間金字塔池(Atrous Spatial Pyramid Pooling,ASPP)模塊[9].但是,由于空洞卷積進行稀疏的特征采樣,這就降低了遠距離特征的相關性,容易引起局部信息缺失等問題.池化和上采樣結合的方式需要經過多種卷積核的提取,池化利用大小不同的卷積核對原始特征進行多尺度提取,獲得不同尺寸的特征圖.上采樣操作采用最近鄰插值等方式將這些特征圖的尺寸恢復到與原始特征一樣,最后進行融合輸出.采用池化/上采樣的方式對圖像進行多尺度多接收域的特征提取,可以提高遠近距離特征之間的相關性,也可以增強語義信息等特性.池化結合上采樣的代表模塊是Zhao等人[10]提出的金字塔池模塊(Pyramid pool module,PPM).相較于空洞卷積,池化結合上采樣的方式開銷小,但是多次的上下采樣操作在一定程度上會降低特征圖像的清晰度.本文所提算法選取PPM模塊對最頂層特征的多尺度操作,進一步增強高層特征中包含的語義信息.

研究發現,不同的卷積操作對提高目標檢測性能以及模型的復雜度均有不同的影響.研究表明將標準卷積分解為d×1和1×d卷積,可以減小參數量,比如秩為1的二維卷積核可等價轉換為一組一維卷積.但是,神經網絡學習到的核往往具有非常大的秩,直接將變換應用于核就會造成顯著性信息的損失.Denton等人[11]通過以基于奇異值分解的方式找到低秩近似,然后微調上層以恢復性能.Ding等人在ACNet算法[12]中提出非對稱卷積(Asymmetric Convolution Blocks,ACB)模塊,使用一維非對稱卷積核來代替方形卷積核,能夠減小模型訓練參數和復雜度,提高模型訓練精度.因此,本文在高低層特征中分別采用ACB模塊來進一步提高所提算法的性能.

綜上,本文采用特征金字塔網格結構、多尺度操作和非對稱卷積等,提出一種多尺度特征金字塔網格(Multi-scale Feature Pyramid Grid, MFPG)來獲取更豐富的語義信息,提高顯著性目標檢測的性能。論文第2節詳細介紹所提多尺度特征金字塔網格模型,第3節進行實驗驗證和性能分析,第4節對本文工作進行總結。

2 多尺度特征金字塔網格

本文提出了一種多尺度特征金字塔網格算法(Multi-scale Feature Pyramid Grid,MFPG)進行顯著性目標檢測,圖1給出了MFPG結構示意圖.

圖1 多尺度特征金字塔網格模型(MFPG)結構示意圖

2.1 MFPG模型結構

本文所提算法MFPG以PFA算法作為基準,同樣采用VGG16為基礎模型,低層特征為Conv1-2和Conv2-2兩層特征,高層特征為Conv3-3、Conv4-3和Conv5-3三層特征.該模型分別對高層特征和低層特征進行操作,分別獲取高層特征的語義信息和低層特征的空間信息.

為了從高層特征獲得更加豐富的語義信息,首先采用特征金字塔網格FPG結構對高層特征進行增強;其次,使用金字塔池模塊PPM對最頂層特征(Conv5-3)進行多尺度操作;最后,使用非對稱卷積ACB模塊(連續3×3、1×3和3×1卷積操作)調整尺寸和通道數.另外,對高層特征采用通道注意模塊(Channel-wise Attention,CA),對低層特征采用空間注意模塊(Spatial attention,SA),將二者融合得到總特征.最后,采用顯著性圖和真值圖之間的交叉熵損失作為損失函數監督生成顯著性預測圖.

2.2 基于特征金字塔網格的高層特征增強模塊

本文設計了一個基于特征金字塔網格的高層特征增強模塊(圖1虛線框包含內容),圖2給出了其具體結構.

圖2 基于特征金字塔網格的高層特征增強模塊

特征金字塔網格是一個多路徑的橫向連接和自頂向下連接的體系結構,相比于特征金字塔網絡具有更好的特征融合性能.本文構建的高層特征金字塔網格結構采用3種方式對特征進行融合:1)橫向連接完成各種特征增強的路徑,本文在橫向連接引入了包含不同擴張率的空洞卷積CFE(context-aware feature extraction)模塊對每層特征進行多尺度提取,以獲得豐富的高層特征語義信息.2)跳連接保障原始特征融合的路徑,跳連接把原始特征引入下一階段的融合操作,進一步保障和增強融合后的高層特征的語義信息.3)上采樣路徑(圖2斜線),保證具有豐富語義信息的高層特征傳遞到低一層進行融合,增強低一層特征具有的語義信息.

2.3 金字塔池模塊

本文采用金字塔池模塊PPM對最頂層特征(Conv5-3)進行多尺度操作,使提取后的特征具有更豐富語義信息,其結構圖如圖3所示.

圖3 PPM結構圖

金字塔池模塊可以進行不同尺度不同接收場的特征提取,增強顯著性目標具有的上下文語義信息.本文金字塔池模塊采用不同大小的卷積核(如1、2、3和6的組合)映射出不同的子區域.首先,對原始圖像使用大小不同卷積核進行池化操作,并進行1×1的卷積操作.然后,對N層特征進行雙線性插值,上采樣到原始圖像的尺寸,其中N為金字塔的層數.最后,將N層的輸出特征串聯在一起,即為最終的輸出特征.

2.4 非對稱卷積模塊

為了進一步提高顯著性目標檢測的性能,本文將非對稱卷積ACB模塊引入到多尺度特征金字塔網格模型MFPG中.非對稱卷積ACB模塊結構圖如圖4所示.

圖4 ACB結構圖

ACB模塊對輸入特征進行3條路徑的卷積操作,卷積核大小分別為3×3、1×3和3×1.最后,對3條路徑的輸出特征進行融合得到ACB的輸出.訓練前用ACB模塊代替標準的方形卷積,提高網絡的訓練精度,減小模型訓練的參數和復雜度,不會引入額外的計算開銷.

3 實驗和分析

將所提MFPG算法在4個數據集上進行了廣泛實驗,通過數值比較、視覺比較、F-measure圖和P-R曲線4方面以定性定量的方式對實驗結果進行了分析,并與當前主流顯著性目標檢測算法進行了比較.

3.1 數據集和實驗平臺

實驗采用ECSSD[13]、DUTS[14]、PASCAL-S[15]和DUT-OMRON[16]4個數據集.2013年香港中文大學的Yan等人建立了ECSSD數據集,該數據集中的顯著性目標具有較復雜的結構.DUTS數據集包含10553個訓練圖像和5019個測試圖像.2014年喬治亞理工學院的Li等人建立了PASCAL-S數據集,根據人類眼動數據集對該數據集中每張圖像的顯著物體進行標定.2013年大連理工大學的Yang等人建立了DUT-OMRON數據集,包括5168張高質量圖像.

實驗所用操作系統是Ubuntu 16.04,CPU為Intel Xeon E5-2630 v4,主頻為2.2赫茲,GPU為GeForce GTX 1080,顯存大小為8GB GDDR5X,模型訓練使用一塊GPU進行.

3.2 評價準則

實驗中采用加權F-度量,平均絕對誤差(MAE)、S-度量、P-R曲線和F-measure圖4種評價準則.

(1)

平均絕對誤差(MAE)是直接計算模型輸出的顯著性預測圖與真值圖之間的平均絕對誤差.首先將兩者進行二值化,然后采用如公式(2)進行計算:

(2)

S-度量(Structural measure,S-measure):可以對顯著性預測圖和真值圖之間的結構相似性進行評估.S-度量處理像素級的錯誤時考慮了對象感知(Si)和區域感知(Sj)結構的相似性.S-度量的計算公式如下:

S=α×Si+(1-α)Sj

(3)

其中,通常α取0.5.

PR曲線是以 precision和recall作為縱、橫軸坐標的二維曲線,即查準率-查全率曲線.PR曲線展示的是Precision & Recall的曲線,通過選取不同閾值時對應的精度和召回率畫出.P-R曲線總體趨勢的精度越高,則召回率越低.

3.3 數值比較

本文所提算法MFPG與多種顯著性目標檢測算法進行了比較,包括PFA[17]、HKSOD[18]、RAS[19]、SRM[20]、PAGRN[21]、C2SNet[22]、Amulet[23]、DCL[24]、UCF[25]、DHS[26]、RFCN[27]、NLDF[28]、KSR[29]和MDF[30].表1列出了在4個數據集上的最大F-度量MF、S-度量S和平均絕對誤差MAE數值比較結果,最好結果用粗體表示.其中MF和S的數值越大表示算法的性能越好,而MAE的數值越小表示模型的性能更好.

從表1可以看出,本文所提算法MFPG在4個數據集上幾乎均取得了最好的檢測結果,證明了所提模型的有效性.其中在DUT-OMRON數據集表現最佳,表明MFPG對復雜背景和多個顯著目標具有很好的檢測性能.其中,MF比HKSOD、RAS和SRM分別提高了13.11%、8.23%和11.03%,S比HKSOD、RAS和SRM分別提高了5.28%、0.97%和2.59%,MAE比HKSOD、RAS和SRM分別減小了0.69%、0.27%和1.04%.

表1 本文算法與其他13種顯著性目標檢測算法的數值比較(MF是max F-measure)

3.4 視覺比較

圖5展示了所提MFPG與其他14種顯著性目標檢測方法的視覺比較結果.第1行-第7行圖片基于DUT-OMRON數據集測試,第8行-第9行圖片來源于ECSSD數據集.

第1行和第7行是前/背景對比度較低時,第2行和5行是顯著性目標較小的情況,第3行、第4行和第6行是在復雜數據集下,較大的顯著性目標的情況,第8行和第9行是在簡單數據集下,顯著性目標較大的情況.第1列為原始圖像,第2列為真值圖,第3列為本文算法獲得的顯著性圖.

從圖5可知:1)當顯著性目標與背景對比度較低時(第1行和第7行),所提算法MFPG能夠對顯著性目標進行正確定位,并畫出較清晰的輪廓邊界;2)當顯著性目標較小時(第1行、第2行和第6行),相較于其他算法,所提算法MFPG能夠進行正確的顯著性目標定位;3)顯著性目標在復雜圖片中較大時(第3行、第4行和第7行),因為所提模型能夠提取更豐富的高層語義信息,從而準確定位顯著性目標的位置,同時使顯著性目標具有清晰的邊界;4)顯著性目標在簡單圖片中較大時(第9行和第10行),通過觀察可知所提算法MFPG能夠產生較好的預測圖,優于大多數顯著性目標檢測算法.

圖5 本文算法與其他13種顯著性目標檢測方法的視覺比較

3.5 P-R曲線和F-measure圖

圖6和圖7分別展示了所提算法MFPG與其他14種顯著性目標檢測方法的P-R曲線比較和F-measure圖比較.

從圖6 可以看出,MFPG的PR曲線優于其他14種顯著性目標檢測算法的PR曲線,這證明了MFPG算法有很好的性能和魯棒性,尤其是在DUT-OMRON數據集.這表明在復雜數據集(背景復雜或者多個顯著性目標等)中,所提模型能夠取得良好的檢測性能.從圖7 可以看出,F-度量優于其他的顯著性目標檢測算法,這也說明了MFPG算法是可行的,即使在具有挑戰性的數據集,也能取得良好的表現.

圖6 P-R曲線結果比較

圖7 F度量穩定性比較

3.6 多尺度性能比較

本節對現有多尺度操作的兩類代表模塊PPM和ASPP進行了實驗分析,表2給出了兩種模塊的數值比較結果.通過表2可知,金字塔池塊PPM的性能表現更加優異,相較于ASPP模塊,MF升高了0.29%,MAE減小了0.02%.因此,本文所提算法MFPG采用金字塔池模塊PPM對高層特征進行多尺度操作,從而獲得更加豐富的語義信息.

表2 ASPP和PPM性能比較

3.7 非對稱卷積與方形卷積比較

本節對非對稱卷積模塊(ACB)和方形普通卷積進行了實驗分析,表3給出了非對稱卷積和采用3×3卷積核的方形卷積的數值比較.從表3種可以看出Fβ提高了0.0143,MAE減小了0.0105,表明非對稱卷積能有效提高模型性能.

表3 非對稱卷積和3×3卷積核性能比較

3.8 消融實驗

本節基于PFA基準算法進行了消融實驗,研究所提算法MFPG中主要模塊性能,包括高層特征金字塔網格結構(FPG)、金字塔模塊(PPM)和非對稱卷積模塊(ACB).1代表基基準算法PFA,5代表本文所提算法MFPG.消融實驗在ECSSD數據集進行,結果如表4所示,最好的結果用黑色粗體顯示.

從表4可以看出:

表4 MFPG的消融實驗

1)僅采用高層特征金字塔網格結構(FPG).高層特征金字塔網格模塊能夠(表3中的第3行)提升檢測性能,Fβ從0.8936增加到0.8947,MAE從0.0560減少到0.0540.這主要歸功于高層特征金字塔網格結構可以使MFPG從多尺度的高層特征中捕獲豐富的上下文信息,增強顯著性目標的定位.

2)僅采用金字塔模塊(PPM).通過將金字塔池細化模塊(PPM)引入基準算法PFA(表3中的第4行),Fβ從0.8936增加到0.9064,MAE從0.0560減少到0.0459.這表明PPM能夠促進語義信息的獲取,并顯著提高檢測性能.

3)僅采用非對稱卷積模塊(ACB).在基準算法PFA中嵌入ACB模塊(表8中的第5行)也有助于提高檢測性能,Fβ從0.8936增加到0.9079,MAE從0.0560減少到0.0455.這表明非對稱卷積模塊ACB能夠提高基礎模型的性能,表明了ACB模塊的有效性.

4)同時采用以上3種模塊的所提算法MFPG.可以看出MFPG的性能比PFA有了很大的提高,其中Fβ從0.8936增加到0.9105,MAE從0.0560減少到0.0437.這表明這些模塊共同作用使本文所提算法MFPG具有更好的顯著性目標檢測性能.

4 結束語

本文從特征金字塔網格結構、多尺度操作和非對稱卷積3個角度出發,提出了一種多尺度特征金字塔網格算法MFPG,從高層特征獲取更加豐富的語義信息,進而提升顯著性目標檢測性能.但是,所提模型存在顯著性目標空間信息不足等問題,接下來將進行空間信息增強的研究,提取清晰地顯著性目標邊界.

猜你喜歡
卷積顯著性尺度
基于全卷積神經網絡的豬背膘厚快速準確測定
基于圖像處理與卷積神經網絡的零件識別
基于深度卷積網絡與空洞卷積融合的人群計數
論商標顯著性的判定標準
歐盟法院判決明確歐盟商標通過使用獲得顯著性的地域認定標準
論聲音商標的顯著性
尺度
卷積神經網絡概述
商標顯著性的司法判斷(一)
以長時間尺度看世界
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合