?

空間和通道注意力多級別特征網絡圖像語義分割

2021-10-14 10:22宣明慧張榮國李富萍
太原科技大學學報 2021年5期
關鍵詞:空間信息語義注意力

宣明慧,張榮國,胡 靜,李富萍,趙 建

(太原科技大學 計算機科學與技術學院,太原 030024)

傳統的圖像分割方法有基于閾值、基于邊緣和基于區域等,這些方法的分類依據是顏色和紋理等底層特征,而非語義特征,而圖像語義分割是對每個像素點賦予語義含義,是場景理解的基礎性技術。

近年來,隨著數據集和GPU 的不斷發展和完善,卷積神經網絡在訓練大量數據學習特征上表現出了很大的優勢。全卷積神經網絡(FCN)[1]在圖像識別任務的基礎上,去掉最后的全連接層,對每個像素點屬于哪一個語義標簽產生一個預測概率,FCN將圖像分類問題轉換成了像素點分類問題,是深度學習技術在圖像語義分割任務上的開端,但是FCN仍然存在相同語義類分割不緊湊,不同語義類分界不明顯的問題。DeepLab V1[2]根據目標的大小來調整空洞卷積的空洞率,以達到調整感受野的目的。文獻[3]引入通道注意力機制,根據從高級特征中獲得的全局上下文信息將注意力集中到圖像的特定內容,結合金字塔結構,不需要使用復雜的空洞卷積就可以提取密集特征,是一種新的特征融合方式。SegNet[4]引入編碼器-解碼器思想,在解碼器階段使用最大池化索引對特征圖進行上采樣。

圖像語義分割模型在提取高級特征的過程中由于不斷的下采樣導致空間位置丟失,導致語義分割的效果較差,因此如何將具有空間信息的低級特征與高級特征進行融合成為研究的重點。針對該問題,本文提出聯合空間注意力模塊和通道注意力模塊融合并行路徑多級別特征的方法,以提高小目標物體的分割效果。

本文主要有以下3方面的貢獻:

(1)給出了一個空間注意力模塊,針對具有豐富位置信息的低級別特征圖,提取空間注意力矩陣來指導缺乏位置信息的高級特征圖;

(2)將提出的空間注意力模塊聯合通道注意力模塊,以融合具有不同級別特征的并行路徑;

(3)所提的利用空間和通道注意力模塊融合多級別特征構造學習網絡的方法,對于小目標和邊界具有良好分割效果。

1 相關工作

1.1 注意力機制

CBAM[5]在通道注意力的基礎上引入空間注意力,結合了空間注意力和通道注意力機制;DANet[6]提出了一種新穎的對偶注意力網絡,利用通道注意力模塊學習通道之間的相關依賴性,利用位置注意力模塊學習特征的空間依賴性,兩個模塊并行分布最后進行加和。

1.2 空間信息

針對空間位置信息大量丟失的問題,BiSeNet[7]引入空間路徑,保持較高分辨率,保留更多的小目標和邊界信息;DeepLab V1[2]模型引入空洞卷積解決高級特征位置信息大量丟失的問題。

2 本文方法

基于BiSeNet[7]的雙通道和CBAM[5]的空間注意力思想,本文提出利用空間注意力模塊(SAM)和通道注意力模塊(CAM)來融合具有低級別特征的空間信息路徑和具有高級別特征的語義信息路徑。

2.1 通道注意力模塊(CAM)

通道注意力模塊:在卷積神經網絡中,每一層網絡會產生多個通道,若給每個通道上的信號都增加一個代表該通道與關鍵信息相關度的權重,那么權重越大,則表示相關度越高,借鑒文獻[5]的思想,本文的通道注意力模塊同時使用全局平均池化和全局最大池化來獲得最終的通道注意力向量,對語義信息路徑上的每層特征圖提取通道注意力向量,將提取到的通道注意力向量作用于語義信息路徑的相應特征圖上,確定每層特征圖上需要重點關注的內容。通道注意力模塊如圖1所示。

通道注意力模塊可用公式(1)表示:

(1)

公式(1)中的XSE表示語義信息路徑中每層輸出的特征圖,也是通道注意力模塊的輸入特征圖,CA(XSE)表示對特征圖XSE提取通道注意力向量。

語義信息路徑:圖1中的語義信息路徑采用預訓練模型Resnet101作為主干網絡,如表1所示,2X、4X、8X、16X、32X分別表示2倍、4倍、8倍、16倍、32倍下采樣。

表1 語義信息路徑網絡結構列表

2.2 空間注意力模塊(SAM)

空間注意力模塊:考慮到圖像中空間位置信息的重要程度不同,本文引入空間注意力模塊,借鑒文獻[5]的思想,本文的空間注意力矩陣是在通道軸上聯合使用平均池化和最大池化獲得最后的空間注意矩陣,對具有豐富位置信息的空間信息路徑上的特征圖提取空間注意力矩陣,將提取到的空間注意力矩陣作用于語義信息路徑的相應特征圖上??臻g注意力模塊如圖2所示。

圖2 空間注意力模塊

空間注意力矩陣可用下面的公式表示:

(2)

空間信息路徑:圖3中的空間信息路徑主要包含5個卷積層以及對應的Batch Nornalization層、ReLU層,如表2所示。

表2 空間信息路徑網絡結構列表

2.3 網絡架構

如圖3所示,首先針對具有高級別特征的語義信息路徑引入了通道注意力模塊,在Resnet101提取的特征圖上,顯式地建模通道之間的相互依存關系,確定每層特征圖上需要重點關注的內容;其次針對具有低級別特征的空間信息路徑引入空間注意力模塊,在保留了豐富空間信息的特征圖上提取空間注意力矩陣,并將提取的空間注意力矩陣作用于語義信息路徑相應特征圖,以確定需要重點關注的位置。

圖3 網絡概述圖

額外監督:在主監督的基礎上加入兩個輔助監督,采用交叉熵函數計算損失。

(3)

公式(3)中的p和q分別是網絡的最終輸出預測圖中像素點的預期輸出和實際輸出,p1和q1、p2和q2分別是第一次、第二次進行上下級特征融合后輸出的特征圖中像素點的預期輸出和實際輸出。

Loss=l0+l1+l2

(4)

2.4 實現細節

SGD優化器:初始學習率為0.1,動量為0.9,為了防止過擬合,設置權重衰減率為5e-4.

(5)

公式(5)中Loss為模型的初始損失函數,N為樣本數,λ是正則項系數也就是權重衰減率,W為網絡中權重參數。權重更新方式為:

(6)

公式(6)中,W代表網絡中權重參數,V代表速率,g代表梯度,ρ代表動量,lr表示學習率。

3 實驗結果與分析

CamVid數據集的實驗環境是網上服務器GeFore RTX1080Ti,10G顯存。CamVid數據集共有701張城市街道圖,本文對數據集進行處理,將其中的421張作為訓練集,112張作為驗證集,168張作為測試集,共有建筑物、行人、路面、圍欄、汽車、自行車手、樹、桿、指示牌等11個語義類,將圖像剪裁為352*352,批次大小設為5.

3.1 消融實驗與分析

為了驗證本文方法的有效性,設計了一種對比實驗。依次從語義信息路徑的每一層的特征圖中提取通道注意和空間注意,然后對特征融合進行上采樣,對于具有在空間信息路徑上具有位置信息的特征圖,不提取空間注意矩陣。

從表3可以看出,文本方法優于對比方法。從圖4可以看出,本文方法對人行道,建筑物,道路,汽車和樹木等具有良好的分割效果。

表3 CamVid測試集上對比實驗結果

圖4 CamVid測試集可視化效果圖

3.2 與其他語義分割方法的對比分析

表4給出了本文方法與8種現有方法在11個語義類上的對比結果。觀察表4中的數據,本文方法在自行車,建筑,標志符號等7個語義類上的精度都高于其他方法。在道路,行人,柱桿和天空等4個語義類上,本文方法精度稍低,但仍高于其他大部分方法。從整體指標mAcc_class可以看出,本文方法在這11個語義類上具有良好的性能。

表4 各類方法在CamVid測試集11個語義類上的結果對比

本文方法與10種現有方法在CamVid測試集進行對比。實驗結果如表5所示,在Mean IOU和Pixel Accuracy兩個評價指標上,本文方法高于其他10種現有方法。

表5 各類方法在CamVid測試集上的結果

4 結論

針對空間信息丟失和復用問題,本文提出的融合空間和通道注意力多級別特征的圖像語義分割模型,保留了豐富的空間信息,并通過通道注意力模塊和空間注意力模塊對特征圖進行了融合,提高了目標物體的分割精度。但由于自動駕駛領域對于圖像語義分割具有實時性要求,因此接下來將在降低模型復雜度和提升實時性方面進行研究和探索。

猜你喜歡
空間信息語義注意力
真實場景水下語義分割方法及數據集
結合多層特征及空間信息蒸餾的醫學影像分割
讓注意力“飛”回來
共建空間信息走廊 助力“一帶一路”
城市空間導示系統中的空間信息編碼研究
A Beautiful Way Of Looking At Things
“吃+NP”的語義生成機制研究
漢語依憑介詞的語義范疇
閱讀理解兩則
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合