?

一種密集的多尺度特征融合的Mobile Net V2圖像分類算法

2022-09-07 04:06馬晟翔王家琦刑昊翔
信息記錄材料 2022年7期
關鍵詞:殘差尺度卷積

邱 佳,馬晟翔,王家琦,刑昊翔

(湖南工程學院計算機與通信學院 湖南 湘潭 411100)

0 引言

圖像分類是計算機視覺的基礎任務,通過視覺圖像特征信息實現對場景下的目標識別和分類,在無人駕駛、智能交通、圖像檢索和軍事等領域都有著廣泛的應用[1]。圖像分類一直受到研究者青睞,從傳統的紋理,梯度等相關特征的學習到深度學習,目標分類有了長足的發展。隨著2012年,Hinton團隊提出Alex Net[2]在Image Net數據集上取得了較大的提升,深度學習開始逐步地應用在圖像處理相關任務中。2014年,Simonyan和Christian Szegedy等[3-4]從模型的深度和寬度兩個方向領域進行擴展,分別提出了VGG Net和Google Net并取得了成功;2015年,Kaiming He[5]結合快速連接的思想針對梯度消失的問題提出了殘差神經網絡(Res Net),進一步擴展了網絡的層數;2017年,Huang Gao等[6]提出Dense Net,在殘差網絡上增加密集的連接層,復用上下文信息,提升網絡的表現效果,同時也證明了上下文信息的表征是有效的。2019年,Ke Sun等[7]提出了HR Net,通過保留多尺度的特征信息的思想來提升網絡的表現。多尺度特征對模型的表達有著重要的影響。

在模型的輕量化領域,2016年,Squeeze Net[8]網絡結合Fire模塊,采用1x1的卷積層降低通道維度,進而降低模型參數;Xiangyu Zhang等[9]通過通道分組和打亂重用網絡特征,有效提升了模型地表現。Howard A G等[10]采用深度可分離的卷積層構建網絡模型,有效地降低卷積層的可學習參數量和所需運算量,但較深度的層次結構導致模型訓練較為不穩定。2017年,Jie Hu等[11]提出建立通道特征相互依賴的模型實現通道間的特征融合。Mark Sandler[12]提出Mobile Net V2倒置的殘差連接和線性瓶頸結構,殘差結構有利于模型梯度的傳遞,降低模型訓練的不穩定性;線性瓶頸處利用線性層替代線性激活層,方便數據表征信息的傳輸。

Mobile Net V2雖然兼顧了模塊內部特征的殘差連接,增加了信息的傳遞,但是缺少對不同尺度的特征信息的整合。設想直接引入Dense Net的思想,密集的連接在不降低通道的維度的基礎上會大規模的增加數據。本算法在基于Mobile Net V2的基礎上,引入一種快速的基于通道維度和空間維度的特征提取模塊,通過整合多尺度特征信息實現特征信息的融合--MFDF Mobile Net V2。本文主要的貢獻有以下幾點:

(1)提出了一種快速的通道和空間維度的特征提取模塊,實現快速的上下文信息整合。

(2)本文在Mobile Net V2的基礎上,結合密集連接的思想,融合多尺度特征,在以較小的計算代價的基礎上提升模型的分類精度。

1 模型算法

本部分將從模型網絡結構和優化目標兩方面介紹算法,模型網絡結構包含有密集連接層和特征融合層兩部分。

1.1 模型網絡結構

Mobile Net V2網絡結構在基于Mobile Net V1結構基礎上構建,Mobile Net V1中采用深度可分離的卷積替代傳統的卷積方式,采用3×3尺寸的Depth Wise(DW)卷積層實現針對空間維度的信息提取,從空間維度采用1x1大小尺寸的Point Wise(PW)卷積層整合特征。然而,深層卷積的堆積易導致梯度信息的消失,造成模型訓練不穩定。Mobile Net V2在Mobile Net V1的基礎上引入倒置的殘差連接網絡,與原有的殘差連接不同,倒置的殘差結構為避免狹窄連接處信息的丟失,增加了額外的PW卷積層,增加特征的通道維度來增大信息的表征空間。此外,為了降低激活函數對特征信息的過濾丟失,在深度可分離的卷積PW后引入了線性連接層替代原有的激活層。

1.1.1 密集連接層

MFDF Mobile Net V2網絡在Mobile Net V2的基礎上,增加多條連接層,從淺層bottleneck block層輸出引向深層的bottleneck block輸出層,多尺度的特征信息用于特征融合。如圖1所示。本算法在bottleneck 層后增加連接結構,本網絡結構中總共包含有7個bottleneck block(Bnblock層,密集連接涉及前6個Bnblock,Bnblock_7輸出后接1×1卷積核和全局池化層,后為輸出通道數)。因此,總計會增加15條連接層。密集的連接層如果采用常規的空間尺度和通道維度的對齊會引入大量的額外計算。為避免于此,本算法受到Squeeze and Excitation Module(SE Module)和深度可分離卷積啟發。提出一種快速的通道壓縮和空間壓縮的方式將不同尺寸的特征進行快速對齊。如圖2所示。本模塊將輸出的特征進行空間維度和通道維度的壓縮,并實現快速的目標尺寸對齊。

在空間維度特征中,如圖2(a)所示。采用全局平均池化和全局最大池化的方式對通道維度進行壓縮,分別得到一層通道的空間維度特征,通過逐元素相加的方式融合池化特征。采用不同尺度大小的空間池化層實現特征的空間維度的尺寸對齊,增加1×1的卷積核引入可學習的權重參數增加自適應調整系數。最后采用Softmax函數操作將特征值映射歸一化處理。

在通道維度特征中,如圖2(b)所示。在特征空間維度中進行全局平均池化和全局最大池化操作進而壓縮空間特征維度,得到1×1的多維通道維度特征,采用逐元素相加的方式融合池化多維度通道特征,結合兩層矩陣感知層實現通道維度的特征對齊,第一層感知層先降低特征通道維度8倍,后提升到目標指定的特征通道維度。這有利于特征維度對齊的映射的可學習參數,后采用Softmax函數映射歸一處理特征值。

1.1.2 特征融合

在融合層,接受來自不同尺度的空間維度特征和通道維度的特征。本融合結構如圖3所示。上層為多尺度的特征,下層為主干網絡bottleneck層特征。先通過逐元素相加的操作分別將空間維度特征和通道維度特征進行融合得到1×1×N維度融合后的空間維度特征和通道維度特征。采取矩陣廣播擴展的方式實現對特征空間維度和通道維度對齊,采用逐元素相乘的方式實現多尺度通道及空間維度特征融合。

1.2 優化目標

在目標優化方面,采用交叉熵損失來衡量多分類損失函數。其具體表達如公式1所示。

其中m表示批量樣本數;Gi表示第i個樣本的交叉熵損失;y表示預測標簽與真實標簽的匹配值,若匹配為1,若不匹配為0;表示類別預測的分數。C表示類別數,c表示第c個類別,為整數,取值在[0,C)中。yiC表示的是第i個樣本的標簽值與第c類的類別是否匹配,若匹配,yiC值為1;否則,yiC值為0。表示第i個樣本的第c類的預測分數。其具體的表達式如公式2所示,采用softmax預測每類別的分數。

其中xc表示第c個類別的值。

此外,采用與Mobile Net V2網絡相同的訓練配置參數進行訓練,初始學習率采用0.0025,權重衰減為0.9,經過120個epoch的訓練。

2 實驗結果

本文在分別從模型參數量、準確度等方面來衡量模型。本算法分別在Cifar10與Celtech101數據集上進行訓練和驗證測試。如表1所示,在Cifar10數據集上,輸入圖片大小為(32,32,3),改進后的模型(MFDF Mobile Net V2)在驗證集上的準確率上達到了95.3%,相比原有的Mobile Net V2網絡精度的92.2%,MFDF Mobile Net V2算法提升了,增加了3個百分點左右。參數量和浮點運算有較小的提升。

表1 cifar10數據集表現

在Celtech101數據集上,圖像的輸入大小為(224,224,3),改進后的MFDF Mobile Net V2模型在驗證集上的表現為94.2%,相比原有模型提升了2.3個百分點,如表2所示。

3 總結

本算法基于Mobile Net V2輕量級網絡上進行改進,通過結合輕量級的快速多尺度空間和通道特征連接和融合。較好地整合了上下文信息,強化了模型的表達。盡管如此,但總體數據集體量相對較小,且模型的內存訪問和多尺度池化特征的生成可以進一步優化。如何打造一款高性能的輕量級圖像分類算法是我們未來將要研究的主要方向。

猜你喜歡
殘差尺度卷積
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設計及FPGA實現
一種并行不對稱空洞卷積模塊①
基于殘差學習的自適應無人機目標跟蹤算法
財產的五大尺度和五重應對
基于深度卷積的殘差三生網絡研究與應用
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
宇宙的尺度
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合