?

基于深度特征融合的圖像分類算法的研究

2020-10-15 12:15蔡志鋒袁寶華劉廣海
計算機應用與軟件 2020年10期
關鍵詞:維數類別深度

蔡志鋒 袁寶華 劉廣海

1(三江學院計算機科學與工程學院 江蘇 南京 210000) 2(南京理工大學泰州科技學院計算機系 江蘇 泰州 225300) 3(廣西師范大學計算機科學與信息工程學院 廣西 桂林 541004)

0 引 言

基于內容的圖像分類主要通過圖像的視覺特征信息對圖像進行分類,是近年來計算機視覺、人工智能等領域中一個非常熱門的研究課題。傳統的圖像分類方式通常使用統計學習算法進行圖像分類,例如:支持向量機[1](SVM)、K均值聚類[2]和最近鄰距離[3]等。但上述算法未曾考慮圖像的高層語義信息,因此經常產生錯分、漏分等現象,分類精度較低。

深度學習網絡是近十年來興起的一種方法,已經應用到圖像的各個領域中并取得了令人驚喜的進展,如:目標識別[4]、圖像檢索[5]和圖像分類[6-7]等。深度學習通過多個隱含層的學習,從大規模數據中逐層進行學習和特征提取,尋找數據最優的抽象表達方法,從而提高分類或識別的準確率。但深度網絡模型需要大量的數據進行訓練,耗時較長,對存儲要求也相對較高。對于小數據量的數據集,直接采用CNN進行訓練,往往容易造成過擬合現象,因此通常采用預訓練的CNN網絡。輸入圖像經過深度學習預訓練網絡,將卷積層或者連接層的響應值作為該圖像的深度特征,然后通過訓練SVM等常規分類器對場景圖像進行分類。

數據模態的多樣性必然導致特征抽取方式的多樣性,每種特征抽取方式都有其關注的側重點,比如:紋理特征描述符只關注紋理而不關心顏色,因此單個特征通常只表征某一方面的信息。特征融合優勢是明顯的,因為同一模式所提取的不同特征向量反映了模式的不同特性,對它們進行優化組合,既保留了參與融合的多組特征的有效鑒別信息,又消除了特征向量之間的冗余信息。深度學習方法已經深入到在計算機的各個領域中,研究適用于深度學習的信息融合技術很有必要。融合方法通常分為像素級、特征層以及決策層的融合[8]。特征層的融合[9-11]相比其他兩種融合更有效,因為其融合后的特征通常包含更多豐富的信息,從而提高識別率。Miao等[9]通過ResC3D深度學習網絡提取深度特征,然后采用典型相關分析方法進行特征融合,用在手勢識別上取得了不錯的效果。Haghighat等[10]考慮分類中的類別信息,提出鑒別相關分析的方法用于多模態的特征融合,該方法能夠有效地消除類間的相關性,限制類內的相關性。Chaib等[11]采用VGG預訓練網絡不同全連接層的特征,通過判別相關分析(Discriminant Correlation Analysis,DCA)進行特征融合,最后通過SVM進行分類。借鑒文獻[9-11]的思路,本文采用不同的預訓練網絡來提取圖像的高層語義特征,然后進行特征融合,最后采用SVM分類器分類。

本文比較了兩種不同的深度特征獲取策略:(1)采用同一預訓練深度學習網絡的不同層特征的特征融合;(2)采用多個深度學習網絡的全連接層特征的特征融合。同時,通過增加權重,重新定義DCA方法中的類間散度矩陣,使其能夠對那些類別差異較小的類別也有較好的區分度。該方法可以充分利用深層網絡結構的優勢,獲取圖像的高層語義特征,提高分類結果的準確性,同時考慮了深度特征融合,能更有效地挖掘高層語義特征,大幅降低訓練時間并提高分類精度。構建多個預訓練CNN的深度特征的特征融合,將其應用到圖像分類中,實驗結果表明該特征融合方法獲得的深度特征相比于單個深度學習特征,具備強大的特征表征能力和低維特性,從而提高圖像分類性能。

1 相關知識

1.1 特征融合

典型相關分析(Canonical Correlation Analysis,CCA)通常是用來解決兩組隨機向量之間相互關系的統計方法,其目的是尋找兩組投影方向,使兩個隨機向量投影后的相關性達到最大[12]。然而,CCA的主要缺點是其忽略了數據集中的類別信息。近年來,DCA的出現克服了CCA中忽略類別信息的缺點,能夠將同類樣本特征相關性最大化,同時最小化不同類樣本特征之間的相關性,有利于提高分類性能。

(1)

類間散度矩陣定義為:

(2)

(3)

式中:P是正交向量矩陣;Λ是由非負特征值組成的對角矩陣。式(3)可表示為:

(4)

式中:φ(c×r)是最大非零的特征向量矩陣;r表示矩陣的秩。

Sbx最大r個特征向量能通過映射φ→Φbxφ得到:

(Φbxφ)TSbxΦbxφ=Λ(r×r)

(5)

(6)

(7)

第二特征集Y也采用上述方法得到:

(8)

(9)

式中:r為轉換后特征的秩。

r≤min(c-1,rank(X),rank(Y))

(10)

(11)

(12)

(13)

式中:Wx=WbxWcx和Wy=WbyWcy分別表示X和Y的最終的轉換矩陣。

1.2 深度特征網絡

在過去的十年中,已經開發出幾種用于大規模圖像分類和物體檢測的CNN模型,例如:Alexnet[13],VGG[14],ResNet[7],Inception-v3[16],GoogLeNet[17]和Inception-ResNet-v2[18]等。不同的預訓練網絡具有不同的特性,它們都具備了提取強大且豐富特征的能力,從而使得其能遷移學習到其他領域中。不同的深度學習網絡具有不同的網絡結構,下面介紹幾種典型的深度網絡。

(1)AlexNet:由Alex Krizhevsky設計的卷積神經網絡,共八層,前五層是卷積層,后三層是全連接層。在網絡中使用非飽和ReLU激活函數,其能夠提供比tanh和sigmoid等激活函數更好的訓練性能。實驗中,網絡的輸入圖像大小通常為227×227,提取第一個全連接層特征作為圖像特征,其維數為4 096維。

(2)ResNet:2015年提出的深度卷積網絡,當年在ImageNet競賽中獲得圖像視覺挑戰中三項任務的冠軍。通過增加網絡的深度來提高識別率,從而解決網絡深度增加帶來的退化問題,使網絡更容易優化。實驗中,提取殘差網絡的全連接層作為圖像特征,其維數為1 000維。

(3)VGG:在AlexNet網絡的基礎上開發的,其具有良好的泛化能力。VGG網絡由conv、pool、fc和softmax層組成。它的主要貢獻是使用一個非常小的3×3卷積內核進行網絡設計,并將網絡深度增加到16或19層。在實驗中,采用第一個全連接層的特征來作為圖像特征,其維數為4 096維。

(4)GoogLeNet:由Szegedy等構造的深度學習網絡,其網絡結構稀疏且具備高計算性能。該模型通過構造Incepteion模塊和均值池化來代替全連接層來減少模型參數規模。在網絡設計之初,研究人員就考慮了計算效率和實用性,從而讓GoogLeNet能夠在不同設備上運行。實驗中,獲取最后一個池化層特征來作為圖像特征向量,其維數是1 024維。

幾種典型的深度學習網絡參數如表1所示。

表1 典型的深度學習網絡參數

與大多數基于SIFT、SURF和HOG等低層特征的場景分類方法相比,本文提出的框架是基于不同預訓練CNN模型的深度特征的融合。將不同預訓練CNN模型的全連接層作為輸入的特征向量,能夠描述圖像場景的重要特征。

2 基于深度特征融合的圖像分類算法

2.1 Weighted DCA(WDCA)

DCA算法考慮了類別信息,能夠使同類特征相關最大化,并且不同類的特征相關最小化,但是其不能很好區分類間距離較小甚至重疊的類別。DCA的類間散度矩陣如式(2)所示,對于那些類間距離越大的類別,其散度矩陣中對應的值越大,反之,則越小。這樣會導致過分強調那些離散度大的類的作用而忽略了離散度較小的類。

為此,通過增加權重來約束,降低那些離散度大的類的影響,提高離散度較小類的作用。重新定義DCA算法中的類間散度矩陣為:

(14)

2.2 基于WDCA的圖像分類算法

目前,常用的特征融合方法通常有:簡單疊加和串行連接。簡單疊加方法難以反映多特征之間的差異性,而串行連接方法通常會產生高維的融合特征,其包含了過多的冗余信息,導致計算效率降低。因此本文將WDCA的方法應用于深度網絡的高層語義特征的融合,其不但能夠有效地表征不同的語義特征之間差異,而且能夠有效地降低特征融合后的維度,從而大大地節約計算成本。本文采用兩種策略來進行深度網絡的高層語義特征獲取,并在實驗中進行比較分析。

第一種策略:首先輸入圖像通過同一類型的卷積神經網絡,然后分別提取不同層的深度特征作為圖像特征,對其采用WDCA的方法進行融合。

第二種策略:首先輸入圖像通過兩個不同類型的卷積神經網絡提取到深度特征,然后對深度特征采用WDCA的方法進行融合。

兩種策略僅在于深度學習特征的獲取方式不同,后續特征融合的步驟相同。采用上述策略,特征融合后的特征維數為100×2,維數大大降低,使訓練時間大大縮短,最后通過SVM分類器進行識別,如圖1所示。

圖1 基于深度特征融合的圖像分類框架

選擇不同深度網絡的全連接層或者同一深度網絡的不同層作為圖像的深度特征,然后通過WDCA方法對兩個不同的深度特征進行融合。由于X和Y的維數通常遠大于類別數,如式(10)所示,則融合后的特征維數最大為C-1,C為類別數。采用兩種形式來表示單個圖像的特征:

(15)

此為串行形式,融合后的特征維數2×(C-1)。

(16)

此為求和形式,融合后的特征維數為C-1。

基于深度特征融合的圖像分類算法步驟如下:

(1)利用不同的預訓練網絡,分別提取訓練集圖像的全接連層的深度特征,構成圖像深度特征矩陣Xm×p=[φ1,φ2,…,φm]和Ym×q=[ψ1,ψ2,…,ψm]。

(2)根據WDCA特征融合算法,利用式(12)和式(13)將矩陣X和Y融合后分解為DX、DY以及投影矩陣Wx、Wy;根據式(15)或式(16)組合成訓練圖像最終的特征融合向量Z1或Z2。

(3)利用不同的預訓練網絡,提取測試圖像的深度特征矩陣TXn×p=[φ1,φ2,…,φn]和TYn×q=[ψ1,ψ2,…,ψn]。分別將其投影到對應的特征空間Wx、Wy,得到測試圖像的深度融合特征A和B特征向量:

A=WxTX

(17)

B=WyTY

(18)

(4)根據式(15)或式(16)將測試圖像的特征A和B組合成測試圖像最終的特征融合向量TZ1或TZ2。

(5)采用SVM分類器進行圖像分類。

3 實驗結果

3.1 實驗平臺

為了驗證特征融合方法的有效性,本文在公開的Caltech 256數據集上,對算法進行評估。在分類任務中,采用SVM分類器,使用LIBSVM庫[1],并通過五個交叉驗證選擇正則參數。實驗中計算機配置如下:Intel Core I7-4710Mq CPU @2.5 GHz×8, 內存12 GB,無GPU。實驗中軟件環境為MATLAB 2018b,使用的深度學習網絡架構均來自MATLAB 2018b自帶的深度學習包。

對于第一種策略,采用VGG預訓練網絡,提取fc6、fc7層特征進行特征融合;對于第二種策略,分別采用VGG(簡稱V)、resnet101(簡稱R)、GoogLeNet(簡稱G)和inceptionresnetv2(簡稱I)四種不同結構的預訓練網絡進行特征融合。

Caltech 256數據庫是Li等[18]在Caltech 101數據集的基礎上進行的擴展,分為256個不同的對象類別,共有30 607幅圖像。Caltech 256數據庫選自Google Image數據集,總共分為256個類別,每個類別包含的圖像數量為80到827幅不等,每幅圖像的尺寸大小不等,圖2為Caltech 256部分示例圖。

圖2 Caltech 256部分圖像

3.2 實驗分析

在使用不同的卷積神經網絡處理之前,需要根據不同的深度CNN網絡的要求對輸入圖像大小進行調整。為了驗證WDCA方法對于深度特征融合的有效性,分別采用單獨的深度學習網絡提取特征,然后采用不同深度網絡的深度特征融合,最后采用SVM分類器進行分類識別,分類結果如表2所示。

表2 不同的深度特征的圖像分類結果 %

可以看出,與采用單個深度學習網絡結果相比,本文提出的兩種不同策略的深度特征融合方法的識別率有較好的提升,說明融合后的深度特征更能夠描述場景,有利于提高場景的識別率。同時,WDCA的特征融合效果要優于DCA,這主要因為其平衡了類別差異的影響,類別差異小的類別能夠增加其類間距離,而那些類別差異較大的類別,降低其類間距離,也不影響其區分度。

此外,從不同的深度學習框架提取的特征融合策略要優于從同一深度學習框架提取的特征融合,這主要因為不同的深度學習框架其特征的互補性要優于同一個深度學習網絡的不同層。

不同的深度學習框架提取的特征,識別率也不相同,這說明不同的深度網絡提取的特征各有差異。從融合后的結果來看,其不同的深度網絡特征盡管不同,但是具有一定的互補性,因此融合后的特征表達能力要強于單個特征。GoogLeNet預訓練網絡的特征識別率最低,但是融合后的特征識別率提升幅度最大。這也說明融合前的各自特征表達能力強,不代表融合后的特征表達能力一定強。融合后的特征表達能力強弱主要取決于融合前特征的互補性。

為了驗證特征融合方法的執行效率,比較了單個深度網絡的圖像分類方法和基于WDCA深度特征融合的圖像分類方法的訓練時間和測試時間,結果如表3所示??梢钥闯?,經本文方法融合后的特征維數僅為200,遠小于全連接層的4 096維特征,因此其訓練時間和測試時間也大幅降低。特征融合方法是對深度特征進行優化組合,既保留了參與融合的深度特征的有效鑒別信息,又消除了特征向量之間的冗余信息。

表3 不同方法的訓練時間和測試時間的比較 s

4 結 語

針對復雜場景下的圖像分類問題,本文提出基于深度學習預訓練網絡對場景進行特征學習,然后基于權重的DCA方法進行特征融合,最后通過SVM分類器進行圖像場景的分類識別。傳統的特征融合方法不僅容易導致維數增高,而且冗余信息較多。深度特征雖然表達特征能力較強,但是其維數較高且包含冗余信息,不同的深度網絡結構提取的特征的表達能力也各不相同。本文提出的深度特征融合方法不僅能夠有效地優化不同的深度CNN網絡組合,而且能夠有效地消除冗余信息,其特征維數也大大降低,在提高圖像分類識別率的同時又減少了樣本訓練和測試時間。實驗結果驗證了本文方法的有效性和正確性。

猜你喜歡
維數類別深度
一類一維齊次Moran集的維數結果
四增四減 深度推進
深度思考之不等式
基于SVD 與數學形態學分形維數譜的戰場聲特征提取*
砂糖橘皮破壞效果的分形描述
一起去圖書館吧
簡約教學 深度學習
簡析基于概率預測的網絡數學模型建構
選相紙 打照片
在初中幾何教學中滲透維數知識的幾點思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合