?

基于深度稀疏辨別的跨領域圖像分類

2018-04-19 07:37,
計算機工程 2018年4期
關鍵詞:卷積分類深度

,

(復旦大學 計算機科學技術學院,上海 200433)

0 概述

隨著快速移動通信技術的發展,圖像、視頻等多媒體信息數量與日俱增,圖像分類技術在目標檢測、圖像檢索和視頻監視等實際應用領域都起著至關重要的作用。然而,在實際應用中,源領域(訓練數據集)和目標領域(測試數據集)的數據由于圖像來源不同,領域之間特征空間和特征分布往往具有一定的差異,使得源領域訓練出來的圖像分類模型不能很好地作用于目標領域。例如,訓練圖像來自商家拍攝的背景干凈、圖像清晰、角度直接的高分辨率圖像,而測試圖像來自消費用戶拍攝的圖像,圖像分辨率低、背景雜亂,常常帶有噪音,訓練圖像和測試圖像的特征分布具有較大差別。

對于跨領域分類問題,一種傳統的解決方法就是重新收集測試圖像領域的圖像并進行標注,在此基礎上訓練一個新的分類模型。當測試集圖像數量較大時,人工標注的工作需要耗費巨大的人力、財力和時間成本。當在測試集領域上收集到的圖像數量較少、圖像多樣性不足,直接在測試集領域上訓練出來的分類器易于過擬合,缺乏魯棒性。為解決以上問題,無監督跨領域分類研究如何利用源領域已標注數據學習目標領域知識,對無標簽測試集進行分類。

跨領域分類問題研究的難點在于源領域與目標領域具有不同的特征空間和特征分布,同時目標領域缺少標注信息。本文構建一種基于深度卷積網絡(CNN)[1]的跨領域模型框架——稀疏辨別性遷移分類模型(Sparse Discriminating Transfer Model,SDTM)。SDTM模型通過在深度網絡Softmax分類層的訓練過程中自適應學習目標領域特征空間分布,通過調整分類邊界的方向與垂直于目標領域的高辨別性高方差方向,構成深度稀疏辨別性遷移網絡Deep-SDTM。Deep-SDTM同時具有深度神經網絡和SDTM的遷移能力。最后在2個跨領域分類標準數據集Office-Caltech[2]和Office-31[3]上,對比SDTM深度遷移模型與其他一系列特征預處理方法。

1 相關工作

根據處理角度的不同,跨領域分類方法可以分為特征預處理方法和遷移學習方法。預處理方法分析樣本選擇偏差和相關性變量以最小化領域之間差異,或者保留如方差和幾何結構等重要的數據屬性,使得特征可以適用于不同領域之間。例如,GFK[2]保持領域間幾何結構,以此作為跨域的不變性特征屬性。聯合分布適應(JDA)[4]使用最大化均值差異來估計跨領域分布的距離,并使用主成分分析(PCA)構建跨領域特征子空間學習跨領域知識。遷移分量分析(TCA)[5]擴展MMDE[6]學習傳遞組件,是一種有效的核非線性學習方法,應用單個預定義的核函數進行核映射。SDTM與這些預處理方法(如JDA)具有良好的結合能力,取得了非常好的互補作用并實現了分類精度的提升。

遷移學習方法對訓練過程中的分類模型進行調整,或者使用核函數學習[7]和度量學習[8-9]的方法,學習適用于目標領域的分類模型。隨著深度學習在圖像識別領域的研究和發展,深度卷積神經網絡(CNN)被證明是一種具有良好遷移能力的分類模型[10]。深度領域混合模型(DDC)[11]通過添加網絡適應層和數據集移位損失來學習領域的不變特征表示。深度適應網絡(DAN)[12]側重于增加深前饋網絡的可遷移性,通過學習核函數[13]來減少領域間差異。在實驗中,本文將基于深度網絡的Deep-SDTM遷移框架與現有的一些無監督的深度CNN轉移學習模型[11-14]在標準測試集上進行比較。實驗結果表明,該方法可以獲得最佳的性能。

跨領域分類模型SDTM模型分類邊界調整方式如圖1所示。

圖1 跨領域分類模型SDTM模型分類邊界調整方式

2 深度跨領域圖像辨別性多分類模型

2.1 問題定義

2.2 網絡模型架構

深度神經網絡具有很好的遷移能力,然而由于目標領域數據集較小而且缺乏目標領域標簽,傳統的在深度卷積網絡之中進行微調(fine-tune)的方式不再適用于跨領域分類問題。所以,SDTM模型使用預訓練的深度網絡參數,并對分類層進行調整構成深度稀疏辨別性轉換模型Deep-SDTM(如圖2所示)。 Deep-SDTM網絡中包含五層卷積層作為特征提取層、兩層全連接層和一層分類器層的分類預測層。之后修改最后一層分類器損失求解函數,令分類器學習帶標簽的源領域數據信息及無標簽的目標領域特征分布信息,從而優化網絡權值適應跨領域分類問題。

圖2 基于CaffeNet fc7的Deep-SDTM跨領域分類模型架構

在SDTM模型中,首先借鑒了主成分分析(PCA)的思想。引入目標領域特征空間的多重主方向特征向量,使分類邊界保持在目標領域的特征空間的辨別性。圖1展示了當分類簡化為二分類并且僅僅選取一個主方向進行約束時,原分類邊界自適應調整的方式,在訓練過程中原始分類邊界向垂直于目標領域特征空間第一主方向的朝向進行調整。SDTM中對于目標領域多重主方向進行學習,使源領域訓練的分類器更好地契合于整個目標空間。此外,在SDTM中引入了稀疏性約束,對于非結構化圖像數據的稀疏高維特征進行特征選擇,保持對于源領域和目標領域都更為重要的特征維度。

當分類為二分類問題時,類標簽y只可以取2個值(正或者負),而多分類問題中y可以有大于2個的多值選擇,y可以將函數指向不同的類。SoftMax回歸模型廣泛適用于單標簽的多分類問題,Deep-SDTM最后一層分類層網絡使用M類的邏輯斯蒂的SoftMax分類器表示。源領域的多分類函數表示為:

(1)

(2)

為了更好地理解目標空間的特征分布,模型提取多個保持高信息屬性的主特征向量形成辨別性懲罰因子Linf(ω)。Linf(ω)被引入到損失函數的求解之中,幫助分類器在調整決策邊界的過程中更好地使其對于目標領域特征空間有分辨作用(如圖1所示)。在跨領域分類問題中,隨著深度特征等高維度特征的廣泛使用和訓練數據的不足,在fsrc的訓練過程中常常會過擬合。因此,可以認為訓練集的特征空間是高維而稀疏的。為了更好地進行特征選擇去除冗余特征,同時增加稀疏懲罰項Lspr(ω)到分類函數fsrc的訓練之中。Lspr(ω)使用Elastic Net懲罰因子,它結合lasso回歸和嶺回歸的共同優勢,在訓練模型中選取出對于跨領域分類最有效的子集。綜上所述,目標領域分類器fsrc的損失函數Ltar(ω)可以重構為如下形式:

Ltar(ω)=Lsrc(ω)+μLinf(ω)+λLspr(ω)

(3)

其中,超參數μ和λ用于決定遷移學習因子和稀疏因子的權重。保持目標領域多維度辨別性因子Linf(ω)幫助理解目標數據集的特征分布,稀疏約束Lspr(ω)幫助對于高維特征進行更有效的特征選擇。

2.3 基于目標領域的多維度辨別性因子

模型基于目標領域特征方差最大化的思想,使得分類器訓練過程中可以對于目標空間的特征有著更大的辨別率,因此提高了測試集的分類效果。在SDTM模型中,使用多個主特征向量的組合因子來微調源領域上訓練的分類器決策邊界,使得分類模型在測試空間上更有辨別性,多維度辨別性因子表示為:

Linf(ω)=

(4)

2.4 稀疏懲罰因子

在統計學習中,采用無偏估計訓練參數極易產生過擬合的狀況。為了減少過擬合情況,引入Elastic Net縮減和約束參數,在保持分類精度最大化和經驗風險最小化的同時,降低預測模型的復雜度。在原有的損失函數Lsrc(ω)中增加稀疏約束:

(5)

其中,第一項用于減少分類函數的過擬合程度,第二項控制特征選取的稀疏性。函數中通過超參數λ1和λ2分別調控正則化程度和稀疏化程度的大小。

在SDTM模型中,正則化項和稀疏化項同時與辨別性因子相互作用,起到對于目標領域特征選擇的結果。稀疏化項Lasso懲罰將更多維度的線性回歸系數減小到零,生成稀疏模型。相應地,正則化項零回歸懲罰因子減輕函數的稀疏性,增加特征非零權重的維度,同時保持調整函數過擬合的作用。當單獨使用稀疏懲罰項的時候,通常稀疏懲罰過大,從而導致觀察量過少;或者稀疏懲罰過小導致函數過擬合,分類函數常常表現不盡理想。Elastic Net規范項保持了Lasso稀疏化項和零回歸正則化項的雙重優勢,因而在SDTM模型中使用Elastic Net規范項進行特征選擇。

2.5 參數求解

求解稀疏辨別性轉換模型,實驗采用批梯度下降求解最小化目標函數,由于線性回歸僅有一個最優點,因此梯度下降求解SDTM線性回歸預測模型并不會陷入局部最優,其梯度損失函數表示為:

G(ω)=Lsrc(ω)+μLinf(ω)+λLspr(ω)

(6)

其中,G(ω)表示一個nsrc×M的響應矩陣(n表示訓練數據的實例個數,M表示領域內類數目)。一般來說,選擇主方向特征向量的個數是一種權衡的過程:過低的遷移學習能力,或者過大的噪聲。

3 實驗結果與分析

實驗中首先探索基于SDTM模型的跨領域分類層對于傳統SURF特征的分類性能,然后比較在SDTM模型下深度卷積網絡各個網絡層的遷移能力,最后比較基于深度網絡的SDTM模型與近年來領先的深度跨領域分類方法的分類精度。

3.1 實驗準備

Office數據集[3]是一個在跨領域圖像分類問題廣泛使用的標準數據集。它包括3個現實應用的場景:Amazon,Webcam和DSLR,每個領域包括相同的31個類。Caltech-256[15]是另一個用于目標識別問題領域的標準數據源,它與Office數據集擁有10個共享類。實驗同時在31類Office-31數據集和包含10個共同類的Office-Caltech聯合數據集測試和比較SDTM模型。

實驗使用目標領域數據集的分類精度對實驗進行評價,即目標領域分類正確的圖像數量與目標領域總圖像數量的百分比值。

在訓練過程中,分類層之前包括conv1層~fc7層均采用CaffeNet[16]在ImageNet數據集上的預訓練網絡參數[1],分類層辨別性因子Linf(ω)選擇目標領域前10個主方向特征向量進行自適應學習。

3.2 實驗對比方法

實驗SDTM模型與一系列的跨領域分類方法進行比較,其中包括基于特征和實例的預處理方法、基礎遷移學習模型及深度遷移模型。

3.2.1 基準方法

NN使用基于1-最近鄰的方法在帶標簽的源數據集上進行訓練[2,6]。主成分分析方法(PCA)則是在NN的訓練方式之前使用主成分分析對特征進行降維降噪處理。SVM和基于Lasso懲罰的邏輯斯蒂回歸模型(L1-LR)則是基于線性分類模型對源領域各個類的特征分別訓練并組合成多分類模型,以此預測目標領域中每個無標簽實例的歸屬類。

3.2.2 預處理與基礎遷移學習模型

TSL[17]采用Bregman 散度代替MMD中的距離量度方法用以進行分布比較。TCA[5]是一種傳統的基于MMD懲罰和PCA模型的遷移學習方法。GFK[2]是通過插入中間子集到目標領域和源領域之間來探索跨領域間的共通點。JDA[4]在MMD的基礎上同時調整特征的邊緣分布和條件分布來實現跨領域分類。ILR[18]通過在邏輯斯蒂回歸模型增加分布約束保持分類模型具有識別目標領域最大方差方向特征的能力。TJM[19]在降維的過程中,通過匹配跨領域間的特征并重新調整實例權重來保持源領域和目標領域間的一致性。

3.2.3 基于深度學習的遷移學習模型

LapCNN[1]是一種基于Laplacian圖正則化的深度卷積神經網絡的半監督變體方法。CNN[1]是2012年ImageNet競賽上的主要模型,它生成的深度特征具有很好的遷移學習能力[10]。JDA[4]+CNN[1]在基于深度神經網絡的模型對比中是一個很強的基準方法,它結合預處理方法JDA和深度卷積神經網絡。DDC[11]在深度神經網絡中的第二層全連接層(fc7)和第三層全連接層(fc8)之間增加一層運用單核MMD進行懲罰的自適應層,來學習領域間的不變性特征表示方式。DAN[12]通過將網絡層與基于Hilbert空間的核函數相結合,生成一種全新的深度遷移網絡模型,并用一種優化的多核選擇方法減少領域之間的差異。

3.3 分類層SDTM評價與分析

實驗首先探索分類層SDTM的遷移能力與傳統非基于深度學習的跨領域方法的分類效果對比。然后使用SURF進行特征提取,通過聚類將SURF特征集成為800維的特征向量作為輸入向量,基于Office-Caltech的10個公共子數據集進行實驗??珙I域圖像分類標準數據集Office-Caltech圖像示例如圖3所示。表1中將SDTM模型與其他跨領域分類模型的分類效果進行比較,包括JDA、TCA等特征預處理方法和ILR等遷移模型算法。

表1 Office-Caltech跨領域分類標準數據集上基于SURF特征的分類精度 %

實驗中SDTM通過主方向的引入和多重因子的綜合來微調分類器分類平面方向,大大提高了領域自適應能力。SDTM集成模型(JDA+SDTM)實現最佳性能,平均精度為50.55%,其次是單一SDTM和ILR,分別為48.96%、48.5%。

3.4 各深度卷積神經網絡層遷移性分析

實驗探索Deep-SDTM模型在深層卷積神經網絡架構中各層輸出上的遷移能力。一般來說,在學習卷積神經網絡權重時,更深的層有更強的抽象能力,有助于表示圖像的更深語義。因此,通過所選擇的層來優化表示基于CNN特征的問題極為重要。為進一步探討,實驗使用最后一層卷積層以及各個全連接層的特征來評估實驗模型的遷移能力。如圖4所示分類精度變化,其中,A、W、D、C分別表示Amazon、Webcam、Dslr、Caltech 4個不同領域?;诘诙B接層(fc7)的Deep-SDTM在大多數領域之間表現出最強的遷移能力,唯一例外是由第1個全連接層(fc6)在Caltech->Amazon的領域分類上獲得,但在平均性能上fc6小于fc7約4.7%。因此,實驗采用基于fc7與分類輸出層進行連接,Deep-SDTM中辨別性因子和稀疏性因子作用于整個深層神經網絡的最終分類層fc8(如圖2所示)。

圖4 Office-Caltech跨領域分類標準數據集上深度卷積網絡各層與Deep-SDTM結合分類效果

3.5 Deep-SDTM網絡結構評價與分析

實驗將基于SDTM的深度網絡模型與DDC[11]和DAN[12]等領先的CNN遷移模型相比較,探索Deep-SDTM的跨領域分類效果。在實驗中,調整稀釋懲罰參數λ1、λ2和辨別性因子參數μ,會對跨領域分類效果產生影響。調整參數μ在控制目標領域高辨別性方向對于分類邊界的作用,調整λ1和λ2控制模型的稀疏性和分類參數的復雜性。實驗發現,對于如深度卷積特征等高維高信息抽取率的特征來說,通過稀疏控制進行特征選擇起著更為重要的作用,而對于缺乏智能化學習能力的SURF等傳統特征而言,使用較大的辨別性因子進行自適應學習則更為顯著。實驗中為了測試性能的穩定性,使用了恒定的參數值進行對比評價。

表2展示了不同的方法對10類Office-Caltech轉移學習問題的卷積神經網絡在表2中的結果。與近年提出的方法DAN相比平均提高2.5%?!癝DTM+預處理”模型精度提高了3.7%,從86.1%提高到89.8%。相比之下,“CNN+預處理”將精度從84%提高到86.1%,只提高了2.1%。

表2 Office-Caltech跨領域分類標準數據集上基于深度神經網絡的分類精度 %

表3展示了Office-31數據集的分類精度。與表2中的實驗相似,實驗將Deep-SDTM模型與深度模型(如CNN,LapCNN,DDC和DAN)進行比較,并于表3中測試31個類別中Deep-SDTM在Amazon、Webcam和dslr 3個數據集的遷移學習能力性。結果表明,基于預處理的SDTM模型獲得最佳平均精度為74.6%。

表3 Office-31跨領域分類標準數據集上基于深度神經網絡的分類精度 %

在表3中,“SDTM+預處理”結合模型精確度提高了3.9%(從70.7%到74.6%),而CNN結合模型“CNN+預處理”僅僅增加了2.1%(從70.1%到72.1%),是SDTM模型提高性能的一半。實驗結果表明,與預處理方法相結合的Deep-SDTM模型比其他組合方法更有效地提高領域間的遷移能力。

4 結束語

針對現實生活中常見的訓練和測試領域間特征分布差異的問題,本文建立稀疏辨別性遷移模型SDTM及其對應的跨領域深度卷積神經網絡Deep-SDTM網絡結構,該網絡結構具有不同網絡層的遷移能力及其靈活的結合能力,與傳統的基于特征的預處理方法有較強的互補作用。實驗結果表明,SDTM模型提升了跨領域分類的分類精度,具有較好的跨領域學習能力。

[1] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Image classication with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems.South Lake Tahoe,USA:MIT Press,2012:1097-1105.

[2] GONG Boqing,SHI Yuan,SHA Fei,et al.Geodesic flow kernel for unsupervised domain adaptation[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2012:2066-2073.

[3] SAENKO K,KULIS B,FRITZ M,et al.Adapting visual category models to new domains [C]//Proceedings of ECCV’10.Crete,Greece:Springer,2010:213-226.

[4] LONG Mingsheng,WANG Jianmin,DING Guiguang,et al.Transfer feature learning with joint distribution adapta-tion[C]//Proceedings of IEEE International Conference on Computer Vision.Portland,USA:IEEE Press,2013:2200-2207.

[5] PAN S J,TSANG I W,KWOK J T,et al.Domain adaptation via transfer component analysis[J].IEEE Transactions on Neural Networks,2011,22(2):199-210.

[6] PAN S J,KWOK J T,YANG Qiang.Transfer learning via dimensionality reduction[C]//Proceedings of AAAI’08.Chicago,USA:AAAI Press,2008:677-682.

[7] WANG Hao,WANG Wei,ZHANG Chen,et al.Cross-domain metric learning based on information theory [C]//Proceedings of AAAI’14.Quebec City,Canada:AAI Press,2014:2099-2105.

[8] DUAN Lixin,TSANG I W,XU Dong.Domain transfer multiple kernel learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(3),465-479.

[9] WANG Wei,WANG Hao,ZHANG Chen,et al.Transfer feature representation via multiple kernel learning[C]//Proceedings of AAAI’15.Austin,USA:AAAI Press,2015:3073-3079.

[10] YOSINSKI J,CLUNE J,BENGIO Y,et al.How transferable are features in deep neural networks? [C]//Proceedings of Advances in Neural Information Processing Systems.Montréal,Canada:MIT Press,2015:3320-3328.

[11] TZENG E,HOMAN J,ZHANG Ning,et al.Deep domain confusion:maximizing for domain invariance[EB/OL].[2014-10-21].http://pdfs.semanticscholar.org/.

[12] LONG Mingsheng,CAO Yue,WANG Jianmin,et al.Learning transferable features with deep adaptation networks [C]//Proceedings of ICML’15.Lille,France:[s.n.],2015:97-105.

[13] 彭 敏,傅 慧,黃濟民,等.基于核主成分分析與小波變換的高質量微博提取[J].計算機工程,2016,42(1):180-186.

[14] WESTON J,RATLE F,MOBAHI H,et al.Deep learning via semi-supervised embedding[M].Germany,Berlin:Springer,2012.

[15] GRIN G,HOLUB A,PEROAN P.Caltech-256 object category dataset[D].Pasadena,USA:California Institute of Technology,2007.

[16] JIA Yangqing,SHELHAMER E,DONAHUE J,et al.Caffe:convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM Inter-national Conference on Multimedia.Orlando,USA:ACM Perss,2014:675-678.

[17] DACHENG S S,GENG T B.Divergence-based regulariza-tion for transfer subspace learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(7):929-924.

[18] ZHU Guangtang,YANG Hanfang,LIN Lan,et al.An informative logistic regression for cross-domain image classification[C]//Proceedings of International Conference on Computer Vision Systems.Copenhagen,Denmark:Springer,2015:147-156.

[19] LONG Mingsheng,WANG Jianmin,DING Guiguang,et al.Transfer joint matching for unsupervised domain adaptation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA:IEEE Press,2014:1410-1417.

猜你喜歡
卷積分類深度
基于3D-Winograd的快速卷積算法設計及FPGA實現
分類算一算
深度理解一元一次方程
卷積神經網絡的分析與設計
從濾波器理解卷積
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合