?

基于卷積神經網絡的室內場景識別

2018-08-22 01:27蔡青青孫麗紅
鄭州大學學報(理學版) 2018年3期
關鍵詞:特征提取卷積神經網絡

楊 鵬, 蔡青青, 孫 昊,3, 孫麗紅

(1.河北工業大學 人工智能與數據科學學院 天津 300130; 2.智能康復裝置與檢測技術教育部工程研究中心 天津 300130; 3.河北省控制工程技術研究中心 天津 300130)

0 引言

場景識別是移動機器人系統的重要研究內容,其作用是移動機器人系統提供場景的語義上下文和先驗信息,使智能機器人理解所處場景從而適應更加復雜的環境.在近年研究中,場景識別方法大多為提取場景特征,按照提取特征的性質可以將場景識別方法歸為基于全局特征與基于局部特征兩類.全局特征包括顏色、紋理、形狀等低層特征,局部特征包括尺度不變特征變換(scale-invariant feature transform,SIFT)特征[1]以及梯度方向直方圖(histogram of oriented gradient,HOG)特征[2]等.然而,上述技術應用于室內場景識別問題上無法獲得理想的識別結果.這是因為相較于戶外場景,室內環境具有排列無序、復雜的特點,缺少顯著的局部或全局視覺特征.與上述傳統手工特征不同,通過卷積神經網絡提取的特征含有更加豐富的結構信息,具備可辨別能力強、旋轉不變性等優勢,已成為研究圖像分類問題的重要工具.LeCun于1998年設計了卷積神經網絡LeNet-5,實現了對手寫數字的識別.在那之后,隨著互聯網大數據的興起,卷積神經網絡已經在圖像理解領域中獲得廣泛應用[3-5].

基于以上研究成果,本文摒棄了傳統人工提取場景特征的方法,選擇了卷積神經網絡結構,應用目前識別精度較高的GoogLeNet模型來完成室內場景的識別任務,以證明卷積神經網絡在室內場景識別問題上的有效性.

1 卷積神經網絡

卷積神經網絡(convolutional neural network,CNN) 是帶有卷積結構的深度神經網絡,通過網絡的卷積結構減小參數個數,簡化計算過程,并采用dropout[6-7]等方式緩解過擬合問題,優化神經網絡結構,提高識別的準確率.

1.1 卷積神經網絡的網絡結構

卷積神經網絡是一個多層結構的網絡,如圖1所示,卷積神經網絡由卷積層、下采樣層和全連接層構成.輸入首先通過濾波器在卷積層進行卷積后可獲得一些特征圖,下采樣層經過池化處理后,由全連接層輸出.

圖1 卷積神經網絡結構Fig.1 Structure of convolutional neural network

1.1.1卷積層 卷積層通過卷積運算使輸入信號增強,噪音減?。矸e層的輸入與上層感受野相連來提取特征,同時得到與其他特征間的位置關系.卷積層輸出的特征計算方法為

(1)

1.1.2下采樣層 下采樣層也被稱為池化層,卷積神經網絡中每一個卷積層后都有一個下采樣層,因為經卷積層所得特征數據量過大,若直接用于訓練會增加網絡模型復雜度.因此,可以通過對特征局部進行池化來降低特征的維度.同時,池化可以一定程度上改善卷積神經網絡的過擬合問題,經過兩次特征提取后可以使網絡對輸入有較強的畸變容忍能力.

1.2 局部感知與權值共享

卷積神經網絡通過局部感受野和權值共享兩種技術來減少網絡參數.不同于以往的全連接方式,每個神經元僅需與局部圖像相連感知局部信息,并將局部信息結合從而獲得圖像全局信息.通過局部連接的方式能夠顯著降低網絡參數的個數,優化網絡的性能.卷積神經網絡還通過權值共享的方式來盡可能降低網絡參數的數量,即在卷積神經網絡同一個卷積核內,將所有神經元權值設置為相同值,從而降低網絡的復雜度,加快訓練速度.

2 GoogLeNet模型

通過加深網絡深度可以提高識別的準確率,但網絡規模的增大也使網絡結構變得更加復雜,會大大增加網絡訓練的計算量,還有可能在訓練過程中出現過擬合問題.而且,僅僅通過增加網絡規模來提高識別準確率的做法無法提取更加有效的圖像特征. 因此,由Szegedy等[5]設計的GoogLeNet網絡模型不僅增加卷積神經網絡的層數,還應用Inception模塊得到了更優越的網絡性能.Google團隊優化了基本的特征提取單元,使用優化后的特征提取模塊構建網絡.實驗證明了基于該思想設計的GoogLeNet模型具有良好的識別效果,且參數也小于AlexNet模型的網絡參數,是目前性能出色的網絡模型之一.

GoogLeNet模型是一個具有22層結構的深度卷積神經網絡,模型除卷積層、池化層以外,還有Google團隊提出的Inception結構.Inception結構采用不同尺度的卷積核優化網絡中基本的特征提取單元,用優化后的特征提取模塊去構建網絡.文獻[9]介紹了一種逐層結構,對結構最后一層的單元進行相關性統計,并將具有高相關性的單元聚集在一起形成簇,用這些簇去構成下一層的單元.假定上一層的單元與輸入圖像某一區域有對應關系,被濾波器分成若干組.低層靠近輸入的相關單元會在局部區域聚集,最后可以獲得一個區域的大量群,可以在下一層通過1×1卷積覆蓋.而且可以利用覆蓋更大的空間來減少單元組的數量.為了避免塊對齊問題,基于方便性考慮,目前將Inception模塊的濾波器大小限制在1×1、3×3、5×5.此外,由于池化操作對于目前成功的卷積神經網絡是必不可少的,因此額外在每個模塊上添加一個并行的池化結構.

基于此,Google團隊提出了如圖2所示的模型A.模型A中,卷積核與感受野的尺寸都不一樣,那么后面的組合即代表多尺度數據融合.考慮到對齊問題,卷積核尺寸選擇1、3和5.然而,網絡越到后面,每個特征所涉及的感受野越大.因此,層數的增加會導致計算量大的問題,必須使用1×1的卷積核降低維度,改進后的Inception模型B如圖3所示.總體來說,Inception結構的中心思想就是找出最優的局部稀疏結構并將其覆蓋為近似的稠密組件,達到優化網絡模型的目的.

圖2 模型A[5]Fig.2 Module A

圖3 模型B[5]Fig.3 Module B

3 實驗結果與分析

3.1 數據集

評價所用模型的室內場景識別效果時要選擇一個合適的數據集.深度卷積神經網絡在訓練過程中要求大量的圖片作為輸入數據,因此實驗所選的數據集應包含豐富的場景圖片,且之前有研究者做過相應研究并取得一定的成果,以便與本文所選方法做對比.基于以上要求,本文選用了在場景識別領域應用廣泛的MIT_Indoor數據集[10].MIT_Indoor數據集是分類多樣的室內場景應用數據集,數據集一共含有67種室內場景的總共15 620幅圖片,不僅包括日常的生活場景如客廳、廚房、衛生間等,還包括發廊、洗衣店、酒窖等多種室內場景.

為了對模型進行訓練并驗證訓練好的網絡模型性能,首先對數據集進行標記,將67種場景圖像的類別分別用0~66的數字表示出來.實驗前將MIT_Indoor數據集的全部圖像分為訓練集和測試集兩部分,其中訓練集約占總數據集的80%,測試集占20%.

3.2 網絡模型訓練

進行場景識別前需要構建網絡,如今實現深度卷積神經網絡已經有了框架,比如Caffe、Torch、MXNet以及TensorFlow等深度學習框架,本文實驗中采用的為Caffe[11].Caffe(convolutional architecture for fast feature embedding)是一個清晰而高效的深度學習框架,核心語言是C++,支持命令行、Python和MATLAB接口,且可以在GPU上運行.它直接集成了卷積神經網絡神經層,提供了大量的示例模型,其中包括LeNet、AlexNet以及本文將要用到的GoogLeNet模型.

Caffe以四維數組blobs方式存儲和傳遞數據,利用層之間的計算結果傳遞每層的輸入和輸出.訓練要求輸入的原始圖像尺寸是一致的,因此在Caffe上訓練卷積神經網絡前,要對輸入圖像進行預處理,并改進數據的質量,使學習算法獲得更好的效果.為了增加數據的多樣性,利用翻轉、旋轉的數據增廣來產生新的圖像,如圖4所示.圖像的尺寸會影響卷積核的選取,如果圖像尺寸過大,會增大運算量,耗費過多時間;如果圖像太小,會導致圖像有效信息的缺失.因此,通常情況下會選擇256×256像素作為圖像的尺寸大?。畬⑺袌D像的短邊縮放到 256 像素,根據比例調整圖像尺寸,留下中間224×224像素的部分,并經數據歸一化操作后作為模型的輸入.

圖4 數據增廣Fig.4 Data augmentation

本文選用的GoogLeNet模型在Caffe中有具體的網絡定義文件,詳細定義了網絡結構各層的參數,實驗中未進行修改.訓練前只修改訓練過程和測試過程所需要的參數,比如學習率、權重衰減系數、迭代次數、使用CPU還是GPU等.實驗中使用MIT_Indoor室內場景數據集來進行訓練和測試,本文對原模型參數進行了如下修改:每100次迭代進行一次測試,測試間隔為500次,初始化學習率為 0.01.每100次迭代顯示一次信息,最大迭代次數為1×106次,網絡訓練的動量為0.9,權重衰退為0.000 2,每5×104次進行一次當前狀態的記錄.在GPU模式下進行訓練.實驗使用的是NVIDIA公司的GeForce GTX TITAN X GPU工作站,運算效率很高,完成一次迭代僅需0.3 s.參數設置完成后,即可對網絡進行訓練與測試,兩天后得到網絡模型的識別精度為59.7%.

3.3 結果分析

使用Caffe訓練GoogLeNet模型并測試得出結果,與一部分使用傳統人工特征提取的算法及其結果進行比較,這些算法是在歐洲計算機視覺國際會議 (European conference on computer vision, ECCV)和IEEE國際計算機視覺與模式識別會議 (IEEE conference on computer vision and pattern recognition, CVPR)上發表的具有一定的代表性,可以用來與本文做對照,如表1所示.在表1中能夠發現,基于卷積神經網絡的,GoogLeNet網絡模型所得到的識別結果高于使用傳統特征提取方法的結果,這說明了深度卷積神經網絡在室內場景識別上的有效性.

表1 基于MIT_Indoor數據集的識別結果對比

4 結語

本文摒棄了傳統的人工提取場景特征的方法,選擇了可以自主學習圖像特征的卷積神經網絡,應用目前識別精度較高的GoogLeNet模型實現了對室內場景的識別,得到了59.7%的正確率,實驗結果證明了卷積神經網絡在室內場景識別問題上的有效性.隨著研究的不斷深入,深度卷積神經網絡在場景識別領域也越來越受到重視,通過深度卷積神經網絡得到的特征能夠有效描述場景的語義信息,準確地判斷場景與場景和目標與目標之間的差異性和相似性.由此可見,深度卷積神經網絡的學習能力在圖像分類問題的研究上具有強大的優勢.在今后的工作中,會繼續優化深度卷積神經網絡的性能,從增大訓練數據的數量和改進網絡結構方面對算法進行更深入的研究,從而獲得更加準確的識別結果.

猜你喜歡
特征提取卷積神經網絡
基于遞歸模糊神經網絡的風電平滑控制策略
基于3D-Winograd的快速卷積算法設計及FPGA實現
卷積神經網絡的分析與設計
神經網絡抑制無線通信干擾探究
空間目標的ISAR成像及輪廓特征提取
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于特征提取的繪本閱讀機器人設計方案
從濾波器理解卷積
基于神經網絡的中小學生情感分析
基于Daubechies(dbN)的飛行器音頻特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合