結合像素相關性稀疏自編碼模型的圖像分類

2017-09-01 07:24魏英姿閆廣志趙方昕趙祉淇

沈陽理工大學學報 2017年4期

關鍵詞：游程神經元像素

魏英姿,閆廣志,趙方昕,趙祉淇

(沈陽理工大學信息科學與工程學院,沈陽 110159)

結合像素相關性稀疏自編碼模型的圖像分類

魏英姿,閆廣志,趙方昕,趙祉淇

(沈陽理工大學信息科學與工程學院,沈陽 110159)

為滿足圖像分類的需要,提出一種基于稀疏自編碼神經網絡分類方法。在稀疏自編碼網絡中將一個常量引入到損失函數,將損失函數最小化,對非零單元進行過懲罰,來獲得稀疏性的指標。在圖像自編碼過程中引入游程編碼的思想,以優化稀疏自編碼的冗余性,并加強圖像中基層特征之間的關聯性,提高圖像特征提取時的運行效率。實驗結果表明,訓練好的網絡可以更有效地對圖像進行特征抽象和特征降維,逐層挖掘其深層特征,使網絡達到較高的識別準確率。

圖像分類;稀疏自編碼;特征降維;游程編碼

隨著深度學習的興起,稀疏自編碼網絡也越來越受到重視,其在圖像上的運用也越來越頻繁。由于互聯網圖片的迅速增長,大量無標簽和標簽不確定的圖片分類問題急需解決。鄭春厚[1]利用雙梯度算法對自然圖像的基向量進行迭代學習,消除圖像中的高斯噪聲并對圖像進行分類。李帥等[2]提出了一種基于小波變換和深層稀疏編碼的SAR圖像,對多目標SAR圖像進行分類。黃勁等[3]將稀疏編碼結合到圖像檢索的多個模塊中,提高檢索的效果。但這些方法都沒有考慮圖像特征基之間存在的相關性。在網絡運行速度和分類的準確率上還有待提高。游程編碼是圖像數據壓縮的一種有效無損壓縮方法,利用圖像空間中的相關性,去除編碼空間的冗余信息。本文基于稀疏自編碼模型的知識，結合游程編碼思想,對手寫數據集圖片進行分類,期待得出較高的計算效率。

1 稀疏自編碼網絡

稀疏自編碼在描述圖像的特征時,有很多的神經元并沒有被激活。若選擇的編碼方法為Sigmoid型,其輸出中為1的神經元是被激活的,而為0的神經元是未被激活的。通常它提取的特征向量維度比其他方法提取特征向量維度更高,也就是這種方法是過完備的。稀疏自編碼的方法能夠通過高維轉換,令原來的圖像中數據線性不可分的圖像特征,變得線性可分。稀疏表達能從數據的深層特征里提取輸入的簡單重構[4]。圖1為稀疏自編碼原理圖。

圖1 稀疏自編碼原理圖

稀疏自編碼是通過最小化損失函數,來獲得輸入的最佳表示方法。通常,稀疏自編碼網絡將一個常量放到損失函數中來獲得稀疏性的指標。它可以尋找到最小化損失函數并對非零的編碼單元過多而進行懲罰,這樣就可以將被激活編碼基的數量收斂到最少。加入稀疏性度量的公式為

(1)

(2)

2 游程編碼的思想

圖像的像素間存在相關性,像素內部距離越近的像素,其相關性越強。為提高稀疏自編碼模型運行速度,運用游程編碼的知識,在圖像自編碼過程中引入游程編碼結合數據的排序方式。游程編碼(Run Length Encoding,RLE)可以有效去除圖像像素間冗余的部分,游程編碼只保存一個像素值,并將相同顏色像素數目進行存儲,特別是一些相同灰度級連續出現時,作用更加有效。RLE壓縮編碼特別適用于計算機的圖像,它對減少存儲容量效果相當明顯。它的壓縮率取決于它的圖像[5]。當圖像中相同顏色橫向的色塊越大時,壓縮圖像的塊數就越多,壓縮的比例越大。例如當矩陣的數據為 [ 11 11 11 11 11 22 22 22 22 22 22 22 33 33 33 33 33 33 33 33 44 44 44],這個數組長度為23個數字,用游程編碼 [ 5 11 7 22 8 33 3 44 ]表示,可以壓縮成為8個數字。因此在圖像中相互臨近的像素灰度越近,壓縮的效果也會越好。圖2為二維游程編碼數據鋸齒排序方式。

圖2 二維游程編碼數據鋸齒排序方式

3 實驗結果及分析

實驗仿真環境:Win 7系統,CPU:i3-350M,2G內存,Matlab 2010b。圖3為Matlab操作界面。

圖3 Matlab操作界面

3.1 SAE網絡仿真實驗

在CASIA手寫數據集上,選取6萬張圖片作為訓練樣本,1萬張圖片作為測試樣本,來對SAE網絡進行實驗測試。SAE對圖像提取特征,是對圖像進行降維的過程。編碼的維度應與自編碼層上的神經元個數一致,所以使用SAE網絡前,需要調節好各個自編碼層神經元的數量。在本實驗中,每一層所給的神經元數量由表1、表2給出。編碼層在進行降維時,應盡可能保留輸入圖像里的重要信息。稀疏網絡進行訓練時,網絡連接參數可能還不能達到最優,需要用監督訓練和無監督網絡對其參數進行調整。在實驗中對稀疏自編碼網絡進行無監督訓練,將得到的編碼矩陣傳遞給編碼層的網絡NN以及Softmax分類模塊,并用監督訓練的方法來對整體參數進行微調[6]。這樣的稀疏自編碼網絡更容易找到全局最優解,從而能夠讓網絡更好地對圖像提取特征。圖4為無監督訓練的編碼矩陣,圖5為有監督訓練前的網絡參數矩陣,圖6為有監督訓練后的網絡參數矩陣。

稀疏自編碼的層數對圖像的特征提取有很深的影響,神經元個數不同或自編碼層數不同,將影響圖像特征降維的程度。表1、表2是對其進行研究的結果并探討網絡對特征提取時選取的參數。

圖4 無監督訓練的編碼矩陣

圖5 有監督訓練前的網絡參數矩陣

圖6 有監督訓練后的網絡參數矩陣

表1 采用不同自編碼層數的實驗結果

表2 自編碼層采用不同神經元數量的實驗結果

通過觀察表1、表2的“測試正確率”可以看出,自編碼層的數量、每個自編碼層的神經元數量,對SAE深度學習網絡圖像特征識別效果的影響。在其中一個因素不變時,另一個因素過大或者過小,都會導致深度網絡圖像特征識別能力的下降。只有選擇比較居中的參數時,深度網絡的圖像特征識別能力才會達到好的效果。

3.2 SAE網絡結合游程編碼仿真實驗

從101圖片集,選用3000張路邊的指示路標圖片對結合游程編碼后的SAE網絡進行訓練,并用500張圖片進行測試。表3為對比進行游程編碼壓縮前后,對于網絡提取特征以及分類所用的時間。

表3 結合空間相關性編碼的深度神經網絡運行時間的對比 s

從表3可以看出,加入游程編碼后的程序,網絡提取特征的速度得到了提升。圖7為從3000張路邊的指示路標圖片抽取的16張原圖。圖8為加入游程編碼后的稀疏自編碼網絡的第一、二、三層自編碼神經元對指示路標提取特征后的特征基。

圖7 指示路標圖片分類原圖

圖8 在第一、二、三層自編碼層提取出的圖像特征

4 結論

為了提高對圖像的分類能力,提出了結合像素相關性的稀疏自編碼模型。利用游程編碼思想,讀取圖像像素序列,在讀取像素時采用鋸齒序列的方法,增加圖像特征基的前后關聯性。通過在編碼解碼的過程中調整損失函數,使已被激活編碼基的數量收斂到盡可能小,達到高稀疏性,從而提高網絡對圖像特征高效的提取能力。設計深度神經網絡模型,調整網絡的拓撲結構,采用不同的測試數據,找到合理的網絡模型結構。對手寫數據集以及101圖片集的大量圖片進行了實驗,得到網絡最佳運行效率時的編碼層參數。實驗結果表明稀疏自編碼結合游程編碼思想的網絡,可有效提高運算的速度,得到較高的分類正確率。

[1]鄭春厚.基于稀疏編碼的自然圖像特征提取及去噪的應用[J].系統仿真學報,2005,17(7):1782-1784.

[2]李帥,馬時平.基于小波變換和深層稀疏編碼的SAR目標識別[J].電視技術,2014,38(13):31-35.

[3]黃勁,孫洋,徐浩然.稀疏編碼在圖像檢索中的應用[J].數字技術設計與應用,2013(11):76-77.

[4]龔健雅.整體GIS的數據組織與處理方法[M].武漢:武漢測繪科技大學出版社,1993:24-26.

[5]梁軍,柴玉梅,原慧斌,等.基于深度學習的微博情感分析[J].中文信息學報,2014,5(5):155-161.

[6]楊謙,齊翔林,汪云九.稀疏編碼策略[J].計算物理,2001,18(2):143-146.

(責任編輯：馬金發)

ImageClassificationResearchBasedonSparseCodingNetwork

WEI Yingzi,YAN Guangzhi,ZHAO Fangxin,ZHAO Zhiqi

(Shenyang Ligong University,shenyang 110159,China)

In order to satisfy the need of image classification,a kind of classification method is proposed based on the sparse coding neural network.The sparse coding network could apply a constant to the function of loss,to minimize this function,and carry out the punishment to the non-zero element to get the index of sparsity.Introducing the idea of run-length coding in the image coding process,which optimizes the redundancy of sparse coding,strengthens the correlation of basic image characteristics,and improves the efficiency of image feature extraction.Experimental results reveal that well-trained network can be more effective forimage feature abstraction and feature dimension reduction,mining the deeper characteristics of the network step by step,so that it can achieve higher accuracy of recognition.Keywordsimage classification;sparse coding;feature dimension reduction;run-length encoding

2016-09-18

魏英姿(1973—)，女，教授，博士，研究方向：模式識別、機器人學等。

1003-1251(2017)04-0014-05

TP391