?

基于圖像表示和稀疏表示的圖像分類?

2024-01-23 13:38潘承昌張永軍王澤偉劉竣文
計算機與數字工程 2023年10期
關鍵詞:錯誤率訓練樣本人臉

潘承昌 張永軍 王澤偉 劉竣文

(貴州大學計算機科學與技術學院 貴陽 550025)

1 引言

在圖像分類任務中,對一個物體使用多種表示方法可以有效地提高分類準確率。在人臉識別領域,由于人臉圖像在不同的面部表情、光照和姿態的條件下呈現出非常大的差異,這對人臉識別造成了很大的困難[1~3]。為了提高人臉識別的準確率,很多研究人員提出了不同的方法。例如,基于小波系數增強函數的表情不變人臉識別算法有效地提高了不同表情的人臉圖像識別精度[4]。Jian等提出了一種基于光照補償的人臉識別方法[5],Sharma 等提出了一種姿態不變虛擬分類器的人臉識別方法[6]??紤]到人臉圖像具有對稱性,Xu等提出了一種使用原始圖像生成“對稱”人臉圖像的方法[7],結合原始圖像和對稱人臉圖像能夠更好的降低圖像外觀變化的影響,提高分類準確率。

稀疏表示分類(Sparse Representation Classification,SRC)算法被提出之后,廣泛應用于圖像處理和人臉識別等領域。例如,在人臉識別方面,Xu等提出了一種基于l 正則化的稀疏表示方法[8],對于人臉識別具有很強的魯棒性,同時也獲得了巨大的精度提升。稀疏表示也越來越多的應用于圖像分類[8]、圖像超分辨率[9~10]和圖像去噪[11]。隨后,各種不同的稀疏表示方法也相繼被提出,字典學習作為稀疏表示的一個重要分支,越來越受到研究人員的關注。我們一般把SRC分為兩大類,第一類是基于原始訓練樣本的稀疏表示,第二類是基于字典的稀疏表示?;谠加柧殬颖镜南∈璞硎臼褂糜柧殬颖緛砭€性表示測試樣本,基于字典的稀疏表示使用字典來表示測試樣本。其中,基于原始訓練樣本的稀疏表示包含了大量的圖像分類算法,比如L1 正則化最小二乘(L1LS)[12]、快速迭代收縮閾值化算法(FISTA)[13]、協作表示(CRC)[14]等。然而這些文獻中的算法都不能很好地保留原始圖像的大尺度信息和全局特征,不能很好地挖掘和利用原始圖像信息。

為了更好地保留原始圖像的大尺度信息和全局特征,減小同一物體在其不同圖像中的差異性,本文把改進的圖像表示算法和稀疏表示結合,提出了一種圖像分類算法。

2 相關工作

2.1 圖像的稀疏表示

稀疏表示簡化了原始圖像的復雜度,從而更容易獲得圖像內部信息的結構特征。如圖1 所示,對于圖像I,在稀疏編碼之前,先將圖像矩陣轉換向量。然后圖像可以由冗余字典和稀疏系數來表示,這個模型可以用式(1)來表示:

其中D是大小為M×N的字典,D的列向量di?Rm(1 ≤i≤N)稱為原子,M?N確保字典D是冗余的。α=[α1,α2,…,αN]T稱為稀疏系數,通常情況下,α中的非零元素越少,意味著稀疏編碼更稀疏,稀疏表示更好,用?0范數來度量稀疏性。因此,可通過求解α將式(1)中的模型轉換為式(2)。

‖α‖0是?0范數,測量列向量中非零元素的數量,確保盡可能獲得最稀疏 的α。通過?F測量原始圖像I與重構圖像Dα之間的誤差,并將最大誤差限制為ε,當ε=0 時,可獲得最佳的稀疏系數并且式(1)等于式(2)。

在稀疏表示模型中,字典訓練和稀疏編碼是兩個最關鍵的步驟,對最終結果有重大影響。對于基于稀疏表示的圖像分類算法,稀疏系數的融合也起著重要的作用。同理,我們可以根據以上原理求得測試樣本和生成的虛擬圖像之間誤差Ei。

2.2 誤差融合方案

本節將說明如何將原始訓練樣本的結果與虛擬訓練樣本融合的過程。本文采用了一種簡單高效的融合方法,假設實驗數據庫中的受試對象總數是M。首先我們需要獲得測試樣本和原始圖像之間的分類誤差(i=1,2,3,…,M),以及測試樣本和虛擬圖像之間的分類誤差(i=1,2,3,…,M),其中i表示第i個受試對象,然后對這兩個誤差進行排序,根據排序結果,求出誤差融合方案中原始圖像的權重W1和虛擬圖像的權重W2。

誤差融合方案的具體步驟如下:

4)使用式(7)計算原始圖像和虛擬圖像的融合誤差Ei。

通過以上步驟我們獲得了原始圖像和虛擬圖像的融合誤差Ei,然后找到它的誤差最小值,保存誤差最小的下標記為i,將i作為測試樣本對應的分類估計值,然后和真實標簽比較,統計分類錯誤數量,得到最終分類錯誤率。

3 算法步驟與分析

3.1 虛擬圖像的生成

本文提出了一種圖像表示算法,將表示后得到的結果稱為虛擬圖像。以灰度圖像為例說明原始圖像如何生成其對應的虛擬圖像。在灰度圖像中最大的像素值為255,我們用Pmax來表示。原始圖像中第r行c列的像素值記為Src,生成的虛擬圖像使用V表示,在虛擬圖像中第r行c列的像素值記為Vrc。生成虛擬圖像的表示方法如下:

通過對上面的公式分析,我們可以得出以下幾個結論:

1)如果Src等于0 或者等于圖像的最大像素值時,虛擬圖像在對應位置Vrc的像素值為0。

2)如果Src越接近,虛擬圖像相應位置的像素值就越大,最大值

3)原始圖像的像素值為Src或者(Pmax-Src)時,在虛擬圖像中對應位置的像素值相同。換句話說,在虛擬圖像中像素值是以對稱的。

我們知道,在灰度圖像中最大的像素值為255,由原算法的圖像表示生成的虛擬圖像,其像素值遠大于該值。此外,原始圖像中像素值相對接近的兩個像素,經過原算法的圖像表示方法后,在虛擬圖像中顯示出非常大的差異,這增加了同一人臉在不同原始圖像中的差異性,不利于分類。如果原始圖像是灰度圖,那么我們的算法生成的虛擬圖像的最大值為,不但可以將原始圖像的像素強度都表示在中等像素強度附近,還能很好地保留原始圖像的大尺度信息,某種程度上這些信息對應圖像的全局特征,這將非常有利于圖像分類任務。

基于以上提出的圖像表示方法原理,本文還提出了另一種新的方案來生成虛擬圖像,在大量的實驗驗證下表明,該方法能夠顯著提高圖像分類精度。其生成虛擬圖像的公式如下:

3.2 算法實現步驟

本文算法的主要步驟如下:

第一步:選取訓練樣本和測試樣本。即將所有原始圖像分為訓練樣本和測試樣本兩部分。

第二步:使用式(8)或者式(9)獲取訓練樣本的虛擬圖像。將虛擬圖像轉換為? 范數的單位向量。

第三步:使用公式(8)或者(9)獲取測試樣本的虛擬圖像,將虛擬圖像轉換為? 范數的單位向量。

第四步:結合第二步和第三步的訓練樣本和測試樣本的虛擬圖像,對每一張測試樣本應用圖像分類算法進行分類,得到分類誤差。

第五步:對訓練樣本和測試樣本中的原始圖像轉換為? 范數的單位向量,對每一張測試樣本使用圖像分類算法進行分類,得到分類誤差。第六步:原始圖像和虛擬圖像融合,獲得融合后的分類誤差Ei。

第七步:在測試集樣本上通過融合誤差Ei和圖像的真實標簽比較,統計分類錯誤數量,得到最終分類錯誤率。

3.3 算法分析

以ORL 人臉數據庫實驗為例,選擇ORL 人臉數據庫中的第一個受試對象的第一張人臉圖像為例進行分析。圖2 顯示了該樣本原始像素的分布情況。

圖2 測試樣本的原始像素強度分布

根據圖2 和圖3,可以直觀地看出原始圖像和生成的虛擬圖像的區別,通過原始圖像進行圖像表示后生成的虛擬圖像,與其原像素值非常大,遠遠超出了傳統的灰度圖像的像素值范圍,而且,在原始圖像中像素值相近的兩個像素,在虛擬圖像中的像素值差距非常大,這導致原始圖像中的一些大尺度信息在虛擬圖像中丟失了,不利于圖像分類。通過圖5(a)與圖5(b)的對比,可以發現,我們改進的圖像表示方法生成的虛擬圖像,其像素值相對于原算法生成的虛擬圖像顯著減小,最大像素值為,并且,原始圖像中像素值相近的兩個像素在相應虛擬圖像中的像素值差異顯著減小。這樣的特點使得原始圖像中的大尺度信息在虛擬圖像中很好的保留了下來。對于一張灰度圖像來說,一個像素值為i的像素和一個像素值為255-i的像素,在虛擬圖像中都有著同樣大小的強度,這使得原始圖像中越趨近于中等強度的像素,在虛擬圖像中有著更重要的作用,能夠獲得原始圖像中更豐富的大尺度信息,因此,本文提出的算法對圖像分類任務有更大的精度提升。同理,使用式(9)生成虛擬圖像的算法同樣具有以上的特點與優勢。圖4 顯示了該方法生成的虛擬圖像的像素變化,圖5(c)顯示了原始圖像的像素在0~255 之間變化時,該方法生成的虛擬圖像的像素變化情況。

圖3 使用該算法的虛擬圖像的像素值

圖4 使用式(9)獲得的像素值

圖5 虛擬圖像像素值的對稱性

通過圖6可以發現不管是ICR[15]的算法還是本文的算法生成的虛擬圖像,都是比較自然的人臉圖像。雖然虛擬圖像和原始圖像在外觀上存在著一些較大的差別,但是將虛擬圖像和原始圖像融合,可以為同一張人臉圖像提供多種表示方法,這有利于提高人臉圖像分類的精度。

圖6 原始圖像與生成圖像對比

4 實驗結果

本節通過實驗驗證了所提算法的可行性和合理性。一共在兩個人臉數據庫上進行了實驗,分別是Georgia Tech 人臉數據庫和FERET 人臉數據庫。在實驗中,不僅對原始圖像直接應用稀疏表示,還與近年來提出的算法進行了比較。把在原始圖像上直接應用稀疏表示的方法稱為NCR(Naive Collaborative Representation),下面是不同算法在各個數據庫上的實驗分析。

4.1 Georgia Tech 數據庫實驗

Georgia Tech 人臉數據庫一共有50 個受試對象,每個受試對象有15 張JPEG 格式的彩色圖像,共有750 張彩色人臉圖像。該數據庫中的圖像背景雜亂,圖像的分辨率為640像素×480像素。每個受試對象的圖像包含了該對象在不同表情、不同光照和尺度的情況下的正面人臉圖像與傾斜人臉圖像。每張圖像都被手動標記過,以確定人臉在圖像中的位置。在本文的算法中,先對該數據庫中的圖像進行了處理,使用去除背景的人臉圖像,并且每個人臉圖像的分辨率都是40像素×30像素。

在Georgia Tech人臉數據庫上不同算法的圖像分類錯誤率對比結果如表2。在對象訓練樣本數量為3 時,ICR 算法的分類錯誤率為52.17%,本文的算法的分類錯誤率為48.83%,算法精度提升了3.34%。在訓練樣本數量為1和2時,所提算法的分類精度分別提升了0.57%和0.46%,相對于其他算法,提升的精度更大。我們還對式(9)中的圖像表示方法進行了實驗,當訓練樣本數量為1、2、3 時,該方法比ICR 算法提升的精度分別為0.86%、0.92%、4.00%,實驗表明該方法能夠給圖像分類精度帶來驚人的提升,與ICR 算法相比最大精度提升超過4%。同時,將算法與最近算法進行了比較,結果表明所提算法具有較低的分類錯誤率。例如,當訓練樣本為3 時,與多分辨率字典學習,RSLDA 和BDLRR 相比,算法(式(8))分類錯誤率分別降低了12.42%,1.83%和0.34%。

表2 GT數據集上的分類錯誤率(%)對比

4.2 FERET數據庫實驗

本節在FERET 人臉數據庫上對提出的算法進行了實驗。FERET 人臉庫是人臉識別領域應用最廣泛的人臉數據庫之一,是在不同光照的條件下對受試對象進行圖像采集,每個受試對象的人臉圖像都呈現出不同姿態、不同面部表情的特點。在本節實驗中,用FERET 人臉數據庫的“ba”、“bj”、“bk”、“be”、“bf”、“bd”和“bg”子集進行實驗,共包含200個對象1400張灰度人臉圖像,每個對象有7張灰度人臉圖像。

將所有的人臉圖像都調整為40 像素×40 像素的大小。在FERET 人臉數據庫上不同算法的分類錯誤率對比結果如表3。受試對象的訓練樣本數量為1 和5 時,該算法在ICR 算法的基礎上精度分別提升了1%和1.5%。此外,我們還對式(9)中的圖像表示方法進行了實驗,結果表明,在訓練樣本數量為1 和5 時,該方法比ICR 算法精度提升分別為0.41%和3.00%。最后,與多分辨率字典學習RSLDA 和BDLRR 相比,當訓練樣本數為5 時,算法公式(8)的分類錯誤率分別降低了20.27%,1.50%和1.00%。

表3 FERET數據集上的分類錯誤率(%)對比

5 結語

本文提出了兩種新的圖像表示算法,并進行了大量的實驗,實驗結果表明,所提的算法可以顯著地提高圖像分類精度。通過和其他圖像分類算法比較,該算法在圖像分類精度上有非常大的優勢,同時算法運行效率高,實現方式簡單,完全自動化。兩種新的圖像表示算法在表示對象時,和原始圖像是互補的,通過原始圖像和虛擬圖像對同一對象進行多種表示方法,使得我們的算法具有非常強的通用性,以上實驗也證明了該算法的可行性和有效性。

猜你喜歡
錯誤率訓練樣本人臉
有特點的人臉
人工智能
小學生分數計算高錯誤率成因及對策
三國漫——人臉解鎖
正視錯誤,尋求策略
寬帶光譜成像系統最優訓練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識別算法
基于稀疏重構的機載雷達訓練樣本挑選方法
解析小學高段學生英語單詞抄寫作業錯誤原因
馬面部與人臉相似度驚人
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合