?

基于Ridgelet變換的多文種文檔圖像文種識別

2020-11-17 06:55熱依汗古麗卡森木木特力鋪馬木提吾爾尼沙買買提阿力木江艾沙庫爾班吾布力
計算機工程與設計 2020年11期
關鍵詞:文種識別率分類器

熱依汗古麗·卡森木,木特力鋪·馬木提,吾爾尼沙·買買提, 阿力木江·艾沙,庫爾班·吾布力+

(1.新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046; 2.新疆大學 網絡與信息中心,新疆 烏魯木齊 830046)

0 引 言

作為OCR[1](光學字符識別)系統的重要組成部分,文種識別技術尤其是多文種識別技術近來受到越來越多的關注[2]。韓興坤等[3,4]認為對于具有相似性的語言文種,單一的紋理特征是不能夠詳細體現圖像的紋理,提出了基于NSCT子帶紋理特征融合的多文種文檔圖像文種識別方法,平均準確率為99%。布阿加姑麗等[5]針對11種文檔圖像提取均值、標準差、熵等6種紋理特征進行加權融合,在自建的兩個數據庫中進行實驗,識別率分別為99.38%和95.69%。李順等[6]提出了基于離散曲波變換的文種識別,在包含10個文種共10 000幅圖片中進行實驗,最終識別率為99.25%。

近年來通過學者們的不懈努力,基于紋理特征的文種識別技術取得了很大的進步,但是已有的文獻中都存在文檔圖像庫中文種的類別不夠豐富的問題。隨著國家提出的一帶一路戰略的穩步推進,世界各國之間的經濟、貿易、文化等也有了頻繁的交流,這對印刷體文檔圖像的文種識別帶來了更大的機遇和挑戰,為了解決這方面的問題,本文提出了基于Ridgelet變換的多文種文檔圖像多文種識別方法,通過對圖像進行脊波變換來提取多文種文檔圖像的紋理特征,并使用KNN、線性判別分析等多個分類器對來特征進行訓練和分類,尋找最佳的分類器和閾值,實現文檔圖像的多文種識別。

1 脊波變換

目前大部分圖像中有大量的紋理特征表現比較突出,小波變換不能達到最優的逼近,為了克服小波這種不足Candes等提出了多尺度變換——Ridgelet變換[7],又能夠稱為脊波變換,其對于直線奇異的多變量函數能夠實現不錯的逼近性能,即對于紋理特征豐富的圖像,Ridgelet可以獲得比小波更加稀疏的表示。Ridgelet變換的主要步驟是使用Radon變換將多個方向的線性奇異性映射為某個點的奇異性,接著刻畫點的奇異性,主要用一維的小波變換來實現,最終具體體現圖像中直線或曲線奇異性等重要特征。由此,小波變換較適用于表示孤立的點奇異性目標,脊波變換適用于體現直線奇異性。這就是多尺度Ridgelet,其Ridgelet變換原理如圖1所示。

圖1 Ridgelet變換原理

其中一維小波變換為

(1)

首先,用Radon變換將不同方向的線奇異性映射為點的奇異性,其Radon變換為

(2)

接著,然后用一維小波變換來刻畫點的奇異性,最終得到Ridgelet變換

(3)

用Ridgelet變換后會得到N*M的脊波系數矩陣,組成特征向量,對此進行提取能量特征。

2 基于有限Ridgelet變換的文種識別方法

現有文種識別方法在標準文檔圖像庫建立的基礎之上,對文檔圖像進行預處理操作,主要包括:噪聲去除、灰度化等;進行圖像的特征提??;對所提取的特征進行訓練,實現分類結果。其流程框架如圖2所示。

圖2 文種識別流程

首先是收集這9種文字的書本、報紙等紙質版資料。其中有一些在圖書館較難找到的文種如:像吉爾吉斯斯坦文等一部分文檔圖像是從官網上下載打印之后再通過掃描儀得到,樣本圖像大小為256×256,分辨率為200 dpi,通過裁剪工具裁剪得到同樣大小標準的文檔圖像樣本,建立實驗所需的標準數據庫,對準備好的標準文檔圖像進行去燥、灰度化、二值化等預處理,進行特征提取并保存。保存好的特征向量用本文所選的分類器進行訓練和分類。

2.1 圖像預處理

對文檔圖像的預處理是個尤為重要的階段,預處理對圖像文種識別效果有著直接的影響,用掃描儀把不同文字掃描成圖片形式將其以bmp形式保存,各文檔圖像樣本如圖3所示。

圖3 部分實驗樣本

由于掃描過程中掃描的紙質圖像文檔的樣本顏色上有些不同,為了解決這類問題,要對文檔圖像進行預處理。

本文的預處理主要分為灰度化和二值化,灰度化采用加權平均法,二值化采用OSTU(最大類間方法)法,二值化后的圖像減小了背景像素的干擾,能夠更好提取圖像的特征,提高文種識別率。

2.1.1 灰度化

在圖像處理上,通常需要灰度化使其變為灰度圖,以減少后續計算量。彩色圖像有R、G、B這3個顏色通道,圖像灰度化就是將三通道的彩色圖像變為單通道的灰度圖像?;叶然捎眉訖嗥骄?,在計算時,求出3個通道的求出平均值,將此平均值作為對應灰度圖像的像素值,計算公式如式(4)所示

f(i,j)=0.30×R(i,j)+0.59×G(i,j)+0.11×B(i,j)

(4)

2.1.2 二值化

對原始的文檔圖像進行灰度化處理后,還會留有灰色的背景信息,會對后期圖像特征提取產生一定的影響,為了避免影響特征提取部分需要進行對文檔圖像進行二值化[8],圖像二值化對后期的識別有直接的影響,文檔圖像二值化指的是把文檔圖像上的像素點的灰度值設置為0或255,將整個文檔圖像呈現出明顯的黑白效果的過程,也就是說讓文檔圖像變得簡單從而得到數據的處理和壓縮量上的減少,有利于凸顯出文檔圖像的輪廓。其灰度值為255表示其表示的是我們的文檔圖像的背景是白色,灰度值為0其表示文檔圖像上的文字的黑色。

二值化后的圖像如圖4所示。

圖4 圖像二值化效果

2.2 特征提取

對大小為256*256,bmp格式的原始文檔圖像進行Ridgelet變換,通過變換以后得到256*256大小的脊波系數矩陣,對系數進一步進行分析并利用脊波系數提取脊波能量特征,實驗過程中對每1*256的系數矩陣提取一維能量特征得到的實驗結果最優,所以從文檔圖像脊波系數矩陣共得到256維脊波特征向量,其能量特征公式如下

(5)

n,k為矩陣的大小。

基于小波變換[9,10]的識別方法,其本質就是通過3級小波分解得到9個不同的細節子圖,根據對每個細節子圖能量特征、同一尺度的比例特征的計算,最終獲取十八維度的能量特征。一張大小N*N的文檔圖像的平均能量定義為

(6)

細節子圖的小波平均能量定義為

(7)

局部二值模式(local binary pattern,LBP)算法的原理圖如圖5所示。

圖5 LBP原理

LBP[11,12]首先定義一個3*3的滑動窗口,閾值為中心點,通過比較對應像素點的大小來確定該像素點的二進制值,若中心點像素值大于周圍某個點的像素值,則該點的值賦為0,反之為1。通過一一對比,大小為3*3的窗口,除去中心點,就產生出8個二進制數,二進制數通常轉換為十進制數即LBP碼,共28可能,也就是256種碼序。這樣得到的碼序即是該點的LBP值,它反映該區域的紋理信息。為了使提取的LBP特征數據在文檔圖像產生一定的傾斜角度時有較好的魯棒性、減少LBP特征數據的類別,從而降低特征數據計算復雜度,本文采用LBP等價模式來進行對比實驗,這樣特征向量的維數更少,并且可以減少高頻噪聲帶來的影響。

2.3 訓練和分類器的選擇

2.3.1 KNN分類器

KNN算法[13]是一個得到大家青睞并成熟的分類算法之一。KNN的主要思想根據最相近的一個或者若干個樣本的類別來判斷待分類樣本屬于某一個類別。比如在若干個樣本在特征空間里的k個最相近的樣本大多數歸為一類,那么這樣本也會被判為屬于該類別。

該算法主要參數的設置為K值,如果我們選擇的K值較小,把我們得到的近鄰數隨著變少,這情況會導致噪聲過大,影響分類效果。反過來要是選擇的K值過大,本來不相似的數據也會混在其中造成噪聲影響識別率。KNN分類器本文K值選為3使用余弦距離來計算相似度

(8)

2.3.2 貝葉斯分類器

貝葉斯分類器算法[14]是來自于貝葉斯定理,貝葉斯分類器(Bayes classifier,Bayes)的原理是對于一個不確定的分類項,首先假定在此類別出現的條件下其它類別出現的概率,其中哪個類別出現概率較大,它就屬于這一個類別。

其計算公式如下

(9)

式中:P(D1),P(D2),…,P(Dm) 的值相同,變量x1,x2,……,xn相互獨立,P(W) 為常數,則有

(10)

2.3.3 線性判別分析分類器

線性判別分析分類器[15](linear discriminant analysis classifier,LDA)是經典的分類器,基本思想比較簡單:給定帶有標簽的訓練樣本集,設法將樣本投影到一條直線上,使得同類樣本的投影點盡可能近,異類樣本的投影點盡可能遠。在使用LDA進行分類[16]時,對樣本進行投影,使其映射到相同的直線,根據映射點的位置確定類別。

其公式如下

(11)

3 實驗結果與分析

3.1 實驗設備與環境

本文實驗平臺是AMD A8-5600K APU with Radeon(tm)HD Graphics 3.60 GHz處理器、操作系統為Windows7 64位,4 GB內存,編譯環境為MATLAB2016b,所有基于Ridgelet變換多文種文檔圖像文種識別實驗在此基礎上完成。

3.2 實驗結果與分析

本次實驗樣本是通過對各類書刊、雜志等掃描后的圖像以BMP形式保存,建立的數據庫包括:英文、中文、阿拉伯文、土耳其文、吉爾吉斯坦文、俄文、國內少數民族文種(蒙文、藏文、維吾爾文)9個文種,切割成大小為256*256,bmp格式,分辨率為200 dpi的文檔圖像,每個語種各1000張共9000張文檔圖像的實驗用數據庫,本文文種樣本包括世界主要使用的文種和少數民族文種。識別率計算如下公式

(12)

其中,Nr為該樣本正確分類樣本數,Nt為該文種測試本數,進行實驗時文檔圖像特征訓練集是按不同數量隨機選取的,改變訓練集數量,其余的作為測試集進行實驗,實驗分兩個部分:首先用兩個經典算法分別使用小波和LBP提取預處理之后的文檔圖像的紋理特征單獨進行實驗;再進行本文Ridgelet變換的實驗對比最后的識別結果。實驗一律進行10次,以10次實驗的平均值作為識別結果。本文選取比較常用的KNN分類器,貝葉斯分類器和線性判別分析分類器進行分類作對比。

基于小波變換的文種識別方法使用不同的數量訓練集得到的文種識別結果如圖6所示。

圖6 使用小波特征在不同數量訓練集識別率

由圖7可知,采用小波變換方法,訓練集為500時,在LDA分類器下識別準確率能達到92.45%。隨著訓練集變化,整體曲線有波動,在LDA分類器力訓練集數量從500開始就穩步上升最終最高識別率達到了92.85%,其次高的是貝葉斯分類器,貝葉斯分類器上最高識別率達到了91%以上。

圖7 LBP特征使用不同數量訓練集識別率

基于LBP特征的文種識別方法使用不同的數量訓練集得到的文種識別結果如圖7所示。

由圖7可知,使用LBP特征在LDA分類器上可以達到95.20%的最好識別效果,平均識別率也達到了94.47%,而KNN分類器的識別效果則相對較差。比較圖7 和圖8可以看出使用LBP特征比使用小波特征的識別效果高。

圖8 Ridgelet變換特征使用不同數量訓練集

在LDA分類器上平均高出了2.6%。識別率排第二的是在貝葉斯分類器上平均識別率達到了93.20%,隨著訓練集數量的增加,識別率都能穩步提升。

基于Ridgelet變換的文種識別方法使用不同的數量訓練集得到的文種識別結果如圖8所示。

由圖8可知在KNN分類器里面識別率平均達到了99.23%,最高識別率達到了99.67%,貝葉斯和LDA跟KNN相比識別率較低,在LDA分類器平均識別率達到了96.92%,比小波變換分別提高了8.13%和4.52%,跟LBP相比識別率分別提高了7.85%和2.45%。在每個文種的訓練樣本數量在500以下時,識別率隨著訓練集的增加而提高。但只要文種訓練集數量超過500,每個分類器的識別效果都出現了小幅度下降,這是因為隨著訓練樣本數量的增加,分類器因為學習到了樣本集中的噪聲或者不具有代表性的特征而產生了過擬合,導致錯誤分類。

在Ridgelet變換方法下還是存在錯誤分類,以更好驗證本文提出的算法對每個文種的具體識別效果,對9個文種選取一部分作為訓練集,其余部分作為測試集,訓練集和測試集的比例是按500個訓練、500個測試來進行實驗。通過實驗結果可以得出錯誤分類情況。本文對基于Ridgelet變換的多文種識別方法使用KNN分類器進行識別實驗,錯誤分類樣本分布見表1。

表1 在KNN分類器下Ridgelet變換錯誤分類統計

從表1可知,對書寫方式和特征結構差異比較大的英文、吉爾斯斯坦文、俄文、蒙文等4種文種來說實現了無錯誤分類,出現錯誤分類比如錯誤分類較多的是蒙文屬阿爾泰語系蒙文跟俄文書寫形式較相似因此導致錯誤分類,阿拉伯文在分類時分到了維吾爾文,維吾爾文有個別字母是跟阿拉伯文的相似,就像中文詞匯里的好多外來詞匯一樣,但這兩個文種在字母組合方式有差異。

下面列出了Ridgelet變換和其它兩個經典算法的各自所提取的特征維數N、特征提取時間T、3種方法的識別效率來進一步驗證本文方法的有效性,其結果見表2。

從表2可知3種不同的識別方法其維度與時間性能不同基于小波變換的方法特征維數較低,計算用時較短,在消耗時間方面跟其它兩個算法相比較快。LBP變換后,得到的系數矩陣較大,所以在計算難度上較大,時間較長。本文提出的Ridgelet變換方法,特征維數跟LBP方法同樣是256,但Ridgelet變換系數矩陣結構簡單,計算速度快,識別率跟其它兩個經典算法對比識別率較高。小波變換特征提取時間最短,由于其算法的局限性,只能提取3個方向的特征。LBP方法在使用LDA分類器時,其效果相對較好,其準確率達到了95%左右?;赗idgelet變換的文種識別方法在使用KNN分類器時,得到的分類效果好于其它兩個分類器,平均文種識別率達到了99.23%。Ridgelet變換提取的圖像的紋理特征比小波變換和基于LBP的方法提取的特征更加豐富,對圖像細節的描述更加具體,因此對多文種文檔圖像的文種識別效果更好。

表2 識別效率比較

4 結束語

本文提出了一種基于Ridgelet變換的多文種文檔圖像文種識別方法,在Ridgelet變換后得到其系數矩陣,并從中提取能量特征,得到特征向量。選用KNN、貝葉斯,LDA等3個分類器用于特征訓練和分類,在前期工作中建立的含有9個文種的文檔圖像數據庫分別為英文、中文、阿拉伯文、土耳其文、吉爾吉斯坦文、俄文、國內少數民族文種(蒙文、藏文、維吾爾文),每個文種有1000張總9000張,實驗數據對每個文種不同數量樣本進行實驗,選小波變換和LBP作為對比實驗,從實驗結果可知Ridgelet變換在KNN分類器里面效果最佳,在此分類器里平均識別率達到了99.23%,數據庫采集時存在掃描儀和采集的數據樣本本身的一些格式,噪聲等問題,實驗結果均顯示該方法提取文檔圖像紋理特征的有效性,由于提取的特征位數較高所以特征提取時間跟對比方法相比中等,對于相似性文種的分類效果還有待提高,在今后的研究中繼續深入研究這幾個方面問題。

猜你喜歡
文種識別率分類器
“知止”的天堂
近代以來我國公文文種流變考述
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
聽力正常青年人的低通濾波言語測試研究*
提升高速公路MTC二次抓拍車牌識別率方案研究
一日輕裝范蠡舟
基于差異性測度的遙感自適應分類器選擇
鳥盡弓藏
基于實例的強分類器快速集成方法
高速公路機電日常維護中車牌識別率分析系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合