?

一種實用的金融票據框線去除算法

2016-11-02 23:22卜飛宇胡奇光汪彥
電腦知識與技術 2016年23期
關鍵詞:字符識別色差

卜飛宇 胡奇光 汪彥

摘要:字線交疊嚴重干擾對字符的切分與識別?;诙祱D像的表格框線去除算法,只能在一定程度上排除表格框線對字符識別的干擾。隨著計算機運算速度和存儲容量的迅速提高,表格識別系統的掃描輸入圖像開始采用灰度圖像和彩色圖像。該文提出了一種基于彩色圖像的表格框線去除算法,由于利用了圖像中的彩色和灰度信息,能更好地排除表格框線對字符識別的干擾。該方法目前已成功地應用于銀行票據識別系統中。

關鍵詞:字符識別; 金融票據; 框線去除; 色差

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)23-0148-03

Abstract: Characters often overlap form frame lines. Such overlapping seriously deteriorates the recognition of characters. Almost all form frame line removal algorithms based on binary image, and these algorithms have some limitations. A new form frame line removal algorithm based on color images is presented in this paper. Because of using color and gray information of images, this method can avoid the effect of overlapping better. The effectiveness of this method is proved by application of financial document recognition system.

Key words: Financial Document; Frame Line Removal; OCR; Color Aberration

隨著票據處理任務日趨繁重,銀行、稅務、工商、財政等部門開始借助OCR系統來進行票據錄入。但目前一些票據自動識別系統識別率尚不能很好地滿足應用需求。造成識別率較低的一個最主要原因,就是字線交疊。在去除檢測到的表格框線時完整保留字符筆畫,一直是表格自動識別的一個重要環節。

1 傳統的表格框線去除算法簡介

1.1 二值圖像上的表格框線去除

字線交疊分為三種情況(圖1):粘連,相交,重合 [1]。粘連時直接抹去框線,不會影響字符的識別。而對相交和重合的情況,則必須做進一步的圖像分析。

現有的框線去除算法分成兩類:第一類先抹去框線,再根據框線附近字符筆畫的局部特性將缺損筆畫補齊。如YU B[2]等利用被框線截斷的筆畫的兩個殘留游程進行線性內插將斷裂部分補齊。劉長松[3]等則通過框線檢測時得到的有向單連通鏈信息,對筆畫與框線的相交角度進行分析,在去除框線后再對字符筆畫進行相應修整。

第二類算法,對字線交疊處的局部區域做分析,只抹去屬于框線的像素,保留屬于筆畫的像素。如CHUNG Y[4]將交疊區域分成三類:需恢復部分,不恢復部分和無法判斷部分。對于需恢復部分做字符修整,不恢復部分作為字符筆畫保留,而對無法判斷部分,由識別核心判斷是否應該去除。文獻[5]的算法則是在不提取表格框線的前提下,采用圖像分塊和連通域分析,實現字線分離。

1.2 灰度圖像上的表格框線去除

WANG YANG[6]用像素的鄰域灰度均值和方差作為一對參數來描述其鄰域特性,鄰域特性相似的像素點聚類成一連通域。利用兩個相交連通域交匯點處的相關參數對的特征差別來進行字線分離。YE X[7]提出一種基于數學形態學的表格框線去除算法,先提取并去除表格框線,再對字符作形態學修復。張艷[8]等人則采用一種連通鏈結構描述疊加后的框線區域,然后對交疊進行判斷和標記,根據標記保留字符筆劃去除框線干擾。

以上框線去除算法,都有其局限性。尤其是對字符筆畫與表格框線重合的情況,不能取得滿意的去線效果。

2 彩色票據圖像表格框線去除

2.1 彩色增透方法的局限性

彩色增透原理:設圖像上某像素的紅、綠、藍分量值分別為r、g、b,以紅色增透為例。當[r>g]且[r>b]時,令[p=3×r-g-b],若[p>255],則令[r=g=b=255];否則令[r=g=b=p]。

對印刷質量較好且無顏色失真的票據圖像,采用彩色增透能有效地去除表格框線,完整的保留待識別字符。但由于印刷不規范及掃描后壓縮,常造成彩色票據圖像顏色失真。對這樣的圖像,彩色增透技術就無法有效的去除表格框線,或在去除框線時會導致與框線重疊的字符殘缺斷裂(圖2b),這會導致字符切分與識別錯誤。

2.2 彩色票據的特點及框線去除整體思路

經分析,彩色票據圖像有如下幾個特點:

1)票據上打印字符和手寫字符為灰黑色,在票據上不同的區域,打印字符的灰度有時會不一致。手寫字符與打印字符的灰度區別往往較明顯。2)往往有字符打印在框線上(字線交疊),也存在少量打印字符與印章重疊(圖2a)。3)在同一條表格線的不同像素行上,顏色的深淺也有不同,但同一像素行顏色的一致性較好。

據此,提出彩色票據表格框線去除算法的整體思路:

1)檢測出票據圖像上的表格框線。2)尋找票據上的待識別字符區域,包括打印字符和手寫字符。3)找出有哪些待識別字符區域與檢測出的表格框線相交,并求出字線交疊區域。4)對每個字線交疊區域,結合彩色信息和灰度信息來去除表格框線,完整地保留字符。

本方法的關鍵:一是正確找出每個待識別字符區域及字線交疊區域,二是在字線交疊區域中去除框線時根據什么原則來保留同時屬于框線和筆畫的像素。

2.3 表格框線檢測

表格框線的檢測,采用的是基于“有向單連通鏈”的自底向上的表格框線檢測算法[3]。為避免字線交疊對框線檢測的干擾,可先濾除填寫域的灰黑色字符。例如票據印刷部分為紅色,則只保留偏紅色的像素,就能濾去填寫域字符。然后在其二值圖像上再檢測表格框線時,就能排除因字線交疊導致的表格框線漏檢,準確而完整地檢測出所有表格框線。

2.4 待識別字符區域的搜尋

先對票據圖像濾色再二值化,然后通過進行連通域分析來尋找待識別字符區域。具體過程分如下三步:

2.4.1 對整個票據圖像進行濾色

則保持該像素三顏色分量值不變,否則將該像素置成白色。濾色處理可能導致字符殘缺斷裂(圖3),為避免此種情況影響到提取完整的字符連通域,將在后面的字符連通域合并時再采取補救措施。

2.4.2 對整個票據圖像進行二值化

因字符在票據上占一定比例(大于1%小于20%),我們在這里采取一種取字符平均灰度和背景平均灰度兩者平均值作閥值的快速二值化方法。

將濾色后的票據圖像灰度化后,去掉25%灰度值最大的像素。對剩下的像素,取1%灰度值最小的像素的灰度平均值作為字符平均灰度,再取25%灰度值最大的像素的灰度平均值作為背景平均灰度,最后取字符平均灰度和背景平均灰度兩者的平均值作為二值化閥值。

2.4.3 提取字符連通域并合并鄰近的連通域

我們只需得到每個字符連通域的外接矩形(包圍盒),因此采用一種改進的種子點生長算法。設(x ,y)為字符連通域C上的任意一點,定義連通域C的“外接矩形”為以下四個邊界坐標構成的矩形:

對一個種子點,先記錄一個長、寬均為零的初始外接矩形,該外接矩形的四條邊均通過種子點。由種子點開始向上、下、左、右四個方向生長,若新生長的點超過原來記錄的外接矩形的范圍,則修正外接矩形的四條邊的位置,以保證所有生長出來的點仍然在外接矩形內。當一個字符連通域生長完成后,就得到了它的外接矩形。

得到所有的字符連通域外接矩形后,再將鄰近的字符連通域合并到一起??紤]到2.4.1中濾色造成的字符斷裂,而票據中的表格框線的寬度一般不超過8個像素,我們將得到的每個字符連通域的外接矩形向四周各擴充4至5個像素,然后合并相交的外接矩形。這樣,就將斷裂或上下、左右相鄰較近的字符連通域合并到了同一個區域里,從而得到若干個相對獨立的待識別字符區域,每個區域包含一個或多個字符(圖4)。

2.5 表格框線去除

對上面搜尋到的每個待識別字符區域,依次判別該區域是否與檢測出的表格框線相交,若相交,求出相應的字線交疊區域(圖5)。

字線交疊區域中,每一個像素均位于表格框線上。因此,只需判斷哪些像素沒有位于字符筆畫上,將其濾除,即可去除表格框線,而完整地保留下筆畫。下面以紅色水平框線為例,采用一種簡便快速的基于色差的平均值統計方法來去除表格框線。

對于一個字線交疊區域,考慮到表格線上同一像素行顏色一致性較好的特點,我們以像素行為單位來進行處理。先統計出該行內所有像素的紅色分量的平均值AverRed及灰度平均值AverGray,然后再依次檢查每個像素,設像素的紅色分量值為r,灰度值為p,若有:[p

2.6 去除印章干擾

若一個待識別字符區域中還存在著紅色印章,則統計其中所有紅色像素的紅色分量平均值AverRed及灰度平均值AverGray。對每個紅色像素,若其紅色分量值小于AverRed且灰度值小于AverGray,則保留該像素,否則將其置成白色。

3 實驗結果分析

選擇了400張待識別字符與表格框線重疊的彩色銀行票據作測試樣本,其中162張有待識字符和印章重疊。下面列出了用幾種不同的方法對這些票據圖像去除框線后再進行識別的結果。其中二值圖像上的去線算法采用的是文獻[3]中的算法。因目前的識別核心仍是基于二值圖像的,因此送入識別核心的圖像,為去線后再二值化或二值化后再去線的圖像。若一張票據的所有待識別字符區域都識別成功,稱為整張識別通過。

從表1可以看出,對存在字線交疊和字印交疊的票據,不去線直接二值化后進行識別,則整張識別通過率極低。彩色增透去線再二值化后進行識別,也無法達到實用要求,且其整張識別通過率比二值圖像上去線后再識別的還低,這是因為彩色增透對顏色失真的票據圖像無法取得好的效果。用本方法去線后并二值化,再進行識別時,整張識別通過率有明顯提高。

4 結束語

本文提出了一種基于色差的彩色票據圖像表格框線去除算法,根據檢測到的表格框線和搜索到的待識別字符區域找出所有字線交疊區域,然后對找到的每個字線交疊區域依次進行去線處理。通過在局部區域上利用彩色和灰度信息對圖像進行分析,本方法能有效地去除表格框線的干擾,是一種更能滿足實用需求的方法。

參考文獻:

[1] Satoshi N, Yabuki M, Asakawa A, et al. Global interpolation in the segmentation of handwritten characters overlapping a border[J]. IEICE transactions on Information and Systems, 1995, 78(7): 909-916.

[2] Yu B, Jain A K. A generic system for form dropout[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996, 18(11): 1127-1134.

[3] 劉長松, 潘世言, 鄭冶楓, 等. 一種表格框線檢測和字線分離算法[J]. 電子與信息學報, 2002, 24(9):1190-1196.

[4] Chung Y, Lee K, Paik J, et al. Extraction and Restoration of Digits Touching or Overlapping Lines[J]. Journal of Molecular Biology, 1996, 3(4):541-552.

[5] 劉為, 平西建, 郭戈. 基于字線分離的表格識別預處理算法[J]. 計算機工程與設計. 2008,(19):5066-5068.

[6] Wang Y, Bhattacharya P. On parameter-dependent connected components of gray images[J]. Pattern Recognition, 1996, 29(8): 1359-1368.

[7] Ye X, Cheriet M, Suen C Y, et al. Extraction Of Bankcheck Items By Mathematical Morphology[J]. Document Analysis & Recognition, 2004, 2(2-3):53-66.

[8] 張艷, 郁生陽, 張重陽, 等. 表格型票據中框線檢測與去除算法[J]. 計算機研究與發展,2008(5):909-914.

猜你喜歡
字符識別色差
CIEDE2000色差公式在彩涂板色差檢測上的應用研究
基于漢風色典的不同色差公式的色差均勻性
彩涂板色差標準板管理方法的探討
涂裝色差控制工藝分析
一種改進深度學習網絡結構的英文字符識別
色差
儀表字符識別中的圖像處理算法研究
基于CUDA和深度置信網絡的手寫字符識別
機加工件點陣字符識別研究
光整冷軋IF帶鋼色差成因研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合