?

基于投影特征和模板匹配的車牌漢字識別算法

2010-04-05 13:32陳大海王藝霖
關鍵詞:車牌字符識別率

陳大海 ,王藝霖

(1.中國空空導彈研究院,河南洛陽 471009;2.沈陽工業大學信息學院,遼寧沈陽 100178)

0 前言

車牌自動識別技術是現代交通管理中的重要內容,其關鍵是字符分割和字符識別[1]。隨著光學字符識別(OCR)[2]技術的發展,車牌識別技術取得了長足的進步,其中的車牌底色識別、車牌分割、字符分割等技術都取得了較好的效果。我國車牌的特殊性是存在特定規格尺寸的漢字,目前車牌識別算法中對漢字的識別技術依然是當前研究的重要課題[3]。

目前車牌漢字識別的方法有很多,主要有使用模版匹配算法[4]和特征分析算法[5]。模板匹配算法先將待匹配的字符歸一化為模板大小,然后對其中相應的點一一比較,將匹配點數最多的模板認為是待匹配的字符結果。模板匹配方法簡單,對于字符有斷裂和粘連等情況容易造成錯誤的判斷,并且運算速度較慢。

特征分析的方法比較多,大部分是利用拓撲特征,是將字符細化后,判斷字符有多少個閉合空間和長線或交叉線,該算法識別率較高,但是算法復雜,對低質量圖像適應性不好。其中的神經網絡算法[6]的識別率較高,但是算法過于復雜,計算量過大?;谕队暗奶卣鞣治鏊惴╗7]對漢字的識別率相對特征分析法較低,在不同場景下很難達到實際應用的要求。

本文提出了逐級識別車牌漢字字符的算法:利用投影法計算字符在水平和垂直方向上的投影,根據投影波谷的分布,分析漢字的上下左右結構,根據峰值近似的原理,粗匹配可能的漢字。由于車牌漢字中具有較多筆畫很多的漢字,這些漢字由于拍照角度及光照條件的不同而較難分辨,因此利用字體面積所占區域面積的比例,可以快速篩選待識別漢字。最后利用模板匹配算法就可以保證識別的精度了。本文的算法具有較高的準確性和廣泛的適用性。

1 算法原理

根據《GA36—2007中華人民共和國機動車號牌》的規定,車牌用漢字標識省、自治區、直轄市的簡稱。漢字相對于車牌上其他文字的位置是固定的,見圖1。因此,本文算法主要在漢字區域進行識別, GA36—2007國家標準中,提供了字庫標準模板,本文使用其中的漢字,作為標準的漢字識別庫。文獻[1]中已經詳細介紹了車牌自動識別中的字符分割和二值化的算法,這里不再贅述前處理過程,從二值圖像的識別算法開始分析。

圖1 GA 36—2007機動車號牌參數

1.1 車牌漢字的投影算法

假定圖像寬為m,高為n。二值圖像為矩陣H[m][n]。圖像漢字區域在X軸上的投影為函數,在 Y軸上的投影函數為 fy。

X軸上的投影為函數fx在x(x=1,2,…,m)處的值為:

Y軸上的投影為函數fy在y(y=1,2,…,n)處的值為:

對于投影函數fx和fy分別求導,若:

則認為是水平投影的極值點,同理,可以得到垂直投影的極值點。

如果f′x(x+1)≤0,且f′x(x-1)≥0則可能是波谷。再判斷fx(x)是不是足夠的小。如果波谷非常接近邊界,判斷為不是結構的波谷。

對各部分積分,再求比值就可以得到分割點左右的比值。設分割點為 G,則有:

1.2 模版匹配算法

設字符像素和為 ω,占有整個圖像的比例用參數 φ表示:

φ可用于篩選待識別漢字模板。

鑒于漢字結構和筆畫的不同,需要分解模板的大小進一步篩選待識別漢字。

將車牌上分割好的字符與字符庫中的字符進行匹配運算,圖像與模板之間的匹配程度[9]由互相關算子確定:

其中,R(i,j)為互相關算子;S為待檢測的圖像;Sij為待檢測的圖像子圖;T為模板。

由于圖像已經是二值圖像,上式可以表示為:

D(i,j)值最小的為最佳匹配模板。

2 實驗

一個典型的車牌自動識別系統包括視頻圖像采集、圖像預處理、車牌定位、車牌校正、車牌字符分割、車牌數據庫管理系統等工作流程。本文實驗用的圖像,來自高速公路收費處的視頻攝像機:160萬像素分辨率,1/2″CCD彩色攝像機,攝取視頻圖像的最小照度不大于 0.2 lx,自動電子快門:1/501/120 000 s,安裝距離為 23m,攝像機垂直傾角≤±15°,水平偏斜度≤±20°。本文采用投影和模板結合的算法來識別車牌中的漢字,漢字的傾斜對水平、垂直參數沒有影響。

圖2 標準車牌漢字投影和待識別車牌漢字投影比較

圖2a和圖2b分別是同一個標準字庫的漢字和車牌漢字的水平和垂直投影結果。從圖2中可以看出:標準模板的投影和待識別圖像的投影具有很大的相似性。但是,投影算法并不能適合所有車牌漢字的識別。

為此,把車牌投影的結果進行了分類(不包括白底色特種車牌):

第 1類是在水平或者垂直方向的投影中,投影值具有 0區間值的漢字。包括垂直投影的“川”;水平投影的“京、云、黑、魯、吉”等。因為這些字體的區間位置不同,通過投影計算可直接判定漢字。

第 2類是在水平投影中,具有 0區間值和最大區間值的漢字。包括“粵、貴、青、寧、冀、蘇、蒙”。這里面除了“蘇”和“蒙”兩個字需要通過公式(6)比較像素數來識別外,其他的字符都可以直接判斷。

第 3類是水平方向的投影無 0區間,垂直方向的投影具有峰值區間的漢字。包括“津、桂、陜、鄂、湘、浙”等。這些漢字中具有長筆畫特征,且位置固定,除了“湘”、“浙”外,其他的字符都可以直接判斷。另外“甘”字在水平方向投影具有長筆畫,也歸屬為此類?!跋妗?、“浙”兩字是具有很高的相似性,且影響整個識別系統的性能。本文采用了細化后求閉環的算法,可以很好的解決此問題(見圖3)。

第4類為剩下的字符,包括:“贛、藏、遼、閩、新、皖、瓊、豫、滬、渝”等。用公式(7)將待識別字符與模板字符在 4個不同的區域中進行像素數量分析,對待識別字符進行排除分析。當滿足閾值(經驗值為0.85)的情況下,用公式(10)對剩下的字符進行模板匹配(見圖4)。

根據上述車牌漢字識別算法,對 1 200幅車牌進行了實測,總體識別率達到了98.4%。

圖3 “湘”和“浙”字符的細化閉環

圖4 應用公式(7)和公式(10)的漢字識別結果

3 結束語

車牌自動識別算法中,預處理技術日趨成熟,隨著圖像采集設備的提升,車牌識別的難度越來越小。漢字識別作為 LPR中的關鍵技術,對整個識別系統的性能有很大的影響。目前車牌漢字識別算法主要問題在識別率方面。本文根據車牌漢字的字符特點,提出了新的逐級識別算法,把投影法識別率高的30%左右的字符一次識別,把識別率一般的字符進行分類,在小尺度區域中進行像素分類,然后用模板法進行匹配。通過實驗證實:算法不僅速度快、魯棒性好,匹配精度也很高。

[1] Halina Kwas,nicka,Bartosz Waw rzyniak.License Plate Localization and Recognition in Camera Pictures[J].Artificial Intelligence Methods,2002,2(3):13-15.

[2] Katsuyama K,Takebe H,Kurokawa K.H ighly Accurate Retrieval of Japanese Document Images Through a Combination of Morphological Analysis and OCR[DB/OL].Proc SPIE.2002:57-67.

[3] 趙春明,石躍祥.利用投影特征高速識別車牌中的漢字[J].計算機應用,2005,41(19):207-209.

[4] 魏武,張起森,王明俊,等.一種基于模板匹配的車牌識別方法[J].中國公路學報,2001,14(1):104-106.

[5] 宋建才.字符結構知識在車牌識別中的應用[J].電子技術應用,2004(4):18-19.

[6] 王鑫道,陳啟美,李勃.基于多分類器并行計算的車牌識別算法[J].交通與計算機,2006,2(24):58-61.

[7] 任柯昱,唐丹,尹顯東.基于字符結構知識的車牌漢字快速識別技術[J].計算機測量與控制,2005,13(6):592-594.

[8] 宓浩,張燕平.基于特征投影和交叉覆蓋神經網絡的車牌識別[J].計算機技術與發展,2007,17(10):76-79.

[9] 邢向華,顧國華.基于模板匹配和特征點匹配相結合的快速車牌識別方法[J].光電子技術,2003,23(4):268-270.

猜你喜歡
車牌字符識別率
基于類圖像處理與向量化的大數據腳本攻擊智能檢測
字符代表幾
一種USB接口字符液晶控制器設計
數字圖像處理技術在車牌識別系統中的應用
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
HBM電子稱與西門子S7-200系列PLC自由口通訊
消失的殖民村莊和神秘字符
提升高速公路MTC二次抓拍車牌識別率方案研究
第一張車牌
基于MATLAB 的車牌識別系統研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合