?

基于CenterNet的小學生英文手寫體區域檢測

2020-10-20 05:44張朝暉劉遠鐸
河北工業科技 2020年5期
關鍵詞:目標檢測

張朝暉 劉遠鐸

摘 要:為了探索智能批閱小學生作業的可行性,以小學生英文手寫體為研究對象,建立了基于關鍵點的CenterNet模型。首先,針對低顯存環境下CenterNet模型的構造與學習,提出了一種新的以組規范化(GN)替換批量規范化(BN)的池化模塊結構改造方案,得到了改造版CenterNet模型;之后,將改造版CenterNet模型用于小學生英文手寫體區域檢測,實現了基于深度學習的英文手寫體區域檢測。將改造版CenterNet模型與原始CenterNet模型和CornerNet-Lite基準模型進行檢測比較。實驗表明:2種版本CenterNet模型的英文手寫體區域檢測精度和平均召回率均高于基準模型的相應值,改造版CenterNet模型的AP0.5值甚至可達到73.1%,比基準模型高出近6%;此外,相比于基準模型,改造版的CenterNet模型的漏檢情況更少,并在一定程度上有效抑制了誤檢。改造版的CenterNet模型不僅檢測性能優于原始CenterNet模型,而且其學習過程更穩定、收斂更快,這為小學生作業智能批閱方案的設計提供了有價值的解決途徑。

關鍵詞:計算機神經網絡;英文手寫體區域檢測;目標檢測;CenterNet;組規范化;池化模塊結構

中圖分類號:TP3914文獻標識碼:A

doi: 10.7535/hbgykj.2020yx05001

收稿日期:2020-08-17;修回日期:2020-08-30;責任編輯:陳書欣

基金項目:國家自然科學基金(61702158);河北省自然科學基金(F2018205137,F2018205102)

第一作者簡介:張朝暉(1969—),女,河北樂亭人,副教授,博士,主要從事機器學習、圖像識別方面的研究。

通訊作者:劉遠鐸。E-mail:lyuanduo@163.com

張朝暉,劉遠鐸.

基于CenterNet的小學生英文手寫體區域檢測[J].河北工業科技,2020,37(5):291-299.

ZHANG Zhaohui, LIU Yuanduo. Detection of English handwriting area for primary school students based on CenterNet[J].Hebei Journal of Industrial Science and Technology,2020,37(5):291-299.

Detection of English handwriting area for primary school

students based on CenterNet

ZHANG Zhaohui1, LIU Yuanduo2

(1.College of Computer and Cyber Security,Hebei Normal University,Shijiazhuang, Hebei 050024, China; 2.Software College, Hebei Normal University, Shijiazhuang, Hebei 050024, China)

Abstract:

To explore the feasibility of intelligent workbook review for primary school students, a CenterNet model based on

the keypoints was established with primary English handwriting as the research object. Firstly, aiming at the construction and learning of CenterNet model in the case of low GPU (graphics processing unit) memory, a new scheme for pooling module structure modification was proposed by replacing BN (batch normalization) with GN (group normalization), and a modified CenterNet model was obtained. Then, the modified CenterNet model was used for the detection of English handwriting areas of primary school students, and the application of English handwriting area detection based on deep learning was realized. The comparison experiments with the original CenterNet model and the CornerNet-Lite baseline model show that the accuracy and average recall rate of the two versions of CenterNet model are higher than those of the baseline model, and the AP0.5 value of the modified CenterNet model can reach 73.1%, which is nearly 6% higher than that of CornerNet-Lite model. In addition, compared with the baseline model, the modified CenterNet model can get less missed detection and effectively suppress false detection to a certain extent. The improved CenterNet model not only has better detection performance than the original CenterNet model, but also has more stable learning process and faster convergence. This provides a valuable solution for the design of homework intelligent review scheme for primary school students.

Keywords:

computer neural network; English handwriting area detection; object detection; CenterNet; group normalization (GN); pooling module structure

當今時代是人工智能技術快速發展的時代,伴隨著人工智能技術的不斷普及,與之相關的應用不斷引起人們的關注。中小學教育質量的優劣關系著國家的未來,如何將人工智能的最新成果與中小學數字教育應用需求有機結合成為研究的課題。在不斷提升教育教學質量的背景下,作業批閱的質量與效率對家長和老師都是一個不可避免的新問題與挑戰。準確、高效的作業批閱,有助于家、校雙方更為客觀、及時地了解學生的學習情況以及教學質量,因此實現作業的智能化批閱是一個迫切需要解決的問題。

目前小學生作業的載體以紙質作業冊為主,而要實現作業的智能批閱,并構造手寫體區域檢測模塊,以數字化的作業圖像為輸入,檢測圖像中的手寫體區域;進而將檢測結果輸入至后續的手寫內容識別及評分環節。其中,

一個尤為關鍵的環節是手寫體區域的檢測。它是實現準確、可靠的智能批閱的核心模塊。為此

本文面向小學生作業智能批閱的應用需求,圍繞作業圖像中手寫體區域檢測,結合深度學習在目標檢測方面的新成果,探討了將基于關鍵點的目標檢測模型應用于小學生英文手寫體區域檢測的可行性。

1?目標檢測技術研究現狀

手寫體區域檢測的目的在于從給定的包含手寫體區域的圖像中定位并提取手寫體區域,這是一種典型的圖像目標檢測問題。從應用的角度來看,關于目標檢測的研究主要有2種基本主題:一個是一般意義的目標檢測,其目的是在統一框架下探究可以同時進行不同類型目標檢測的方法;另一個則是結合具體的應用場景進行特定類型的目標檢測,例如車輛檢測、行人檢測、文本檢測等。

近年來,深度學習技術的快速發展為目標檢測技術注入了新鮮的血液,2014年基于深度學習的R-CNN模型[1]打破了傳統目標檢測性能停滯不前的僵局。自此,基于深度學習的目標檢測技術開始以前所未有的速度不斷發展,其目標檢測性能也不斷創造著新的記錄。有關目標檢測技術的發展歷程,可參見ZOU等[2]關于近年目標檢測技術的系統化綜述。按照目標檢測過程中是否使用錨窗口(anchor),可以將目標檢測模型分為兩大類型:基于錨窗口(anchor-based)的目標檢測法和無錨窗口(anchor-free)的目標檢測法。

第1類方法為基于錨窗口的目標檢測法。這類檢測模型需要在特征圖的各位置設置錨窗口,針對每個錨窗口預測目標對象存在的概率,借助錨窗口尺寸的調整來匹配可能的目標對象??蛇M一步將該類方法劃分為2種典型形式,即:兩階段檢測器(two-stage detector)和單階段檢測器(one-stage detector)。兩階段檢測器首先基于輸入圖像生成高質量的目標區域候選框,之后借助分類與回歸網絡的連接進行候選框的類別判斷及位置校正。最早出現的R-CNN及其后續衍生的Faster R-CNN[3],Mask R-CNN[4]等是兩階段檢測器的典型代表。盡管Faster R-CNN在行人檢測[5]等目標檢測任務中有著優秀的表現,但是兩階段檢測器以犧牲檢測速度換得較高的檢測精度,時間成本消耗較高。單階段檢測器直接對預先設置的錨窗口進行分類和回歸。SSD[6],YOLOv3[7]是這類方法的典型代表。這類方法在預測區域候選框的同時,進行目標區域類別的預測和位置的回歸??傊?,基于錨窗口的目標檢測法需要在圖像中生成盡可能涉及更多感興趣目標類型的大量錨窗口,錨窗口的引入導致更多額外超參數;相對于圖像中密集分布的大量錨窗口,只有少量窗口被標記為目標,導致大量窗口的冗余;當檢測類型的目標形狀發生較大改變時,這種基于錨窗口的目標檢測法的場景應用靈活性降低,需要結合具體目標類型仔細設計錨窗口的形狀。

第2類方法為無錨窗口的目標檢測法。人眼無需從候選窗口中進行選擇即可感知監控場景中目標位置與大小,因此可以摒棄錨窗口的生成機制,建立一種直接進行目標檢測的方法。其中,基于關鍵點的目標檢測器是這類方法中出現時間較近的一種類型,檢測器通過預測關鍵點的位置將其分組,以獲得目標邊界框。CornerNet[8]模型借助目標區域邊框的左上角及右下角2個頂點預測,并以其嵌入到抽象特征空間的方式來確定目標區域的位置,該檢測器在具有挑戰性的交通標志檢測[9]任務中得到了較為成功的應用。這種具有里程碑意義的更為簡化的目標檢測框架,意味著基于關鍵點的目標檢測方法具有更大的發展空間。例如:為了能夠在不犧牲檢測精度的情況下提高效率、并提高實時檢測的準確性,在CornerNet模型的基礎上,LAW等[10]將該模型的2種變體組合,提出了CornerNet-Lite模型,其中CornerNet-Squeeze更適合實時目標檢測;與此同時,DUAN等[11]提出了CenterNet模型,該模型在CornerNet模型所提出的基于2個關鍵點的目標檢測框架基礎上,引入了目標中心點的檢測分支,增加了模型感知目標區域內部信息的能力,借助中心點的驗證來有效抑制誤檢,其在MS-COCO數據集上的檢測性能大幅度領先于同期出現的其他目標檢測模型,表現出了令人矚目的優勢。

基于關鍵點的目標檢測器無需進行錨窗口的生成,意味著其對不同大小、形狀的目標檢測更具場景適應力。

小學生作業圖像中的手寫體區域檢測面臨如下挑戰:1)與中學生或大學生等成年人的大小適中、字形比較規范的書寫字體不同,小學生書寫風格不一,隨意性強,缺乏規范性,字體形態各異, 特征學習難度大;2)市面上的相關練習冊種類豐富,各頁面場景內容多樣,結構復雜,手寫區域噪聲較多,模型學習難度大;3)各練習冊不同頁面需要作答的內容長短不一,有些是單獨字母和單詞,有些是英文短語和句子,如何實現變長手寫體區域檢測還面臨諸多未知。因此有必要結合更具場景適應能力的目標檢測模型探討其在手寫體區域檢測中的可應用性。

對于手寫體區域檢測,目前還未見基于關鍵點有效抑制誤報邊框的應用案例。本研究以CenterNet[11]目標檢測模型為例,利用圖像目標的內部特征能更好地感知目標內部信息的特點,面向小學生作業智能批閱的應用需求,進行基于關鍵點的目標檢測模型在英文手寫體區域檢測中的應用探索。

2?結合池化結構改造的CenterNet目標檢測模型

21?小學生作業智能批閱的一般流程

圖1所示為紙質作業智能批閱系統的一般工作流程。

首先,用戶將紙質作業拍照成像,實現紙質作業的數字化,并上傳至作業批閱系統;之后對作業圖像進行幾何校正并檢驗有效性;檢驗有效的作業圖像輸入至手寫體區域檢測模塊,該模塊借助端到端的檢測,獲取作業區域的手寫體部分;然后將手寫體檢測結果輸入至后續的內容識別模塊,將識別結果與目標答案進行比較,完成作業評分。圖1中手寫體區域檢測模塊即為本文的工作重點。

2.2?CenterNet模型的引入

圖2所示為原始CenterNet模型的網絡結構圖[11]。CenterNet模型的網絡結構繼承了CornerNet模型中基于沙漏網絡(Hourglass-52)的骨干網絡,以實現關于輸入圖像的多通道特征圖的提取;構造了2種類型的關鍵點池化模塊(見圖3),并以此為基礎,采用多分支方式處理圖像特征圖,以實現目標區域的信息感知與定位。其中:1) 以中心點池化(Center Pooling)模塊(見圖3 a))為基礎的分支網路,提取與目標類別或結構語義信息相關聯的目標區域中心點熱圖(Center Heatmaps),以生成目標備選中心點;2) 以級聯的角點池化(Cascade Corner Pooling)模塊(見圖3 b))為基礎的分支網絡,借助左、上或右、下不同方向的池化組合,提取圖像中與目標區域邊緣語義信息相關聯的角點熱圖(Corner Heatmaps),以實現目標區域備選外邊框左上角點和右下角點位置的估計。

最終,結合位置偏移量(Offsets)信息建立目標區域關鍵點在輸入圖像坐標系的映射;借助角點嵌入向量之間的距離信息生成備選的目標檢測框;進一步結合中心點信息過濾目標邊框信息,得到最終目標檢測結果。

正是由于CenterNet在CornerNet的基礎上關于目標區域新的關鍵點的引入、以及池化結構的巧妙構造與使用,使得CenterNet模型只需花費很小的代價,即可實現目標檢測性能的明顯提升。

2.3?池化模塊結構改造方案的提出

CenterNet模型的參數尋優采用小批量(mini-batch)的梯度下降法。為防止梯度消失、促進模型盡快收斂,在CenterNet模型的中心點池化(Center Pooling)以及級聯角點池化(Cascade Corner Pooling)模塊中均使用了批規范化(batch normalization,BN)層[12],圖3簡單示意了BN層在2種類型池化結構中的相對位置。

假定每個小批量樣本集的樣本數目(即:batch size的取值)為m,并且由池化模塊的卷積層針對每個樣本圖像生成了通道數目為C、大小為H行×W列的特征圖。若采用BN方式規范化每個小批量樣本集,就要以特征圖的通道為單位,針對每個通道分別估計各種特征的均值與標準差,進而分別處理每個通道中m個特征圖的不同特征。

設當前小批量樣本集的第j個樣本在第c個通道的第i個特征取值為x(j,c)i,基于BN層處理得到批規范化的結果為y(j,c)i,具體處理過程如式(1)、式(2)所示。其中:i∈{0,1,…,W×H-1},j∈{0,1,…,m-1},c∈{0,1,…,C-1}。

(j,c)i=1σ(c)i

(x(j,c)i-μ(c)i), ?(1)

y(j,c)i=a·(j,c)i+b, (2)

式(1)中第c個通道的特征圖的第i個特征均值μ(c)i及標準差σ(c)i分別估計為

μ(c)i=1m∑mj=1x(j,c)i, (3)

σ(c)i=1m∑mj=1[x(j,c)i-μ(c)i]2+ε。(4)

式(2)中,a,b為預設值;為避免σ(c)i取值為0,在式(4)中引入小正數ε。由BN規范化方式可知,統計量μ(c)i以及σ(c)i的估計需要小批量樣本數目m足夠大。加大m值面臨硬件資源的挑戰;而降低m值將導致估計不準確。

當顯存容量比較低時,只能通過下調m值緩解模型學習面臨內存資源短缺的窘境,甚至只能將m設置為個位數(例如,取值為1或者2)。這種過小的m值,使上述統計量的估計失去意義,進而難以發揮BN層的作用,同時也為模型的學習增加了不必要的計算負荷。

在批規范化之后,針對模型學習的不同問題陸續出現了基于其他規范化的解決方案,如:層規范化[13]、實例規范化[14]、權重規范化[15]以及組規范化 (group normalization, GN)[16]等。為解決小批量樣本數目過小情況下模型學習的問題,同時為了使CenterNet模型的學習可以更為靈活地適應于不同硬件配置環境(特別是顯存容量低的學習環境),受文獻\的組規范化思想的啟發,提出了一種以GN層替換BN層的池化結構改造方案,以實現關于圖3所示2種類型池化模塊結構的改造,并基于這種新的改造版的池化結構構造CenterNet目標檢測模型。

圖4為本文提出的基于GN層的池化模塊結構改造方案。不同于BN逐個通道的處理方式,基于GN方式的規范化是將各通道分組,以組為單位進行處理。

首先進行通道分組。若將C個通道分成G組,則落入第k個通道組的各通道序號構成通道序號集合,記為

Sk={c|c/G=k,c=0,1,…,C},其中k∈{0,1,…,G-1}。

分別處理每組通道。設當前小批量樣本集第j個樣本在第c個通道的第i個特征取值為x(j,c)i,基于GN層處理得到組規范化的結果為y(j,c)i。若通道序號c∈Sk,則具體處理過程如式(5)、式(6)所示。其中:i∈{0,1,…,W×H-1},j∈{0,1,…,m-1},c∈{0,1,…,C-1}。

(j,c)i=1σ(k)i(x(j,c)i-μ(k)i),

(5)

y(j,c)i=a·(j,c)i+b,(6)

式(5)中,位于第k組通道各特征圖的第i個特征均值μ(k)i及標準差σ(k)i分別估計為

μ(k)i=1m·|Sk|

∑mj=1 ∑c∈Skx(j,c)i,(7)

σ(k)i=

1m·|Sk|

∑mj=1

∑c∈Sk

[x(j,c)i-μ(k)i]2+ε。 (8)

由上述BN與GN的規范化方式計算可知,基于GN的規范化使用了特征圖的通道分組,使得各特征的均值與標準差的估計更為穩定,有效地弱化了小批量樣本集的樣本數m對特征規范化的影響。

因此,本文提出的這種基于GN的改造版池化結構CenterNet模型的構建方案,緩解了基于小批量樣本集梯度下降法進行CenterNet模型學習時對小批量樣本數目的依賴,為低顯存容量下基于梯度下降法的模型學習提供了一種有效的解決途徑。本文將使用這種基于改造版池化結構構造的CenterNet模型進行英文手寫體區域的檢測。

2.4?損失函數

如式(9)所示,基于改造版池化結構構建的CenterNet模型的學習使用了與文獻\形式一致的損失函數,該損失函數由角點位置預測損失Lcodet、中心點位置預測損失Lcedet、用于最小化相同目標對象的角點嵌入向量之間距離的“內拉(pull)”損失Lcopull、用于最大化不同目標對象的角點嵌入向量之間距離的“外推(push)”損失Lcopush、以及角點位置偏移量預測損失Lcooff和中心點位置偏移量預測損失Lceoff組成。其中控制參數α,β,γ用于平衡各部分之間的相對重要性。

L=Lcodet+Lcedet+α·Lcopull+

β·Lcopush+γ·(Lcooff+Lceoff)。(9)

3?實驗與分析

3.1?數據集

用于模型學習及測試的數據集源自調查收集的小學生英文練習冊的作業圖像;與作業圖像對應的真值數據,則采用圖像標注工具LabelMe標注得到。圖5展示了數據集的部分圖像樣例。

由圖5可知,關于英文作業手寫體區域檢測的應用場景大致分為6類:1)包含作業配圖的作業冊頁面(如圖5 a));2)大段印刷體區域與問答式填空區域相結合的作業冊頁面(如圖5 b));3)光照條件不均勻現象明顯、并伴有一定噪聲干擾的作業冊頁面(如圖5 c));4)作業區域緊湊并以句子作答的作業冊頁面(如圖5 d)); 5)作答內容為單個英文字母的作業冊頁面(如圖5 e));6)非常規的、背景趣味性較強的作業冊頁面(如圖5 f))。

需要指出的是:因作業冊頁面的作業區域布局不同,學生在作業區域手寫內容的緊湊程度、手寫體區域的大小以及分布各不相同;即使在相同作業區域,因不同人的手寫習慣不同,相應內容的字體、大小、手寫區域的分布也不會統一。

具體實驗時,首先將收集到的關于英文作業冊的頁面圖像統一放縮為800像素×600像素,在此基礎上,采用LabelMe標注生成真值數據。將上述數據集隨機打亂,分成兩部分,其中:5 084幅作業圖像構成訓練集,1 271幅作業圖像構成測試集。

3.2?測試環境與學習策略

本實驗采用CPU為Intel(R) i7-7700@2.80 GHz的筆記本,GPU為單張NEVIDA GTX 1060 8 GB顯卡,基于Ubuntu18.04系統,在PyTorch GPU環境下進行模型學習。

在模型學習之前,首先進行了訓練樣本集的增強,具體的數據增強手段分別是:1) 針對每個樣本圖像進行隨機放縮,其中水平、垂直方向放縮時的比例系數∈[0.6,1.4];2) 針對每個樣本圖像的顏色值進行隨機抖動。

基于上述增強的訓練集,采用基于小批量樣本集的梯度下降法,結合Adam的優化方式進行了模型學習,其中式(9)所示模型損失函數中3個控制參數α,β,γ的取值分別為0.1,0.01以及1。設定最大迭代次數為10 000,每個小批量樣本集的樣本數目m=2,初始學習率為0.000 25;模型每迭代4 500次便使學習率減小至原來的1/10。訓練開始時,損失函數的值為14;之后經過1 000輪迭代之后損失函數值下降到2~3左右,最終損失函數值穩定至1附近。因檢測對象為英文手寫體區域,所以設定這種檢測對象的類別名稱為“vocabulary”。模型學習時,統一將作業圖像放縮至511像素×511像素,輸入到網絡。

3.3?模型評價

3.3.1?基準模型的選擇

CenterNet模型在MS-COCO數據集的目標檢測實驗[11]中,各類目標總體平均檢測精度

(average precision,AP)值達到47%,而當交并比(intersection over union,IoU)大于05時,各類目標平均檢測精度AP05也達到了64.5%,其在MS-COCO數據集的目標檢測性能已超過CornerNet及其之前其他典型的目標檢測模型,這已證明CenterNet模型的目標檢測性能已經超出CornerNet。

考慮到CenterNet與CornerNet-Lite[10]二者在基于關鍵點的CornerNet模型上接近同期發展而來,作為近年來具有較高檢測性能的目標檢測模型的典型代表,其在手寫體區域檢測的性能值得期待。因此,為了探討這種類型的目標檢測模型在手寫體區域檢測的有效性,選擇CornerNet-Lite作為本文實驗評價的基準模型,其模型結構采用了CornerNet的Squeeze版。

選擇了基準模型之后,結合3.1節所述的訓練集,在同樣學習條件下實現了3個模型的學習,分別為CornerNet-Lite英文手寫體區域檢測模型、基于原始池化結構版本的CenterNet英文手寫體區域檢測模型、以及基于本文改造版池化結構的CenterNet英文手寫體區域檢測模型;并結合1 271幅測試圖像進行了CenterNet英文手寫體區域檢測模型的性能評價。

3.3.2?模型的定量評價

因小學生英文作業的手寫體區域目標以單個字母、單詞、短語及單行短句為主,為此參考了文獻\中關于目標檢測的評價方式,選擇了

AP05,ARSmall,ARMedium以及ARAll為英文手寫體區域檢測性能的評價指標。其中:AP05表示當IoU>0.5時英文手寫體區域的平均檢測精度;

ARSmall與ARMedium分別表示當k=0,1,…,9時對應IoU閾值的10種不同取值下小尺度目標(單個字母及單詞)、中尺度目標(短語與單行句子)的英文手寫體區域平均召回率(average recall,AR);

ARAll表示各種尺度英文手寫體區域目標的平均召回率。

表1所示為基于上述指標將CornerNet-Lite基準模型以及基于原始池化結構版本的CenterNet模型與本文基于改造版池化結構的CenterNet模型進行手寫體英文區域檢測的性能比較結果。表1的最后1列還給出了不同模型關于單幅測試圖像(511像素×511像素)的平均檢測時間。

由表1的評價數據可知:1)與CornerNet-Lite模型相比,基于原始池化結構版本的CenterNet模型以及基于改造版池化結構的CenterNet模型的平均檢測精度(AP05)和平均召回率(ARSmall,ARMedium及ARAll)均有不同程度提高,這證明了基于這2種版本的CenterNet手寫體檢測模型在檢測精度、平均召回率方面性能更優;2)與基于原始池化結構版本的CenterNet模型相比,基于改造版池化結構的CenterNet模型進行英文手寫體檢測時,其AP05值可以提高1.3%,其中ARSmall,ARMedium及ARAll值分別提高0.4%,0.7%及0.8%,其平均單幅圖像的檢測時間也略短,進一步從檢測精度、召回率以及檢測速度方面,證明了基于改造版池化結構的CenterNet模型相對于原始池化結構版本的CenterNet模型在英文手寫體檢測方面更有效;3)盡管上述3種模型經過初步學習之后,其英文手寫體區域檢測的AP05值均超過了65%,但基于改造版池化結構的CenterNet模型則在檢測精度、平均召回率達到最高,其AP05值甚至可達到73.1%,比CornerNet-Lite模型高出近6%。由表1的最后1列單幅測試圖像(511像素×511像素)的平均檢測時間可知,與2種版本的CenterNet模型相比,CornerNet-Lite模型的檢測速度明顯更快。

此外,在3.2所述相同硬件學習環境下對池化結構改造前后2種版本的CenterNet模型進行了學習過程的比較,其中:改造版池化結構的CenterNet模型的初始損失值為14,基于原始池化結構版本的CenterNet模型初始損失值在100以上。隨著學習過程的不斷進行,基于改造版的模型損失下降過程更加平穩,波動更少,可更快的收斂;而原始池化結構版本的模型損失值較大,與前者相比,其損失下降過程波動更多。這進一步證明改造版池化結構的CenterNet模型不僅在檢測性能上優于原始模型,而且其學習過程更為穩定、收斂過程更快。

3.3.3?模型的定性評價

為了在主觀上感受本文方法的有效性,圖6展示了幾個代表性的檢測樣例。由圖6可知:對于不同的作業場景,即使作業區域布局各不相同、作業內容類型多樣 (如:圖6 a)的單個字母、圖6 b)的單詞、圖6 c)—圖6 e)的句子),模型均可較好地檢測到手寫體部分。特別強調的是本文模型還有效區分了如圖6 a)左下角處的涂劃作廢的無效區域;對于圖6 d)光線條件弱、以及圖6 e)受紅筆批閱干擾的樣本圖像也表現了不錯的檢測效果。

為實現模型檢測性能的視覺比較,圖7展示了本文改造版池化結構的CenterNet模型與Squeeze版CornerNet-Lite基準模型關于4個不同的樣本圖像在英文手寫體區域檢測結果的樣例。其中第1行是改造版池化結構CenterNet模型的檢測結果,第2行是CornerNet-Lite模型的檢測結果。

將圖7中第2行基于CornerNet-Lite模型的檢測結果與第1行基于本文方法的檢測結果進行視覺比較,可以發現:關于手寫體單詞的檢測,CornerNet-Lite模型在樣本圖像a)中生成了一個明顯的誤檢框;關于手寫體句子的檢測,該模型在樣本圖像b)與d)中出現了明顯的漏檢; 在樣本圖像c)中靠近頁面的上部區域的手寫字母處,CornerNet-Lite模型漏檢了2個字母區域。相比之下,基于本文池化結構改造版的CenterNet模型針對上述4個樣本圖像的手寫體目標區域的檢測精度更高,沒有發生誤檢;與前3個樣本圖像相比,樣本圖像d)中存在明顯手寫體傾斜,本文方法在該圖像中漏檢了1個句子區域。

圖7所示的視覺效果比較表明:基于關鍵點的引入,可使CenterNet模型有效利用目標區域的內部信息;在CenterNet模型池化結構中以GN層替換BN層,為低容量顯存配置下基于mini-batch的模型尋優提供了更為有效的解決方案,即使模型學習中設置mini-batch樣本數目為2,模型針對不同場景的作業圖像仍取得了較好的檢測結果。因此,與基于Squeeze版CornerNet-Lite基準模型的檢測結果相比,本文模型的漏檢情況更少,并在一定程度上有效抑制了誤檢。

3.4?問題與不足

不可否認的是,當前訓練條件下得到的CenterNet模型也存在手寫體區域檢測失效的情況。這主要表現為作業圖像局部模糊、以及手寫體部分局部幾何形變明顯時,會導致漏檢(如圖7的樣本圖像d));作業圖像內容過于豐富、存在明顯圖文結合,或作業區域比較緊湊時,會導致誤報(如圖8所示,模型將多個單字符區域以大框標記為一體,誤報為一個較大的目標區域)。

盡管基于改造版池化結構的CenterNet模型進行英文手寫體區域檢測時,其檢測性能要明顯優于CornerNet-Lite模型,但是模型的檢測速度還有待提升。

4?結?語

以小學生英文作業的智能評閱為應用場景,結合深度學習關于目標檢測的研究成果,探討了基于關鍵點的目標檢測在手寫體區域檢測應用的有效性。

1)針對低顯存容量情況下小批量樣本集的樣本數目(即:batch size的大?。enterNet模型學習的不良影響,提出一種以組規范化(GN)替換批量規范化(BN)的池化結構改造方案,有效弱化了小批量樣本集樣本數目對模型學習的影響,為低顯存情況下CenterNet模型的構造及學習提供了一種有效的解決方案。

2)進一步面向小學生英文作業智能批閱的應用需求,將基于改造版池化結構構造的CenterNet模型用于小學生英文手寫體區域的檢測,進行了基于深度學習的目標檢測模型在小學生英文手寫體區域檢測應用中的新嘗試,并實現了基于該模型的小學生英文手寫體區域檢測?;跇嬙鞌祿某醪綄嶒灡砻鳎杭词乖O定小批量樣本數目m=2,基于改造版池化結構的CenterNet模型的AP05值可以達到73.1%,與CornerNet-Lite基準模型的檢測結果相比,漏檢情況更少、誤報更低、檢測更加有效。

實驗完成了基于CenterNet模型在小學生英文手寫體區域檢測的初步嘗試,證明了這種應用的有效性,為小學生作業智能批閱方案的設計提供了一定的解決思路。后續將采用更為多樣化的樣本收集、基于多樣化噪聲干擾及不同幾何形變的樣本增強等方式,進一步改善模型的檢測性能。

參考文獻/References:

[1]?GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. NJ: IEEE, 2014: 580-587.

[2]?ZOU Zhengxia, SHI Zhenwei, GUO Yuhong, et al. Object detection in 20 years: A survey[J]. Computer Vision and Pattern Recognition, 2019. arXiv:1905.05055.

[3]?GIRSHICK R. Fast R-CNN[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. NJ: IEEE, 2015: 1440-1448.

[4]?HE Kaiming, GEORGIA G, PIOTR D, et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. NJ: IEEE, 2017: 2980-2988.

[5]?余珮嘉, 張靖, 謝曉堯. 基于自適應池化的行人檢測方法[J]. 河北科技大學學報, 2019, 40(6): 533-539.

YU Peijia, ZHANG Jing, XIE Xiaoyao. Pedestrian detection based on adaptive pooling method[J]. Journal of Hebei University of Science and Technology, 2019, 40(6): 533-539.

[6]?LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.

[7]?REDMON J, FARHADI A. YOLOv3: An incremental improvement[J]. Computer Vision and Pattern Recognition, 2018. arXiv: 1804.02767.

[8]?LAW H, DENG Jia. CornerNet: Detecting objects as paired keypoints[C]//Proceedings of the 15th European Conference on Computer Vision. Berlin: Springer, 2018: 765-781.

[9]?范紅超, 李萬志, 章超權. 基于Anchor-free 的交通標志檢測[J]. 地球信息科學學報, 2020, 22(1): 88-99.

FAN Hongchao, LI Wanzhi, ZHANG Chaoquan. Anchor-free traffic sign detection[J]. Journal of Geo-information Science, 2020, 22(1): 88-99.

[10]LAW H, TENG Yun, RUSSAKOVSKY O, et al. CornerNet-Lite: Efficient keypoint based object detection[J]. Computer Vision and Pattern Recognition, 2019. arXiv:1904.08900.

[11]DUAN Kaiwen, BAI Song, XIE Lingxi, et al. CenterNet: Keypoint triplets for object detection[C]//Proceedings of the 2019 IEEE International Conference on Computer Vision. NJ: IEEE, 2019: 6569-6578.

[12]IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille: ACM, 2015. arXiv: 1502.03167.

[13]BA J L, KIROS J R, HINTON G E. Layer normalization[J].Machine Learning, 2016. arXiv:1607.06450.

[14]ULYANOV D, VEDALDI A, LEMPITSKY V. Instance normalization: The missing ingredient for fast stylization[J]. Computer Vision and Pattern Recognition, 2016. arXiv: 1607.08022.

[15]SALIMANS T, KINGMA D P. Weight normalization: A simple reparameterization to accelerate training of deep neural networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona: MIT Press, 2016: 901-909.

[16]WU Yuxin, HE Kaiming. Group normalization[J]. International Journal of Computer Vision, 2020, 128(3): 742-755.

猜你喜歡
目標檢測
多視角目標檢測與跟蹤技術的研究與實現
視頻中目標檢測算法研究
行為識別中的人體運動目標檢測方法
移動機器人圖像目標識別
基于背景建模法的運動目標檢測
基于P3電位的目標檢測研究
智能視頻技術在電力系統領域的應用
相關K分布雜波中擴展目標積累檢測性能分析
基于連通域標記的目標檢測算法設計與實現
一種改進的峰均功率比判源方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合