?

融合邊特征與注意力的表格結構識別模型

2023-03-24 13:24呂學強張煜楠韓晶崔運鵬李歡
計算機應用 2023年3期
關鍵詞:單元格表格注意力

呂學強,張煜楠,韓晶*,崔運鵬,李歡

(1.網絡文化與數字傳播北京市重點實驗室(北京信息科技大學),北京 100101;2.農業農村部農業大數據重點實驗室(中國農業科學院農業信息研究所),北京 100081)

0 引言

表格數據因簡潔規范、便于填寫、易于閱讀等特性而在生活中應用廣泛。隨著信息化的不斷推進,人們對于表格信息自動提取的需求越發迫切。表格作為信息的載體,不僅包含文本信息,同時也包含邏輯結構信息。目前,已經可以通過光學字符識別(Optical Character Recognition,OCR)技術提取表格中的文本信息,而表格結構信息的識別仍然是表格信息提取領域的重點問題。

傳統的表格結構識別方法利用圖像處理技術從圖像數據中獲取特征,并使用啟發式算法識別表格結構。對含有表格的圖像進行處理,從中獲取表格框線位置和表格文本投影信息,通過這些信息能夠較好地識別規整的表格結構[1-2]。在此基礎上,使用啟發式算法對特殊情況進行處理,從全局角度優化輸出,能夠有效優化算法的性能[3-4]?;趥鹘y方法的表格結構識別在特定場景下通常能夠取得較好的效果,但這類方法往往受使用場景的限制,魯棒性較差。

近年來,隨著深度學習的快速發展,越來越多的研究開始將深度學習用于表格結構識別領域?;趫D像特征的表格結構識別以表格圖像為基礎,利用目標檢測、語義分割等深度學習方法對圖像中表格的行和列進行檢測分割,并通過后續算法還原表格結構信息。Paliwal等[5]提出一種基于語義分割的表格結構識別方法,首先通過語義分割得到表格中列的位置信息,并使用啟發式方法得到行信息,實現表格結構識別。Tensmeyer等[6]提出了一種分割-合并模型,首先將表格圖像進行細致分割,然后對分割結果進行同行、列的合并,由此得到表格結構信息。Siddiqui等[7]提出一種基于目標檢測的表格結構識別方法,將表格的行、列視為被檢測對象,使用語義分割網絡進行檢測。Qiao等[8]針對單元格位置信息與空白單元格進行優化,細化了單元格邊界信息,并通過表格結構恢復算法解決了空白單元格的問題?;趫D像特征的表格結構識別方法從表格圖像的行、列結構入手,首先確認圖像中的行、列結構,并以此為基礎推導出單元格之間的關系。此類方法能夠很好地獲取圖像中的全局信息,但較難處理表格結構中存在的復雜結構,泛化性較差。

基于文本框的表格結構識別以表格圖像的OCR 結果為基礎,對文本框進行圖結構建模,通過圖神經網絡(Graph Neural Network,GNN)進行推理,還原表格結構信息。Qasim等[9]首先將GNN 引入表格結構識別領域,在對表格進行圖建模的基礎上,使用GNN 預測文本塊之間的同行、同列、同單元格關系,以此得到表格結構。Li等[10]在OCR 的基礎上建立圖模型,然后使用圖卷積神經網絡(Graph Convolutional Network,GCN)預測文本塊間的行、列位置關系?;谖谋究虻谋砀窠Y構識別方法不依賴表格框線、圖像特征等信息,具有更強的泛化能力;但受限于圖網絡結構,這類方法通常對于空間特征信息利用不夠充分,在圖網絡推理過程中很容易損失局部空間信息,抗干擾能力較差。

針對現有方法在表格結構識別任務中存在的復雜表格結構識別率較低、局部空間信息損失的問題,本文提出一種新的用于表格結構識別的圖網絡主干網絡——圖邊注意力網絡(Graph Edge-Attention Network,GEAN),并在此基礎上提出融合邊特征與注意力的表格結構識別模型(Graph Edge-Attention Network based Table Structure Recognition model,GEAN-TSR)。GEAN-TSR 使用GEAN 作為主干網絡對特征進行聚合、傳遞,然后引入邊特征和文本特征,并與圖網絡提取的特征層相融合,最后通過圖中邊的分類實現表格結構預測。在公開數據集上的對比實驗與消融實驗驗證了模型的有效性。

1 相關工作

1.1 空域圖卷積神經網絡

GCN 的主要發展方向分為空域圖卷積與譜域圖卷積兩條路線:譜域圖卷積神經網絡從卷積定理出發,通過傅里葉變換等方法在譜空間實現圖卷積。而空域圖卷積神經網絡則是在構建圖模型的基礎上,通過節點特征的聚合與傳遞進行更新、預測的網絡。相較于譜域圖卷積神經網絡,空域圖卷積神經網絡更加靈活,能夠更好地針對特定任務建模[11]。

在空域圖卷積神經網絡中,設圖G=(V,E),其中:節點集合V={v1,v2,…,vn}表示圖中包含n個圖節點;邊集合E?V×V;節點i與j之間的邊表示為eij∈E;與節點i相鄰的節點集合記為Ni={j∈V|eij∈E}。圖神經網絡每一層的輸入為當前層圖中所有節點特征的集合與圖中所有邊的集合E。更新前圖節點特征記為hi,更新后圖節點的新特征記為h′i。圖節點更新公式如式(1)所示:

其中:f()表示特征提取函數;AGG()表示聚合函數。

1.2 邊卷積

邊卷積(Edge Convolution,EdgeConv)由Wang等[12]首先提出并使用。該方法針對空域圖卷積神經網絡在點云處理任務中缺乏拓撲信息而無法有效提取局部結構信息的問題,生成描述點與它的相鄰節點的邊緣特征,以取代傳統圖卷積神經網絡直接從嵌入中生成點特征的方法,提升網絡對于局部信息的學習能力,更新公式如下:

其中:θ與?為參數矩陣;采用的激活函數為ReLU(Rectified Linear Unit)。

相較于其他空域圖卷積網絡結構,邊卷積能夠更好地學習節點與相鄰節點的邊緣特征,以解決局部圖復雜的問題。邊卷積更新如圖1 所示。圖1(a)中,待更新節點i及其相鄰節點j之間的邊特征eij由節點i的特征矩陣hi與節點j的特征矩陣hj經全連接層得到。圖1(b)中,使用與待更新節點相鄰的邊特征進行圖節點的特征聚合并更新節點hi為

圖1 邊卷積更新過程示意圖Fig.1 Schematic diagram of EdgeConv update process

1.3 圖注意力模型

Veli?kovi?等[13]提出了 圖注意 力網絡(Graph Attention Network,GAT)模型,在圖節點的特征聚合過程中引入注意力機制,使每個圖節點都關注它所有的鄰居,并給出查詢表示重要程度,如圖2 所示。圖2(a)中,待更新節點與它相鄰節點之間的注意力參數aij由節點i的特征矩陣hi與節點j的特征矩陣hj組合,并通過全連接層與激活層得到。圖2(b)中,使用注意力參數為待更新節點的相鄰節點特征進行加權,然后將加權后的相鄰節點特征聚合并更新節點hi為引入注意力的模型能夠更有效地聚合圖節點特征,圖注意力更新公式如下:

圖2 GAT聚合過程圖Fig.2 GAT aggregation process diagram

其中:aT、W為參數矩陣;LeakyReLU 為帶泄露修正線性單元(Leaky Rectified Liner Unit);Softmax 為歸一化指數函數。

此外,Brody等[14]指出GAT 模型本質上是一種靜態注意力機制(static attention),并提出了改進的動態注意力機制(dynamic attention)。靜態注意力機制存在一定的缺陷,無法準確表達應有的重要程度關系。設有查詢矩陣Q與值矩陣V,若對于所有的Q都存在一個固定的V,使得所有Q對于這個V為所有查詢中的最大值,則稱這種注意力為靜態注意力。在靜態注意力中,注意力計算公式中的權重矩陣aT與W實際上處于連乘關系,因此,它的作用等效于一個線性層,無法準確表達應有的重要程度關系,使模塊沒能發揮應有的作用。動態注意力則通過改進eij的計算方式克服這個缺陷,有效提升了模型的表達能力。它拆分兩個線性層,并分別在線性層后增加非線性激活函數,形成類似多層感知機的效果,以此提升注意力模型的效果。更新公式如下:

2 本文方法

本文在輸入特征的基礎上首先進行圖結構建模,使用GEAN 提取特征,然后融合邊、文本特征與圖網絡輸出,最后由分類器輸出結果,整體結構如圖3 所示,其中多層感知器(MultiLayer Perceptron,MLP)是常用的特征提取方法。

圖3 GEAN-TSR結構Fig.3 Structure of GEAN-TSR

2.1 基于圖模型的表格結構識別任務建模

基于圖模型的表格結構識別任務的輸入為表格中每個單元格的特征,通過預測單元格之間水平或豎直方向的相鄰關系完成表格結構識別任務。引入圖模型后,將表格中的每個單元格視作圖節點,單元格的相鄰關系視作圖中的邊,由此將表格結構識別問題轉化為已知圖節點特征,預測圖中邊類別的任務。初始圖中僅存在圖節點及相關特征,并沒有邊存在,因此,首先需要根據圖節點特征對圖中的邊進行初始化。為了不損失模型精度,圖模型中的邊需要盡可能將相鄰的圖節點(單元格)相連,最簡單的辦法是對所有圖節點建立連通圖。但是,連通圖包含大量的冗余信息并且會帶來極大的計算量。為了降低模型計算量,在圖節點特征的基礎上,使用K近鄰(K-Nearest Neighbors,KNN)算法構建初始圖中的邊。其中,近鄰值K的取值需要根據數據情況而定,本文選用K=20 構建鄰域。在KNN 算法中,選用單元格中心點之間的歐氏距離度量單元格之間的距離:

隨后,在鄰域內的圖節點與作為中心點的圖節點之間建立邊,完成圖模型的構建。在完成建模后,以圖節點特征矩陣、邊矩陣作為圖網絡的輸入進行推理。設圖G中節點即表格中單元格數量為N,每個圖節點有M個特征輸入,則特征矩陣形狀為N×M。本文選取圖節點的絕對位置、相對位置等空間信息作為圖節點的初始特征。邊矩陣形狀為2×L,代表圖中共存在L條初始化的邊,邊矩陣記錄了圖中邊的兩端點。網絡將通過模型推理判斷K條邊的類別,設圖中節點i與j為同行相鄰關系,則label(i,j)=1;若節點i與節點j為同列相鄰關系,則label(i,j)=2;否則,節點i與節點j不構成關聯關系,label(i,j)=0。

2.2 圖邊注意力網絡

現有基于圖卷積神經網絡的表格結構識別方法大多采用邊卷積作為主干網絡[9-10]。然而,不同于邊卷積應用的點云場景,表格結構識別任務中的圖節點蘊含信息更為豐富密集,這導致邊卷積使用的聚合方式很容易帶來局部特征信息的損失。針對表格結構識別任務中圖節點連接密集、對局部結構信息敏感等特點,本文提出GEAN 以完成表格結構識別任務中的特征提取、傳遞、聚合的任務,GEAN 的推理過程如圖4 所示。圖4(a)中,將待更新節點i的特征矩陣hi、待更新節點i相鄰節點j的特征矩陣hj作為輸入,通過全連接層計算得到節點i與節點j之間的邊特征eij,然后將hj與eij組合并使用全連接層和激活層計算得到注意力權重aij。圖4(b)中,將待更新節點的相鄰節點特征hj與邊特征eij組合傳入全連接層,并使用注意力進行加權,更新節點特征hi。

圖4 GEAN推理過程Fig.4 Inference process of GEAN

GEAN 在邊卷積結構的基礎上,為了更好地提取局部空間信息,引入圖注意力機制加強模型對局部空間信息的提取能力。同時,注意力查詢能夠更好地覆蓋密集連接的邊,更加充分地傳遞特征。在圖邊注意力中,本文將eij作為圖邊注意力的查詢(Query),圖節點i的特征hi作為鍵(Key),計算Ni中的每個圖節點j與圖節點i的注意力查詢關系aij,并依據注意力權重更新圖節點i的特征hi,圖邊注意力更新公式如式(11)~(13)。

其中:θ、?、W均為參數矩陣,激活函數為LeakyReLU。

GEAN 在網絡中的更新細節如圖5 所示。網絡輸入為圖中所有節點的特征矩陣x,Nnum為圖中節點數量,Cnum為多頭注意力的頭數。hi與hj寬度為節點特征數(128),Enum為圖中邊的數量。邊矩陣e中的每一行代表圖中一條邊的特征,由矩陣hi與h(j起點與終點矩陣)中對應行經全連接層得到。之后,由矩陣e與hi計算得到注意力矩陣a。最后,由x與e在注意力加權下更新圖節點特征矩陣x,完成一次網絡更新。

圖5 GEAN更新過程仿真示例Fig.5 Simulation example of GEAN update process

2.3 邊特征與文本特征融合

為了預測圖中邊的分類結果,邊特征信息必不可少。每一條邊特征都依賴于這條邊的起點與終點。本文將邊的兩端點所對應的圖節點特征進行特征層面的拼接,然后使用Linear+ReLU 得到邊特征。通過圖卷積更新圖節點特征然后再拼接邊特征的過程會造成特征的損失,影響模型的性能。為了加強用于邊分類的特征,本文模型在生成邊特征后,引入額外的邊特征融合模塊。該模塊通過邊矩陣獲取邊的起始點位置信息,并計算每條邊的空間信息。本文模型選取了相對位置、絕對位置、相對角度等特征作為輸入,在使用線性變換與激活函數進行簡單的特征提取后,將新的邊特征矩陣與先前計算得到的特征矩陣進行concat 融合,具體過程如圖6 所示。

圖6 邊特征融合過程實例Fig.6 Example of edge feature fusion process

表格結構識別任務中除了單元格位置信息外,還存在單元格文本信息與單元格圖像信息。Li等[10]指出單元格對應的圖像信息并不能有效提升模型效果,而文本特征則有助于模型效果的提升。目前最常用的文本特征提取方法有門控循環單元(Gated Recurrent Unit,GRU)、長短期記憶(Long Short-Term Memory,LSTM)、BERT(Bidirectional Encoder Representations from Transformers)等,考慮到單元格中的文本特征上下文語義較弱,本文選用兼顧速度與性能的GRU 對每個單元格的文本分別進行特征提?。?/p>

其中:zt為更新門;rt為重置門;dt與dt-1分別為時間t與t-1的隱藏狀態;xt為輸入向量;σ為Sigmoid 函數。將得到的圖節點文本特征拼接成邊特征矩陣,并使用concat 操作將它與先前的特征矩陣組合;最后,在線性變換后使用Softmax 函數進行最終的網絡預測輸出,如圖7 所示。

圖7 特征融合過程Fig.7 Process of feature fusion

3 實驗與結果分析

3.1 數據集與評價指標

為了驗證本文的GEAN-TSR 在表格結構識別任務上的有效性,選用表格結構識別領域常用的幾個公開數據集進行性能測試,并與最新的表格結構識別模型進行對比。這些數據集包含表格圖像、單元格文本位置標注、文本標注與單元格關系標注信息。

1)SciTSR(Scientific paper Table Structure Recognition)數據集:該數據集從LaTex 源文件中獲取了15 000 個PDF 格式的表格以及對應的高質量表格結構標簽。其中,共有12 000個表格及其結構標簽用于訓練,3 000 個用于測試。數據集中的表格平均有9 行、5 列、48 個單元格。為了對復雜表格結構進行評估,選取了716 張含有跨行跨列信息的表格圖片構成了SciTSR-COMP(Scientific paper Table Structure Recognition-COMPlicated)的測試集。

2)ICDAR 2013(International Conference on Document Analysis and Recognition 2013)數據集:該數據集包括從美國、歐盟政府文件中摘錄的156 張表格數據。

3)PubTabNet 數據集:該數據集包括500 777 張訓練圖像與9 115 張驗證圖像,包含大量的三行表,也含有跨行跨列單元格、空白單元格等復雜信息。

G?bel等[15]提出的表格結構識別指標是目前最通用的表格結構識別指標之一。該方法生成單元格與它在水平和垂直方向上最近鄰的單元格之間的鄰接關系表,而空白單元格則不與非空單元格產生鄰接關系,通過計算精確率(Precision)與召回率(Recall)評估方法的性能。召回率反映了所有存在的鄰接關系中被正確判別的比例,而精確率反映了檢測到的鄰接關系中判別正確的比例。評價指標如式(18)~(20)所示:

其中:cnum表示正確的鄰接關系的數量;tnum表示全部鄰接關系的數量;dnum表示檢測到的鄰接關系的數量。

圖8(a)為真實標簽,一共有31 個正確的鄰接關系;圖8(b)代表預測結果,預測出的正確鄰接關系24 個,預測出的鄰接關系29 個,錯判標簽4 個。根據圖8 給出的示例進行評價指標的計算,得到召回率、精確率、F1 值為0.774、0.857與0.813。

圖8 真實標簽與預測標簽Fig.8 True label and predicted label

3.2 實驗環境與訓練參數

本文實驗環境為:Ubuntu 16.04、Tesla P4 GPU、CUDA 10.1、python 3.7、pytorch1.7.1。訓練使用交叉熵損失函數,采用Adam 優化器,初始學習率設為5× 10-4,采用梯度衰減學習率的方法,每30 輪學習率衰減為原來的1/5。

3.3 實驗結果

3.3.1 對比實驗

為驗證GEAN 作為主干網時的模型效率,在其他條件不變的情況下,將GEAN 替換為其他幾個常用的圖網絡模型進行對比,結果如表1 所示。其中,圖卷積網絡(GCN)與動態圖卷積神經網絡(Dynamic Graph Convolutional Neural Network,DGCNN)均為常用的圖網絡模型。結果顯示,在相同的實驗條件下,以GEAN 作為主干網與其他模型相比,模型大小、參數量和預測平均用時比較接近,說明了GEAN 具備良好的效果。

表1 不同主干網模型效率對比Tab.1 Model efficiency comparison with different backbone networks

為驗證GEAN-TSR 的有效性,與其他表格結構識別模型進行對比,實驗結果如表2 所示。其中:Tabby[4]是基于啟發式算法的表格結構識別模型;DeepDeSRT(Deep learning for Detection and Structure Recognition of Tables)[16]、GraphTSR(Graph neural network for Table Structure Recognizes)[17]、SEM(Split,Embed and Merge)[18]、TabStruct-Net(Table Structure Network)[19]則是基于深度學習方法的表格結構識別模型。對比實驗表明,GEAN-TSR 在召回率與F1 指標上均有明顯提升。SciTSR-COMP 是從SciTSR 數據集中篩選出的復雜數據集,該數據集更能體現模型面對復雜表格結構時的表達能力,在SciTSR-COMP 數據集上,相較于目前最優的SEM 模型,GEAN-TSR 的召回率與F1 值分別提高了2.5 和1.4 個百分點,驗證了GEAN-TSR 在復雜結構上的有效性。

為了驗證本文模型的泛化能力,將所有模型在SciTSR數據集上訓練,然后在ICDAR 2013 數據集進行測試。ICDAR 2013 數據集中的數據出自政府文件,與SciTSR 數據集具有較大差異性,因此該實驗的結果能夠從一定程度上反映模型的泛化能力。從表2 可以看出,與其他模型相比,GEAN-TSR 擁有更好的泛化能力,在訓練集均為SciTSR 數據集時,在ICDAR 2013 數據集上大部分指標都取得了最優值。

表2 訓練集為SciTSR時,不同模型在不同測試集上的評價指標對比Tab.2 Comparison of evaluation indicators of different models on different test sets when training set is SciTSR

3.3.2 消融實驗

為了驗證不同模塊的有效性,設計了針對不同模塊的消融實驗。消融實驗將模型分解為特征提取主干網絡GEAN、文本特征融合、邊特征融合三個模塊。GEAN-TSR 在SciTSR、PubtabNet 數據集下的消融實驗結果如表3 所示。由消融實驗可知,相較于DGCNN 作為主干網絡,GEAN 作為主干網時模型在各個指標上均有一定提升,這說明融合注意力的GEAN 優于DGCNN。在GEAN 作為主干網的基礎上,分別融合文本與位置信息模塊,融合后的網絡相較于基礎的GEAN 在三個指標上均有提升,驗證了文本特征與邊特征兩個模塊的有效性。而融合文本特征與邊特征的GEAN 在各個指標上表現最佳,說明文本與邊特征模塊的融合互不沖突,能夠共同作用使模型達到最佳性能。

表3 消融實驗結果Tab.3 Ablation experiment results

4 結語

基于圖網絡的表格結構識別模型能夠在對表格進行圖模型建模的同時輸出表格的結構信息。但目前用于表格結構識別的圖網絡模型仍存在兩個問題:1)圖網絡模型面對復雜表格結構表達能力不足;2)圖網絡在推理過程中會造成局部結構信息丟失。針對上述問題,本文提出圖邊注意力網絡(GEAN)作為主干網絡提取特征,并提出一種融合邊特征與注意力的表格結構識別模型(GEAN-TSR)。GEAN 在邊卷積圖網絡模型的基礎上引入注意力機制,有效增強了圖網絡在表格結構識別任務中的表達能力。此后,引入邊特征與文本特征融合模塊,補足了圖網絡推理過程中損失的局部結構信息,有效提升了模型性能。

對比實驗表明,GEAN-TSR 相較于其他模型,能夠有效提升表格結構識別任務的效果,同時具有一定的泛化能力,在面對復雜表格結構時,也能達到較好的效果。消融實驗驗證了GEAN 的性能以及特征融合模塊的必要性。

目前數據集的位置信息標簽局限于文本框,而不是單元格的位置信息,這樣的監督信息很可能對模型的學習造成負面影響,因此,在未來的實驗中可以嘗試使用圖像處理或深度學習的方法增強位置信息以覆蓋整個單元格,由此提高模型在表格結構識別任務上的性能。

猜你喜歡
單元格表格注意力
《現代臨床醫學》來稿表格要求
讓注意力“飛”回來
《現代臨床醫學》來稿表格要求
流水賬分類統計巧實現
玩轉方格
玩轉方格
統計表格的要求
淺談Excel中常見統計個數函數的用法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合