PDF文件的表格抽取研究綜述

2021-07-16 08:02鄧建新葉志興張海平

計算機應用與軟件 2021年7期

唐銳鄧建新葉志興張海平

(廣西大學廣西制造系統與先進制造技術重點實驗室廣西南寧 530000) (廣西大學機械工程學院廣西南寧 530000)

0 引言

便攜式文檔格式(PDF)由于其跨平臺的通用性和文檔原稿完全再現的獨特優勢，廣泛應用于各行各業的電子文件交互中，成為了不可替代的電子文檔標準格式之一，特別是各領域的科學出版物(如期刊雜志、學位論文和會議論文集等)的電子文獻普遍采用PDF傳輸和存儲。其中，表格作為最常見的可視化、高信息密度表示和構造數據的方法之一[1-2]，經常作為PDF文獻中數據呈現的主要方式和載體，如材料科學文獻中材料成分數據、實驗結果的表達、財經文獻中金融數據的表達等。為提高對這些數據的處理效率，實現對數據的系統管理、共享和重復有效綜合利用(如實現數據挖掘、構建數據驅動服務)及知識提取，經常需要設法取得這些表格中數據，即進行表格抽取。尤其是隨著大數據技術的成熟和在各行業的滲透，這些PDF中的表格數據作為相關領域大數據的主要來源，越來越受到對應領域的大數據應用的重視，對PDF電子文件(特別是科技文獻)進行表格抽取的需求也愈發強烈，推動了對PDF文件表格抽取技術的研究。

為此，本文通過綜合中國知網、萬方數據、Web of Science、ACM Digital Library和IEEE/IEE Electronic Library中有關PDF表格抽取技術的相關文獻，收集了近二十年來關于PDF表格抽取研究的成果，介紹了最新的表格抽取系統研究進展，總結了PDF文獻的表格抽取的主要方法，分析了不同方法間的優勢和不足，指出了存在的問題和發展方向。

1 PDF表格抽取的總體思路

表格抽取雖是信息抽取(Information Extraction，IE)中必不可少的一環，但相關技術的發展遠不及IE全面和成熟，特別是針對PDF文件的表格抽取技術仍存在較多的缺陷。由于表格可存在于不同數據源中，而在不同格式類型的數據源中表格對象的存儲特點完全不同，因此針對不同格式進行表格抽取的方法也基本不同。目前絕大部分表格抽取研究集中在圖像和Web數據源格式，而涉及PDF表格抽取的研究占比相對較少。國內有少量文獻和專利研究了PDF表格抽取[3-17]，但更多是關于PDF實體信息抽取。

表格既是一種可視化的知識表達模型，也能夠簡單明了地傳達復雜數據之間的邏輯關系，同時具有物理結構和邏輯結構。物理結構描述了表格區域在文本中的具體位置，邏輯結構定義了表格的類型和單元格之間的關系。因此，表格抽取的過程主要包括：

① 表格檢測，即定位到表格內容對應的文檔中位置。

② 表格結構還原，即重構表格的行和列，確定單元格數據之間的邏輯關系。對這兩個過程用不同的處理方式便形成了表格抽取的不同思路。當前針對PDF的表格抽取研究出現了圖1所示的三種主要的思路。

圖1 PDF表格抽取的研究思路

(1) 轉化為標記語言格式來提取表格數據。PDF是無標記的文檔結構，對表格沒有明顯的標識符，僅僅是文字和線條的無序集合。但標準通用標記語言(Standard Generalized Markup Language，SGML)對表格有明確的標簽，因此，可借助工具將PDF轉換為HTML或XML等標記語言的Web格式，然后依賴標記構建隱馬爾可夫等模型(Hidden Markov Model，HMM)識別表格[18-20]并抽取信息。Pdf2table[1]是以這種思路研發的、較早的、完整的表格抽取系統，通過pdftohtml工具獲得PDF表格并以結構化數據格式(XML)存儲表格數據，但該系統嚴重受限于pdftohtml返回的結果。根據標記數據進行表格信息抽取的方法又大致可以分為基于啟發式規則、基于本體知識、基于語義或數據特征三大類。這種研究思路依賴于學者自己對表格特征的理解和定義，需要在恰當的位置為表格內容加

標簽，轉換的過程中很容易丟失必要的信息，從而導致單元格數據之間的邏輯關系錯誤。

(2) 將PDF轉換為圖片格式，依賴圖像處理和字符識別技術進行抽取。由于圖像處理相關技術日益成熟，從圖像中分離表格信息的研究最多，主要根據表格框線特征和像素特征實現表格區域檢測定位[21]，利用光學字符識別(Optical Character Recognition，OCR)技術提取表格數據[22-27]，當前越來越多的研究引入機器學習模型對表格抽取過程中的關鍵技術(如表格定位和表格重構算法)進行改進和完善。但該方法對文件轉換后的清晰度有較高要求，且必須有表格實線才能正確地分離單元格信息[3]，對三線表和表格行列不規則合并的情況卻不能實現理想的表格結構和數據邏輯關系還原，而這樣的表在科技文獻PDF中比較常見。

(3) 直接針對PDF文件的元數據設計表格抽取算法。PDF1.7在2008年1月正式成為ISO標準(ISO 32000)，其格式本身包含了大量計算機可讀的元數據信息。比如PDF內容流(Content Stream)中包含了一系列描述頁面外觀和其他圖形實體是如何呈現給用戶的指令。直接利用這些信息設計算法，可定位表格區域并實現表格抽取。一般需要借助PDF文件處理工具解碼PDF流對象，依賴于PDF元數據中的文本特征和圖形特征進行表格識別并提取。

前兩種研究思路需要對PDF格式進行轉換。其中HTML需要對表格增加特別的標記，過程相對繁瑣。而圖像處理的相關技術比較成熟，因此也是當前表格抽取的主要技術，金山WPS等眾多軟件或百度供應商都提供了對應的支持工具，但也正因為其依賴于圖像技術，一般需要通過手動[4]或人機交互方式[5]識別表格，自動化程度也受到影響。同時文件格式轉換的過程中難免丟失信息或引入噪聲，使抽取效果大打折扣。相比之下第三種思路更容易保證表格數據結構信息的完整性，容易實現自動化。尤其是自2005年Adobe推出PDF1.6以來，出現了很多直接利用PDF文件信息即第三種思路的表格抽取研究，又主要集中在表格抽取的算法設計和性能評估兩個方面，以下重點總結第三種思路下這兩方面的研究進展。

2 基于PDF元數據的表格抽取研究進展

2.1 表格抽取的算法設計

有效檢測文檔中的表格區域，實現表格準確定位是進行表格數據提取的關鍵一步。根據表格定位算法設計的出發點不同，可將現有的基于PDF元數據的表格抽取研究分為基于表格布局特征和基于啟發式與機器學習結合的方法兩大類。

2.1.1基于表格布局特征的抽取方法

表格具有強烈的視覺效果和完全不同于正文的內容布局，人們一眼就能從數千萬個頁面中迅速判斷并定位表格，但是計算機不具備這樣的識別能力。目前PDF中的表格按照框線類型可分為三大類：同時具有橫線和豎線的全框線表格，只包含橫線的表格(比如常見的三線表)和橫豎線任意缺失的表格。同一領域內的表格在結構和布局上具有一定程度的相似性，如行或列中的數據類型和精度保持一致、行和列的完全填充、單元格之間大量的留白等，學者們試圖根據這樣的內容布局特征實現表格抽取。通過將文本按一定規則切分為文本塊，聚類成候選表格區域，然后結合預定義的表格布局規則實現對候選區域篩選。如2018年6月更新的Tabula表格抽取系統[28]是這種方式的代表，但其自動定位表格區域的準確性不高，更依賴于手動框選表格區域。

根據每個人抽象出的不同緯度的內容布局特征，定義不同的文本分割、聚類和篩選規則，可大致分為圖2所示的三類表格抽取方法。

圖2 基于表格布局特征的表格抽取原理示意圖

(1) 基于表格的整體布局。從整體上看，表格就是由若干數據格子分門別類進行排序組合，以便于統計和查閱。相比正文段落的字符密度，表格行的數據密度相對較小，呈現松散且有序。根據松散性和行間距，可將頁面上文本的字符按照一定規則分割為不同的文本區域，預設表格布局定義[6-7]對其進行篩選，獲得可能的表格區域。如文獻[27]定義了三種常見的表格布局，提出了一種基于矩形包容原則的搜索方法。根據表格布局規則(比如表格的行在高度上應該是一致的)來過濾已找到的候選表。但是該算法受限于預先定義的表格布局，而且輸出結果存在大量的假性表格。

(2) 基于表格框線。表格的框線形式存在多樣性，但實際應用(尤其是科技文獻)中一般不存在沒有任何一條橫豎線的無框線表，應用最多的是三線表。線條可能作為單元格數據間的分割線，也可能是劃分表格區域和其他內容的邊界，因此可利用表格框線界定表格區域[9]。PDF標準規范中的線條被單獨封裝在圖形對象中，可通過篩選直線或矩形繪制命令[7-8]找到相應的線條特征。該方法相比于只利用布局特征的方法有更大的優勢，但是對圖形對象繪制路徑信息提取的完整度有較高要求，否則會出現表格誤判。

文獻[8]結合了視覺分隔符(包括橫豎線和表格中無規則的空白)和內容布局結構分析實現表格定位?？傮w來看，基于表格框線特征的抽取方法[8-11]都依賴于線條繪制命令，要求準確地獲取PDF圖像繪制命令中的表格框線部分，對于無關線條(如頁眉、頁腳)的篩選和過濾直接影響表格定位的結果。尤其是文獻[12]特別依賴橫豎線的交點來劃分單元格，無法處理只有橫線的表格。為彌補單一的表格框線篩選存在的不足，文獻[13]增加了表格標題行的語義檢索，采用區域并行生長的思想同時對文本行和表格線進行篩選，一定程度上減少了表格區域的漏判和誤判。

(3) 基于PDF文本流。PDF文件以頁為單位，頁與頁之間彼此獨立，每頁中與文字相關的信息(如文本位置、字體字號等)以流對象的形式存儲，即文本流(Text Stream)，是PDF內容流的重要組成部分之一。由于PDF是面向顯示的，頁面上的每一個對象都有確定的位置坐標，保證其在不同平臺上顯示的唯一性。文本確定的外觀特征和先后順序在PDF文本流中都有對應的操作符和操作數，解碼文本流即可得到每一個字符詳細的文本狀態參數信息，包括字體、字號、字符間距、位置坐標等。因此基于PDF文本流可將表格內的文字流節點從水平和垂直兩個方向分別進行柵格化[14-15]，把無結構化的文字信息歸位形成文本塊，從而篩選得到表格內容[16-17]。文獻[29]研究了針對無標記PDF的表格結構識別的系統配置，開發了一個PDF表格抽取實驗Web應用程序。

基于PDF文本流的表格抽取方法不依賴表格框線的識別，但是需要用戶在屏幕上手動框選待重現的表格區域[14]，是在已確定表格物理位置的情況下完成表格重構的工作，而且對于單元格合并的情況其理解程度也不高。

2.1.2基于啟發式與機器學習結合的抽取方法

不同于基于內容布局特征的方法完全預定義了表格可能的呈現形式，啟發式是根據表格的某些特征提供一些可能的假設，引入機器學習模型訓練數據集來幫助系統做決策，其靈活性和適應性大大增加。相比之下，基于啟發式與機器學習結合的抽取方法[30]對于常規的清晰表格可以獲得更好的結果，因此被更多學者應用到表格抽取的研究當中。如最新的基于Tabula庫設計的Table-Pedia[31]系統，結合了啟發式和機器學習方法，實現從PDF收集、表格抽取到實驗數據庫構建和操作的全過程。

文獻[32]基于表格的“稀疏線”特征，引入條件隨機場和支持向量機來優化表格定位的算法；而文獻[33]首先設計啟發式規則來標記數據集，利用遠程監控技術自動生成帶注釋的數據。通過標記的訓練集來訓練監督樸素貝葉斯、邏輯回歸和支持向量機模型對表格區域的邊界預測；文獻[34]則結合松散規則選擇一些類似于表格的區域，通過構建和改進的卷積神經網絡來確定所選區域是否為表格。文獻[35]提出的基于啟發式和無監督學習的表格識別方法不需要手動標記任何的訓練集，可以靈活地適應新的輸入統計數據，而不需要重新培訓模型。但其只能定位到存在表標題的表格區域，并且在表格結構抽取階段，行和列以相同的對稱方式進行分割的方法對提取多樣性的表格布局來說不夠靈活。

總體來看，支持向量機能夠對非線性可分或不可分數據集進行分類，而且所需的訓練樣本數量較小，正好滿足了PDF表格抽取無法提供大規模訓練樣本的現狀，因此被最多地采用。

綜上所述，基于表格布局特征的抽取方法受限于規則的預定義，其靈活性不高。一般基于項目本身的需求來設計算法，不會將表格布局所有可能的情形都考慮周全，導致算法在一定情形下的實現效果可能較好，但適應性不強?；趩l式與機器學習結合的抽取方法通常需要較復雜的后處理環節，啟發式特征的選擇和訓練數據集的質量決定了最后輸出結果的好壞。

2.2 表格抽取性能評估的研究現狀

表格抽取作為IE的子任務之一，表格抽取算法或系統的性能評估是一個不可忽略的問題。絕大部分的文獻在算法研究之后以常規的召回率、精確度或F-Measures為評價指標驗證其性能。由于表格結構的特殊性，這些常用的指標并不能準確反映表格抽取算法的性能。專門研究表格抽取算法性能評估的文獻較少，以下總結相關的研究成果并分析存在的問題。

國際文檔分析和識別大會(International Confe-rence on Document Analysis and Recognition，IDCAR)組織的同名競賽是關于文本識別和分析問題的最重要的國際賽事。IDCAR于2013年設立了一項在原生數字PDF文檔中進行表檢測和結構識別的競賽[36]，該賽事提供了統一的數據集，第一次嘗試客觀地評估表格抽取技術的性能。但IDCAR提供的PDF文件數量較少，而且每一個文檔對應一個XML文件以確定表格的位置，無法衡量其評估的系統對無注釋無標記的文檔是否也具有相同的性能。

現有的表格抽取技術性能評估框架主要集中在表格定位和表格結構識別的過程[3]，試圖分階段建立表格處理的輸出模型[37]和評價指標，而忽略了單元格數據的類屬關系是否被正確解釋。針對表格抽取的結果，文獻[38]提出了一種新的度量方法，稱為表格一致性，自動生成計算關于單元格的數量、內容、拓撲結構和索引結構的查詢，用于識別器輸出和基本事實的邏輯表格結構編碼，通過搜索其他表格編碼來驗證或反駁查詢，定義已驗證查詢的百分比。

Silva[39]基于召回率和精確度引入了一致性和純度的概念，作為定義所有分割任務的評價指標。Shahab等[40]提出了分別在多個級別使用精確度和召回率測量的方法，包括單元格、行、列和區域。Hu等[41]提出基于編輯距離的方法，以“插入”“刪除”“替換”分別描述表格區域的誤識別、未識別、合并拆分錯誤，用被操作的行數表示代價函數。但該方法的局限性在于最后的輸出只有唯一的代價值，不便體現各種錯誤類型發生的情況。Li等[42]和Wang等[43]提出了相似的評估方法，通過比較檢測到的表格區域面積與文檔基準中的表格區域面積，計算其重疊率或面積比率作為評價指標。但是不同的表格抽取算法對表格區域的定義存在差異，比如是否包含表格標題等，造成抽取的表格面積具有多樣性，會直接影響計算結果。房婧等[6]構建了一個公開的等比例中英文數據集，并對數據集標注基準結果，建立了一套面向應用的細粒度評估準則。定量描述了6種表格定位錯誤類型，計算新意義下的準確度和召回率。但是該評估方法沒有考慮具體的表格物理和邏輯結構。

總的來看，表格抽取還沒有標準的評價程序和方法，相關研究不夠系統和深入，也可以說是還沒有得到重視。更多的研究是停留在解決表格抽取的問題上，至于抽取性能的好壞帶有研究者較多的主觀意識。

3 現有表格抽取技術的發展需求分析

3.1 表格抽取的發展需求

(1) 急需全自動化的表格抽取方法和系統。實現全自動化PDF文獻表格提取是主要需求趨勢之一?！氨砀瘛睕]有客觀的、確定的、唯一的定義，只是一種組織整理數據的手段，一種可視化的數據表達模型，無法用數字或公式來量化，這無疑增加了計算機“讀懂表格”的難度。而隨著大數據的構建需求，需要高效地從大量的PDF文獻中提取表格，不可能對每一個PDF文獻的表格進行手工定位、交互式選取和再提取，因此需要訴諸自動化提取方法和系統。如Rastan等[44-46]推出了完全自動化的表格處理系統TEXUS，該系統融合了一個端到端的表格處理框架，擴展了傳統表格處理概念的范圍，增加了PDF包裝器模塊和表格理解模塊，以幫助語義上正確的數據抽取。

(2) 不同的表格抽取研究思路仍將并存發展。從目前的研究進展來看，圖1提及的三種表格抽取研究思路各有優劣，皆不能完美地解決所有的PDF表格抽取問題。尤其是在表格重構的過程中，還沒有一個高效、成熟的算法或系統能夠實現對所有單元格類型和結構的正確還原。因此，從不同的研究角度出發(如標記數據、轉為圖片或直接解碼PDF文件)，應用不同的工具和技術手段來解決表格抽取問題，多個研究思路仍將并存發展。受需求(1)的驅動，基于PDF文件元數據的抽取方式可能更適合自動化，具有更大的發展前景。而第二種思路由于可與提取PDF文獻的主要文字內容結合，也將被廣泛應用。而無論哪種思路，如何提高提取的準確性(數據正確、邏輯正確)仍然是主要需要解決的問題。

(3) 結合機器學習等人工智能算法是未來的發展趨勢。表格布局的多樣性：① 每一張表格的數據格式和結構布局，并沒有統一確定的標準；② 不同的數據類型，不同作者的表達習慣和不同受眾的需要，單元格存在不同級別的若干行或列合并，表格橫豎線可能任意缺失；③ 表頭的具體位置也不確定，可能是第一行或第一列，可能是復合表頭，也可能和表格內容交替出現。對表格重構和單元格間邏輯關系的理解增加了難度。用一般性來概述表格布局的任意性，其結果肯定差強人意，適應性不強。為此，隨著與機器學習有關的科學研究空前活躍，相關算法日益成熟，結合機器學習等人工智能算法來提高表格抽取靈活性已成為趨勢和手段。比如：第一種研究思路通過無監督學習或半監督學習對PDF元數據進行標記和注釋[32,47]，實現從標記數據中抽取表格；第二種研究思路利用深度神經網絡等算法模型直接作用于圖像，檢測表格；第三種研究思路以支持向量機為主要方法應用于表格抽取過程中。接下來，通過合理改進和優化人工智能算法，結合表格獨有的顯示特征，以構建更完善的表格抽取技術仍是未來的發展趨勢之一。

(4) 實現學科領域性的表格抽取是重要的技術需求。對同一張表格，不同人的理解并不相同，不同學科應用背景下表格標題、框線和內容三部分不一定都完整存在。不同的算法中會限定不同需求的表格形式，如文獻[2]定義的表格區域包括表格標題，文獻[29]不關心表格框線，而文獻[32]既不關心表格框線也不考慮表格標題，只對滿足“稀疏線”特征的低密度文字行進行標記。故最后的表格抽取結果受限于學科背景和學者自身對表格的主觀理解和定義。

更為突出的是，隨著數據的積累和大數據技術的發展，行業(或者特定領域)大數據的復用和應用將居首位，但各行業間的知識、數據特征等各不相同。而現有的表格抽取方法考慮的都是常規的表格特征和布局，顯然通用的表格抽取技術在特定的學科領域實現表格抽取的效果并不好。因此，面向特定的學科領域和特定需求構建有針對性的PDF表格抽取算法將是未來的研究方向。以制造行業為例，基于數據驅動材料研發，發展材料信息學(Materials Informatics)[48]，助力先進制造已成為重要的議題。材料信息學強調對材料科學中的知識和數據，特別是對已有的計算數據和實驗數據進行系統管理，需要高效地從已有PDF材料研發文獻中獲取實驗數據。在生物學、物理學、軍事、金融、通信互聯網等各行業同樣重視數據信息的管理，故表格數據的抽取是不可忽視的技術需求之一。

未來的研究可具體到某一個特定的學術領域或者基于學術領域知識的表格提取方法，結合其特定的理論知識和公理，設計領域內的知識情景模型(如制造領域的工藝參數范圍可用于判斷提取數據的重構)、本體(可應用于偵測表格的內容)和表格抽取算法，增加語義，不但能提高效率，也能有效避免表格多樣性帶來的表格預定義不完全的問題、表格提取數據的邏輯正確性問題等。這相比通用的表格抽取技術也許會有更顯著的優勢。

3.2 性能評估的發展需求

表格抽取的標準評價方法還沒有得到很好的發展[45]，多年來應用最為廣泛的是信息抽取中的召回率、精確度和F-measure來衡量系統的性能。但是單從以上指標來比較兩個算法的優劣并不恰當，因為表格抽取不僅要求準確獲得表格數據，還涉及到單元格數據的對應關系是否準確，跨頁表格的提取是否完全等更多結構上的細節內容。特別是在單元格識別中，單元格的結構和組織方式直接決定了表格的邏輯關系和數據之間的聯系，會出現各種需要單獨考慮的錯誤。比如：單元格可能向任意一個方向拆分，也可能向另一個方向合并，錯誤的識別和重構會導致歧義[49]。因此，構建一套完整的、客觀的、適用于表格抽取的評價指標體系是未來性能評估發展的迫切需求和研究熱點之一。

此外，不管是算法測試還是性能評估，各研究都是基于各不相同的PDF數據集，有的是掃描PDF圖像文件，有的是PDF早期的版本標準。沒有統一的數據集使得不同研究的實驗結論無法直接用于比較不同算法之間的差別和優劣。目前公開公用的數據集UW-3中包含一部分表格區域的基準[6]，但是該數據集是針對圖像頁面而設計，適用于頁面布局分割領域，不適用于版式文檔的表格定位。北航和微軟亞洲研究院聯合創建了一個多達41.7萬數據量的開源表格檢測和表格結構識別數據集TableBank[50]，但是該數據集是對Word文檔和LaTex文檔進行弱監督而建立的，主要針對從圖像中檢測和識別表。因此，構建一個公開的標準數據集成為未來性能評估工作的基礎。

4 結語

大數據時代是信息科學技術發展的必然。數據不僅僅是存儲在計算機中的一個符號，它已經完全滲透到了當今社會的每一個行業和個人，與人們的生產生活息息相關。表格作為傳達數據的重要形式之一，存在于海量的PDF文件中，是大數據的重要數據來源。研究獲取PDF中的表格數據能有效地幫助學科構建數據庫和實現數據系統管理，特別是對于科學研究方面更是如此。

現有的表格抽取技術主要形成了轉化為標記語言格式，轉化為圖片和基于PDF元數據三種研究思路，但各有優勢，未來仍將并存發展，而基于PDF元數據更易實現自動化?；赑DF元數據的方法主要是根據表格內容布局設計篩選規則，或選擇表格特征設計啟發式算法，利用機器學習訓練數據集?，F有方法在提取準確性，尤其是科技文獻的表格數據邏輯性方面都還達不到要求，無法適應多學科領域的專業的表格提取，而對于表格抽取算法的性能評估尚處于探索階段。

隨著復用PDF文件中的數據和基于PDF文獻來構建大數據等需求的推動，未來更需要全自動化的高效提取方法和系統。同時，需要結合各學科領域的公理、知識，構建情景模型、學科背景的表格特定規則等方式來提高表格提取算法對學科語義的理解能力，滿足對學科領域的表格的提取需求，并將其模塊化，便可以靈活地更改應用到其他的領域。輔之機器學習等人工智能方法加強不同領域情景知識的學習，以提高其智能適應性。在此基礎上，結合學科知識搭建語言兼容、性能穩定、精確度高的人工智能PDF表格抽取系統。這對實現國內外大量科技文獻中表格數據的重用和共享具有重要的現實意義和價值。