?

有監督實體關系聯合抽取方法研究綜述

2022-04-13 02:40張少偉陳子睿徐大為賈勇哲
計算機與生活 2022年4期
關鍵詞:實體模型信息

張少偉,王 鑫,2+,陳子睿,王 林,徐大為,賈勇哲,

1.天津大學 智能與計算學部,天津300350

2.天津市認知計算與應用重點實驗室,天津300350

3.天津泰凡科技有限公司,天津300457

隨著大數據時代的到來,人們日常生活中會產生海量的數據,比如新聞報道、博客、論壇、研究文獻以及社交媒體評論等,數據的領域交叉現象突出,有價值的信息往往隱藏在大量數據中。信息抽?。╥nformation extraction,IE)的目的在于快速高效地從大量數據中抽取有價值的信息。實體關系聯合抽取作為信息抽取的核心任務,近年來受到學術界和工業界的廣泛關注,實體關系聯合抽取通過對文本信息建模,來自動識別實體、實體類型以及實體之間特定的關系類型,為知識圖譜構建、智能問答和語義搜索等下游任務提供基礎支持。

傳統的流水線方法將實體關系聯合抽取分解成命名實體識別和關系抽取兩個獨立的子任務,流水線方法先執行命名實體識別任務,再根據命名實體識別的結果完成關系抽取任務,兩個子任務使用的模型相互獨立,可分別在不同的訓練集上訓練。傳統的流水線方法通常會引發以下三個問題:(1)誤差傳播。命名實體識別子任務產生的誤差,在關系抽取子任務中無法得到糾正,影響關系抽取的結果質量。(2)子任務間缺少交互。流水線方法忽略了命名實體識別和關系抽取兩個子任務間的關系,兩個子任務之間缺少交互,使得子任務的信息沒有被充分利用。比如實體類型和關系類型之間應存在某種隱含關系,在識別實體類型的過程中,關系類型會起到一定作用,對于識別關系類型的過程同樣如此。(3)產生冗余信息。命名實體識別子任務獲得的實體,實體之間并非都存在某種關系,不存在關系的實體作為冗余信息傳遞到關系抽取子任務中,提高了錯誤率。因此,實體關系聯合抽取逐漸受到重視。

本文主要研究有監督實體關系聯合抽取,文中也稱為聯合抽取。聯合抽取通過建立統一的模型,使不同的子任務彼此交互,充分利用子任務中的信息,進一步提升模型的性能。然而,在實際應用中,聯合抽取模型會面臨以下幾個挑戰:

(1)實體嵌套:現實生活中,存在一個實體嵌套另一個實體的情況,同一個詞可能屬于不同的實體,比如“天津大學”是一所大學,同時“天津”也是一個地點。聯合抽取模型需要融入更豐富的上下文語義信息才能識別當前實體類型,大量實體嵌套的情況增加了聯合抽取的難度。

(2)關系重疊:同一句子中可以存在不同的關系類型,相同的實體之間可以存在多種關系類型,不同關系之間也可能包含一些隱藏信息。比如“北京是中國的首都”,“中國”和“北京”之間存在“包含”和“首都”兩種關系類型。聯合抽取模型需要設計不同的抽取策略或復雜的標注方案才能解決此類問題。

(3)數據噪音:日常生活產生的海量數據通常存在大量數據噪音,尤其是網頁、社交平臺和媒體評論等環境產生的數據,存在許多特殊符號和不標準表達等類型的噪音。包含數據噪音的數據難以被充分利用,也增大了聯合抽取獲取有效數據的難度。

(4)模型的平衡性:聯合抽取的難點是增強子任務間的交互性。簡單的交互難以充分利用子任務的重要信息,降低抽取結果的準確性;復雜的交互會對子任務進行限制,使得子任務抽取的特征不具備豐富性。聯合抽取需要在子任務特征的豐富性和子任務的交互性間做權衡,以達到最佳抽取效果。

聯合抽取的相關工作如下:文獻[14]是基于深度學習的命名實體識別和關系抽取的介紹,但對基于深度學習的聯合抽取方法介紹較少;文獻[15]對命名實體識別和關系抽取做了系統全面的介紹,但未側重于聯合抽取的方法;文獻[16-17]著重于研究關系抽取的各種方法,對聯合抽取的方法描述較少;文獻[18]綜述了基于深度學習的關系抽取方法,并未介紹聯合抽取方法;文獻[19]側重于基于機器學習的各種關系抽取方法,對聯合抽取方法的介紹較為簡單;文獻[20]與本文的工作接近,但在描述基于神經網絡的聯合抽取方法時沒有進行細致的分類。本文則針對有監督實體關系聯合抽取方法做出了較為詳細的分類和介紹。整體框架如圖1 所示。

圖1 聯合抽取方法分類Fig.1 Classification of joint extraction methods

本文目的在于對有監督實體關系聯合抽取的最新研究進展提供全面深入的研究綜述。具體而言,本文的貢獻在于:

(1)根據特征的不同提取方式,對聯合抽取進行了細致的分類,并詳細闡述了不同類型下聯合抽取方法的特點。

(2)介紹了聯合抽取常用的數據集及評價指標,在不同數據集上比較了各個方法間的性能差異并進行分析。

(3)基于最新的研究進展,總結聯合抽取面臨的多種挑戰性問題,指出未來的主要研究方向。

1 預備知識

本章給出實體關系聯合抽取需要的預備知識。

當前主流的聯合抽取方法主要基于各類神經網絡模型,以下介紹聯合抽取常用的神經網絡模型。

循環神經網絡:循環神經網絡擅長處理帶有時序信息的序列,其在每個時刻都更新自己的“記憶”,難以解決長期依賴與梯度消失的問題。長短時記憶網絡(long short-term memory,LSTM)于1997 年被提出,是循環神經網絡的一種變體。LSTM 用特定的學習機制來聚焦并更新信息,能夠解決長期依賴和梯度消失問題。門控循環單元(gated recurrent unit,GRU)對LSTM進行改進,使用更少的門提升了計算效率。

圖卷積網絡(graph convolutional network,GCN):研究者們將諸如卷積神經網絡等傳統神經網絡結構擴展到圖數據中,使用卷積層提取圖中節點的特征信息,將當前節點的特征傳遞至相鄰節點,通過疊加GCN 層學習到圖中的節點表示。GCN 的輸入是一個圖,圖通常由×的節點嵌入矩陣和×的圖結構表征矩陣(如鄰接矩陣)來表示,最終輸出×的矩陣,表示每個節點的特征信息。

預訓練模型:預訓練模型是已經在大量數據集上訓練并保存的網絡模型。對于具體的任務,可以在預訓練模型上微調,實驗也證明預訓練方法是有效的。在自然語言處理(natural language processing,NLP)領域,預訓練模型BERT(bidirectional encoder representations from transformers)展現了優秀的性能。BERT 是一種基于Transformer的多層雙向語言表征模型,由個相同的Transformer塊疊加而成,通過點積注意力的方法更深層次地學習到單詞的特征信息。

表1 給出了聯合抽取常用符號描述。

表1 常用符號描述Table 1 List of notations

2 基于特征工程的聯合抽取

特征工程是將原始數據轉化為表達問題本質特征的方法,將特征工程獲得的特征運用到模型中可以提高模型性能?;谔卣鞴こ痰穆摵铣槿?,需要根據數據特點設計特征,當滿足特征函數的條件時,該特征函數會被觸發?;谔卣鞴こ痰穆摵铣槿≈饕幸韵滤姆N方法:整數線性規劃、卡片金字塔解析、概率圖模型和結構化預測。

2.1 整數線性規劃

線性規劃(linear programming,LP)是運籌學中應用廣泛且較為成熟的一個重要分支,目的是在有限資源和若干約束下,求解得到某個目標函數最大值或最小值的最優策略,其中約束條件和目標函數均為線性函數。線性規劃的形式化表達如下:

式(1)表示需要優化的函數,式(2)表示若干線性約束。Roth 等首次使用整數線性規劃的方法實現聯合抽取。其使用隨機離散變量表示局部實體識別和關系抽取的結果,目的是在先驗信息、關系和實體類型等多個約束條件下求得全局最優分配策略。該模型的目標函數由兩部分構成:(1)標注分配損失,表示局部分類器預測的標注與實際值偏離的情況。(2)約束損失,表示破壞給定約束條件需要付出的代價。文獻[30]通過添加變量的整數約束將線性規劃轉換成整數線性規劃,用線性松弛法、分支定界法和割平面法等求解最優分配策略。

Yang 等將整數線性規劃的方法應用到細粒度的觀點抽取,抽取觀點、觀點相關實體和觀點與實體間的關系。文獻[31]的實驗數據中只存在“IS-FROM”和“IS-ABOUT”兩種關系類型,觀點和觀點相關實體的識別被當作序列標注任務,用條件隨機場(conditional random field,CRF)學習序列標注的概率;觀點與實體間的關系抽取被當作分類任務,定義勢函數表示候選觀點相關實體與其參數的關系信息。另外,文獻[31]根據數據信息定義了大量的特征,包括詞性特征、短語類型特征和依賴路徑特征等。對于觀點標注的唯一性、不重疊性和實體關系一致性等都采用線性公式進行約束。

整數線性規劃是一個獲得全局最優解的有效方法。整數線性規劃的方法應用到聯合抽取中,大量的線性公式可以表示各種類型的約束條件,使得聯合抽取的設計更具備通用性和靈活性。

2.2 卡片金字塔解析

整數線性規劃方法根據多個獨立局部分類器的結果計算全局最優解以實現聯合抽取,但局部分類器之間沒有交互??ㄆ鹱炙馕龇椒▌t用圖結構編碼句子中實體信息和關系類型信息,局部分類器彼此交互,提升了聯合抽取的性能。

Kate 等將聯合抽取轉換成圖節點標注的問題,圖的結構類似金字塔,因此稱為卡片金字塔模型,如圖2 所示。這種類似樹的圖結構在最高層有一個根節點,中間層是內部節點,底層是葉子節點,句子中的實體對應葉子節點,葉子節點標注為實體類型。圖的層數和葉子節點數相等,從圖的底層到頂層,每次減少一個節點。除去最底層節點,每一層的節點表示與節點相關的最左和最右兩個葉子節點之間可能存在的關系。文獻[33]的兩個局部分類器為實體識別分類器和關系抽取分類器,都采用支持向量機(support vector machines,SVM)進行訓練,根據局部分類器的結果構造卡片金字塔圖。文獻[33]采用動態規劃和集束搜索的方法設計解析算法,該方法主要由實體生成和關系生成兩部分組成,根據卡片金字塔的結構特點,分別產生葉子節點的實體信息和非葉子節點的關系信息。最終圖的節點都被標注,實現了聯合抽取。

圖2 卡片金字塔模型Fig.2 Card pyramid model

2.3 概率圖模型

概率圖模型使用圖結構表示概率分布。由無向圖=(,)表示聯合概率分布(),即在圖中,節點∈表示一個隨機變量Y,邊∈表示隨機變量之間的依賴關系。

Yu 等設計了任意圖結構的聯合判別概率模型來同時優化聯合抽取所有相關子任務,在一個實體信息已知的條件下預測該實體與另一個實體間的關系。其將實體信息和關系類型信息聯合建模,整個模型由三部分構成:半馬爾可夫鏈層、勢函數層和全連通圖層。該模型通過改進傳統的CRF 獲得無向圖的最大條件概率,并設計新的推理方法獲得實體關系的最大后驗概率,完成聯合抽取。

Singh 等則對命名實體識別、關系抽取和共指三個子任務統一建模,根據三個子任務的聯合概率表示三個子任務間的依賴關系。具體而言,將三個子任務的變量和因子組合構成圖模型,因子通常被定義為特征函數和模型參數的對數線性組合,圖中隨機變量的概率分布可由因子表示,如圖3 所示。圖中表示給定的實體變量,下標表示不同的實體,、、分別表示標注變量、共指變量和關系變量,下標作為參數對應不同實體信息,Ψ、Ψ、Ψ分別表示標注因子、共指因子和關系因子,括號中的數字代表不同的實體信息。由于模型中包含大量變量,該方法采用擴展的置信度傳播算法進行推理,最終獲得實體類型和實體間的關系。

圖3 文獻[37]的概率圖模型Fig.3 Probability graph model of Ref.[37]

用概率圖模型實現聯合抽取的優點是可以將大量隨機變量表示為一系列概率分布,這些概率分布根據基礎圖進行因式分解,能夠捕獲變量間的依賴信息。

2.4 結構化預測

傳統的機器學習方法,主要面向回歸問題和分類問題,輸出分別是一個標量和一個類別。對于結構化預測,任務的輸出是一個序列、圖或樹等結構類型,結構中包含語義信息和邏輯信息。

Li等采用結構化預測的方法,將句子中的實體類型信息和關系類型信息存儲在圖中,圖的節點表示實體信息,弧表示實體間的關系信息。文獻[38]通過集束搜索進行結構化預測,即對于第個單詞,維持個最好的局部結構。其目的是在給定特征和約束條件下預測句子的隱藏結構,形式化表達如下:

其中,表示輸入句子,′表示候選結構,(,′)表示整個句子的特征向量。文獻[38]采用特征向量和特征權重的內積來表示候選結構的分數,并使用基于半馬爾可夫鏈的分段解碼器。由于輸出結構中包含實體和關系的信息,該方法通過設計全局特征以約束圖結構,最終選擇分數最高的結構^ 作為輸出。

Miwa 等則用簡單的表結構來表示實體類型和關系類型。表的對角線表示實體類型,表格的下三角元素表示實體間的關系類型。文獻[39]采用BILOU(begin、inside、last、outside、unit)標注方法,每個實體標注代表實體的類型和每個單詞在實體中的位置,如單詞Steven 和Jobs 的標注分別為B-PER 和L-PER,分別表示“人”類型實體的起始單詞和末尾單詞。如圖4 所示,由于輸入句子構成的表格具有對稱性,該方法只使用了表格的下三角部分,根據不同的順序(如順序和逆序讀取句子)將表格轉換成序列;用特征函數與特征權重的內積表示候選結構的分數,選取分數最高的結構作為模型的輸出來實現聯合抽取。

圖4 文獻[39]的表格標注方法Fig.4 Table annotation method of Ref.[39]

表2 是對基于特征工程的聯合抽取方法的小結,整數線性規劃方法可以靈活地表達各種約束條件,但子任務間的交互性較低;卡片金字塔模型、概率圖模型和結構化預測皆采用圖或表結構來增強子任務間的交互性,但所采用的解析方法不同,計算復雜度增高??ㄆ鹱炙P驮O計了相應的卡片金字塔解析算法,概率圖模型對一系列概率分布進行解析,結構化預測則評估不同候選結構的分數來選取最優結構。

表2 基于特征工程的聯合抽取方法總結Table 2 Summary of joint extraction methods based on feature engineering

3 基于神經網絡的聯合抽取

基于特征工程的聯合抽取在獲取特征的過程中嚴重依賴NLP 工具,需要大量人力和專業領域知識,且存在誤差傳播的問題,最終影響聯合抽取的結果。由于神經網絡具有優異的特征學習能力,神經網絡的方法被逐漸應用到聯合抽取中。

如圖5 所示,基于神經網絡的聯合抽取模型通常由三部分構成:(1)詞嵌入層。詞嵌入層將輸入句子中的單詞w嵌入到一個向量空間,向量中融入單詞信息、字符信息和其他特征信息。(2)序列編碼層。序列編碼層疊加在詞嵌入層上,將詞嵌入層獲得的向量進一步編碼,使得單詞w對應的向量融入上下文信息。(3)解碼器層?;诼摵辖獯a的聯合抽取模型在序列編碼層上疊加統一的解碼器,直接解碼序列編碼層得到聯合抽取的結果;基于共享參數的聯合抽取模型在序列編碼層上疊加不同的解碼器,根據不同的子任務解碼序列信息,解碼器間通過共享序列編碼層進行信息交互。

圖5 基于神經網絡的聯合抽取Fig.5 Joint extraction based on neural network

3.1 基于共享參數的聯合抽取模型

實體對映射到關系將聯合抽取分解成兩個子任務:命名實體識別和關系抽取。目前,兩個子任務都有較為成熟的處理方法。

SPTree首次采用神經網絡的方法實現聯合抽取。如圖6 所示,SPTree 由三個表示層組成:詞嵌入層、序列層和依賴層。最底層的詞嵌入層將單詞和單詞詞性轉換成嵌入向量。序列層則由雙向LSTM和兩層前饋神經網絡構成,序列層的輸出為單詞的BILOU 標注,通過標注信息實現命名實體識別子任務。SPTree 采用序列標注方案時融入了實體間的依賴信息,通過利用上一個單詞的標注信息預測下一個單詞的BILOU 標注。

圖6 基于依賴樹的聯合抽取模型Fig.6 Joint extraction model based on dependency tree

將命名實體識別子任務識別的實體進行關系抽取,由模型的依賴層實現。SPTree的依賴層采用雙向樹結構的LSTM(由上到下和由下到上),使得每個節點融入該節點到根節點和葉子節點的信息。樹結構LSTM的設計方法有利于關系抽取,在依賴樹中找到兩個目標實體的最小公共節點,即兩實體間的最短路徑,該方法在Xu等關系分類的實驗中被證明是有效的。

SPTree 的聯合抽取過程中,由于依賴層疊加在序列層上,命名實體識別和關系分類兩個子任務可以共享序列層和詞嵌入層的信息,兩個子任務同時進行訓練并在整個模型解碼完成后,通過反向傳播算法更新共享參數來實現信息交互。

在后續的研究中,各類模型主要從兩方面提升聯合抽取的性能:(1)提升命名實體識別和關系抽取的準確性;(2)增加兩個子任務間的交互性。

另外,現實世界中的實體通?;诳缍冗M行標記,對跨度建模能夠直接抽取實體的特征信息,在設計上容易解決實體嵌套的問題。

Dixit 等在雙向LSTM 上使用注意力機制獲取所有可能的跨度;Luan 等在假設空間上進行集束搜索,評估跨度的類型信息和跨度間的關系信息;在后續的改進版本中,DyGIE通過構造動態跨度圖來進一步豐富跨度信息;文獻[52-54]則通過預訓練語言模型BERT和注意力機制,提升了抽取跨度的準確性。

為了增強兩個子任務間的交互性,Gupta 等將聯合抽取轉換為表格填充任務;Zhang 等在文獻[55]上進一步改進,采用LSTM 進行特征抽??;RIN(recurrent interaction network)采用雙向LSTM 學習共享參數層的動態交互信息;Feng 等則采用強化學習的方式增強子任務間的交互;Sun 等設計最小化風險的全局損失函數進行聯合訓練;在后續的改進版本中,Sun 等將實體類型和關系類型構造成二分圖,用GCN 進行聯合推理。

聯合抽取模型需要權衡子任務的準確性和交互性,在抽取句子的特征信息時通常采用雙向LSTM 或預訓練語言模型,不同的子任務會設計相應的子模型。上述相關文獻的模型架構及描述總結如表3所示。

表3 實體對映射到關系模型總結Table 3 Summary of mapping entity pairs to relationship models

頭實體映射到關系、尾實體的聯合抽取策略可以用式(4)中的條件概率來表示:

這種策略將聯合抽取分解成兩步,先抽取頭實體,再根據頭實體抽取相應的關系類型和尾實體。一個直觀的解釋是:模型如果不能準確地抽取頭實體,那么模型抽取的關系類型和尾實體的置信度同樣較低。

Katiyar 等在識別實體的過程中采用BILOU 序列標注的方法,識別出實體后,使用指針網絡的方法(注意力模型的一種改進),根據關系類型識別出另一個實體。文獻[62]的序列編碼層采用多層雙向LSTM,在序列編碼層上疊加一層從左到右的LSTM層和前饋神經網絡進行解碼。識別當前實體的過程主要由式(5)和式(6)實現:

為了抽取句子中的多個關系類型,Bekoulis 等采用多頭選擇機制,在后續的改進版本中,Bekoulis等在詞嵌入向量中添加一個最壞情況擾動項產生對抗樣本,通過對抗學習提升了聯合抽取模型的魯棒性;ETL-Span采用序列標注的方法實現了該分解策略;CasRel將關系類型當作一種頭實體映射到尾實體的函數,根據函數f()→設計頭實體觸發器和特定關系的尾實體觸發器;TPLinker設計了一種新穎的握手標注方案,將長度為的句子轉換成長度為(+)/2 的序列后進行編碼,解決了曝光偏差的問題。

Li等和Zhao 等則采用機器閱讀理解的方法,將先驗信息融入到問題中,在問題和句子的交互中捕捉語義信息,提高了模型的準確性。文獻[68]根據頭實體用模板生成的方法獲得關系類型和尾實體的問題,并采用機器閱讀理解的方法抽取句子中對應的尾實體。文獻[69]對同一個實體類型,設計了不同角度的多個相關問題,融入更多先驗信息。在問題生成過程中,過濾無關關系類型,選擇相關關系類型生成問題,并采用答案集成策略選取最優答案。

一般而言,句子中存在的關系類型是由上下文信息而不是實體信息觸發。比如句子中若有類似“was born in”的信息,那么可以判斷出存在“Place_Of_Birth”的關系類型。關系映射到頭實體、尾實體的聯合抽取方法便是基于這種現象,先識別出關系,將關系作為先驗信息抽取實體,使模型更關注于該關系相關的語義信息,減少冗余的抽取操作。另外,句子中關系類型的數量通常少于實體數量,關系映射到頭實體、尾實體的聯合抽取方法也降低了計算復雜度,提高了聯合抽取的效率。

HRL(hierarchical reinforcement learning)將實體當作特定關系類型的參數,并設計分層的強化學習框架完成聯合抽取。強化學習會給出智能體每個狀態下應該采取的行動,使得智能體從環境中獲得的獎勵最大。如圖7 所示,高層級的強化學習被用于關系抽取,在這一層級,智能體順序掃描句子,當中有足夠的語義信息時,如一些動詞短語“die of”,名詞短語“his father”,或介詞“from”等,智能體將會預測出相應的關系類型,并發布一個子任務,即低層級的強化學習,用于識別當前關系類型對應的實體對,當子任務完成后,智能體繼續掃描剩余的部分。

圖7 分層級的強化學習框架Fig.7 Hierarchical reinforcement learning framework

具體而言,高層級和低層級的強化學習都采用雙向LSTM 編碼得到每個單詞的特征向量。高層級的強化學習將單詞的特征向量、關系類型的嵌入向量和上一時刻的狀態信息向量拼接后,通過前饋神經網絡獲得當前的狀態信息向量,采用隨機策略預測當前句子包含的關系類型。高層級的強化學習同時設置獎勵函數,當句子不存在模型預測得到的關系類型時,函數值為-1;當模型預測得到關系類型為空時,函數值為0;當句子存在模型預測得到的關系類型時,函數值為1,此時會觸發低層級的實體識別。低層級的強化學習采用序列標注的方法,根據預測標注與序列標準標注之間的偏差設計獎勵函數。

高層級的關系抽取和低層級的實體識別通過狀態信息向量和獎勵函數實現交互。在執行低層級的實體識別時,高層級的關系抽取傳遞相關的關系信息,低層級的實體識別會通過獎勵機制,將實體識別的情況反饋給高層級,使得句子中的多個關系三元組被有序地抽取。

Zhou 等通過在雙向LSTM 上疊加卷積神經網絡提升了關系抽取的準確性,并采用單向LSTM 解碼當前關系類型對應的實體對;RSAN(relation-specific attention network)根據不同的關系類型,用關系敏感的注意力方法獲得句子的不同特征信息,通過門機制降低了無關關系類型對實體識別的影響;Wang等認為統一編碼器在編碼實體信息和關系類型信息時,得到的特征信息可能是沖突的、不明確的。Wang 設計了兩種不同的編碼器:序列編碼器和表編碼器。兩個編碼器分別用于編碼實體信息和關系類型信息,其內部彼此交互。表編碼器將特征信息傳遞給序列編碼器,并預測出關系類型;序列編碼器根據特征信息和序列編碼信息,通過前饋神經網絡預測出實體信息。

基于共享參數的聯合抽取模型總結如表4 所示。實體對映射到關系的聯合抽取模型,兩個子任務的實現方法較為成熟,通過共享參數的方法容易實現聯合抽取,但聯合抽取過程中會產生不存在關系的冗余實體對,難以有效解決關系重疊的問題;頭實體映射到關系、尾實體的方法能夠有效解決關系重疊的問題,增強了實體類型信息和關系類型信息的交互,但模型設計相對復雜;關系映射到頭實體、尾實體的方法減少了冗余信息的抽取,能夠解決關系重疊的問題,但識別候選關系類型的難度較大,模型設計相對復雜。

表4 共享參數模型總結Table 4 Summary of shared parameter model

3.2 基于聯合解碼的聯合抽取模型

基于共享參數的聯合抽取模型,每個子任務擁有獨立的解碼器,通過共享參數的方法實現信息交互,子任務間的交互性并不強。為了增強不同子任務之間的交互性,基于聯合解碼的聯合抽取模型被相繼提出?;诼摵辖獯a的聯合抽取模型通常在序列編碼層上疊加統一解碼器,直接解碼得到關系三元組信息。主要存在兩種方法:(1)序列標注方法,將聯合抽取轉換成序列標注進行解碼;(2)Sequenceto-Sequence,采用Sequence-to-Sequence 方法生成關系三元組。

對于命名實體識別任務,通常采用序列標注的方法實現,模型通過預測每個單詞的BLOU 標注來識別實體。用序列標注實現聯合抽取的優點是方法成熟,實現簡單;難點是需要設計統一的標注方案,在標注中融入實體類型信息和關系類型信息。

圖8 序列標注方案Fig.8 Sequence annotation scheme

NovingTagging 設計的標注方案在將實體信息和關系類型信息相結合時,并沒有融入實體類型信息。由于每個單詞只能有一個標注,NovingTagging不能解決關系重疊和實體嵌套的問題。

Dai 等在標注方案上進一步改進,將長度為的句子根據每個單詞的位置進行次不同標注,使得每個單詞可被多次標注。在解碼過程中,文獻[75]采用基于位置的注意力方法和CRF 得到個不同的序列標注,解決了關系重疊的問題。

Sequence-to-Sequence方法最初被應用于機器翻譯,基于Sequence-to-Sequence 的模型主要由兩個分別被稱為編碼器和解碼器的循環神經網絡構成,編碼器將任意長度的輸入序列轉換成固定長度的語義向量,解碼器將語義向量轉換成另一個輸出序列。

Zeng 等采用Sequence-to-Sequence 的方法設計了模型CopyRE,同時引入了復制機制。聯合抽取過程類似機器翻譯,解碼器依次產生關系類型、頭實體和尾實體。文獻[78]首次將關系重疊類型進行分類,如表5 所示,將關系類型分為三種:(1)Normal關系類型,關系三元組的實體沒有重疊;(2)SEO(single entity overlap)關系類型,關系三元組的實體對中有一個實體與另一個關系三元組的實體重疊,但兩個關系三元組的實體對不重疊;(3)EPO(entity pair overlap)關系類型,一個實體對之間存在多種關系。

表5 關系類型分類示例Table 5 Example of relationship type classification

聯合抽取模型普遍容易解決Normal 類型,Copy-RE 能夠解決EPO 類型和SEO 類型。如圖9 所示,CopyRE 的編碼器采用雙向循環神經網絡,句子經過詞嵌入層后傳入雙向循環神經網絡,雙向循環神經網絡最終的隱藏狀態向量拼接得到語義向量,編碼過程中用注意力方法獲取注意力向量。解碼器采用單向循環神經網絡,和輸入解碼器后獲得當前時刻的輸出向量,輸出向量通過前饋神經網絡獲得關系類型,關系類型的嵌入向量和注意力向量作為下一時刻+1 的輸入,+1 時刻的輸出向量通過前饋神經網絡后采用復制機制從原句子中復制頭實體,頭實體的嵌入向量和注意力向量在+2 時刻用相同的方法復制得到尾實體。最終依次產生句子中的所有關系三元組,實現聯合抽取。在解碼過程中,一個實體可以被多次復制,解決了關系重疊的問題。

在后續的研究中,CopyRL提出句子中的多個三元組之間應該存在順序關系,并采用了強化學習方法;由于CopyRE 只能復制實體的最后一個單詞,難以處理一個實體包含多個單詞的情況。文獻[81]提出了一種多任務學習模型CopyMTL,CopyMTL 在CopyRE 基礎上添加了一個序列標注模塊用于實體識別。序列標注得到的實體和復制機制得到的實體進行校對,使得CopyMTL 能夠準確識別實體。上述三個模型間的對比如圖9 所示。HDP(hybrid dual pointer network)編碼器中采用了Transformer,解碼器為從左到右的單向LSTM,提升了特征抽取能力;Nayak 等設計了兩種新穎的方案來表示三元組,根據兩個方案分別設計了不同的解碼器,即基于單詞的解碼器Wdec 和基于指針網絡的解碼器PNDec,提高了關系三元組之間的交互;SPN(set prediction network)認為句子中的關系三元組應該是無序的,自回歸解碼器將無序的關系三元組有序生成,增加了模型的負擔,因此SPN 采用基于Transformer 的非自回歸解碼器,并設計基于集合的二分匹配損失函數,一次性產生包含所有關系三元組的集合。

圖9 Sequence-to-Sequence 模型對比Fig.9 Sequence-to-Sequence model comparison

基于聯合解碼的聯合抽取模型主要有序列標注和Sequence-to-Sequence 兩種方法。序列標注的方法容易實現聯合抽取,但真實數據間的關系通常比較復雜,在解決實體嵌套、關系重疊等具體問題時,序列標注的方法需要設計復雜的標注方案,增加了聯合抽取的難度;Sequence-to-Sequence 的方法能有效解決關系重疊的問題,但當句子長度較長時,提升了構造具有豐富語義特征向量的難度。

表6 是基于神經網絡的聯合抽取方法總結?;诠蚕韰档穆摵铣槿∧P蛯⒙摵铣槿》纸鉃椴煌淖尤蝿?,通過構造豐富的子任務特征信息來提升子任務模型的準確性,但子任務間的交互性相對較低;基于聯合解碼的聯合抽取模型使得實體信息和關系信息充分交互,但需要設計相對復雜的解碼方法。

表6 基于神經網絡的聯合抽取模型Table 6 Joint extraction model based on neural network

4 數據集

本章主要介紹聯合抽取的常用數據集,主要分為人工標注的數據集和采用NLP 獲取的數據集,這兩類數據集都被作為有監督數據集進行處理。

4.1 人工標注數據集

人工標注的數據集需要標注員對文本數據進行標注,耗費成本大,整體效率低下,但數據質量高,噪音少,有公認的評價方式,這類數據集的規模通常也較小。

ACE(automatic content extraction)的研究目標是從自然語言數據中自動抽取實體、實體相關事件和實體間的關系類型,其數據來源除英語外還包括阿拉伯語和漢語等。ACE 預先定義了實體間的關系類型,ACE 的任務是識別實體間是否存在語義關系,并進一步判斷該語義關系屬于哪一種預定義的關系類型。ACE 提供了相應的標注數據集ACE2004 和ACE2005。ACE2004 數據集的實體和關系類型如表7所示,ACE2005保留了ACE2004中的PER-SOC(person-social)、ART(agent-artifact)和GPE-AFF(geopolitical entity affiliation)關系類型,將PHYS(physical)關系類型分為PHYS 和Part-Whole 類型,移除了DISC(discourse)類型,將EMP-ORG(employment-organization)和PER/ORG-AFF(person/organization-affiliation)合并成EMP-ORG。

表7 ACE2004 數據集Table 7 ACE2004 dataset

SemEval(semantic evaluation)會議在自然語言領域受到廣泛關注。SemEval-2010 Task 8 側重于識別名詞對之間的語義關系,目的是比較不同關系抽取方法的性能差異,并對未來的研究提供標準的評測方法。SemEval選擇9種關系類型:CE(causeeffect)、IA(instrument-agency)、PP(product-producer)、CC(content-container)、EO(entity-origin)、ED(entitydestination)、CW(component-whole)、MC(membercollection)和MT(message-topic),覆蓋范圍較為廣泛。SemEval 提供了8 000 個訓練樣本和2 717 個測試樣本,每個樣本存在的關系類型都被標注,但沒有標注實體的類型信息。

CoNLL04 數據集提供了1 437 個至少存在一個關系的句子,句子中的實體和關系類型都進行了標注。CoNLL04 數據集包含5 336 個實體,19 048 個實體對(二元關系),存在4 種實體類型和6 種關系類型,具體細節如表8 所示。

表8 CoNLL04 數據集Table 8 CoNLL04 dataset

ADE(adverse drug events)數據集中存在兩種實體類型:Drug 和Disease。任務的目的是抽取句子中的Drug 類型實體和Disease 類型實體,并確定Drug 和Disease 的關聯性。ADE 數據集來自于1 644 個PubMed 的摘要信息,從摘要中選取至少存在一組實體類型為Drug-Disease 且關系類型為ADE 的句子,ADE 數據集共6 821條,包含10 652個實體以及6 682個關聯。

4.2 NLP 獲取數據集

通過NLP 獲取的數據集,規模較大,遷移性較好,但質量相比人工標注數據集較低。主要有NYT(New York Times)數據集和WebNLG(Web natural language generation)數據集,分別采用遠程監督和自然語言生成的方法獲取。遠程監督將大量語料數據與現有數據庫中的關系進行對齊,通過成熟的NLP 工具進行實體標注;自然語言生成方法是從標準數據庫中獲取關系三元組信息,用自然語言生成技術構造大量包含該關系三元組的句子。

NYT 數據集通過遠程監督的方法獲得,采集了1987 年到2007 年的紐約時報新聞文章數據共24.9萬條,將獲得的數據與Freebase 對齊,構造出了118萬條句子。過濾出部分噪音數據后,剩余66 195 個句子樣本,通常隨機選擇出5 000 條樣本作為測試集,5 000 條樣本作為驗證集,剩余的56 195 條樣本作為訓練集,共包含3 種實體類型和24 種關系類型。

WebNLG 通過從DBpedia 中抽取一組三元組并采用自然語言生成方法獲得所構造的句子。該數據集共有5 519 條訓練集和703 條驗證集,包含246 種關系,每個樣本由一組三元組和一條標準句子構成,標準句子包含樣本中的所有三元組,實驗時,研究人員通常會過濾不包含實體的標準句子。

以上數據集的相關信息總結如表9 所示。

表9 實體關系抽取數據集總結Table 9 Summary of entity and relation extraction datasets

5 評測標準及實驗

評測標準通常采用精確率()、召回率()和1 值3 個指標。根據機器預測結果和真實情況可劃分為真正類(true positive,TP)、假正類(false positive,FP)、真負類(true negative,TN)、假負類(false negative,FN)4 種情況,其構成的混淆矩陣如表10 所示。

表10 混淆矩陣Table 10 Confusion matrix

精確率和召回率的定義公式分別為:

精確率和召回率是一對矛盾的度量,一般來說,精確度較高時,召回率往往偏低;召回率高時,精確率往往偏低。1 值則是基于精確率和召回率的調和平均值,計算公式如下:

由于數據集的不同,實體關系聯合抽取的評測方式也有所不同。在NYT 和WebNLG 數據集上,以模型最終抽取的三元組作為評測依據,通常認為三元組中的實體及關系類型都正確時為TP。不同模型在NYT 和WebNLG 數據集上的實驗結果如圖10、圖11 所示。

從圖10、圖11中可以看出,NovelTagging在NYT 和WebNLG 數據集上的評測1 值相對較低,其采用序列標注的方法實現聯合抽取,將實體信息和關系類型信息都存儲到統一的標注中,使得標注方案設計復雜,解碼器需要直接解碼實體和關系類型信息,增大了解碼難度。

圖10 NYT 數據集上的評測結果Fig.10 Evaluation results on NYT dataset

圖11 WebNLG 數據集上的評測結果Fig.11 Evaluation results on WebNLG dataset

Sequence-to-Sequence 方法容易解決關系重疊的問題,例如文獻[78]提出的模型CopyRE-One和Copy-RE-Mul,其評測結果優于序列標注模型,但兩個模型獲得相對較低的1 值。原因是雙向LSTM 難以準確識別邊界較長的實體信息,尤其是在包含大量邊界較長實體的WebNLG 數據集上,CopyRE-One、Copy-RE-Mul 的評測1 值低于其在NYT 數據集上的1值。而SPN模型在NYT 和WebNLG 數據集上都取得了最佳的1 值,分別為92.5%和93.4%,主要有3個原因:(1)Sequence-to-Sequence 方法適合解決關系重疊的問題;(2)采用BERT 編碼器、Transformer 架構的解碼器,提升模型識別實體邊界的準確性,Transformer 解碼也使得運行效率有所提高;(3)解碼器采用非自回歸的方式直接解碼得到關系三元組集合,不注重關系三元組的順序,減輕了解碼器負擔。

采用實體對映射到關系的方法實現聯合抽取的模型,主要難點是解決關系重疊的問題。如文獻[47],為了有效解決關系重疊的問題,設計了復雜的注意力機制。另外,RIN模型在兩個數據集上的評測1 值也相對較高,RIN 以GRU 為主,但RIN 額外添加了雙向LSTM用于命名實體識別和關系抽取兩個子任務的交互,從實驗結果可以看到這種方法是有效的。

在NYT 和WebNLG 數據集中含有大量EPO、SPO 等關系重疊類型的數據,使得大多數聯合抽取模型在這兩個數據集上的評測1 值略低。對于采用頭實體映射到關系、尾實體方法和采用關系映射到頭實體、尾實體方法實現聯合抽取的模型,如CasRel和RSAN,這類模型在NYT 和WebNLG 數據集上的評測1 值均較高。主要原因是這類模型采用分解策略有效解決了關系重疊問題,實驗結果也佐證了這一判斷。另外,在兩個數據集上評測1 值相對較高的SPN、ETL-Span和TPLinker等模型,這些模型的編碼器均采用了預訓練語言模型BERT,進一步說明了預訓練語言模型的有效性。

對于人工標注的數據集,實體類型和關系類型的標注質量較高,評測通常有兩方面:命名實體識別的1 值,實體的邊界和類型都正確則視為TP;關系抽取的1 值,關系類型正確并且與之相關的兩個實體邊界及類型都正確則視為TP。有的模型在關系抽取評測時并沒有考慮到兩個實體的類型,如表11 中右上角帶“*”的評測結果。在不同數據集上不同模型的評測結果如表11 所示。

從表11 中可以看到,基于特征工程的聯合抽取方法Li和Miwa在不同數據集上識別實體和抽取關系的評測1 值相對較低,原因是特征工程需要設計大量特征函數,通過特征工程獲得的特征準確度較低。SPTree、Bekoulis和Bekoulis都是基于神經網絡的聯合抽取模型,在不同數據集上的評測1值相近,評測1 值略高于基于特征工程的模型。這3 個模型都是以雙向LSTM 為主要架構,特征提取的能力低于基于Transformer的模型,使得這3 個模型的1 值處于相對較低的水平。Sun和Sun模型在ACE2005 數據集上的關系抽取評測1 值相比SPTree進一步提升,這兩個模型分別采用最小化風險訓練的方法和構造實體關系二分圖的方法,加強命名實體識別和關系抽取兩個子任務間的交互,評測結果也說明加強不同子任務之間的交互性能夠提升整體的抽取效果。

表11 有監督數據集上評測結果Table 11 Evaluation results on supervised datasets %

采用機器閱讀理解方法的模型,如Li和Zhao在ACE2005 數據集上的評測1 值處于相對中等的水平。機器閱讀理解的方法,在問題中融入重要的先驗信息,并以問答的形式更好地捕捉到問題和文章之間的交互信息,提升聯合抽取的性能,但這類方法需要根據識別的實體設計合適的問題。

基于跨度的模型,如文獻[49-54]在不同數據集上的評測1 值處于相對較高的水平,尤其是命名實體識別的評測1 值,進一步證明了直接在跨度上建模能有效解決實體嵌套的問題。其中SPAN模型在數據集上的評測1 值最高,原因在于其用多頭注意力抽取豐富的跨度表征信息和上下文表征信息。另外,這些模型在特征抽取上均采用預訓練語言模型BERT,具備更強的特征抽取能力。Wang改進了Transformer,設計了兩種不同的編碼器分別編碼實體信息和關系信息,實驗的評測1 值處于較高的水平。

6 未來研究方向

本文介紹了有監督實體關系聯合抽取的各種方法以及相關理論,并進行了實驗對比,在常用數據集上進行的實驗表明,實體關系聯合抽取方法取得了一定的進步,然而現存的聯合抽取理論和技術尚有許多局限性,仍面臨著許多技術難題和挑戰。接下來的研究重點包括以下內容。

(1)篇章級別的實體關系聯合抽取

本文介紹的模型大多是基于句子級別的聯合抽取,面臨的挑戰主要是實體嵌套和關系重疊,可以通過設計特殊標注方案或調整抽取順序的策略解決。而篇章級別的數據處理較為復雜,目前的預訓練語言模型如BERT,其輸入有最大長度限制。如何在較長篇幅的數據下進行模型訓練,如何處理不同句子間的關系信息、不同關系間的關系信息,多個實體共指等復雜情況仍有待解決。另外,對于一些隱藏的關系類型,并不能通過簡單的抽取得到,需要進一步根據上下文的信息推理獲得。顯然將篇章級別的抽取看作一系列單句子抽取的組合是不合理的,如何設計一個行之有效的方案依然亟待解決。

(2)融入多樣信息的實體關系聯合抽取

本文介紹的模型抽取的三元組大多是靜態的,輸入句子經過序列編碼器后得到的詞向量融入了上下文的語義信息,模型主要關注實體信息和預先定義的關系類型信息,而在抽取帶有時序信息的實體和實體間的關系時,實體和實體間的關系可能都在動態更新,如何在詞向量中有效嵌入時序信息仍有待研究。此外,當句子中包含事件信息時,如事件之間存在因果關系,事件的發展會影響實體和實體間的關系,模型需要同時考慮不同的事件信息以提高聯合抽取的準確性。因此,在實體關系聯合抽取模型中如何有效融入時序、事件等多樣信息是非常有意義的研究課題。

(3)面向中文的實體關系聯合抽取

目前面向中文的實體關系聯合抽取的研究仍然落后于英文,主要有兩個原因:①數據集的缺乏。有監督的中文數據集相對較少,目前存在的中文數據集大多基于特定領域,如金融、醫藥等,且數據集的規模通常較小。開放領域的有監督中文數據集則更為稀少,缺少公認的評測基準和指標。②中文的復雜多義性。首先,中文沒有明確的單元邊界,不像英文能夠使用空格符對詞進行分割,中文也沒有明顯的詞性變換等特征,容易造成邊界歧義。其次,中文中一詞多義現象普遍,同一詞在不同語境下所表達的意思不一致,且一種語義存在多種不同的表達,句式靈活多變。另外,隨著互聯網的快速發展,詞語不斷具有新的含義,進一步增強了聯合抽取的難度。在設計面向中文的聯合抽取模型時需要著重考慮中文的特殊性,因此,面向中文的實體關系聯合抽取是一個非常重要的研究方向。

(4)提升實體關系聯合抽取的可解釋性

當前主流的實體關系聯合抽取模型主要基于神經網絡,在特征抽取上更優于傳統的特征工程方法,減少了人工抽取特征的工作量,但基于神經網絡的方法面臨著一個棘手的問題——可解釋性差。聯合抽取模型的性能通常由實驗進行驗證,但是如果無法理解學習到的特征表示具有何種可解釋的含義時,則無法深刻理解模型本身的應用限制。尤其目前模型趨向于復雜化,如何選擇網絡層數、模型參數大小、模型架構、優化算法以及激活函數等,通常是基于具體實驗的效果,并未理解其真實含義,對于聯合抽取結果的可解釋性不強。如何提升實體關系聯合抽取模型的可解釋性仍然需要進一步研究。

7 總結

實體關系聯合抽取能夠從文本中自動識別實體、實體類型以及關系類型,是信息抽取中的核心任務,積極推動了知識圖譜構建、智能問答和語義搜索等領域的發展,具有廣闊的應用前景。本文對有監督實體關系聯合抽取方法進行綜述,介紹了四種基于特征工程的聯合抽取方法;對于基于神經網絡的聯合抽取模型,描述了三種基于共享參數的方法和兩種基于聯合解碼的方法;以圖表的形式對比了不同模型的優缺點,并對聯合抽取常用的七個數據集進行了介紹;在不同數據集上比較了各種方法間的性能差異并進行分析;最后展望了實體關系聯合抽取的未來研究方向。

猜你喜歡
實體模型信息
適用于BDS-3 PPP的隨機模型
自制空間站模型
前海自貿區:金融服務實體
實體書店步入復興期?
模型小覽(二)
訂閱信息
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
離散型隨機變量分布列的兩法則和三模型
展會信息
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合