?

實體關系抽取綜述

2020-06-18 05:44王傳棟
計算機工程與應用 2020年12期
關鍵詞:實體卷積遠程

王傳棟,徐 嬌,張 永

南京郵電大學 計算機學院,南京210023

1 引言

隨著大數據的迅猛發展,海量信息常以半結構化或者非結構化的形式呈現給用戶,如何通過文本深層分析模型向用戶提供高質量、精準而有價值的信息成為學者們研究的熱點問題。在這種背景下,信息抽取的研究得到了快速發展,實體關系抽取作為其重要子任務之一,逐漸引起廣大學者的關注。

關系抽取旨在已完成實體識別的基礎上,檢索實體間所存在的關系,即在已標注出實體及實體類型的句子上確定實體間的關系類別。目前主流的實體關系抽取方法可細分為基于有監督的方式、基于半監督的方式、基于無監督的方式和面向開放域的關系抽取。隨著近些年深度學習的不斷發展和完善,學者們開始嘗試將一些基于深度學習的神經網絡引入到關系抽取任務中[1],成為新的研究熱點。

作為信息抽取的重要任務之一,關系抽取能夠對更小粒度樣本數據中的信息進行語義關系分析,通過對海量信息進行關系抽取,可以將無結構文本轉化為格式統一的關系數據,為知識圖譜、推薦系統、信息檢索等任務提供支持。同時,關系抽取的研究對篇章理解、自動摘要生成等研究領域也有深刻意義,具有廣闊的應用場景。

2 關系抽取的發展

1998年美國國防高級研究計劃局召開第七屆消息理解會議(Message Understanding Conference,MUC),并首次提出模板抽取任務。MUC-7中關系抽取任務首次單獨作為評測任務被提出,評測語料內容主要來自于紐約時報中涉及飛機失事、航天發射事件的相關新聞[2],其中包含三類實體關系:Location_of、Employee_of和Product_of,并且設計了相應的評價體系。

1999年美國國家標準技術研究院召開自動內容抽取會議(Automatic Content Extraction,ACE),旨在研究新聞語料中的信息抽取任務。關系抽取任務屬于ACE會議中定義的關系檢測與識別(Relation Detection and Recognition,RDR)[3],繼MUC和ACE評測會議后,SemEval(Semantic Evaluation)也成為信息抽取領域的重要會議,其間補增評測任務中的實體關系類型,進一步促進了實體關系抽取問題的研究。

隨著大數據時代的來臨,異構數據呈指數級的增加,而上述測評會議所發布的依靠人工標注方式得到的語料集已經無法滿足新的需求。人工標注雖可以獲得高質量數據,但成本較高且語料的覆蓋面窄,對于醫療等某些特定領域,需要更高昂的標注成本,導致模型可拓展性較差。一方面為了獲得大規模、多領域的語料支持,許多學者開始關注面向開放域的信息抽取任務,另一方面隨著涵蓋更多領域信息的Freebases、維基百科和YAGO等知識庫的建立和壯大,ACL 2009會議上Mintz首次提出將Distant Supervision應用到關系抽取任務中,并取得了一定效果[4]。傳統機器學習方法存在特征提取誤差傳播問題,極大影響關系抽取模型的性能。隨著深度學習的崛起,學者們逐漸將深度學習引入關系抽取任務,大量基于CNN、RNN、LSTM、GRU、GCN等神經網絡結構的關系抽取方法被提出。

3 關系抽取的研究現狀

實體關系抽取是構建知識庫的重要步驟,也是許多NLP下游任務的基礎,根據對人工標注數據的依賴程度,主流的實體關系抽取方法主要分為三種:有監督學習方法、半監督學習方法和無監督學習方法[5]。近年來,隨著深度學習在聯合學習、遠程監督等方面的應用,使關系抽取任務相比此前基于傳統機器學習的方法取得了更好的效果。

3.1 有監督的關系抽取

基于監督學習方法的實體關系抽取任務,通過在人工標注的數據上訓練模型,然后將其應用在特定領域,具有較高準確率,主要包括基于規則的方法、基于特征向量的方法和基于核函數的方法[6]。

基于規則的方法主要運用語言學的相關知識,對語料進行分析并歸納出關系表達式。Aone等[7]通過人工制定的抽取規則,來對文本數據進行模式匹配,篩選出符合相應規則的關系樣例。Miller等人[8]通過使用與實體相關的語義信息來擴展語法樹并聯合表示句法和語義,生成規則進行實體關系抽取。Fundel等人[9]使用斯坦福開發的句法分析器(Stanford Parser)構造句子的依存關系樹(Dependency Tree),通過對依存關系樹上兩個實體間的路徑進行分析來制定規則。然而制定關系規則時需要相關領域知識的支持,并且規則不具有通用性,無法有效進行跨領域遷移。

基于特征向量的方法首先從句子上下文中提取詞性、實體位置等有用信息來構造特征向量,結合機器學習方法在特征向量上訓練關系抽取模型。Kambhatla等人[10]使用實體類型、實體詞、句法分析樹、依存關系等多種特征構造特征向量作為模型輸入,并在特征向量上首次采用最大熵分類模型對實體關系抽取問題進行建模,實驗證明:結合各層次的語言特征對關系抽取任務具有豐富的價值。Zhou等人[11]在Kambhatla模型的基礎上加入了WordNet、基本詞組塊和Name List信息來增強語義信息,采用SVM分類器在實體關系抽取上的F-measure達到55.5%。Jiang等人[12]系統分析和比較了不同特征對關系抽取結果的影響,結果表明選取較基礎的特征就能達到很好的效果,相反的,若所選取特征不相互獨立時,會一定程度導致性能的下降。Bui等人[13]、楊志豪[14]以及Miwa[15]使用詞袋特征、詞性特征以及依存關系特征等作為模型輸入,并在生物醫學領域的關系抽取上取得了一定成績。

盡管基于特征向量的方法在關系抽取領域取得了很好的效果,但存在一定局限性,首先該方法很大程度上依賴大量特征工程的工作;其次當前使用的特征已基本覆蓋大多數語言現象,性能上難以實現較大的提升?;谔卣飨蛄糠椒ㄉ鲜龅木窒扌?,更多的研究者嘗試將核函數應用到實體關系抽取領域中,核方法不需要人為構造顯性特征向量,而使用核函數的映射對多種信息進行融合來實現關系抽取。

采用基于核方法的關系抽取,對高維特征空間的樣例只需計算其內積而無需得到具體的函數值,即使用隱性特征映射代替顯性的特征映射,為基于特征向量的方法開拓了新的思路[16]。Zelenko等人[17]在2013年首次將核方法應用到關系抽取任務上,設計并提出了核函數及其計算方法,結合兩個樣本的淺層句法解析樹來分析兩者間的相似性,結合SVM分類器在200篇新聞語料的數據上得到了不錯的結果[18]。Culotta等人[19]改進Zlenko的方法,提出基于語法規則的依存樹核進行關系抽取,通過使用詞性、實體類型、WordNet上位詞等特征來擴充樹上的節點,提供了更豐富的句子表示形式,并在更大、包含更多關系類型的標注語料庫上進行訓練。Bunescu等人[20]提出一種定義非常嚴格的最短路徑依賴核,實現了比單純依存樹核更高的精度,但也因此導致召回率下降。Giuliano等人[21]使用詞袋(Bag-of-Words)代替稀疏子序列作為全局性信息結合詞屬性等相關特征作為局部信息,使用核函數的線性組合來整合兩部分信息。實驗表明:該方法在生物醫學數據中提取實體間關系時,僅使用淺層語言特征就達到了較好的性能。

使用核函數方法可以學習文本的長距離特征而不需要構造特征向量,在關系抽取任務上的性能也超過了基于特征向量的方法,通過使用核方法復合不同核函數來表達高維特征空間時,會相應產生訓練速度較慢的負面影響,無法很好適用于處理大規模語料下的關系抽取[22]。

3.2 半監督的關系抽取

半監督學習只需通過對少量的種子標記樣本和大量無標記的樣本進行迭代訓練就可以得到分類模型[23],常用算法主要有Bootstrapping方法[24]、協同訓練方法[25]和標注傳播方法[26]。

采用Bootstrapping技術的三個代表性半監督關系抽取系統即:DIPRE[27](Dual Iterative Pattern Relation Expansion),Snowball[28]和Zhang’s method[29]。其中DIPRE系統[27]是最早被提出的基于Bootstrapping的半監督實體關系抽取方法,該方法在迭代初期使用少量書籍的(author,title)實體對作為種子,通過不斷迭代能夠自動從萬維網獲取新的書籍關系實例。Agichtein[28]基于Bootstrapping采用和DIPRE相同的模式匹配方法從非結構化文本中抽?。╫rganization,location)關系。Zhang等[29]在結合SVM的Bootstrapping模型上,提出基于隨機特征投影的BootProject算法,實驗表明該方法可以顯著降低對標記訓練數據的依賴。Chen等人[26]通過標注傳播算法計算無標記樣本中關系樣例的最近鄰來實現關系抽取,在ACE 2003語料上的實驗結果表明,在僅有少量帶標記的樣本可使用時,基于標注傳播(LP)算法的關系抽取模型性能明顯優于SVM和Bootstrapping。張佳宏等人[30]在Zhou[31]的基礎上通過引入無標注樣本置信度衡量機制,在訓練迭代次數得到顯著減少的同時還取得了較高的F值。

半監督實體關系抽取一定程度上既能降低對標注語料的依賴,又可以得到較高的精度,所以能更好地適應于大規模訓練語料的任務。目前基于半監督學習方法的實體關系抽取任務中應用最廣泛的就是Bootstrapping算法,但該方法存在語義漂移等問題,還易受到初始關系種子質量的影響[32]。

3.3 無監督的關系抽取

由于有監督和半監督實體關系抽取均依賴帶標記的語料,雖然半監督方法僅使用少量的標記數據作為種子,但如何選擇或選擇多少數量種子的問題仍未得到有效解決。針對這些問題,一些研究者基于聚類的思想,通過學習對實體上下文進行抽取來刻畫實體間的語義關系,實現無監督關系抽取。

Hasegawa等人[33]在2004年ACL會議上首次提出無監督學習的命名實體關系抽取方法,為無監督實體關系抽取研究奠定了基礎,但該方法一方面很難預先定義相似性的閾值,另一方面簡單地按頻率選擇關系特征詞時并沒有考慮噪聲特征。Zhang等人[34]在進行聚類時,應用淺層句法樹來表達實體間所存在的關系,通過衡量句法樹的相似性來對實體間的相似性進行分析,充分考慮了低頻實體間可能存在的語義關系。Chen等人[35]使用DCM(Discriminative Category Matching)選取具有判別性的特征關系詞,并通過提出的聚類質量評估公式得到最優聚類數目和最優特征子集,與Hasegawa等人[33]的方法相比,在ACE語料庫上的性能得到大幅度提高。秦兵等人[36]提出一種基于無監督學習方法的中文實體關系抽取模型,在得到候選關系三元組和關系指示詞后、結合句式規則對其進行篩選,實驗在大規模無標記中文網絡文本數據上的微平均準確率高于80%。

無監督的實體關系抽取方法不需要預定義任何關系類型,也不依賴標注數據,可以適應無規則內容文本,具有很好的領域移植性。但聚類出來的關系類別邊界不夠清晰、模型的整體準確率較低,并且低頻關系實例使得模型的召回率較低[18]。

3.4 開放域的關系抽取

開放域實體關系抽取是目前研究的熱點,僅Freebase中就包含多達4 000萬實體,上萬種屬性關系,這樣數量級的關系抽取單純依靠人工標注數據集是很難實現的,半監督和遠程監督的學習方法一定程度上可以實現開放域的關系抽取。因其在數據規模、數據源類型、領域上的可拓展性,開放式信息抽取在處理大規模Web頁面中異構信息時,具有其他關系抽取模型不可比擬的優勢。

開放域的關系抽取目前主要有兩種具有代表性的研究方向,一種是基于句法設計規則來對三元組進行過濾;另一種是基于知識監督的方法,這種思想后來慢慢發展出遠程監督方法。開放式信息抽取的概念最早由Banko等人[37]在2007年IJCAL會議上提出,同時提出第一個領域無關的OIE系統TextRunner,并可擴展到大規模Web語料庫。Banko和Etzioni[38]將抽取問題轉換為在條件隨機場模型上的序列標注任務,結合無監督同義詞消解算法來處理候選關系和對象中的同義詞。Zhu構建的Statsnowball系統[39],可以看作是Snowball系統的開放域信息抽取版本,使用馬爾科夫邏輯網絡來抽取實體間的關系。2010年Wu等人[40]基于維基百科的信息構建WOE(Wikipedia-based Open Extractor)系統,實現了比TextRunner更高的召回率和準確率。Fader[41]定義了兩個由動詞表達的二元關系的詞法和語法約束,實驗表明可以通過增加這些約束來改善Open IE系統的信息不連貫和信息不足的問題。

3.5 基于深度學習的關系抽取

基于傳統機器學習的關系抽取方法在特征提取過程中存在誤差傳播問題,很大程度上限制了模型性能的提升。隨著近些年深度學習的崛起,因其能夠自動學習更高階語義特征并具有較高的精確度,基于深度學習的方法成為了實體關系抽取領域新的研究熱點[42]。

根據語料集標注方式的差異性,目前國內外基于深度學習的實體關系抽取方法可被分為遠程監督和有監督學習兩類。有監督學習在訓練過程中使用人工標注的數據集,而遠程監督的學習方法通過對齊遠程知識庫自動對語料進行標注來獲取帶標記語料數據。

3.5.1 基于深度學習的有監督關系抽取

基于深度學習的有監督實體關系抽取根據實體識別和關系檢測兩個子任務完成順序的不同,可細分為流水線方法和聯合抽取方法。其中流水線學習方法是在實體已被標注的數據基礎上進行實體間關系的抽取,聯合學習方法是同時進行實體識別和實體關系抽取任務[42]。表1中整理了深度學習框架下有監督關系抽取經典方法,其中的模型主要是基于現有CNN、RNN、LSTM改進輸入特征或網絡結構,比如添加不同特征、結合多種Attention機制和引入依存樹挖掘更深層次語義信息來提升模型的性能。隨著圖卷積神經網絡的興起,因其在處理異構數據所具備的天然優勢,許多學者嘗試引入GCN來學習依存樹中蘊含的豐富信息?;谔卣鹘M合的關系抽取方法均賴于其他特征工具包,另外很多模型將關系抽取建模為單標記問題,無法解決樣本中關系重疊問題。下面對相關模型進行深入研究和分析。

(1)基于RNN模型的關系抽取方法

遞歸神經網絡(Recursive Neural Network,RNN)因為其既有內部反饋連接又有前饋連接,比前饋網絡更適合處理序列化輸入,基于RNN的實體關系抽取方法最早由Socher等人[43]提出。模型中每個單詞均由向量和矩陣組成,分別用來學習表示單詞本身語義和對其他單詞的修飾作用,可以自動學習到較長短語的深層語義,但模型需要學習的參數過多。Hashimoto等人[44]提出一種基于解析樹的RNN模型,通過對重要短語進行顯式加權,結合短語類別、詞性標注等特征實現性能提升。雖然RNN進行關系抽取已經表現出不錯的性能,但原始的RNN模型因其層數較多而更易出現梯度消失或梯度爆炸問題,無法有效解決文本數據中的長依賴問題。

表1 有監督實體關系抽取的經典模型

(2)基于CNN模型的關系抽取方法

2014年Zeng等人[45]首次提出使用卷積神經網絡(Convolutional Neural Networks,CNN)進行關系抽取,不需要復雜的預處理僅將所有單詞向量作為初始輸入,結合卷積深度神經網絡(CDNN)提取的詞匯和句子特征進行關系分類。2015年Xu等人[46]在Zeng工作的基礎上,在依存關系樹的最短依賴路徑上通過卷積神經網絡來學習更魯棒的關系特征,同時提出一種簡單負采樣策略來改善實體距離較遠所產生的問題。但模型性能很大程度受依存樹解析結果的影響,并且僅在最短依賴路徑上進行學習不能充分利用依存樹所蘊含的豐富信息。Wang等人[47]基于卷積神經網絡,使用兩層注意力機制提取句子特征并設計一個pair-wise合頁損失函數,實驗證明其性能優于標準損失函數。引入多級注意力機制捕獲更高層語義信息的同時,也面臨著結構復雜、參數較多、收斂困難等問題?;趩卧~的重要性與關系類型的高度相關性,Zhu等人[48]在2017年提出TAC-CNN模型,結合詞級別的注意力機制通過計算每個單詞與關系類別的相關度計算相應權重。不引入二級注意力機制的情況下,在SemEval-2010 Task 8數據集上F1即達到87.3%。

(3)基于LSTM模型的關系抽取方法

Sundermeyer等人[56]通過構建專門的記憶單元存儲重要歷史信息,以此獲得遠距離單詞之間的關系,提出長短時記憶網絡模型(Long Short-Term Memory network,LSTM)不但可以有效解決實體之間的長依賴問題,還可以結合聚類技術大幅度減少訓練和測試用時。Xu等人[49]結合實體對間的最短依存路徑和長短時記憶網絡模型,提出了用于關系分類的新型神經網絡模型SDP-LSTM,它可以結合最短依存路徑上的單詞、POS標記、語法關系、WordNet上位詞等信息迭代的學習與關系分類相關的特征。但SDP-LSTM在引入多種特征的同時,也使得模型更加依賴特征抽取工具,多特征的提取也加劇錯誤傳播問題。Zhang等人[50]基于每個時刻的輸入不僅依賴文本中某個單詞前面的單詞,還依賴于后面單詞的思想,提出結合前向和后向LSTM捕捉雙向的語義依賴獲取更多語序信息[57]。在SemEval-2010語料庫上的實驗表明,模型僅使用單詞嵌入作為輸入特征就可以實現遠優于CNN和CR-CNN方法的F1值。

(4)基于GCN模型的關系抽取方法

句法依存樹包含句子中各詞語間的依存關系,將其引入關系抽取任務可以挖掘更深層的語義信息。圖卷積神經網絡的提出[58]實現了非歐式數據上的卷積操作,也為處理圖結構數據提供了新思路。

Zhang等人[51]提出一種基于修剪依存樹的圖卷積神經網絡并用于實體關系抽取問題,僅保留兩個實體的最小公共祖先子樹上K距離內的節點,并將修剪后的句法依存樹引入圖卷積網絡進行實體關系抽取任務。實驗表明,這種修剪方式過濾依存樹中無關數據的同時,保留了對關系抽取任務有用的信息。但基于規則的硬性修剪策略卻很容易產生過剪枝或欠剪枝,為了解決這個問題,Guo等人[52]提出了注意力引導的圖卷積網絡AGGCN,可以理解為一種對句法依存樹的軟修剪策略,模型將完整依存樹作為輸入并結合注意力機制,在迭代訓練中自動學習保留對關系抽取任務有用的子結構。AGGCN模型由M個相同模塊組成,每個塊包含注意力引導層、密集連接層和線性組合層,其中注意力引導層使用多頭注意力機制構造N個注意力引導鄰接矩陣,將輸入依存樹轉換為N個不同的全連接邊加權圖,即每個注意力引導鄰接矩陣對應一個全連接圖。

Sun等人[53]認為AGGCN模型使用的全連接圖破壞了依存樹原始結構,基于這個問題提出了可學習的句法傳輸注意力圖卷積網絡(LST-AGCN),通過引入連接節點的依存關系類型將樹轉換為加權圖即句法傳輸圖。通過詞嵌入、依存關系嵌入和節點嵌入來建??蓪W習的傳輸矩陣A,并結合注意力機制學習合適權重來聚合所有圖層輸出的特征向量,得到最終句子表示再進行關系抽取,其中涉及的注意力機制主要用于整合每層GCN的輸出。

表2將注意力機制按其結構分為單層自注意力、多層注意力和多頭注意力機制。無論是基于CNN、RNN還是GCN衍生出的關系抽取模型,均可以通過引入不同Attention或其組合來提高性能。注意力機制良好的軟性選擇能力也可以有效緩解遠程監督中的噪聲問題,許多研究將其引入遠程監督來過濾錯誤標記的樣本。

表2 注意力機制相關方法統計

流水線方法雖然已取得不錯的成績,但仍存在局限性:順序進行實體識別和關系抽取時,忽略了兩個子任務間的內在聯系;實體識別中產生的錯誤會降低關系抽取模型的性能即存在錯誤傳播的問題。相比之下,聯合學習方法可以充分利用實體和關系間的交互信息,有效地緩解了上述問題。

Miwa等人[54]提出一種端對端模型來聯合表示實體和關系,其中實體識別和關系抽取兩個子任務共享LSTM編碼層序列參數的思想,雖然考慮了兩個子任務間的交互、緩解了錯誤傳播問題,但模型學習過程仍然類似流水線方法,不屬于真正意義上的聯合抽取。Katiyar等[55]在深度BILSTM序列標注方法的基礎上引入注意力機制,使用多層雙向LSTM將實體識別子任務建模成序列標注任務,結合序列標注結果和共享編碼層表示進行實體關系抽取,模型可以拓展各種預定義的關系類型,是真正意義上第一個基于神經網絡的關系聯合抽取模型。Zheng等人[62]提出基于新標注策略的實體關系抽取方法,將聯合提取任務轉化成端到端的序列標注問題而無需分別識別實體和關系,解決了流水線方法中實體冗余問題。但無論是上述的參數共享還是序列標注的聯合抽取模型,均未有效解決重疊關系問題。

3.5.2 基于遠程監督的關系抽取

Mintz等人[4]在2009年ACL上提出將遠程監督應用到實體關系抽取任務上,基于“如果兩個實體在已知知識庫中存在某種關系,那么包含這兩個實體的句子也表示該關系”的假設,通過將數據自動對齊遠程知識庫中的信息來對開放域中海量數據進行自動標注來獲得標記樣本。遠程監督關系抽取較快得到大量標記樣本的同時,大幅降低人工標注的工作量,但由于所基于的假設條件過于強烈,使得遠程監督數據集中包含大量的錯誤標記樣本。

如表3所示,針對遠程監督中錯誤標簽問題學者們提出了很可行的解決方法,比如引入多示例學習、結合Attention機制、對噪聲進行擬合、建模為強化學習問題,下面對相關模型進行深入分析。

Zeng等人[63]通過多示例學習的方法來緩解遠程監督中的噪音問題,在2014年Zeng等人[45]的CNN基礎上將句子根據實體位置切分為3段,分別進行池化來得到更多與實體相關的上下文信息。多示例學習是將包含同一實體對的所有樣本看成一個包,模型只選擇包中使得關系概率最大的一個示例作為實體對的表示,該方法一定程度上降低噪音數據的影響,但也因此丟失了大量有用的信息[69],另外也無法處理關系重疊問題。Jiang等人[59]提出多示例多標記的卷積神經網絡模型來松弛at-least-once假設,將關系抽取任務建模為多標記問題,解決了關系重疊問題?;诙嗍纠龑W習的模型雖然可以有效緩解遠程監督中的噪聲問題,但僅選取bag內最高置信度的樣例可能會丟失大量有用信息。

Lin等人[60]通過引入Attention機制來自動學習如何篩選包內所有樣本的信息,有效避免多示例模型中造成的信息損失。實驗表明該模型能夠學到合理權重來緩解遠程監督中噪音問題的同時,還充分挖掘有用信息。Ji等人[64]從Freebase和Wikipedia頁面中提取實體的描述作為額外信息來改善實體表示模塊的性能,其中句級注意力模塊與Lin等人[60]類似,自動為包內的樣本學得合理的權重。Feng等人[65]提出了一種基于強化學習框架的關系抽取模型,該模型由樣本選擇器和關系分類器兩部分組成,其中將樣本選擇建模為強化學習問題。整個過程在沒有明確的句子級標簽的情況下,僅使用來自關系分類器的弱監督信息就可以有效過濾遠程監督數據中的嘈雜句子。2018年ACL會議上,Qin等人[66]提出一種基于深度強化學習的遠程監督關系抽取模型,旨在使用深度強化學習框架不斷訓練得到一個正例、負例指示器,不但實現對負例的識別,還將其放至對應關系類別的負例集中。該模型不依賴于特定的關系分類器,是一種即插即用的技術,能被引入現有的任何一種遠程監督關系抽取模型。但這兩種結合強化學習的抽取模型均未解決重疊關系問題,而且屬于流水線型抽取方法,不能有效學習子任務間的交互。2019年AAAI會議上Takanobu等人[67]上提出基于分層強化學習的關系抽取方法,將任務分解為實體檢測和關系提取兩個子任務,分層方法的性質可以對兩個子任務間的交互進行有效建模,且擅長提取實體間的重疊關系。

Ren等人[70]提出基于遠程監督的聯合抽取模型COTYPE進行實體關系抽取,實驗表明該方法不僅能擴展到不同領域,還有效減弱了錯誤的累積傳播。Luo等人[68]認為可以根據數據中潛在的信息學習噪音的模式,在訓練過程中通過動態轉移矩陣對噪音進行建模來達到擬合真實分布的目的。在沒有直接指導的情況下逐步學習對基礎噪聲模式進行建模,并靈活利用數據質量的先驗知識來提高轉移矩陣的有效性。2019年ACL會議上,Fu等人[71]提出基于圖卷積網絡的聯合關系抽取模型GraphRel,對實體重疊問題提出了解決方案。模型通過堆疊Bi-LSTM句子編碼器和GCN依存樹編碼器來自動提取每個單詞的隱含特征。第一階段預測后計算實體損失和關系損失。為了考慮三元組之間的相互作用,在第二階段添加了關系加權GCN來解決實體重疊問題?;诘诙A段提取的特征進行分類后可得到較準確的結果,訓練時損失函數為兩個階段實體和關系預測損失的線性加和。GraphRel基于關系加權的圖卷積網絡,考慮了命名實體與關系之間的相互作用。在NYT和WebNLG數據集上分別評估該模型,實驗表明,此方法比以前的工作F1評測值分別提高了3.2%和5.8%。

表3 遠程監督中噪聲問題的常見解決方法

4 關系抽取的數據集及評價指標

4.1 數據集

有監督學習關系抽取中常用的數據集主要包括MUC關系抽取數據集、ACE04、ACE05、TACRED、SemEval-2010 Task 8和FewRel數據集,其中FewRel在有監督學習和小樣本學習的關系抽取任務中均能應用。NYT-FB是遠程監督關系抽取任務應用最廣泛的數據集,語料來自于紐約時報,通過自動鏈接到Freebase知識庫中的實體并經關系對齊等操作來標注實體間關系類別。

表4中模型SPTree和Miwa等人提出的關系抽取方法,在ACE05數據集上的性能均優于ACE04,F1評測值分別提高了7.2%和7.9%。在SemEval-2010 Task 8數據集上,模型SDP-LSTM的F1評測值僅比C-AGGCN高2%,但兩者在數據集TACRED上的差值卻達到了10.3%,分析可能因為TACRED數據集包含更多關系類別且“no_relation”類數據所占比重過大。而當基于有監督學習的關系抽取模型CDNN使用遠程監督數據集進行訓練時,由于遠程監督中大量的噪聲數據的影響,CDNN方法的性能急劇下降。表4中數據說明模型的性能不僅受結構和初始化的影響,還取決于所使用的數據集,并且使用不同數據集進行訓練得到的關系分類器性能往往有較大差距。

4.2 評價指標

關系抽取主要采用準確率(Precision)、召回率(Recall)和F值(F-Measure)3項作為基本評價指標,其中準確率和召回率是一對矛盾的度量,通常使用F值綜合考慮兩者來對系統性能進行總體評價。計算公式分別如下所示:

表4 不同數據集及模型的性能

Fβ中β是調節準確率和召回率比重的參數。當β=1時,認為在評價模型性能時兩者同等重要。由上式得到F1表示為:

遠程監督興起后,模型所需要處理的數據規模量級增加,在考察系統性能時,也將運行時間和內存占用作為評價指標的一部分進行考量。

5 關系抽取的挑戰和趨勢

實體關系抽取基于海量信息可以將無結構文本轉化為格式統一的關系數據,為知識圖譜、推薦系統、信息檢索等任務提供基礎的數據支持。同時,關系抽取研究對語義分析、篇章理解、自動問答等領域也具有重要意義。

目前,基于深度學習的實體關系抽取雖然已經取得了極大的成功,但在領域自適應性和召回率方面仍有很大的提升空間。其次,實體關系抽取任務中仍存在以下亟待解決的問題:很多主流的關系抽取方法均未有效解決關系類型的OOV(Out Of Vocabulary)問題,僅簡單地將不屬于預定義實體關系類型的數據歸入Other類,而Other類中的實體對只能通過人工處理才能確定關系類型定義;為了緩解遠程監督的錯誤標簽問題,學者們分別結合多示例學習[59,63]、Attention機制[60,64]、強化學習框架[65-67]、噪聲建模[68]等方法提出許多模型,但如何建立更有效的方法緩解遠程監督中錯誤標簽的影響仍是關系抽取中研究的重點問題。

5.1 未來研究方向

5.1.1 二元關系到多元關系抽取的擴展

目前大多數實體關系抽取的研究僅停留在二元關系的層面上,但實際中英文語料的多元實體關系卻占據高達40%的比重[73]。多元關系抽取能夠獲取到更多實體之間的關系,相較于二元實體關系抽取來說,多元關系抽取的研究具有更大挑戰性。如何將二元抽取技術拓展至三元甚至多元層面是今后實體關系發展的一個熱門研究方向。

5.1.2 基于遠程監督的關系抽取

遠程監督關系抽取技術通過外部知識庫作為監督源,自動對語料庫進行標注,能夠以較低成本獲取大量帶標記的樣本。但由于遠程監督所基于的假設過于肯定,難免含有大量的噪音數據,而如何使用有效的降噪方式來緩解遠程監督中的錯誤標注問題一直是關系抽取研究的重要課題。

5.1.3 段落和篇章級關系抽取技術

現有關系抽取工作主要聚焦于句子級關系抽取而現實生活中實體對經常分別位于不同句子,根據從維基百科采樣的人工標注數據的統計表明,至少40%的實體關系信息只能從多個句子中才能聯合獲取。研究段落級甚至篇章級的關系抽取要求模型具有更強大的邏輯推理、指代推理和常識推理能力,現有的跨句子N元關系抽取研究常通過引入指代消解任務的方法來提升模型的性能。未來融合改進指代消解和圖結構的方法也許是解決段落級和篇章級實體關系抽取任務的有效方案。

5.2 基于深度學習的關系抽取新思路

5.2.1 融合圖卷積網絡的實體關系抽取

自第一個圖卷積神經網絡被Bruna等人[58]提出以來,就受到了研究人員的大量關注,被廣泛應用于推薦系統、交通流量預測、生物醫學、計算機視覺等領域。圖卷積神經網絡在自然語言處理領域也有大量應用,涉及的常見圖結構主要包括知識圖譜、依存句法樹、詞共現圖、文章引用網等。Liu等人[74]和Nguyen等人[75]使用基于依存句法樹的圖卷積神經網絡來進行事件抽取任務。Marcheggiani等人[76]基于句法依存樹提出結合長短時記憶網絡的圖卷積模型,并成功應用于語法角色標注任務上。

圖卷積神經網絡也被引入關系抽取任務中,并表現出了較高的性能。Zhang等人[51]提出一種基于修剪依存樹的圖卷積神經網絡并用于實體關系抽取問題。2019年ACL會議上,Guo等人[52]基于硬修剪策略可能存在的欠剪枝和過剪枝問題,結合多頭注意力將全句法依存樹作為圖輸入,使用圖卷積神經網絡自動學習依存樹中對關系提取任務有用的子結構Sun等人[53]使用句法傳輸圖代替AGGC模型中的全連接圖,結合自注意力機制提出一種新的圖卷積關系抽取模型LST-AGCN。但以上模型一方面無法建模兩個子任務間的交互,另一方面也不能處理重疊關系。Fu等人[71]提出基于圖卷積網絡的聯合關系抽取模型GraphRel則有效解決上述問題。

大量的研究已表明,在引入圖卷積網絡模型后,各項任務上的性能都出現了一定的提升。相對于傳統自然語言處理中的序列化建模,使用圖卷積網絡能夠挖掘更多非線性的復雜語義特征。對于關系抽取問題,在原LSTM的網絡結構上引入基于句法依賴樹的圖卷積網絡,模型不但能學習文本的語序性信息,還通過圖卷積充分學習依賴樹的空間結構信息,更好地挖掘潛在語義關系。

5.2.2 基于強化學習框架的實體關系抽取

強化學習是實體關系抽取問題中新的研究思路,2018年AAAI會議上Feng等人[65]將強化學習與深度學習相結合提出了一種基于噪音數據的句子級實體關系抽取模型,僅使用來自關系分類器的弱監督信息就可以有效過濾遠程監督數據中的嘈雜句子。Qin等人[66]提出一種基于深度強化學習的遠程監督關系抽取方法,不依賴于特定的關系分類器,是一種即插即用的技術,能被引入現有的任何一種遠程監督關系抽取模型。Takanobu等人[67]提出基于分層強化學習的關系抽取模型,將任務分解為實體檢測和關系提取兩個子任務,使用分層方法有效建模子任務間的交互,而且擅長提取實體間的重疊關系。無論是對于任務中遠程監督的噪音問題還是重疊關系問題,強化學習的技術都提供了一種切實可行的解決辦法。

5.2.3 基于小樣本學習的實體關系抽取

小樣本學習方法(few-shot learning)作為公認未來最具潛力的研究方向之一,過去的研究主要集中在計算機視覺領域,在自然語言處理領域的探索還較少。2018年Han等人[77]首次將小樣本學習引入到關系抽取任務中,提出小樣本關系抽取數據集FewRel,希望推動自然語言處理特別是實體關系抽取任務中的小樣本學習研究。2019年Gao等人[61]提出一種基于小樣本學習的關系抽取模型,該模型結合特征和實例兩級注意力機制,實現降低噪聲數據影響的同時保留對關系分類結果有用的特征信息。Ye等人[72]在2019年ACL會議上提出用于一種解決小樣本關系抽取問題的新方法,該模型結合多級匹配和整合結構對訓練樣本間的隱含關聯進行學習,盡可能充分挖掘少量樣本中對關系分類有用的潛在信息。Soares等人[78]則采用預訓練模型BERT來處理關系抽取任務中的小樣本學習問題。因為基于海量數據訓練的BERT包含豐富的語義特征,引入模型后能夠有效緩解小樣本學習中特征匱乏問題,實驗表明其在FewRel數據集上的性能已經超過人工進行關系分類的水平。Gao等人[79]進一步研究發現要將小樣本學習模型用于生產環境中,則模型不僅要具備領域遷移性,還需要能判斷出數據是不是屬于“非以上關系”的關系類型。為了解決以上兩個問題,Gao等人采集了大量醫療領域的數據并進行標注,并在FewRel數據集原N-way K-shot的基礎上添加了“以上都不是”選項,提出了Few-Rel2.0數據集。

總之,研究小樣本學習的關系抽取方法,能使模型具備“舉一反三”的高效學習能力,無論是對現有的小樣本學習方法進行改進,還是提出新的小樣本學習模型進行關系抽取,都將大大降低模型對標注樣本數量上的依賴,對推動關系抽取技術的落地有著重大意義。

6 結束語

現階段,基于監督的方式在關系抽取任務上具有較高的準確率和召回率,但模型卻嚴重依賴準確的標注數據。當模型遷移到新的領域時,需要構建新的標注語料庫并重新對模型進行訓練。半監督方式的關系抽取降低了對標注數據的依賴,可以適應標注數據匱乏的情況,但卻對初始種子的質量有很高的要求,并且經常存在語義漂移問題。無監督的關系抽取因其無需依賴標注數據,所以不但在領域可移植性上具有先天的優勢,在處理開放域海量數據時也表現出良好的性能,但其聚類閾值的確定一直是較大的挑戰。

關系抽取技術發展至今,在研究內容上逐漸由限定領域轉向開放領域,關系類型的定義方式表現為由人工預先定義演變為關系類型自發現;在研究方法上,深度學習的方法在關系抽取任務的性能上大幅超越傳統機器學習,基于深度學習框架的關系抽取技術越來越受到學者們的關注,在此基礎上結合新興的圖卷積神經網絡結構、注意力機制、強化學習和小樣本學習的思想等均為關系抽取問題提供了新的解決思路。

猜你喜歡
實體卷積遠程
讓人膽寒的“遠程殺手”:彈道導彈
遠程工作狂綜合征
基于3D-Winograd的快速卷積算法設計及FPGA實現
卷積神經網絡的分析與設計
前海自貿區:金融服務實體
從濾波器理解卷積
遠程詐騙
基于傅里葉域卷積表示的目標跟蹤算法
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合