?

融合BSRU和膠囊網絡的文檔級實體關系抽取模型

2022-05-10 08:45楊超男彭敦陸
小型微型計算機系統 2022年5期
關鍵詞:文檔膠囊向量

楊超男,彭敦陸

(上海理工大學 光電信息與計算機工程學院,上海 200093)

Email:pengdl@usst.edu.cn

1 引 言

作為自動抽取信息的中心任務,關系抽取旨在確定一對實體提及之間的關系,它被證明對自然語言理解和其他下游任務很有用.隨著技術的不斷進步以及對關系抽取研究的不斷深入,對文檔中關系抽取的需求迅速提高.文檔中蘊含的豐富知識不僅有助于快速精準的了解文檔的關鍵信息,而且對現階段社交網絡的構建提供了強有力的幫助,因此,面向文檔的關系抽取成為了自然語言處理等眾多領域的基礎研究.

迄今,國內外眾多科研學者們提出了關于實體關系抽取的一系列方法.但是,將現有的神經網絡模型擴展到文檔級實體關系抽取任務中,至少存在以下不足:

首先,區別于傳統的句子級別的實體關系抽取,由于文檔的邏輯結構更復雜,內部語義也更加豐富,很顯然文檔級的關系抽取難度有了很大的提升.其次,大多數的關系抽取模型都是對整個句子進行建模,不能差異化的構建跨多個句子具有復雜邏輯結構的關系特征,從而導致模型的效率低下.綜上所述,結合現階段實體關系抽取任務中存在的一些問題,可以發現文檔級實體關系抽取方法的有效構建對于提升自然語言理解技術有很大的價值.

本文的貢獻如下:1)將BSRU模型運用于文檔級實體關系抽??;2)提出了結合多條最短依賴路徑對關系特征建模的方法;3)最后,在膠囊網絡中引入了注意力機制,提高模型預測的精準性.

2 相關研究

近年來,神經網絡模型在實體關系抽取的相關任務中發揮著越來越重要的作用,與傳統的方法相比,神經網絡抽取模型在學習的特征表示方面更加完整,效率上也更加高效便捷.常見的神經網絡關系抽取模型有循環神經網絡模型,如Socher等[1]人提出的遞歸矩陣向量模型,通過對句子中實體間的最短依賴路徑建模來進行句子內部的關系抽??;Geng等[2]人提出的基于雙向樹狀結構的長短時記憶的注意力模型,用于抽取依賴樹中的語義關系特征.Peng等[3]人和Song等[4]人提出了基于圖的長短時記憶網絡模型,用于關聯蛋白質藥物疾病的多個句子中的n元關系抽取,但是實體被限制在最多兩個跨度的句子中.

隨著膠囊網絡被用來改善CNN和RNN的表示限制,越來越多的人將它應用于自然語言處理任務中.Wang 等[5]人首次嘗試在循環神經網絡的基礎上使用膠囊進行情感分析,但是,它們沒有采用路由算法,因此極大地限制了膠囊的功能;Gong 等[6]人提出了兩種動態路由方法,他將RNN / CNN編碼層的輸出進行特征的融合,以此表示模型最終的編碼向量;Zhang 等[7]人提出了一個多標簽關系抽取的膠囊網絡模型,用于解決單個句子中實體在不同關系中的重疊特征.

Shahroudnejad等[8]人提出了一個并行的多路徑膠囊網絡模型PathCapsNet,它使用了3個子網絡來抽取輸入特征,并利用膠囊層來建立相關特征之間的關系.

然而,上述這些方法限制了捕獲長跨度句子中實體語義信息,并且它們不能從關系示例中提取一些新的有效特征.為了解決上述問題并提高模型的訓練效率,本文提出了一種將雙向簡單循環神經網絡[9]與融合注意力機制的膠囊網絡[10]相結合實體關系抽取模型.接下來的部分將詳細介紹本文提出的融合模型的具體實現過程.

3 方 法

模型的基本框架如圖1所示.對于給定兩個實體,在依存樹中唯一確定一條最短依賴路徑,而一篇文檔中由于每一個實體都存在若干個共指,因此能夠確定類似的最短依賴路徑m條.接著,將最短依賴路徑的所有詞映射為詞嵌入、依賴嵌入、共指嵌入及實體類型向量,拼接后輸入到BSRU 中,其中,BSRU模型負責深入學習文本中實體對關系的語義特征和上下文信息特征.已有文獻研究了對最短依賴路徑建模進行關系預測的合理性[11],本文基于此對最短依賴路徑進行關系建模,同時通過注意力機制給每條路徑上學習到的關系特征分配不同權重,優化蘊含在文檔中復雜邏輯結構的實體關系表示.隨后,將最短依賴路徑上的詞向量和新學習到的關系向量傳給CapsNet 模型,得到高級關系膠囊,最后將預測的概率與關系類別標簽對應,完成本文的文檔級別的關系抽取任務.

圖1 基于 BSRU 和 CapsNet 模型的框架圖(e1k,e2k分別是e1,e2的共指)

3.1 輸入向量表示

多項研究表明,依存句法分析可以優化關系抽取的性能[12,13].在文檔級關系抽取任務中,本文發現目標實體之間的最短依賴路徑為確定跨句子之間目標實體對的關系提供了證據.

本文首先利用stanford corenlp解析器[14]將文檔解析為依賴關系樹,將最短依賴關系路徑作為本文模型的輸入.具體如下:跨句子的實體關系可以通過對從端點實體e1k到“公共根”,再從“公共根”到端點實體e2k構成的最短依賴路徑建模.假設實體e1k到實體e2k的最短依賴路徑上的文本{wk1,wk2,…,},單詞嵌入xi由4個部分組成,分別為詞嵌入wdi、依賴嵌入dpi、共指嵌入cfi及實體類型嵌入tpi.

xi=[wdi;dpi;cfi;tpi]

(1)

其中,[;]代表向量的拼接.則此最短依賴路徑的文本就可以表示為 S =[x1,x2,…,xi,…,xl]T.這里,xi對應最短路徑中第i個詞的向量.

3.2 BSRU模塊

LSTM模型解決了文本中長距離語義依賴的問題,但是由于當前節點的計算必須依賴上一步計算,為了簡化模型的狀態計算過程,實現和卷積神經網絡相同的并行性,Lei等人提出了簡單循環單元SRU.區別于傳統的循環神經網絡,SRU通過在循環層增加Skip Connection1保證網絡模型的有效性,同時在傳統的dropout外,增加了Variational dropout2,提高網絡模型的訓練效率.鑒于此,為了更高效的學習文本的雙向語義關系,本文使用 BSRU模型來學習目標實體的上下文語義信息,SRU原理圖如圖2所示.

圖2 SRU原理圖

圖2中,SRU的內部主要包括3個門結構:遺忘門結構f、重置門結構r、輸出門結構h.SRU網絡模型的計算方式如下所示:

g(t)=Wxt

(2)

ft=σf(Wfxt+bf)

(3)

rt=σr(Wrxt+br)

(4)

ct=ft⊙ct-1+(1-ft)⊙g(t)

(5)

ht=rt⊙g(ct)+(1-rt)⊙xt

(6)

其中,xt代表t時刻的輸入,ct代表t時刻的細胞狀態,σ、g都代表激活函數,⊙表示向量對應位置元素的乘積.

此外,為了學習雙向的語義特征,這里將SRU正反兩個方向的存儲單元隱藏狀態向量hri連接起來,作為輸出向量hri∈R2B,其中B表示SRU隱藏向量的維數,即:

(7)

由上文可知,實體間的最短依賴路徑存在若干條,而每條路徑表示的關系特征的重要程度顯然是不一樣的.通過差異化每條最短依賴路徑對關系特征構建的重要程度,從而使得模型學習到多樣化的關系特征.

具體方式如下:在模型中,將多條路徑表示的包含多種信息特征的上下文向量矩陣輸入進Global Attention 中,將每條路徑表示的關系語義與最短路徑表示的關系語義進行相似度計算,然后經過加權求和計算出每條路徑對最終關系表示的貢獻度,即注意力值或權重.注意力值越高的路徑,則其對推斷出實體對之間關系就越重要,進而減少無關并列路徑對實體關系抽取干擾的影響.對應的權重αi,可以通過下式計算:

(8)

score(Dr,hri)=Uσ(W[Dr;hri])

(9)

公式中,W、U是權重矩陣,T表示轉置運算,m表示文檔中實體e1(及其提及)到實體e2(及其提及)存在的最短依賴路徑的條數,score代表得分函數,Dr表示m條最短依賴路徑中最短的一條路徑表示的關系嵌入,hri表示第i條最短依賴路徑上表示的關系特征,hr目標關系特征.

然后根據權重,求出加權之后的關系表示hr,即:

(10)

算法1.動態路由算法

輸入:低級膠囊u,迭代次數n,對最短依賴路徑建模的關系表示hr和隱藏層狀態ht

輸出:高級膠囊r

1.for所有的膠囊ui和膠囊rjdo

2. 初始化耦合系數

3. bij=0

4.endfor

5.for迭代次數ndo

6.wi=softmax(bi),?ui∈u

7.αi=σ(hTrhit),?ui∈u

8.rj=Squash(∑iwijαiWjui),?rj∈r

9.bij=bij+Wjuirj,?ui∈u且?rj∈r

10.endfor

3.3 CapsNet模塊

在本文的關系抽取任務中,使用膠囊網絡對BSRU抽取的底層的語義信息進行更深層次的學習,豐富特征語義的表達.倘若使用u∈Rdl表示低層膠囊,則每一個單詞由k個低層膠囊表示,即該單詞就有k個屬性.而高級膠囊由多個維度的低級膠囊組成,具體表示如公式(11)所示.

(11)

(12)

當多個預測結果一致時,更高級別的膠囊就會生效.高級膠囊r∈Rdh根據下面等式(13)計算.

(13)

其中,wij表示耦合系數,Wj∈Rdh×dl是權重矩陣.Squash函數代表激活函數,它的作用是在保證向量方向的同時將輸出向量的模長控制在0-1之間,公式(13)中的耦合系數wij計算方式如下(15):

(14)

為了量化最短依賴路徑上每個單詞對判斷實體對關系的影響,模型又將各個單詞隱藏狀態輸入進Global Attention 中,把單詞隱藏狀態的語義與BSRU模型輸出的最終的關系語義進行相似度計算,求出注意力值,即:

(15)

具體的關系抽取步驟如算法1所示.

這里根據算法1得到的高級膠囊rj計算第j個關系的損失函數,計算如公式(17):

Lj=Yjmax(0,(B+γ)-‖rj‖)2+λ(1-Yj)max(0,‖rj‖-(B-γ))2

(16)

其中,Yj代表是否是關系j,取值為0或1,γ是超參數,B是可學習變量,λ是損失權重,與Sabour等人提出的損失[13]一致.需要注意的是,實體對關系在文檔中的總損失是預測的所有關系損失之和.在預測關系過程中,如果預測的關系標簽概率大于閾值B時,將為其分配關系標簽.否則,將其預測為NA.

此外,膠囊網絡輸出的結果是一個向量,用來代表一個關系類,該關系預測的概率可以用向量的模長表示.最后,將概率最高的關系類別作為實體對最終預測的類別標簽,計算方式如公式(18)所示:

label=argmaxj∈R{‖rj‖}

(17)

這里,R表示關系標簽的集合.

4 實驗結果和分析

4.1 實驗數據

實驗使用清華大學構建的DOCRED(1)https://cloud.tsinghua.edu.cn/d/5d8628d7f0b6453a8d7c/數據集[15]評估模型的性能,該數據集中訓練集包含3,053個監督文檔和101,873個弱監督文檔,驗證集和測試集均包含1000個文檔.數據集中涵蓋96種帶有方向的關系,如時間、地 點、人物、事件、藝術作品、法律等.

4.2 實驗評價標準

4.2.1 參數設置

實驗中利用預訓練的Glove 100維單詞嵌入和Stanford CoreNLP工具在DOCRED中進行文檔語料庫的語義依賴分析.表1中列出了實驗中模型使用的參數.

表1 參數設置

4.2.2 評價標準

本文選擇F1-score和AUC,作為評價關系抽取模型性能的指標.其中F1-score是準確率(Precision)和召回率(Recall)的調和平均值,AUC表示的是坐標軸與ROC曲線構成的面積,其中ROC曲線的橫坐標為假正類率,縱坐標為真正類率.假設ROC的函數表達式為y=f(x),則各項指標計算如下:

(18)

(19)

(20)

(21)

4.3 實驗結果與分析

為了驗證提出模型在文檔級別實體關系抽取領域的有效性,本文設置了4個對比試驗,分別驗證BSRU模塊、多條最短依賴路徑、動態路由算法中增加注意力機制的影響,并對比了一些流行模型.

實驗1.BSRU對模型的影響.從表 2可以看出,使用BSRU代替傳統的BiLSTM,雖然F1-score和AUC指標在弱監督設置上有略微的下降,但是模型每一輪的訓練訓練速度有了明顯的提升,這歸功于BSRU網絡模型,它能夠將具有依賴關系的運算步驟進行串行處理,從而提升模型的效率.

表2 使用BSRU模型的對比實驗結果(%)

實驗2.結合多條最短依賴路徑對模型的影響.表3顯示了結合多條最短路徑建模對模型性能的影響,以監督設置為例,與僅考慮單條最短依賴路徑的SBSRU-ATTCapsNet模型相比,結合多條最短依賴路徑的關系表示的BSRU-ATTCapsNet模型,在F1-score和AUC的表現都有了競爭性的提高,這是由于多條最短依賴路徑上包含的實體關系信息更完整,更全面,而且又保留了文檔復雜的邏輯結構特征,從而幫助本文的模型得到更精致的預測效果.

表3 結合多條最短依賴路徑模型的對比實驗結果(%)

實驗3.動態路由算法中注意力機制對模型的影響.表4顯示了在動態路由算法中增加注意力機制對模型性能影響,本文的BSRU-ATTCapsNet模型在監督設置中顯著優于沒有注意力機制的BSRU-CapsNet模型,這表明通過加入注意力機制,將不同位置學習到的關系特征進行綜合加權,為相關的最短依賴路徑學習到的實體關系分配更高的權重,無關并列關系分配更小的權重,能夠增強系特征表示,從而有利于目標關系的預測.

表4 動態路由算法中增加注意力機制的對比實驗結果(%)

實驗4.本文模型與流行模型的對比.為了突出本文提出模型的有效性,將模型與以下基準進行比較:

1)BiLSTM[16],通過學習實體的表示預測實體之間的關系.

2)ContextAware[17],通過關系之間的交互效應預測目標關系.

3)GAIN-Glove[18],通過整個文檔中不同提及之間的復雜交互進行目標關系的預測.

4)CorefBERT[19],通過捕獲文本中的共指信息,來聚合不同共指提及的推理信息.

表5顯示了各個模型在DocRED數據集上的性能,其中本文提出的BSRU-ATTCapsNet模型取得了最突出的結果,在監督設置測試集中F1-score比CorefBERT模型高出1.7%,在弱監督設置測試集中F1-score比CorefBERT模型高出0.2%,這是由于提出的模型優化了最短依賴路徑上的關系建模,膠囊網絡又進一步強化了關系的多維度表示.

表5 與其他模型實驗的對比結果(%)

5 結束語

文檔級實體關系抽取模型仍存在很多優化的地方,本文從復雜的邏輯結構出發,針對模型效率低下、實體關系特征構造單一和并列特征的負面影響問題,提出了BSRU-ATTCapsNet模型.BSRU 學習文檔中復雜結構的遠距離依賴信息,CapsNet從多個維度學習實體對的更深層次的關系,使得提出模型的效果得到提升.

猜你喜歡
文檔膠囊向量
淺談Matlab與Word文檔的應用接口
向量的分解
有人一聲不吭向你扔了個文檔
輕松編輯PDF文檔
膠囊要用涼開水服
Word文檔 高效分合有高招
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
我有一顆神奇膠囊
服用膠囊的小細節
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合