?

基于偽實體數據增強的高精準率醫學領域實體關系抽取

2024-03-21 02:25郭安迪李天瑞
計算機應用 2024年2期
關鍵詞:賓語主語實體

郭安迪,賈 真,李天瑞,2*

(1.西南交通大學 計算機與人工智能學院,成都 611756;2.綜合交通大數據應用技術國家工程實驗室(西南交通大學),成都 611756)

0 引言

實體關系抽取屬于信息抽取的關鍵子任務之一,它從非結構化的文本中識別出實體并確立實體之間的關系。在醫療領域,實體關系抽取被廣泛應用于結構化信息處理、構建知識圖譜和其他下游任務。

與通用領域相比,醫學領域的信息抽取任務對錯誤信息的容忍度更低,對模型的精準率要求更高。然而,醫學領域的實體和關系密度更大,約為通用領域7 倍[1],很多與文本語義不相關的醫學名詞將被識別為假正例的實體,且不同關系之間可能會共用主語或賓語,主語和賓語中一旦出現假正例將影響多組關系分類,這將進一步放大由實體抽取錯誤帶來的誤差傳遞。另外,醫療的關系種類多且易混淆,如疾病類型的實體之間就可能存在“癥狀相關”“轉化相關”“病發癥”“病理分型”等多種不同關系,若關系分類訓練的負樣本不足則很難獲得較好的精準率。在實體抽取方面,醫學領域有很多長實體,存在實體嵌套、邊界難以劃分的問題。例如,“免疫功能低下患者”可能被錯誤識別為“免疫力”或“免疫力功能低下”。

根據實體和關系抽取任務的表示層是否共用,實體關系抽取模型可以分為實體關系聯合抽取和實體關系流水線抽取兩大類,其中流水線抽取模型可以分別針對實體和關系任務訓練最優的編碼器,從而取得較好的效果[2];然而,此類模型存在沒有考慮實體抽取錯誤導致的誤差疊加和錯誤層級傳播的問題。

本文針對實體關系流水線抽取框架存在的誤差傳遞問題,提出用于進行數據增強的關系負例生成模塊,同時針對醫學文本特點對實體抽取和關系抽取進行優化。本文的主要工作如下:

1)關系負例生成模塊。為了緩解誤差傳遞,本文通過數據增強方法模擬生成容易引起誤差傳遞的關系負例。具體地,利用關系負例生成模塊中的基于欠采樣的偽實體生成模型(Under-Sampling-based Pseudo-entity Generation Model,USPGM)生成可以混淆關系抽取模型的“偽實體”,再結合關系數據增強策略對關系抽取任務進行數據增強。USPGM 采用基于片段的解碼方式,可以處理不同粒度的實體,并利用懸浮標記[3]提高偽實體生成的F1 值。適當的欠采樣率可以在保證一定精準率的情況下大幅增強召回能力,從而滿足生成多樣偽實體的目的。此外,本文還提出了三種數據增強生成策略,以解決主語賓語顛倒、主語賓語邊界錯誤和關系分類錯誤等問題,提高關系抽取階段鑒別錯誤關系的能力。

2)基于Transformer 特征讀取的實體抽取模型(Transformer Feature Reader based entity extraction Model,TFRM)。本文針對醫學實體密集、短語形長實體較多且邊界難以劃分的問題,選用Transformer[4]網絡作為實體類別特征讀取器,利用解碼器模塊的交叉注意力計算單元計算實體類別特征對于序列特征向量的注意力,強化原有的向量表示,增強對整體類別語義信息的捕捉能力。與基于片段的模型相比,TFRM 采用的序列解碼方式能更好地平衡醫學實體嵌套造成的粗粒度長實體和細粒度短實體邊界難以區分的問題,提升實體抽取階段的精準率。

3)基于懸浮標記關系抽取模型(Levitated-Marker-based relation extraction Model,LMM)。數據增強在緩解誤差傳遞的同時也帶來了訓練時間成倍增加的問題,若仍采用傳統的關系抽取模型,即使利用GPU 加速運算,也幾乎無法完成正常的調參工作。為了解決這個問題,本文采用LMM,在保證精準率的前提下,大幅減少了模型訓練所需的時間,提高了推理速度。

1 相關工作

1.1 實體關系抽取

早期實體關系抽取的工作主要依靠模板和詞典完成,這類工作通常由領域專家結合專業知識設計模板,以匹配實體和關系[5-7]。然而,這種方法的精準率嚴重依賴詞典和模板設計的質量,靈活性差,召回率較低。隨著傳統機器學習技術的快速發展,以特征工程為核心的機器學習模型被廣泛應用于實體關系抽取領域[8-11]。這些模型將實體識別和關系抽取轉化為依賴特征集與核函數的分類任務;但性能效果仍然依賴于人工設計的特征工程和核函數,在模型層面上仍需要大量人力。近年來,深度學習方法被大量應用于實體關系抽取工作。深度神經網絡架構中的卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Network,RNN)是解決實體關系抽取的兩大主流模型。CNN 模型可以獲取局部特征,RNN 模型則具有捕捉序列前后依賴的能力。與傳統方法相比,基于深度學習的方法無須進行繁瑣的特征工程,可自動從領域文本中提取文本的語義表示。Li 等[12]通過結合依存句法分析和雙向長短時記憶循環神經網絡(Bi-directional Long Short-Term Memory RNN,Bi-LSTM-RNN)模型完成實體關系抽??;Bekoulis 等[13]構建了基于對抗訓練的Bi-LSTM(Bi-directional Long Short-Term Memory)模型,提高了抽取的魯棒性;張世豪等[14]在Bi-LSTM 和CNN 的基礎上提出了融合多通道自注意力機制的中文醫學實體關系抽取模型。

預訓練模型可以通過自監督的方式從海量文本中獲取知識,并能考慮上下文為文本提供動態的向量表示,該類模型顯著提升了自然語言處理領域模型的性能。BERT(Bidirectional Encoder Representation from Transformer)[15]和ELMo(Embeddings from Language Models)[16]是該類模型的代表,被廣泛應用于實體關系抽取。Luo 等[17]使用ELMo 作為表示層,提出了一種基于注意力機制的模型;Zhao 等[18]通過閱讀理解的方式將實體關系抽取轉化為序列預測問題;Eberts 等[19]提出了基于片段的端到端實體關系聯合抽取模型SpERT(Span-based Entity and Relation Transformer),通過拼接預訓練模型向量表示、實體大小嵌入表示、關系上下文特征對實體片段和關系進行分類;Shen 等[20]在SpERT 的基礎上加入了觸發器感知流捕獲實體和關系之間的聯系,并使用圖神經網絡引入了語法依賴等額外信息,進一步提高了模型的性能;Zhong 等[2]提出了一種實體關系流水線處理模型,分別訓練實體和關系的預訓練模型,實驗證明聯合抽取模型可能會混淆預訓練模型的表示,流水線式的模型性能更佳;Ye 等[3]使用面向相鄰實體的填充式懸浮標記,將相同起始位置的片段的懸浮標記填充在一條語句中,以獲取片段之間的聯系,進一步提高了實體關系抽取的性能。

1.2 數據增強

數據增強(Data Augmentation,DA)是一種從有限的數據挖掘更多數據以擴展訓練數據集的技術。它用于克服訓練數據不足、緩解數據偏見和解決樣本不平衡,在深度學習的各個領域都得到了廣泛的應用[21]。本文使用DA 技術解決容易混淆關系抽取模型的負樣本數據不足的問題,緩解實體關系抽取過程中的誤差傳遞。

數據增強主要分為兩類:基于規則和基于模型。

基于規則的數據增強方法的代表是:Wei等[22]提出的簡單數據增強(Easy Data Augmentation,EDA)方法,通過對文本進行隨機替換、插入、交換和刪除等操作增加樣本數;Abdollahi等[23]提出了基于本體引導的數據增強方法,使用統一醫學語言系統(Unified Medical Language System,UMLS)識別句子中的醫學本體,并將本體替換成詞典中的同義詞,豐富訓練數據;Kang等[24]同樣使用UMLS結合EDA實現實體抽取。

基于模型的數據增強方法通過神經網絡模型直接生成訓練樣本或參與樣本生成的過程。直接生成訓練樣本的典型例子是Sennrich 等[25]提出的基于“回譯”的數據增強的方法,即將序列翻譯成另一種語言后再翻譯回原始語言,從而直接生成樣本。參與樣本生成的數據增強模型更常見,例如Wang 等[26]提出的基于強化學習的數據增強方法,通過強化學習訓練一個生成器生成數據增強動作序列,以解決傳統數據增強中神經網絡模型與數據增強模塊之間缺乏聯系的問題。Kobayashi 等[27]通過將單詞替換為根據上下文語言模型分布得到的單詞來生成增強示例。Yang 等[28]從預訓練的語言模型生成的示例中選擇信息量最大和最多樣化的集合進行擴充。Quteineh 等[29]類似地使用GPT-2 標生成標記,證明了DA 方法的有效性。

2 本文模型

2.1 模型背景

2.1.1 任務介紹

醫學實體關系抽取任務的輸入是醫學文本,在經過標記解析器分詞后得到長度為n的標記序列X={x0,x1,…,xn},再由預訓練模型得到特征表示H={h0,h1,…,hn}。實體關系流水線抽取可分解為實體抽取和關系分類兩個子任務。

實體抽取 給定實體類別集合E,實體抽取任務是從標記序列X中提取實體片段及其類別的集合Y={(si,ei),si∈S,ei∈E},其中實體片段集合S用于標識實體位置。實體抽取任務可以分為基于序列標簽預測的實體抽取和基于實體片段的實體抽取兩種類型。

基于序列標簽預測的實體抽取首先對序列中的每個標記預測它的類別,得到標簽序列O={o0,o1,…,on},然后通過解碼算法獲得實體片段和實體類型,并輸出實體集合Y=decoder(O)?;趯嶓w片段的實體抽取任務是先定義一個最長的實體片段長度l,再枚舉出標記序列X中所有可能的片段集合S,對于每個片段si∈S,預測它的實體類型ye。

關系分類 記R為預定義的關系抽取框架,關系抽取任務是對Ssub×Sobj中的每一組候選實體片段對(si,sj)預測關系類型yr∈R,該任務的輸出為關系三元組集合T={(si,sj,yr):si∈Ssub,sj∈Sobj,yr∈R}。

2.1.2 懸浮標記

標記是指通過標記解析器拆分字符串后得到的符號,每個標記都被分配唯一的ID。例如,將“Miller-Fisher 綜合征”經過標記解析器后,可以得到標記[“Miller”,“ -”,“ Fish”,“##er”,“綜”,“合”,“征”]。除了由文本生成的標記,還有一類特殊標記,這些標記不與實際輸入建立映射,而是額外加入模型序列,用于提醒預訓練模型捕捉任務所關注的信息。例如,在BERT 中,規定使用“[CLS]”進行全局預測,“[SEP]”用于分隔序列。本文中定義了與任務相關的特殊標記,例如在后文的USPGM 實體抽取模型中,使用標記實體頭,標記實體尾;在LMM 掩碼示意圖中,使用x,x標記主語標記賓語。標記可以被插入到原始輸入中實體所在位置的前后,以便預訓練模型關注該位置;但是由于標記的引入對原序列具有侵入性,因此每條輸入語句只能對應一組標記,如果要枚舉所有主語賓語組合,則需要額外生成大量的輸入序列。

懸浮標記可以讓模型盡早接觸實體的位置信息,解決輸入序列過多的問題。具體地,為了避免對原始輸入造成侵入,懸浮標記被打包到一起,拼接在原始序列的末尾。懸浮標記通過和它所關注的原始輸入的標記共享相同的位置ID,提醒模型關注原輸入相關位置。

2.2 模型主體

本文提出的實體關系抽取框架共分為3 個部分:1)基于Transformer 特征讀取的實體抽取模型;2)關系負例生成模塊;3)基于懸浮標記關系抽取模型。

整體模型流程示意圖如圖1 所示。在實線指示的訓練階段,首先訓練實體抽取模型TFRM 和USPGM。實體抽取模型訓練結束后,再使用USPGM 模塊生成用于數據增強的偽實體,并根據數據增強策略生成偽關系訓練樣本。最后LMM 使用數據增強后的訓練樣本完成關系分類模型的訓練。在虛線指示的測試和抽取階段,LMM 對TFRM 抽取得到的實體對預測關系。

圖1 整體模型流程示意圖Fig.1 Schematic diagram of overall model process

2.2.1 基于Transformer特征讀取的實體抽取模型

為了更好地捕獲主語頭尾和賓語頭尾的特征,本文設計一種基于Transformer 特征讀取的實體抽取模型。該模型借助Transformer 解碼器單元對實體類別特征進行讀取操作,從而分別獲取相應類別的全局特征,并用這些特征增強原有的序列表示。

TFRM 模塊的訓練分為兩個階段。如圖2 虛線所示的第一個階段僅包括特征寫入(更新),目的是優化主語頭、主語尾、賓語頭、賓語尾的類別特征表示;第二個階段為特征讀取階段,在該階段繼續更新類別特征,并通過Transformer 解碼器的交叉注意力計算單元讀取不同實體的特征,以進一步強化相關的特征表示。

圖2 TFRM示意圖Fig.2 Schematic diagram of TFRM

特征寫入(更新)階段 在圖2 實線所示的特征寫入階段將實體分類器的權重視為實體的特征,由交叉熵損失函數更新主語頭尾、賓語頭尾的特征:

其中:L代表實體序列預測的損失函數,lr代表學習率,p(yi=e) 表示第i個標記預測結果屬于類別e的概率,e∈E=

特征讀取階段 本文采用N層TFRU 結構讀取實體類別特征的信息。每層結構由交叉注意力網絡和全連接前饋神經網絡兩個子層組成。各子層之間采用殘差連接和正則函數進行連接。

SubLayer 在TFRU 單元中指多頭交叉注意力網絡或全連接前饋網絡。其中交叉注意力網絡的計算公式如下:

多頭交叉注意力由u個頭的注意力拼接后,再通過一個權重為W全連接網絡計算得到,其中[?。築]是向量的拼接操作。

將讀取到的特征HTFRU和原序列標記特征HBERT取平均得到序列的向量表示HMEAN。再經由兩個線性變換與ReLU激活函數構成前饋神經網絡(Feedforward Neural Network,FNN)獲得序列最終的特征表示:

解碼 對于TRFU 模塊得到的序列特征,本文使用參數為F的全連接層得到序列的標簽得分。給定閾值α,當VScore>α時,認為該標記屬于e類型。

解碼算法主要基于貪心的思想。先根據實體頭的預測序列找出實體片段的起始位置,再從該位置開始遍歷相應類別的實體尾預測序列,以尋找該實體片段的結束位置。在遍歷實體尾預測序列的過程中,若發現了另一個實體片段的起始標記,則舍棄當前查詢的實體片段。具體步驟如下:

輸入 實體頭預測標記序列Ohead,實體尾預測標記序列Otail;

2.2.2 關系負例自動生成模塊

實體抽取負例欠采樣 欠采樣是處理非平衡分類問題時的常用手段,通過對數量多的一類樣本進行少量隨機選擇,使樣本變得平衡,從而使模型更好地關注缺少樣本的類別。本文通過對實體片段的負例進行欠采樣,使得模型更傾向于預測正例,以獲得更多的偽實體。這些偽實體將在后續的數據增強策略中使用,用于生成關系訓練樣本。

在圖3 的例子中,通過枚舉所有可能成為實體的片段得到共計個候選實體片段,其中實體片段正例樣本集合為Spos,對應圖3 中使用條紋填充的片段。負例樣本集合為Sneg=S/Spos,對應圖3 中未使用條紋填充的片段。通過對負例樣本集合隨機采樣得到負例采樣集合Ssample=RandomSampling(Sneg)。最終的實體訓練樣本集合為正例集合與采樣集合的并集,Strain=Spos+Ssanple。

圖3 USPGM示意圖Fig.3 Schematic diagram of USPGM

基于欠采樣的偽實體生成模型 與基于序列的TFRM不同,USPGM 屬于基于片段的實體抽取模型,支持識別不同粒度的嵌套實體。為了讓預訓練模型能提前意識到實體片段的存在,可將對應實體片段的懸浮標記拼接到原始標記序列后。

將帶有懸浮標簽的序列送入與訓練模型后得到對應的特征表示H。實體片段的特征hsipan由頭尾位置處的標記和共享位置的懸浮標記的特征表示拼接到一起得到,并使用一個全連接層得到該實體片段的類別。

偽關系生成策略 數據增強的目的是解決關系分類模型中誤差傳遞導致的假正例問題,并提高模型的精準率。造成假正例誤差傳遞的關系組合有以下幾種:主語賓語位置顛倒、主語或賓語邊界不正確、關系與句子語義無關,以及關系分類錯誤。

在沒有數據增強的情況下,關系抽取的訓練樣本僅包括人工標注(ground truth,gt)主語和人工標注賓語的笛卡爾乘積,其中T指的是關系三元組。

本文提供的3 種數據增強策略如下。

1)為了提高模型識別主語賓語顛倒的能力,可以使用逆關系進行數據增強,即將人工標注中的主語作為賓語,將賓語作為主語構建新的負例訓練樣本。

2)進一步地,對于主語賓語顛倒的情況,還可以為逆關系添加標簽Rreverse。例如,在三元組(痛風主語,鑒別診斷關系,RA賓語)的逆關系上添加偽標簽“逆-鑒別診斷關系”,從而獲得新的訓練樣本(R A主語,逆-鑒別診斷關系,痛風賓語),記作Tgt_reverse_label。

3)主語或賓語邊界不正確、關系分類錯誤的情況通常是由于負例樣本不足導致的,因此,利用USPGM 生成的偽主語和偽賓語的笛卡爾乘積生成偽關系樣本:

2.2.3 基于懸浮標記關系抽取模型

如表1 所示,使用增廣策略進行訓練后的訓練樣本數是原模型的7 倍,給模型訓練帶來時間和資源上的浪費。然而,醫療文本常圍繞同一實體介紹知識,通常多個賓語共用同一個主語。從表1 可以看出,賓語數大于主語數,且一段文本中通常只有一個主語。因此,只將主語的實際標記x,x插入原始輸入中,而對于相同主語的賓語,則使用懸浮標記以提高計算速度。

表1 實驗中使用的CMeIE數據集信息Tab.1 Information of CMeIE dataset used in experiment

同時,為了避免懸浮標記對原輸入帶來噪聲,或者不同賓語的懸浮標記之間產生噪聲,在預訓練模型處采用有向注意力掩碼。每個懸浮標記只會對它相匹配的懸浮標記可見,而不會對正文的字符或其他懸浮標記可見。LMM 中的掩碼矩陣如圖4 所示。

圖4 LMM中的注意力掩碼矩陣Fig.4 Attention mask matrix in LMM

主語和賓語的特征表示分別用與它對應標記的頭尾特征表示拼接得到,使用全連接層分別得到它們的關系分類得分,關系分類的最終得分為主語和賓語得分之和。

3 實驗與結果分析

本文的實驗評估在CBLUE(Chinese Biomedical Language Understanding Evaluation)的 CMeIE(Chinese Medical Information Extraction)數據集(數據集網址https://tianchi.aliyun.com/dataset/95414)上進行。CBLUE 是國內首個醫療信息處理領域公開的基準數據集,CMeIE 是CBLUE 數據集中的一個子任務,該數據集是由2 位來自三甲醫院的專家和20名碩博研究生進行標注的醫學領域數據集,其中設計了53 類關系。表1提供了CMeIE數據集的詳細數據分布情況。

3.1 數據處理

由于CMeIE 只提供關系三元組信息,沒有提供實體在句子中的具體位置,需要先通過預處理確定實體具體位置。默認從左到右找到第一個匹配實體位置作為標準答案。在經過標記解析器分詞之后,截取最大標記序列長度到128。從訓練集中剔除超過該長度實體和包含該實體的關系樣本,但測試時仍會考慮這部分數據。

3.2 參數設置及實驗環境

本文模型均使用BERT-base-Chinese[30]作為預訓練模型,采用AdamW 作為優化器,并用預熱策略進行訓練。對于基于實體片段的模型需要設置最大片段長度。如圖5 所示,大多數實體的長度集中在1~10。本文將最大實體片段長度設為20,可以覆蓋99.96%的實體。對于TFRM,TFRU 層數設置為2,特征讀取開始的Epoch 設置為5。其他具體實驗參數如表2 所示。

表2 實驗參數詳情Tab.2 Details of experimental parameters

3.3 評價指標

本文采用精確率P(Precision)、召回率R(Recall)以及F1(F1 值)作為實體關系抽取的評價指標。這些指標在CMeIE的dev 數據集上通過微平均的方式計算,具體公式如下:

其中:TP指正確識別的實體或關系數;FP表示預測為某一類型但識別錯誤的實體或關系數,即假正例;FN表示未能預測出的實體或關系數。

3.4 實驗結果

為了驗證本文模型的有效性,將它與基于預訓練的實體關系抽取基線模型進行對比。

3.4.1 基線模型

1)SpERT[19]是一種實體關系聯合抽取模型。在實體抽取模塊中將實體片段的最大池化特征、長度特征以及“[CLS]”標記的全局特征拼接起來,作為實體的特征表示。在關系抽取部分,首先通過實體篩選器篩選出得分大于閾值的主語和賓語,然后將主語和賓語的最大池化特征、長度特征和兩個實體之間的上下文特征拼接起來,作為這組關系的特征表示。

2)PURE(Princeton University Relation Extraction)系 統[2]屬于流水線式實體關系抽取模型。在實體抽取部分,將實體的頭尾字符特征拼接起來,并通過一個兩層的前饋網絡進行分類,從而得到實體的表示;在關系抽取部分,在主語和賓語的位置同時插入標記,并將標記處的特征拼接起來,再通過全連接層進行分類。

3)PL-Marker(Packed Levitated Marker)[3]屬于流水線式的實體關系抽取模型。在實體抽取部分,相同起始位置的實體片段的懸浮標簽被打包在一起作為一個樣例,實體片段頭尾和對應懸浮標記拼接的特征被用于分類。在關系抽取部分,使用主語處的實標記和賓語的懸浮標記進行分類。

4)CBLUE[31]同樣屬于流水線式的實體關系抽取模型。其中實體抽取任務被視為序列預測任務,對每個標記的特征使用全連接分類器進行預測。而關系抽取任務和PURE 的處理方式類似。

3.4.2 性能提升

實體關系抽取的實驗結果如表3 所示,本文模型相較于之前的工作性能顯著提高。相較于基線模型PL-Marker,實體抽取部分的TFRM 的F1 值提升了2.26%;而實體關系抽取整體F1 值提升了5.45%,精準率提升了15.62%。這些結果表明,通過數據增強,模型能夠更好地解決誤差傳遞問題,并針對實體抽取中得到的錯誤實體做出更加精準的判斷。

表3 各模型總體實驗結果比較 單位:%Tab.3 Comparison of experimental results among different models unit:%

3.5 消融實驗

為了更深入地分析本文模型各個組件的有效性,進行了消融實驗。為了避免其他因素對模型的影響,本文在所有的消融實驗中未提及的參數與表2 中的設置保持一致。

3.5.1 負例欠采樣

在實體抽取階段,不同的負采樣率同樣會影響模型的效果。根據圖6 采樣數-模型性能曲線,隨著采樣數的增加,模型的精準率和F1 值逐漸提高,但是召回率卻不斷降低。這表明可以通過欠采樣的方式提高模型的召回能力,生成盡可能全面的偽實體。最終選擇采樣數為128 的模型生成偽實體。在該采樣數下,模型的召回率較高,且精準率也超過了60%,不會引入過多低質量的偽實體。

圖6 采樣數-模型性能折線圖Fig.6 Sampling number-model performance line chart

3.5.2 TFRM

為了驗證實體抽取模型TFRM 的有效性,比較了使用相同關系抽取模型但不同實體抽取模型的效果。如表4 所示,相較于PURE、PL-Marker 和CBLUE 提出的模型,本文提出的TFRM 在F1 值上分別提高了3.15、2.03 和0.61 個百分點。對于TFRM 的核心模塊TFRU,由表5 可見,添加該模塊后模型的精準率有了顯著提高,對于使用不同層數TFRU 的模型,使用2 層的模型召回率較高,且最終應用于關系分類模型的效果較好。值得注意的是,對比未使用TFRU 的模型,雖然模型的精準率得到了較大程度的提升,但最終對于關系分類精準率的提升的貢獻并沒有特別顯著??赡艿脑蚴潜疚奶岢龅臄祿鰪娔K提高了關系分類模型鑒別實體抽取部分錯誤信息的能力。

表4 實體抽取模型實驗結果比較 單位:%Tab.4 Comparison of experimental results of entity extraction models unit:%

表5 TFRU模塊參數對比實驗結果 單位:%Tab.5 Comparison experiment results of TFRU module parameters unit:%

TFRU 注意力模塊可以為不同實體類型提供針對性的全局信息。以圖7 所示的2 層TFRU 模塊的權重分布情況為例,layer0 用于獲取低層次的全局上下文信息,而第1 層的權重分布差異較大,能夠針對實體類型的不同關注句子中不同的位置。通過注意力可視化可以發現模型能夠根據上下文信息有效地去除不相關實體(圖7(a)所示)。如果不使用TFRU,對于賓語,會額外得到“肝功能障礙”“低血糖”兩個假正例的賓語。從整個句子的分析可以推斷出,該語句主要關注的是和“檢查”相關的實體。在TFRU 的第1 層實體頭特征讀取時,對于假正例實體的關注較弱,但它會根據上下文強化對正確答案“電解質測試”的關注。另外,TFRU 可以正確識別醫學文本中大量短語類的長實體和嵌套實體(如圖7(b)所示)。若不加入TFRU 機制,模型抽取的賓語是“免疫力低下”,而根據文本分析,正確的賓語應該是“免疫力低下患者”??梢钥闯鲈趯嶓w頭讀取過程中,第1 層對于“者”的關注更強,從而修正了錯誤。

圖7 TFRU注意力可視化Fig.7 TFRU attention visualization

3.5.3 關系負例自動生成模塊

為了證明關系負例自動生成模塊的有效性,進行了消融實驗,比較了負例生成模型和偽關系生成策略對于模型性能的影響。如表6 所示,當移除所有數據增強數據時,模型的F1 值下降了3.24 個百分點,而精準率下降了11.26 個百分點。

表6 關系負例自動生成模塊消融實驗結果Tab.6 Ablation experimental results of automatic generation module of relation negative examples

關系負例自動生成模塊由模型和增強策略兩部分組成,本文分別分析了這兩個部分對于模型性能的影響。

不同的增強策略 如表6 所示,采用增強策略1:Tgt+Tgt_reverse后,模型的F1 值提升了1.27 百分點;采用增強策略2:Tgt+Tgt_reverse_label則提升了1.02 百分點;而僅使用增強策略3:Tgt+TUSPGM_pseudo則提升了2.15 個百分點。其中,增強策略3由于使用了額外的偽實體,對F1 值提升的效果最佳。相比增強策略1,增強策略2 雖然增加了逆關系標簽這一額外信息,但表現更差,原因在于在最后的分類階段,分類器需要考慮的關系類型翻倍,因而在優化過程中對于逆關系的關注影響了正常關系的判斷。對比不同增強策略的組合效果,其中策略2 和策略3 的組合效果最佳。

偽實體生成的模型 基于USPGM 生成的偽實體的數據增強數據TUSPGM_pseudo相較于未采用欠采樣機制的偽實體生成模型生成的Tpseudo,單獨使用和組合使用時,F1 值分別提高了0.3 和1.13 個百分點,其中精準率分別提高了7.2 和7.03 個百分點。

案例分析 關系負例自動生成模塊對于關系抽取的提升體現在兩個方面。

1)可以提高關系模型對于實體抽取階段錯誤主語和賓語的糾正能力。如表7 所示,未使用數據增強的模型在案例一中錯誤地將“吉蘭-巴雷綜合征的特殊亞型”作為主語抽取,并在案例二中錯誤地將“地高辛”作為賓語識別。然而,通過語境可以發現這兩個實體之間的關系在文本中并沒有被明確提及,本文模型可以正確地進行預測。

表7 案例分析Tab.7 Case analysis

2)可以糾正模型對于正確實體的假正例或分類出錯的情況,提高模型的精準率。在表7 的案例二中,未使用數據增強的模型錯誤地將關系類型識別為(室上速主語,同義詞關系,室性心動過速賓語),屬于分類出錯的情況。另外,在案例二中,(室上速主語,同義詞關系,室速賓語)則是一個假正例。

3.5.4 基于懸浮標記關系抽取模型

如表6 所示,基于懸浮標記的關系抽取模型的訓練速度相較于傳統實標記的模型提升了3.2 倍。但在模型性能方面,由于基于懸浮標記的模型主語處使用實標記而賓語處使用懸浮標記,導致主語和賓語特征表示的能力不平衡。雖然懸浮標記沒有對輸入造成侵入性的修改,但同時降低了對預訓練模型的提示能力,使得當賓語信息較少時,僅使用Tgt的情況下,基于懸浮標記的模型的F1 值略低于基于實標記的模型。然而,當使用由USPGM 生成的樣本進行數據增強后,賓語的多樣性和數量的增加彌補了使用懸浮標記帶來的性能影響。特別是在使用TUSPGM_pseudo增強策略時,基于懸浮標記的模型的F1 值均超過了基于實標記的模型。

4 結語

本文提出并驗證了一種基于偽實體數據增強的高精度醫療實體關系抽取框架,并對實體抽取和關系分類兩個階段進一步優化。模型在公開醫學關系抽取數據集CMeIE 表現出較好的性能,F1 提升了5.45%,精準率提升了15.62%。

本文提出的框架主要包括3 個部分:1)針對實體關系流水線框架存在誤差傳遞的缺陷,在經典的流水線模型的基礎上插入關系負例自動生成模塊。使用欠采樣的偽實體生成模型獲取用于數據增強的偽實體,并提供了三種數據增強的策略。消融實驗結果表明,基于欠采樣模型生成的偽實體對于關系分類模型的性能的提升更大,尤其在精準率指標上模型提升幅度較大,證明欠采樣模型可以生成更加多元和全面的偽實體。由三種不同的數據增強策略生成的增強數據,都對于關系分類任務性能有著不同程度的提升,其中Tgt+Tgt_reverse+TUSPGM_pseudo的組合方式取得了最好的效果。說明這種數據增強的組合下,數據可以更全面地為關系分類模型提供主語賓語顛倒、主語或賓語邊界不對、關系分類錯等情況的負樣本。2)提出了基于Transformer 特征讀取的實體抽取模型。TFRU 單元通過讀取不同實體類別的特征信息強化相應類別的序列特征表示,實驗和可視化結果表明該模塊可以有效捕獲全局類別信息,解決醫學實體長、密度大、干擾多的問題,提高實體抽取的精準率。3)為緩解數據增強帶來的時間成本劇增的問題,選用懸浮標記批量打包同主語的關系,通過一種非侵入式的方式將相同主語的賓語信息拼接到一條訓練樣本中,通過實驗證明該模型的訓練速度提高了3.2倍,且在訓練數據充足的情況下,模型的性能甚至略優于基于實標記的模型。

在未來的工作中,將進一步提高模型的精準率。目前本文所使用的數據增強算法并沒有引入額外的知識,然而在研究中發現,存在大量實體和關系在缺乏先驗知識的情況下僅依靠上下文或其他訓練樣本無法得到準確信息,如對缺乏醫學專業知識的人,很可能認為“顱內出血”是一個“癥狀”而非“疾病”。因此如何將額外的醫學知識引入到模型中,將是未來亟待解決的問題。

猜你喜歡
賓語主語實體
談談引導主語從句的連接詞的用法
巧用無靈主語,讓續寫更靈動
連詞that引導的賓語從句
賓語從句及練習
前海自貿區:金融服務實體
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
中考試題中的賓語從句
英語中的虛主語“it”和漢語中的虛主語“他”異同之比較
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合