?

面向武器裝備領域的復雜三元組抽取方法

2024-03-05 01:41游新冬劉陌村葛昊杰呂學強
小型微型計算機系統 2024年3期
關鍵詞:三元組知識庫實體

游新冬,劉陌村,葛昊杰,肖 剛,呂學強

1(北京信息科技大學 網絡文化與數字傳播北京市重點實驗室,北京 100101)

2(軍事科學院 系統工程研究院復雜系統仿真總體重點實驗室,北京 100101)

0 引 言

武器裝備領域的三元組抽取是構建武器裝備領域知識圖譜的重要環節,是獲取武器裝備領域知識的重要手段[1].例如對非結構化文本“以總統名字命名的杰拉德R福特號航空母艦是美國下一代全新核動力航母,搭載F35C艦載機,耗資130億美元.”而言,三元組抽取任務是獲取到“<杰拉德R福特號,屬于,美國>、<杰拉德R福特號,搭載,F35C艦載機>”等符合RDF(Resource Description Framework)技術框架的格式化三元組知識數據.三元組抽取可以幫助我國專家開展非結構化文本中包含的武器裝備之間的關系挖掘工作,以提高對裝備信息的掌握水平.

而復雜三元組抽取是關系抽取任務中的一個研究熱點與難點,其抽取質量對知識圖譜的知識覆蓋能力有著很重要的作用.復雜三元組按照頭實體、尾實體和關系的位置可以分為單實體重疊和實體對重疊.武器裝備領域存在著大量的復雜三元組知識.

以“杰拉德R福特隸屬于美國,搭載了F35C艦載機.”為例,單實體重疊三元組(Single Entity Overlap Triples)包含的三元組有:“<杰拉德R福特,屬于,美國>、<杰拉德R福特,搭載,F35C艦載機>”,重疊的部分是頭實體(杰拉德R福特”).以“1943年胡蜂號下水服役,并次年開始參與太平洋戰爭.”為例,頭尾實體對完全重疊(Entity Pair Overlap Triples)包含的三元組有:“<胡蜂號,下水時間,1943年>、<胡蜂號,服役時間,1943年>”,重疊的部分是頭實體(“胡蜂號”)和尾實體(“1943年”).

三元組抽取主要有兩大流派方法:第1個是流水線式的抽取,是在命名實體識別與分類任務完成以后再開展對實體之間的關系進行抽取;第2個是聯合式的抽取,是對實體和關系進行同時識別,源于神經網絡的端到端模型.目前面臨的問題有兩點:1)非結構化信息的利用不足,未能從多個角度挖掘深層領域特征;2)方法對武器裝備領域的樣本標注依賴較為嚴重.為對非結構化信息挖掘更加充分,采用掛載維基百科知識庫對頭實體識別器的正確頭實體進行類型解釋對后續的抽取過程給予知識獎勵;為緩解模型對樣本標注的依賴使用多輪對抗攻擊的方式對樣本的多樣性做了提升,提高了模型的魯棒性.

針對武器裝備領域數據特點,本文提出一種掛載武器裝備領域知識結合多輪對抗攻擊的復雜三元組抽取方法RDA(Relation extraction in Domain of weaponary combined with multi-round Adversarial),該方法主要為三階段式的聯合抽取模型:掛載維基百科外部知識庫向模型傳達武器裝備領域知識,采用多層次的單層指針網絡進行復雜三元組的聯合抽取.在構建的5000條武器裝備領域數據集上的實驗表明:提出的RDA方法可更加充分地利用武器裝備領域的信息,增加了樣本的多樣性,提升了模型的魯棒性.為解決樣本多樣性缺乏的問題采用在嵌入層發動多輪對抗攻擊的手段,使用單層指針網絡對頭實體進行識別,并掛載武器裝備領域知識庫對被正確識別出來的頭實體進行知識獎勵.F1值達到81.72%,取得了SOTA效果.

1 相關工作

關系抽取(Relation Extraction,RE),是知識獲取的一個關鍵子任務,負責從非結構化的自然語言中抽取由本體設計確認的關系,并據此對知識圖譜的節點與節點之間的線進行構建.依據關系的類型,可將關系分為兩類;正常三元組(Normal Triple)、復雜三元組(Complex Triples),其中復雜三元組包含頭實體或者尾實體重疊三元組和頭尾實體完全重疊兩個類別[2].

普通關系抽取的方法主要經歷了4個階段,第1個階段是專家制定領域規則方法[3];第2個階段是基于標注數據的有監督方法[4-6];在2007年,Giuliano等人[5]對SemEval-2007的評測數據,利用實體的上下文特征和實體之間的距離等特征,使用了支持向量機進行訓練取得了71%的F1值.此類方法相對于規則階段更加靈活,減少了一定的人力參與度.但是仍然存在兩個缺點:第1點是特征選擇工作需要有一定專業素養的人員來開展,第2點是對非結構化文本的上下文信息利用不足,未能多角度充分挖掘上下文信息.在2009年,莊成龍等人[6]在ACE-2004數據集上開展基于樹核函數的關系抽取,采用了融入實體語義信息然后再對樹進行剪裁,并去除掉修飾語的冗余信息,達到了71.9%的F1值.然而,基于標注數據的有監督方法也存在著缺陷,其一是需要大量的數據標注,這對人力物力的消耗是比較高的;其二是模型對數據的依賴性非常高.第3個階段是基于少標注數據或者零標注數據的半監督或者無監督方法[7,8];第四個階段是基于神經網絡的方法[9,10].

針對武器裝備領域的關系抽取,近年來也得到了關注.在2019年,李芊芊等人[11]使用句法分析的手段,獲取到文本的謂詞,然后針對謂詞展開了依存分析,在SemEval-2010的基礎上篩選出的數據集上取得了80.90%的F1值.在2020年,王乾銘等人[12]提出了一種將序列生成和位置注意力結合起來的實體關系聯合抽取模型,將token的絕對位置和相對位置進行了結合,在作戰文書上達到了83.35%的F1值.在2021年,田佳來等人[13]在NLPCC會議上提出采用膨脹卷積技術擴大感受野,以Word2Vec作向量化模型,使用分層標注的方法對軍事領域的關系進行了識別,在軍事語料上達到了79.17%的F1值.

基于以上的研究分析,可以發現在武器裝備領域的復雜關系抽取中,目前面臨的問題有兩點:1)對于非結構化信息的利用不足,不能從多個角度挖掘深層領域特征;2)抽取方法對武器裝備領域的樣本標注依賴較為嚴重.為了更加充分地挖掘非結構化信息,本文采用掛載維基百科知識庫對頭實體識別器的正確頭實體進行類型解釋以對后續的抽取過程給予知識獎勵;為緩解模型對樣本標注的依賴,使用多輪對抗攻擊的方式對樣本的多樣性做了提升,提高了模型的魯棒性.據此,提出了一種掛載武器裝備領域知識庫并結合多輪對抗攻擊的復雜三元組抽取方法.該方法為3階段式的抽取方案:第1階段是獲取特征向量;第2階段是使用單層指針網絡對頭實體進行識別并掛載武器裝備領域知識庫對被正確識別出來的頭實體進行知識獎勵,為解決樣本多樣性缺乏的問題采用在嵌入層發動多輪對抗攻擊的手段;第3階段是采用分層標注的框架以線性化的謂語為基準,采用單層指針網絡對賓語的開始位置和結束位置進行判定,最終實現復雜三元組的抽取.提出的RDA方法將流水線式和聯合學習式的抽取方法進行了一定的交叉融合,通過掛載武器裝備的知識緩解分層標注的天然缺陷,實現對武器裝備領域的復雜關系以及隱含關系進行抽取.

2 掛載武器裝備領域知識結合多輪對抗攻擊的復雜三元組抽取方法-RDA

提出的RDA方法的模型結構如圖1所示.該模型主要由文本嵌入層模塊、結合多輪對抗頭實體識別器,武器裝備知識庫模塊、關系尾實體識別模塊4個部分組成.文本由文本嵌入層模塊進行序列化之后投入結合多輪對抗攻擊的頭實體識別器將其識別為頭實體或尾實體,再通過武器裝備知識庫模塊,針對不同的頭實體類型,根據維基百科中定義或者解釋獲取到描述該類型的句子解釋向量.然后以字為最小粒度進行信息融合.最后進入到關系尾實體識別模塊,同樣是將任務細化為兩個子任務:指定關系對應的尾實體頭識別和尾識別.不同的是,本體設計中涵蓋的所有關系將會與主語識別器的成果進行運算,挖掘主語與所有可能的關系.

圖1 掛載武器裝備領域知識結合多輪對抗攻擊的復雜三元組模型結構Fig.1 Complex triplet model structure of mounted weapons and equipment domain knowledge combined with multiple rounds of counterattack

RDA方法采用的文本向量化的技術是BERT模型,通過在海量文本上進行無監督預訓練(Pre-training),然后在特定的下游任務數據上進行微調(Fine-Tuning),BERT在多項自然語言處理任務中都表現突出.內部采用多層Transformer作為其編碼結構,相比基于時間序列的循環神經網絡,BERT具有更強的上下文語義信息捕獲能力,蘊含了更為豐富的句法、語義和上下文信息.

2.1 文本嵌入層模塊

如圖1所示首先對token進行嵌入(Embedding),其中包含了3部分:第1部分標記嵌入(Token Embedding)是詞向量或者字向量,使用CLS標記以更為公平地融合句子中的每個token語義,用于后續的分類任務;第2部分句段嵌入(Segment Embedding)是因自編碼的語言模型的下一句預測(Next Sentence Prediction)子任務需要區別兩個句子,在RDA方法的模型中默認為零;第3部分位置嵌入(Position Embedding)是為保證脫離了RNN時序系列模型的位置約束后,引入位置嵌入信息以適應自然語言的時序性.為規避三角函數的對偶性無法區分方向的缺陷,并非采用Transformer的位置嵌入信息方式,而是通過學習參數獲取.然后經過12層的Transformer模塊,使用自編碼方式結合自注意力機制對文本的雙向上下文以獲取向量.

文本嵌入層的字符輸入視為字符向量化,X=(x0,x1,x2,…,xn-1),從輸入token序列到向量序列的過程如公式(1)所示:

(1)

2.2 結合多輪對抗攻擊的頭實體識別器

提出了將多輪對抗攻擊.融入到頭實體識別器中的方法,可以提高頭識別器投喂在下階段的信息困惑度,以此提高模型的識別能力.

2.2.1 多輪對抗攻擊

RDA的對抗攻擊的生成方式為Fast Gradient Method(FGM)[14],其原理如公式(2)、公式(3)所示:

g=?xL(θ,x,y)

(2)

其中,θ代表模型參數,x代表原始的輸入樣本,y代表gold label,L代表損失函數,?x代表對x求梯度.

FGM:radv=ε*g/‖g‖2

(3)

其中,radv代表攻擊擾動樣本,ε代表對抗攻擊強度系數,g代表梯度.FGM為更加嚴格地對梯度的方向進行保留,采取使用L2歸一化技術對梯度進行修正.多輪對抗攻擊流程偽代碼如表1所示.

表1 多輪對抗攻擊算法偽代碼Table 1 Multiple rounds of anti-attack algorithm pseudocode

2.2.2 頭實體識別器

一般的頭實體識別任務是使用一個線性層分類器獲取到實體的開頭和結尾,再結合最近原則進行匹配.如圖1所示,提出的RDA方法采用在嵌入層然后接入由S、E兩個識別層構成的頭實體識別器,將其任務分開:一個只處理當前token是實體頭的概率(S識別層);另一個只處理當前token是實體尾的概率(E識別層).采用與正態分布關聯密切且計算量較小的Sigmoid激活函數對每個識別層的概率進行激活,數值代表該token在S識別層或者E識別層中被判定為實體頭或者實體尾的概率,閾值設定為0.5.頭實體識別器原理如公式(4)、公式(5)所示:

(4)

(5)

其中,tokenstart和tokenend分別代表了S識別層和E識別層的輸出序列,對應了token序列成為實體頭、實體尾的概率,radv代表由嵌入層的多層Transformer Block疊加層運算獲取到的向量并經過多輪對抗攻擊后生成的樣本.

2.3 武器裝備知識庫模塊

在本模塊,使用維基百科作為武器裝備類型的外部知識庫.針對不同的頭實體類型,根據維基百科中定義或者解釋獲取到描述該類型的句子解釋向量.然后以字為最小粒度進行信息融合.Type信息融合模塊工作原理如公式(6)、公式(7)所示:

sent_vecentity=Wiki(Typeentity)

(6)

其中,sent_vecentity代表類別Type對應的句子解釋向量,Wiki表示維基百科,entity表示上節的結合多輪對抗攻擊的頭實體識別器的成果.

(7)

2.4 關系尾實體識別模塊

如圖1所示,關系尾實體識別模塊同時識別尾實體和與其歸屬的本體設計中包含的關系.其結構與頭實體識別器類似,同樣是將任務細化為兩個子任務:指定關系對應的尾實體頭識別和尾識別.不同的是,本體設計中涵蓋的所有關系將會與主語識別器的成果進行運算,以獲取主語與所有可能的關系的挖掘.本模塊的運作原理如公式(8)和公式(9)所示:

(8)

(9)

3 實 驗

3.1 實驗數據

實驗數據來源于互聯網的公開數據,通過數據采集技術對環球軍事網的艦船、飛機等信息進行了自動化地采集并持久化至容器.經過數據篩查、數據清洗,最終標注數據5000條,經過署名式交叉方法對數據質量進行了檢查.對最終的數據進行了數據劃分,劃分比例為7:2:1,分別作為訓練集、驗證集、測試集.關系分布統計情況如表2所示.實驗數據的統計如表3所示.

表2 關系分布統計表Table 2 Relational distribution statistics

表3 實驗數據的統計信息Table 3 Statistical information on experimental data

從表2可以發現,數據集中包含關系最多的是“裝備”和“屬于”,分別占比為29.68%、24.80%;包含關系最少的是“艦寬”和“吃水”,分被占比0.55%和0.25%.根據關系分布的觀察可以發現此數據集具有很強的領域特性.

從表3可以發現,頭實體或者尾實體重疊三元組和頭尾實體完全重疊在數據中的比例是有一定比例的,條數分別是5435條和68條,占比分別為69.26%和0.87%.數據標注的樣例如表4所示.第1條樣本內容包含的是SPO三元組,“杰拉德R福特號”作為共享的頭實體參與3個三元組.第2條樣本內容包含的是EPO三元組,“胡蜂號”和“1943年”分別作為頭實體和尾實體參與了兩個三元組.

表4 實驗數據的標記樣例信息Table 4 Label sample information of experimental data

3.2 評價指標

提出RDA方法的評價指標和以前的評價方法一致[15].為確保評價的公平,采用忽略掉次序約束的基于片段實體粒度的精確度(P)、召回率(R)和F1值進行計算.基于片段實體粒度的計算方法如公式(10)~公式(12)所示:

(10)

(11)

(12)

其中,TP表示正確被識別出的頭實體、關系和尾實體的組合個數(以實體或者關系片段作為最小粒度),FP表示被錯誤地識別為頭實體、關系和尾實體的組合個數,FN表示未被識別出的頭實體、關系和尾實體的組合個數.

3.3 對比實驗設置

為驗證提出的掛載武器裝備領域知識結合多輪對抗攻擊的復雜三元組方法RDA的有效性,實驗采用了目前在三元組抽取任務中效果最好的4個模型進行比較.第1個模型是2017年Zheng Suncong[16]在ACL會議上提出的NovelTagging;第2個模型是2018年Zeng Xiangrong[17]在ACL會議上提出的CopyR;第3個模型是2019年Fu Tsu-Jui[18]在ACL會議上提出的GraphRel;第4個模型是2019年的蘇劍林[19]提出的百度三元組抽取方法(稱為SJL);第5個是2020年田佳來等人[20]在NLPCC2020會議上提出的HSL方法.對比實驗的設置與對比實驗所對應的特點說明情況如表5所示.

表5 對比實驗信息表Table 5 Comparative experimental information

其中,NovelTagging方法采用端到端模型思想,使用Bi-LSTM進行語義信息捕獲,設計了全新的數據標注策略,用阿拉伯數字1和2分別代表了頭尾實體的相對位置,將關系抽取任務轉化為了橫向上的序列標注問題.CopyR方法將翻譯領域常用的復制機制引入了關系抽取任務,是典型的聯合學習架構.采用兩種策略解碼,一種是聯合解碼器,另一種是多個分離解碼器,采用LSTM進行語義捕獲,通過多個分離解碼器開展復雜三元組的抽取.GraphRel方法在Glove訓練詞向量的基礎上使用LSTM網絡捕獲上下文信息,然后利用Bi-GCN網絡構建了依存結構多跳信息進行捕獲完成兩個階段的任務.第1階段的任務是對實體對進行所屬關系的判斷;第2階段的任務是使用Bi-GCN對入邊和出邊的詞特征進行加強學習,使GCN具有方向特性更加適應關系的有向性的特點.SJL方法首先開展了對實體的識別工作,然后將主語的信息和采用Bi-LSTM對句子的上下文信息進行捕獲輸入至模型中進行0、1序列標注,對復雜三元組擁有一定的處理能力.HSL方法使用具有殘差連接的膨脹卷積技術,擴大了模型的感受野,對信息的遺漏問題進行了緩解,利用自注意力機制對關系進行抽取,對復雜三元組有較好的抽取能力.

3.4 消融實驗設置

為驗證提出的RDA方法中模型組件的效果,以分析多輪對抗攻擊和武器裝備領域知識對實驗結果的貢獻情況,設定了4組實驗進行消融分析.第1組是去除掉多輪對抗攻擊和武器裝備知識庫;第2組是去除對輪對抗攻擊,保留武器裝備知識庫;第3組是去除武器裝備知識庫,保留多輪對抗攻擊;第4組是都保留多輪對抗攻擊并掛載武器裝備知識庫.消融實驗如表6所示.

表6 消融實驗信息表Table 6 Ablation test information

3.5 實驗參數設置

實驗運行在Linux Ubuntu操作系統上,編程語言為Python 3.6.9,使用Pytorch框架搭建神經網絡.依據服務器的GPU大小設定Batch_size 設置為32.本文中的武器裝備知識庫采用Word2Vec模型掛載,向量維度設置為300,滑動窗口設置為5,低頻詞閾值設為1.多輪對抗攻擊的干擾強度系數為1.0.采用早停法對訓練進行控制優化,容忍度設置為20,波動變化的閾值設置為0.00002.本實驗相關的參數如表7所示.

表7 模型參數設置信息Table 7 Model parameter setting information

3.6 實驗結果與分析

3.6.1 對比實驗結果分析

提出的RDA方法運行在Linux Ubuntu操作系統下,使用GPU進行矩陣化加速.訓練過程中對數據進行了7:2:1的比例進行劃分.經過多輪的調參訓練,對學習率、干擾強度系數、變化閾值、容忍度等參數進行了多次的嘗試,最后得到模型參數設置信息表中的最佳參數組合.最終對比實驗的表現對比如表8所示.

表8 對比實驗結果Table 8 Comparative experimental results

經過對表8中的數據分析,可以看出采用單層序列標注的編號為0的NovelTagging與采用分層序列標注的編號為3的SJL方法相比F1值表現分別為23.65%和74.24%,原因可能是兩個方面:一個原因是前者的語義捕獲相對欠佳;另一個原因可能是前者單一的橫向序列標注任務無法解決復雜三元組的存在的標簽重疊問題,而后者的縱向分層可以緩解標簽堆疊的問題.編號為2的采用單一聯合解碼器和采用多個分離解碼器的模型實驗結果取得了18.24%和25.57%的F1值,據此可看出后者多個分離解碼器可緩解復雜三元組遇到的兩大問題:SEO和EPO,獲得了7.33%的表現提升.采用兩階段的標號為3的SJL方法和采用膨脹卷積技術的HSL方法在數據集上的F1值表現分別為74.24%和79.17%,獲得了4.93%的表現提升,可以看出后者采用的膨脹卷積技術將感受野擴大是對關系抽取任務是有利的.上述方法沒有將知識提示融合到模型抽取中,并且魯棒性因為數據有限的原因受到了一定的限制.提出的RDA方法通過掛載武器裝備領域知識,對實體的類型解釋作為新的知識提示融入到模型中,作為第1階段的獎勵,然后結合多輪對抗攻擊提高了樣本多樣性,在有限度的條件下給與模型最大化的困惑增強了模型的魯棒性,最終獲得了最佳表現:81.72%的F1值,與NLPCC2020提出的HSL相比獲得了2.55%的表現提升.

NovelTagging方法的單一的序列標注任務、CopyROneDecoder的單個聯合解碼器和GraphRel1p方法的無Bi-GCN分支,表現均不佳,原因可能是SEO和EPO導致的標簽層次堆疊、分類結果多樣、共享片段的強關聯問題導致的.然后SJL方法采用分層標注的思想,較以前的方法得到了顯著地提升,然后HSL方法使用膨脹卷積技術擴大了感受野,將召回率進行了提升,獲取到了一個更佳的表現.RDA一方面在模型訓練中通過發動多輪對抗攻擊,提升困惑度的方法增強了模型的魯棒性;另一方面利用武器裝備領域知識庫擴充了頭實體類型表述的知識提示,獎勵了結合多輪對抗攻擊的主語識別器的正確樣本,最終獲得了SOTA.

3.6.2 消融實驗結果分析

為了驗證本文提出的組件對實驗效果的影響.通過剝離掉不同的組件,對實驗進行分析對比,實驗結果如表9所示.

表9 消融實驗結果Table 9 Ablation results

從表9可以看出,在不加任何組件,只使用BERT模型作為預訓練模型引入通用領域知識后,表現達到了80.18%的F1值.將實驗編號0和1進行對比,能夠發現掛載的武器裝備領域外部知識庫對表現的提高做出較大貢獻,F1值提高了0.98%.將實驗標號0和2進行對比可以發現,在訓練時發動多輪對抗攻擊是有效的,提高樣本多樣性,在一定程度上增大了模型的困惑度,F1值提升了0.25%.將實驗標號0和3進行對比可以發現,在訓練時發動多輪對抗攻擊并掛載武器裝備領域外部知識庫后效果得到顯著提升,二者結合后F1值提高了1.54%.在不加任何組件的時候,實驗結果的召回率是最低的,通過增加多輪對抗攻擊組件、武器裝備領域外部知識庫組件召回率都得到一定量的提升;實驗的精準率在加入武器裝備領域外部知識庫組件后得到了提高,但是在發動多輪對抗攻擊后卻下滑了,原因可能是多輪對抗攻擊的強度稍微高了,模型的困惑度提高了.在加上多輪對抗攻擊和武器裝備領域外部知識庫以后,實驗結果的精準率得到了進一步的提高,召回率略微下滑,最終F1的表現總體提高了.原因可能是在多輪對抗攻擊后,部分頭實體無法獲得正向的武器裝備領域知識庫的知識提示,沒有獲取到知識獎勵.

為更加直觀地說明對比實驗的表現差異,設定了包含SEO和EPO兩類三元組的例句進行進一步具體的對比分析.例句的實驗結果如表10所示.

表10 三元組抽取樣例表Table 10 Example of the extracting triple

如表10所示,通過對比實驗的樣例可以看出0號實驗的NovelTagging方法的抽取缺失了三元組,沒有完成復雜三元組的抽取,可能是因為只是在標注層面設計了全新的標注策略,并未針對SEO和EPO三元組的問題進行針對性設計.1號實驗的CopyR方法將復制機制應用到了關系抽取的任務中,通過樣例可以發現對SEO類型的三元組抽取效果相較于0號實驗的NovelTagging方法有所提高,但是仍然沒有發現隱含的三元組知識;對EPO三元組的抽取效果仍然不佳,可能是復制機制對頭尾實體沒有進行有效的復制并成功匹配導致的;2號實驗的GraphRel方法雖然使用RNN和GCN增強了編碼能力,但是針對武器裝備領域的抽取結果表現不佳;3號實驗的SJL方法將主語的先驗信息融入了模型,在SEO三元組文本上相較于0號實驗的NovelTagging抽取出更多的三元組,但是還是沒有抽取出隱含的三元組知識;4號實驗的HSL方法使用殘差連接的膨脹卷積技術對3號實驗的SJL方法進行了改進,相較于0、1、2實驗而言保持了SEO三元組的良好抽取表現外還對EPO三元組的效果進行了提升.RDA對3號實驗和4號實驗所采用的兩階段式抽取框架進行了改進提升,取得了最佳的抽取效果.

4 結 語

為解決武器裝備領域中存在的大量單實體重疊(SEO)和實體對完全重疊(EPO)問題,提高復雜三元組的抽取效果,提出了一種掛載武器裝備領域知識結合多輪對抗攻擊的復雜三元組抽取方法(RDA).該方法在以BERT模型作為預訓練模型,在引入通用領域知識的基礎上,使用結合多輪對抗攻擊的頭實體識別器利用指針網絡實現了頭實體的識別,盡最大可能地將數據發動干擾提高了數據的樣本多樣性,增大了模型的困惑度,提高模型的魯棒性.通過掛載武器裝備領域外部知識庫,對類別信息作為知識提示融入模型,進一步地豐富了信息表示.經過對比實驗驗證,提出的RDA方法優于現有方法,有效解決了武器裝備領域的復雜三元組的抽取問題.然而,提出的RDA方法在知識提示部分利用武器裝備領域外部知識庫的資源實現對正確地頭實體進行知識獎勵,本質上還是以提高非結構化文本底層特征的豐富度為切入點.在以后的研究中,可以考慮對多模態知識提示,從而進一步地對現有知識進行充分挖掘.

猜你喜歡
三元組知識庫實體
基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
特征標三元組的本原誘導子
前海自貿區:金融服務實體
關于余撓三元組的periodic-模
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
高速公路信息系統維護知識庫的建立和應用
基于Drupal發布學者知識庫關聯數據的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合