?

基于知識表示學習的知識可信度評估

2021-07-27 07:55張曉明孫維雅王會勇
計算機工程 2021年7期
關鍵詞:三元組圖譜實體

張曉明,孫維雅,王會勇

(河北科技大學信息科學與工程學院,石家莊050000)

0 概述

隨著知識圖譜的快速發展,一些如DBpedia[1]、Freebase[2]和WordNet[3]等大規模開放知識圖譜和領域知識圖譜,已成功應用于智能問答、語義搜索與推薦、大數據分析與決策等任務以及金融和醫療等領域。然而,由于現實世界知識的迅速更新和增長,大量的知識未存在于構建好的知識圖譜內,需要及時對知識圖譜進行更新以滿足應用需求。在更新過程中,不可避免地會引入一些噪聲和沖突,影響了知識圖譜的質量,因此,對知識的可信度進行評估是知識圖譜構建過程中的重要步驟。傳統的知識可信度評估主要依靠人工標注和監督的方式[4],造成了人工以及時間成本的浪費。因此,構建一個高效的知識可信度評估模型具有重要意義??尚哦仍u估模型通過對知識的可信度進行計算,處理引入的噪聲,降低知識圖譜內的噪聲和沖突,提高知識圖譜內的知識質量,從而推動知識圖譜自動化構建工作的進展。

知識可信度評估旨在使用已知的背景信息對三元組的可信度進行計算。具體地,對于三元組的可信度,使用一個[0,1]區間的數值進行衡量,數值越接近0,三元組成立的可能性越小,數值越接近1,三元組成立的可能性越大[5]。目前,對于知識可信度評估的研究主要采用基于表示學習的方法,具有良好性能表現的模型包括基于交叉神經網絡結構的可信度計算模型KGTtm[5]、帶置信度的知識表示學習模型CKRL[6]和一系列基于CKRL 進行改進的模型[7-8]以及基于規則的表示學習可信度計算模型[9-11],這些模型利用知識圖譜的內部信息對三元組知識的可信度進行計算,保持信息的全局一致性,但是沒有充分利用實體類型信息、文本描述信息和圖像信息等外部信息。

本文建立一種基于表示學習的知識可信度評估模型PTCA,在保證背景信息全局一致性的前提下,結合知識圖譜外部信息和內部結構信息,利用實體關聯強度、實體類型以及多步關系路徑信息對三元組知識的可信度進行計算。設計一種通過實體類型信息判斷關系可靠性的方法,將待驗證的三元組中兩實體的實體類型信息以及關系類型信息進行匹配,依據匹配程度得出關系的可靠性,在存在噪聲的FB15k-N1、FB15k-N2、FB15k-N3 和FB15kNM 數據集以及FB15k、FB40k 數據集上對PTCA 進行評估,以驗證其可信度計算能力。

1 相關工作

知識可信度評估主要包括基于本體、基于概率圖模型和基于知識表示學習的方法。

1.1 基于本體的可信度評估

基于本體的知識可信度評估主要使用本體中已經存在的概念對知識進行評估,這種方法的可解釋性強,但是由于無法及時更新,概念的可擴展性較差?;诒倔w的評估方法從不同角度對可信度進行評估,包括依據本體概念以及本體映射信息進行可信度評估的方法[12]、依據內容以及節點信息進行可信度評估的方法[13-14]。

1.2 基于概率圖模型的可信度評估

基于概率圖模型的可信度評估方法將實體和關系建模成圖模型,利用先驗知識確立關聯約束關系,進而對知識的可信度進行評估。此類方法的可解釋性強,而且可以簡化運算?;诟怕蕡D模型的可信度評估方法包括基于概率圖模型且結合路徑排名的算法[15]、神經網絡使用先驗知識進行評估的方法[4]以及基于馬爾科夫邏輯網絡[16]的可信度評估方法。

1.3 基于知識表示學習的可信度評估

自從BORDES 等人提出基于平移假設的TransE模型[17]之后,出現了一系列基于TransE 模型的知識表示學習模型[18-20],從而使基于知識表示學習對知識可信度進行評估的研究成為熱點[21]?;谥R表示學習的可信度評估原理是將知識圖譜內的實體和關系嵌入到相同的低維向量空間中,通過向量之間的運算對知識的可信度進行計算。將知識的可信度計算問題轉化為向量間的計算問題,降低計算復雜度,簡化復雜問題,但是同時降低了問題的可解釋性?;谥R表示學習進行可信度計算的方法可以分為兩類:利用背景信息基于知識表示學習進行計算的方法,利用規則基于知識表示學習進行計算的方法。

利用背景信息基于知識表示學習進行計算的方法通過背景信息中的內容對知識的可信度進行評估,因此,其表現效果容易受到背景信息內容的影響。JIA 等[5]在平移假設的基礎上結合兩實體之間的關聯強度以及對可達路徑的推理,提出一個基于交叉神經網絡結構來衡量三元組可信度的模型KGTtm,該模型綜合利用知識圖譜內三元組的信息以及全局推理信息,從實體、關系和全局三個層面對三元組的可信度進行評估。XIE 等[6]提出一種帶置信度的知識表示學習框架(CKRL),基于平移假設,使用三元組的實體、關系以及實體之間的路徑信息,提出三元組置信度的概念,并把置信度引入知識表示學習,從而發現知識圖譜中潛在的噪聲和沖突。SHAN 等人[7]以CKRL 為基礎,通過對知識圖譜中已有的三元組知識替換實體后形成的負樣本進行評估,形成對帶噪聲的知識圖譜中的負樣本知識進行評估的方法NSM。ZHAO 等[8]在CKRL 框架的基礎上結合實體類型信息以及實體文本描述信息,提出對知識可信度進行評估的方法SCEF。上述一系列模型主要通過可信度對知識表示學習的效果進行強化,未獲得三元組可信度計算的直接結果。

利用規則基于知識表示學習進行計算的方法通過制定的規則對知識的可信度進行評估,但是由于規則的作用域、時間、數量以及規則之間的相互作用的限制,使用該方法對三元組的可信度進行評估時存在一定的局限性。MINERVINI 等人[9]通過指定規則的可信度級別,簡單考慮關系的等價性和逆向性,對規則的可信度進行評估。規則增強的知識表示學習方法[10]首先對知識圖譜內的知識進行規則的挖掘以及推理,然后對規則的支持度以及置信度進行計算,得到規則的可信度。SHU 等[11]提出軟規則的概念,即一種帶可信度的規則,并且依據已有知識以及軟規則對知識進行評估和篩選,從而獲得更加可信的知識。利用規則進行計算的方法首先需要對規則進行挖掘以及推理,然后利用已知的規則進行可信度計算。因此,必須具有完備的規則才能獲取更高的準確性。

本文利用背景信息基于知識表示學習進行可信度計算,考慮到背景信息的豐富性對計算效果的影響以及保持信息全局一致的必要性,選取實體類型信息[22]以及知識圖譜內部信息作為背景信息,以進行三元組知識可信度計算。

2 問題描述

隨著知識圖譜的應用和發展,高質量知識的需求量不斷增加,而現有的知識圖譜內存在的噪聲和沖突導致知識的質量不高,為了提高知識圖譜內知識的質量,需要對知識的可信度進行評估,篩選出高質量的知識。圖1所示為本文主要任務描述,依據已知的背景信息對知識圖譜內三元組知識的可信度進行計算,進而得到帶可信度的知識,其中,已知背景信息包括內部信息(關系路徑、實體關聯強度)和外部信息(實體類型)。

圖1 主要任務描述Fig.1 Main tasks description

3 基于PTCA 模型的知識可信度計算

3.1 PTCA 模型及方法概述

對本文使用的符號進行定義,將三元組表示為(h,r,t)∈T,其包括頭實體h、尾實體t以及連接頭實體和尾實體的關系r,且h、t∈E,r∈R,其中,E和R分別代表實體集和關系集。ei(i=1,2,…,n)表示實體i,rj(j=1,2,…,n)表示實體對之間的關系j。EET表示實體類型,RRT表示關系類型。EET(ei)表示實體ei的實體類型,RRT(rj)表示關系rj的關系類型。

本文對基于多步關系路徑的知識表示學習模型(PTransE)[23]進行改進,設計PTCA 模型。PTCA 模型主要包括3 個方面:1)通過實體間的關聯強度對實體間出現關聯的可能性進行計算;2)結合實體類型信息衡量兩實體之間存在的關系;3)構造兩實體之間的關系路徑,利用多步關系路徑信息進行計算。為確保信息結合的有效性,要保證信息以及結合方式的有效性。實體關聯強度信息基于實體攜帶的資源以及實體之間的資源數量,類型信息數據采用經過驗證的TKRL[22]提取的類型實例以及關系類型信息,多步關系路徑信息通過計算路徑p與直接關系r的相似度進行衡量,同時使用不改變結果數據趨勢的轉換函數來確保結果有效。3 種信息的計算結果通過能量函數進行結合,通過計算損失函數的方式迭代進行表示學習,從而確保信息結合方式有效。PTCA 模型結構如圖2所示,其中,C1表示通過實體間關聯強度計算的結果,C2表示通過實體類型信息計算的結果,C3表示通過多步路徑信息進行推理計算的結果。

圖2 PTCA 模型結構Fig.2 PTCA model structure

三元組可信度的能量函數E(T)通過式(1)進行計算,分數越低說明表示學習效果越好。得到能量函數的計算結果E(T),然后通過式(2)進行轉換將其作為三元組的可信度得分,分數越高說明三元組的可信度越高。

PTCA 模型主要包括3 個步驟:

步驟1根據知識圖譜內的信息獲取實體關聯強度C1,同時得到實體之間的關系路徑信息以及每條路徑出現的概率。

步驟2通過實體類型與關系類型(由擁有此關系的兩實體的實體類型得出)的匹配計算得出C2。

步驟3結合每條路徑出現的概率,使用多步關系路徑信息判斷關系成立的可能性C3。依據能量函數計算的結果,使用式(2)進行轉換得到三元組知識的可信度。

賦予可信度計算的初始值為0,當缺少實體關聯強度信息、實體類型信息或者路徑信息中的一種信息時,缺少信息對應的計算結果為0,最終計算結果有效。在圖3 中,以三元組(Toshikazu Shiozawa,nationality,Japan)為例對可信度計算的流程進行描述。

圖3 可信度計算的流程Fig.3 The procedure of credibility calculation

3.2 實體間的關聯強度

兩實體間的關聯強度指兩個實體存在關聯的可能性,本文使用[0,1]之間的數值進行衡量,數值越接近1 說明兩實體之間存在關聯的可能性越大,即兩實體間的關聯強度越大,得出實體關聯強度的相關定理1。CKRL 模型[6]通過PCRA 算法[23]對實體間的關聯強度進行衡量,使用連接兩實體的路徑數量表示實體間的關聯強度。文獻[5]提出基于圖模型進行運算的ResourceRank 算法,以刻畫兩個實體之間的關聯強度。

定理1兩實體之間的關聯強度越大,它們之間出現關系的可能性越大。

PTCA 將兩實體之間的關聯強度作為衡量三元組可信度的一個指標。如圖4所示,已知實體對(e1,e2)之間存在關系{r2+r3}、{r1}、{r4+r5+r6},實體對(e1,e3)之間存在關系{r3}。依據定理1,實體對(e1,e2)之間存在關系的可能性大于實體對(e1,e3)之間存在關系的可能性。兩實體之間關聯強度的計算主要包括3 個步驟:1)獲取知識圖譜內的實體;2)迭代得出兩實體之間的關系路徑;3)計算兩實體之間的關聯強度R(h,t)。

圖4 實體關聯強度示意圖Fig.4 Schematic diagram of entity correlation strength

兩實體之間的關聯強度通過式(3)進行計算,R(h,t)表示實體h和實體t之間的關聯強度,R(h,t)的值處于[0,1]之間,越接近于1 說明兩實體之間的關聯強度越大。文獻[5]中考慮到由于知識圖譜中可能存在噪聲和沖突,對信息的正確性產生影響,因此為了提高模型的容錯率,假設每個節點的資源流都有相同概率θ可以直接跳轉到的隨機節點,并且隨機流向t的這部分資源是1/N,其中,N是實體數。本文為了提高PTCA 的容錯率,引入隨機跳轉概率θ。兩實體之間的關聯強度通過兩實體之間的資源(關系路徑的數量)占兩實體總資源量的比例進行衡量。實體的資源量可以衡量某實體攜帶的信息量,將每個實體看作1 個節點,通過式(4)進行計算,R(n)表示n節點的資源量。假設m為n的前驅節點,S為m節點的集合(即n節點的所有前驅節點的集合),Nmn表示連接m、n兩節點的關系路徑數量,OODm表示經由m節點流出的資源,即m的出度。n節點的資源量通過集合S內所有前驅節點m分別按規則進行運算,然后求和,計算規則如下:m節點與n節點之間的資源占m節點流出資源的比例與m節點攜帶資源量的乘積,這種計算規則的定義參考了CKRL[6]模型中使用的PCRA[22]算法。

實體關聯強度具體實例如圖5所示。以三元組(Toshikazu Shiozawa,nationality,Japan)為例,已知兩實體之間存在8 條路徑,頭實體Toshikazu Shiozawa 的出度為5,尾實體Japan 的入度為8,通過迭代得出頭實體的資源量R(h)以及尾實體的資源量R(t),進而計算得出兩實體間的關聯強度R(h,t)。

圖5 實體關聯強度實例Fig.5 Entity correlation strength example

3.3 結合類型信息的關系判斷

類型信息包括實體類型信息以及關系類型信息,其中,關系類型表示擁有某關系的兩實體的實體類型。例如,已知所有存在關系r的實體對,同時得到這些實體對中每個實體的實體類型,實體對中兩個實體的實體類型以成對的形式組成實體類型對,r的所有實體類型對組成r的關系類型,同時使用定理2作為計算依據。PTCA 通過對三元組(h,r,t)中頭實體h的實體類型信息EET(h)、尾實體t的實體類型信息EET(t)、r的關系類型信息RRT(r)進行匹配,判斷實體對(h,t)之間存在關系r的可能性。匹配方法如圖6所示,對于三元組(e1,r1,e2),已知頭實體e1的實體類型EET(e1)包括EET1、EET2、EET3、EET4,尾實體e2的實體類型EET(e2)包括EET1、EET2、EET4,r1對應的關系類型RRT(r1)包括RRT1(EET4,EET`)、RRT2(EET4,EET3)、RRT3(EET5,EET2)、RRT4(EET2,EET2),通過實體類型與關系類型的匹配可以得出成功進行匹配的有RRT1和RRT4,依據定理2可以判斷實體對(e1,e2)之間存在關系r1的可能性。

圖6 實體類型匹配示意圖Fig.6 Schematic diagram of entity type matching

定理2實體類型與關系類型成功匹配的數量越多,實體之間存在關系的可能性越大。

通過式(5)計算實體類型的匹配程度,將全部類型中匹配到的數量的比例作為衡量三元組可信度的標準,其中,N表示實體的類型與實體對類型相匹配的數量,NNTh表示頭實體中實體類型數量,NNTt表示尾實體中實體類型數量,NNTr表示關系類型的數量。T(h,r,t)處于[0,1]區間,值越大說明三元組的可信度越大。

實體類型匹配具體實例如圖7所示。對于三元組(Toshikazu Shiozawa,nationality,Japan),已知實體Toshikazu Shiozawa存在5種實體類型,如people/person、film/actor 等,實體Japan 存在8 種實體類型,如location/location、location/country 等,擁有關系nationality 的實體對可能存在3種實體類型,如(people/person,location/country)、(tv/tv_actor,tv/tv_location)等。由圖7 可知,實體類型成功匹配的數量為3,該三元組通過匹配計算得出的可信度為0.75。

圖7 實體類型匹配實例Fig.7 Entity type matching example

3.4 基于多步路徑信息的關系判斷

路徑信息中蘊含豐富的關系信息,為三元組可信度計算提供了有力支撐。CKRL[6]通過計算兩實體間關系r和路徑p之間的語義相似度對三元組的可信度進行衡量,KGTtm[5]使用可達路徑推理的算法計算三元組可信度。

PTCA 依據多步關系路徑信息計算三元組可信度。在單步關系路徑信息的基礎上進一步推理得出間接關系路徑,構成多步關系路徑信息,然后得出定理3?;诙嗖铰窂叫畔⒂嬎闳M可信度的PTransE[23]方法如圖8所示,依據定理3,通過三元組(h,r1,e1)、(e1,r2,t)可以得出包含多步關系路徑的三元組(h,r1+r2,t),使用p表示多步關系路徑r1+r2,因此,包含多步關系路徑的三元組可以表示為(h,p,t)。對于三元組(e1,r,e2)之間的關系r,可以通過多步關系路徑p1:r1+r2以及p2:r3+r4+r5推理得出。同時,通過實體間的關聯強度來確保關系路徑有效。

圖8 多步路徑信息示意圖Fig.8 Schematic diagram of multi-step path information

定理3存在間接關系的2 個實體之間至少具有一條多步關系路徑。

與PTransE[22]計算多步關系路徑與直接關系相似度的方式相同,PTCA 使用式(6)計算路徑p與直接關系r的相似程度,分數越低說明路徑p與直接關系r越接近。

本文期望相似度的結果能夠與前兩種計算三元組可信度方法的結果趨勢一致,即高分數代表高可信度的知識,且數值位于[0,1]區間,因此,通過式(7)對計算結果進行轉換。其中,P(h,t)={p1,p2,…,pn}表示兩實體之間存在的所有路徑,n為路徑的數量。每條路徑通過式(6)進行計算,然后使用式(7)將計算的結果轉換為[0,1]區間的數值,最后進行平均計算,得出基于多步關系路徑信息的三元組可信度結果。

多步路徑信息具體實例如圖9所示。對于三元組(Toshikazu Shiozawa,nationality,Japan),兩實體之間包含8 條關系路徑、7 條多步關系路徑以及1 條直接關系路徑,將多步關系路徑抽象為pi進行表示,計算路徑與直接關系的相似程度EER(h,pi,t),然后將RRP(h,r,t)轉換為[0,1]區間的數值進行路徑與關系的相似程度衡量。

圖9 多步路徑信息實例Fig.9 Multi-step path information example

3.5 算法描述

PTCA 算法描述如算法1所示,使用三元組S={(h,r,t)}作為數據輸入。首先,使用PTCA 的能量函數對實體和關系進行表示(嵌入);然后,通過R(h,t)、T(h,r,t)以及RRP(h,r,t)進行可信度計算,更新能量函數的結果;最后,更新損失函數,進行下一輪迭代學習。

算法1PTCA 算法

輸入S,S′//S={(h,r,t)}為三元組集合,S′為負例三元組,設置正負例間隔γ、學習率、維度n

輸出S_C//經過表示學習的三元組S及其可信度C的集合

4 實驗結果與分析

本文通過三元組分類任務、噪聲檢測任務以及知識圖譜補全任務,驗證PTCA 模型的知識可信度計算性能。三元組分類任務使用可信度計算的結果對三元組進行二分類,分類為正確三元組以及錯誤三元組,通過正確分類的三元組的比例檢驗可信度計算結果的準確率。噪聲檢測任務依據三元組分類的結果,計算準確率以及召回率,依據PR(準確率/召回率)曲線衡量模型識別錯誤三元組的能力,進而衡量模型的可信度計算能力。知識圖譜補全任務(實體鏈接預測)用來檢驗模型的知識表示學習效果。

4.1 數據集

本文實驗使用從Freebase 提取的典型基準數據集FB15k、FB40k 作為正例樣本集,使用文獻[13]中基于FB15k 數據集[17]形成的帶噪聲數據集作為負例樣本集,負例樣本集包括包含10%噪聲的FB15k-N1、包含20% 噪聲的FB15k-N2 以及包含40% 噪聲的FB15k-N3 數據集。此外,為了對實驗結果進行有效評估,抽取正例樣本集以及負例樣本集中的三元組進行標注,形成包含20%噪聲的FB15kNM 數據集,從FB15kNM 數據集中隨機抽取同等數量的數據形成包含5% 噪聲的FB15kNM-1、包含10% 噪聲的FB15kNM-2 以及包含20%噪聲的FB15kNM-3。其中:三元組分類任務以及噪聲檢測任務依據可信度計算結果進行評估,因此,選擇使用0、1 標記的數據集進行實驗;知識圖譜補全任務依據能量函數的計算結果進行評估,因此,選用原始數據集進行實驗。FB15k 與FB40k 之間最主要的差別在于實體數量,且數據集中不含噪聲,因此,通過三元組分類任務以及知識圖譜補全任務實驗結果對模型在實體數量不同數據集上的性能表現進行對比,從而驗證模型的適用性。數據集統計信息如表1所示。

表1 數據集統計信息Table 1 Statistics of datasets

4.2 實驗參數設置

實驗設置不同超參數的值以對三元組分類的結果進行評測。已知λ1+λ2=2,通過設置不同參數得出此方法下表現最好的模型,最終選取具有代表性的平均計算模型PTCA1(參數設置為λ1=1、λ2=1)以及表現最好的模型PTCA2(參數設置為λ1=1.5、λ2=0.5)與對比模型CKRL[6]以及基準模型PTransE[22]進行比較。λ1、λ2的調參過程如下:以0.1為步長,保持λ1+λ2=2,調整參數,通過在FB15kNM 數據集上三元組分類任務的結果選取參數進行實驗。參數λ1對三元組分類結果的影響如圖10所示,實驗結果顯示,隨著λ1的增加,三元組分類的準確率平穩上升,在λ1=1.5 時達到峰值,隨后隨著λ1的增加,三元組分類的準確率快速下降,可以得出此方法實驗結果最好時參數的設置為λ1=1.5、λ2=0.5。

圖10 參數λ1 對三元組分類任務結果的影響Fig.10 Influence of parameter λ1 on the results of triplet classification task

使用最小批量隨機梯度下降方法(Mini-batch SGD)對參數進行優化和更新。正負例間隔γ設為1,學習率η在{0.000 1,0.001,0.01}中選擇,本次實驗學習率η為0.001,實體和關系的維度n為100。

4.3 三元組分類任務

三元組分類的目的是預測三元組是否正確,其可以看作是一個二分類問題。本次實驗中PTCA 模型依據可信度得分進行三元組分類,其他對比模型通過式(2)對能量函數的計算結果進行轉換,同樣得到[0,1]之間的數值并作為其可信度得分,依據此得分進行三元組分類。將三元組正確分類的比例作為三元組分類結果的準確率并進行比較,準確率高則表示三元組分類效果好,三元組可信度計算結果更加準確。

4.3.1 評價標準

可信度計算的結果為[0,1]之間的數值,得分越高表示三元組越可信,因此,依據計算結果將可信度得分低于0.5 的三元組劃分為錯誤三元組,將可信度得分不低于0.5 的三元組劃分為正確三元組。

4.3.2 實驗結果及討論

在FB15k、FB40k 兩個數據集上對PTCA、CKRL(LT+PP+AP)[6]以及基準模型PTransE 進行實驗,比較模型在不同實體規模數據集上的性能表現,實驗結果如表2所示。從表2 可以看出,與其他模型相比,PTCA 在不同實體數量數據集上的表現最優,并且在實體數量增加時模型仍然具有很高的準確率。因此,PTCA 模型具有一定的適用性。

表2 三元組分類的準確率比較結果1Table 2 The accuracy comparison results 1 of triplet classification %

分別在FB15kNM-N1、FB15kNM-N2、FB15kNM-N3三個數據集上對PTCA、CKRL(LT+PP+AP)[6]以及基準模型PTransE 進行比較,實驗結果如表3所示。

表3 三元組分類的準確率比較結果2Table 3 The accuracy comparison results 2 of triplet classification %

從表3 可以看出:

1)在同一數據集中,PTCA(PTCA2)三元組分類的效果優于CKRL[6]與基準模型PTransE[23],因此,PTCA具有更好的三元組分類能力。與對比模型以及基準模型相比,PTCA 最主要的區別以及優勢在于實體類型信息的使用,結合調參實驗結果可以看出,加入實體類型信息可以提高三元組分類的能力,但是僅使用類型信息而不結合路徑信息將無法達到可信度計算的最優效果,進一步證明在通過實體關聯強度信息進行限制的情況下,綜合考慮實體類型信息以及多步關系路徑信息對三元組進行可信度計算的有效性。

2)隨著噪聲的增加,PTCA 的三元組分類效果降低,說明加入噪聲不利于三元組分類任務,PTCA(PTCA2)的準確率始終高于其他模型,說明實體關聯強度信息、實體類型信息以及多步路徑信息的結合使得模型對噪聲的處理能力提高。

4.4 知識圖譜噪聲檢測任務

噪聲檢測任務的目的是根據知識圖譜內部的三元組來檢測知識圖譜內可能存在的噪聲和沖突。為了驗證PTCA 檢測噪聲的能力,采用該任務進行評測。本次實驗依據三元組分類的結果,計算各模型對三元組進行分類的準確率以及召回率,使用抽樣的方法得出PR 曲線,通過PR 曲線對三元組分類效果進行衡量。

4.4.1 評價標準

噪聲檢測任務的評價標準是三元組的可信度得分,得分越低的三元組成為噪聲的可能性越大。因此,噪聲檢測任務可以通過模型對噪聲數據正確分類的結果進行衡量。此任務可以直接衡量三元組可信度計算的效果,在同一召回率的情況下,準確率越高,模型的表現效果越好,識別噪聲的能力越強,三元組可信度的計算結果越準確。

4.4.2 實驗結果及討論

在同一數據集FB15kNM 上通過噪聲檢測任務實驗對PTCA、CKRL[6]以及PTransE[22]進行性能比較,其中,CKRL 模型包括LT(Local Triple Confidence)、PP(Prior Path Confidence)、AP(Adaptive Path Confidence)3 種模式,評測結果如圖11所示。

圖11 噪聲檢測任務實驗結果Fig.11 Experimental results of noise detection task

從圖11 可以看出:

1)與其他模型相比,PTCA(PTCA2)的性能最好,優于經過證明具有良好噪聲與沖突檢測能力的CKRL模型,因此,PTCA 具有更好的噪聲檢測能力。但是,CKRL 模型中表現最好的CKRL(LT+PP+AP)效果優于PTCA1,可以認為,CKRL 中路徑信息的使用方法優于PTCA 中多步路徑信息的使用方法。實驗結果證明,PTransE能量函數的局限性導致其噪聲檢測能力很弱。因此,CKRL 中使用的路徑信息優于多步路徑信息也可能是受到PTransE 能量函數的影響。

2)引入可信度計算的模型(PTCA、CKRL)噪聲檢測能力明顯優于沒有引入可信度計算的模型(PTransE)。因此,可信度計算可以提高模型的容錯率。

圖12所示為不同噪聲比例的數據對PTCA、CKRL[6]以及PTransE[23]的影響,可以看出,隨著噪聲比例的增加,模型監測噪聲的能力增強,與其他模型相比,PTCA檢測噪聲的能力更穩定,并且在噪聲含量很低的數據集中仍然具有很高的準確率,其實際應用價值更高。

圖12 噪聲對模型的影響Fig.12 Effect of noise on models

4.5 知識圖譜補全任務

知識圖譜補全是一項經典的評測任務,其目標是對知識表示的質量進行評估。最常見的補全是基于表示學習的鏈接預測。本文實驗通過實體鏈接預測進行知識圖譜補全任務,實體鏈接預測通過三元組中已知的實體預測缺失的關系。由于PTCA 對三元組的表示學習過程使用了可信度計算的結果,因此通過實體鏈接預測可以對模型的表示學習能力進行評估,從而證明可信度計算的有效性。

4.5.1 評價標準

首先使用所有實體替換三元組中的某個實體(頭實體或者尾實體)形成新的三元組,通過能量函數對這些三元組進行計算,并根據得分進行排序,得分越低排名越靠前。根據正確答案的排序評估該模型在鏈接預測中的能力,評價指標包括正確實體得分的平均結果排名(MeanRank)以及預測結果前十項中正確結果所占比例(Hits@10)。由于在負例生成過程中產生了一些“污染”三元組,因此本實驗使用“Raw”和“Filter”兩種設置,“Raw”表示未經處理的數據,“Filter”表示剔除“污染”三元組的數據。

4.5.2 實驗結果及討論

在FB15k、FB40k 兩個數據集上對PTCA、CKRL(LT+PP+AP)[6]以及基準模型進行實體鏈接預測實驗,比較模型在不同實體規模數據集上的表現,實驗結果如表4所示,最優結果加粗表示。從表4 可以看出,模型在實體數量增加的情況下,MeanRank 評測指標的結果有所下降。但是,與其他模型相比,PTCA 的實體鏈接預測結果最好,表明其表示學習能力最強,具有一定的適用性。

表4 實體鏈接預測結果1Table 4 Entity link prediction results 1

分別在FB15k-N1、FB15k-N2、FB15k-N3 等3 個數據集上對PTCA、CKRL(LT+PP+AP)[6]以及PTransE[23]進行比較,實驗結果如表5所示,表中用MR 表示MeanRank,R 表示Raw,F 表示Filter。

表5 實體鏈接預測結果2Table 5 Entity link prediction results 2

從表5 可以看出:

1)PTCA(PTCA2)在所有數據集上的MeanRank評測指標,在剔除“污染”三元組的數據(Filter)上表現效果最優,在未經處理的數據(Raw)上表現效果比PTransE 差,結合不同參數設置下的結果發現,路徑信息的權重越大,則結果越好,因此,路徑信息相較類型信息更能提高模型的表示學習能力。PTCA的Hits@10 評測指標結果優于其他模型,因此,PTCA 具有較強的表示學習能力。與CKRL 相比,PTCA 的優勢在于實體類型信息的使用,與PTransE相比,PTCA 的優勢在于對三元組可信度的計算以及實體類型信息的使用。根據結果可以看出,可信度計算以及實體類型信息都可以增強模型的表示學習能力,而且實體類型信息更有助于提高模型的表示學習效果。因此,結合實體類型信息進行可信度計算的方法可以明顯提高模型的實體鏈接預測能力。

2)隨著噪聲的增加,PTCA(PTCA2)的各項評測指標仍然保持穩定,而且與其他模型相比優勢更加明顯。因此,在有噪聲干擾的情況下,經過可信度計算,PTCA 依然可以保持很好的表示學習效果,進一步證明可信度計算能夠提高模型的噪聲識別能力。

4.6 實驗效果展示

本文提出一種計算三元組可信度的模型PTCA,使用實體間關聯強度、實體類型信息、多步關系路徑信息對三元組的可信度進行計算,并且通過圖13 展示實驗效果??梢钥闯?,PTCA 首先對存在噪聲的知識圖譜內知識的可信度進行計算,得到帶可信度的知識,圖中使用實線表示高可信度的知識,使用虛線表示低可信度的知識,結合可信度計算的結果進行篩選,可以減少低可信度的知識,保留高可信度的知識,經過篩選的知識圖譜中知識質量更高。

圖13 實驗效果展示Fig.13 Experimental effect display

5 結束語

本文建立一種使用實體間關聯強度、實體類型信息、多步關系路徑信息對三元組的可信度進行計算的PTCA 模型。分別在知識圖譜噪聲檢測任務、知識圖譜補全(實體鏈接預測)任務和三元組分類任務中對該模型進行評測,實驗結果表明,相比CKRL和基準模型PTransE,PTCA 模型可以檢測知識圖譜內部存在的噪聲和沖突,能夠對三元組的可信度進行有效計算,而且在有大量噪聲干擾的數據集中性能表現更優。然而,PTCA 模型僅引入不影響全局一致性的實體類型信息作為外部信息,未充分利用如圖像信息、文本描述信息等大量豐富的外部信息。因此,下一步考慮將知識圖譜內部結構信息、實體類型信息、圖像信息、文本描述信息等引入知識可信度評估中,并在更復雜的大規模知識圖譜內對模型的適用性以及魯棒性進行測試。

猜你喜歡
三元組圖譜實體
特征標三元組的本原誘導子
繪一張成長圖譜
前海自貿區:金融服務實體
關于余撓三元組的periodic-模
一個時態RDF存儲系統的設計與實現
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
主動對接你思維的知識圖譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合