?

球面坐標下基于語義分層的知識圖譜補全方法

2024-02-18 13:46郭子溢林廣艷譚火彬
應用科學學報 2024年1期
關鍵詞:三元組層級圖譜

郭子溢,朱 桐,林廣艷,譚火彬

北京航空航天大學軟件學院,北京 100191

知識圖譜(knowledge graph,KG)概念的定義[1]隨2012 年谷歌知識圖譜[2]的發布而確立。知識圖譜由描述事實(fact)的三元組(頭實體,關系,尾實體)組成。目前學術界如WordNet[3]、Freebase[4]、YAGO[5]、Wikidata[6]、DBpedia[7]等開放知識圖譜,為Q&A[8]和推薦系統[9]等上層應用提供底層數據支持。但現有知識圖譜并不完善,缺少許多有效三元組,即語義含義在現實中成立,卻不存在于知識圖譜中的事實。為保證向上層應用提供更完善的服務,知識圖譜補全(knowledge graph completion,KGC)便成為了知識圖譜領域的一個主要研究方向。

該任務旨在根據圖中已知的邊的信息,對圖中缺失的邊進行預測,即鏈路預測任務。當前的主流思路是通過知識表示學習,將知識圖譜中的實體和關系嵌入到連續低維的向量空間中進行運算,因此知識圖譜補全任務方法也被稱為知識圖譜嵌入(knowledge graph embedding,KGE)。

目前主流的知識圖譜嵌入模型類別大致可以分為:基于翻譯的方法[10-14],基于張量分解的方法[15-19]和基于神經網絡的方法[20-32]?,F階段基于翻譯模型也衍生出了使用幾何工具的拓展方法,包括RotatE[33]、HAKE[34]、Rotate3D[35]等。

但是大多上述現有知識圖譜嵌入模型忽略了關系帶來的語義層次信息。例如三元組〈蘋果樹,所屬類別,植物〉,其中的尾實體“植物”屬于更泛化的類別,其所處的語義層級顯然高于“蘋果樹”,這種實體間的語義層次差異是客觀存在的,對此類信息的丟失也會一定程度地影響最終結果。一般情況下,想要直接捕獲這種差異信息比較困難,但是在知識圖譜中,連結兩個實體間的關系可以通過關系自身的語義信息,直觀地將這種層次結構展現出來,例如對于一個未知的三元組〈A,所屬類別,X〉,通過對關系“所屬類別”語義的直接理解,不難判斷未知實體A 屬于未知實體X 的“子類”,因此如何通過對關系語義層面的建模,從而獲取并充分利用實體間層次結構的差異信息便成為了關鍵問題。

對知識圖譜中的語義分層現象進行建模是知識圖譜補全的一種新方法,起源于2016 年提出的類型化知識表示學習(type-embodied knowledge representation learning,TKRL)[36]模型,其思想是利用實體的類型信息對語義分層現象進行建模。但并非所有數據集都包含實體類型數據,若數據集不直接存放此類信息,則需要通過維基百科進行額外的檢索操作。文獻[37-38] 通過在關系集合中劃分關系的層次結構,再以聚類方式學習關系的語義層級,該方法弱化了更為重要的實體語義層級信息。HAKE 模型則是重新聚焦于實體的語義層級差異,通過極坐標系對這種差異信息進行建模,比TKRL 更加直觀且簡易,但HAKE 對關系語義部分的建模仍不夠充分,模型使用的幾何方法無法合理地建模逆關系。

本文提出一種在球面坐標系下基于語義分層信息的知識圖譜補全(knowledge graph completion on semantic hierarchy in spherical coordinates,SpHKC)模型,旨在捕獲關系在語義層面對實體語義層級的描述信息,提高了模型的直觀性以及可解釋性,豐富了嵌入的表達能力。SpHKC 模型繼承了HAKE 模型的優勢,可基于知識圖譜原本的三元組信息進行訓練,且不需要額外進行聚類操作。SpHKC 模型將關系視為從頭實體到尾實體的移動,并且從“處于同一層級”和“處于不同層級”兩方面考慮實體間的關系,具體講,就是在球坐標系下,將實體所處的語義層級建模為該點位的極徑,將關系的“移動”操作拆解為縮放和旋轉:通過縮放操作控制實體的極徑,對關系語義中蘊含的層次信息進行建模;通過對處于同一語義層級的實體進行旋轉,對關系所反映出的不同實體語義之間的差異進行建模。實驗表明,相較于目前主流方法,SpHKC 在當前大部分數據集上的性能指標都有一定提升,證明了方法的有效性。

1 基本原理

1.1 建模思路

實體的語義分層是知識圖譜中客觀存在的現象,實體所處的語義層級也屬于實體自身的屬性,在理論上通過獲取實體語義層級信息可以更精確地對實體進行表示。一般情況下,獲取實體的語義信息往往需要使用自然語言學習等方法進行大量的預訓練,成本較高。但在知識圖譜中,實體之間的語義層次差異能夠通過實體之間的關系得到更為顯式地表達。

如圖1 所示,在三元組〈Dog,belong_to,Animal〉中,Animal 和Dog 在語義上的層級信息是它們各自的固有屬性,但是這種語義層級的差異通過關系belong_to 直觀地反映了出來,并且上層實體Organism 也通過另一種關系與Animal 相連,這種通過關系路徑彼此連結的且有語義層次差異的實體共同組成了樹狀結構,在路徑上越靠近根節點的實體越抽象,反之越靠近葉子節點的實體越具體。

圖1 知識圖譜語義層次樹狀結構Figure 1 Tree structure of semantic hierarchy in knowledge graph

另外,若連結實體的關系不同,則頭實體和尾實體所展現出來的語義層次差異也會變化,但是通過單個關系無法判斷單個實體所處的語義層級。以圖1 中另一個三元組〈Beijing,located_in,China〉為例,如果只觀察關系belong_to 和located_in 的差別,則無法確定實體Animal、Dog、China 和Beijing 分別處于哪一語義層級,關系所展現出來的語義層次差異只是相對的概念,因此把關系視為從一個實體到另一個實體的移動來展現實體的語義層級差別,而不是通過對關系本身語義的學習去定性實體的語義層級,是本文的根本建模理念。

為了對上述語義層次的樹狀結構進行建模,我們將其映射到球坐標系中,如圖2 所示。嚴格來說是將樹結構的節點映射到球坐標系內圍繞極點存在的無限個同心球面上,不同球面代表實體所處的不同語義層級,球面半徑對應路徑長度,半徑越小,語義層級越高。

圖2 語義樹狀結構到球面坐標系的映射Figure 2 Mapping from tree structure of semantic to spherical coordinate system

在球坐標系中,SpHKC 從兩個方面考慮對實體和關系的建模,即處于同一層級的實體和處于不同層級的實體。對關系的建模則從這兩部分入手。傳統基于翻譯的方法往往將關系視為從一個實體到另一個實體的“一次操作”,采用的方式是“平移”和“旋轉”,本方法將關系所代表的移動操作拆分為兩個主要部分:1)通過控制球面半徑以表達實體語義結構層次差異的“縮放”操作;2)同一語義層級內通過控制實體點位三維角度以表達實體語義內容含義差異的“定位”操作,如圖3 所示。

圖3 關系在球面坐標系的建模Figure 3 Modeling of relation in spherical coordinate system

圖3 中的h和t分別代表三元組〈h,r,t〉內頭尾實體在球面坐標中的映射向量。在預測過程中,圖3(a) 表示關系的定位操作,通過球面坐標中的極角rθ和方位角rφ調整頭實體在球面的位置,使頭實體與尾實體在語義含義層面趨近。圖3(b) 表示關系的縮放操作,通過對球面坐標中極徑rm的縮放,試圖縮小頭實體與尾實體在語義層次層面的差距。將兩種操作視為整體,共同表示關系的移動操作,從而得到預測尾實體的嵌入t′。最后利用h和t′計算距離函數,對模型的預測效果進行打分。

1.2 球面坐標系及相關符號說明

本文引入球面坐標系對知識圖譜中的語義分層現象進行建模,球面坐標系中各參數如圖4 所示,每個點所處的空間方位用極徑r、極角θ、方位角φ進行描述。

圖4 球坐標系示意圖Figure 4 Diagram of spherical coordinate system

由于關系需要通過控制上述3 個參數來描述兩個實體間語義層次和語義含義之間的差異,因此對關系的建模將從極徑部分rm、極角部分rθ、方位角部分rφ這3 個維度進行。同理,實體嵌入也分為hm、hθ和hφ,上述嵌入均為k維向量,公式為

式中:[h]i為向量h的第i個分量;向量運算“?”表示哈達瑪積,即兩個向量的元素積。

2 方法

2.1 極徑部分

該部分旨在對不同實體的語義層次差異信息進行建模,在極徑維度上,關系將進行縮放操作,以表示實體在不同語義層級的躍遷。通過這種方式,每個實體在球坐標系的極徑參數便可以表達實體的語義層級,即將hm和tm中的每一個分量[hm]i和[tm]i視為描述實體hm和tm語義層次的組成部分,即為極徑;將rm中的每一個分量[rm]i視為在第i個分量上對頭實體進行縮放操作。于是我們可以得到不同的頭實體在同一條關系的作用下進行相同縮放的公式,為

式中:rm表示對頭實體嵌入hm的每一個分量分別進行縮放操作。

進一步可以得到初步的極徑部分距離函數,公式為

式中:hm和tm的每一個分量[hm]i和[tm]i的取值范圍為實數域。這是因為通過模型的訓練后,正樣本的hm和tm計算出來的距離函數偏小,使[hm]i和[tm]i更傾向于享有相同的符號;而對于負樣本,不同的符號會導致距離函數的計算結果明顯偏大。于是通過符號的差異可以更方便地對三元組的存在性進行判斷。rm的每一個分量[rm]i的取值范圍為非零實數域,因為在球面坐標中約定極徑不取負值,即不會對“向后”的距離進行測量。異符號是用于輔助區分負樣本,因此在本方法中用于訓練的關系數據不存在負樣本,若[rm]i可以取到負值,則可能發生正樣本頭實體在正確關系的作用下靠近負樣本的現象,這顯然是不合理的。

但是上述對實體和關系的建模仍存在問題,從圖1 可以看到,實體Beijing 和實體The Great Wall 均通過同一條關系located_in 與實體China 相連,但是很難認為Beijing 和The Great Wall 處于同一語義層級。由于知識圖譜具有人為可修改性,管理者后續向其中添加三元組〈The Great Wall,located_in,Beijing〉也是合理的,因此在極徑部分對關系建模時還需要進行補充,修改后的距離函數為

在原距離函數的基礎上對關系嵌入額外添加了rmix部分,該部分融合頭尾實體的信息之后進行訓練,使模型結合了關系前后實體的信息從而對關系進行更為精確的建模??紤]到設計rmix的初衷是對頭尾實體部分進行信息的補足,不能造成hm和tm符號的反轉,因此[rmix]i的取值范圍規定為[-[rm]i,1]。

2.2 極角部分

解決了對實體不同語義層級差異信息的建模問題后,即可利用極角部分對相同語義層級下不同實體的語義含義差別信息進行建模,例如三元組〈小明,朋友,小王〉。這部分思想更貼近傳統的翻譯模型,如RotatE,將關系rθ建模為實體hθ到實體tθ的旋轉操作,公式為

由于是在球坐標系下進行建模的,因此對極角的相加實際上就表示旋轉操作。另外,在球坐標系中約定極角的取值范圍為[0,2π),故[hθ]i、[tθ]i和[rθ]i的取值范圍均為[0,2π),于是極角的距離函數可以寫為

式中:除以2 的目的是保證sin 函數內的自變量處于一個周期內。距離函數與HAKE 相同,由于相位角具有周期性特征,因此SpHKC 沒有直接采用tθ與預測尾實體向量的差值作為計算結果的l2范數,而是使用了sin 函數進行得分的評估。

2.3 方位角部分

方位角和極角的變化共同構成了關系的定位操作。在球坐標系中,點在球面上的位置由兩個角度參數共同控制,因此方位角部分是對極角部分建模的補充,強化了實體和關系嵌入的表達能力。與極角不同,方位角的取值范圍一般為(-π/2,π/2],用來描述球面上的點“向上”或“向下”的俯仰操作,并且不能“向后”,因為如果一個點的方位角超過了這個范圍,那么在球面上就會存在另一個與該點極角相差π 的點,與該點的方位角取值范圍產生交集。從直觀上講,球面相比較平面多加了一個維度,也使得實體和關系的表達空間更加廣闊。

該部分思路與極角部分的操作基本一致,將關系rφ建模為實體hφ到實體tφ的旋轉操作,公式為

與球坐標系相同,[hφ]i、[tφ]i和[rφ]i的取值范圍均為(-π/2,π/2]。方位角距離函數為

2.4 總距離函數與損失函數

將極徑、極角以及方位角部分進行整合,可以得到SpHKC 模型的距離函數,公式為

式中:λ、μ為模型的超參數,用于控制各部分的權重占比。預測尾實體和真實尾實體之間的距離越小,模型的評估效果越好,因此得分函數可以表示為

模型使用基于負采樣損失的損失函數進行模型的優化,并且采取自我對抗式負采樣,損失函數為

式中:γ為誤差邊界,屬于模型的超參數;σ為sigmoid 函數;表示第i個負樣本在全部負樣本中的可靠性比重,用于篩選明顯不合理的負樣本,公式為

式中:超參數α為平滑參數。

3 實驗

3.1 數據集

實驗使用的數據集為開源知識圖譜WordNet 的子集WN18RR、Freebase 的子集FB15k-237 以及YAGO 的子集YAGO3-10。在知識圖譜補全任務的實驗中,早期使用的大多是WN18、FB15k 以及YAGO3 數據集,但是由于這些數據集存在測試集泄露問題,模型在這些數據集上的效果普遍虛高,因此目前大部分主流方法是在修正后的WN18RR、FB15k-237 以及YAGO3-10 數據集上進行實驗。這3 個數據集的信息如表1 所示,可以看到它們在規模上存在一定差別,其中FB15k-237 和YAGO3-10 數據集的三元組較豐富。

表1 數據集統計信息Table 1 Statistics of datasets

3.2 實驗超參數及其他配置

本文所提出模型采用的超參數由網格搜索得出,例如YAGO3-10 數據集上的超參數,如表2 所示。此外,采用Adam 算法對模型參數進行優化,并且在訓練時學習率采用多段衰減,在當前訓練步數進度到達總步數的1/2、1/4、1/8 時,分別將學習率衰減為原本的1/5、1/4、1/3。

表2 YAGO3-10 數據集超參數Table 2 Hyperparameters of dataset YAGO3-10

3.3 評價指標

鏈路預測任務的評價指標主要包括平均排名(mean rank,MR)、平均倒數排名(mean reciprocal ranking,MRR)、Hits@1、Hits@3 以及Hits@10 五種。上述指標的計算全部基于對正確三元組預測的排名rank,步驟如下:在對模型進行評估時,對于一個正確的三元組〈h,r,t〉,將其頭實體或尾實體替換為任意一種其他的實體,假設數據集中共有n個實體,且僅替換尾實體,那么就會得到n-1 個新的三元組,其中i∈[1,n-1];然后對包含正確三元組在內的n個三元組通過得分函數計算其得分;最后將n個三元組按照得分降序排列,便可得到正確三元組〈h,r,t〉的排名rank。

利用模型對所有正確三元組進行預測并得到排名,最后取平均值得到MR 指標。計算公式為

式中:T為正確三元組的集合;|T| 為集合中元素的個數;ranki代表模型對第i個正確三元組預測的排名。MR 指標存在兩個問題:1)因為MR 值越小,代表模型效果越好,這與直觀理解相悖;2)MR 的計算結果取值范圍過大,動輒上千,不方便進行比較。因此往往采用基于MR 的MRR 指標進行模型的評估。

通過對排名的倒數求平均得到指標MRR,它解決了上述MR 指標存在的兩個問題,其計算公式為

Hits@n是指在鏈路預測任務中排名小于或等于n的三元組在正確三元組集合中的占比,具體計算公式為

式中:indicator(·) 為指示函數,表示若條件為真則函數值取1,否則取0;n通常取1、3 和10,即評價指標Hits@1、Hits@3 和Hits@10。Hits@n指標越大,表示模型越有效。

3.4 實驗結果對比

為了驗證本模型的有效性,分別在FB15k-237、WN18RR 以及YAGO3-10 數據集上進行實驗,并且與目前主流的方法包括TransE、DistMult、ComplEx、ConvE、RotatE、Rotate3D以及HAKE 進行對比,如表3 所示。

表3 SpHKC 與同類別SOTA 方法實驗結果對比Table 3 Comparison of experimental results of SpHKC and relevant SOTA methods

表3 中的加粗項為每項指標的最高值,下劃線項為次高值。最左側所列出的方法按發表年份升序排列,其中TransE、DisMult 以及ComplEx 方法受限于早期思想的限制,對實體和關系的建模并不充分,因此性能指標相對于當今方法差距較大,后文不作討論。作為神經網絡方法的代表模型之一,ConvE 意味著知識圖譜補全方法步入新階段,其性能相對于先前模型有較大提升;RotatE 強化對關系模式的建模,因此其表達能力顯著增強。上述兩種方法均為各自方法類別的開山之作,后續的模型均基于它們進行了優化,取得了更好的效果??梢钥吹皆诓煌臄祿?,Rotate3D、HAKE 以及本文的SpHKC 均在不同的指標分別取到最高和次高項,SpHKC 則是在每個數據集的各項指標上均取到最高或次高。

在WN18RR 數據集上,SpHKC 模型僅在MRR 和Hits@10 指標上取到最高,在Hits@1和Hits@3 指標上取到次高,而作為Baseline 參考的HAKE 模型在除Hits@10 外的其余指標取到最高,僅在Hits@10 取到次高,總體性能HAKE 優于SpHKC。在FB15k-237 數據集上,SpHKC 方法在各項指標均取到最高,并且在Hits@3 指標上相對HAKE 提升約1.3%,Rotate3D 模型則是在各項指標上均取到次高,而HAKE 僅在Hits@1 指標取到次高??梢钥吹?,SpHKC 模型性能與Rotat3D 較為貼近,雖然提升較小,但整體穩定優于HAKE。在YAGO3-10 數據集上,SpHKC 全部取到最高,并且在4 項指標上相對次高的HAKE 模型分別提升0.9%、0.9%、1.0%和1.0%,提升幅度遠大于在WN18RR 和FB15k-237 數據集上的結果。本文認為這種差異主要是由不同數據集之間關系數量和關系類型的差異所導致的,下面分析一下可能的原因。

在WN18RR 數據集上,考慮到WN18RR 數據集只包含11 種關系,關系類型相對較為簡單,并且實體數量相比FB15k-237 也僅多了不到兩倍。較小的數據集規模和關系種類使得模型在該數據集上往往不需要很強的表達能力便可得到相對較好的效果,因此無法發揮SpHKC對比HAKE 在三維層面擴展的優勢,相對冗余的空間表達增加了模型復雜度,因此降低了模型性能。此外可以發現,SpHKC 與HAKE 的性能差異小于SpHKC 與Rotate3D 的性能差異,這是因為WordNet 數據集通過語義關系將同義詞組組織成詞匯網絡,其中的語義關系包含單詞概念層面的層級結構,而SpHKC 相比于Rotate3D 則是強化了對實體語義層次結構的學習,性能也整體領先,進而證明了對語義層次信息建模的重要性。

在FB15k-237 數據集上,SpHKC 的整體性能優于HAKE,其主要原因是FB15k-237 數據集的關系數量多,且類型相對復雜,既包括了“/award/award_category/category_of”這種明顯表達了頭尾實體間語義層次差異的關系,又包括諸如“/film/film/prequel”這種頭尾實體屬于同一類型,且近似無語義層次差異的關系。在對關系“/film/film/prequel”進行建模時,SpHKC 的三維空間給予了關系更豐富的表達,這也是Rotate3D 整體優于HAKE 的原因。另外可以發現,SpHKC 模型相比HAKE 模型在FB15k-237 數據集上的性能提升較小,這是由于FB15k-237 數據集的實體數量稀少,即使是在HAKE 的二維建??臻g內,實體的嵌入需求也很容易得到滿足,采用三維建??臻g的SpHKC 能力沒有得到充分的發揮。而和Rotate3D 模型對比,由于FB15k-237 數據集中實體的分層現象較少,因此SpHKC 模型的性能提升有限。

在YAGO3-10 數據集上,SpHKC 的性能則取得了較大幅度的提升。從數據集屬性的角度進行分析,YAGO3-10 的關系種類包括37 種,雖然不及FB15k-237 的237 種,但也包含了明顯表現實體間語義層次差異的關系imports,實體兩側無明顯語義層次差異的對稱關系hasNeighbor、非對稱關系hasChild 以及可近似視為逆關系的worksAt 和isAffiliatedTo。關系種類較為豐富,對模型建模關系的能力有一定要求,并且YAGO3-10 數據集的實體數量約為WN18RR 的3 倍,達到了12.3 萬,因此表達能力強大的模型在該數據集上往往會展現出更好的效果??梢钥吹?,在WN18RR 和FB15k-237 數據集的MRR 指標上,SpHKC 模型相較于ConvE 模型的提升分別為15.3%和7.1%,而在YAGO3-10 上的提升達到了25%。綜合以上幾點,在對模型的實體和關系建模能力均有考察的情況下,SpHKC 在實體數量和關系種類數量兩方面受到的限制得到了大大緩解,最終效果全面優于HAKE。

3.5 消融實驗

除了上述SpHKC 與主流同類型方法在3 個數據集上的結果對比外,為了驗證SpHKC方法3 個部分在建模時的有效性,本文進行了消融實驗,如表4 所示。消融實驗共進行4 次消除:消除極角和方位角部分,消除方位角部分,消除極角部分以及消除極徑部分。表4 最左列為模型中保留的部分。

可以看到,無論是完全消除極徑部分,還是完全消除角度部分,對模型的性能都會產生相當大的影響。若僅存在角度部分,則會丟失模型對語義層次信息的建模,對關系也僅僅是將其視為平面的旋轉操作,在實驗結果上也更接近類似思想的RotatE。而若僅存在極徑部分,則模型只能對語義層次不同的實體進行建模,對處于同一層級的實體則完全無法區分,而在數據集中,處于相近語義層級的實體對占比仍較大,因此該部分實驗得到的效果最差。

從實驗結果來看,消除角度部分中的一個維度也會對模型的性能產生影響。若消除方位角部分,模型的思想則會變得貼近HAKE,結果上也較為一致;若消除極角部分,保留方位角,也是從三維模型退化為二維模型,但是受取值范圍限制,導致單方位角模型的表達能力弱于單極角模型的表達能力。無論消除哪一個維度,模型還是結合了語義層次差異信息和語義含義差異信息,使得這兩部分消融實驗的整體結果仍優于前兩個部分的消融實驗結果。

總體來看,SpHKC 模型任一部分的缺失都會導致模型的最終結果受到負面影響,由此可以得出,模型的3 個建模部分之間是共同協調,彼此不可分割的。

3.6 數據集規模影響實驗

從數據集規模上講,FB15k-237 大于WN18RR,YAGO3-10 大于FB15k-237,而從主實驗對比結果可以發現,相比HAKE 模型,SpHKC 模型在WN18RR、FB15k-237 以及YAGO3-10數據集上的性能指標提升是隨著數據集規模的增大而增大的;為了驗證這一想法,本文進行了數據集規模對HAKE 以及SpHKC 模型性能影響的實驗。數據集選用規模最大,關系種類復雜且SpHKC 和HAKE 表現最好的YAGO3-10,對數據集規模的控制則是通過改變數據集中關系的數量來實現。在去除關系的過程中,保留三元組占比較大的關系,以避免數據集規模發生劇烈變化。實驗結果如表5 所示。

可以看到,在關系數量為20 時,HAKE 模型的性能整體優于SpHKC 的,但是隨著關系數量的增加以及數據集規模的增長,HAKE 對SpHKC 的指標值差距逐漸縮小,甚至在關系數量為30 的Hits@10 指標上SpHKC 超過了HAKE,最終在完整的YAGO3-10 數據集上,SpHKC 的性能整體優于HAKE??紤]到SpHKC 在三維空間下進行建模,相較于HAKE二維平面的建模方式,在表達空間上的優勢通過數據集規模的增加而展現了出來,實驗結果證實了上文的猜想。

3.7 融合圖結構信息實驗

為了探討SpHKC 模型進一步拓展的可能性,本文試圖將語義分層信息與圖結構信息融合并進行了實驗。目前,主流的基于圖卷積神經網絡的方法可以有效地對圖結構信息進行建模,因此本文選用基于組合的多關系圖卷積神經網絡[39](composition-based multi-relational graph convolutional networks,CompGCN)模型作為參考方法。

由于圖卷積神經網絡相對較為復雜,并且本文的主體部分是對語義分層信息進行建模,而不在于對圖網絡結構進行改動,因此語義分層信息與圖結構信息融合的方案設計了以下兩種:

1)完成對實體語義分層信息的建模部分,通過模型訓練得到包含語義層次信息的實體和關系嵌入,然后將得到的嵌入作為預訓練詞向量,用于初始化圖卷積網絡模型,以這種方式將語義信息和圖結構信息通過圖卷積網絡模型融合。

2)考慮到圖卷積神經網絡模型為編碼器-解碼器結構,神經網絡通常作為編碼器部分,學習到實體和關系的嵌入,然后通過其他傳統方法的得分函數進行得分評估。因此另一種融合方案是將SpHKC 的得分函數作為圖卷積網絡模型的解碼器,使用圖卷積網絡算法一并進行訓練,旨在將圖結構信息融合進針對語義層次結構進行建模的模型中。

實驗結果如表6 所示,表6 模型名稱一列中SpHKC+GCN 代表基于預訓練方法的實驗方案,GCN+SpHKC 代表基于解碼器修改的實驗方案,GCN 統一指代CompGCN 方法,各項評估指標的最優結果均加粗處理??梢钥吹?,對基于預訓練方法的方案,其實驗結果和原本的圖卷積神經網絡模型相比在各項指標上均存在小幅度的下降,而對基于解碼器修改的方案,其實驗結果和基于語義分層的模型相比總體上持平,僅在FB15k-237 數據集上的MRR和Hits@1 指標上有一定提升??紤]到CompGCN 模型在FB15k-237 數據集的這兩項指標上的性能均明顯優于SpHKC 模型,因此可以認為在SpHKC 模型的基礎上前置圖卷積網絡的操作對基于語義分層模型在FB15k-237 數據集的這兩項指標上起到了一定的優化作用。但是兩種融合方案的總體實驗結果不理想,仍需要給出進一步的解釋。

表6 語義信息與圖結構信息融合實驗結果Table 6 Experimental results on the fusion of semantic hierarchy and graph structure

兩種實驗方案的初衷均是期望將知識圖譜中的圖結構信息與實體語義層級信息進行融合。在基于解碼器修改的融合方案中,由于將得分函數修改為了SpHKC 模型的形式,因此實驗結果理應與SpHKC 相近,并且在一定程度上有所提升。但是文獻[40] 指出,圖卷積網絡模型實際并未對圖結構信息進行充分建模,文章使用多種方法對圖結構進行擾動,最終卻都并沒有影響到圖卷積網絡方法在鏈路預測任務上的效果。此后文獻[40] 經過進一步探究發現,只要在圖卷積操作的聚合過程中,模型能夠成功區分具有不同語義的實體,便可提高知識圖譜補全任務的性能。上述事實導致圖卷積的模型在知識圖譜領域的建模內容與本文主體方法重合,因此使用基于解碼器修改的融合方案并沒能實現語義層次信息和圖結構信息的融合,也沒能得到預想中的結果。

在基于預訓練方法的融合方案中,上述兩種模型的建模信息重復是效果下降的原因之一。另外雖然使用預訓練詞向量是較為常見的方法,但是由于語義分層模型建模方式的特殊性,該方法中圖卷積神經網絡學習到的嵌入在結構上并沒有包含球面坐標系中的極徑與角度參數部分,在這種情況下用于初始化的包含球面坐標系參數部分對應信息的預訓練嵌入也就沒能得到很好的利用。并且對于SpHKC 模型中嵌入取值范圍的限制條件,在解碼器的傳統方法中并沒有相關的約束,因此使用SpHKC 模型的輸出嵌入作為CompGCN 模型的初始化內容,可能還會起到一定的副作用,從該角度可以對基于預訓練方法的實驗性能指標下降現象給出解釋。

4 結語

本文提出了一種基于球坐標系的知識圖譜補全方法,對知識圖譜中客觀存在的實體間語義分層信息進行建模。SpHKC 將三元組在語義層面構成的樹結構映射到球坐標系中,使位于不同球面的實體處于不同的語義層級。SpHKC 將關系所代表的移動操作進行二次劃分,對不同球面的實體采用極徑方向的縮放操作以建模實體間的語義層次差異;對同一球面的實體先后采用極角和方位角的變化以建模實體間的語義含義差異,豐富實體語義信息的表達。同時SpHKC 的多維度操作也能更充分地對關系模式進行建模。實驗表明,本文提出方法的各個部分均起到建模的作用,并且在關系數量較多的數據集上其表現略強于現有模型,在關系數量較少的數據集上其表現也優于大多數傳統模型。

未來的模型改進工作可以嘗試將語義層級信息融入到深層模型方法中,同時將知識圖譜中的其他信息融入進來,在信息廣度方面進行橫向擴展。也可以考慮在更高維度或利用更先進的數學工具對模型進行優化,在建模深度方面進行縱向擴展。

猜你喜歡
三元組層級圖譜
基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
特征標三元組的本原誘導子
繪一張成長圖譜
軍工企業不同層級知識管理研究實踐
基于軍事力量層級劃分的軍力對比評估
關于余撓三元組的periodic-模
補腎強身片UPLC指紋圖譜
主動對接你思維的知識圖譜
任務期內多層級不完全修復件的可用度評估
三元組輻射場的建模與仿真
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合