?

一種基于圖注意力網絡的異質信息網絡表示學習框架

2021-04-25 01:45康世澤吉立新張建朋
電子與信息學報 2021年4期
關鍵詞:元組異質信息網絡

康世澤 吉立新 張建朋

(戰略支援部隊信息工程大學 鄭州 450001)

1 引言

異質信息網絡為具有多種類型(類型數量大于1)節點或邊的復雜網絡[1]。學術領域廣泛研究的異質信息網絡有兩種:(1)具有簡單模式層的異質信息網絡;(2)具有復雜模式層(本體層[2])的知識圖譜。異質信息網絡中不同類型的邊與節點使其蘊含豐富且復雜的語義信息,這為對其進行表示學習帶來了挑戰。

簡單模式層的異質信息網絡與知識圖譜通常遵循不同的表示學習方法。之前主流的知識表示模型為TransE[3]及其相關變體。近年來又有基于卷積神經網絡[4]或圖神經網絡[5]的知識表示方法。而簡單模式層的異質信息網絡大多基于元路徑捕獲網絡結構信息以實現表示學習[6,7]。

上述表示學習方法的不同是由兩種網絡的差異造成的,具體表現在:(1)知識圖譜的關系信息更加復雜。常用的異質信息網絡在兩個實體節點之間通常僅存在一種類型的邊,而知識圖譜中兩個實體節點之間可以存在多種類型的關系。(2)兩種網絡面向的任務不完全相同。知識圖譜面向的任務偏向推理,而簡單模式層的異質信息網絡面向的任務偏向分類。

為了同時表征知識圖譜和簡單模式層的異質信息網絡,本文提出一種基于圖注意力網絡的異質信息網絡表示學習框架。該框架可以分為3部分:基礎向量部分,傳播模型部分和任務模型部分。其中基礎向量用于訓練網絡的基礎向量,傳播模型用于學習網絡中的高階信息,而任務模型用于執行不同的任務。本文的貢獻如下:

(1) 本文對簡單模式層的異質信息網絡和知識圖譜進行了異同點的總結,并提出了一種通用的異質信息網絡表示學習框架,該框架既可以應用于知識圖譜也可以應用于簡單模式層的異質信息網絡。

(2) 本文在多個數據集進行了廣泛的實驗。實驗結果表明,本文所提模型與基準模型相比可以取得相對不錯的效果。

2 定義

定義1(3元組) 給定一個異質信息網絡G =(V,E),本文將每組節點 v1, v2和它們之間直接相連的邊r定義為一個3元組( v1,r,v2)。 對于知識圖譜,v1是頭實體 ,v2是 尾實體,r 為兩個實體之間的關系。

3 模型

本節詳述基于圖注意力網絡的異質信息網絡表示學習框架(HINs Embedding framework via Graph Attention Network, HE-GAN),該框架包括基礎向量(b a s i c v e c t o r)部分,傳播模型(propagation model)部分,以及任務模型(prediction)部分。本文引入Conv-TransE對知識圖譜執行鏈接預測任務,構成面向鏈接預測任務的表示學習模型(HE-GAN toward Link Prediction, HE-GANLP)。本文通過將任務模型設計成節點分類模型,構建面向節點分類的表示學習模型(HE-GAN tow ard Node Classification, HE-GAN-NC)。

3.1 基礎異質信息網絡向量

基礎向量用于保持網絡的基礎結構信息。本文采用在知識圖譜領域廣泛使用的TransE模型學習知識圖譜的節點向量和邊向量。由于簡單模式層異質信息網絡中直接相連的兩個節點間僅存在一種邊,本文認為這些邊沒有豐富的語義信息。因此本文沒有學習簡單模式層的異質信息網絡的邊向量,而是采用歐氏距離作為度量保留網絡中的1階和2階相似度。

3.1.1 簡單模式層異質信息網絡的基礎向量

對于圖G任一3元組( v1,r,v2),其對應的向量為v1, v2(v1, v2∈Rn)。本文采用歐氏距離為該3元組建模

本文旨在最小化現有3元組對應分數函數的距離,因此定義基于間隔的損失函數

3.1.2 知識圖譜的基礎向量

對于知識圖譜 G 中的任一3元組( v1,r,v2),其對應的向量為v1, v2和 r。本文采用TransE為該3元組定義的分數函數為

對于知識圖譜中的所有3元組,本文定義基于間隔的損失函數

其中, Dr是 關系r對應的正3元組集合,是其對應 的負3元組集合。

3.2 傳播模型

文獻[5,9]中的結果證明通過圖神經網絡融合高階的鄰居信息可以提高知識圖譜鏈接預測任務的性能;文獻[7]也通過使用圖注意力網絡融合高階鄰居信息提升了異質信息網絡的分類性能。本文借鑒這些方法[5,7,9]提出了一種既可以融合知識圖譜高階鄰居信息,也可以融合簡單模式層高階鄰居信息的圖神經網絡作為傳播模型。

本文所提傳播模型的示意圖如圖1所示,該圖展示了為節點“中國”生成向量的過程。該圖中向量下方的數字表示節點的編號,相同的編號表示同一節點。向量上方的數字為向量編號,相同的數字表示同一向量。虛線表示連接操作。對于傳播模型的第1層,其輸入是基礎向量層的全體節點向量,對于知識圖譜來說還包括基礎向量層的全體關系向量?;A向量層的所有節點向量可以構成矩陣E ∈RN×m,其中N為網絡中的節點總數。知識圖譜在基礎向量層對應的關系向量構成矩陣 R ∈RM×m,其中 M為網絡中關系的總數。通過一層注意力層后生成的新向量可以構成矩陣 E(1)∈RN×m1,m1為新生成向量的維度;再通過一層注意力層后生成的新關系向量可以構成矩陣 R(1)∈RM×m2,m2為新生成向量的維度。

對于知識圖譜中任一節點 vi對應的3 元組(vi,r,vj),本文定義注意力系數

其中,注意力系數 cirj表示節點vj在 關系r 的連接下對節點 vi的重要性;W1∈Rk1×m和 W2∈Rk2×2m為線性變換矩陣;∈Rk1+k2為線性變換向量;vi,r 和vj為 vi, r 和vj對 應的向量;[ ,]和‖都表示連接操作(concatenation)。

對于簡單模式層的異質信息網絡中的一個節點vi和 其任意一階鄰居vj,本文定義注意力系數

其中,W1∈Rk1×m和 W2∈Rk2×2m為線性變換矩陣,∈Rk1+k2為線性變換向量。與知識圖譜不同,簡單模式層的異質信息網絡沒有關系向量。

接下來,本文使用softmax來歸一化與節點vi(知識圖譜與簡單模式層的異質信息網絡通用)相關的注意力系數

其中, Nvi為節點vi的1階鄰居集合,Rik表示節點vi和節點vk之 間所有的關系集合,L eakyReLU為神經網絡中常用的激活函數。

為了聚合節點 vi在該傳播層的鄰居信息,本文將不同注意力系數線性結合并采用多頭注意力[10],為知識圖譜定義的聚合公式為

其中,K是多頭注意力機制對應頭的數量, Rij為節點 vi和vj之 間的關系集合,‖ 為連接操作。如圖1所示,向量1和向量2由不同的注意力頭生成,再采樣連接操作將二者融合。

對于簡單模式層的異質信息網絡,本文定義的聚合公式為

以上是經過一個注意力層對一個特定節點的操作。所有新生成的節點向量構成矩陣 E(1)。對于關系向量,本文利用線性變換矩陣WR轉化生成本注意力層對應的關系向量

之后, E(1)和 R(1)可以作為下一層的輸入,按照以上聚集鄰居信息的方法,生成 E(2)和 R(2)。重復這個過程,最終可以生成n層的傳播模型。本文將最后一層的節點和關系向量矩陣表示為 E(f)和R(f)。最后一層知識圖譜的節點聚合公式為

簡單模式層的異質信息網絡,對應的節點聚合公式為

圖1 知識圖譜傳播模型示意圖

3.3 任務模型

對于簡單模式層的異質信息網絡,本文對其執行節點分類任務;對于知識圖譜,本文對其執行鏈接預測任務。

3.3.1 知識圖譜的鏈接預測

本文采用文獻[9]提出Conv-TransE來執行知識圖譜的鏈接預測任務,該模型既可以生成比較有效的特征又可以保留TransE模型的翻譯特性。該模型對應的示意圖如圖2所示。

本文要求傳播模型每一層的節點向量維度都和關系向量維度相等。鏈接預測任務旨在給出一個3元組的頭實體和關系,預測尾實體。對于任務中的一個3元組( vs,r,n), 首先從E(f)和 R(f)中分別取出它們對應的向量 vs和 r (其維度都為ml),再將兩個向量堆疊在一起。之后,利用C個卷積核對堆疊在一起的向量執行卷積操作,其中第c個卷積操作為

經過卷積操作之后的分數函數為

其中,W ∈RCml×ml是一個線性變換矩陣,而f 是一個非線性變換。矩陣M (vs,r)被轉換為一個向量vec(M)∈RCml。在訓練的過程中,本文對分數函數采用logistic sigmoid函數,如式(16)

3.3.2 簡單模式層的異質信息網絡的節點分類

給定任務模型的輸入向量,本文執行節點分類任務。為了執行該任務,首先將分類標簽編碼為獨熱(one-hot)向量,再給輸入向量接入幾個全連接層,以使輸出向量的維度等于標簽對應獨熱向量的維度。最后,采用交叉熵損失來估計標簽節點和預測值之間的差距

其中,Q為標記節點集合; Yl是對應標簽的獨熱向量;是全連接層的最后一層輸出的向量;θ 為分類 器的參數。

4 實驗

本文主要執行兩個任務:節點分類和鏈接預測。本文基于pytorch編程,所使用服務器的詳細參數為:志強64核CPU;256 GB內存;8塊TiTAN XP GPU。

圖2 Conv-TransE示意圖

4.1 數據集

4.1.1 簡單模式層的異質信息網絡數據集

DBLP是記錄計算機領域學術論文信息的數據集。本文抽樣了一個DBLP的子網絡構建數據集。所構建的數據集包含4種類型的節點:論文(Paper,P),作者(Author, A),會議(Conference, C)和術語(Term, T)。數據集相關的4個研究領域包括機器學習、數據庫、數據挖掘和信息檢索。對于任一作者,如果他/她的大部分論文來自會議X,便將與會議X相關的研究領域標簽分配給該作者。最后,本文選擇了可以被明確分類的4000名作者用于節點分類任務。

IMDB是一個關于電影的數據庫,包括演員、導演、評論、簡介和電影的其他信息。本文從IMDB中抽取信息構建了一個由電影(Movie, M)、演員(Actor, A)和導演(Director, D)組成的數據集。最終,本文選擇了3000部可以被明確分類為動作、喜劇或戲劇的節點來執行節點分類。

本文構建數據集的具體統計數據如表1所示。

4.1.2 知識圖譜數據集

本文采用了兩個知識圖譜數據集[5,11]:WN18RR和FB15k-237。WN18RR和FB15k-237是為了解決相關關系問題[5]為WN18和FB15k分別創建的子集。

4.2 節點分類

本文采用KNN分類器來執行節點分類并設置KNN的參數k=5。本文采用Micro-F1和Macro-F1作為評估實驗結果的指標。

4.2.1 基準算法

DeepWalk[12]將異質信息網絡視作同質信息網絡為每個節點生成向量。

Metapath2vec[6]利用隨機游走獲取每個節點的鄰居信息,并利用異質Skip-Gram來學習每個節點的表示。本文對DBLP分別采用集合{APA, APCPA,APTPA}中的元路徑生成向量;對IMDB分別采用集合{MAM, MDM}中的元路徑生成向量。

Esim[13]使用預定義的元路徑作為向導來學習向量。與Metapath2vec不同,Esim在學習的過程中可以使用多個元路徑,而Metapath2vec在學習過程中只能采用一個元路徑。

HAN[7]也是一種基于圖注意力網絡的表示學習模型,該模型分別針對節點級別和語義級別(元路徑)的鄰居信息進行建模。本文為DBLP采用元路徑{APA, APCPA, APTPA};為IMDB采用元路徑{MAM, MDM}。

Variant1為了測試簡單模式層的異質信息網絡是否需要學習關系向量,本文提出了令簡單模式層的異質信息網絡利用知識圖譜的基礎向量模型和傳播模型生成向量的變體模型。

Variant2為了驗證簡單模式層的異質信息網絡是否需要基礎向量層,本文提出了僅包含傳播模型和任務模型的變體模型。此外,本文首先訓練了基于歐氏距離的節點向量,再用這些向量對傳播模型進行了初始化。

訓練本文利用Adam[14]對模型進行訓練。本文對模型中所有的向量和圖神經網絡所有的線性變換矩陣實施L2正則化來防止訓練過擬合。本文設置多頭注意力機制對應頭的數量為4;學習率 λ=0.001;圖神經網絡的層數 l=2。與HAN的原論文不同,本文的數據集沒有使用任何額外的特征。本文令基礎向量模型的向量維度 d=50,其他基準模型的向量維度也為50。經過第1層注意力層,單注意力頭輸出維度為25,總的維度為100;經過第2層注意力層,向量的輸出維度為100;通過將不同層的向量連接,送入任務模型的向量維度為250。本文令負樣本的大小n =5。對于DeepWalk, Esim和Metapath2vec,本文將每個節點的遍歷數設置為50,并將步長設置為100。對于HE-GAN-NC和HAN,本文進行了10次實驗并報告了平均結果。對于Metapath2vec,僅在測試所有給定的元路徑后報告最佳結果。

4.2.2 實驗結果

實驗結果如表2所示。從實驗結果可以看出,本文所提HE-GAN-NC優于所有的基準算法,證明本文所提模型對簡單模式層的異質信息網絡具有比較好的學習能力。此外,圖神經網絡模型(HAN和HE-GAN)的整體性能優于其他傳統網絡表示學習模型(DeepWalk, Esim和Metapath2vec),表明圖神經網絡生成的特征具有更強的表征能力。

表1 簡單模式層異質信息網絡數據集的統計信息

表2 簡單模式層異質信息網絡的節點分類性能

本文所提HE-GAN-NC的性能在所有數據集中都優于HAN??赡艿脑蚴荋E-GAN-NC不僅使用注意力機制來選擇有用信息,而且還采用了歐氏距離來學習可以保留節點1階和2階相似度的基礎向量。此外,由于HAN的效果是基于所給定的元路徑的,相比之下本文所提的模型還具有更強的適用性。

本文所提模型的效果好于Variant1,說明學習簡單模式層的異質信息網絡的邊信息并不能促進實驗的效果。本文所提模型的效果好于Variant2,說明基礎向量模型的提出可以更進一步提升模型性能。

4.3 知識圖譜的鏈接預測

知識圖譜的鏈接預測任務旨在預測3元組中丟失的頭實體或者尾實體,即對于一個3元組(v1,r,v2)給定 ( r,v2)預 測v1或者給定( v1,r) 預 測v2。對于測試集中的每一個3元組( v1,r,v2), 本文通過將v1或 v2換成實體集合 E中的其他實體來構建損壞3元組并限定這些損壞3元組沒有在知識圖譜的訓練、驗證和測試集中出現過。本文采用的指標有平均倒序(Mean Reciprocal Rank, MRR)和Hits@N(正確的3元組在前N項中的排序),其中N在本文取1, 3和10。更高的MRR值和Hits@N值表示更好的實驗效果。

4.3.1 基準算法

TransE[3]是比較簡單有效的模型,它將尾實體看作從頭實體經過關系的翻譯。

ConvE[4]是一種多層卷積神經網絡模型,其參數利用率高,善于學習復雜結構。

ConvKB[11]通過卷積神經網絡捕獲實體和關系間的全局關系與翻譯特性。

SACN(GCN+Conv-TransE)[9]是一個端到端的圖卷積網絡模型,該模型利用加權的圖卷積網絡學習知識向量,并利用Conv-TransE執行知識圖譜的鏈接預測任務。

relationPrediction(GAT+ConvKB)[5]使用圖注意力網絡并融合關系信息學習知識圖譜的結構信息,并使用ConvKB作為解碼器。

Variant3為了驗證知識圖譜的表示學習是否需要基礎向量層,本文提出了僅包含傳播模型和任務模型的變體模型。此外,本文首先利用TransE模型訓練了知識向量,再用這些向量對傳播模型進行了初始化。

訓練本文利用Adam對模型進行訓練。本文對模型中所有的向量和圖神經網絡所有的線性變換矩陣實施L2正則化來防止訓練過擬合。本文設置多頭注意力機制對應頭的數量為4;學習率λ =0.001;圖神經網絡的層數l =2。對于卷積核數C,本文在FB15k-237數據集上取100,在WN18RR數據集上取200。本文令基礎向量模型的向量維度 d=64。經過第1層注意力層,單注意力頭輸出向量維度為64,總的維度為256;經過第2層注意力網絡,最終的 輸出維度為256。本文令負樣本的大小n =5。

4.3.2 實驗結果

從表3的實驗結果可以看出,本文提出的HEGAN-LP與基準算法相比取得了比較好的效果。在所有的模型中,TransE的實驗效果最不理想??赡艿脑蚴荰ransE是一種實驗參數較少的線性模型,而其他神經網絡模型可以生成更有效的特征。SACN的效果整體優于ConvKB,可能的原因是SACN提出的Conv-TransE可以更加有效地保留3元組的翻譯特性。本文所提模型比其變體模型Variant3整體效果略好,可能的原因是基礎向量層可以使輸入圖注意力網絡的知識向量始終保持翻譯特性。本文所提模型的效果整體上稍好于relation-Prediction(GAT+ConvKB)模型。其可能的原因是,本文所提模型具有基礎向量層,而且利用了可以生成有效特征的Conv-TransE模型。

此外,在FB15k-237數據集上,基于圖注意力網絡的模型(relationPrediction和HE-GAN-LP)效果優于基于圖卷積網絡的模型(SACN);然而,在WN18RR數據集上,基于圖注意力網絡的模型并未比SACN模型有顯著提升??赡艿脑蚴荈B15k-237數據集的平均入度比較高,注意力方法可以從各節點的鄰居中選擇有用的節點提升實驗性能,而WN18RR數據集的平均入度太小(2.12),圖注意力網絡難以發揮優勢。

表3 知識圖譜的鏈接預測任務性能

5 總結與展望

本文提出了一種通用的異質信息網絡表示學習框架,該框架可以分為3部分:基礎向量模型,基于圖注意力網絡的傳播模型以及任務模型。對于每一個模型,本文針對不同的異質信息網絡,采用了不完全相同的設計方法,并解決了不同類型網絡中存在的一些問題。該框架可以應用于多個任務并取得良好的效果。本框架的問題在于各模塊對于不同類型的網絡還需要特定的設計,未來計劃提出更加具有通用性的表示學習模型。

猜你喜歡
元組異質信息網絡
Python核心語法
海量數據上有效的top-kSkyline查詢算法*
幫助信息網絡犯罪活動罪的教義學展開
非法利用信息網絡罪的適用邊界
基于減少檢索的負表約束優化算法
網絡共享背景下信息網絡傳播權的保護
幫助信息網絡犯罪活動罪若干問題探究
隨機與異質網絡共存的SIS傳染病模型的定性分析
Ag2CO3/Ag2O異質p-n結光催化劑的制備及其可見光光催化性能
MoS2/ZnO異質結的光電特性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合