?

融合相似性負采樣和短期偏好的圖卷積推薦模型

2023-12-19 13:02韋貴香張園園
關鍵詞:三元組圖譜實體

韋貴香, 朵 琳, 張園園

1.昆明理工大學 信息工程與自動化學院, 云南 昆明 650504;2.黔南民族職業技術學院 大數據與電子商務系, 貴州 都勻 558022

隨著萬物互聯時代的到來,人們所接觸的信息呈現爆炸式的增長,如何從眼花繚亂的數據中挑選出適合自己的項目成了用戶的一大困擾。而對信息提供商而言,面對海量的數據,用戶的興趣偏好可能會隨時改變,如何為用戶推薦貼合其真實偏好的物品是一大挑戰。

傳統的推薦系統以協同過濾[1]的方式對用戶的興趣進行建模推薦,這種方法存在著數據稀疏和冷啟動問題。然而,隨著互聯網技術的不斷發展,用戶曝光在各類數據面前,如圖像、文本、標簽在內的多元異構信息,隨之而來的是用戶興趣更加多元化,需要融合多元異構信息來對用戶偏好進行學習[2]。知識圖譜使用圖結構數據模型來表示數據,可以提供豐富的輔助信息而被引入推薦系統[3]?,F有的典型知識圖譜數據集如Dpedia[4]、Yago[5]和Freebase[6]等規模已經相當大,但是面對龐大的用戶數量來說還是不夠完備[7]。有學者將圖嵌入技術引入到知識圖譜的表示學習當中,將知識圖譜中的實體和關系映射到低維向量中進行知識圖譜補全[8],同時捕獲原始連接屬性。知識圖譜中只有正樣本,引入負樣本對改進學習模型非常重要。Bordes等[9]通過打亂正樣本并隨機地對頭實體和尾實體進行替換得到負樣本。Wang Zhen等[10]引入了一種更好的采樣方案,即伯努利采樣,通過減少頭部和尾部實體之間的一對多、多對多和多對一關系中存在的假負三元組的出現來改進均勻采樣。然而,這些方法得到的替換樣本與被替換樣本相似性低,若進行替換將得到一個低質量的負例三元組,導致學習模型在訓練時損失值為0,模型將不會對實體向量與關系向量進行更新,無法獲得更多的樣本特征的同時還降低了模型的效率。

近年來,深度學習在各領域取得了突破性進展,且深度學習通過組合低階特征形成更加稠密的高階語義抽象,從而發現數據的分布式特征表示,解決了傳統機器學習中需要人工設計特征的問題;深度學習[11]中的卷積神經網絡(Graph Convolutional Network,GCN)可以很好地對序列進行建模而有效挖掘數據的序列結構;此外,基于深度學習的推薦方法能夠融入多源異構輔助信息進行推薦,通過將用戶的顯式反饋和隱式反饋數據、用戶的畫像、物品的內容和屬性等多源異構輔助信息作為輸入,采用端到端的方式自動訓練預測模型,從而緩解傳統推薦系統面臨的數據稀疏和冷啟動問題。但同時也存在訓練時間長、可解釋性差的問題。本文利用知識圖譜作為輔助信息,采用深度學習技術從輔助信息中學習用戶和物品的特征表示,增強推薦系統的性能。

1 相關研究

1.1 知識圖譜嵌入學習

近年來,在知識圖譜的嵌入表示方面的研究取得了很大進展。知識表示學習的典型模型包括張量模型[12-13]、翻譯模型[9,14]和神經網絡模型[15-16]。知識表示學習可以捕獲知識圖中實體的語義信息,并將實體和關系映射到密集向量。在翻譯模型中,Bordes等[9]提出TransE模型,該模型側重于關系三元組中實體之間的關系,并將尾實體向量t視為頭實體向量h加上關系向量r的翻譯。如果三元組(h,r,t)成立,則頭實體向量h、關系向量r與尾實體向量t應滿足h+r≈t。Hao Yanchao等[17]提出了一種嵌入式知識庫的聯合方法JE,同時考慮了嵌入損失的實體向量和對齊向量。Chen Muhao等[18]提出了一種多知識圖聯合嵌入模型MTransE,與JE模型相比,MTransE提供了多種知識圖對齊模型——軸校準模型和基于距離的平移向量模型。但現有的知識圖譜嵌入模型在進行訓練時往往通過隨機使用負樣本來對正樣本進行替換,這樣得到的負樣本質量低,導致模型在訓練時不能對實體向量和關系向量進行有效更新,對模型訓練效率的提升意義不大。

1.2 融合多源信息的表示學習

為了更有效地利用圖內結構信息,文獻[19]提出一種融合了協同過濾模型FM和圖嵌入模型TransE的融合推薦模型CoFM。它將知識圖譜中多個實體的信息及其關系作為有效的輔助信息引入推薦系統,可以有效提高推薦的準確性,緩解用戶歷史交互數據稀疏的問題。文獻[20]提出的IPAKG引入知識圖來挖掘用戶的隱式偏好表達,并將遞歸神經網絡和注意力機制結合起來,捕捉用戶不斷變化的興趣以及序列中不同項目之間的關系。文獻[21]提出的KGCN-LS應用一個可訓練函數通過識別給定用戶的重要知識圖關系來計算用戶的項嵌入,這種方式將知識圖轉換為用戶特定的加權圖,然后應用圖神經網絡來計算個性化項目嵌入。這些方法只考慮了用戶的長期興趣,得到的用戶偏好不準確。為了更好地進行推薦,本文將用戶的短期偏好引入推薦系統。

2 基于Attention機制的GCN-BiGRU模型

2.1 模型概述

用戶的興趣偏好往往會受時間的影響,有的人一直以來都喜歡看紀錄片,但是最近受情緒低落的影響喜歡看喜劇片;有的人一直喜食辣的食物,但是最近因為身體原因喜歡吃清淡的食物。如果這時候根據用戶的長期興趣來對用戶進行推薦,往往會適得其反?,F有的一些算法只關注用戶的長期偏好而忽視用戶的短期偏好,不能精準地為用戶推薦其感興趣的物品。本文使用圖卷積神經網絡提取用戶近期交互物品序列的深層次特征并創建知識圖譜,然后使用雙向門控循環單元(Bidirectional Gating Recurrent Unit,BiGRU)網絡對GCN層提取的特征向量學習用戶的短期興趣,并引入注意力機制賦予不同程度的偏好相應的權重,幫助模型更精準地學習用戶興趣,短期偏好學習框架如圖1所示。最后,針對在訓練中負樣本對模型效率的影響問題,本文使用相似性負采樣來對負樣本進行采樣。

圖1 短期偏好學習框架

2.2 預測模型結構

2.2.1 卷積神經網絡(GCN)層

將數據轉化為知識圖譜后使用GCN處理圖結構化數據,GCN通過將實體節點的初始表示和其鄰居表示聚合到單個向量中,得到包含鄰域信息的最終實體表示。GCN一般由卷積層、池化層和全連接層組成。其中,卷積層通過卷積核對數據進行卷積完成特征提取,在卷積層中加入偏置,最終生成多個特征向量;池化層是一個非線性的下采樣過程,可以保存任務的相關信息,增加特征向量的接收域,并去除無關信息;全連接層通過將特征映射到神經元來進行分類[22]。本文使用GCN來對用戶近期交互的K個序列進行特征提取,得到相應的用戶和項目特征向量表示,輸入到BiGRU網絡中去學習用戶的短期興趣。

2.2.2 雙向門控循環單元(BiGRU)層

門控循環單元(GRU)可解決長期記憶和反向傳播中的梯度等問題,其網絡結構如圖2所示。

圖2 GRU結構

GRU網絡使用的雙曲正切tanh激活函數存在軟飽和性,當網絡加深時會導致梯度消失,本文使用LeakyReLU激活函數代替tanh激活函數,既可以解決雙曲正切函數存在的梯度消失問題,又可以避免ReLU激活函數在反向傳播過程中由于梯度為0而導致權重不更新的問題。LeakyReLU激活函數如下:

(1)

式中,α是一個數值很小的常數,本文選取α=0.01。在ReLU的基礎之上,LeakyReLU保留了一些負軸的值,使得負軸的信息不會全部丟失,調整了負值的零梯度問題。

循環神經網絡(Recurrent Neural Network,RNN)具有記憶能力,在學習序列數據的非線性特征方面具有一定的優勢。GRU是RNN的一個變體,它能有效地緩解傳統RNN訓練過程中的梯度消失和梯度爆炸問題。GRU簡化了長短時記憶(Long Short-Term Memory,LSTM)網絡結構,減少了模型的參數量[23],可用于從用戶短期交互的物品序列中提取用戶的短期偏好。GRU模型在計算當前狀態值ht時考慮了歷史信息ht-1和輸入向量xt,如公式(2)—(5)所示:

rt=σ(Wr·[ht-1,xt]),

(2)

zt=σ(Wz·[ht-1,xt]),

(3)

(4)

(5)

2.2.3 注意力(Attention)層

用戶近期的交互序列經過BiGRU網絡后得到相應的用戶短期興趣表示,不同的短期偏好對用戶偏好的影響程度不同,引入注意力機制來對關鍵信息分配足夠的關注,賦予不同短期偏好以不同的權重,提高對用戶偏好建模的準確性。Attention機制層的輸入為經過BiGRU網絡層激活處理的輸出向量ht,根據權重分配原則計算不同特征向量對應的概率,不斷更新迭代出較優的權重參數矩陣。注意力計算公式為

gi=tanh(Wattht+batt),

(6)

(7)

式中,Watt、batt為注意力機制的權重和偏置,αi為注意力概率分布值。

得到用戶u的短期興趣us:

(8)

式中,vu,i為用戶u對歷史交互項目i的偏好分數,將用戶短期興趣us和項目表示v通過內積函數f,以獲得用戶u與項目v交互的概率。

2.3 實體相似性的負采樣方法

負采樣的目的是幫助模型進行特征學習訓練,由于評分函數傾向于給觀察到的(正)三元組賦予較大的值,隨著訓練的進行,大多數未觀察到的(可能是負的)三元組會被賦予較小的值。因此,當使用隨機采樣方法來對負三元組進行采樣時,可能會采樣到梯度為0的負三元組,導致在知識圖譜的嵌入訓練中出現梯度消失的問題,不能幫助模型進行有效的特征學習。

知識圖譜的嵌入表示學習主要有基于翻譯、張量分解和神經網絡的模型,本文基于翻譯模型使用相似性采樣方法對負樣本進行采樣。在這類模型中,知識圖譜中的實體和關系被映射到低維向量空間中,對于頭實體向量h、關系向量r和尾實體向量t要滿足h+r≈t的近似條件,即h要滿足t-r的限制條件。在向量空間中,兩個向量之間的距離越近,則兩個向量越相似,進行替換得到的負三元組質量越高,因此,我們提出一種基于實體相似性的負采樣方法。首先,使用TransE算法從知識圖譜中抽取每個實體的特征向量表示;然后,將提取的實體特征向量輸入到K-means聚類模型[24]中進行聚類。與傳統的K-means聚類算法不同,本文將實體按照其所在的關系類型進行聚類,即將同一關系類型下的實體聚集在一起。聚類的目的是將相似的實體分配到同一個簇中,從而減少模型需要處理的實體數量,提高訓練效率。計算每個實體與每個質心之間的歐式距離,并將其分配到距離最近的質心所在的類別。公式為

(9)

式中,αi表示樣本xi與所有向量距離最近時所在的簇,μj表示該簇質心。將樣本分成K個簇之后,將每個簇中所有實體特征向量的平均值作為新的質心,重新計算每個簇的質心:

(10)

式中,當xi∈αi時,rij=1;當xi?αi時,rij=0。重復劃分聚類和更新聚類中心兩個步驟,直到所有聚類中心不再改變,其損失函數為

(11)

本文使用簡單有效的K-means聚類算法將相似度高的實體聚類在一起,與伯努利采樣每次采樣都要從整個實體集中進行選擇不同,本文每次只要從實體所屬的簇中選擇與該實體距離最近的實體進行替換,減少了模型的計算量,在一定程度上提高了負樣本的質量,使表示模型的性能得到了提升。

3 實驗及分析

3.1 數據集

本文在MovieLens-1M、Book-Crossing和Last.FM數據集上進行了實驗。其中MovieLens-1M是推薦模型中廣泛使用的基準數據集,由MovieLens網站上約2×107條評價歷史構成;Book-Crossing數據集是從Book-Crossing社區收集的,它包含139 746條評分記錄(從0到10)對應的14 967個項目和17 860名用戶;Last.FM是從在線音樂系統Last收集的音樂收聽數據集,此數據集用于鏈接預測任務,并且此數據集中不包含任何標簽或要素。

3.2 實驗環境

本實驗程序在基于X64處理器的Windows10系統,10th Gen Intel(R) Core(TM) i5-11320H@3.20 GHz,16.0 GB內存,Pycharm2018,Python3.8環境下運行。實驗中基于深度學習的模型均由NVIDIA GeForce GTX 1050 4.0 GB、基于Python的TensorFlow包、i7-7700HQ、16.0 GB內存環境下進行訓練。

3.3 對比模型

本文將采用隨機負采樣方法的TransE[9]、TransH[14]、TransR[25]、TransD[26]模型來作為鏈接預測對比試驗。使用Ripple-Net[27]、KGCN[28]、KGCN-LS[21]、KGAT[29]模型來進行點擊率(CTR)預測和TOP-K預測對比試驗。

3.4 評價指標

鏈接預測的對比實驗中使用平均倒數排名(Mean Reciprocal Rank,MRR)和正確實體排在前N名的概率(Hits@N)來衡量鏈接預測的效果,使用ROC曲線下方的面積(AUC)、召回率(Recall)、精確率和召回率的調和平均數(F1)指標來衡量模型的點擊率預測和TOP-K預測效果。

其中,MRR是一個比精度(Precision)更加全面的指標,不僅考慮了模型的推薦結果是否準確,還考慮了準確推薦在推薦列表中的排序。計算公式為

(12)

式中,|U|表示用戶數,ranku表示用戶真實偏好對應的物品在推薦列表中的排名。如果該物品不在推薦列表中,則ranku取無窮大;MRR越大,推薦系統的性能越好。

Hits@N是一種常用的評估鏈接預測效果的指標,將正確實體排在前N名的概率作為效果的評價指標。

AUC為ROC曲線覆蓋的區域面積,計算的是結果中正樣本排在負樣本前的概率,可以有效衡量推薦結果的準確性。

Recall表示測試集中用戶交互過的項目出現在TOP-K推薦列表中的比例。Recall值越高,代表推薦系統性能越好,表達式為

(13)

式中,U表示用戶集,L(u)表示用戶u的TOP-K推薦列表,B(u)表示測試集中與用戶交互的項目集。

3.5 鏈接預測

鏈接預測是指預測一個三元組中缺失的實體或者關系,將測試三元組中缺失的實體或關系視為正確的實體或關系,除此之外稱為候選實體或候選關系。本文在Last.FM數據集上進行實驗,以評估本模型和其他基線模型在鏈接預測任務中的性能。將Last.FM數據集中鏈接的用戶-藝術家對視為正節點對,4種基線模型使用隨機替換樣本的方法來進行負采樣,本文模型則使用相似性負采樣方法來對未連接的用戶-藝術家鏈來進行負采樣,將負樣本根據得分進行排序。

鏈接預測的對比模型中的TransE、TransH、TransR、TransD均使用隨機替換的方法給三元組進行負采樣,使用平均倒數排名(MRR)和正確實體排在前N名的概率(Hits@N)來衡量鏈接預測的效果,表1記錄了5個模型鏈接預測的結果。

如表1所示,本文提出模型的MRR和Hits相較于隨機負采樣模型都有較大的提升,首先,本文使用簡單高效的K-means聚類將相似實體聚類在一起,每次負采樣只需要在簇內進行選擇,提高了計算速度;其次,本文使用在向量空間中與目標實體最相似的實體進行替換,提高負三元組的質量,大大提升了模型訓練的效率。

表1 Last.FM數據集的鏈接預測結果

3.6 點擊率(CTR)預測

表2列出了點擊率預測的實驗結果。從結果可以觀察到本文模型(SPKG)相較于其他模型在AUC和F1指標上都取得了最好的效果,在movielens-1M、Book-Crossing、Last.FM數據集中相較于性能表現最好的模型KGAT分別有AUC值1.7%、2.3%、4.5%的提升,F1指標有2.1%、2.7%、1.8%的提升。由此可見,將知識圖譜作為輔助信息引入推薦系統挖掘用戶和項目之間的深層次特征,可以提高推薦的準確性;其次,使用基于注意力機制的GCN-BiGRU網絡來對用戶的短期興趣進行建模,可以更準確地學習用戶偏好。

表2 不同模型在點擊率預測場景下的AUC值和F1值

3.7 Top-K推薦對比

在Top-K任務中,本文取K=5、10、20、30、40、50六種情況,在3個數據集上進行實驗,結果如圖3所示。

(a) Movielens-1M (b) Book-Crossing

(c) Last.FM圖3 不同模型在Top-K預測場景下的Recall@K值

如圖3所示,隨著推薦項目數量的提高,5種推薦模型的召回率(Recall)逐漸提高。在MovieLens-1M數據集中,當K=30時,本文模型在召回率上相較于KGCN-LS模型提高了6%,較Ripple-Net模型提高了10%;在Book-Crossing和Last.FM數據集中召回率較對比模型也有一定的提升。說明對近期交互的序列進行用戶短期興趣建模更能描述用戶的興趣變化,最終得到的用戶興趣與真實的用戶興趣更為相近。

4 結論

針對現有基于知識圖譜的推薦系統存在的沒有充分考慮近期因素對用戶偏好的影響和在訓練知識圖譜表示模型時負樣本質量低的問題,本文引入基于注意力機制的GCN-BiGRU網絡來從用戶的近期序列中學習用戶的短期興趣,使用相似性采樣方法來對知識圖譜中的實體進行負采樣,提高了負三元組的質量。使用本文模型與其他8種模型進行對比實驗,實驗結果表明,本文提出的模型基于其他基線模型并有了一定的提升,充分說明了相似性采樣能夠提升模型效率,融合知識圖譜和短期偏好能夠提高系統的推薦精度。在接下來的工作中將研究使用其他豐富的輔助信息來對知識圖譜進行補全,增強知識圖譜對用戶偏好的建模能力。

猜你喜歡
三元組圖譜實體
基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
特征標三元組的本原誘導子
繪一張成長圖譜
前海自貿區:金融服務實體
關于余撓三元組的periodic-模
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
主動對接你思維的知識圖譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合