?

面向個性化推薦的node2vec-side融合知識表示

2024-03-05 06:31倪文鍇杜彥輝馬興幫呂海濱
計算機應用研究 2024年2期
關鍵詞:推薦系統知識圖譜

倪文鍇 杜彥輝 馬興幫 呂海濱

收稿日期:2023-06-12;修回日期:2023-08-16? 基金項目:中國人民公安大學網絡空間安全執法技術雙一流專項資助項目

作者簡介:倪文鍇(1998—),男,浙江金華人,碩士研究生,主要研究方向為知識表示、推薦系統;杜彥輝(1969—),男(通信作者),陜西西安人,教授,博導,博士,CCF會員,主要研究方向為人工智能、大數據(duyanhui@ppsuc.edu.cn);馬興幫(1998—),男(回族),云南曲靖人,碩士研究生,主要研究方向為大數據、深度學習;呂海濱(1996—),男,福建泉州人,碩士研究生,主要研究方向為數據分類、知識圖譜等.

摘? 要:推薦系統中知識圖譜對系統的推薦效果起到很重要的作用,圖譜中的知識表示成為影響推薦系統的關鍵因素,這也成為當前的研究熱點之一。針對推薦系統中知識圖譜的結構特點,在傳統node2vec模型基礎上增加關系表示和多元化游走策略,提出一種基于node2vec的知識表示node2vec-side,結合推薦系統知識圖譜網絡結構,旨在挖掘大規模推薦實體節點間潛在的關聯關系,降低表示方式復雜度,提高可解釋性。經過時間復雜度分析可知,提出的知識表示方式在復雜度上低于Trans系列和RGCN。在傳統知識圖譜數據集FB15K、WN18和推薦領域數據集MovieLens-1M、Book-Crossing、Last.FM上分別進行鏈接預測對比實驗。實驗結果表明:在MovieLens-1M數據集上,hits@10分別提升了5.5%~12.1%,MRR提升了0.09~0.24;在Book-Crossing數據集上,hits@10分別提升了3.5%~20.6%,MRR平均提升了0.04~0.24;而在Last.FM數據集上,hits@1提升了0.3%~8.5%,MRR平均提升了0.04~0.16,優于現有算法,驗證了所提方法的有效性。

關鍵詞:知識表示;推薦系統;鏈接預測;知識圖譜

中圖分類號:TP391??? 文獻標志碼:A??? 文章編號:1001-3695(2024)02-006-0361-07

doi:10.19734/j.issn.1001-3695.2023.06.0257

node2vec-side fusion knowledge representation for

personalized recommendation

Ni Wenkai,Du Yanhui,Ma Xingbang,Lyu Haibin

(College of Information & Cyber Security,Peoples Public Security University of China,Beijing 100038,China)

Abstract:The knowledge graph in the recommendation system plays a vital role in the recommendation effect of the system,and the knowledge representation in the graph becomes a key factor affecting the recommendation system,which has become one of the current research hotspots.This paper proposed a node2vec-based knowledge representation node2vec-side based on the traditional node2vec model by adding relational representation and diversifing wandering strategy to the structural characte-ristics of the knowledge graph in recommendation system,which combined with the knowledge graph network structure of recommendation system to explore the potential association relationship between nodes of large-scale recommendation entities,reduced the complexity of the representation and improved interpretability.After time complexity analysis,it could be seen that the proposed knowledge representation is lower than Trans series and RGCN in terms of complexity.Link prediction experiments were conducted on the traditional knowledge graph datasets FB15K,WN18,and recommendation domain datasets MovieLens-1M,Book-Crossing,Last.FM respectively.The experimental results show that on the MovieLens-1M dataset,hits@10 improves 5.5%~12.1% and MRR improves 0.09~0.24,respectively.On the Book-Crossing dataset,hits@10 improves 3.5%~20.6%,and MRR improves 0.04~0.24 on average,respectively.And on the Last.FM dataset,hits@1 improves 0.3%~8.5% and MRR improves 0.04~0.16 on average.It is better than the existing algorithms and verifies the effectiveness of the proposed method.

Key words:knowledge representation;recommender system;link prediction;knowledge graph

0? 引言

當前互聯網中的各類信息呈爆炸式增長,用戶個性化需求與海量信息間的矛盾日益突出,為了給用戶提供更加個性化、精準化、智能化的信息服務,個性化推薦算法應運而生。推薦算法中應用的技術眾多,谷歌公司首次提出知識圖譜(know-ledge graph)[1]的概念并將其應用于搜索引擎。知識圖譜本質上是結構化的語言知識庫,用于表示各領域中的實體和關系,一般的組織形式為有向圖,以節點代表實體,以有向邊表示關系。目前知識圖譜已廣泛應用于問答系統[2]、智能搜索[3]和個性化推薦[4]等人工智能領域。知識圖譜一方面能夠有效組織海量的推薦數據,另一方面能夠通過推薦數據挖掘用戶的深層興趣和推薦物品的潛在關系,從而提升推薦的準確性、多樣性以及可解釋性。構建推薦系統中的知識圖譜首先需要將海量推薦信息組織成結構化的知識,再采用知識表示、知識融合等相關技術支撐推薦應用的需要。其中,知識表示是知識圖譜應用的基礎工程,本質上是將知識圖譜中的實體和關系轉換為稠密低維實值向量,然后再通過知識圖譜的網絡結構進行特征表示學習。隨著知識圖譜的不斷擴展,知識的形式更加復雜多樣,知識圖譜最常用的知識表示為三元組結構,如(實體e,關系r,實體t)。但是,傳統以三元組為主的知識表示表達能力有限,無法滿足知識挖掘、知識推理等應用需要。隨著知識圖譜的應用越來越廣泛,對知識表示的研究也在深入。當前知識圖譜中的知識表示主要包括基于翻譯的知識表示(Trans系列)、基于語義匹配的知識表示(如RESCAL[5]、DistMult[6]、SME[7])、基于距離的知識表示(如SE[8])以及基于圖神經網絡的知識表示(如RGCN[9])。

在推薦系統中,目前最常用的知識表示是以TransE為代表的翻譯模型,例如基于知識圖譜的推薦算法CKE[10](基于TransR)和DKN[11](基于TransE)均采用翻譯模型進行知識表示,但是以Trans系列為代表的知識表示均假設三元組之間是相互獨立的,采用相同概率處理三元組進行建模的方式,往往忽略節點的鄰域信息和網絡結構,對于關系較少的實體表示效果并不理想,存在節點間語義邏輯低、難以挖掘距離較遠的節點間關聯關系等問題,這都在不同程度上限制了模型的知識表示。有學者嘗試將圖神經網絡(GCN[12])知識表示模型應用于推薦系統,并提出了KGCN[13]推薦模型?;贕CN的知識表示首先利用GCN生成實體表示,然后使用圖嵌入模型捕獲實體和關系之間的交互,通過在圖上進行卷積學習的方式聚合節點的特征與信息,最終形成節點和關系的知識表示。目前基于圖神經網絡的知識表示包括GCN、RGCN等,但是圖神經網絡可解釋性差,訓練時難度大、計算復雜,容易受卷積層數影響,在處理大規模知識圖譜時存在復雜度高、效率低等問題。

本文針對個性化推薦領域的知識圖譜結構特點,進行知識圖譜重構,并在傳統node2vec[14]模型基礎上增加關系表示和多元化游走策略,提出一種基于node2vec的知識表示node2vec-side,在充分利用推薦知識圖譜網絡結構的基礎上,更有利于挖掘大規模推薦實體節點間潛在的關聯關系,同時其表示方式復雜度低、可解釋性更強。最后分別在傳統知識圖譜和推薦領域知識圖譜上進行鏈接預測實驗,相比傳統知識表示Trans系列模型和基于圖卷積網絡的RGCN模型,本文提出的知識表示更能滿足推薦系統知識圖譜的應用需要。

1? 相關工作

目前知識圖譜與推薦算法的結合過程中一大難點在于對圖譜的知識表示上,在推薦領域知識圖譜的表示方面,目前還沒有針對性的知識表示方式。2013年,Bordes首先提出TransE模型[15]并在鏈接預測方面取得較大成果,TransE所涉及參數較少且計算簡單,因此自從TransE提出以來,一直是知識表示最具代表性的模型之一[16],其目的是讓head向量和relation向量的和盡可能地靠近tail向量,如圖1所示,TransE的核心是盡可能使得h+r≈t。

雖然TransE簡單有效,但是難以處理多關系的問題也較為突出,Zhang對TransE進行了改進,對于每一個關系r,都將其抽象成向量空間中的超平面Wr,對于每個三元組,都先將頭節點或者尾節點投影到關系r對應的超平面Wr上,再通過超平面上的平移向量計算頭尾節點的差值(圖2),在此基礎上提出了TransH[17]模型,有效解決TransE不能處理一對多,多對一等關系的問題。TransH不要求h+r≈t,但要求保證頭節點在超平面Wr上的投影向量與關系向量dr的和與尾節點的投影向量在同一直線上,即h⊥+dr≈t⊥,其中h⊥=h-wTrhwr,t⊥=t-wTrtwr。

由于TransE和TransH都認為實體和關系應該在相同的向量空間。然而,一個實體可能包含多種屬性,每種關系實際上是實體的不同屬性,頭尾節點和關系可能不在一個向量空間中。Lin等人[18]進一步提出了TransR,在TransE的基礎上進行改進,對于關系不僅通過向量r來描述它自身,還通過映射矩陣Mr來描述這個關系所處的關系空間,分別將實體和關系在兩個不同空間中進行建模,并最終在關系空間中進行翻譯操作(圖3)。但是TransR沒有考慮頭、尾實體類型和屬性的不同,并且將實體和關系分開建模的方式大大增加了計算難度,導致其處理大規模圖譜時效率較低。針對此問題,又不斷提出了TransD[19]、TransF[20]、TransA[21]等系列模型?;诜g的模型都假定實體和關系處于同一語義空間中,但是實體和關系本質上屬于兩種不同的客觀對象,這種將其在同一向量空間中進行表示的方式并不恰當,Trans系列模型均假設三元組之間是相互獨立的,在建模時忽略了三元組周圍的鄰域信息和全局網絡結構信息,導致在個性化推薦領域難以深入挖掘信息。相比之下,node2vec-side在節點游走過程中通過聚合節點之間的關系捕捉知識圖譜的語義信息,更能適用于推薦系統場景,能夠處理多關系建模等問題,在知識表示方面具有更強的表達能力和適應性,為解決知識圖譜與推薦系統結合中的問題提供了新的解決方案。

與此同時,word2vec[22]等模型的提出大大推動了自然語言處理領域的發展,同時也促進了網絡表示學習的相關研究,有學者嘗試將網絡表示應用于知識表示階段。DeepWalk[23]是一種經典的圖結構數據挖掘算法,它將隨機游走和word2vec兩種算法相融合,將圖中的節點看成自然語言處理中的單詞,通過在圖上進行隨機游走的方式獲得相關路徑,然后利用word2vec獲得單詞的詞向量,即作為節點的網絡表示,這種方式有利于挖掘節點間的上下文相關性。

node2vec[24]在DeepWalk算法的基礎上進一步發展,改變采樣策略,采用有偏向的隨機游走方式,改變隨機游走序列生成的方式。這種方式在更大程度上可以根據用戶需求有效地檢索分散的相鄰節點,如圖4所示,node2vec算法能夠兼顧深度游走DFS(depth-first-search)和廣度游走BFS(breadth-first search)方式,主要通過調節參數p和q實現偏向游走策略。其中DFS偏向游走側重于遍歷高階節點,遍歷結果刻畫節點的同質性,BFS偏向游走則側重于遍歷鄰近節點,更多地聚合節點的同構性。但是知識圖譜本質上屬于異構圖,節點間的連線代表著不同的關系,node2vec的現有游走策略多用于同構圖中,如果將其直接應用于異構網絡中,可能會存在以下問題:a)異構網絡由實體(異構節點)和關系(不同類型的邊)組成,在知識圖譜中,三元組(頭實體,關系,尾節點)是構建上下文的核心,而直接應用node2vec會忽略這個關鍵信息,進而影響知識表示質量;b)遇到復雜的異構網絡,單一的隨機游走策略不能有效得到網絡的結構。

node2vec-side針對node2vec在知識表示方面應用存在的問題,引入關系表示并采用多元偏向游走策略,將其更好地應用推薦數據知識圖譜表示。

2? node2vec-side融合知識表示

本文針對推薦系統應用場景,提出了基于node2vec的知識圖譜知識表示node2vec-side,其基本思想是:將推薦領域以三元組保存的知識圖譜進行重構并同質化為帶權有向圖,然后在該有向圖中采用多元隨機游走策略(BFS偏向和DFS偏向)分別在節點上進行游走得到節點表示,同時根據生成的游走序列聚合節點間的關系,最終綜合各游走策略下的表示結果獲得目標知識圖譜的知識表示,整體流程如圖5所示。

2.1? 知識圖譜重構

在物品-屬性知識圖譜的提取過程中,推薦數據通常以三元組的形式進行表示,如(姜文,導演,讓子彈飛),其中可以將知識圖譜中的 “導演”關系看做頭實體“姜文”到尾實體“讓子彈飛”的一次翻譯操作。傳統的Trans系列知識表示單獨處理每個三元組,雖然簡化了知識圖譜向量化過程,但是容易丟失知識圖譜結構特征和節點鄰域信息,在處理復雜關系和深層次關系語義挖掘中效果不佳。

為了更好地利用知識圖譜的網絡結構和節點的鄰域信息,本節采用基于三元組結構的網絡重構方法,在重構過程中,將知識圖譜中的實體抽象為節點,將關系抽象為有向邊,其中邊所指的方向即表示實體之間的關系,由此將知識圖譜轉換為有向圖,同時,在知識圖譜重構過程中,將針對每個關系的重要程度進行權重的分配,使得不同的三元組在游走策略中具有不同的影響力,重要關系連接的節點將獲得更大概率的遍歷。

根據知識圖譜中的關系權重將知識圖譜同構化為帶權有向圖的過程如圖6所示。其中游走的條件概率為

P(ci=x|ci-1=v)=πvxZif(v,x)∈E

0otherwise(1)

其中:πvx為節點v和x的非歸一化轉移概率;Z為歸一化常數。πvx=wvx則為DeepWalk算法,而在node2vec中設定πvx=αpq(t,x)·ωvx來調整節點之間的轉移概率,ωvx表示邊權重,帶權有向圖中各邊的權重為該關系在知識圖譜中出現的次數,相同的關系在有向圖中具有相同的權重,即權重ωr=count(ri),則有

πvx=αpq(t,x)·ωvx=αpq(t,x)·count(ri)(2)

其中:? αpq(t,x)=1pif dtx=0

1if dtx=1

1qif dtx=2(3)

如圖5所示,其中t為節點v的上一節點,dtx表示節點t與x的最短距離。若t、x直接相連,則dtx=1;若t、x為同一節點,則dtx=0;若t、x不相連,則dtx=2。參數p表示返回參數,參數q表示進出參數,通過調節參數p、q可以權衡網絡表示模型的傾向性。由式(2)可知,從當前節點到下一個節點的概率由游走策略和關系權重共同決定,對于知識圖譜中關系出現次數較多的節點可能會多次經過,解決了傳統的Trans系列模型以相同概率處理每個三元組的問題,同時也可以通過關系權重來反映關系間的重要程度。

2.2? 關系聚合

知識圖譜在重構后可以通過隨機游走的方式獲得節點的知識表示,本節在node2vec的節點表示基礎上提出邊表示方式,使知識表示更符合知識圖譜三元組結構特點,提高知識表示的區分度。文獻[24]提到簡單的邊特征表示方法,如表1所示,其中u、v表示邊連接的節點。但是目前node2vec適用于同構圖中,在關系表示部分簡單地認為每條邊都是相異的,而在知識圖譜中相同關系代表的邊向量應該保持一致。為了更好地表示關系向量,本節根據向量平移不變性的思想提出新的關系表示方法,核心思想是在隨機游走中對每一步經過的關系進行聚合并根據權重進行調整。在某次游走序列中存在關系ri、頭尾節點知識表示f(h)、f(t)和某個包含關系ri的三元組(h,ri,t),通過頭尾節點向量差完成關系ri的一次聚合(圖6中f1(ri)、f2(ri)等),依此類推,在節點進行隨機游走過程中進行關系聚合操作,最后根據關系ri在知識圖譜中的權重(圖6中Nri)進行平均處理,為了防止某些權重較大的關系經過聚合平均后出現過于稀疏的情況,本文引入中間值Z,當關系權重大于Z時作統一平均處理。

圖6展示了在表示過程中從某一起點開始進行隨機游走時的具體操作,首先node2vec隨機選擇游走起點(圖6中的h1),然后根據選擇的游走策略在知識圖譜上進行多次隨機游走(圖中選擇兩次隨機游走)并得到多個隨機游走序列Sh1集,同時針對得到的隨機序列,如{h1→t4→h4→t1},通過頭尾節點作差的方式得到該步對應關系的一次聚合(圖中fi(ri)表示對關系ri的第i次聚合),當針對該起點h1完成所有游走時對關系向量進行求和操作并選擇其他節點作為起始節點重復上述操作,依此類推,完成該知識圖譜下所有節點隨機游走時,對最終關系向量根據其權重進行平均。圖7展示僅在h1節點處進行的隨機游走。

對于給定的關系集合R={r1,r2,r3,…,rn},假設任意關系ri∈R,可通過式(4)得到關系ri的知識表示。

f(ri)=∑ifi(ri)Nri=∑(h,ri,t)∈G∨Euclid Math OneSAp(f(t)-f(h))min(count(ri),Z)(4)

其中:Z=|a·sum(G)|;Z表示平均化歸值;α表示比例系數且α∈(0,1);G表示知識圖譜三元組集,即G={(h,r,t)},sum(G)表示知識圖譜中三元組的總數;Euclid Math OneSAp表游走序列集,即Euclid Math OneSAp={Sv|v∈V},V為節點集;Nri表示關系ri的權重值;f(t)、f(h)表示基于node2vec表示的頭尾節點知識表示;count(ri)表示某一關系ri在知識圖譜中出現的次數?;谏鲜霰硎痉绞?,確定node2vec-side模型的得分函數如下:

gr(h,t)=sim(h+r,t)=cos(h+r,t)=(h+r)·t‖h+r‖×‖t‖(5)

其中:sim表示相似度函數,本文采用余弦相似度作為相似度計算函數。最終由fi(h)、fi(t)、fi(r)構成某一偏好隨機游走下的知識表示fi(h,r,t)。

2.3? 多元化游走策略

上文提到針對復雜的異構網絡,選擇單一的隨機游走策略不能有效得到網絡的結構,針對這一問題,可采用多種偏好策略并行的方式進行隨機游走。其中node2vec算法通過調節p、q可獲得不同偏向性的表示結構,其結果主要體現在節點的同質性和結構性上,其中同質性是指相鄰節點的知識表示應該相似,而結構性是指結構相似的節點的知識表示應該相似。參數q表示進出參數,根據式(3)可知:q>1時,游走方式偏向于起始點的鄰居節點,知識表示傾向于BFS;當q<1時,游走方式偏向于起始點的遠處節點,知識表示傾向于DFS。兩種游走方式的具體區別如圖8所示,顏色接近的節點表示其相似性更高。

本文為充分兼顧知識圖譜節點的同質性和同構性,獲得更全面的知識表示,將分別通過深度優先游走(DFS)和廣度優先游走(BFS)策略獲得知識表示f1(h,r,t),f2(h,r,t)后,再融合獲得該知識圖譜下的知識表示f(h,r,t)。

f(h,r,t)=f1(h,r,t)∪f2(h,r,t)(6)

其中:∪表示拼接操作。

首先根據個性化推薦領域的知識圖譜,分別采用兩種游走策略進行節點表示學習。同時,根據節點隨機游走序列將具有相同關系構成的子圖分離,得到同一關系的子圖。在這些子圖中通過頭尾節點對關系進行聚合表示,生成新的特征向量,最后采用向量合并的方式,將兩種游走策略下的向量表示結合起來,得到高維向量表示形式。該模型的核心在于利用知識圖譜中的關系信息,通過游走過程產生的序列對關系子圖進行聚合,并將實體節點與關系信息相結合,生成更加豐富的特征向量,同時進一步采用兩種不同的游走策略,分別考慮了全局和局部的信息,從而更加全面地捕捉了知識圖譜中的節點信息,進一步提高了特征向量的表達能力,能夠有效地提高個性化推薦任務的性能。

node2vec-side融合知識表示得分函數G(h,r,t)如下所示:

G(h,r,t)=h(g1r(h,r,t),g2r(h,r,t))(7)

gir(h,t)=sim(h+r,t)=cos(h+r,t)=(h+r)·t‖h+r‖×‖t‖(8)

其中:sim表示相似度函數,本文采用余弦相似度作為相似度計算函數。式(7)中的h(·)表示融合函數,在本文中取為平均值函數h(X1,X2)=(X1+X2)/2。在預測的過程中通過計算得分函數,從而選擇最佳的尾節點或者頭節點,得分函數選取的好壞將直接影響知識表示預測的效果。

算法1? node2vec-side融合知識表示

輸入:知識圖譜三元組集N。

輸出:實體的向量表示emb;關系的向量表示embr。

初始化:利用知識圖譜中的三元組(h,r,t)∈N得到新的圖G=(V,E),其中V為節點集合,E為邊集合,初始化r_emb={er|r∈E}

a)edge_weight=count(r)/* 對于每個三元組(h,r,t)∈E,計算新的邊權重*/

b)G.add_weighted_edges_from(edge_weight)/*增加邊權重完成知識圖譜重構化*/

c)基于權重w構建新的轉移概率矩陣T

d)在G上為每個節點v∈V進行r次隨機游走,得到游走序列集Euclid Math OneSApv={sv,1,sv,2,…,sv,r}

e)node_emb=node2vec(G,dim,walk_length,num_walks,p,q,weight_key)//通過設定p,q進行隨機游走得到節點表示

f)for sv,i inEuclid Math OneSApv://獲取每個游走序列sv,i∈Euclid Math OneSApv;

for(h,r,t) in sv,i://獲取每一步的頭尾節點

e′r=e′t-e′h//e′h為頭節點h的向量,e′t為尾節點t的向量

er=e′r+er //同一關系er進行累加

g)r_emb={er|er=∑(h,ri,t)∈Eer|min(edge_weight,Z)|}//作平均處理

h)執行后轉步驟d),選擇不同p、q進行多元化游走

i)輸出節點表示列表emb={ev|ev∈node_emb1∪node_emb2}和所有關系表示列表embr={er|er∈r_emb1∪r_emb2}

2.4? 時間復雜度分析

node2vec-side融合知識表示在node2vec基礎上增加關系表示和多元化游走策略,node2vec隨機采樣每個采樣點平均時間復雜度為O(lk(l-k)),采用層次softmax優化的skip-gram部分的時間復雜度為O(log2Nv),關系聚合部分時間復雜度為O(rlNv),在采用兩種游走策略的情況下,node2vec-side的總時間復雜度為O(2lNvk(l-k)+2log2Nv+2rlNv)。其中:l表示隨機游走的長度;k表示領域節點個數;Nv表示節點個數;r表示隨機游走次數。TransE、TransH、TransR和RGCN的時間復雜度如表2所示[19,25]。其中:dv表示節點表示的維度;dr表示關系表示的維度;N表示三元組總數;Nr表示關系數;M表示圖卷積的層數。

對于node2vec-side而言,在實際應用中k、l和r為常數,同時在大規模知識圖譜中Nv<

3? 實驗設置及結果分析

本章將首先對比node2vec-side知識表示模型在傳統知識圖譜中鏈接預測的性能,使用的數據集為FB15K和WN18,然后驗證其在推薦系統領域中的有效性。推薦領域的知識圖譜大多是以物品為核心,以相關屬性為節點,呈現中心發散的結構特點。本次實驗將使用公開推薦系統數據集MovieLens-1M、Book-Crossing、Last.FM,在各數據集的知識圖譜上進行鏈接預測實驗,并與Trans系列模型和基于圖神經網絡的RGCN模型進行對比。

3.1? 數據集分析

FB15K是基于Freebase抽取得到的稠密子集。Freebase是一個公共的、可編輯的數據集,Freebase中的條目采用了RDF的三元組組織形式,截至2015年,Freebase包含了大約30億個不同領域的事實、5 000萬個實體,包括大約2.7萬個實體類型和3.8萬個關系類型。

WN18是由Border等創建的詞匯知識圖WordNet的子集。WN18中的主要關系模式為對稱和逆關系。

MovieLens-1M是一個電影推薦公開數據集,其中包括了6 040個用戶和3 706部電影的1 000 209條評分數據。相應的知識圖譜包含1 241 995個三元組,其中有182 011個實體,有12種關系。

Book-Crossing是一個書籍推薦的公開數據集,包括了來自105 283個用戶和340 555本書的1 149 780條評分數據,相應的知識圖譜包含151 500個三元組,其中有77 903個實體,有25種關系。

Last.FM是一個音樂推薦的公開數據集,包括了來自1 892個用戶和17 632個藝術家的92 834條權重數據,相應的知識圖譜包含15 518個三元組,其中有9 366個實體,有60種關系。各數據集的具體信息如表3所示。

3.2? 評價指標

由于在推薦系統中,人們更多關注推薦結果的準確性,所以本文主要開展對推薦數據知識圖譜的鏈接預測實驗。鏈路預測的主要過程是對于一個完整的三元組(h,r,t),實驗給定(h,r)后預測t或給定(h,t)后預測r,從而驗證模型預測實體的能力。首先在推薦知識圖譜中隨機選取10%的三元組作為測試集,并將其在原知識圖譜中予以刪除,將刪除后的知識圖譜作為訓練集進行實驗。對測試集中的每一個三元組(h,r,t),選擇丟棄尾節點t,得到(h,r)后,用實體集中的元素e補全后通過得分函數G(h,r,e)依次進行得分計算,將計算所得的所有結果進行排序,得到原始三元組(h,r,t)的排名。

通常采用排名不超過n的百分比(hits@n)、平均排名(mean rank,MR)和平均倒數排名(mean reciprocal rank,MRR)作為衡量指標,各指標的計算方式如下所示。

hits@n=1|S|∑|S|i=1Ⅱ(ranki≤n)(9)

MR=1|S|∑|S|i=1ranki=1|S|(rank1+rank2+…+rank |S|)(10)

MRR=1|S|∑|S|i=1? 1ranki=1|S|(1rank1+1rank2+…+ 1rank|S|)(11)

其中:S是三元組集合,|S|是三元組集合個數;ranki是指第i個三元組的鏈接預測排名。MR指標的取值為0~N,其中N是測試集中的三元組數量,越接近0表示模型的性能越好;而MRR的取值為0~1,其值越接近1表示模型的效果越好。

3.3? 實驗設置與實現

實驗采用的操作系統為Ubuntu 22.04.2 LTS,采用的實驗環境為CUDA 10.2、Python 3.8.13、Torch 1.10.1+cu102、NumPy 1.23.5。本節實驗部分首先進行傳統知識圖譜上的實驗對比。在node2vec-side中將每個節點開始的隨機游走次數number-walks設為60,每個節點開始的隨機游走長度walk-length設為100,其他超參數如表4所示。

對于基線模型的參數,按照論文中推薦的參數進行設置實驗。node2vec-side知識表示模型與其他傳統模型如RESCAL[26]、SE[8]、SME[28]、TransE、TransH、TransR等在鏈接預測方面的實驗對比結果如表5所示。

從上述實驗結果可以發現,node2vec-side模型在處理大規模知識圖譜的情形下表現較好,在FB15K數據集上hits@10提升1.4%、hits@1提升1.8%,而在WN18數據集上hits@1提升6.2%,但是hits@10卻較低,由于 FB15K 的規模較大,關系豐富,相較于小規模知識圖譜 WN18,鏈接預測對全局特征的要求更高。然而,傳統的 Trans 系列模型采用獨立訓練三元組的方式,容易忽略知識圖譜的網絡結構,導致難以挖掘一些較遠節點的關聯關系。為了解決這一問題,node2vec-side 知識表示采用有偏向的隨機游走方式,并引入關系表示,能更好地理解全局特征,并善于挖掘較遠節點之間的關聯。因此,該模型的精確預測能力(hits@1)優于Trans 系列模型。

表6給出了node2vec-side模型在個性化推薦領域相關實驗對比的超參數取值,其中dim表示向量維度,一般來說,較高的維度可以更好地捕捉節點的特征,但可能會增加計算復雜度,本文取值為128,number-walks表示從各節點開始的隨機游走次數,通過增加游走次數可以增加采樣的多樣性,有助于更好地學習節點之間的關系。本實驗選擇了適中的游走次數,以平衡采樣多樣性和計算效率,walk-length表示路徑長度,較短的路徑長度可能更加側重局部鄰域的關系,而較長的路徑長度則更多地考慮全局信息。本文根據數據集的情況,考慮在一定程度上平衡局部和全局信息,選擇合適的路徑長度,這些參數的具體取值是通過多次實驗獲得的,通過不斷嘗試不同的參數組合,并根據實驗結果進行分析和比較。同時,TransE的嵌入維度設為50,學習率lr為0.01,TransH和TransR的嵌入維度均設為100,TransH的學習率lr為0.01,TransR的學習率lr為0.001,RGCN的嵌入維度設為100,學習率lr為0.01。本文對每個數據集進行處理,經過多次實驗后得出實驗結果。

在個性化推薦領域,針對物品-屬性知識圖譜中的鏈接預測問題,本文進行了一系列實驗,對比了node2vec-side知識表示模型與其他幾種在個性化推薦領域流行的知識表示模型,包括TransE、TransH、TransR和RGCN。具體實驗結果如表7和8所示。

表7主要展示了hits@指標的實驗結果,而表8則主要展示了MRR和MR指標。通過這些實驗結果可以看到,node2vec-side模型在鏈接預測問題上表現出了出色的性能,尤其是在hits@1和MRR指標上。相比其他模型,node2vec-side模型的表現有了顯著提升,表明node2vec-side模型在個性化推薦領域中具有較高的應用價值,并且可以為推薦系統提供更加準確、多樣和可解釋的推薦結果。

3.4? 結果分析

通過表7發現,node2vec-side在精確預測方面(hits@1)的處理效果都優于其他模型。對于推薦數據量較大、關系較多的推薦數據集,如MovieLens-1M,鏈接預測對全局特征的要求更高,而node2vec-side知識表示更能把握全局特征,擅于挖掘一些較遠的節點間的關聯關系,相比而言,Last.FM中推薦知識圖譜的規模較小,RGCN的聚合速度和表示效果更好,但是node2vec-side在精準預測(hits@1)上仍較為突出。同時由表8可知,node2vec-side在MRR和MR上都優于Trans系列和RGCN,各模型在MovieLens-1M中的MR均較大,而在Last.FM中則較小,其主要原因是MovieLens-1M中三元組數量較多,預測難度更大。

各訓練集的推薦知識圖譜網絡結構如表9所示,其中網絡傳遞性是表示一個圖形中節點聚集程度的系數,可以衡量網絡的關聯性,其值越大表示交互關系越大,同時網絡也越復雜;互惠性是指在有向圖中雙向連接的邊占所有邊的比例。FB15K是基于Freebase抽取得到的大眾知識圖譜,通過對比可以發現,推薦系統領域中的知識圖譜相比于傳統知識圖譜而言,網絡密度更小、節點間的交互較少、節點的聚集程度較低,往往是以物品為核心,物品屬性為節點的圖譜結構。不同類型的推薦知識圖譜可能又會存在不同的網絡差異,在MovieLens-1M、Book-Crossing推薦知識圖譜中,互惠性較高、網絡密度較低,綜合node2vec-side在三個推薦領域知識圖譜上的表現可知,當圖譜的聚集程度越高時,其鏈接預測的效果更好。傳統的Trans系列模型應用效果不佳,同時由于節點間交互較少,網絡結構更多體現稀疏性,基于圖神經網絡的模型RGCN在處理大型圖數據時受復雜度限制,不能有效聚合鄰居節點,存在訓練成本大的問題,導致模型在實際應用中效果不盡如人意。然而,在這種網絡結構中,基于隨機游走的方式更能夠發現物品間的關聯關系,這種方法不僅訓練速度更快,而且效率更高。通過隨機游走可以在圖數據中生成大量的訓練樣本,這些樣本可以被用來訓練模型,從而提高模型的準確性和效率。因此,基于隨機游走的方法在處理大型圖數據時具有廣泛的應用前景,并且可以在個性化推薦領域發揮重要作用。

3.5? 超參數分析

本節主要探討了參數a對實驗結果的影響,通過對圖10的觀察可以發現,不同數據集對參數a的適應性不同。當參數a較小時,各數據集的hits@值隨著參數變化的波動較大,而當參數a的值變大時,各數據集的hits@值趨于穩定。此外,針對不同的數據集,參數a的最佳取值也有所不同。在Book-Crossing數據集中,當a在0.2附近時hits@值達到峰值;在MovieLens-1M數據集中,當a在0.1附近時hits@值達到峰值;在Last.FM數據集中,當a在0.1附近時hits@10達到峰值,而a在0.01附近時hits@1達到峰值。相較而言,模型在Book-Crossing數據集下的hits@值表現更好。這表明在不同的數據集上,參數a的取值對模型的性能有著不同的影響,需要根據具體的數據集進行調整。

4? 結束語

目前基于高階信息聚合的知識圖譜推薦算法[27~29]旨在利用知識表示將語義信息與路徑結合起來,通過周圍鄰居節點豐富用戶和物品的表示,而本文針對推薦系統知識圖譜特點,通過改進node2vec模型提出node2vec-side融合知識表示模型,可以應用于推薦數據的知識表示領域,將推薦領域的知識圖譜進行重構后,再通過節點表示、關系聚合以及多元游走策略等得到知識表示形式,為個性化推薦提供數據挖掘、用戶潛在偏好發現等提供支撐。在本文研究成果的基礎上,文獻[30]對RippleNet推薦模型進行改進,利用node2vec-side進行物品畫像和用戶畫像建模,挖掘物品潛在關聯關系,多元化游走策略兼顧知識圖譜中節點的同質性和同構性,降低原有模型用戶畫像更新局部性影響,模型在推薦準確率和多樣性方面有顯著提升。相比于目前應用較多的Trans系列模型,本文模型通過對知識圖譜進行有偏向游走的方式學習網絡結構,在建模時更多考慮三元組周圍的鄰域信息和全局網絡結構信息,有利于挖掘發現距離較遠的實體間關聯關系,復雜度更低、可解釋性更強,但是在面對小規模推薦系統知識圖譜中的知識表示能力還有所欠缺,在未來工作中,將重點研究提升小規模推薦系統知識圖譜中鏈接預測的能力,增強現有基于知識圖譜的推薦算法的準確性和多樣性。

參考文獻:

[1]Singhal A.Introducing the knowledge graphi things,not strings [EB/OL].(2012-05-16).https://www.blog.google/products/search/introducing-knowledge-graph-things-not1.

[2]Bordes A,Chopra S,Weston J.Question answering with subgraph embeddings[EB/OL].(2014).https://arxiv.org/abs/1406.3676.

[3]Nguyen D Q,Nguyen T D,Phung D.A relational memory-based embedding model for triple classification and search personalization[EB/OL].(2019).https://arxiv.org/abs/1907.06080.

[4]Zhou Kun,Zhao W X,Bian Shuqing,et al.Improving conversational recommender systems via knowledge graph based semantic fusion[C]//Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York:ACM Press,2020:1006-1014.

[5]Nickel M,Tresp V,Kriegel H P.A three-way model for collective learning on multi-relational data[C]//Proc of the 28th International Conference on Machine Learning .2011:809-816.

[6]Yang Bishan,Yih W,He Xiaodong,et al.Embedding entities and relations for learning and inference in knowledge bases[EB/OL].(2014).https://arxiv.org/abs/1412.6575.

[7]Socher R,Chen Danqi,Manning C D,et al.Reasoning with neural tensor networks for knowledge base completion[C]//Proc of the 26th International Conference on Neural Information Processing Systems.2013:926-934.

[8]Bordes A,Weston J,Collobert R,et al.Learning structured embeddings of knowledge bases[C]//Proc of the 25th AAAI Conference on Artificial Intelligence.2011:301-306.

[9]Schlichtkrull M,Kipf T N,Bloem P,et al.Modeling relational data with graph convolutional networks[C]//Proc of European Semantic Web Conference.Cham:Springer,2018:593-607.

[10]Zhang Fuzheng,Nicholas J Y,Lian Defu,et al.Collaborative know-ledge base embedding for recommender systems[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016:353-362.

[11]Wang Hongwei,Zhang Fuzheng,Xie Xing,et al.DKN:deep knowledge-aware network for news recommendation[C]//Proc of World Wide Web Conference.2018:1835-1844.

[12]Kipf T N,Welling M.Semi-supervised classification with graph convolutional networks[EB/OL].(2017).https://arxiv.org/abs/1609.02907.

[13]Wang Hongwei,Zhao Miao,Xie Xing,et al.Knowledge graph convolutional networks for recommender systems[C]//Proc of World Wide Web Conference.2019:3307-3313.

[14]Li Lu,Wang Wei,Yu Shuo,et al.A modified node2vec method for disappearing link prediction[C]//Proc of the 15th International Conference on Dependable,Autonomic and Secure Computing.Piscata-way,NJ:IEEE Press,2017:1232-1235.

[15]Bordes A,Usunier N,Garcia-Duran A,et al.Translating embeddings for modeling multi-relational data[C]//Proc of Neural Information Processing Systems.Massachusetts:MIT Press,2013:2787-2795.

[16]Rossi A,Barbosa D,Firmani D,et al.Knowledge graph embedding for link prediction:a comparative analysis[J].ACM Trans on Know-ledge Discovery from Data,2021,15(2):1-49.

[17]Wang Zhen,Zhang Jianwen,Feng Jianlin,et al.Knowledge graph embedding by translating on hyperplanes[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.2014:1112-1119.

[18]Lin Yankai,Liu Zhiyuan,Sun Maosong,et al.Learning entity and relation embeddings for knowledge graph completion[C]//Proc of the 29th AAAI Conference on Artificial Intelligence.2015:2181-2187.

[19]Ji Guoliang,He Shizhu,Xu Liheng,et al.Knowledge graph embedding via dynamic mapping matrix[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.2015:687-696.

[20]Feng Jun,Huang Minlie,Wang Mingdong,et al.Knowledge graph embedding by flexible translation[C]//Proc of the 15th International Conference on the Principles of Knowledge Representation and Reasoning.2016:557-560.

[21]Xiao Han,Huang Minlie,Hao Yu,et al.TransA:an adaptive approach for knowledge graph embedding[EB/OL].(2015).https://arxiv.org/abs/ 1509.05490.

[22]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word re-presentations in vector space[EB/OL].(2013).https://arxiv.org/abs/1301.3781.

[23]Perozzi B,Al-Rfou R,Skiena S.DeepWalk:online learning of social representations[C]//Proc of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2014:701-710.

[24]Grover A,Leskovec J.node2vec:scalable feature learning for networks[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2016:855-864.

[25]Feng Yanlin,Chen Xinyue,Lin B Y,et al.Scalable multi-hop relational reasoning for knowledge-aware question answering[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2020.

[26]Nickel M,Tresp V,Kriegel H P.A three-way model for collective learning on multi-relational data[C]//Proc of International Confe-rence on International Conference on Machine Learning.[S.l.]:Omnipress,2011.

[27]崔煥慶,宋瑋情,楊峻鑄.知識水波圖卷積網絡推薦模型[J].計算機科學與探索,2023,17(9):2209-2218.(Cui Huanqing,Song Weiqing,Yang Junzhu.Knowledge water wave graph convolutional network recommendation model[J].Computer Science and Exploration,2023,17(9):2209-2218.)

[28]Wang Ze,Lin Guangyan,Tan Huobin,et al.CKAN:collaborative knowledge-aware attentive network for recommender systems[C]//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2020.

[29]羅承天,葉霞.基于知識圖譜的推薦算法研究綜述[J].計算機工程與應用,2023,59(1):49-60.(Luo Chengtian,Ye Xia.Review of research on recommendation algorithms based on knowledge graph[J].Computer Engineering and Applications,2023,59(1):49-60.)

[30]Ni Wenkai,Du Yanhui,Ma Xingbang,et al.Research on hybrid re-commendation model for personalized recommendation scenarios[J].Applied Sciences,2023,13(13):7903.

猜你喜歡
推薦系統知識圖譜
數據挖掘在選課推薦中的研究
基于用戶偏好的信任網絡隨機游走推薦模型
基于個性化的協同過濾圖書推薦算法研究
個性化推薦系統關鍵算法探討
國內圖書館嵌入式服務研究主題分析
國內外政府信息公開研究的脈絡、流派與趨勢
基于知識圖譜的產業集群創新績效可視化分析
基于知識圖譜的產業集群創新績效可視化分析
基于知識圖譜的智慧教育研究熱點與趨勢分析
淺談Mahout在個性化推薦系統中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合