?

MIKU:融合知識圖譜的用戶多層興趣模型

2022-05-10 08:45段文菁續欣瑩岳曉冬劉笑笑
小型微型計算機系統 2022年5期
關鍵詞:深層圖譜實體

段文菁,謝 珺,續欣瑩,岳曉冬,劉笑笑

1(太原理工大學 信息與計算機學院,山西 晉中 030600)

2(太原理工大學 電氣與動力工程學院,太原 030000)

3(上海大學 計算機工程與科學學院,上海 200444)

1 引 言

互聯網的飛速發展使得信息過載問題亟待解決,個性化推薦作為大數據時代的產物,依據海量的用戶行為數據深入挖掘有效信息,滿足不同用戶的需求,憑借其顯著優勢受到研究者的青睞,被廣泛應用于視頻、電商以及新聞等領域.

個性化推薦的核心任務是匹配目標用戶的需求,用戶興趣建模作為推薦系統的基礎,其構建至關重要,能否建立準確、高效的用戶模型決定了個性化推薦的效果.早期的推薦算法以協同過濾[1]為代表,依據群體的歷史反饋信息與相似性關系,發掘用戶的潛在喜好.隨著推薦技術的不斷發展,深度學習以其高效的計算能力與優越的可擴展性,迅速在推薦領域占領一席之地,取得了諸多有重要意義的研究成果[2].然而大多算法僅依靠歷史交互信息作為輸入,交互行為的稀疏性嚴重制約了用戶興趣的表征,且存在明顯的冷啟動問題,使得個性化推薦模型有一定的缺陷.

為解決上述局限性,研究者考慮引入不同的輔助信息來提高推薦性能,如用戶項目屬性[3,4]、評論文本[5]及社交信息[6]等.近年來,以知識圖譜為輔助信息的推薦算法,不僅能夠提高推薦的精確度,同時為推薦結果提供一定的可解釋性,具有重要的研究意義和價值[7].項目端的知識圖譜融合多源異構數據,細粒度地刻畫項目特征,突出了項目之間的語義聯系,同時利用其獨特的結構知識,便于挖掘到用戶的深層興趣.然而項目端知識圖譜,僅補充了項目的知識,對于無交互歷史的新用戶,仍存在一定局限.用戶的屬性信息是其自身的固有信息,相較于歷史交互而言,更加穩定且不隨時間變化.研究表明[8],用戶屬性信息中隱含一定的興趣偏好.融合用戶的屬性信息不僅可解決用戶冷啟動問題,在一定程度上可提高推薦系統性能.融合了知識圖譜與用戶屬性信息的結構圖如圖1所示.通過用戶點擊的電影記錄在項目端知識圖譜上鏈接到其深層的偏好,如電影類型、主演、導演等.

圖1 融合知識圖譜與用戶屬性信息的結構圖

綜合上述分析,本文提出一種融合知識圖譜的用戶多層興趣模型(Multi-layer User Interest Model Based on Knowledge Graph,MIKU),該模型以項目端知識圖譜和用戶屬性為輔助信息,從行為興趣和用戶屬性兩方面對用戶建模.由于用戶的歷史交互僅代表其直接偏好,未展現出用戶深層的興趣點.為了充分挖掘用戶的深層興趣,本文利用知識圖譜的結構知識,將用戶的行為興趣分為淺層興趣與深層興趣,以用戶的歷史交互項目為淺層興趣,歷史項目通過圖譜的關系路徑鏈接的相關實體作為深層興趣.由于用戶對候選項目興趣受其歷史行為的影響,具有多樣性和動態性,采取以不同的加權機制自適應地計算用戶對直接行為以及其深層興趣點的興趣權重.考慮到新用戶在系統中尚未產生歷史交互行為,無法分析其行為興趣,本文綜合了用戶的多層興趣與屬性特征,全面分析用戶特征對其建模,進而生成推薦.在公開的MovieLens-1M數據集上驗證,實驗結果表明,融合了知識圖譜與用戶屬性的MIKU模型在推薦精度等指標上均有顯著提高.

本文的主要貢獻:

1)結合項目端知識圖譜和用戶屬性信息,利用知識圖譜的結構知識,挖掘用戶深層興趣.同時融合用戶固有屬性,從多層行為興趣與用戶屬性角度全面深入挖掘用戶的偏好,提高推薦的精準度,改善了用戶冷啟動問題.

2)采用不同的自適應加權機制,分別從用戶行為對淺層興趣及深層興趣建模,有效提取用戶交互級別的動態偏好,刻畫了用戶興趣的多樣性.

2 相關工作

2.1 用戶興趣建模

用戶興趣模型的構建是推薦算法研究的基礎,能否獲取較為準確的偏好信息是提高推薦精確度的關鍵.傳統的協同過濾算法認為,具有相似行為的用戶擁有相近的興趣,利用項目評分信息計算兩用戶的相似度.隨著數據的不斷增長,用戶和項目的數據量極為龐大,用戶真正有過行為的項目寥寥無幾,評分矩陣稀疏,不能很好地表示判定用戶間的相似度.近年來,研究者從不同角度引入各種技術方法更深一步探索推薦問題[9-14].文獻[9]結合SVM與因式分解模型,旨在解決數據稀疏情況下的特征組合問題,但卻忽略了用戶的歷史行為乃其興趣的最直觀表現;文獻[12]利用用戶的行為序列挖掘用戶的興趣,以其歷史點擊項目平均加權作為用戶的興趣表征;文獻[13]引入注意力機制為歷史項目分配不同的權重加權,表征用戶興趣的多樣性.然而交互行為的稀疏性仍制約著用戶興趣的表征,且信息結構單一,無法挖掘到用戶深層的興趣,對于無用戶交互記錄的新用戶,無法給出合理的推薦.結合了輔助信息的推薦系統,可有效解決以上缺陷.文獻[14]采用改進的K-means聚類方式對用戶屬性特征聚類,從相似度角度結合用戶屬性和用戶偏好,緩解冷啟動問題的同時,提高了推薦效果.

2.2 融合知識圖譜的推薦算法

以知識圖譜為輔助信息的推薦系統一般分為基于路徑的方法與基于嵌入的方法.基于路徑的方法利用圖譜的網絡結構,構建項目之間的元路徑特征.文獻[15]引入基于meta-path的隱含特征,來代表用戶和項目在不同路徑上的連通性.文獻[16]將知識圖譜視為特殊的異構信息網絡,引入加權元路徑的概念,針對不同路徑的重要程度賦予相應的權重.而基于嵌入的方法[17]側重于利用知識圖譜的結構信息豐富項目或用戶的表征.文獻[18]通過TransR知識嵌入算法獲取實體的語義表示,進而獲取更好的物品潛在表示.文獻[19]為了彌補一般的實體嵌入獨立于推薦任務,將知識嵌入與推薦作為兩個交替的任務共同優化,進行多任務推薦.然而這兩類方法各有缺陷,基于路徑的方法很大程度依賴于預定義的元路徑,可擴展性不強.基于嵌入的方法未充分利用圖譜的結構關系,缺乏推理能力,忽略成對實體之間關系的語義.文獻[20]提出了漣漪網絡,首次將基于路徑與基于嵌入的方法結合,通過知識圖譜探索用戶興趣偏好的傳播過程,取得了顯著成效,然而該算法僅關注用戶的傳播偏好,忽略了其歷史點擊項目以及屬性特征對于興趣建模的重要性,存在一定不足.

本文提出的算法以項目端的知識圖譜與用戶屬性信息為輔助信息,結合基于嵌入與基于路徑的推薦算法,既豐富了物品之間的語義關聯,又可自動獲取路徑中的實體聯系.利用知識圖譜的結構知識挖掘用戶的興趣點,從用戶行為中分析其淺層興趣和深層興趣.考慮到用戶興趣的多樣性,通過對歷史行為和知識圖譜中的深層興趣點自適應加權以獲取用戶的興趣表征.同時為改善冷啟動問題,結合用戶的屬性信息,有效彌補了用戶端的特征信息不足,改善了推薦系統性能.

3 融合知識圖譜的用戶多層興趣模型

3.1 相關定義及問題描述

表1給出本文使用的相關符號.

表1 符號標識及說明

定義1.用戶-項目交互矩陣Y={yuv|u∈U,v∈V},U={u1,u2,...}和V={v1,v2,...}分別表示用戶和項目的集合.

(1)

其中yuv=1表示用戶u和項目v之間存在隱式反饋,例如點擊、觀看、瀏覽等行為;

定義2.存在知識圖譜G,由大量的實體關系三元組(頭實體,關系,尾實體)組成(記為).這里G={(eh,r,et)|eh∈ε,r∈R,et∈ε},其中ε和R表示知識圖譜G中的實體集合和關系集合.為了利用知識圖譜中的項目語義關系,在該推薦場景中可以將集合V中的項目v與G中的一個或多個實體相匹配,表示為V?ε;

定義3.用戶u的歷史交互項目集為:δu={v1,v2,...,vNi};

定義4.以用戶u的交互項目相關實體集為:εu={et|(eh,r,et)∈G,其中eh∈δu};

定義5.用戶u的相關三元組集為:Su={(eh,r,et)|(eh,r,et)∈G,其中eh∈δu}.

圖2 MIKU模型總體流程圖

3.2 融合知識圖譜的用戶多層興趣推薦算法

圖3 MIKU的整體模型圖

3.2.1 用戶淺層興趣建模

給定用戶u的點擊記錄δu,由于項目與知識圖譜的實體相匹配,對于每個項目vi(i=1,2,...,Ni)通過知識表示學習得到對應的向量表示vi∈d,其中d為向量表示的維度.

為了對用戶u的興趣建模,一般直接平均其點擊過的項目特征,為所有歷史項目分配統一的權重,如公式(2)所示:

(2)

然而,用戶對項目的興趣是多樣化的,考慮到若用戶的歷史點擊中存在較多與候選項目相似的物品,則可認為該用戶對候選項目感興趣程度越大.因此,本文采用自適應加權機制,計算各個交互項目與待推薦項目之間的相關權重,按此權重對各個歷史項目的向量進行加權求和,動態刻畫用戶的歷史興趣.

具體為,以候選項目表示vj∈d為基礎,為用戶u交互歷史項目集δu中每個 vi分配不同的權重并加權平均,獲取用戶的淺層興趣表征uH:

(3)

其中αi為自適應加權的權重因子,給定項目vi和vj利用函數H1通過內積形式擬合二者之間的相關性,并通過softmax函數將相關性轉化為權重因子:

(4)

3.2.2 用戶深層興趣建模

知識圖譜中包含了豐富的實體信息,利用不同實體之間的關聯可以挖掘用戶的深層興趣,例如用戶m點擊過電影vm是由于他對該電影主演感興趣,為了充分挖掘用戶的深層興趣,本文利用知識圖譜的結構知識,以用戶歷史交互項目通過知識圖譜的關系路徑,鏈接到相關實體,挖掘用戶對相關實體的深層興趣.考慮到用戶在不同關系下的興趣度不同,提出基于知識路徑加權的用戶深層興趣建模,刻畫用戶直接點擊的歷史項目通過在關系路徑傳遞至其相關實體的興趣.

給定知識圖譜G,以用戶u的歷史點擊項目δu為頭實體,沿著知識路徑鏈接得到相關實體εu以及歷史項目的三元組集Su,通過內積函數H2計算候選項目vj與三元組(ehi,ri,eti)在關系ri下與頭實體ehi的權重因子βi:

(5)

其中ri∈d×d為關系ri的張量表示,ehi∈d為項目vi所匹配的頭實體的向量表示.通過計算Su中所有三元組的相關權重因子,對于用戶鏈接到的相關實體以對應的概率進行加權求和,從而表征用戶的深層興趣uT:

(6)

3.2.3 用戶屬性建模

傳統推薦只考慮用戶-項目評分交互的關聯,忽略了用戶本身的屬性特點.本文綜合考慮了用戶屬性特征和用戶興趣特征,更完善地表征用戶,可提高推薦準確率同時有效解決了用戶冷啟動問題.

屬性特征作為用戶本身固有的信息,在用戶無交互記錄時,可作為依據有效表征用戶.表2列出MovieLens-1M的用戶信息中前5行數據,性別2類,年齡7類,職業21類,具體信息以數值表示,表2中第一行userID為′1′,性別′F′代表女性,年齡′1′代表年齡小于18歲的用戶,職業′10′代表該用戶為學生.

表2 用戶屬性信息

為了提取用戶的屬性特征,本文通過用戶屬性建模,首先將屬性信息進行數值化處理,例如把用戶性別為′F′映射為1,′M′映射為0.將處理后的數據通過one-hot層轉換為稀疏向量,考慮到one-hot類型的特征太過稀疏,會導致網絡參數太多,且特征長度不一,不利于后續特征的融合.本文利用嵌入層,以屬性特征的稀疏向量表示uage,ugender,uocc作為輸入,將其壓縮成統一長度的低維稠密向量,最后通過全連接層映射函數Z將不同特征映射至與用戶興趣特征同一隱空間,用戶屬性特征表示uP為:

uP=Z(uage,ugender,uocc)

(7)

3.3 模型優化

通過對用戶的淺層興趣和深層興趣建模,同時融入了用戶屬性特征,可得到用戶向量表征u:

u=uH+uT+uP

(8)

(9)

其中σ(x)=(1+e-x)-1為sigmoid函數,an表示神經網絡中第n層的激活函數,Wn和bn分別為第n層的權重和偏置.

模型損失函數如公式(10)所示:

(10)

在公式(10)中,第1項為推薦中用戶-項目交互行為的預測概率和真實標簽之間的交叉熵損失,其中F為交叉熵函數,第2項計算了利用語義匹配模型[21]學習得到實體和關系表征與知識圖譜G中的關系為r的示性函數Xr之間誤差的平方;最后一項是防止過擬合的正則項,λ1為知識圖譜正則項權重參數,λ2為L2正則項參數.

4 實驗過程和結果分析

4.1 實驗數據集

為測試模型的有效性,本文利用MovieLen-1M電影數據集(1)http://grouplens.org/datasets/movielens/對提出的方法進行驗證.MovieLens-1M是推薦領域廣泛使用的基準數據集,包含943位用戶對1682部電影共計100多萬條顯示評分數據,電影屬性數據以及用戶的人口統計學數據(年齡、性別和職業等).考慮到用戶的點擊歷史行為更容易收集,本文將顯式評分轉化為隱式反饋數據,以用戶評分過的電影為正樣本,隨機采樣用戶未評分過的電影集合為負樣本,對于每個用戶而言,正負樣本之比為1∶1.

本文使用文獻[20]提供的微軟Satori知識圖譜,以電影關系篩選出符合條件的所有三元組(head,film.film.name,tail),將MovieLens-1M中的電影ID與知識圖譜中的頭尾實體ID相匹配,構成最終的電影知識圖譜,其中涉及的電影及知識圖譜數據統計如表3所示.

表3 實驗數據統計

4.2 實驗評價標準

對于推薦系統算法推薦的結果,本文采用3個指標對其進行分析:準確率Precision@K、召回率Recall@K以及綜合指標F@K,其中K為推薦的個數.

(11)

(12)

其中R(u)表示根據用戶在訓練集上的行為給用戶做出推薦列表,T(u)表示用戶在測試集上的行為列表.

準確率和召回率作為推薦評價的重要指標,相互制約影響,可利用F@K作為二者的調和均值綜合評價:

(13)

參數μ表示準確率在評價標準中的重要性,取值范圍為[0,+∞),實驗中常使用μ=1.

4.3 實驗方案設計與結果分析

本文模型采用離線實驗,將MovieLens-1M數據集以6:2:2的比例劃分訓練集、驗證集和測試集,每個實驗重復5次,取最終的平均結果.實驗主要在Top-K推薦場景中,使用學習到的模型為每個測試集中的用戶選擇前K個預測概率的物品作為推薦結果,利用準確率、召回率和F1值驗證本文模型的有效性.

為了驗證MIKU模型的有效性,本文使用了如下的基準方法:

LibFM[9]:基于潛在特征因子的矩陣分解模型,本文將用戶和物品的原始特征以及依據知識表示方法學到的實體向量作為模型輸入;

PER[15]:引入基于meta-path的隱含特征,來代表用戶和項目在不同 路徑上的連通性;

CKE[18]:結合多源輔助信息的協同過濾方法,從知識庫中學習項目的語義表示.本文中僅使用結構化的知識作為輸入,無圖片和文本知識;

MKR[19]:以知識嵌入任務來輔助推薦任務的多任務特征學習方法;

RippleNet[20]:將用戶興趣類比于“漣漪”擴散,模擬用戶興趣在知識圖譜上的偏好傳播模型.

模型中涉及到的相關參數如表4所示,為了公平考慮,所有對比基線方法的參數均設置相同.

表4 相關參數

4.3.1 相關參數驗證

為了研究向量表示的嵌入維度d和知識圖譜正則項權重λ1對推薦結果的影響,實驗中分別選取d的變化范圍為4-64,λ1的范圍為0.001-0.01,保持其他參數不變進行驗證,實驗結果如圖4所示.

圖4 相關參數驗證結果

由圖4(a)可看出,當推薦個數取K=10時,隨著嵌入維度d的增加,準確率 、召回率及F1值都逐漸上升,這是由于維度的增加可使得特征向量編碼獲得更多有用的信息.然而當嵌入維度大于16之后,時間復雜度大大增加,且模型訓練過擬合,3個指標均有所下降.從圖4(b)可看出,當λ1=0.01時,該模型效果最佳.由于知識圖譜正則項過小無法為模型提供足夠的正則化約束,權重過大則會使得目標函數更側重于知識圖譜的優化,導致推薦效果變差.

4.3.2 模型消融實驗

為了討論用戶不同模塊興趣對推薦結果的影響,本文使用消融實驗,將模型拆分為淺層興趣、深層興趣、淺層興趣與深層興趣結合3個模塊,以不同模塊作為用戶表征,與MIKU模型進行對比驗證,推薦項目的個數K分別取1,2,5,10,20,50,100.圖5中的(a)、(b)、(c)分別為不同K值下的準確率、召回率以及F1值變化.

圖5 不同K值下的準確度、召回率及F1值

當K=10時,實驗結果如表5所示,可以看出利用知識圖譜結構信息挖掘的深層興趣對召回率有明顯改善;結合淺層興趣與深層興趣,相對于單獨模塊而言,在3個指標下結果均有提升推薦效果;加入屬性信息的算法,在推薦個數較少時,準確率明顯提升,說明屬性特征的融合,在一定程度上可改善推薦精度.總而言之,綜合用戶淺層興趣、深層興趣與用戶屬性的MIKU模型,在各個指標上均優于獨立模塊,有效改善了推薦性能.

表5 模型內部消融實驗結果

4.3.3 不同模型對比

MIKU模型與其他基準模型對比結果如表6所示,為了綜合分析模型,取推薦個數K=10.

表6 不同模型對比結果

通過觀察表6分析可知,CKE由于缺少文本和圖像的信息,僅依靠結構化知識提取的特征信息不足以充分刻畫物品特征,結果表現最差;PER由于預定義的元路徑很難達到最優,相對其他融合知識感知推薦模型而言,結果較差;LibFM作為一種通用的推薦算法,結合了知識圖譜中的語義信息表現較好,表明有效利用知識圖譜中的知識可提高推薦模型的性能;MKR模型利用多任務學習共享信息,有效提升了推薦性能;RippleNet模型相對于其他模型而言有很強的表現,表明有效利用知識圖譜的結構信息對于推薦而言至關重要;本文模型綜合3個指標性能提升了約1.9%~3.07%指標,證明了MIKU模型結合知識圖譜的語義信息與結構知識,同時融合用戶屬性特征,全面刻畫用戶模型,有效提高了推薦結果.

4.3.4 不同生成推薦方法對比

為了進一步研究,利用神經網絡學習用戶項目之間的復雜關聯對推薦結果的影響,本文在生成推薦過程中,使用多層感知機代替用戶與項目特征的簡單內積來計算預測的點擊概率,結果如表7所示.

表7 不同生成推薦方法對實驗結果影響

由表7可知,對于融合了多層行為興趣與用戶屬性的MIKU模型而言,利用神經網絡作為最終的概率預測,便于學習到用戶和物品之間復雜的非線性關系,更能挖掘到用戶對項目的深層偏好.

5 結束語

本文提出了融合知識圖譜的用戶多層興趣模型,為全面刻畫用戶興趣,從用戶固有屬性與交互行為分析用戶偏好.一方面以知識圖譜為物品側信息,細粒度描述物品特征,刻畫了物品之間的語義聯系.另一方面考慮到知識圖譜的結構性,通過不同的關系路徑自動鏈接用戶的深層興趣.以用戶歷史行為的淺層興趣與用戶的深層興趣結合,深入挖掘交互行為中的興趣偏好.同時結合了用戶屬性特征的推薦算法,有助于提高推薦性能,在一定程度上可彌補用戶冷啟動的缺陷.在今后的工作中,將考慮融合時間因子,從時間層面和興趣深度兩個角度全面刻畫用戶興趣,進一步提升推薦系統性能.

猜你喜歡
深層圖譜實體
“植物界大熊貓”完整基因組圖譜首次發布
基于偽譜法的水下航行體快速操舵變深圖譜研究
基于ColBert-EL 和MRC 模型的零樣本實體鏈接
深層承壓水污染途徑及防治研究
中深層套管式地埋管換熱器換熱性能模擬研究
實體錢
圖表
2017實體經濟領軍者
空城
第三方高考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合