?

目標域特征感知與互補用戶遷移的跨域推薦模型

2024-02-28 08:18段樂樂李博一丁滋釗朱小飛
小型微型計算機系統 2024年1期
關鍵詞:冷啟動跨域源域

段樂樂,李博一,丁滋釗,朱小飛

(重慶理工大學 計算機科學與工程學院,重慶 400054)

0 引 言

推薦系統[1,2]被廣泛應用于各種各樣的商業場合中,如電子商務系統、社交網絡系統等[1-3],在信息過載問題越來越突出的背景下,推薦系統因其能從海量的信息中篩選出合適的部分來為用戶提供推薦服務而扮演著越來越重要的角色.近年來,推薦系統的研究工作吸引了大量來自工業界和學術界的研究人員.然而,大多數的推薦系統模型由于無法很好的解決數據稀疏性問題,導致系統對于新用戶始終無法提供令人滿意的推薦性能.

作為一種十分有效的數據稀疏性問題解決方案,跨域推薦技術通過將用戶信息相對豐富的源域知識遷移到目標領域中來緩解目標領域的數據稀疏性問題.為了更好的將源域的知識遷移到目標領域中去,現存許多工作[4-7]基于“所有用戶在源域和目標域中的偏好之間的關系共享”的假設,在源域和目標域之間為所有用戶學習一個公共的映射函數,以實現將源域中的知識遷移到目標域中去.然而,這個假設也許是不切實際的,不同的用戶在源域和目標域的偏好的關系并不完全一致,這種在源域和目標域之間學習一個公共的映射函數來進行知識遷移的方法難以準確反映每一個用戶的偏好信息,因此基于這種方式的跨域推薦系統無法反映用戶的個性化偏好.對于這個問題,最近,Zhu等人[8]的PTUPCDR模型提出了為每一個用戶分別提供個性化的映射函數,考慮到了不同的用戶的不同的偏好信息,較好的克服了基于公共的映射函數的方法的弊端,實現了更好的跨域推薦性能.

基于公共映射函數的方法[4,5]僅僅關注到了用戶間的公共屬性,缺乏對不同用戶個性屬性的顯式建模;Zhu等人[8]提出的PTUPCDR模型雖然考慮到了不同用戶的不同的偏好信息,但其基于個性化映射函數的方法僅僅關注了單個用戶的個性屬性,缺乏了對所有用戶的公共的屬性的顯式建模.因此,不管是基于公共的映射函數的方法還是基于個性化映射函數的方法,對于用戶的建模都是有失偏頗的,單獨建模任何一個方面都無法使模型性能達到最優,需要同時考慮到用戶的公共屬性和個性化的屬性才能更全面刻畫用戶信息,達到更優的推薦性能.

除此之外,現有的跨域推薦算法[3-7]過多的將研究重點放在了如何將源域的知識更好的遷移到目標域中去,卻忽視了對目標域知識本身的探索,忽略了目標域本身的某些信息對解決冷啟動問題的作用.這也有可能將導致跨域推薦結果的次優.比如當源域中的某些用戶的交互數據本身就不夠充足時,學習到的源域知識相對不足,在這種情況下,源域遷移的知識對目標域的冷啟動問題的幫助自然十分有限;另外,近年來,用于解決冷啟動問題的單域推薦系統的發展也取得了相當的進展,因此,當源域知識相對不足時,目標領域本身的知識對于解決冷啟動問題就至關重要.

對于以上問題,本文提出了一個新的跨域推薦模型CDRTFC(a Cross-Domain Recommendation model based on Target domain Feature awareness and Complementary user Transfer),首先,CDRTFC學習一個用戶公有屬性和私有屬性互補的映射模塊來更全面的遷移用戶在源域中的知識;其次,CDRTFC在目標域中學習一個關系網絡來提取目標域的用戶特征,最后,CDRTFC通過互補的映射函數將源域遷移的知識與通過關系網絡獲得的目標域用戶特征進行融合,得到最終的用戶表示,最后進行推薦.本文的主要貢獻可以總結為以下3個方面:

·針對現存的基于映射函數的方法存在的“有偏”的問題,提出了個性-共性互補映射模塊,實現用戶個性與共性屬性的互補,更全面刻畫用戶在目標域的特征.

·針對現存的跨域推薦方法存在的缺乏對目標域知識的挖掘的不足,提出了用戶感知目標域特征抽取模塊,以抽取合適的目標域特征,實現更好推薦性能.

·本文提出的方法在3個跨域推薦任務上均實現了最優的性能證明了本文所提出方法的有效性.

1 相關工作

1.1 跨域推薦

推薦系統中的冷啟動問題長期以來都是十分具有挑戰性的問題,是任何一個推薦系統都無法繞開的關鍵問題.近年來越來越多的研究者致力于推薦系統中冷啟動問題的解決,并由此衍生出了各種各樣的模型[9-12],其中,在通過充分利用信息相對豐富的源域知識來幫助目標域緩解數據稀疏性和冷啟動問題上取得了相當不錯的效果.表明了源域知識對于目標域的推薦系統性能的提升的有效性.具體而言,Singh等人[13]提出的CMF模型是對矩陣分解模型的擴展,源域和目標域重疊用戶共享嵌入表示;Pan等人[14]提出的CST模型利用源域預訓練好的用戶嵌入來初始化目標域的用戶嵌入,同時約束共享的用戶和商品使其在兩個域的嵌入盡可能接近;Hu等人[15]提出的CoNet模型在兩個領域的結構中交互知識,實現對偶知識遷移;He等人[16]提出的MINDTL模型將目標域的信息與從源域的的評分矩陣中抽取的評分模式信息相結合進行推薦;Li等人[17]提出的DDTCDR模型認為不論是源域和目標域都有各自特定的領域知識,提出了一種新的隱藏正交映射來抽取用戶在源域和目標域中的知識,與此同時也保留了用戶在不同領域的隱藏空間表示的關系;Man 等人[5]提出的EMCDR模型通過隱藏因子模型分別學習到源域和目標域的用戶和商品嵌入表示,然后在學習到的嵌入表示的基礎上利用兩個域的公共用戶學習一個映射函數,最后利用映射函數將源域用戶表示映射到目標域,進行推薦;Zhu 等人[8]出的PTUPCDR模型利用元學習技術為每個用戶分別學習一個映射函數,模型能夠充分考慮到每個用戶的個性化特征;本文的工作基于PTUPCDR模型,指出了PTUPCDR缺失了對用戶共性特征的建模和對目標域特征本身的挖掘,提出了共性-個性互補映射模塊和目標域特征挖掘的用戶感知目標域特征抽取模塊,并取得了最優的性能.

1.2 冷啟動推薦

冷啟動問題[18-20]是推薦系統不可避免的十分具有挑戰性的問題,推薦系統主要目標在于解決信息過載的問題,向用戶從海量的商品中挑選出用戶可能感興趣的商品進行推薦,其中涉及到用戶和商品兩類對象,不論是將新商品推薦給合適的用戶還是給新用戶推薦合適的商品都十分具有挑戰性,因為不論是新用戶還是新商品,由于缺乏必要的交互數據,對于已有推薦系統來說難以準確刻畫用戶和商品的特征,導致推薦性能不理想.然而,在當今信息時代,尤其是對于互聯網產品來說,新用戶、新商品往往是持續產生的,冷啟動問題更是常態,伴隨著推薦系統運轉的整個周期;此外,推薦系統擁有更好的冷啟動推薦性能才能吸引更多的新用戶,并提升用戶粘性,實現更大的效益,因此,如何解決好冷啟動問題就成為推薦系統的重中之重.

現有的工作主要利用一些輔助信息來幫助緩解冷啟動問題.對于新用戶,可以利用先驗數據信息進行推薦,比如給新用戶推薦熱門商品;也可以利用用戶在注冊時的信息進行推薦,比如性別、年齡、愛好等[21,22];對于新的商品,可以利用商品本身的屬性信息進行推薦,比如商品的品類、用途等描述[8,23];除此之外,近年來,跨域推薦系統[24-26]在通過充分利用信息相對豐富的源域[5]來幫助目標域緩解冷啟動問題上取得了十分不錯的效果,越來越受到重視,吸引了越來越多的研究,本文也跟隨這一腳步,提出了新的利用輔助域知識來緩解冷啟動問題的跨域推薦方法CDRTFC.

2 方法與模型

2.1 問題定義

在跨域推薦系統中,通常包含源和目標兩個域,每個域都有各自的用戶集合U={u1,u2,…,u|U|}、商品集合V={v1,v2,…,v|V|}和對應的評分矩陣R∈|U|×|V|,其中,ui∈U表示用戶集合中的第i(1≤i≤n)個用戶,vj∈V表示商品集合中的第j(1≤j≤m)個商品,rij∈表示用戶ui對商品vj的評分.為了區別兩個域的不同表示,本文使用上標d∈{s,t}來加以標識.比如,源域的用戶、商品和評分矩陣分別表示為Us、Vs和Rs,目標域的用戶、商品和評分分別表示為Ut、Vt和Rt.此外,由于本文的方法基于兩個域的公共用戶,定義兩個領域的公共用戶表示為Uo=Us∩Ut,因此,后文中不論是個性-共性互補映射函數模塊的學習還是用戶感知的目標域特征抽取模塊的學習都基于公共用戶集合Uo.與此同時,Vs∩Vt=?,即在兩個不同的領域之間不存在公共的商品.另外,對于跨域推薦系統來說,冷啟動用戶表示那些存在于源域中但不存在于目標域中的用戶,記為Uc={u|u∈Usandu?Ut}.跨域推薦的目標是利用源域的評分Rs和目標域的評分Rt來輔助目標域中的冷啟動用戶u∈Uc的推薦.本文所提出的CDRTFC模型框架如圖1所示.

圖1 CDRTFC模型整體框架圖Fig.1 Overall framework of the CDRTFC model

2.2 單域隱藏因子建模

(1)

對于模型參數θ的優化可通過公式(2)進行:

(2)

2.3 個性-共性互補映射

基于公共映射函數的方法僅僅關注到了用戶間的公共屬性,缺乏對不同用戶個性的屬性的顯式建模;而基于個性化映射函數的方法僅僅關注了單個用戶的個性化屬性,缺乏了對所有用戶的公共屬性的顯式建模.因此,不論單獨對個性還是共性進行建模,都有可能導致結果次優,而將兩者結合起來,相互補充進行建模,更有可能取得更好的結果,基于此,本文提出了個性-共性互補映射模塊來對用戶的個性屬性和公共屬性進行互補建模,如圖1模塊(a)所示.

2.3.1 用戶個性化映射

對于用戶個性化映射表示,本文借鑒PTUPCDR[8]的做法,首先根據用戶的對商品的交互序列獲取用戶特征,再將此用戶特征輸入元網絡得到輸出權重向量,再以此權重向量作為映射函數的參數,達到個性化映射表示的目的,具體過程如下:

(3)

其中,αj表示用戶ui對商品vj的注意力分數,pui∈d表示基于商品的用戶特征.上式可以直觀地理解為不同的交互商品對于刻畫對目標域有用的可遷移的用戶特征的貢獻不同,具體貢獻的大小通過注意力分數αj來刻畫,分數越大,貢獻就越大.而具體的注意力分數αj可以通過注意力網絡得到:

(4)

結合基于參數生成的元學習方法,將前面獲得的基于商品的用戶特征表示pui作為元學習網絡的輸入,生成相應的輸出并進一步將其輸出作為映射函數的權重參數,最終通過該映射函數獲得該源域用戶在目標域的的個性化表示.具體過程可作如下形式化:

wui=fmeta(pui;ε)

(5)

(6)

2.3.2 用戶共有特征映射

(7)

2.4 用戶感知目標域特征抽取

(8)

(9)

(10)

(11)

其中,Wa∈d×zd為可訓練參數.

最后,將通過互補映射遷移的用戶表示與用戶感知的目標域特征表示進行融合,得到最終的用戶表示:

(12)

3 模型優化

由于本文的跨域推薦框架的學習主要基于兩個域的公共用戶,因此,本模型中的所有參數均基于公共用戶的監督信號進行優化.為了學習映射函數,現存的大多數的基于映射函數的方法[3-6]采用一種映射導向的優化過程來學習,具體來講就是直接通過最小化經過映射函數轉換的源域的用戶表示[30]與該用戶在目標域中的表示的距離來學習映射函數.然而,由于某些用戶的交互記錄較少,學習到的用戶或商品的嵌入表示可能并不準確,為了減少這種不準確的嵌入表示帶來的影響,本文與PTUPCDR[8]保持一致,采用任務導向的優化過程來訓練模型,這樣模型的訓練直接以推薦目標為導向,能盡可能的減少嵌入表示的不準確性帶來的消極影響,具體優化目標如下:

(13)

4 實 驗

4.1 實驗設置

4.1.1 數據集

為便于與其他模型公平比較,本文選用現存的大多數方法[4,10,31]都采用的數據集,即Amazon數據集,它是現實場景下用戶商品交互行為的大規模數據集.具體地,本文使用Amazon-5cores數據集,并且從總共24中類別中挑選出3種流行的數據類別:movies_and_tv(Movie),cds_and_vinyl(Music),and books(Book),并據所選數據集定義3種跨域任務類別,分別為任務1:Movie-Music,任務2:Book-Movie 和任務3:Book-Music.所有的數據劃分與處理細節均與PTUPCDR保持一致.詳細任務數據統計信息如表1所示.

表1 不同跨域任務數據集信息統計Table 1 Statistics of different cross-domain task datasets

4.1.2 評價指標

亞馬遜評論數據集包含每一次交互行為用戶對于商品的評分(0-5分),預測用戶對商品的評分本質上屬于回歸問題,因此,與已有的工作[5,10,30]保持一致,本文選用平均絕對誤差(MAE)和均方根誤差(RMSE)作為評價指標,為了方便表示,在下文中,均方根誤差和平均絕對誤差均用RMSE和MAE表示.其計算方式如下:

(14)

(15)

4.1.3 基線模型

本文所提出的CDRTFC模型大體上可以將其歸為基于映射的跨域推薦算法,并且其并不借助除了用戶商品交互數據之外的其他輔助信息,因此本文所提出的模型主要與同樣基于映射的跨域推薦算法[4,5,7]進行比較,因此,本文選取以下模型作為比較的基線模型:

①TGT.接用目標域數據訓練的矩陣分解模型.

②MF[12].CMF可以看做是矩陣分解模型MF的擴展,使其可以應用于跨域推薦系統中,其公共用戶的嵌入表示在源域和目標域保持一致;

③EMCDR[5].CDR是十分流行的一種跨域推薦算法,許多基于映射的跨域推薦算法均由其發展而來.其首先通過隱藏因子模型分別學習到源域和目標域的用戶和商品嵌入表示,然后根據學習到的嵌入表示利用兩個域的公共用戶學習一個映射函數,最后利用映射函數將源域用戶和映射到目標域,進行推薦.

④DCDCSR[6].CDCSR考慮到不同用戶的稀疏度對于學習到的表示準確性的影響,緩解了過于稀疏導致的表示不準確的問題,提升了模型的魯棒性.

⑤SSCDR[4].SCDR考慮到源域和目標域重疊用戶過少時映射函數容易過擬合的問題,并應用半監督學習來緩解這個問題.

⑥PTUPCDR[8].TUPCDR利用元學習技術為每個用戶分別學習一個映射函數,使模型能夠充分考慮到每個用戶的個性化特征,是目前性能最優的基線模型.

4.2 總體實驗

總體實驗結果如表2、表3所示,最優的結果采用加粗表示,Imp%表示本文的方法CDRTFC相對于最好的基線性能的相對提升百分比.

表2 本文提出的模型CDRTFC在平均絕對誤差(MAE)評價指標上與其他模型的對比Table 2 Comparison of the proposed CDRTFC in the mean absolute error(MAE)with other models

表3 本文提出的模型CDRTFC在均方根誤差(RMSE)評價指標上與其他模型的對比Table 3 Comparison of the proposed CDRTFC in the root mean square error(RMSE)with other models

表2展示了本文提出的模型CDRTFC在平均絕對誤差(MAE)評價指標上與其他基線模型性能的對比,從表中可以看到,本文提出的模型在平均絕對誤差(MAE)指標上的表現超過了所有的基線模型,其中,在任務1和任務3中的效果提升明顯,在任務2中的提升相對較小.原因可能在于對于任務1和任務3,由于兩個域的重疊用戶較少,可能導致映射函數的學習不夠充分,無法準確遷移源域知識到目標域,也即是說源域知識對目標域的幫助有限,而通過本文提出的用戶感知目標域特征抽取模塊通過目標域本身的知識挖掘可以有效彌補這個不足,因此提升較大;而對于任務2,由于重疊用戶較多,已有的基線模型就能學習到較好的映射函數,本文的方法的改進效果則相對減弱,因而最終的提升相對較小.

表3展示了本文提出的模型CDRTFC在均方根誤差(RMSE)評價指標上與其他基線模型性能的對比,結果與表2類似,均取得了最優的性能,其中,在任務1和任務3中的效果提升明顯,在任務2中的提升相對較小.具體原因分析與表2一致.

4.3 消融實驗

為驗證本文所提出的個性-共性互補映射模塊與用戶感知的目標域特征抽取模塊的有效性,本文進一步對其做了以下消融實驗,其中,w/o com 表示將個性-共性互補映射模塊替換為PTUPCDR提出的個性化映射函數模塊,即僅考慮各個用戶的個性化屬性,忽略其共有屬性;w/o t_fea 表示移除本文提出的用戶感知目標域特征抽取模塊,即不考慮對目標域知識本身的挖掘與利用,僅僅利用源域遷移的知識.具體結果見表4、表5.根據表4、表5,可以發現,本文所提出的任何一個單個模塊的添加都能獲得優于所有基線模型的結果,尤其是個性-共性互補映射模塊提升比較顯著,而用戶感知的目標域特征抽取模塊對性能的提升相對較小,表明源域的知識仍然是性能提升的主要來源,目標域抽取的特征的作用更多在于源域知識相對不足時的彌補,這不僅證明了本文所提出的兩大模塊的有效性,同時也說明了總體實驗中提出的猜想的可靠性.值得注意的是,在少數情況下,本文所提出的兩個模塊在同時應用時效果會略低于僅應用個性-共性互補映射模塊時的情形,猜想原因可能在于在引入目標域特征時,也可能會引入噪聲,導致模型性能下降,這一部分的內容將作為未來的研究工作.

表4 對于平均絕對誤差(MAE)的消融實驗Table 4 Ablation experiments for mean absolute error(MAE)

表5 對于均方根誤差(RMSE)的消融實驗Table 5 Ablation experiments for root mean square error(RMSE)

4.4 通用性實驗

為驗證本文所提出的模型在不同的底層模型上的泛化能力,在該實驗中,進一步展示了本文所提出的模型在以MF和GMF為底層模型上的與其他的跨域推薦模型的性能比較,具體比較結果如圖2、圖3、圖4和圖5所示,可知不論是以MF為底層模型還是以GMF為底層模型,本文所提出的模型均能取得最優性能,表明本文所提出的具有一定的通用性.

圖2 基于MF模型,本文所提出的CDRTFC模型與EMCDR、PTUPCDR關于平均絕對誤差(MAE)性能對比實驗Fig.2 Based on the MF model,the CDRTFC model proposed in this paper compares the performance of the average absolute error(MAE)with EMCDR and PTUPCDR

圖3 基于MF模型,本文所提出的CDRTFC模型與EMCDR、PTUPCDR關于均方根(RMSE)性能對比實驗Fig.3 Based on the MF model,the CDRTFC model proposed in this paper is compared with EMCDR and PTUPCDR on root mean square(RMSE)performance圖4 基于GMF模型,本文所提出的CDRTFC模型與EMCDR、PTUPCDR關于平均絕對誤差(MAE)性能對比實驗Fig.4 Based on the GMF model,the CDRTFC model proposed in this paper compares the performance of the average absolute error(MAE)with EMCDR and PTUPCDR圖5 基于GMF模型,本文所提出的CDRTFC模型與EMCDR、PTUPCDR關于均方根(RMSE)性能對比實驗Fig.5 Based on the MF model,the CDRTFC model proposed in this paper is compared with EMCDR and PTUPCDR on root mean square(RMSE)performance

4.5 參數敏感性實驗

為驗證本文所提出模型的魯棒性,本實驗分別測試了模型在目標域中采樣關鍵集的個數和每一個關鍵集內包含的用戶個數對模型性能的影響.同時,為了簡便起見,在測試其中一個因素對模型性能影響時,固定另一個因素不變;即在測試關鍵集個數對模型性能影響時,固定每個關鍵集內的用戶數量為100,類似地,當測試關鍵集內用戶數量對模型性能影響時,固定采樣的關鍵集個數為4;另外,為了盡可能真實地反映超參數對模型性能的影響,每一種任務的實驗結果都基于β=50%設置下進行.即訓練集和測試集各占一半.具體的實驗結果如圖6、圖7、圖8和圖9所示.根據實驗結果,總體來看,不同超參數設置對于模型最終性能的影響比較小,說明CDRTFC模型對于超參數設置比較穩定.

圖6 對于不同任務,關鍵集內用戶數量對平均絕對誤差(MAE)的影響Fig.6 Effect of the number of users in the key set on the mean absolute error(MAE)for different tasks圖7 對于不同任務,關鍵集內用戶個數對均方根誤差(RMSE)的影響Fig.7 Effect of the number of users in the key set on the root mean square error(RMSE)for different tasks圖8 對于不同任務,關鍵集數量對平均絕對誤差(MAE)性能的影響Fig.8 Effect of the number of key sets on mean absolute error(MAE)performance for different tasks圖9 對于不同任務,關鍵集數量對均方根誤差(RMSE)性能的影響Fig.9 Effect of the number of key sets on root mean square error(RMSE)performance for different tasks

對于各個任務而言,取得最優性能時超參數的組合不同.具體的,對于任務1而言,當關鍵集個數固定為4個的情況下,用戶數量為100時取得最好的結果;當用戶數量固定為100個的情況下,關鍵集數量取值為4時取得最好的結果;對于任務2,大體上也能獲得類似的結果;但對于任務3而言,結果與前兩個任務有一定的差別,當關鍵集個數固定為4時,用戶數量為250個時效果最好;當用戶數量固定為100個的情況下,關鍵集數量取值為3或5時取得最好的結果;但總體的結果波動不大,驗證了本文所提出的模型的魯棒性.

5 總 結

針對現有的基于映射的跨域推薦模型所存在的不足,本文提出了目標域特征感知與互補用戶遷移的跨域推薦模型.一方面,互補知識遷移模塊同時考慮到了用戶的個性與共性信息,克服了原有模型或僅考慮用戶共性信息或僅考慮用戶個性信息的缺陷;另一方面,用戶感知目標域特征抽取模塊提出對目標域知識進行挖掘,彌補了現有跨域推薦模型忽略目標域本身知識挖掘的不足,進一步提升了模型的性能.實驗結果表明,本文提出的目標域特征感知與互補用戶遷移的跨域推薦模型總體性能在不同數據集下均優于基線模型.但通過消融實驗表明,本模型對于目標域特征知識的抽取域融合方面仍存在一定缺陷,比如可能會引入噪聲等,因此,對于如何更有效地抽取與融合目標域特征知識仍有待進一步研究,這也將作為作者未來的研究工作之一.

猜你喜歡
冷啟動跨域源域
跨域異構體系對抗聯合仿真試驗平臺
基于多標簽協同學習的跨域行人重識別
輕型汽油車實際行駛排放試驗中冷啟動排放的評估
為群眾辦實事,嶗山區打出“跨域通辦”組合拳
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
基于學習興趣的冷啟動推薦模型
G-SRv6 Policy在跨域端到端組網中的應用
基于參數字典的多源域自適應學習算法
可遷移測度準則下的協變量偏移修正多源集成方法
軍事技能“冷啟動”式訓練理念初探
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合