?

基于策略記憶的深度強化學習序列推薦算法研究

2022-11-14 11:24陳卓姜偉豪杜軍威
湖南大學學報·自然科學版 2022年8期
關鍵詞:注意力機制推薦系統

陳卓 姜偉豪 杜軍威

摘要:推薦系統旨在從用戶-項目的交互中進行建模,為用戶推薦感興趣的內容,從而提高用戶體驗.然而大多數用戶-項目的序列并不總是順序相關的,而是有更靈活的順序甚至存在噪聲.為解決這一問題,提出一種基于策略記憶的深度強化學習序列推薦算法,該算法將用戶的歷史交互存入記憶網絡,使用一個策略網絡將用戶當前的行為模式更細致地劃分為短期偏好、長期偏好以及全局偏好,并引入注意力機制,生成相應的用戶記憶向量,利用深度強化學習算法識別對未來收益較大的項目.在用戶和項目的交互中不斷更新、強化學習網絡的策略以提高推薦準確性.在兩個公共數據集的實驗中表明,本文所提出的算法與最先進的基線算法相比,召回率指標在2個數據集上分別提升了8.87%和11.20%.

關鍵詞:推薦系統;強化學習;策略網絡;注意力機制

中圖分類號:TP181文獻標志碼:A

Research on Deep Reinforcement Learning Sequential Recommendation Algorithm Based on Policy Memory

CHEN Zhuo,JIANG Weihao,DU Junwei

(School of Information Science and Technology,Qingdao University of Science and Technology7,Qingdao 266061,China)

Abstract:The recommender system aims to build a model from the user-item interaction and recommend the content of interest to users,so as to improve the user experience. However,most user-item sequences are not always sequentially related but have more flexible sequences and even noise. In order to solve this problem,a deep reinforcement learning sequence recommender algorithm based on strategy memory is proposed. The algorithm stores the user's historical interaction in the memory network,and then uses a strategy network to divide the user's current behavior pattern into short-term preference,long-term preference,and global preference,and introduces the attention mechanism to generate the corresponding user memory vector. The deep reinforcement learning algorithm is used to identify the projects with great benefits in the future. The strategy of the reinforcement learning network is continuously updated in the interaction between users and items to improve the accuracy of the recommender. Experiments on two public data sets show that the proposed algorithm improves the recall index by 8.87% and 11.20%,respectively,compared with the most advanced baseline algorithm.

Key words:recommender systems;reinforcement learning;policy network;attention mechanism

隨著科學技術的發展,信息過載的問題也越來越嚴重,推薦系統的成功應用可以有效地緩解這一難題.然而,用戶興趣總是隨著時間的推移而產生變化,因此,序列推薦系統(Sequential Recommender Systems,SRS)[1]應運而生.序列推薦系統將用戶-項目交互視為一個動態序列,捕捉用戶當前和最近的偏好,以獲得更準確的推薦,該系統在購物以及影音網站等都有著很好的應用.

不同于基于內容的協同過濾[2]以及基于矩陣分解[3]的傳統推薦系統,序列推薦系統根據模型的復雜程度可以分為兩類,包括傳統的序列模型和神經網絡模型.傳統的序列模型例如基于馬爾科夫鏈的模型對序列中的用戶-項目交互進行建模,并計算相互之間的轉移概率,該方法只能捕獲短期依賴并且忽略用戶的總體興趣.神經網絡模型例如基于循環神經網絡的模型通過給定的用戶-項目交互序列來預測下一交互,但該方法假設任何相鄰交互都是有關系的并忽略多個項目的共同作用.

大多數的序列推薦系統只專注于當前收益,對于即時回報較小但有較大未來收益項目的識別度不高.比如用戶在觀看了有關游戲和天氣的短視頻后,可能不會再關注今天的天氣;但是看了喜歡的游戲之后,更傾向于觀看更多與游戲相關的視頻.深度強化學習可以統一優化即時收益和長期收益[4],將用戶的狀態進行動態建模,并學習到最優推薦策略,以提高推薦準確率.現有的深度強化學習狀態的表示是將用戶之前交互的項目按照一定的順序進行建模,無法區分用戶交互序列中的不同行為模式,因而無法較為準確地預測用戶的當前興趣偏好.深度強化學習做預測時,可選擇的動作空間較大且數據較為稀疏,導致算法收斂困難.本文使用深度強化學習中的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,該算法不再計算每個項目的概率而是基于確定的策略,這更有利于處理連續動作,并且提高了算法的收斂速度.

本文提出了一種將用戶策略記憶與DDPG算法結合的方式來解決以上問題.本文的貢獻可以總結為以下幾點:

1)使用記憶網絡存儲用戶歷史交互序列,并訓練一個策略網絡,通過用戶和其歷史交互對用戶當前行為模式進行劃分.引入注意力機制,根據策略網絡的輸出對記憶網絡使用不同的注意力表示方法并生成用戶當前的記憶向量表示.

2)提出結合策略記憶的深度強化學習推薦算法(Deep Reinforcement Recommendation with Policy Memory,DRRM),將用戶表示、用戶當前偏好以及用戶記憶作為狀態輸入,利用DDPG算法預測用戶喜好,在交互中不斷更新推薦策略,該算法同時考慮了推薦項目對用戶的當前收益及其對用戶的長期影響.使用探索策略提高推薦多樣性.

3)通過在兩個公共數據集上進行的實驗,驗證了所提出算法的有效性,其效果明顯強于基線算法.

1相關工作

1.1序列推薦系統

序列推薦系統是近年來的研究熱點,通過對用戶的行為序列進行建模,考慮用戶興趣的依賴性,為其推薦下一時刻所感興趣的項目.傳統的序列推薦算法有:Feng等人[5]提出了基于距離嵌入的個性化排序算法(Personalized Ranking Metric Embedding,PRME),將用戶序列建模為馬爾可夫鏈,并嵌入歐氏空間,基于距離計算項目相互之間的轉移概率.Liu等人[6]提出了基于上下文感知的序列推薦算法(Context-Aware Recurrent Neural Networks,CA- RNN),該算法使用特定輸入矩陣和轉移矩陣進行推薦,但該算法不利于捕獲交互序列中高度相關的項目信息.Wang等人[7]提出的基于注意力機制的事務嵌入推薦算法(Attention-Based Transaction Embedding Model,ATEM)通過注意力機制來觀察和識別與下一個項目相關的上下文信息.Kang等人[8]提出的基于自注意力的序列推薦算法(Self-Attentive Sequential Recommendation,SASRec)將自注意力機制應用于序列推薦系統,用于捕獲序列的長期語義,并在訓練速度上有一定的提升.

上述算法進行序列推薦時,總是假定相鄰兩交互是相關的,而對于具有靈活順序的長序列的識別能力不強.

1.2基于記憶網絡的推薦算法

由于需要長期記憶來存儲問答知識或聊天的語境信息,記憶網絡(Memory Networks,MN)[9]由Weston首次提出,以這種有效的方式來簡單地讀寫此類信息,該模型最初被應用于智能問答領域.Chen等人[10]提出了一種基于用戶記憶網絡的推薦算法(Recommender system with User Memory networks,RUM),該算法首次將記憶網絡應用于推薦系統,通過對用戶交互項目的讀取、寫入等操作更好地利用用戶的歷史記錄;但該算法并沒有對用戶興趣進行區分.Ebesu等人[11]提出了一種將用戶協同過濾與記憶網絡相結合的推薦系統(Collaborative Memory Networks,CMN),分別利用潛在因素的全局結構以及鄰域的局部結構進行推薦.Ouyang等人[12]提出了一種基于記憶增強的深度神經網絡推薦算法(Memory Augmented Deep Neural Networks,MADNN),該算法為每一個用戶都創建喜歡和不喜歡兩個外部記憶向量,以此來對用戶點擊率進行預測.

上述基于記憶網絡的推薦算法僅能夠識別記憶向量對當前交互的作用,無法識別未來收益較大的交互項目,并且沒有利用更深層的神經網絡模型對用戶偏好進行預測.

1.3基于深度強化學習的推薦算法

近幾年來,隨著強化學習的發展,與推薦系統的結合也越來越多.深度強化學習的目標是智能體在與環境的不斷交互中學習到最佳策略,因此,有利于序列推薦的動態建模.Wang等人[13]提出了基于遞歸神經網絡的監督強化學習算法(Supervised Reinforcement Learning with Recurrent Neural Network,SRL-RNN),該算法使用演員-評論家框架處理多種藥物、疾病以及個體之間的關系,以進行個性化藥品推薦.Zhao等人[14]提出了一種基于多智能體強化學習的DeepChain算法,該算法使用多個智能體協同優化,捕捉多場景中用戶行為順序相關性,以獲得整體的最大回報.Zheng等人[15]將深度強化學習中的深度Q網絡(Deep Q Learning,DQN)與推薦系統相結合,提出了基于深度強化學習的新聞推薦框架(Deep Reinforcement Learning Framework for News Recommendation,DRN),該框架同時使用Dueling Bandit梯度下降方法來進行有效的探索.Liu等人[16]利用DDPG算法提出了用于解決電影等推薦的深度強化學習推薦算法(Deep Reinforcement Learning based Recommendation,DRR).

上述基于深度強化學習的推薦算法僅使用單一的方式對用戶當前狀態進行建模,對用戶興趣的劃分存在一定偏差,且無法對用戶歷史喜好的不同權重進行建模.

2DRRM模型

2.1符號定義

本文將深度強化學習應用于序列推薦,推薦代理(Agent)根據時間順序對用戶和項目進行交互,以獲得最大化的累計回報.將此過程建模為一個馬爾可夫決策過程,其中包括狀態、動作、獎勵、衰減因子等四元組,具體定義如下:

狀態S:由用戶及其之前交互項目的集合組合而成,交互過的項目按照時間順序依次排列,并將其輸入演員-評論家網絡中進行預測.

動作A:采用基于策略的DDPG算法,每次交互時根據策略網絡生成一個確定的動作A,該動作表示用戶當前的喜好,再與項目集進行內積得到為用戶推薦的項目.

即時獎勵R:推薦代理將一個項目推薦給用戶,根據用戶是否在當前時刻與該項目進行過交互,并給予一定的獎賞或懲罰.

衰減因子γ:γ∈[0,1],是衡量短期收益與累計收益的標準,當γ越接近于零,代表算法越重視推薦的短期回報,反之則更加重視累計回報.

2.2模型框架

DRRM模型框架如圖1所示,該模型分為3 部分.

第1部分為圖中下半部,即用戶記憶網絡部分,該部分引入注意力機制用來區分用戶歷史交互項目的不同權重關系,從而學習用戶的興趣變化;根據不同的行為模式生成不同的用戶記憶向量,并將用戶的歷史記錄存入外部的記憶網絡中,為狀態的更新提供依據.第2部分為策略網絡部分,該部分對用戶當前行為模式進行劃分.本文使用基于策略梯度算法的策略網絡對其進行劃分(詳見2.2.2節),從而使記憶網絡選擇不同的注意力計算方式,得到用戶記憶向量,并結合用戶向量生成當前狀態S.第3部分為DDPG網絡部分,該部分用戶預測動作A.該網絡由演員和評論家兩個網絡組成,演員網絡通過輸入的狀態S,來輸出用戶當前的喜好;評論家網絡通過該部分輸出來更新演員網絡.該算法在與用戶的交互中不斷更新,以達到最優策略的輸出.

2.2.1記憶網絡模塊

本文將用戶的歷史交互信息存儲在一個外部的組件——記憶網絡中,記憶網絡的具體構建如下:

偏好、長期偏好和全局偏好.

式中:n、j∈[1,t-2];wn為最近一次交互的項目向量與記憶網絡中每個向量的乘積,輸出為一個一維的數值;exp()表示以e為底的指數函數;zn為第n個項目向量在此記憶網絡中的權重值.在得到權重值之后,計算當前狀態下的權重向量.經過注意力機制的權重向量的計算如式(2)所示.

式中:At為所求的前t-2個項目的注意力向量,以此來表示該用戶的記憶向量.

計算注意力權重,再通過式(2)計算用戶記憶向量.

3)當用戶行為與歷史交互無直接關系即為全局偏好時,對使用用戶向量與該用戶的歷史交互向量進行注意力權重的計算,并計算用戶的記憶向量.

對于用戶記憶網絡的寫入操作,本文采用先入先出的策略進行更新.將每個用戶的記憶網絡設置為固定的長度,先將每個用戶的前兩次交互放入網絡中,從第3次交互開始訓練.若用戶的記憶數小于記憶網絡可存放的記憶個數,則直接將最近一次交互寫人記憶網絡,否則將最開始的用戶交互記憶刪除并寫入最近交互.

2.2.2基于策略梯度的策略網絡

本文將訓練一個策略網絡來對用戶當前行為的3種模式進行劃分,記憶網絡將根據該網絡的輸出結果選擇如2.2.1節所示的不同的注意力計算方式,生成用戶記憶向量.

該策略網絡基于策略梯度(Policy Gradient)算法,通過用戶向量和用戶歷史交互向量的平均值作為輸入,計算得到用戶3種行為模式的概率πθ(at丨st)并輸出該交互的行為模式.在經過記憶網絡以及DDPG網絡預測出的結果得到獎勵值R(at),通過該獎勵值計算策略網絡的損失,該損失函數如式(3)所示.

Loss_p=-R(at)ln πθ(at丨st)(3)

在得到損失函數后,使用梯度下降來優化損失,更新網絡參數.

2.2.3基于DDPG算法的訓練框架

用戶當前狀態的表示模型由用戶表示、用戶記憶網絡以及用戶當前偏好3部分組成,以此來表示用戶與項目交互的序列關系.用戶u在t時刻的偏好即當前狀態的表示如式(4)所示.

使用DDPG算法對數據進行訓練,DDPG算法是演員-評論家網絡的一種,它輸出的是一個確定的動作,結合DQN以及策略梯度算法的優勢,加速網絡的收斂,可以更好地解決連續動作空間上的求解問題.該算法由兩個網絡組成,即演員網絡和評論家網絡.同時,為了提高網絡的穩定性和收斂性,設置兩個更新較慢的目標網絡來提高兩個預測網絡的更新效率.兩個預測網絡的功能及其更新過程如下所述:

演員網絡將輸入的用戶當前狀態St經過幾層神經網絡后輸出一個確定的用戶喜好向量at.為了增加推薦的多樣性,防止算法得到局部最優解,在訓練過程中,使用高斯噪聲進行探索,探索過程計算如式(5)所示.

at~N(μ,σ2)×β(5)

式中:μ為數學期望;σ2為方差;β為探索時的衰減系數.使用經過探索得到的喜好向量跟項目集合T相乘,將得到的值經過sigmoid函數變換為每個項目的得分Gi,并將此得分進行排序為用戶推薦前n個項目.具體計算如式(6)所示.

每輪預測都將向經驗回放池傳入B={St,A,R,St+1}四元組,其中St+1為下一時刻的狀態.演員網絡更新的損失函數梯度如式(7)所示.

式中:θa為演員網絡中的參數;N為經驗回放池中的batch大??;Q(s,a,θa)為評論家網絡的輸出.

評論家網絡用來評估演員網絡,通過從經驗回放池中獲得一個batch的數據,利用現實Q值和估計Q值的均方差來更新其網絡參數.更新的損失函數如式(8)所示.

式中:Q(si,ai,θc)為估計的Q值網絡得到的值.yi的計算如式(9)所示.

yi=ri+γQ′(si+1,ai+1,θc′)(9)

式中:γ為衰減因子,用于權衡即時收益與未來總收益之間的關系;Q′(si+1,ai+1,θc′)為使用現實Q網絡對下一步交互所計算的值;ri為當前狀態的獎勵值.獎勵值R的計算如式(10)所示.

若推薦的項目集合中存在用戶當前的喜好項目則獎勵值為1;若推薦的項目集合中沒有當前喜好,但出現在用戶的交互序列中則獎勵值為1/2;其他情況獎勵值為-1.以此來區分不同動作所獲得的回報.

3實驗與結果分析

3.1數據集與評價指標

本文使用Amazon Instant Video 以及Amazon Automotive(http://jmcauley.ucsd.edu/data/amazon/)兩個公開的數據集來進行實驗分析.為保證序列的長度,將交互個數小于10個項目的用戶刪除,經過預處理后的可用數據量如表1所示.兩個數據集都具有時間戳信息,因此,可對用戶序列按時間進行排序并進行序列推薦.使用每個用戶前80%的數據進行訓練,后20%進行測試,以證明本文所提出觀點的有效性.

為了研究超參數對模型性能的影響,首先對DDPG網絡使用不同學習率、batch_size進行實驗.學習率和batch_size是兩個最重要的模型超參數,合適的學習率和batch_size,不僅可以加速模型收斂,防止陷入局部最優,還可以提高模型的性能.在Amazon Instant Video數據集上進行參數設置,不同學習率、batch_size的對比實驗如表3所示.

本文所使用的評價指標[10]由精準度(Precision)、召回率(Recall)、F1值(F1-score)以及HR值(Hit-ratio)組成,從多個方面評估模型的好壞.

3.2實驗環境

本實驗采用的軟硬件環境如表2所示,本算法所使用的Python版本為3.7.3,并基于Tensorflow深度學習框架實現本算法的深度強化學習.

3.3實驗參數設定

DRRM模型所使用的超參數有學習率batch_size以及衰減因子.

從表3可以看出,當學習率為0.001且batch_size為8時,所得到的Precision以及F1-score指標最高,模型達到最佳性能.

衰減因子是深度強化學習中最重要的參數之一,是衡量當前收益與未來總收益的標準,通過設置不同的大小來表明當前動作對未來的影響.當學習率和batch_size分別為0.001和8時,進行衰減因子的設定對比實驗,實驗結果如圖2所示.

3.4對比實驗

為了證明所提出的DRRM算法的有效性,本文從傳統的序列推薦模型、基于神經網絡的模型、基于強化學習的模型以及記憶網絡模型4個方面,使用以下5種具有代表性的基線算法進行對比實驗.

貝葉斯個性化排序算法[17](Bayesian Personalized Ranking,BPR):該算法基于貝葉斯的個性化Top-N推薦方法,提出了一個通用的準則BPR-Opt來優化推薦排序.

個性化馬爾科夫鏈算法[18](Factorizing Personalized Markov Chains,FPMC):該算法將矩陣分解和馬爾科夫鏈模型相結合來學習用戶對應的轉移矩陣,并引入BPR算法來處理數據進行序列推薦.

動態遞歸推薦算法[19](Dynamic Recurrent Basket Model,DREAM):該算法的主要思想為基于遞歸神經網絡學習用戶的動態興趣表示,并捕捉用戶的全局序列特征.

深度強化學習推薦算法[16](Recommendation Based on Deep Reinforcement Learning,DRR):該算法基于顯式用戶-項目交互的深度強化學習推薦系統,僅使用用戶和項目的交互向量作為輸入項,并使用DDPG算法進行預測.

用戶記憶網絡推薦算法[10](Recommender with User Memory Networks,RUM):該模型的主要思想是在序列推薦算法中引入用戶記憶網絡,存放用戶的歷史交互并進行Top-N推薦.

Amazon Instant Video和Amazon Automotive數據集模型性能比較如表4所示.相較于最優基線算法,DRRM算法的精準度在Amazon Instant Video數據集上有8.89%的提升,在Amazon Automotive數據集上略有下降;召回率在2個數據集上分別有8.87%和11.20%的提升;F1值在2個數據集上分別有18.10% 和7.23%的提升;HR在2個數據集上分別有8.89% 和1.07%的提升.由此證明了本文所提算法的有效性.

3.5消融實驗

為了研究本文所提出的策略網絡以及基于優先記憶模型在用戶記憶網絡和DRRM模型中的作用,在Amazon Instant Video數據集上進行多組消融實驗,并使用精準度以及召回率指標進行對比.

具體實驗設置如下:①將用于生成用戶行為模式的策略網絡去除,僅使用用戶最近交互對用戶的記憶向量表示進行計算的DRRM_s模型;②將策略網絡去除,僅使用與用戶最近交互項目權重最高的記憶項目對用戶的記憶向量進行計算的DRRM_1模型;③將策略網絡去除,僅使用用戶向量計算注意力權重并生成用戶記憶向量表示的DRRM_h模型.實驗對比圖如圖3所示.

由圖3可知,沒有加入策略網絡的3種單一記憶向量表示方法的精準度與召回率均低于DRRM算法,從而說明用戶策略網絡對用戶當前行為模式的預測起著重要的作用.

3.6用戶行為模式

為了證明所提出的3種用戶行為模式,即短期偏好、長期偏好以及全局偏好的可解釋性,使用Amazon Instant Video數據集的實例進行實驗驗證. 如圖4~圖6所示,實驗使用的記憶網絡內存長度為5,x軸和y軸均表示用戶的交互序列,每一個小格代表對應兩個向量之間的相關度,顏色越深則說明兩向量越相關,對角線元素均為1.

由圖4可知,在用戶的第6~9次交互時,策略網絡預測為短期偏好,最近一次交互對當前交互的影響最大,對應的顏色也越深.對應于Amazon Instant Video數據集中的實例是該用戶在看了一集某電視劇后又接連觀看了后面的3集.

由圖5可知,在用戶的第8~11次交互時,策略網絡預測為長期偏好.用戶的第6次交互對其影響最大,對應顏色也越深,即為用戶的長期偏好.對應于Amazon Instant Video數據集中的實例是該用戶當看了一部之前沒看過的喜劇類型電影(第6次交互)后,又連續看了幾部該類型(第8~11次交互)但互相關聯不大的電影.

由圖6可知,在用戶的第6~9次交互時,策略網絡預測為全局偏好.其之前的幾次交互權重值相差不大且顏色近似,說明此次交互為用戶的全局偏好. 對應于Amazon Instant Video數據集中的實例是該用戶當看了一部驚悚類型(第6次交互)的電影之后,又看了喜劇、愛情、傳記類型的電影.

4結論

本文研究了結合用戶策略記憶和深度強化學習的序列推薦算法,提出一個新的DRRM模型框架.該算法通過策略網絡對用戶與項目交互的行為模式進行更加細致的劃分,以解決用戶-項目交互序列并不總是順序相關甚至存在噪聲的問題.通過對衰減因子的設定,證明深度強化學習對DRRM的影響;在消融實驗中,驗證了用戶策略網絡以及注意力機制在記憶網絡中的重要性.通過在兩個數據集上對比先進序列推薦模型的大量實驗,證明了本文所提算法的有效性.

本文只是對數據集中的用戶和項目進行矩陣分解得到相應的向量,此外還有許多可以利用的信息比如用戶的身份信息、社交信息等,來更新用戶、項目表示,以提高模型的可解釋性.

參考文獻

[1] WANG S,HU L,WANG Y,et al. Sequential recommender systems:challenges,progress and prospects [C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Amsterdam:Elsevier,2019:6332-6338.

[2] MOONEY R J,ROY L. Content-based book recommending using learning for text categorization [C]// Proceedings of the 5th ACM Conference on Digital Libraries. New York:ACM,2000:195-204.

[3]劉勝宗,樊曉平,廖志芳,等.基于PMF進行潛在特征因子分解的標簽推薦[J].湖南大學學報(自然科學版),2015,42(10):107-113.

LIU S Z,FAN X P,LIAO Z F,et al. A tag recommending algorithm with latent feature factor jointly factorizing based on PMF [J]. Journal of Hunan University (Natural Sciences),2015,42(10):107113. (In Chinese)

[4]劉朝陽,穆朝絮,孫長銀.深度強化學習算法與應用研究現狀綜述[J].智能科學與技術學報,2020,2(4):314-326.

LIU Z Y,MU C X,SUN C Y. An overview on algorithms and applications of deep reinforcement learning[J]. Chinese Journal of Intelligent Science and Technology,2020,2(4):314-326. (In Chinese)

[5] FENG S,LI X,ZENG Y,et al. Personalized ranking metric embedding for next new POI recommendation[C]//Proceedings of the 24th International Joint Conference on Artificial Intelligence. Amsterdam:Elsevier,2015:2069-2075.

[6] LIU Q,WU S,WANG D Y,et al.Context-aware sequential recommendation[C]//Proceedings of the IEEE 16th International Conference on Data Mining. Stroudsburg:IEEE,2016:1053-1058.

[7] WANG S,HU L,CAO L,et al. Attention-based transactional context embedding for next-item recommendation[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Menlo Park,CA:AAAI,2018:2532-2539.

[8] KANG W C,MCAULEY J. Self-attentive sequential recommendation[C]//Proceedings of the 2018 IEEE International Conference on Data Mining(ICDM). Piscataway,NJ:IEEE,2018:197-206.

[9] WESTON J. Memory networks for recommendation[C]//Proceedings of the 11th ACM Conference on Recommender Systems. New York:ACM,2017:4.

[10] CHEN X,XU H T,ZHANG Y F,et al. Sequential recommendation with user memory networks[C]// Proceedings of the 11th ACM International Conference on Web Search and Data Mining. New York:ACM,2018:108-116.

[11] EBESU T,SHEN B,FANG Y. Collaborative memory network for recommendation systems[C]//Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. New York:ACM,2018:515-524.

[12] OUYANG W T,ZHANG X W,REN S K,et al. Click-through rate prediction with the user memory network[C]//Proceedings of the 1st International Workshop on Deep Learning Practice for HighDimensional Sparse Data with KDD 2019. New York:ACM,2019:1-4.

[13] WANG L,ZHANG W,HE X F,et al. Supervised reinforcement learning with recurrent neural network for dynamic treatment recommendation[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York:ACM,2019:2447-2456.

[14] ZHAO X,XIA L,ZOU L,et al. Model-based reinforcement learning for whole-chain recommendations[C]//Proceedings of the 13th ACM International Conference on Web Search and Data Mining. New York:ACM,2019:4-8.

[15] ZHENG G J,ZHANG F Z,ZHENG Z H,et al. DRN:a deep reinforcement learning framework for news recommendation[C]//Proceedings of the 2018 World Wide Web Conference. New York:ACM,2018:167-176.

[16] LIU F,TANG R,LI X,et al. State representation modeling for deep reinforcement learning based recommendation [J]. Knowledge-Based Systems,2020,205(1):106170.

[17] RENDLE S,FREUDENTHALER C,GANTNER Z,et al. BPR:bayesian personalized ranking from implicit feedback[C]//Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence. Montreal:AUAI Press,2009:452-461.

[18] RENDLE S,FREUDENTHALER C,SCHMIDT-THIEME L. Factorizing personalized Markov chains for next-basket recommendation[C]// Proceedings of the 19th International Conference on World Wide Web. New York:ACM,2010:811-820.

[19] YU F,LIU Q,WU S,et al. A dynamic recurrent model for next basket recommendation[C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM,2016:729-732.

猜你喜歡
注意力機制推薦系統
面向短文本的網絡輿情話題
基于自注意力與動態路由的文本建模方法
基于深度學習的問題回答技術研究
基于LSTM?Attention神經網絡的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個基于知識庫的問答系統
數據挖掘在選課推薦中的研究
基于用戶偏好的信任網絡隨機游走推薦模型
基于個性化的協同過濾圖書推薦算法研究
個性化推薦系統關鍵算法探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合