?

二階段孿生圖卷積神經網絡推薦算法

2024-03-21 02:24荊智文張嶼佳孫伯廷
計算機應用 2024年2期
關鍵詞:雙塔卷積神經網絡

荊智文,張嶼佳,孫伯廷,郭 浩

(太原理工大學 信息與計算機學院,山西 晉中 030600)

0 引言

近年來,隨著各類電子商務平臺的蓬勃發展,商品種類日漸繁多,但在通常情況下,用戶單位時間內能接受信息密度有限,造成了嚴重的信息過載問題[1]。而推薦系統因能通過在大規模商品中篩選用戶可能感興趣的商品,緩解信息過載問題,得到廣泛研究。大規模推薦系統最關鍵的任務之一,是快速且準確地為每一位用戶計算大量商品的分數排序。一種普遍采用的方法是將推薦系統分為召回和排序兩階段架構。具體而言,首先從大規模商品集中召回與給定用戶相關的相對數較少的商品;然后使用排序模型根據學習到的用戶興趣,對召回階段篩選過的相關商品排序[2]。一個高性能的召回模型是整個推薦系統的基礎;但由于電子商務平臺具有數據規模大、用戶行為稀疏和數據長尾等特性,傳統的數據召回模型對用戶和商品之間關系的學習可能出現不平衡或不充分的情況。

為了解決上述問題,Huang 等[3]提出了雙塔型神經網絡算法DSSM(Deep Structured Semantic Models)。它的核心思想是將用戶和商品映射到同一維度的語義空間,分別訓練用戶側和商品側的深度神經網絡(Deep Neural Network,DNN),以最大化用戶和商品的相似性。該算法雖然一定程度上提高了大規模召回的性能,但由于DNN 之間相互獨立,兩塔之間缺乏信息交互,算法無法充分學習用戶和商品之間更深層次的交互信息。因此,如何增強DSSM 的信息交互,提升DSSM 的召回性能值得深入研究。

綜上所述,如果能在DSSM 之間建立合適的連接機制,在避免信息串聯的情況下,讓DNN 學習盡可能多的用戶和商品之間的交互信息,就能提升推薦算法的準確性。因此,本文提出二階段孿生圖卷積神經網絡推薦算法(Two-stage Siamese graph convolutional Neural network recommendation algorithm,TSN),通過引入基于圖學習的孿生網絡,增強DSSM 的圖特征學習能力和用戶-商品交互捕捉能力。

本文的主要工作如下:

1)為推薦系統設計通過用戶行為連接的異質圖,提出基于圖卷積神經網絡的孿生網絡結構,對異質圖建模,在學習異質圖連接信息的同時,在用戶和商品側DNN 之間雙向傳遞信息,使DNN 學習到更多交互特征。

2)提出二階段學習技術,該機制能在避免孿生網絡串聯兩側DNN 的基礎上,使DNN 學習到包括正向和負向的全量樣本,同時使共享機制具備學習能力。

3)在兩個真實數據集上與若干算法在不同指標下進行比較,證明了TSN 算法能顯著提升推薦系統的性能。

1 相關工作

1.1 增強雙塔型神經網絡

為了增加DSSM 中用戶側和商品側之間的信息交互,Yu等[4]在DAT(Dual Augmented Two-tower model for online largescale recommendation)中設計了一種自適應模擬共享機制為每個用戶和商品提供增強向量,增強向量中蘊含內容特征。對于每個帶有正標簽的樣本,根據另一個DNN 的輸出表示向量生成增強向量,作為輸入特征的增強向量便攜帶了另一DNN 中有價值的信息,便可在隱語義空間模擬兩塔之間的信息交互。

雖然DAT 在一定程度上緩解了DSSM 缺乏信息交互的問題,但仍存在一些局限:

1)自適應模擬共享機制的結構決定在訓練階段只能使用正樣本進行增強,模型缺乏對負面信息的學習。

2)自適應模擬共享機制在一次訓練結束后,通過乘積生成增強向量,本身不具備對信息交互過程的學習能力。

3)該算法需要調整較多參數,這一定程度上增加了優化模型的工作量。

1.2 孿生神經網絡

最早由Bromley 等[5]提出的孿生神經網絡是一種特殊的DNN 結構,它由兩個或多個子網絡構成,同時接收特征數據的輸入,且相互之間共享DNN 權值。

如圖1 所示,孿生網絡整體結構的核心是找到一個合適的映射關系,該映射關系能將輸入的特征數據映射到目標語義空間,并讓目標語義空間中不同實體之間的簡單距離(如歐氏距離、余弦相似度等)逼近輸入空間實際的語義距離。具體地,孿生網絡結構嘗試通過更新參數,找到一組可以使兩個或多個實體的表示在實際意義上相似的情況下擁有更小的相似性度量,而在不相似的情況下擁有更大的相似性度量[6]。

圖1 孿生神經網絡結構Fig.1 Structure of Siamese neural network

孿生網絡中不同神經網絡之間共享權重在一定程度上限制了各神經網絡之間的學習內容應具有高相似性,所以通常用于處理兩個輸入差異不是非常大的問題,如對比兩張圖片、兩個句子、兩個詞匯的相似度。對于輸入差異較大的學習任務,如圖片與相應的文字描述、文章標題與文章段落的相似度等,孿生網絡起到的作用比較有限。雙塔型神經網絡的最終目的是學習用戶向量和商品向量的相似性,孿生網絡可能會在一定程度上有增強雙塔型神經網絡召回性能的作用。

1.3 異質圖卷積網絡

在推薦系統中,將用戶對商品的評分作為邊,用戶和商品的特征信息作為節點信號,便可將推薦系統問題轉化為異質圖學習問題[7]。以卷積神經網絡(Convolutional Neural Network,CNN)[8]為理論基礎的異質圖卷積網絡(Hetero Graph Convolutional Network,HGCN)[9-13]因其強大的特征表征能力而被廣泛應用。具體地,HGCN 會在圖的異質節點間進行圖卷積操作。若異質圖由m個用戶節點和n個商品節點構成,則HGCN 會將異質圖視為(m+n) × (m+n)的二分圖,以節點特征為信號,以評分信息為圖進行圖卷積,挖掘二分圖中包含的連接信息[14]。

2 模型設計

如圖2 所示,為了緩解DSSM 算法在推薦系統中的局限性,TSN 使用一對DNN 分別學習用戶和商品的特征信息。為了解決用戶側和商品側DNN 缺乏高質量交互的問題,本文提出基于異質圖的孿生卷積神經網絡(Hetero Siamese Graph Convolutional Neural network,HS-GCN)連接兩側DNN。在進行兩側DNN 全量交互的同時,挖掘由用戶和商品構成的二分圖的連接特征信息。為避免直接連接HS-GCN 和兩側DNN 后,在訓練過程中出現的神經網絡串聯問題,本文設計基于梯度凍結(Gradient Freeze,GF)技術的二階段學習技術。通過多層感知機進行相似度打分,按照降序排序,進行TOP-K推薦。TSN 的重要符號定義見表1。

表1 重要符號定義Tab.1 Definition of important notations

圖2 二階段孿生圖卷積神經網絡推薦算法架構Fig.2 Architecture of two-stage Siamese graph convolutional neural network recommendation algorithm

2.1 神經網絡文本嵌入

為使用戶側和商品側的DNN 學習到有效特征,DSSM 的輸入包含用戶對商品的評論、用戶的畫像信息、商品的詳情信息和標簽的內容信息。通過使用文檔嵌入,將內容信息映射到低維密集的內容向量。文檔嵌入的代表工作為Doc2Vec,包含分布式內存(Distributed Memory,DM)和分布式詞袋(Distributed Bag Of Word,DBOW)兩個子模型??紤]到內容向量不應受到每段文檔詞序的影響,本文采用在訓練過程中不學習詞序的DBOW。具體地,對于給定用戶ui∈U,結合ui的用戶畫像文檔ufi和包含對商品的評論及標簽信息的評論文檔Coi*獲得用戶文檔doci,對于商品vj∈V,結合商品詳細信息vdj和商品評論Co*j,獲得商品文檔docm+j,通過LTP(Language Technology Platform)對文檔D={d1,d2,…,dm+n}進行清洗和分詞,再使用Doc2Vec 將文檔D分別映射為用戶和商品的密集向量UD和VD。

2.2 DSSM

TSN 的DSSM 包含用戶側和物品側兩部分,兩側分別為用戶和商品提供基于DNN 的編碼器。以用戶ui和商品vj為例,在實際訓練過程中,為了獲得用戶和商品的信息,向量udi∈UD和vdj∈VD將輸入到具有ReLU 激活功能的全連接層當中。用戶側的全連接深度DNN 處理過程如下:

其中:huser(1)和huser(x)分別為用戶側DNN 的第1 層和第x層;和bx分別是第x層的權重矩陣和偏置向量。商品側全連接DNN 結構同用戶側相似。兩側DNN 的輸出將作為進行相似度計算的輸入,通過計算相似度與實際標簽的損失優化DNN。本文在DSSM 的相似度計算中采用余弦相似度,公式如下:

其中uei∈UE和vej∈VE分別為用戶側和商品側DNN 的輸出。在構建樣本時,選擇用戶對商品的評分作為標簽,同時考慮隱式和顯式反饋:

其中:rij∈R為用戶ui對商品vj的評分,fst(?)為將評分限制在0~1 的標準化函數。在計算損失時采用歸一化交叉熵損失作為損失函數,公式如下:

其中max(?)是取最大值函數。

2.3 用戶行為二分圖

m個用戶對n個商品的評分矩陣為R∈Rm×n,評分范圍為{1,2,…,X},則用戶和商品的交互圖為:

在后續的HS-GCN 的卷積操作中,u1的特征表示來自它評分的商品i1、i3、i4;商品i4的特征表示來自為它評分的用戶u1和u2。

2.4 孿生卷積神經網絡

2.4.1 用戶和商品子圖構建算法

在輸入階段,通過在二分圖以用戶為起點,交替隨機游走,形成步長為k的用戶鏈路,算法如下。

算法1 用戶和商品子圖構建算法。

2.4.2 網絡結構

HS-GCN由兩個相同的CNN組成,分別為CNNL和CNNR。設以用戶為起始節點構成的子圖和以商品為起始節點構成的子圖為HS-GCN的一對實例。由此提出計算兼容性的函數:

HS-GCN 采用隨機梯度下降(Stochastic Gradient Descent,SGD)訓練。在每次SGD 的迭代中,兩個結構相同的CNN 對訓練樣本進行處理。式(9)用于計算訓練誤差,模型根據誤差在訓練過程中更新HS-GCN,直至滿足停止條件。

2.4.3 孿生卷積架構

孿生網絡由一對由若干卷積層和一個全連接層的CNN構成,共包含5 層,輸入子圖尺寸由步長k決定。本節以大小為32 × 32 的子圖為例,將Cx作為卷積層,Sx作為下采樣層,Fx作為全連接層,x為各層的索引。C1層是卷積層,使用6 個5 × 5 的卷積核對子圖卷積,得到具有6 個28 × 28 的特征圖;S2為下采樣層,使用2 × 2 下采樣得到6 個14 × 14 的特征圖;C3是卷積層,通過16 個5 × 5 的卷積核對特征圖卷積,得到16 個10 × 10 的特征圖;經下采樣層S4和核卷積層C5分別得到16 個5 × 5 的特征圖和120 個1 × 1 的特征圖;F6為全連接層。

2.5 二階段孿生信息共享機制

介于用戶側和商品側DNN 之間的孿生網絡通過二階段孿生信息共享機制在避免孿生網絡將兩側DNN 串聯的基礎上,捕捉來自對方的異質特征,并動態學習用戶和商品的交互信息。該機制由共享連接、二階段學習技術和信息交叉融合三部分構成。

2.5.1 共享連接

首先,為使孿生網絡能同時學習異質圖中用戶側和商品側的異質信息,用戶側和商品側的孿生網絡分別接收經卷積層得到的用戶和商品的輸出然后,通過共享兩側孿生網絡的權重矩陣WSia實現兩側信息的交互。最后,通過信息交叉融合使用戶側和商品側DNN 學習到來自對方的特征信息。但是,直接使用該方法會導致用戶側和商品側DNN 形成信息串聯,使DSSM 的雙塔型結構能天然區分用戶和商品的特質失去意義,并將TSN 在結構上與基于圖學習的YoutubeDNN 等價。因此,需要一種特殊的二階段學習技術完成非串聯的信息共享。

2.5.2 二階段學習技術

為了防止DSSM 被HS-GCN 訓練過程完全串聯,為模型設計了二階段學習機制(Two-Stage learning Mechanism,TSM)。TSM 將算法的訓練過程分為兩個階段,兩個階段交替完成一次,即為一輪訓練。

在第一階段,首先,凍結DSSM 的權重參數,即WDNN中各元素的值保持不變;然后,使用HS-GCN 和DSSM 分別對經神經網絡嵌入得到的特征矩陣及交互二部圖進行非線性編碼,并將HS-GCN 和DSSM 輸出的特征矩陣進行信息交叉融合(融合方法在2.5.3 節中介紹);最后,使用交叉融合后的矩陣特征向量更新WSia的參數,完成對HS-GCN 一個批次的訓練。在這一階段中,若為首輪訓練,則算法僅學習圖卷積操作中提取的交互二分圖連接信息;若不為首輪訓練,則可學習到交互二分圖連接信息及上一輪訓練中DSSM 之間的交互信息。該階段解決了DSSM 無法提取圖拓撲結構特征,以及缺乏對用戶和商品交互信息學習能力的問題。

第二階段與第一階段相對應,凍結HS-GCN 的權重參數WSia,通過信息交叉融合得到特征矩陣,完成DSSM 一個批次的訓練。在這一階段,算法將由HS-GCN 建模的交互圖連接信息及用戶側和商品側的交互信息融入DSSM 的訓練過程。該階段解決了直接連接HS-GCN 和DSSM 導致的網絡完全串聯問題。

TSN 實際部署于工業生產環境中時,為盡可能減少從原始輸入到最終結果的人工處理,并具有根據數據自動調整模型參數的能力,提出梯度截斷技術(Gradient Truncation,GT)實現TSM,將TSN 優化為端到端模型。具體地,GT 同時訓練DSSM 和HS-GCN,交替截斷DSSM 和HS-GCN 損失的反向傳播,在實現TSM 功能的同時,將TSN 轉化為一個端到端的模型,TG 的實現邏輯見算法2。

算法2 基于梯度截斷的二階段學習技術。

輸入梯度更新標記pstep,特征向量feature_vec,DSSM 權重參數WDNN,HS-GCN 權重參數WSia,訓練批次大小batch_size;

2.5.3 信息交叉融合

由圖2 所示,在信息交叉部分,來自雙塔網絡和孿生網絡的信息進行交叉。為了更細粒度地融合來自DSSM 和HSGCN 的特征信息,采用哈達瑪積方法實現信息交叉,對于用戶:

2.6 訓練

本文將召回任務視為二分類任務。在訓練過程中,對于給定的用戶,模型分別將匹配正確的商品和隨機選擇的商品作為正樣本和負樣本。在信息交叉后計算的余弦相似度,最后通過計算歸一化交叉熵損失函數得到預測的損失。

3 實驗與結果分析

本文通過實驗驗證TSN 的有效性,實驗包括對比分析、消融實驗和訓練強度分析三部分。對比分析將TSN 與主流的召回算法在不同性能維度上進行比較;消融實驗將TSN 的部分模塊拆除,以驗證模型各部分的有效性;訓練強度分析通過觀察分析不同訓練強度下的孿生網絡對雙塔型神經網絡的增強效果,選擇最優的孿生網絡訓練強度。

3.1 實驗設置

為驗證TSN 的召回性能,本文選擇了現實世界中的離線大規模數據集:來自MovieLens 數據集[15]和豆瓣電影數據集[16],這些數據集已經被廣泛用于推薦系統的研究和開發。其中,MovieLens 是一個開源的電影推薦數據集,該數據集提供了大量電影評分和用戶行為數據;豆瓣數據集是指從豆瓣網上爬取的大量電影、圖書、音樂等數據的集合,本文僅使用豆瓣數據集中的電影部分。內容詳細信息見表2。

表2 實驗數據集統計信息Tab.2 Statistics of experimental datasets

將數據打亂,隨機選擇80%的數據作為訓練集,10%的數據作為驗證集,10%的數據作為測試集。

3.2 比較模型和指標

將TSN 與7 個廣泛應用于工業領域的基準模型算法進行比較,包括TF-IDF(Term Frequency-Inverse Document Frequency)[17]、FM(Factorization Machines)[18]、YoutubeDNN(Deep Neural Networks for Youtube recommendations)[19]、DSSM[3]、STAN(Spatio-Temporal Attention Network for next location recommendation)[20]、HIRS(Hypergraph Infomax Recommender System)[14]和DAT[4]。上述基準算法囊括了基于直接統計的推薦算法、基于矩陣分解的推薦算法和基于深度學習的推薦算法。根據命中率(Hit Ratio,HR)@N[21]、歸一化折損累計增益(Normalized Discounted Cumulative Gain,NDCG)@N[22]、平均倒數排名(Mean Reciprocal Rank,MRR)@N[7](N=10,50,100)三種評價標準評估所有算法。其中,HR 表示推薦列表中被用戶實際點擊或購買商品所占的比重,NDCG 用來衡量推薦列表的排序質量的指標,MRR 用來衡量推薦列表的排序質量和推薦物品的多樣性。

3.3 參數設置

將訓練批量大小設置為512,向量的維度設置為32。為了達到更好的訓練效果,選擇Adam 作為優化器,初始學習率設置為0.001,并在[0.001,0.001 5,0.002 5,0.005,0.008,0.01]尋找最優值,初始epoch 設置為16,并在[16,32,64,128,256]中尋找最優值。對比分析中,將2.4.1 節的默認步長設置為最優值10。

3.4 對比分析

實驗結果如表3、4 所示,其中TSN(GC)為標準TSN 算法,它在每個訓練批次中先更新DSSM。對表3、4 分析可知:

表3 各算法在MovieLens數據集的實驗結果Tab.3 Experimental results of different models on MovieLens dataset

表4 各算法在豆瓣電影數據集的實驗結果Tab.4 Experimental results of different models on Douban movie dataset

1)FM 通過分解用戶-商品矩陣,實現基于向量的二階特征交叉,它在稀疏場景中的表現明顯優于基于頻率的TF-IDF,在MovieLens數據集上,FM相較于TF-IDF在HR@10、HR@50、HR@100性能指標上提升40.06%~76.61%。

2)得益于DNN 強大的學習能力,用戶和商品信息在DSSM 生成的向量中得到了較好的表示,相較于YoutubeDNN,DSSM 在豆瓣電影數據集中的NDCG@10、NDCG@50、NDCG@100 性能指標上提升了10.27%~36.07%。而YoutubeDNN 的表現相較于FM 整體上略有降低,這可能是由于全連接層過擬合導致的。

3)STAN 基于FM,使用自注意力機制提取用戶行為的相對時空信息,MRR@10、MRR@50、MRR@100 性能指標相較于DSSM,在MovieLens數據集上提升了6.46%~8.75%。

4)HIRS 先將數據集映射為超圖,再使用超邊預測直接生成有益的特征交互,提高模型推薦性能。對超圖的有效學習使得HIRS 的HR@10、HR@50、HR@100 性能指標相較于STAN,在MovieLens 數據集中提升了1.30%~3.96%。

5)在DSSM 的基礎之上,DAT 自適應模擬機制生成的增強向量獲取了用戶側和商品側DNN 之間豐富的交互信息,這使得DAT 的HR@10、HR@50、HR@100 性能指標相較于傳統的雙塔模型在豆瓣數電影劇集中提升了16.24%~17.91%,NDCG@10、NDCG@50、NDCG@100 性能指標相較于HIRS 在豆瓣電影數據集中至少提升了10.29%。由于DAT的自適應模擬機制只能學習到正樣本中用戶和商品之間的交互信息,且雙向共享機制不具備學習能力,其推薦性能仍有可提升空間。

6)TSN(GC)能通過對異構圖進行卷積,提取用戶和商品之間的連接信息,并使用具有二階段學習技術的孿生神經網絡對正樣本和負樣本進行全量訓練的同時,學習到了用戶側和商品側DNN 的深層次交互信息,提高了DSSM 對樣本特征的學習能力。它的NDCG@10、NDCG@50、NDCG@100性能指標相較于DAT 在豆瓣電影數據集上提升了11.39%~23.98%。

為了更加直觀地表示TSN 和基準算法的特征分布差別,本文將驗證集通過TSN 和最優基準算法DAT 計算得到的用戶及商品特征矩陣進行t-SNE 可視化降維,生成特征散點圖,如圖3。

圖3 TSN及最優基準算法DAT的用戶和商品特征散點圖(t-SNE)Fig.3 Scatter diagrams(t-SNE)of user and item features for TSN and optimal benchmark algorithm DAT

從圖3 中可以觀察到,TSN 和DAT 整體的分布比較均勻,沒有出現非常明顯的整體聚類現象,這說明TSN 和DAT都能針對不同類型的用戶進行有效的推薦。此外,相較于DAT,TSN 在某些區域內對用戶和商品的聚合能力更強,這說明TSN 更能根據用戶的興趣劃分用戶群體,根據商品特征劃分商品類別,從而更好地完成推薦。

3.5 消融實驗

為了驗證TSN 中各部分功能的有效性,本文在豆瓣電影數據集上為TSN 設計了相應的消融實驗。如表5 所示,TSN(w/o TS,GC)為去掉TSM 部分的TSN 模型,讓孿生網絡和雙塔網絡同時進行學習,不加限制地相互傳遞信息。TSN(U-GC)將HS-GCN 和DSSM 的商品側DNN 之間的信息交互通道切斷,僅保留和用戶側DNN 之間的信息交互通道,并采用TSM 的方式與用戶側塔進行信息交互。TSN(I-GC)僅保留HS-GCN 和商品側DNN 之間的信息交互通道,同樣采用TSM 的方式與商品側塔進行信息交互。TSN(TS)在每個訓練批次中先對HS-GCN 進行更新。

表5 TSN(GC)及其變體在豆瓣電影數據集的實驗結果Tab.5 Experimental results of TSN(GC)and its variants on Douban movie dataset

從表5 中可看出,TSN(w/o TS,GC)在不采用TSM 的情況下,HR@10、HR@50、HR@100 性能指標相較于TSN(GC)至少下降了69.15%,甚至相較于傳統DSSM 下降了32.86%~58.70%??赡苁怯捎贖S-GCN 將用戶側和商品側DNN 完全串聯,導致雙方沒有分別從用戶和商品的特征數據中學習到正確的信息。TSN(U-GC)和TSN(I-GC)的NDCG@10、NDCG@50、NDCG@100 性能指標比傳統的DSSM 分別提升18.44%~37.05%和20.34%~38.25%,這說明不論在用戶側還是商品側進行HS-GCN 的增強,都能有效提高雙塔模型的召回性能,且在用戶側增強的效果更好,這可能和HS-GCN能從異質圖中提取到更多用戶節點信息有關。而TSN(GC)的 MRR@10、MRR@50、MRR@100 性能指標相較于TSN(U-GC)和TSN(I-GC)分別提升了18.79%~29.34% 和22.26%~28.67%,這證明了HS-GCN 對DSSM 雙向增強的有效性。此外,TSN(GC)和TSN(TS)的平均召回性能在三類指標中均無明顯差異,這說明在訓練過程中,HS-GCN 和DSSM的更新順序對算法不造成實質影響。

3.6 HS-GCN訓練強度分析

對HS-GCN 采用不同強度的訓練,會在很大程度上影響最終模型在測試集上的表現。因此,以不同強度訓練HS-GCN,觀察分析HS-GCN 的訓練強度對TSN 及其變體在召回性能上的影響。由于篇幅限制,本文僅對豆瓣電影數據集上的HR@100、NDCG@100、MRR@100 性能指標進行分析和對比。其余的性能指標與上述三種指標結果的趨勢相似。

圖4 中的橫坐標為對于同一批樣本,HS-GCN 和DSSM 訓練次數的比值。實驗中DSSM 的訓練次數固定不變,因此該比值可以DSSM 的訓練強度為單位,描述HS-GCN 的訓練強度。實驗將訓練強度限制在0.4~2.0,步長為0.2。

圖4 HS-GCN訓練強度對TSN及其變體性能的影響Fig.4 Effect of HS-GCN training intensity on performance of TSN and its variants

從圖4 中可以看出,除了TSN(w/o TS,GC),訓練強度從0.4~1.4,隨著訓練強度的提升,各算法的召回指標均不斷上升,而超出1.4 后,都呈現出緩慢下降的趨勢。這說明訓練強度低于1.4 時,提升HS-GCN 的訓練強度對雙塔網絡起到正向增強作用,1.4 為最佳訓練強度,在訓練強度超過1.4后,繼續提升HS-GCN 的訓練強度,將會對整個模型產生微負向的作用。TSN(GC)和TSN(TS)的指標折線纏繞比較緊密,無明顯優劣之分,這支持了3.5 節中HS-GCN 和DSSM 的更新順序對算法的影響很小的結論。關于TSN(U-GC)和TSN(I-GC),它們的變化趨勢與TSN(GC)和TSN(TS)相似,這從另一角度證實了HS-GCN 的有效性,且驗證了上述HSGCN 最佳訓練強度的正確性,但由于僅進行了用戶側或商品側的部分信息交換,TSN(U-GC)和TSN(I-GC)在性能整體上弱于TSN(GC)和TSN(TS)。此外,TSN(w/o TS,GC)將雙塔網絡的用戶側塔和商品側塔完全串聯,不僅使雙塔網絡喪失了獨立學習用戶特征和商品特征的優勢,也無法讓孿生網絡學習正確的交互信息;所以,TSN(w/o TS,GC)的性能表現始終處于較低水準,且孿生網絡訓練強度的變化對TSN(w/o TS,GC)的性能表現幾乎沒有影響。

4 結語

本文提出一種二階段孿生圖卷積神經網絡推薦算法TSN,該算法基于用戶-商品二分圖設計孿生圖卷積神經網絡,不僅連接雙塔型神經網絡的兩側,而且引入用戶和商品的連接特征,實現雙塔型神經網絡用戶側與商品側之間的深度信息交換。為了避免雙塔型神經網絡完全串聯,減少訓練參數和人工成本,提出以梯度截斷技術為核心的二階段學習機制,使TSN 更適合用于大規模的推薦環境中。此外,本文對孿生網絡的訓練強度進行分析,并得到最佳訓練強度。大量實驗表明,TSN 可以有效提高雙塔模型的召回性能。

猜你喜歡
雙塔卷積神經網絡
雙塔雙循環濕法脫硫系統SO3脫除率及排放測試
雙塔雙循環脫硫系統超低排放運行優化研究
基于3D-Winograd的快速卷積算法設計及FPGA實現
神經網絡抑制無線通信干擾探究
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
雙塔水庫抬高汛期限制水位的可行性探討
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
基于支持向量機回歸和RBF神經網絡的PID整定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合