?

基于奇異值分解的個性化評論推薦

2015-10-09 11:31王知衍胡舒悅

電子科技大學學報 2015年4期

關鍵詞：感興趣向量矩陣

余剛，王知衍，邵璐，胡舒悅，蔡毅

(1. 華南理工大學計算機科學與工程學院廣州 510000; 2. 西南財經大學經貿外語學院成都 611130; 3. 華南理工大學軟件學院廣州 510000)

基于奇異值分解的個性化評論推薦

余剛1，王知衍1，邵璐2，胡舒悅3，蔡毅3

(1. 華南理工大學計算機科學與工程學院廣州 510000; 2. 西南財經大學經貿外語學院成都 611130; 3. 華南理工大學軟件學院廣州 510000)

針對如何讓消費者在海量評論中快速找到自己感興趣的評論，該文提出了一個基于奇異值分解的個性化評論推薦系統RevRecSys。該方法首先構建了用戶-特征矩陣和評論-特征矩陣；然后利用矩陣分解技術把這兩個矩陣壓縮到隱因子向量空間；最后通過匹配用戶的隱因子向量空間和評論的隱因子向量空間實現評論推薦。通過實驗，驗證了RevRecSys相比現有的方法，可以獲得更好的推薦效果。

評論挖掘; 評論推薦; 奇異值分解; 用戶建模

電子商務網站上用戶對商品的評論可以幫助其他潛在消費者了解該商品的全貌，幫助潛在消費者進行購買決策。而網站上的海量商品評論讓消費者即使花費了很多時間也難以找到自己感興趣和期望的評論。因此，研究如何從海量評論中發現有價值的評論，并向消費者進行推薦顯得尤為重要。

首先需要挖掘用戶感興趣的商品特征，然后有針對性地推薦那些含有對相關特征進行討論的評論。文獻[1-3]試圖利用評論中的文字和社會特征預測消費者對評論的打分，從而向消費者推薦預測打分高的那些評論。然而，這些研究工作沒有考慮用戶的個性化問題，即可能會把相同的評論推薦給關注點和興趣點不一樣的用戶。

為了解決海量商品中的個性化評論推薦問題，本文提出一種個性化評論推薦系統RevRecSys。在RevRecSys系統中，首先利用矩陣分解中的奇異值分解(SVD)將用戶的評論分解，獲得一個用戶特征矩陣，并將其壓縮到一個用戶潛在因素空間。類似地，將每個評論也映射到一個同樣的潛在因素空間。然后根據每個用戶的特征矩陣，預測用戶對不同評論的打分。最后，向用戶推薦具有較高的預測打分的評論。通過將評論推薦問題轉化為用戶潛在因素空間與評論潛在因素空間的匹配問題，可以很好地解決數據稀疏問題和新評論問題。

1 相關工作

1.1 推薦系統

文獻[4]介紹了現代推薦系統的整體情況，得益于全世界范圍學者的努力，現代推薦系統日益成熟。大體上，推薦系統的實現可以分為3類[5-6]：基于內容(CB)[7-9]、協同過濾的(CF)[10-12]和混合方法[13-14]。對于一個用戶和物品，CB通過用戶對與物品相似的其他物品的喜好程度來估計該用戶對該物品的喜好程度。而CF的主要思想是相似的用戶會有相似的品味(基于用戶)，相似的物品對一個用戶會有相近的吸引力(基于物品)。CB和基于物品的CF的主要不同點在于相似性度量的策略的不同。CB通過內容來計算兩個物品之間的相似度，而CF是通過對兩件物品進行了評分的用戶的評分計算兩個物品的相似度。在最近的推薦系統里CF更受歡迎，也得到了更廣泛的應用。有很多關于CF的工作，它們在特定的情況下能得到各自更好的結果。目前，矩陣因子分解(MF)[15]成為最受歡迎的CF算法之一。經證明，MF勝過現有大多數工藝水平的算法。

雖然推薦系統在人們的日常生活中扮演越來越重要的作用，但評論推薦仍處于起步階段。

1.2 隱因子模型

隱因子模型在信息檢索領域得到了越來越多的關注。文獻[16]表明隱因子模型在隱語義分析中表現很好。隱因子模型的關鍵思路是把原問題特征空間映射到維度更少的隱因子空間。通常隱因子空間的每個因子代表問題域的一個模式。例如，對于電影推薦，隱因子可以解釋為導演、電影類型、用戶年齡段和主演等影響因素。早期的隱因子模型——矩陣因子分解(MF)[17]是基于矩陣分解這個線性代數中著名的技術。許多在特定領域能增強模型的性能的實現被提出，如SVD++、timeSVD++和RANKSVD++模型分別通過整合用戶和物品偏倚、用戶的顯式回饋、時間效應和基于排序的規則化來加強基本的矩陣模型。另一種類型的隱因子模型是PLSA(概率隱語義分析)[18]和LDA(隱迪利克雷分布)[19]這兩種主題模型。這兩種模型引進隱主題變量將可觀測變量文檔和文字聯系起來，從而描述語料庫的分布結構。主題模型在文檔維度規約中得到了廣泛的應用。文獻[20-21]用與隱主題一一對應的用戶標簽標記文檔以提高LDA模型的可解釋性。文獻[21]將用戶反饋加入LDA模型作為每篇文檔對應的反應變量預測用戶評分。

2 RevRecSys系統的機制

個性化評論推薦系統一般由評論集合(用R表示)和用戶集合(用U表示)兩個部分組成。個性化評論推薦系統的目標是把用戶可能感興趣但未曾閱讀的評論推薦給用戶。為了實現該目標，系統通常會為用戶的每個未曾閱讀的評論進行預測打分，并把預測得分較高的評論返回給用戶[22-23]。預測得分越高的評論代表著用戶越有可能對該評論感興趣。用戶對評論的感興趣程度取決于該評論是否提及用戶感興趣的商品特征以及是否圍繞該特征展開了深入描述。

所以，一個好的個性化評論推薦系統應該向用戶推薦描述了用戶感興趣的商品特征的評論。要實現個性化評論推薦，可以分3個步驟：1) 找出用戶感興趣的商品特征，并根據用戶感興趣的商品特征為用戶構建用戶模型；2) 根據評論對用戶感興趣的商品特征(即用戶模型)的描述程度預測用戶對該評論的打分；3) 根據評論的預測得分，由高到低向用戶進行評論推薦。

2.1 發現用戶感興趣的特征

在RevRecSys系統中，用戶和商品特征之間的關系可以用一個如下定義的用戶-特征矩陣表示。

定義 1 用戶-特征矩陣(X)是由所有用戶對所有商品特征的平均打分組成的矩陣，其中第i行第j列的元素xi,j，代表用戶i對特征j的平均打分，m代表集合U中的用戶數量，n代表集合R中所有評論一共提及的商品特征數量。

假設用戶Alice給兩條包含特征“價格”的評論分別打4分和5分，那么xAlice,價格= 4.5。xAlice,價格的值越高，說明用戶i對特征j越感興趣。

為了表示用戶的興趣，通常做法是把用戶打過分的評論中出現的商品特征提取出來，構建一個由這些商品特征組成的向量。但由于在現實生活中，一個特征可能有多個表達方式(如“價格”和“價錢”都表示同個特征“價格”)，以及特征之間存在一定的語義聯系(如特征“價格”和“價值”存在一定的關系)，因此采用基于奇異值分解的方法為每個用戶構建用戶模型。根據奇異值分解，原始的用戶-特征矩陣可以被壓縮到一個新的向量空間并可以由兩個矩陣的點乘擬合：用戶-隱因子矩陣和特征-隱因子矩陣。隱因子是顯因子(商品特征)的抽象表示。通過用低維度的隱因子抽象表示高維度的顯因子，用戶-特征矩陣被壓縮到一個新的向量空間。用戶-隱因子矩陣表示每個用戶對各個隱因子的感興趣程度，而特征-隱因子矩陣則表示各個特征與各個隱因子的語義聯系程度。整個擬合的過程可以由式(2)～式(4)以及圖1中的實例表示。

式中，Um,k表示用戶隱因子矩陣；Fn,k表示特征隱因子矩陣；k表示壓縮后的向量空間的維度。對于用戶i而言，i對各個隱因子的感興趣程度會由向量ui,1,ui,2,…,ui,k表示。對于每個特征j而言，j與各個隱因子之間的語義聯系會由向量fj,1,fj,2,…,fj,k表示。

2.2 發現用戶感興趣的評論

由于已經把用戶感興趣的特征壓縮到由隱因子構成的向量空間，所以要發現用戶感興趣的評論的關鍵是找到評論和由隱因子組成的用戶模型之間的關系。

圖1 把用戶映射到由隱因子組成的向量空間的例子

對于每條在集合R中的評論而言，每條評論都可用商品的若干特征表示。假設有一條評論“這個相機在光線不足的時候拍出來的照片質量很差”，那么這個評論就可以被看作是一條討論了特征“照片質量”的評論。因此，在尋找評論和由隱因子組成的用戶模型之間的關系時，可以首先利用評論和特征之間的關系，然后把評論也映射到由隱因子組成的向量空間中。評論和特征之間的關系可以用如下定義的評論-特征矩陣表示。

定義 2 一個評論-特征矩陣(Y)是一個由所有商品特征在所有評論中出現的頻率組成的矩陣，其中第i行第j列的元素yi,j代表用戶i對特征j的平均打分，p代表集合R中評論數量，n代表集合R中所有評論一共提及的商品特征數量。

式中，yi,j的值越高說明特征j出現在評論i中的概率越高，即兩者之間的關聯程度越高。

把評論映射到由隱因子組成的向量空間中的過程可以由式(6)及式(7)以及圖2中實例表示。

式中，Rp,k是評論-隱因子矩陣；rp,k的值越高就代表了評論r和隱因子k之間的關系越緊密。

在把評論也映射到隱因子向量空間后，只需把用戶-隱因子矩陣和評論-隱因子矩陣進行點乘，即可得到每個用戶對每個評論的預測打分。預測打分過程可以用式(8)和式(9)以及圖3中的實例表示。

式中，Sm,p就是用戶對評論的預測打分矩陣，矩陣中的元素Sm,p表示用戶m對評論p的預測打分。

2.3 評論推薦

在RevRecSys中，根據用戶對每條未讀評論的預測打分對評論進行排序，并返回其中得分最高的N條評論給用戶。

圖2 用戶-評論打分矩陣的分解例子

2.4 新評論問題

在傳統的推薦系統中，一直存在一個冷啟動的問題，即無法推薦新的商品(或評論)給用戶以及無法把商品(或評論)推薦給新的用戶。對于新用戶這個問題，還未能找到解決的方法，但對于新商品(或評論)這個問題，本文的方法能一定程度上解決。在基于用戶的協同過濾推薦系統中，系統由于無法找到相似的用戶對新商品(或評論)的打分從而無法進行分數預測；在基于商品(或評論)的系統過濾推薦系統中，系統由于無法根據商品(或評論)的打分歷史找到新商品(評論)的相似商品(或評論)從而無法進行分數預測；而該方法由于不依賴尋找相似用戶或者相似商品(或評論)，因此不受此限制。該方法解決新評論問題主要是基于雖然評論為第一次出現，但評論提及的特征卻一般不是第一次出現的工作原理。一般情況下，不同用戶描述同一個商品時可能會提及同樣的特征，而且同一個用戶描述不同商品時也可能會提及不同的特征。因此，要解決新評論問題，只需把一條評論拆解成若干個特征；然后根據特征與用戶之間的關系，求得用戶對評論中出現的各個特征的感興趣程度；最后把這些感興趣程度整合在一起即可。

3 實驗

3.1 數據集

利用爬蟲工具從Epinions網站上抓取一個數據集，并在數據集上進行實驗。Epinions.com是一個在線產品評論網站，用戶可以在該網站上發表評論，也可以對他人的評論進行打分(分數為1～5分)。把數據集中參與評論數在10～50條之間的用戶抽取出來用作實驗。該子集一共包括了1 367個用戶、7 063條評論、4 116個特征、23 338個評論打分信息。這些評論獲得的分數分布如圖4所示，每條評論平均有7個特征。

圖4 評論所獲得的分數分布

隨機把該子集分成兩部分，80%的數據用作訓練集，20%用作測試集。對于測試集中的每個評論所獲得的分數，通過比較該評論實際所獲得的分數和RevRecSys預測的分數對系統進行評估。

3.2 衡量標準

以下為RMSE、MAE及PC共3個衡量標準的介紹。RMSE(均方根偏差)定義如下：

式中，n是測試集中的評論數目；s是評論的預測得分；a是評論的實際分數。RMSE的值越小，推薦系統的準確度就越高。

MAE(平均絕對偏差)定義如下：

同樣，MAE的值越小，推薦系統的準確度越高。

PC(準確度覆蓋)與前兩個衡量標準不同，PC主要衡量測試集中有多少評論的得分是可以被預測的，PC的定義如下：式中，p代表測試集中可以被預測得分的評論的數量。PC的值越高，說明推薦系統越能應對冷啟動問題。

3.3 基準方法

把RevRecSys系統和另外3個推薦系統進行對比。第1個推薦系統CF是基于協同過濾實現的；第2個推薦系統AVG通過計算一個用戶的平均打分來預測未讀評論的打分；第3個推薦系統RANDOM是基于隨機分配數值實現的。

3.4 實驗結果

首先把RevRecSys系統和另外3個推薦系統進行對比，對比結果如圖5和圖6所示。

圖5描述了4個推薦系統在RMSE和MAE衡量標準下的結果。RevRecSys、CF、AVG及RANDOM的RMSE值分別為0.67、0.71、0.82和2.50。4個推薦系統的MAE值分別為0.38、0.39、0.53和2.1。顯然RevRecSys系統在RMSE和MAE標準下都比另外3系統表現要好。

圖5 推薦系統在RMSE和MAE標準下的表現

圖6展示了4個推薦系統在PC標準下的表現。RevRecSys、CF、AVG及RANDOM的PC值分別為0.98、0.90、0.98和1.00。CF因為既無法處理新用戶問題又無法處理新評論問題，所以在PC的衡量標準下表現最差。本文的RevRecSys系統雖然能處理新評論問題，但因為無法處理新用戶問題，所以在PC的衡量標準下本文系統要比AVG和RANDOM系統表現差。

圖6 推薦系統在PC標準下的表現

然后，為了進一步衡量本文的系統，AVG和RANDOM在處理新評論時的準確率，單獨抽取了測試集中的新評論，并利用這些新評論進行實驗。實驗結果如圖7所示。

由圖7可以看到，在處理新評論時，RevRecSys、AVG和RANDOM的RMSE值分別為0.77、1.3和2.12。它們的MAE值分別為0.55、1.15和1.7。通過以上數據，雖然RevRecSys在處理新評論時的準確度不及之前處理舊評論時的準確度，但是在處理新評論時，RevRecSys的準確度是在3種推薦系統中最高的。

圖8展示了本文系統在不同k值下的表現。k是被壓縮后的向量空間中的維度數目。k的取值越大，代表用戶的興趣用更多的隱因子來表示。從圖8可知，本文系統的RMSE值隨著k值的增加而在0.669～0.674間波動。當k=70時，本文系統的RMSE值最小，表現最好。

圖8 RevRecSys在不同k值下的表現

4 結論

本文提出了一個全新的基于奇異值分解的個性化評論推薦系統RevRecSys。該系統首先捕獲用戶感興趣的商品特征，并把用戶感興趣的特征映射到隱因子中。然后，系統利用評論內容以及商品特征之間的關系，預測用戶對評論的打分。最后，系統根據打分高低為用戶推薦評論。由于本文系統是對用戶-特征矩陣進行分解，并沒有直接對用戶-評論矩陣進行分解，因此本文推薦系統還能較好應對冷啟動中的新評論問題。實驗結果表明本文的推薦系統在預測的準確度以及預測的覆蓋度上都優于基準方法。

[1] KIM S M, PANTEL P, CHKLOVSKI T, et al. Automatically assessing review helpfulness[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. [S.l.]: Association for Computational Linguistics, 2006: 423-430.

[2] LU Y, TSAPARAS P, NTOULAS A, et al. Exploiting social context for review quality prediction[C]//Proceedings of the 19th International Conference on World Wide Web. [S.l.]: ACM Press, 2010: 691-700.

[3] O’MAHONY M P, SMYTH B. Learning to recommend helpful hotel reviews[C]//Proceedings of the 3th ACM Conference on Recommender Systems. [S.l.]: ACM Press, 2009: 305-308.

[4] ADOMAVICIUS G, TUZHILIN A. Toward the next generation of recommender systems: a survey of the stateof-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(6): 734-749.

[5] 許海玲, 吳瀟, 李曉東, 等. 互聯網推薦系統比較研究[J].軟件學報, 2009(02): 350-362. XU Hai-lin, WU Xiao, LI Xiao-dong, et al. Comparison study of internet recommendation system[J]. Journal of Software, 2009, 20(2): 350-362.

[6] 趙亮, 胡乃靜, 張守志. 個性化推薦算法設計[J]. 計算機研究與發展, 2002, 39(8): 986-991. ZHAO Liang, HU Nai-jing, ZHANG Shou-zhi. Algorithm design for personalization recommendation systems[J]. Journal of Computer Research and Development, 2012, 39(8): 986-991.

[7] XIE H R, LI Q, CAI Y. Community-aware resource profiling for personalized search in folksonomy[J]. Journal of Computer Science and Technology, 2012, 27(3): 599-610.

[8] DI NOIA T, MIRIZZI R, OSTUNI V C, et al. Linked open data to support content-based recommender systems[C]// Proceedings of the 8th International Conference on Semantic Systems. [S.l.]: ACM Press, 2012: 1-8.

[9] LIN C J, KUO T T, LIN S D. A content-based matrix factorization model for recipe recommendation[C]//The 18th Pacific-Asia Conference on Knowledge Discovery and DataMining. Tainan, Taiwan, China: Springer, 2014: 560-571.

[10] NOEL J, SANNER S, TRAN K N, et al. New objective functions for social collaborative filtering[C]//Proceedings of the 21st International Conference on World Wide Web. [S.l.]: ACM Press, 2012: 859-868.

[11] CHEN K, CHEN T, ZHENG G, et al. Collaborative personalized tweet recommendation[C]//Proceedings of the 35th International ACM SIGIR Conference on Researchand Development in Information Retrieval. [S.l.]: ACM Press, 2012: 661-670.

[12] BOBADILLA J S, ORTEGA F, HERNANDO A, et al. A collaborative filtering approach to mitigate the new user cold start problem[J]. Knowledge-Based Systems, 2012(26): 225-238.

[13] KARDAN A A, EBRAHIMI M. A novel approach to hybrid recommendation systems based on association rules mining for content recommendation in asynchronous discussion groups[J]. Information Sciences, 2013(219): 93-110.

[14] CHEN W, NIU Z, ZHAO X, et al. A hybrid recommendation algorithm adapted in e-learning environments[J]. World Wide Web, 2014, 17(2): 271-284.

[15] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37.

[16] DEERWESTER S, DUMAIS S T, FURNAS G W, et al. Indexing by latent semantic analysis[J]. Journal of the American society for information science, IEEE, 1990, 41(6): 391-407.

[17] RICCI F, ROKACH L, SHAPIRA B, et al. Recommender systems handbook [M]. New York: Springer, 2010.

[18] HOFMANN T. Probabilistic latent semantic indexing[C]// Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. [S.l.]: ACM Press, 1999: 50-57.

[19] BLEI D M, NG A Y JORDAN M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003(3): 993-1022.

[20] RAMAGE D, MANNING C D, DUMAIS S. Partially labeled topic models for interpretable text mining[C]// Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]: ACM Press, 2011.

[21] RAMAGE D. Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora [C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. [S.l.]: Association for Computational Linguistics, 2009: 248-256.

[22] XIE H, LI Q, MAO X. Community-aware user profile enrichment in folksonomy[J]. Neural Networks, 2014(58): 111-121.

[23] XIE H R, LI Q, CAI Y. Community-aware resource profiling for personalized search in folksonomy[J]. Journal of Computer Science and Technology, 2012, 27(3): 599-610.

編輯蔣曉

Singular Value Decomposition-Based Personalized Review Recommendation

YU Gang1, WANG Zhi-yan1, SHAO Lu2, HU Shu-yue3, and CAI Yi3
(1. School of Computer Science & Engineering, South China University of Technology Guangzhou 510000; 2. School of Foreign Languages for Business, Southwestern University of Finance and Economics Chengdu 611130; 3. School of Software Engineering, South China University of Technology Guangzhou 510000)

With the boom of reviews available in e-commerce websites, it is time-consuming for customers to find their interested reviews. Motivated by this situation, we propose a framework named RevRecSys based on singular value decomposition(SVD) for personalized review recommender systems. Our framework first constructs user-feature matrix and review-feature matrix, then it adopts matrix factorization techniques to compress these two matrices into latent factors, finally it matches a user’s latent factor vector space and a review’s latent factor vector space to achieve review recommendation. To evaluate the proposed framework, we conduct experiments on a real-life data set. The experimental results report that our method can achieve a better performance than the baseline methods.

review mining; review recommendation; SVD; user profiling

TP391

A doi:10.3969/j.issn.1001-0548.2015.04.022

2014 ? 11 ? 29；

2015 ? 03 ? 24

國家自然科學基金(61300137)；廣東省自然科學基金(S2013010013836)；廣東省科技計劃工業攻關項目(2013B010406004)；中央高?；究蒲袠I務費專項資金(2014ZZ0035)；四川省教育廳人文社科重點研究基地四川網絡文化研究中心資助科研項目“功能對等視角下的網絡政治新聞翻譯研究”(WLWH14-40)

余剛(1980 ? )，男，博士生，主要從事計算機網絡和數據挖掘方面的研究.

猜你喜歡

感興趣向量矩陣

向量的分解

新高考·高一數學(2022年3期)2022-04-28

聚焦“向量與三角”創新題

中學生數理化(高中版.高考數學)(2021年1期)2021-03-19

含能材料(2021年1期)2021-01-10

初等行變換與初等列變換并用求逆矩陣

中央民族大學學報（自然科學版）(2016年3期)2016-06-27

向量垂直在解析幾何中的應用

高中生學習·高三版(2016年9期)2016-05-14

這樣的智能廚房臺面，你會感興趣嗎？

工業設計(2016年8期)2016-04-16

向量五種“變身” 玩轉圓錐曲線

新高考·高二數學(2015年11期)2015-12-23

南都周刊(2015年4期)2015-09-10

南都周刊(2015年3期)2015-09-10

南都周刊(2015年1期)2015-09-10

電子科技大學學報2015年4期

電子科技大學學報的其它文章: 長距離PON接入技術研究; 一種快速準確適用性廣的偽隨機擾碼識別方法; 一種接地板開槽的耦合饋電緊湊型天線陣列; 欠定盲分離時變混合矩陣的估計; 簡單高效的LDPC碼加權比特翻轉譯碼算法; 四腔相對論速調管放大器的實驗研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合