?

微博用戶推薦模型的研究

2015-10-14 07:07徐雅斌石偉杰
電子科技大學學報 2015年2期
關鍵詞:社交圈文檔個人信息

徐雅斌,石偉杰

?

微博用戶推薦模型的研究

徐雅斌,石偉杰

(北京信息科技大學計算機學院 北京朝陽區 100101;北京信息科技大學網絡文化與數字傳播北京市重點實驗室 北京朝陽區 100101)

微博用戶推薦對改善用戶體驗、促進社交網絡長遠發展具有重要意義。該文提取了能夠充分反映微博用戶之間相關性的多個特征,并通過邏輯回歸模型對潛在的用戶進行評分排序,為目標用戶推薦前個潛在用戶?;谛吕宋⒉祿膶嶒灲Y果表明,基于邏輯回歸方法的用戶推薦模型是切實有效的,可以為微博用戶提供高性能的個性化用戶推薦。

邏輯回歸; 微博; 個性化推薦; 用戶推薦

微博作為社交網絡的一種表現形式,是新一代社交、實時網絡服務的典范,以其新穎的表現形式、獨特的運營方式,快速吸引了大量的用戶。在微博平臺上,用戶可以通過關注同學、朋友等組成自己的社交圈,也可以通過關注其他用戶來豐富自己的社交圈,這就為社交網絡的推薦服務提供了豐富的土壤。

用戶推薦服務可以快速有效地幫助用戶擴大社交范圍,因而成為社交網絡的一個研究熱點,個性化推薦服務更是成為社交網絡應用的發展方向。為微博用戶提供個性化用戶推薦服務對發展用戶社交圈,加強用戶間的社交聯系,完善社交網絡生態系統具有重要意義,蘊含著巨大的商業價值。因此,研究個性化微博用戶推薦具有重要的現實意義。

1 相關工作

微博社交網絡擁有數以億計的用戶,其中的每個用戶都可能有自己的興趣點和特性,如何高效地為特定用戶從海量用戶中選擇出其感興趣的用戶,已成為當下社交網絡研究領域的熱點。

文獻[1]進行的一個擴展分析證明:在社交網絡的歷史數據是可以獲取的情況下,使用基于內容的方法進行用戶推薦是有效的。但單純使用基于內容的方法較為片面,不能完整的表現用戶推薦行為。文獻[2]綜合考慮了用戶興趣和用戶社交網絡方法,并將它們合并到一個基于PageRank算法的混合模型,通過實驗證明了該混合模型的有效性。但該模型未考慮到用戶個人信息、標簽等相關信息,達不到個性化用戶推薦的要求。文獻[3]和文獻[4]展示了社交網絡中兩種基于標簽進行用戶推薦的方法,并通過實驗證明,基于標簽進行用戶推薦是有效的。文獻[5]采用基于內容的相似和協同過濾方法來推薦twitter用戶,取得了一定的推薦效果,但該方法未能充分考慮其他用戶信息,個性化推薦效果不理想。文獻[6]使用LDA(latent dirichlet allocation)模型對twitter文本進行主題建模,并與傳統的向量空間模型方法進行比較,實驗結果發現LDA的效果優于向量空間模型。文獻[7]根據關聯規則算法得到用戶間的共同好友關系進行Top-用戶選取,再對選取出來的Top-用戶進行標簽協同過濾,從而得到推薦用戶列表。但該方法忽略了用戶內容、用戶個人信息等相關要素,仍不能滿足個性化微博用戶推薦的要求。

總而言之,現有的方法在進行微博用戶推薦時使用的方法單一,性能不足;雖然有些方法使用混合模型綜合了幾種不同的推薦方法,取得了一定的推薦效果,但采用的信息不夠全面,沒有貼切地考慮與微博用戶密切相關的其他信息;同時其使用的混合模型在多參數時常需使用經驗方法進行參數調節,不能獲得理想的推薦結果。針對這些情況,本文從微博實際出發,綜合考慮了基于內容、標簽、社交圈的推薦方法和用戶個人信息特征,并使用邏輯回歸模型將以上幾種方法有機融合到一起。邏輯回歸模型通過挖掘用戶信息中內在支配推薦排序的信息,很好地解決了使用經驗調節參數的問題。

2 微博用戶的特征提取與推薦模型

2.1 基于內容的用戶推薦(UC)

內容中往往包含用戶興趣,而興趣的相似性加大了用戶成為好友的可能性。在微博研究領域,“內容”一般指的是用戶微博,包括用戶發布、評論、轉發的內容。

然而現有的基于內容的方法在進行微博用戶推薦時,只考慮了用戶自身的微博,忽略了與用戶有關聯的其他用戶的微博。研究表明,關注用戶的微博中包含了用戶的某些興趣[8]。針對以上問題,本文統一將用戶與其關注用戶的微博作為微博內容,以改善其性能。

本文使用潛在狄利克雷主題模型[9](LDA)獲取用戶微博的主題分布,并計算用戶間微博主題的相似度。LDA是一種文檔主題生成模型,是一種非監督學習技術,其原理如圖1所示。

將每個用戶及其關注用戶的微博作為輸入文檔,所有用戶及其關注用戶的微博作為文檔集合(?)。表示狄利克雷先驗參數;β表示詞匯的主題分布;θ為文檔的主題概率θ表示文檔中第個主題的主題概率;Z表示文檔的主題分配,Z,n表示文檔中第個單詞的主題分配;W為文檔中觀察到的單詞,W,n表示文檔中的第個單詞。

圖1 LDA模型

對于文檔集中的每篇文檔,LDA定義了如下的生成過程:1) 對于每一篇文檔,從主題分布中抽取一個主題;2) 從上述被抽到的主題所對應的單詞分布中抽取一個單詞;3) 重復上述過程直至遍歷文檔中的每一個單詞。

進行用戶推薦需計算用戶及其關注用戶和用戶及其關注用戶微博內容間的相似度SimUC(,),取最高的前個用戶作為推薦對象。將用戶及其關注用戶的微博和用戶及其關注用戶的微博分別記為文檔dd。LDA主題個數參數統一取為20,迭代次數參數統一取為150,并在統一的LDA計算過程中得到主題分布向量和。本文采用余弦相似度表征主題分布向量和間的相似度,其計算方法為:

式中,uv分別表示向量和的元素。

2.2 基于標簽的用戶推薦(UT)

標簽是一組關鍵字,是用戶對自己既客觀又主觀的精簡描述,直接反映了用戶的興趣,又具有個性化的特點。對于用戶和用戶,相同或相似的標簽越多,表明他們越相似。

因為標簽是一組關鍵字,故需要對用戶間的標簽進行同義詞判斷,本文利用《知網》進行標簽同義詞判斷。標簽同義詞判斷需計算標簽1、2間的相似度sim(1,2);當相似度sim(1,2)大于閾值δ時,則認為標簽12為同義詞。本文使用文獻[10]的方法計算標簽間的相似度。標簽關鍵字為實詞,一個實詞概念的語義表達式分為第一基本義原描述式、其他基本義原描述式、關系義原描述式、符號義原描述式4個部分,故兩個實詞間相似度是這4個義原相似度sim1、sim2、sim3、sim4的加權和,其計算方法為:

計算出詞語間相似度后,便可以得到判斷標簽是否為同義詞的方法為:

(3)

使用標簽特征計算用戶與用戶之間相似性的計算方法為:

式中,R表示用戶的標簽集;R表示用戶的標簽集。表示用戶和用戶相同或相似的標簽數量;表示用戶和用戶的標簽數量和。

2.3 基于社交圈的用戶推薦(USN)

對于用戶來說,社交圈的成員包括用戶的粉絲以及用戶的關注用戶。粉絲是關注了用戶的人群,反映了用戶的影響力;關注用戶是用戶關注的人群,表征了用戶的偏好傾向。社交網絡本質上描述的是用戶間的關系,共同的粉絲或關注用戶正是用戶間關系的體現。因此,對于兩個微博用戶來說(向目標用戶推薦用戶),社交圈的相似程度也是影響推薦的一個重要因素。用戶社交圈的相似性由用戶粉絲和關注用戶兩個方面決定。

2.3.1 用戶粉絲(Follower)

將用戶的粉絲集記為Follower()=,,用戶的粉絲集記為Follower()=。用戶與用戶的共同粉絲越多,用戶間的相似性越高。

定義1 用戶粉絲貢獻度為:

2.3.2 關注用戶(Following)

將用戶的關注用戶集記為Follower()=,,用戶的關注用戶集記為Following()=。用戶與用戶的共同關注用戶越多,用戶間越相似。

定義2 關注用戶貢獻度為:

2.3.3 用戶社交圈相似性(SimUSN(,))

根據Stren_er(,)和 Stren_ing(,),可得到用戶社交圈相似性SimUSN(,)的計算方法。

定義3 用戶社交圈的相似性為:

式中,為相似權重,用來平衡用戶粉絲和關注用戶的相似度。在本文中,作簡化處理,取=0.5。

2.4 基于用戶個人信息特征(PI)的推薦

用戶個人信息是表征用戶的一組屬性,是用戶最為直觀的反映,可以明顯區分用戶間的異同。用戶個人信息包括年齡、地區、性別等?,F有的方法在使用用戶個人信息特征時,并未考慮到用戶地區對推薦的影響,實際上,微博社交網絡匯聚了大量來自不同地區的用戶,同一地區或家鄉相同的用戶由于地理位置上的靠近或天然存在的親近感,使得用戶往往對與自己處于同一地區或家鄉相同的用戶感興趣,故本文選取用戶地區作為用戶的一個屬性。對于性別,異性用戶間往往更容易互相吸引,微博用戶也是如此,所以本文將性別也作為用戶的一個屬性。

2.4.1 用戶地區(UD)

本文建立了一個行政地域數據庫,數據庫包含全國各省份名稱及其所轄的地市名稱。對于向目標用戶推薦用戶,計算用戶地區相似度的步驟如下:

1) 根據數據庫對用戶地區進行過濾,只保留省級或地市級地區;

2) 查找數據庫,判斷用戶的地區UD與用戶的地區UD是否為同一省份。若不同,則simUD(,)=0;若相同,進行下一步;

3) 查詢數據庫用戶地區是否為同一地市。若是,則simUD(,)=1;否則,simUD(,)=0.5。

2.4.2 用戶性別(US)

對于目標用戶,若用戶為異性,用戶為同性,則同等條件下用戶往往更偏向于接受用戶,故本文將用戶性別作為用戶的一個特征。用戶性別US可表示為:

對于目標用戶和待推薦用戶,用戶在性別維度上的相似度simUS(,)可表示為:

(9)

2.4.3 用戶個人信息相似度(PI)

由simUD(,)和simUS(,),可得到用戶個人信息相似度SimPI(,)。

定義4 用戶個人信息相似為:

式中,為權重因子,由于simUD(,)和simUS(,)對用戶個人信息相似度SimPI(,)都是正相關,故本文取=0.5。

3 基于邏輯回歸的融合推薦模型

根據不同方法或特征進行用戶推薦產生的排名不同,如何將這些方法或特征進行有效融合是準確和有效推薦微博用戶的關鍵。邏輯回歸(logistic regression)模型是一種多元統計方法,和支持向量機(SVM)一樣,是一種判別學習模型,具有良好的性能,但邏輯回歸模型的時間復雜度和空間復雜度都低于支持向量機。更重要的是,邏輯回歸模型可用于概率預測,將用戶推薦轉化為對一個特征向量進行概率預測過程。通過挖掘用戶信息中內在支配推薦排序的信息,很好的解決了使用經驗調節參數的問題,可以很容易地調整模型的參數,使模型能夠適應所應用的環境。故本文采用邏輯回歸模型進行微博用戶推薦。

推薦過程(向用戶推薦用戶)中,邏輯回歸模型會基于與用戶和用戶都相關的特征向量,得到用戶關注用戶的概率(),最后基于概率產生一個最終的推薦用戶列表。邏輯回歸模型為:

式中,表示與用戶和用戶都相關的特征向量,由歸一化處理后的各種用戶推薦方法的推薦得分(用戶間相似度)和用戶特征相似度組成,即基于內容的推薦方法的推薦得分、基于用戶標簽的推薦方法的推薦得分、基于用戶社交圈推薦方法的推薦得分和用戶個人信息特征相似度;表示特征向量權重,可通過訓練集對邏輯回歸模型進行訓練得到。

取用戶及其已關注用戶v的數據作訓練集,其中表示用戶的關注用戶數,v表示用戶的第個關注用戶。表示與用戶和用戶v相關的特征向量。

特征向量由以下特征或它們的子集組成:1) 基于用戶及其關注用戶的微博內容推薦方法計算得到的用戶和用戶v之間的相似得分;2) 基于用戶標簽推薦方法計算得到的用戶和用戶v之間的相似得分;3) 基于用戶社交網絡推薦方法計算得到的用戶和用戶v之間的相似得分;4) 基于用戶個人信息特征計算得到的用戶和用戶v之間的相似度。

其中,特征1)~特征3)是由3種用戶推薦方法計算得到的,特征4)是用戶自身的特征。由于各個特征值范圍不一,故需要對這4個特征進行歸一化處理。

使用訓練數據集對邏輯回歸模型進行訓練,得到可使用的推薦模型。測試數據集類型與訓練數據集類型相同,即具有相同用戶特征。對于目標用戶,根據推薦模型即可計算出待推薦用戶的推薦得分,按降序排列生成Top-推薦列表。

4 實驗及結果分析

4.1 數據集

數據集中每個用戶的微博信息應包括用戶及其關注用戶的微博、用戶標簽、用戶社交圈、用戶個人信息(地區、性別)。同時為方便進行實驗,本文要求數據集選取的每個用戶的關注數不少于15,粉絲數不大于2 000,且用戶微博數不少于20。

本文依照數據集的要求,使用python語言編寫爬蟲程序,從新浪微博爬取了387個用戶及其關注用戶的微博信息,同時爬取了其他4 152個用戶及其關注用戶的微博信息。將爬取的387個用戶作為目標用戶,并將這387個目標用戶的關注用戶以及其他1 152個用戶作為待推薦用戶。

將爬取的微博用戶數據集分為訓練數據集和測試數據集。訓練數據集由287個目標用戶及其關注用戶的微博信息組成,測試數據集由剩余的100個目標用戶及其部分關注用戶的微博信息和其他4 000個待推薦用戶及其關注用戶的微博信息組成。對于測試集中的每個目標用戶,隨機選取其40個待推薦用戶并隱藏其10個關注用戶(共50個用戶)作為測試集。模型訓練結束后,對測試數據集進行實驗,得到按降序排列的Top-推薦結果。推薦過程如圖2所示。

圖2 用戶推薦過程

4.2 評價指標

根據微博實際,用戶往往更關注排名靠前的用戶,故研究高排名的用戶推薦性能具有重要意義。本文重點測試Top-1、Top-3、Top-5、Top-6、Top-8、Top-10六種情況下本文微博用戶推薦模型的性能。

Top-推薦列表中包含隱藏關注用戶的個數是評價用戶推薦方法有效性的重要指標[11]。本文使用查準率(Precision)、召回率(Recall)兩個指標進行推薦方法的評價,有:

(13)

4.3 結果與分析

基于測試數據集,本文首先進行了基于用戶自身微博進行推薦和基于用戶及其關注用戶微博進行推薦的實驗,并進行了對比分析。本文分別取Top-1、Top-3、Top-5、Top-6、Top-8、Top-10六種情況下的實驗結果,即推薦結果的前1個、前3個、前5個、前6個、前8個、前10個用戶中,隱藏的關注用戶占推薦結果的平均比例。實驗結果如圖3和圖4所示。

在實驗結果圖3a、3b中,UC-1為基于用戶自身微博內容推薦方法的推薦效果,UC-2為基于用戶及其關注用戶微博推薦方法的推薦效果??梢钥闯鯱C-2比UC-1在推薦效果上有了較大提高。這是由于UC-1忽略了關注用戶對微博用戶的潛在影響,進而忽略了關注用戶微博中包含的有用信息,同時用戶自身微博數據也不充足;UC-2綜合利用用戶及其關注用戶微博進行推薦,在一定程度上也緩解了微博數據量不足的情況,這使得UC-2的推薦效果優于UC-1。

為驗證文本方法(LR)的準確性和有效性,實驗對基于協同過濾的用戶推薦方法(BPR)、基于興趣和社交網絡的用戶推薦方法(BIS)在本文數據集上推薦結果的準確率(Precision)和召回率(Recall)兩個指標進行對比,從而進行用戶推薦效果的比較。分別取Top-1、Top-3、Top-5、Top-6、Top-8、Top-10六種情況下的實驗結果,實驗結果如圖4所示。

a. 兩種方法的準確率

b. 兩種方法的召回率

圖3 UC-1和UC-2推薦效果比較

由實驗結果可以看出:1) LR方法的整體準確率和召回率均優于BIS和BPR方法。2)取值在1~6之間時,在保證召回率不低于BIS和BPR方法的基礎上,本文提出的LR方法的準確率明顯優于BIS和BPR方法;當值繼續增大時,3種方法性能趨于平穩。而用戶推薦關注的是排名靠前用戶的推薦效果,推薦準確率越高,效果越好。這說明本文LR方法的推薦效果明顯優于BIS和BPR方法。

a. 三種方法的準確率

b. 三種方法的召回率

圖4 BPR、BIS和LR的推薦效果比較

BPR方法雖然考慮了用戶多個特征間的相似性,并取得了一定的推薦效果,但由于該方法存在一定的數據稀疏性,使得靠前排名的推薦并不理想;BIS方法從用戶興趣和社交網絡兩個方面出發,統籌考慮用戶興趣相似性和社交關系相似性,取得了較好的推薦效果,但其考慮的用戶信息仍不夠全面,同時BIS靠經驗調節相關參數存在一定誤差,故性能有待進一步提高;LR方法更全面的從用戶興趣、社交圈、個人信息多個角度出發,使得數據信息較為充分,并通過充分挖掘用戶信息中內在支配推薦排序信息的邏輯回歸模型,綜合利用這些特征進行微博用戶推薦,使得采用LR方法進行微博用戶推薦的效果有較大提高。

5 結束語

本文基于新浪微博進行個性化用戶推薦研究。針對微博用戶的實際特點,深入挖掘并廣為利用能夠反映微博用戶興趣的特征,并對相關方法進行了效果對比實驗,最后采用邏輯回歸方法將多種用戶方法和特征融合到一起,進行個性化用戶推薦。通過對爬取的新浪微博數據集進行實驗,發現綜合考慮用戶及其關注用戶的基于內容推薦方法要好于原方法,取得了較好的推薦效果;本文提出的邏輯回歸模型融合多方法和特征的推薦效果優于現在的推薦方法,并取得了很好的推薦效果,從而證明了該方法的有效性。

[1] CHEN J, GEYER W, DUGAN C, et al. Make new friends, but keep the old: Recommending people on social networking sites[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York: ACM, 2009: 201-210.

[2] SHANG Y, ZHANG P, CAO Y. A new interest-sensitive and network-sensitive method for user recommendation [C]//2013 IEEE Eighth International Conference on Networking, Architecture and Storage (NAS). Washington: IEEE Computer Society, 2013: 242-246.

[3] YAN Z, ZHOU J. User recommendation with tensor factorization in social networks[C]//2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Washington: IEEE Computer Society, 2012: 3853-3856.

[4] GUY I, ZWERDLING N, RONEN I, et al. Social media recommendation based on people and tags[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2010: 194-201.

[5] HANNON J, BENNETT M, SMYTH B. Recommending twitter users to follow using content and collaborative filtering approaches[C]//Proceedings of the ACM Conference on Recommender Systems. New York: ACM, 2010: 199-206.

[6] PENNACCHIOTTI M, GURUMURTHY S. Investigating topic models for social media user recommendation[C]//Proceedings of the 20th International World Wide Web Conferences. New York: ACM, 2011: 101-102.

[7] 胡大偉. 基于標簽協同過濾算法在微博推薦中的研究[D]. 包頭: 內蒙古科技大學, 2012.

HU Da-wei. Tag-based collaborative filtering algorithm microblog recommended[D]. Baotou: Inner Mongolia University of Science and Technology, 2012.

[8] 孫威. 微博用戶興趣挖掘與建模研究[D]. 大連: 大連理工大學, 2012.

SUN Wei. Interest mining and modeling for Micro-bloggers of Micro-blog[D]. Dalian: Dalian University of Technology, 2012.

[10] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research 2003, 3: 993-1022.

[11] 劉群, 李素建. 基于《知網》的詞匯語義相似度計算[J].中文計算語言學, 2002, 7(2): 59-76.

LIU Qun, LI Su-jian. Word similarity computing based on how-net[J]. Computational Linguistics & Chinese Language Processing, 2002, 7(2): 59-76.

[12] GOLBECK J, HENDLER J, et al. Film trust: Movie recommendations using trust in Web-based social networks[C]//CCNC’06: Proceedings of the third Consumer Communications and Networking Conference. Washington: IEEE, 2006: 282-286.

編 輯 蔣 曉

Research on Micro-Blog User Recommendation Model

XU Ya-bin and SHI Wei-jie

(Computer School of Beijing Information Science &Technology University Chaoyang Beijing 100101; Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science &Technology University Chaoyang Beijing 100101)

Micro-blog user recommendation has great significance and value for improving the user experience and promoting the long-term development of the social network. In this paper, multiple features reflecting the correlation between micro-blog users are extracted. Combining the user features and ranks scores for potential users, top-potential users are recommended for the target user. The experimental results based on the dataset gained from Sina Micro-Blog shows that the proposed method is feasible and effective, and it can provide personalized user recommendation with high performance for micro-blog users.

logic regression; micro-blog; personalized recommendation; user recommendation

TP301

A

10.3969/j.issn.1001-0548.2015.02.016

2014-10-22;

2015-02-06

國家自然科學基金(61370139);網絡文化與數字傳播北京市重點實驗室項目(ICDD201309);北京市屬高等學校創新團隊建設與教師職業發展計劃(IDHT20130519)

徐雅斌(1964-),男,教授,主要從事社交網絡、云計算和未來網絡方面的研究.

猜你喜歡
社交圈文檔個人信息
如何保護勞動者的個人信息?
個人信息保護進入“法時代”
淺談Matlab與Word文檔的應用接口
新語
有人一聲不吭向你扔了個文檔
數字社交圈里的白酒“新消費”
警惕個人信息泄露
基于社交圈的信息分享策略研究*
基于RI碼計算的Word復制文檔鑒別
幫害羞寶貝打開社交圈
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合