?

UGC標簽推薦系統的一種新的標簽清理方法

2016-06-17 17:39劉建東
2016年15期
關鍵詞:推薦系統

劉建東

摘要:UGC標簽推薦系統的推薦效果依賴標簽的質量,因為UGC標簽是用戶隨意標注的,并不是所有的標簽都符合用戶興趣,有必要清空一些不符合用戶興趣的標簽,提高標簽質量。本文根據標簽的頻率和物品的流行程度,提出假設,建立衡量標簽與用戶興趣匹配度的數學模型,通過設置閥值,建立篩選規則,并應用該規則進行了實驗。實驗的準確率和召回率達到70%和75%,一定程度上達到了提高標簽質量的目的。

關鍵詞:UGC標簽;推薦系統;數據標簽清理

一、引言

UGC標簽推薦系統是指通過讓普通用戶給物品或者服務打標簽,然后分析標簽的內容和打標簽的行為來進行推薦。UGC標簽是普通用戶對物品的評價,同時也表示了用戶的興趣,所以標簽成了物品和用戶興趣之間的橋梁,成為推薦系統研究物品和用戶興趣的媒介。UGC標簽推薦系統是一種新型的個性化推薦方法。

豆瓣是國內文藝青年廣泛使用的社交網站,包含讀書、電影、音樂等領域的信息,在這些領域內,豆瓣網站嘗試了不同的個性化推薦算法,UGC標簽推薦就是其中一種。它允許普通用戶為電影,書籍,音樂打上自己的標簽,標注用戶的理解,從而改善推薦效果。

UGC標簽推薦系統的推薦效果依賴用戶為物品和服務打上的標簽的質量,而因為UGC標簽是普通用戶根據自己的理解隨意打上的,并不是所有的標簽都會反映用戶的興趣。比如,在豆瓣網站上,用戶看完一個電影,打上了“不好笑”這樣的標簽,那么并不代表用戶喜歡“不好笑”的電影。因此,有必要對標簽進行清理,提高標簽的質量,從而更進一步改善推薦效果。

從另外一個角度來看,標簽可以為推薦結果提供解釋,方便用戶理解推薦的理由,如果標簽的內容冗余,也會影響用戶對UGC推薦系統的體驗。所以標簽清理工作顯得尤其重要。

二、相關工作

目前對于清理標簽所做的研究,有一定的成果。趙亞楠等針對標簽的冗余問題,提出通過計算標簽之間的相似度,來消除同義詞,也有其他學者通過利用IDF值清除冷僻標簽,或者通過計算詞頻將高頻的停止詞進行清理。雖然解決了標簽冗余問題,但是有些標簽與用戶興趣不相符的問題依然存在。本文的主要工作就是要提出一種新的計算方法來篩選不符合用戶興趣的標簽。

三、標簽清理方法

(一)基本假設

(1)用戶不能使用重復的標簽對同一個物品進行標注。

(2)通過文獻中方法,剔除了冗余標簽和冷僻標簽,所以候選的標簽從使用頻率來說屬于正常標簽。

(3)被候選標簽qi標注的物品集W(qi)的長度是N(W(qi)),如果候選標簽qi的出現的次數最多是t次,則用tN(W(qi))的比值來衡量候選標簽qi與用戶興趣的匹配度,tN(W(qi))的值與匹配度成正比例。

(二)說明

現在對假設(3)進行說明,根據假設(2),候選標簽qi的使用次數是正常,意味著對該物品集進行標簽的人數屬于正常范圍。N個物品都被標簽qi標注過,意味著至少有N人都知道標簽qi。標簽qi越符合用戶興趣,那么N個人越會對標簽qi屬性最明顯的電影進行標注,從而qi的次數會接近N,因此可以用tN的比值來衡量匹配度。舉一個例子,100部電影都被標注為“武俠”,基于假設(1),意味著有100個用戶看過“武俠”的電影,如果100個用戶都對“武俠”感興趣,則他們一定會去看最經典的“武俠”電影,因此最經典的“武俠”電影的次數就會達到100次。也就是說“武俠”標簽出現的次數與電影的數量是成正比的。相反,100部電影都被標注為“不好笑”,基于假設(1),意味著100個用戶看過自己評價為“不好笑”的電影,因為對“不好笑”不感興趣,所以就不會選擇去看類似的電影,從而,被標注“不好笑的”電影的次數就越少。

四、結論

本文針對UGC標簽推薦系統中標簽質量不高的問題進行了研究,提出了清空標簽的數學模型,建立了篩選的規則。從實驗結果的準確性和召回率的比率來看,該方法一定程度上達到了提高標簽質量的目的。(作者單位:吉首大學張家界學院)

參考文獻:

[1]項亮.推薦系統實踐[M].北京:人民郵電出版社,2012.

[2]JiaweiHan,Micheline Kamber 范明,孟小峰等譯.數據挖掘概念與技術[M].北京:機械工業出版社,2001.

[3]趙亞楠,董晶,董佳梁.基于社會化標注的博客標簽推薦方法照[J].計算機工程與設計,2012,33(12):4609-4614.

[4]http://www.douban.com/

[5]CHAKPABORTY B. Integrating awareness in user oriented route recommendation system[A].CHAKRABORTY B.The International Joint Conference on Neural Networks[C].New Jersey:IEEE Press,2012.1-5.

[6]張斌,張引,高克寧,郭朋偉,孫達明.融合關系與內容分析的社會標簽推薦[J].軟件學報,2012,3(3):477-450.

猜你喜歡
推薦系統
基于用戶偏好的信任網絡隨機游走推薦模型
基于Mahout分布式協同過濾推薦算法分析與實現
基于Baseline SVD主動學習算法的推薦系統
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合