?

基于多樣化電影推薦的破繭方法

2020-12-29 11:17李穎杰
科學大眾 2020年7期
關鍵詞:信息繭房

李穎杰

摘 要:傳統的協同過濾電影推薦模型由于在計算相似度時考慮因素過于單一,導致推薦方案與用戶之前喜歡的電影類型相似,從而造成信息繭房效應。文章從用戶基本屬性出發,綜合考慮專家評分、熱點推薦兩方面,并結合模擬退火的思想,提出了一種解決信息繭房問題的方法。

關鍵詞:信息繭房;模擬退火;多樣化推薦

傳統的協同過濾電影推薦模型推薦的方案往往會與用戶之前看過的電影類型相似,造成信息繭房,導致繭房效應的根本原因是在計算相似度時考慮途徑過于單一,為了使推薦模型具有多樣性和新穎性,解決信息繭房的問題。具體從以下3個方面進行改進:(1)綜合考慮各用戶的基本屬性以及用戶過往的電影評分記錄去計算余弦相似度。(2)將專家評分與熱點推薦考慮進去。(3)給用戶找鄰居時采用模擬退火思想,從而使得多樣性增加。

1? ? 特征向量的建立

建立新用戶的特征向量,特征向量由四部分組成:用戶的基本屬性、用戶對過往電影的評分、專家推薦對某些電影的評分以及熱點推薦對某些電影的評分。

設新用戶特征向量為:Ai=(x1, x2, ..., xm)老用戶:Bi=(y1,y2,...,ym)

其中,x1, x2,x3, x4分別表示用戶的性別、年齡、職業、郵政編碼。

x5, ..., xm表示對電影的評分。它的數值以如下方式定義。

對所有的(m-5)部電影,用戶評分過的a部電影,專家群評分過的b部電影,熱點推薦評分過的c部電影,這些被評過的電影對應的向量數值即為它得分的數值,其他未被評過的電影對應的向量數值為0。

2? ? 專家評分與熱點推薦

相關指標確立:設用戶U的偏好項目集為Uu,該集包括用戶U所有已評分的項目,用戶U偏好類別C的概率為Cu,c,Cu為用戶U對項目類別的偏好概率集,Cu,c∈Cu,Ii為類別C所屬的所有類別的集合。

對于項目域中的每一個類別都要計算用戶U的偏好概率,最后創建Cu。當某項目只屬于一個類別時,它對該類別貢獻的比例是1,如果項目屬于N個類別,對每一個類別的貢獻度為是。則,我們有:

接下來定義用戶對電影的偏好多樣性程度。我們知道,若用戶對多種類型的電影都進行了評分,則用戶偏好更加多樣化,計算結果越大。若用戶僅對一種或幾種類型的電影評分,則用戶的偏好趨于單調,計算結果越小。于是我們定義用戶偏好多樣化程度:

創建專家群:對每種電影類型,都為它創建一個專家群。我們認為偏好多樣化,評分電影類別比較多的用戶是不可能成為某類別專家的,即Du較大的用戶不能成為專家。我們認為偏好趨于單調,所有的評分都只是對一種或幾種電影類型的用戶對其喜歡的電影類型頗有經驗,能被認定為其評分最多的電影類型的專家,即Du較小的用戶能被認定為專家。專家群的具體創建過程如下:

首先,選擇多樣性值Du低于給定閾值T的用戶,從中為每個電影類型選擇偏好概率Cu最高的用戶作為該類別的專家,(同一用戶可作為多個類型的專家)從而創建出每種類型的專家群。

定義專家評分:電影j的專家評分要考慮過去為電影j評過分的所有專家組成的專家集ESj,從而我們定義專家評分為:

并將所得到的分最高的A項中用戶未評分的電影的得分作為對應向量的值。

專家推薦系統的優勢在于它對用戶沒有評過分的電影進行評價,它產生的推薦方案中,既包括跟用戶的偏好相似的電影,又包括專家推薦的新電影,從而能使推薦方案更加多樣化。而且專家推薦能很大程度上解決信息繭房問題,因為即使用戶沒有評價任何與推薦電影類型相似的電影,如果專家群對其評價很好,它仍然會被推薦給用戶。并且專家群是在某類電影非常有經驗的用戶,他們對某類電影的評分客觀且專業,因此他們在做到個性化、多樣化推薦的同時,能夠保證高質量的專業推薦。

熱點推薦:從3個方面評價熱門電影:在最近M天內的搜索次數p,播放量q以及影評數r。(這里的p,q,r均以通過數據歸一化處理)

定義:某電影的熱度S=s1p+s2q+s3r,并認為權重s1=s2=s3=,并將所得到的分最高的B項中用戶和專家均未評分的電影的得分作為對應向量的值。

熱點推薦產生的推薦方案同樣能對用戶沒有評過分的電影進行評分,這其中既包括跟用戶以往??吹碾娪邦愋?,又包括熱點推薦的新電影,從而能夠做到多樣化推薦,很好地破除信息繭房。因為只要一部電影熱度很高,無論用戶有沒有評分這種類型的電影,都會被推薦給用戶。同時熱點推薦系統主要推薦的電影是當下最火的,或是剛上映的,很符合現在年輕人追求新電影的潮流。

而未被用戶評分,專家推薦和熱點推薦的電影所對應特征向量分量我們均認為是0,這樣,就建立了每個用戶唯一對應的特征向量。

3? ? 基于模擬退火思想的鄰居篩選

通過前文我們確定了每個用戶唯一對應的特征向量,對于給定新用戶1的特征向量A1=X1,X2,...,Xm,我們計算它與每個老用戶特征向量的余弦相似度t1,t2,...tk,其中:

對余弦相似度數據作歸一化處理,使t1,t2,...tk均為0到1之間的數,運用模擬退火的思想,我們認為:

老用戶i與該新用戶1為鄰居的概率:P1=ti,

老用戶i與該新用戶1不為鄰居的概率為:P2=1-ti

按上述規則,可以得到新用戶1的所有鄰居集,我們對每個鄰居對電影的所有評分數據歸一化處理,使每個指標處于相同的數量級。我們采用標準差標準化法,即:

并將歸一化后的所有鄰居評分過的電影中評分最高的X部電影作為推薦方案(X的大小可根據情況確定),由上文可知,這樣的推薦方案能夠很好地解決信息繭房問題,從而實現個性化、多樣化電影推薦。

4? ? 結語

本文產生的電影推薦方案綜合考慮了用戶基本屬性、專家推薦、熱點推薦3個方面,很好地解決了傳統的協同過濾算法帶來的信息繭房問題,實現了電影的個性化推薦。這種思路能推廣到更多的領域中,對解決信息繭房問題有重要的意義。

[參考文獻]

[1]姜書浩,張立毅,張志鑫.基于個性化的多樣性優化推薦算法[J].天津大學學報(自然科學與工程技術版),2018(10):50-57.

[2]翁海瑞.融合時間函數和用戶屬性的推薦算法研究[D].廣州:廣東工業大學,2019.

[3]吳成超.協同過濾推薦算法的動態性研究[D].合肥:中國科學技術大學,2015.

猜你喜歡
信息繭房
淺析基于算法的個性化信息推送服務
新聞客戶端個性化推薦引發的“信息繭房”現象
后真相時代的信息傳受方式與應對路徑
微時代大學生“信息繭房”效應干預
“信息繭房”與高校思想政治教育應對途徑思考
社交媒體時代下新聞產需變化芻議
“信息繭房”禁錮了我們的雙眼
“信息繭房”禁錮了我們的雙眼(觀察家)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合