?

基于簡介和評論的標簽推薦方法研究

2015-04-12 11:31褚曉敏王中卿朱巧明周國棟
中文信息學報 2015年6期
關鍵詞:劇情簡介分類器文檔

褚曉敏,王中卿,朱巧明,周國棟

(蘇州大學計算機科學與技術學院,江蘇蘇州215006)

1 引言

Web 2.0時代,人們很容易為各種在線資源標注標簽,由此誕生了眾多的標簽推薦系統,如Folksonomy、Delicious等。社會標簽作為信息資源的組織方式,越來越受到網絡用戶的歡迎,人們已經習慣于使用標簽來定位、收集和共享在線資源,例如網頁、照片、視頻、電影、書籍等。

并不是所有網站都提供針對實體資源的標簽或標簽推薦,因此自動標簽推薦是一個十分重要的任務,通常自動標簽推薦是指通過考察、分析、挖掘信息資源的內容和用戶的歷史標注以及顯式或隱式的關系為未標注信息資源提供高質量的候選標簽。標簽推薦的目的是:1)簡化標注活動,為用戶提供方便,并增加標簽的可用性和粘性;2)提高標簽質量,降低錯拼、歧義等情況,提高標簽在信息資源組織、檢索、利用和發現中的作用;3)改變標簽空間的結構,使標簽空間更快的穩定和收斂。

通常標簽推薦只是使用一種信息進行推薦,最常用的就是各類簡介,相對于評論、討論等信息,簡介是對實體或資源內容或屬性的描述,一般來說更客觀。但事實上,實體或資源,比如電影,存在多種類型的信息,如短評、影評、問答、討論等,每一類信息都能反映電影一方面的信息,如短評、影評等能夠反映用戶對一部電影的主觀評價,因此結合多方面的信息進行標簽推薦能夠獲得更好的推薦效果。

在本文中,我們主要研究利用電影的劇情簡介和短評信息進行標簽推薦,并基于各種信息的推薦結果進行多種方法的融合,以提高推薦效果。實驗結果表明利用不同種類的信息能夠有效的提高標簽推薦的準確率和有效性。

以下各章節組織如下:第一章節介紹標簽推薦的相關工作,第二章節介紹本文的數據收集和統計情況,第三章節介紹本文的研究內容和使用的研究方法,第四章節介紹實驗設置和相關結果,第五章節總結本文內容以及對下一步工作做初步計劃。

2 相關工作

在標簽推薦系統中,任何用戶都具有開放參與的特性,均可用自定義標簽標注資源;在鋪天蓋地的信息資源中用戶可以通過標簽更方便和準確的定位、查找和共享資源。標簽推薦系統根據資源內容、用戶信息、已有標簽,自動提供一些與資源內容相關或者用戶感興趣的標簽供用戶選擇,大大減少用戶標注所需時間,進而改善用戶體驗。目前,社會標簽已經廣泛地被研究,并成功地應用在標簽推薦[1-3]、趨勢預測和跟蹤[4]、個性化[5]、廣告推送[6]等系統中。標簽推薦的方法可以分為兩大類,即基于內容(content-based)的標簽推薦和基于協同過濾(CF-based)的標簽推薦。這兩類方法各自利用了標簽推薦問題中不同來源的信息來完成標簽推薦任務。

2.1 基于內容的標簽推薦

基于內容的方法是標簽推薦的基本方法,往往與其他方法聯合使用?;趦热莸臉撕炌扑]以文檔的內容為標簽推薦的依據,可使用文檔的細粒度特征和粗粒度特征這兩種主要方式。1)使用文檔的細粒度特征,如詞匯。例如,Ohkura et al[7]用SVM為每個標簽訓練了一個文本分類器,根據文檔內容計算哪個標簽更合理,其研究成果已經應用于基于社會標簽的網頁瀏覽輔助系統中。Mishne et al[8]利用近鄰法(KNN)進行標簽推薦,從文檔集合中選擇與新文檔最相關的K個文檔,將這K個文檔的標簽推薦給新文檔。2)使用文檔的粗粒度特征,如主題。此時不再考慮單個詞匯與標簽之間的關系,而是通過主題模型LDA(Latent Dirichlet Allocation)[9-10],抽取新的文檔與已有標簽的主題特征,找出其相似度,根據相似度推薦標簽。例如,Blei et al[11]提出了一種有監督的主題模型,這種模型是對LDA的一種改進,增加了一個連續變量代表標簽,并在此模型上訓練出最優的參數。Si et al[12]在LDA模型基礎上提出Tag-LDA,基于文檔內容和標簽聯合建模,并取得了比較好的推薦效果。

2.2 基于鏈接的標簽推薦

目前研究最多的標簽推薦技術是基于協同過濾(CF)[13-14]的技術,該方法根據用戶群中其他相似用戶的興趣和愛好推斷用戶可能需要的資源,利用該方法建立標簽推薦系統已經成為一種常見的研究方法[15]?;趨f同過濾的典型做法是基于給定的資源和用戶的標簽歷史進行標簽推薦。例如,Nakamoto et al[16]依據標簽推薦系統中用戶定義標簽習慣的相似程度進行基于模式的協同過濾,通過用戶聚類的方法推薦標簽。Niwa et al[17]、Gemmell et al[18]借鑒了TF-IDF算法,分別依據標簽與資源的緊密度和利用層次聚類法進行標簽聚類。Santos-Neto et al[19]通過構建用戶網絡網,按結構尋找相似團體進行協同過濾推薦。Liu et al[20]提出基于連續條件隨機場的標簽推薦模型進行標簽推薦,在保證條件概率最大的情況下通過訓練得出模型參數,在執行模塊中得出排名分數前十的標簽。FlokRank[21]和矩陣分解[22]是基于CF方法進行社會標簽推薦的代表性方法。這些方法最常見的是冷啟動問題,也就是說如果沒有被標注過,就很難進行有效的標簽推薦。

本文使用基于內容的標簽推薦方法進行電影標簽的研究,在上述的基于內容的標簽推薦方法中,通常只使用了一方面的文本信息,而本文使用了兩類文本信息來進行標簽推薦,以獲得更好的標簽推薦效果。

3 數據統計

3.1 數據收集與統計

本文使用的數據來源于豆瓣網。從互聯網獲取“豆瓣電影”上的電影信息,使用爬蟲工具抓取1 751個電影的數據。通過數據預處理,選擇其中標簽、劇情簡介、短評都齊全的1 634部電影數據,抽取這些電影的標簽、劇情簡介和前20條短評數據進行本文相關實驗。

在我們收集的電影數據中,一共存在2 204個不同的標簽,但是由于大部分標簽出現頻率很低并有部分重復的現象,因此我們選擇使用頻度最高并且不重復的十個標簽,美國、喜劇、愛情、劇情、動畫、科幻、經典、動作、搞笑、香港,并分別使用劇情簡介、短評作為特征內容進行分類器訓練。這十個標簽在數據集中包含標簽的數據量如表1所示。

表1 數據集中包含標簽的數據量

3.2 數據樣例

表2給出了一個具體電影的樣例,包含三方面信息,劇情簡介、標簽(標簽后面括號內的數字為標記此種標簽的用戶數)和短評。從樣例中我們可以看出,標簽簡明地指明了資源的主要內容、特點以及用戶的興趣點。針對樣例《被解救的姜戈》,標簽“黑色幽默”表明了電影的主要特點,標簽“美國”表明了電影的發行方或故事的主要發生地點,標簽“西部”、“暴力”、“動作”則讓觀眾了解到該部電影的主要題材和類型。劇情簡介摘要性地說明了電影的發生背景和主要內容,以描述性文字為主,短評則是針對電影的評論,評論可能是針對內容的,針對編劇或導演的,針對電影演員的,針對場面和特技的,甚至是純粹的吐槽,以評論性文字為主。所列舉的標簽中,“美國”、“暴力”、“動作”這些標簽可以從劇情簡介中獲得,而“暴力”、“西部”、“西部片”則可以從電影的短評中獲得相關信息。因此劇情簡介和短評體現了不同類型的信息,并且都可以作為標簽推薦的基礎。

表2 電影信息樣例

4 基于簡介和評論的電影標簽推薦

為了融合簡介和評論兩方面的信息進行電影標簽推薦,我們將推薦任務轉化為分類任務,抽取簡介和評論文本的單詞作為特征,使用SVM構建基分類器,并使用不同的方法進行分類器融合。整體研究框架主要步驟包括:1)從互聯網上獲取批量的電影數據;2)分析網頁獲取標簽,簡介文本,評論文本等信息;3)對原始數據進行預處理,包括數據選擇、分詞等;4)訓練劇情簡介、短評這兩個基分類器;5)進行分類器融合,采用直接融合、投票規則和加法規則等策略;6)分析比較實驗結果。具體的研究框架和流程如圖1所示。

對于數據預處理的過程,我們選擇了劇情簡介和短評信息都完備的數據樣本,使用復旦的分詞工具①http://code.google.com/p/fudannlp/進行分詞處理,做好數據準備和預處理后再進行分類器的訓練和融合。

圖1 整體研究框架

我們把推薦問題轉化為分類問題,為每個標簽建立一個分類器,根據包含標簽的數量進行正負樣本數據的選擇和整理,如果樣本包含標簽則歸入正類樣本,不包含則歸入負類樣本,因為正類樣本數量較少,我們通過欠采樣策略使樣本保持平衡。

為了融合基于不同信息的基分類器的結果,我們提出了多種策略進行融合,具體包括直接融合、投票規則、加法規則等[23]。為了描述我們的分類器融合算法,我們先進行如下形式化定義:

R是分類器ck(k=1,...,R )中的元素,每個分類器作為樣本輸入(以xk來表示)標簽Lk(Lk=w1,…,wm)。假設分類器ck的輸出度量值,代表后驗概率向量,如式(1)所示。

其中p(wi|xk)表示x標記為wi的概率。

1)直接融合

直接融合時,我們將劇情簡介和短評這兩方面文本信息進行文本組合后作為一個特征送入分類器,進行分類訓練,其分類結果也作為基分類器參與其他融合方法。

2)投票規則

將簡介、短評、直接融合三種方法訓練出來的基分類器作為輸入,包含標簽時投1票,不包含標簽時投0票,投票結果大于等于2則表示測試樣本包含測試標簽,否則不包含測試標簽。應用投票(Vote)規則時如式(2)所示。

3)加法規則

將簡介、短評、直接融合三種方法訓練出來的基分類器作為輸入,正值概率和負值概率分別相加,如果正值概率和>負值概率和,則測試樣本包含測試標簽,否則不包含測試標簽,如式(3)所示。

5 實驗

5.1 實驗設置

本實驗使用的數據來源于豆瓣電影的電影信息,使用爬蟲工具從互聯網獲取。選擇使用頻度最高的十個標簽,分別使用劇情簡介、短評作為特征內容進行訓練。對抽取的1 751個電影數據,進行預處理,選擇其中劇情簡介和短評齊全的1 634個電影數據,經過次序打亂后重新組織進行本次實驗。整理后訓練集和測試集樣本數量如表3所示。

表3 訓練集和測試集數量

實驗使用復旦大學的NLP工具包FudanNLP(Version 1.5)進行分詞處理。分類算法是支持向量機SVM,使用Joachims的SVM-light工具包中的SVM分類器進行分類訓練。使用簡介與短評的直接融合,投票規則,加法規則分別進行分類器的融合,并將融合結果與單一使用簡介、短評和關鍵詞進行分類的結果進行對比,采用準確率(precision)、召回率(recall)和F值(F-measure)這三個指標對模型推薦結果進行評價。

5.2 實驗結果與分析

實驗結果如表4和圖2所示,Summary表示使用劇情簡介進行標簽推薦,Comments表示使用短評信息進行標簽推薦,Keyword表示使用關鍵詞搜索匹配的方法進行標簽推薦,Sum+Com表示使用劇情簡介和短評信息的直接融合進行標簽推薦,Vote表示使用投票規則融合分類器進行標簽推薦,Summation表示使用加法規則融合分類器進行標簽推薦。

表4 各分類器及融合分類器的準確率、召回率、F1值比較

從表4的結果可以看出,使用直接融合、投票規則、加法規則的方法都比單一使用Summary或Comments的分類方法有較大的提高,F1平均值比Summary分別提高了3.99%,4.00%,3.70%,比Comments分別提高了9.69%,9.70%,9.40%,比Keyword分別提高了31.43%,31.44%,31.14%。從而證明融合兩方面信息比只用一方面信息更有效。

從圖2的結果可以看出,不同的標簽分類結果有一定的差異,表示屬性的名詞類標簽,如“美國”、“愛情”、“動畫”、“科幻”、“動作”、“香港”在Summary中大多已被描述,分類結果良好。而形容詞性的標簽,如“經典”、“搞笑”,在Summary中一般不包含,在短評中卻常被用戶描述,通過Summary與Comments的融合也獲得了比較好的結果。而名詞“劇情”既不表示電影的屬性,也不是對電影的評價,而是電影的二級屬性,在Summary和Comments中被描述的可能性都較低,分類結果低于平均水平。

實驗證明,融合方法對單一的訓練具有更好的性能,可以充分利用Summary和Comments的優勢,對電影標簽進行有效的自動推薦。

圖2 各分類器及融合分類器在不同標簽上的F1值柱狀比較

6 結論和下一步工作

本文提出利用劇情簡介和短評信息各自的優勢,使用劇情簡介和短評的信息進行電影標簽自動推薦。針對劇情簡介和短評的基分類結果,分別使用直接融合、投票規則、加法規則等方法進行分類器融合,實驗結果表明融合后的結果都明顯的好于單一信息進行標簽推薦的方式。下一步計劃進一步探討其他的融合方法的使用,以及利用電影相關的其他信息,如影評、問答、相關電影、相似電影等信息進行標簽推薦的研究。

[1] Eck D,Lamere P,Bertin-Mahieux T,and Green S.Automatic Generation of Social Tags for Music Recommendation[C]//Proceedings of the NIPS.2007,8:385-392.

[2] Yanbe Y,Jatowt A,Nakamura S,and Tanaka K.Can Social Bookmarking Enhance Search in the Web?[C]//Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries.2007:107-116.

[3] Zhou T C,Ma H,Lyu M,and King I.UserRec:A User Recommendation Framework in Social Tagging Systems[C]//Proceedings of the AAAI.2010:1486-1491.

[4] Hotho A,J?schke R,Schmitz C,and Stumme G.Trend detection in folksonomies[M].Semantic Multimedia.Springer Berlin Heidelberg,2006:56-70.

[5] Wetzker R,Zimmermann C,Bauckhage C,and Albayrak S.I tag,you tag:translating tags for advanced user models[C]//Proceedings of the WSDM.2010:71-80.

[6] Mirizzi R,Ragone A,Di Noia T,and Di Sciascio E.Semantic tags generation and retrieval for online advertising[C]//Proceedings of the CIKM.2010:1089-1098.

[7] Ohkura T,Kiyota Y,and Nakagawa H.Browsing System for Weblog Articles based on Automated Folksonomy[C]//Proceedings of the WWW.2006:25-27.

[8] Mishne G.AutoTag:a collaborative approach to automated tag assignment for weblog posts[C]//Proceedings of the WWW.2006:953-954.

[9] Blei D M,Ng A Y,and Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003:993-1022.

[10] Hofmann T.Probabilistic Latent Semantic Indexing[C]//Proceedings of the SIGIR.1999:50-57.

[11] Blei D,and McAuliffe J.Supervised topic models[C]//Proceedings of the NIPS.2008,20:121-128.

[12] Si X,and Sun M.Tag-LDA for Scalable Real-time Tag Recommendation[J].Journal of Computational Information Systems,2009:6(2).

[13] Herlocker J L,Konstan J A,Borchers A,Riedl J.An algorithmic framework for performing collaborative filtering[C]//Proceedings of the SIGIR.1999:230-237.

[14] Herlocker J L,Konstan J A,Terveen L G,and Riedl J.Evaluating collaborative filtering recommender systems[C]//Proceedings of the ACM Transactions on Information Systems(TOIS).2004,22(1):5-53.

[15] Resnick P,and Varian H R.Recommender systems[C]//Proceedings of the Communications of the ACM,1997,40(3):56-58.

[16] Nakamoto R,Nakajima S,Miyazaki J,and Uemura S.Tag-Based Contextual Collaborative Filtering[J].IAENG International Journal of Computer Science,2007,34(2):35-37.

[17] Niwa S,and Honiden S.Web Page Recommender System based on Folksonomy Mining[C]//Proceedings of the Information Technology:New Generations.2006:388-393.

[18] Gemmell J,Shepitsen A,Mobasher B,and Burke R.Personalizing navigation in folksonomies using hierarchical tag clustering[M].Springer Berlin Heidelberg,2008:196-205.

[19] Santos-Neto E,Ripeanu M,and Iamnitchi A.Tracking user attention in collaborative tagging communities[C]//Proceedings of the International ACM/IEEE Workshop on Contextualized Attention Metadata:Personalized Access to Digital Resources,2007.

[20] Liu X,Wang Y,Liu Z,and Xie M.Tag recommendation based on continuous conditional random fields[C]//Proceedings of the Information Management,Innovation Management and Industrial Engineering,2009International Conference on IEEE,2009,3:475-480.

[21] J?schke R,Marinho L,Hotho A,and Schmidt-Thieme L.Tag recommendations in social bookmarking systems[J].Ai Communications,2008,21(4):231-247.

[22] Rendle S,Balby Marinho L,Nanopoulos A,and Schmidt-Thieme L.Learning optimal ranking with tensor factorization for tag recommendation[C]//Proceedings of the KDD.2009:727-736.

[23] Kittler J,Hatef M,Duin R P W,and Matas J.On combining classifiers[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(3):226-239.

猜你喜歡
劇情簡介分類器文檔
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
歌劇《運河謠》的概述
基于特征選擇的SVM選擇性集成學習方法
基于深度優先隨機森林分類器的目標檢測
歌劇《假園丁》中阿敏達音樂形象分析
基于差異性測度的遙感自適應分類器選擇
Word文檔 高效分合有高招
Angry Birds
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合