?

基于KNN和Bayes算法的組合分類器的垃圾評論識別研究

2016-04-08 10:11梁曌陳思宇梁小林康欣
經濟數學 2016年1期
關鍵詞:互信息

梁曌 陳思宇 梁小林 康欣

摘 要 產品垃圾評論在一定程度上影響了評論信息的參考價值,本文旨在建立識別模型將垃圾評論從評論文本中剔除,保留真實的產品評論。首先,分析了產品評論的特點,從數據搜集、文本預處理、互信息檢驗、文本表示4個模塊提取了14個特征。然后,利用高互補性建立了基于KNN和Bayes算法的組合分類器模型。最后,利用交叉驗證對iPhone 6 Plus的產品評論進行檢驗,得到評價指標分別為:正確識別率75.3%、召回率82.1%以及F1值77.5%.

關鍵詞 KNN算法;Bayes算法;組合分類器;互信息;交叉驗證

中圖分類號 O213;TP18 文獻標識碼 A

1 引 言

電子商務的異軍突起促使網購走進人們的日常生活,網購的同時,多數網民會在不受約束的情況下對相關產品發表評論,而這種隨意性往往使得這些產品評論中充斥了大量無用的、不真實的信息,這些信息就是垃圾評論.垃圾評論在一定程度上影響了評論信息的參考價值,從而誤導潛在消費者并干擾銷售商對銷售業績的評價.產品垃圾評論的識別旨在解決這一問題,將垃圾評論從評論文本中剔除,保留真實的產品評論,為用戶提供可靠的參考依據.

結合近幾年垃圾評論識別的文獻可知,垃圾評論識別的關鍵問題是文本特征的提取與分類算法的選擇.N Nitin Jamal和Bing Liu等[1]首次對垃圾評論進行了分類,很好地識別了英文領域中存在的無用評論,但由于中英文之間存在差異,往往英文領域的垃圾識別方法不能直接有效地應用到中文領域當中.游貴榮等[2]提出了中文垃圾評論的特征提取方法,邱云飛等[3]、吳敏等[4]、李霄等[5]分別從用戶行為、產品特征的顯著性檢驗以及信息的有用性角度對垃圾評論的識別進行了研究,但在分類器的選取上,上述學者均采用單一算法的分類模型,如單一的Logistic回歸算法等.大量的理論與實驗結果表明,多分類器系統不但可以提高分類的正確率,而且可以提高識別系統的泛化能力和魯棒性.與此同時所有分類器都參與集成的效果并非最好,從眾多分類器中選擇部分互補性強的分類器進行集成可以提高集成的效率并改善其效果[6].因此本文在建立文本特征表示模型的基礎上,提出了用高互補性組合分類器對評論進行識別和過濾.

2 文本特征的提取

2.1 產品評論的特點與垃圾評論的分類

為了更準確地識別垃圾評論,首先探討產品評論的特征.

通過對中文產品評論中的評論文本進行分析,總結出中文產品評論領域的特點主要體現在以下幾個方面:

1)評論文本格式自由多樣;

2)評價對象的多樣化;

3)評論內容具有近似重復性;

可分為①由不同評論者針對同一產品發表的近似重復評論;②由同一評論者針對不同產品發表的近似重復評論;③由不同評論者針對不同產品發表的近似重復評論;

4)不真實評論;

5)廣告;

6)不帶有感情色彩的隨機文本.

基于以上分析,將垃圾評論定義為以下5種類型:-

1)非指定產品的評論:該類評論的特點為它雖然是評論,但只對品牌和制造商,甚至是站點評論,而沒有針對當前產品本身進行評論,或者確實是對產品進行了評論,但是評錯了產品.如在蘋果手機的評論中,“買SONYZ3也不錯啊,很漂亮,旗艦機...”等

2)虛假評論:如“我這有全新的iPhone6 Plus,只要99元”等.

3)廣告評論:如“蘋果超愛大屏幕3 500元拿現貨QQ熱購122929079”

4)無意義文本:

①個人的消費經歷,如“再爛都永遠有人瘋搶,飄揚過海甚至成為一部手機,實在不懂.”②人身攻擊,如“用蘋果的都是腦殘”等,③其他無關文本,如“信號不好等”“轉給我唄?”

5)咨詢性評論:只是詢問關于產品的情況,而不是評論.如“多少錢呢?”.

2.2 特征提取與量化

為了建立產品垃圾評論識別模型,根據2.1節的分析結果,分4個模塊對產品評論文本進行特征提取與量化.

模塊一 數據的搜集

本文采用WebHarvest網絡爬蟲對京東商城和天貓商城內多個商家的iPhone 6 Plus的產品評論進行爬取,得到由兩萬條產品評論組成的數據集A0,同時對蘋果官網上關于iPhone 6 Plus的產品參數進行爬取,得到產品屬性數據集B0.

模塊二 對爬取的數據集進行預處理

1)構造用戶詞典.用戶詞典包括停用詞詞典、極性詞詞典,其中極性詞詞典主要是由HowNet極性詞加上一些評論作者常用的、和表達情感有關的網絡流行詞,及一些口語化的詞語與縮寫組成,用以表達用戶褒貶傾向和感情色彩.停用詞詞典由網絡上現有的停用詞詞表加上針對垃圾評論特性的停用詞組成[7-9].

2)文本分詞.中文單詞是評論信息處理的基礎,分詞工具采用中科院提供的分詞工具ICTCLAS 2015分詞系統[10],其主要功能包括中文分詞、詞性標注,同時允許用戶向系統中導入自定義詞典以提高特定領域的分詞效果,因此,將上述用戶詞典與產品屬性數據集B0作為自定義詞典導入ICTCLAS分詞系統后,對數據集進行逐條分詞、詞性標注以及情感詞標注,得到預處理后的數據集A.

模塊三 特征的互信息檢驗

為了選取最能表達文本信息內容的特征,本文從被評論的商品、評論者、文本結構、情感傾向、主題詞五個屬性提取特征,在提取特征之前,先利用互信息說明這5個屬性對識別垃圾評論具有顯著相關性.-

互信息是2個事件集合之間的相關性,通常用來衡量某個屬性和類別之間的統計獨立關系,互信息量越大,代表特征項與類別之間的貢獻概率也越大.現對所選特征進行互信息檢驗,旨在說明所選屬性能在一定程度上反應該條評論的信息,即所選屬性項是互信息量較大的詞條,互信息(MI)定義如下endprint

2)高互補性分類器

高互補性分類器組合的構建流程大致為:首先構造一定數量的候選分類器如Bayes分類器、KNN分類器、SVM分類器和logistics回歸分類器等,計算分類器之間的相關程度,然后根據相關系數對候選分類器進行排序,并依據可信度,選擇出對目標有較高識別率的分類器組合.

首先,驗證單一算法分類器的局限性.利用數學軟件MATLAB,對其進行基于多層BP網絡的識別模式的標記,對上述四種分類器用SPSS比較其準確率,召回率以及Fmeasure值.得表2.由表2,垃圾評論識別的準確率相對偏低,不少數量的正常評論被識別為垃圾評論;其召回率也不高,直觀來看是有些垃圾評論被判別為正常評論.可見單一分類算法的過濾效果并不理想,本質原因是分詞的不準確性使得評論文本特征有限的缺點充分暴露,以致于對結果的準確性產生很大影響,而且Bayes分類器要求各個特征項之間相互獨立,這顯然于現實不符.同時也從側面說明單一算法的分類器對數據量要求很大,需要對較為完備的訓練集特征進行學習[6].

為了更準確地進行垃圾評論識別,本文對各分類器進行組合,得到高互補性分類器.根據高互補性分類器組合理論,利用相關系數對上述4種分類器的互補性進行分析,即相關系數大的分類器組合互補性弱,相關系數小的分類器組合互補性強.

利用SPSS軟件對其進行相關分析,見表3.

由表3,相關系數的大小排序為:

SVM+Bayes>SVM+KNN>Bayes+LR> LR+KNN>LR + SVM>Bayes+KNN.

其對偶命題互補性排序為:

SVM+Bayes

LR+KNN

可見Bayes分類器和KNN分類器的相關性最低且顯著性均大于0.01,即可認為他們之間的互補性最強,存在統計學意義.而SVM分類器和Bayes分類器的相似度較高,且顯著性大于0.01,認為存在統計學意義.為了進一步驗證這4種分類器的互補性,對這6個組合進行聚類檢驗.

用SPSS軟件對其進行聚類分析,結果見表4

由上可知,互補性最強的組合分類器為Bayes+KNN分類器.

3.4 模型的交叉驗證

本文利用WebHarvest爬蟲從天貓和京東商城爬取了20 000條評論作為原始數據集A0,將構建好的用戶詞典與產品屬性數據集B0導入ICTCLAS 2015分詞系統后,得到預處理數據集A,對A中的每個數據類型進行人工標記,再隨機地將其等分成4份得到A1、A2、A3、A4.

先以數據集A1為檢驗集,A2,A3,A4為訓練集,計算模型的性能指標.首先將數據集A2,A3,A4的特征向量導入Bayes+KNN組合分類器對其進行訓練,然后將檢驗集A1的特征向量導入到已訓練好的分類器中,得出檢驗集中相應評論是非垃圾評論還是垃圾評論,最后根據分類器對每條評論判定的結果以及人工標記,計算該訓練集和檢驗集組合下,分類器的性能指標.用同樣的方法得到依次以A2、A3、A4為檢驗集的分類器的性能指標,相關結果見表5.-將上述3個評價值平均得,基于KNN算法和Bayes算法的垃圾評論識別模型的最終準確率達到75.3%,召回率為82.1%,F1值為77.5%,結果較為理想,有應用價值.

4 結束語

垃圾評論識別的關鍵問題是文本特征的提取與分類算法的選擇.本文根據中文評論的特點提取了14個特征,并利用組合分類器算法對垃圾評論進行了識別,得到了較理想的結果.通過搭建基于Hadoop的大數據平臺集群,本模型可推廣到一個基于通過海量數據集進行訓練的垃圾評論問題,從而實現此模型適用于更一般產品的垃圾評論的檢測目標.-

參考文獻

[1] N JINDAL, B LIU.Opinion spam and analysis[C]//Proceedings of the first ACM international conference on Web search and data mining,2008:219-229.

[2] 游貴榮,吳為,錢沄濤.電子商務中垃圾評論檢測的特征提取方法[J].情報分析與研究.2014,251(10):93-100.

[3] 邱云飛,王建坤,邵良彬等.基于用戶行為的產品垃圾評論者監測研究[J].計算機工程.2012,38(11):254-257,261.

[4] 吳敏,何瓏.融合多特征的產品評論識別[J].微型機與應用.2012,31(22):85-87.

[5] 李霄,丁晟春.垃圾商品評論信息的識別研究[J].現代圖書情報技術.2013,29(1):63-68.

[6] H J KANG,D DOERMANN.Selection of classifiers for the construction of multiple classifier systems[C]//Proceedings of the 8th- international conference on Document Analysis and Recognition. Seoul, Korea, 2005,1194-1198.

[7] 知網[DB/OL].HowNet Knowledge Database[DB/OL].[2013-11-05]. http://www.keenage.com/ .

[8] 趙文婧.產品描述詞及情感詞抽取模式的研究[D].北京:北京郵電大學計算機學院,2010.

[9] 顧益軍,樊孝忠,王建華.中文停用詞表的自動選擇[J].北京理工大學學報.2005,25(4):337-340.

[10]ICTCLAS 漢語分詞系統 (ICTCLAS Chinese Lexical Analysis System [CP/OL].[2015-10-05].http://www.ictclas.org/.

[11]C C CHEN, Y D TSENG. Quality evaluation of product reviews using an imformation quality framework[J].Decision Support Systems. 2011, 50(4):755-768.

[12]陳昀,基于數據挖掘技術的產品垃圾評論識別研究[D].保定:河北大學計算機科學與技術學院,2014.

猜你喜歡
互信息
基于改進互信息和鄰接熵的微博新詞發現方法
采用目標區域互信息的星空圖像配準
中國科學家建立量化網絡中直接關聯性的“部分互信息”新方法
基于互信息的貝葉斯網絡結構學習
聯合互信息水下目標特征選擇算法
一種利用點特征和互信息的多源遙感影像配準方法
基于PSO和互信息的小波醫學圖像配準及融合
改進的互信息最小化非線性盲源分離算法
基于增量式互信息的圖像快速匹配方法
基于獨立分量分析和互信息的多諧波源定位
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合