?

基于Logistic回歸模型的微博情感分析研究?

2018-09-28 02:30馮軍軍王海沛賀曉春
計算機與數字工程 2018年9期
關鍵詞:回歸系數博文分類器

馮軍軍 王海沛 賀曉春

(四川信息職業技術學院 廣元 628017)

1 引言

近幾年,微博因其在信息溝通方面給予用戶自由性和快捷性,使其作為一種社交網絡平臺脫穎而出[1]。廣大微博用戶樂于通過該平臺表達自己對某些社會事件的看法和態度,釋放情感訴求,這些微博內容和相應的評論飽含大量的情感信息和觀點,往往產生巨大的社會輿論效應[2~3]。對微博內容進行情感分析可以了解文本中觀點持有者對事件或對象的情感傾向性態度,而對這些海量的情感傾向性言論進行數據挖掘有助于政府監測輿情、了解民意、引導輿論等[4]。

目前,由于中文微博表達方式多樣化且不規范程度很高,對中文微博文本的情感分析研究比較少,主要集中于基于機器學習的情感分析方法和基于情感詞典的機器學習方法[5~10]。本文提出了基于Logistic[11~13]回歸算法的中文微博情感分類方法,結合微博自身特點,選取了某些熱門事件的微博及其評論內容作為研究對象,首先對其進行文本預處理,將經過處理后的微博文本進行人工情感類別標記,然后基于多元情感詞典抽取微博的情感特征詞和使用布爾權值方法計算情感特征權重值,導入到Logistic回歸模型,經過訓練后得到LR(Logistic Regression)分類器,用它來預測未知類別的微博文本的情感極性。

2 相關工作

2.1 基于情感分析的微博文本預處理

通過對微博特點進行分析,發現其形式上類似于BBS論壇“首帖+跟帖”,“主貼”情感色彩很淡,多為客觀性陳述?!案倍酁樵u論性內容,情感色彩多樣,褒貶不一。微博“跟帖”內容特點如下:1)評論內容較短,不足140個字符;2)內容隨意,經常出現與微博“主貼”無關的內容;3)評論內容多情感符號;4)評價主題不明確,易發散;5)評論內容多重復;6)評論內容錯別字、俚語、網絡新詞匯等出現的頻率較高。

以新浪微博為例,本文選取了某些熱門主題的微博及其評論內容作為研究對象,將其用向量空間模型進行表示,便于計算機理解和處理。向量空間模型將微博文本抽象成一個向量Vi,Vi={F1,F2,…Fn},其中Fi表示微博文本的情感特征,Wi={W1,W2,…Wn}依次對應微博情感特征詞的權重值。在對這些微博文本進行情感分析之前,需要對其進行文本預處理。微博文本的預處理步驟包括:微博數據清洗、內容去重、中文分詞、停用詞過濾,評價對象抽取等步驟。1)微博內容的無關標如“@”、“//@”標簽及其后面的內容,“#”與“#之間的內容及符號”需要被過濾掉,而對于表情符號則需要保留;2)情感評價對象抽取,經過中文分詞、詞性標注后,對微博“首貼”出現的某些專有名詞等進行提取,如機構名、團體名等。一般評價對象的個數一般不會超過三個。

2.2 微博情感特征提取

微博情感特征提取是指抽取描述微博情感最好的特征的過程,這樣做的好處是消除與情感無關或情感關聯程度較小的特征詞,減少不必要的干擾,達到去噪的目的,同時也能有效地降低經過中文分詞后的微博文本特征空間的維數,提高微博情感分類的正確率。本文采用基于多元情感詞典的方法抽取微博中情感特征詞。為了提高算法的效率,對情感詞典采用哈希存儲的方式,便于快速查找,減少時間空間算法復雜度。

1)基礎情感字典

目前的基礎情感字典有臺灣大學NTUSD整理并發布的簡體中文情感字典,知網(HowNet)提供的情感詞庫和大連理工大學信息檢索實驗室發布的情感詞匯本體庫,它們都提供了許多情感詞。本文使用了知網(HowNet)的情感詞匯本體,共有8936個情感詞匯,其中正向情感詞4566個,負向情感詞 4370 個,如“高興”、“感激”、“樂滋滋”等正向情感詞匯和“卑鄙”、“悲觀”、“吃錯藥”等負向情感詞匯??紤]到微博上經常出現一些流行網絡詞匯,如“萌噠噠”、“醉了”、“心塞”、“就是這么任性”等情感詞匯,在前人總結基礎之上,加入了近年新出現的網絡情感詞匯。

2)標點符號詞典

微博中的標點符號有時候不僅起到斷句的作用,而且有時候可以表達情感的強弱程度,如“?。?!”、“?”等。

3)表情符號詞典

通過對用戶發布微博的行為習慣進行研究、統計發現用戶經常在發布的微博內容加入微博表情符號,來表達某種情感。這種表情符號具有情感表達直觀、簡單等特點,因此在對微博進行情感分析的時候,尤其是在微博預處理階段,對這些表情符號往往不能忽略。

2.3 微博情感特征權重計算

通過對微博文本的情感特點進行分析,發現微博內容中出現的情感詞的次數并不影響微博的情感極性,對于這些情感特征采用 TFIDF[14]、IG[15]等方法計算權重意義不大,本文采用布爾權值計算方法,對于出現的情感特征詞標記為1,未出現的情感特征詞標記為0。

綜上所述,本文將微博情感抽取與權重計算的步驟作出如下說明:1)微博文本集進行預處理,輸出具有高維度的特征空間,需要對其進行降維處理;2)依據多元情感詞典保留特征空間的情感特征,這樣做的目的是突出微博文本的情感特征;3)步驟2)完成之后,將形成文本的情感特征空間,此時可以對每條微博文本進行布爾權重計算,結果形成了該微博文本的情感特征表示。

2.4 Logistic回歸

經過文本處理步驟后得到微博及其評論的情感向量表示,經過人工交叉情感標記后,可以作為情感分類器的訓練和測試數據。本文采用Logistic回歸模型構建微博文本情感分類器,Logistic算法屬于最優化算法,它能將一些具有類別信息數據點,通過用直線或曲線將這些類別不同的數據點進行擬合,這個擬合過程叫回歸。為了實現Logistic回歸,需要根據現有的數據,構建分類邊界回歸公式,不斷進行參數訓練,找到最佳的擬合參數,得到LR(Logistic Regression)分類器,最后用它來實現未知類別微博文本的情感分類。

2.4.1 Sigmoid函數的分類

對于人工標記好的微博,首先判斷該微博是否為主觀微博,如果不是,則是客觀微博,那么其情感極性為中性,反之則為主觀微搏,這時候需要判斷其情感極性,是否是正向情感或者負向情感,這是一個二分類問題,要求存在這樣的函數且函數輸出的結果只能為0和1。Sigmoid函數能夠在跳躍點從0瞬間跳躍到1,其計算式(1)如下:

圖1給出了Sigmoid的函數曲線圖。從圖中可以看到,當x為0時,函數值為0.5,隨著x的增大,函數值趨近于1;隨著x的減少,函數值趨近于0。

圖1 Sigmoid函數圖

2.4.2 基于改進的上升梯度算法確定最佳回歸系數

對分類邊界建立回歸公式,具體如式(2)所示。其中X表示特征,W表示回歸系數,對每一個特征乘以回歸系數,然后所有值相加得到Z值,然后將其帶入到式(1),此時σ(z)的取值范圍介于0到1之間,對σ(z)大于0.5,劃歸為“1”類,σ(z)小于0.5,則劃歸到“0”類。

上式也可以用向量的形式表示,如式(3)所示:

它表示將這兩個向量對應元素相乘后然后全部加起來,即得到Z值。其中向量X表示特征向量,向量W表示回歸系數,為了使分類器的精度盡可能高,在分析梯度上升算法的基礎上,發現上述算法在每次更新回歸系數W時都需要遍歷整個數據集,如果特征個數不多,那么對結果沒有多大影響,但是本文涉及微博文本情感特征空間維度較大時,該方法的計算復雜度就高了,采取隨機梯度上升算法解決這個問題,改進的方法是一次僅用一個樣本點來更新回歸系數。

本文選擇隨機梯度算法作為最優化算法,其偽代碼如下:

隨機回歸系數初始化為l對數據集中每個樣本

計算該樣本的梯度

使用alpha*gradient更新回歸系數值返回回歸系數值

3 實驗設計

3.1 微博語料的人工標注

微博正向情感是指通過微博表達對特定事務或對象所持有積極的、正面的評價和態度,具有主觀性。微博負向情感是指通過微博表達對特定事務或對象所持有的消極的、負面的評價和態度,具有主觀性。微博中性情感是指通過微博表達對特定事務或對象所持有的客觀評論,是基于對事實的陳述,情感色彩平淡。因此本文對主觀微博的人工情感極性標注基于“評價對象+情感極性”形式,對于客觀微博的人工情感極性標注只需確定該微博是否為帶有客觀性。經過人工標記后的訓練及評測的數據以XML格式存儲,表1是人工標注數據標簽的名稱和含義。

表1 人工標注數據標簽的名稱和含義

@廣州公安通報2014年5月6日廣州火車站砍人事件評論內容為例,對部分評論進行人工情感極性標注,如表2。

表2 微博情感極性分類示例

3.2 微博語料數據集

本文針對熱門主題的微博,利用微博信息采集器從新浪微博網站采集了相關熱門事件的微博內容及其評論內容,采集的數據來源[16]于近幾年十大熱門事件:十堰法官毆打女醫生事件、上海外灘踩踏事件、亞航航班中國游客不文明事件、黑龍江訥河監獄在押犯人微信詐騙事件、湖南湘潭產婦死亡事件、中央加強反腐力度、姚貝娜眼角膜捐獻、習總書記現身魯甸災區、慰問災民情況、國家公祭日學子知與行、柴靜霧霾調查。采集不同的熱門微博及其評論內容不僅避免了實驗結果依賴于特定的領域,而且方便進行人工交叉情感類別標記。在微博數據采集的過程中,需要注意以下兩點:1)需要對某些評論內容的回復進行過濾,原因在于評論內容的回復會引申出多種評價對象,造成“情感漂移”,這顯然與微博首貼內容的評價對象相背離;2)對于新浪微博某些熱門事件的評論,往往選取前1000條獲得“贊”的數量最多的評論內容,原因在于對這些評論內容其它微博用戶與其情感傾向相吻合,認同感較為強烈。

微博數據采集完成之后,按照前文描述的方法,對微博文本進行預處理,抽取微博文本情感特征并計算其權重值,然后獲取評價對象,主要針對微博事件本身和微博“首帖”出現的人物名、機構名等,對于微博內容出現的評價對象可以通過中文分詞和詞性標注獲取,最后對其進行人工交叉情感標記。完成后統計表明,微博內容及其評論總共5000條,分為十類,每類500條,其中訓練語料4000條,評測語料1000條,經過人工交叉(多人交叉進行情感標注)情感類別標記后,相關統計如表3所示。

表3 十大熱門微博評論的相關統計

其中EID表示熱門事件(Event)ID,EN表示微博事件名稱,RN表示評論(Peply)數量,Obj表示評價對象(Object),PN表示某一評價對象情感極性值為正向(Positive)的評論數量,NN表示某一評價對象情感極性值為負向(Negtive)的數量,CN對某一評價獨享情感極值為中性(Central)的數量。

3.3 基于Logistic回歸模型的微博情感分析實現

基于Logistic回歸算法的微博情感分析的具體實現過程如圖2所示。

結合圖2,對基于Logistic回歸算法的微博情感分析算法做出如下說明:

輸入:微博語料集(微博訓練集MTS+微博測試集MDS)

輸出:MDS情感類別

算法步驟:

1)對微博采集器采集的微博數據集進行文本預處理,包括數據清洗、中文分詞、詞性標注、停用詞過濾、情感對象提??;

2)利用第2節的基于多元情感詞典的特征提取和情感特征權重計算;

3)對經過步驟2)處理后的微博文本進行人工情感分類標注,最后整理成統一的數據格式;

4)將經過標記的微博語料分為微博訓練集MTS和微博測試集MDS;

5)導入到Logistic回歸模型,選擇隨機梯度優化算法,訓練得到擬合參數;

6)對待分類微博測試集MDS利用訓練后的Logistic回歸模型實現微博情感極性分類;

7)對MDS的情感分類結果進行評測。

圖2 基于Logistics回歸算法微博情感分類流程圖

4 實驗分析

4.1 微博情感分類評測指標

Logistic回歸算法作為機器學習算法中的一種,通常只提供微博語料庫80%數據作為訓練集,值得注意的是,需要隨機選擇20%的測試數據作為測試集去測試分類器的準確率。經過人工情感標記的微博內容及其評論并沒有按照特定目的排序,所以對于隨機選擇的測試集并不影響分類器最終的性能。本文將分類精確率(precision Rate)、召喚率(eRcall Rate)和F值作為情感分類效果衡量指標[17~19]。

本次試驗采用準確率P(Precision rate),它表示正確分類微博文本的數目A與分析錯誤的微博文本數B和分析正確微博數目A之和的比值,如式(4)所示。對于召喚率R(Recall rate),它表示分析正確微博文本的數目A與整個測試語料集數量的比值,如式(5)所示。

其中C表示分析錯誤的微博數目或未被劃分的微博數目的之和,其中A+C表示整個測試語料集。本文同時引入F值,它表示準確率P和召喚率R的加權幾何平均值,可以對二者做一個平衡的均值估計,如式(6)所示。

4.2 實驗結果

本文采用的Logistic回歸模型進行微博情感分類,選擇的情感特征空間的大小為1200,隨機梯度上升算法采用步長a為0.001,設定迭代的次數為500,最后得到的結果如表4所示。

表4 Logistics回歸模型對微博情感分類的識別結果

通過表4可以看出將Logistic回歸模型應用于微博的情感分析,F值最高可以達到93.4%,同時準確率和召喚率也都較高,實驗結果表明采用Logistic回歸模型方法在中文微博情感分類上具有很好的分類效果。

5 結語

本文提出了基于Logistic回歸模型的中文微博情感分類方法。首先,分析微博自身特點,選取了某些熱門事件的微博及其評論內容作為研究對象,在傳統文本分析的基礎上,對其進行文本預處理,將經過處理后的微博文本進行人工情感類別標記,得到人工情感語料庫;其次,利用多元情感詞典抽取微博的情感特征詞和使用布爾權值方法計算情感特征權重值,構建微博文本的情感特征表示;然后將訓練本導入到Logistic回歸模型,經過訓練后得到LR情感分類器,最后將測試樣本輸入到LR分類器中進行情感分類,實驗及評測結果表示。實驗結果分析表明,本文所提出的Logistic回歸模型能夠有效地對中文微博文本進行情感分類。

猜你喜歡
回歸系數博文分類器
學貫中西(6):闡述ML分類器的工作流程
第一次掙錢
基于樸素Bayes組合的簡易集成分類器①
一種自適應子融合集成多分類器方法
誰和誰好
基于生產函數模型的地區經濟發展影響因素分析
電導法協同Logistic方程進行6種蘋果砧木抗寒性的比較
電導法協同Logistic方程進行6種蘋果砧木抗寒性的比較
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
淺談多分類器動態集成技術
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合