基于主題相關性和深度學習的文本情感分析

2023-08-05 07:26吉秉彧

信陽師范學院學報（自然科學版） 2023年3期

閔潔,吉秉彧

(信陽農林學院信息工程學院, 河南信陽 464000)

0 引言

互聯網時代背景下,各種電子商務平臺的評論文本數據巨量增長,其中蘊含的情感信息對商家用戶有著非凡的意義和實用價值,如何快速精準地從其中提取有情感的信息,已經成為該領域科學家和學者的研究方向,發展行之有效的理論方法是當下亟待解決的問題,因此,文本情感分析研究具有廣闊的前景和重大意義。

目前,文本情感分析已經廣泛應用于新聞傳媒、文化娛樂、電子商務、語義相似計算等領域[1]。早期的研究中,主要采用聚類算法對文本進行處理來實現特征提取,主題概率統計模型是常用理論方法,其良好的可移植性和優良的性能受到廣大研究者的青睞,所采用的概率統計理論可以挖掘文本中隱含的主題特征,進而將具有相似語義的關鍵詞進行特征歸類。

文獻[2]提出了潛在評級回歸模型(Latent Rating Regression,LRR),使用基于自舉的文本分割算法對文本進行主題特征分割,并構建主題概率統計模型進行情感信息處理,但該方法沒有考慮到文本語義的連貫性。

文獻[3-4]基于 LDA模型(Latent Dirichlet Allocation,LDA)對微博文檔進行建模和主題提取,在此基礎上實現微博用戶劃分和聚類。文獻[5]采用LDA模型對電影評論文本進行情感分析和分類,在得到電影評論主題分布的基礎上,結合TF-IDF方法獲取文本相似度矩陣和評分,進而實現電影聚類和推薦。

主題概率統計模型的應用取得了一定的效果,然而,其所涉及的研究是在主題之間相互獨立的假設下實現的,忽略了文本主題的相關關系,不符合文本表述中主題相互關聯的現實情況,進而使得詞表示存在缺陷,同時也存在數據維度過高、計算復雜等問題。

針對以上問題,相關主題模型(Correlated Topic Model,CTM)[6]實現了對主題特征潛在相關性地挖掘,因此得到了廣為使用?；谠撃Ｐ?文獻[7]提出相關主題模型-概率矩陣分解(Correlated Topic Model and Probabilistic Matrix Factorization,CTM-PMF)模型,在挖掘出沒有評分新物品主題歸類和隱含相關關系基礎上,實現了相關的推薦功能;文獻[8]進行了文本情感分析研究,提出基于主題情感混合的CTM模型(Sentiment and Topic hybrid Correlated Topic Model,STCTM),其實驗結果也驗證了CTM模型在相關性表示方面具有良好的性能。在實際文本表述中,評論內容中所蘊含的主題是相互關聯的,因此基于CTM模型的信息處理和情感分析研究具有一定的應用價值和意義,但以上研究均采用機器學習的方法進行知識表示,無法解決詞表示粒度稀疏的問題。

近年來,深度學習技術取得突破性進展,大量研究基于該技術使用神經網絡構建情感分析模型,解決了傳統機器學習中詞表示粒度稀疏的問題,取得了一些建設性成果。目前,深度學習已經成為文本情感分析的主流研究方法和技術。

文獻[9]中提出了長短期記憶(Long Short-Term Memory,LSTM)神經網絡模型進行情感分析研究,在詞嵌入層使用固定的詞向量進行表示,忽略了詞與詞之間的先后順序,導致情感監測結果存在偏差。而雙向長短期記憶 (Bidirectional Long Short-Term Memory,BiLSTM) 網絡[10]在文本句子表示時,結合當前詞語的前后信息進行建模,更好地捕捉句子的位置信息和語境資源。文獻[11]利用多層感知機抽取情感特征,但該方法在進行特征分割時,忽略了主題相關性對文本詞句的影響,在句子表示中采用的組合矢量模型不能很好地捕獲句子的位置信息,導致無法抽取到更深層次的情感信息。

綜合考慮以上優缺點,本文將基于主題相關性和深度學習理論進行文本情感分析研究,在采用CTM模型獲取文本相關主題信息的基礎上進行文本詞表示,并融合word2vec和BiLSTM模型,來提取文本情感分類信息。

1 基于主題相關性的特征分割算法

綜合考慮以上優缺點,LRR模型[2]是一個半監督主題概率統計模型,采用基于自舉的文本分割算法對在線評論文本進行特征分割,對每個特征首先人工給定一組種子關鍵詞,基于這組初始特征通過卡方統計進行迭代,最后得到評論數據集的特征分割結果。該模型需要人工標注數據集,其精確度過度依賴于相關領域的專業水平,迭代過程中也沒有考慮文本主題特征的相關性。

CTM模型在主題相關性表示方面具有良好的性能,本文采用該模型來獲取文本主題相關信息,提出基于主題相關性的特征分割ASTC(Aspect Segmentation based on Topic Correlation)算法,將主題特征相關性量化后融入深度神經網絡結構中,實現基于主題相關性的文本特征分割。

ASTC算法主要分為兩個步驟:1、使用CTM模型獲取主題相關信息;2、文本特征分割。下面對該算法的處理過程進行詳細描述。

設D={d1,d2, …,dM} 是包含M篇文本的數據集,所涵蓋的k個特征為A={A1,A2, …,Ak},所包含的詞匯集為V={w1,w2, …,wN},V中包括N個互不相同的單詞。

首先,調用R語言中CTM模型的相關工具包對D進行聚類處理,得到主題與單詞之間的相關關系矩陣Q,Q∈Rk×N(k為主題特征個數,N為語料庫詞匯集V中單詞個數);qij∈Q(i=1,…,k;j=1,…,N)表示第j個單詞屬于主題Ai的相關程度。

其次,對D中每篇評論做文本分割:對任意的dm∈D(m=1,…,M),將dm中包含的句子按序排列成句子集

S(dm)={sm1, …,smi, …,sml},

對?smi∈dm(i=1,…,l),對照矩陣Q為smi中單詞匹配相關程度最大值的主題,將匹配到主題Aj(j=1,…,k)下所有單詞對應的相關關系值相加,進而得到smi屬于主題Aj的相關概率值Pij(i=1,…,l;j=1,…,k),取max{Pij}對應的主題為句子smi所屬主題,得到smi對應的主題特征向量

對D中所有文本完成特征分割后,可以得到評論集D中每篇評論di(i=1,…,M)關于特征集A的k個特征的M×k維分割矩陣T:

令wij=tij/ti,則wi=(wi1,…,wij,…,wik)即為評論di的預測特征權重向量,

為整個評論集的預測特征權重向量,αj=(w1j,…,wij,…,wMj)為整個評論集D關于Aj的預測特征權重向量。

2 情感分析神經網絡模型

常用的傳統情感分類存在諸多局限性,具備自動學習特征能力的深度學習在情感分析研究領域中得到越來越多的關注。

情感分析任務中常用的深度神經網絡主要包括多層感知機[12]、卷積神經網絡(Convolutional Neural Network,CNN)[13]和循環神經網絡(Recurrent Neural Network,RNN)[14], 其中RNN因其對文本上下文信息的捕獲能力而成為情感分析的常見研究工具,但RNN在訓練過程中存在梯度爆炸和消失的問題,研究人員提出了LSTM[15],其每個單元使用3個門調節允許進入每個節點狀態的信息量,從而更有效地保持長期依賴,克服了RNN梯度爆炸和消失的問題,BiLSTM是LSTM的進一步延展,可以從文本序列的前后雙向獲取上下文特征[16]。

在基于主題相關性的特征分割基礎上,結合BiLSTM模型,提出基于主題相關性的BiLSTM情感分析模型(BiLSTM-based on Topic Correlation,BiLSTM-TC)。本文的情感分類問題為二元分類,BiLSTM-TC模型主要思想如下:

首先,采用word2vec模型進行文本詞表示,將得到的主題特征向量與目標詞的word2vec詞向量進行交叉拼接,得到預訓練詞向量;接著,使用BiLSTM模型進行句子表示;最后,使用全連接層對語義信息進行提取,實現文本情感分類。情感分析模型如圖1所示,共分為4層:輸入層、句子表示層、全連接層和輸出層。

圖1 情感分析神經網絡模型圖Fig. 1 Sentiment analysis neural network model diagram

在輸入層中,輸入樣本數據,用word2vec模型進行文本詞表示,并將文本句子與主題-詞相關關系融入詞表示中,充分考慮文本所蘊含主題信息的影響,對情感分析結果起到優化作用。具體處理方法如下:

G=Rmi×Q,

(1)

式中:Rmi∈R1×k,Q∈Rk×N,G∈R1×N(k為主題特征個數,N為語料庫詞匯集V中單詞個數),將該向量與word2vec詞向量進行交叉拼接,得到詞嵌入向量。

句子表示層中,采用BiLSTM進行句子表示,將輸入層詞嵌入的輸出作為BiLSTM的輸入來學習文本的語義信息,BiLSTM模型充分考慮文本詞序列的先后順序,從前后雙向獲取上下文特征,這更好地獲取句子位置信息和上下文語境資源。

在全連接層,對句子表示層學習到的信息進行提取,使用公式(2)中ReLU函數進行激活:

g(x)=max{0,x}。

(2)

在輸出層,針對二元情感分類,該層對應采用的激活函數為sigmoid函數,如公式(3)所示,所得到的輸出向量為。中每個元素對應一個訓練批次中的每個樣本,其值介于0和1之間,越接近1,對應樣本的情感傾向為積極的可能性越大; 反之,元素的值越接近0。計算樣本標簽y與的交叉熵得到損失值loss。

(3)

3 仿真實驗

實驗數據來自Yelp,它是最常用于情感分析的公開英文數據集之一,包括旅游、酒店、購物等領域的評論,包含560 000條驗證集和38 000條測試集?？紤]到總的數據集太大,本實驗從Yelp驗證集中抽取了200 000條作為訓練集、10 000條作為驗證集,從Yelp測試集中抽取了20 000條作為測試集。

實驗采用的神經網絡框架為tensorflow,它是目前最流行的深度學習框架之一。對于Yelp數據集,使用每個樣本的前200個詞作為詞嵌入層的輸入,該數量在情感分析實驗中使用較為普遍,對于數量不足的進行隨機填充達到200個。

將本文BiLSTM-TC模型與LRR模型、STCTM模型和使用word2vec的 BiLSTM模型進行實驗對比,其中LRR和STCTM是基于機器學習的模型,BiLSTM和BiLSTM-TC是基于深度學習的神經網絡模型。實驗中使用準確率和F值作為評價指標,F值是精確率和召回率的調和平均值,用于綜合反映模型性能的整體指標,其值越高說明實驗方法越有效。實驗結果如表1所示。

由表1中數據可以得出, STCTM的實驗性能指標高于LRR,其中分類準確率高出2.28個百分點,F值高出2.28個百分點,說明主題相關性地加入對情感分析結果有提升作用;BiLSTM與BiLSTM-TC的準確率和F值均高于LRR和STCTM,其中分類準確率比LRR模型高出6.39和8.46個百分點,比STCTM模型高出4.11和6.18個百分點,F值比LRR模型高出6.05和8.9個百分點,比STCTM模型高出3.77和6.62個百分點,這說明基于深度學習的方法明顯優于機器學習方法。另外,BiLSTM-TC的實驗性能指標超過BiLSTM,其中分類準確率高出2.07個百分點,F值高出2.85個百分點,這證明了神經網絡模型輸入中融入主題相關信息,能幫助模型獲得更好的分類性能。

為了考評本文模型在預測主題特征情感方面的精確程度,實驗采用類似文獻[2]中評價方法,用皮爾遜相關系數計算得到評論集D中每篇評論di(i=1,…,M)的真實特征權重向量和預測權重向量之間的相關關系,取均值后用σ1表示,以及整個評論集D關于Aj的真實特征權重向量和預測特征權重向量之間的相關關系σ2。

(4)

(5)

實驗結果的對比結果如表2所示。

表2 幾種模型相關關系性能指標對比Tab. 2 Comparison of performance indicators of several model correlations

從表2的數據可以得出,對于基于機器學習的LRR和STCTM模型,STCTM的σ1和σ2值高于LRR,說明主題相關性的融入能提高模型特征權重預測值的準確性;基于深度學習的模型BiLSTM與BiLSTM-TC的σ1和σ2值均高于LRR和STCTM,這說明基于深度學習的方法所預測特征權重和真實特征權重相關性更高,更接近真實值;本文BiLSTM-TC模型的σ1和σ2值高于BiLSTM模型,驗證了神經網絡模型輸入中融入主題相關信息,能幫助模型得到與真實情況最為吻合的特征權重值。

4 結論

本文的情感分析模型結合相關性理論和深度學習技術,將文本隱含的相關關系融入神經網絡模型中,在采用CTM模型實現文本特征分割的基礎上,構造蘊含相關性信息的詞向量,將其作為BiLSTM模型的輸入,實現文本句子表示和情感特征提取。所采用的深度學習技術解決了機器學習中特征依賴和詞表示粒度稀疏的問題,BiLSTM模型從文本序列的前后雙向獲取上下文特征,可以更好地捕獲句子的位置信息。主題相關性理論的引入,能幫助模型抽取到更深層次的情感信息,實現網絡海量評論的情感分析,可以推廣到相關領域,有廣闊的應用前景和理論意義。