?

融合情感增強與注意力的文本情感分析模型

2022-05-10 09:10陳世平
小型微型計算機系統 2022年5期
關鍵詞:卷積向量神經網絡

朱 璐,陳世平

(上海理工大學 光電信息與計算機工程學院,上海 200093)

1 引 言

文本情感分析是自然語言處理領域的一項重要研究內容,其目的是從文本數據中識別和提取評論者的主觀信息.特別是在當下信息爆炸時代,人們可以隨時在微博、知乎等社交媒體平臺進行評論和情感表達,進而產生了大量帶有情感傾向的文本數據[1].通過對這些社交媒體的文本數據進行分析,可以更好的了解用戶的想法和意見,因此對社交媒體中數量龐大的數據信息進行情感分析成為近年來研究的熱點.

2 相關研究

目前文本情感分析方法主要分為3類:基于情感詞典的文本情感分析方法、基于機器學習的文本情感分析方法和基于深度學習的文本情感分析方法.

基于情感詞典的方法是利用詞典對情感詞進行識別,獲取情感值,然后根據計算規則,得出分類結果.Zhang等[2]通過附加程度副詞、網絡詞匯等擴展情感詞典,取得了較好的分類效果.Wu[3]等人在目標詞提取的基礎上,提出一種針對特定目標自動構建情感詞典的方法.基于情感詞典的方法易于實現,但在不同領域存在著明顯的局限性,分析的質量在很大程度上取決于情感詞典,大部分情感詞典存在情感詞覆蓋面不夠、領域詞匱乏等問題.

樸素貝葉斯、SVM、最大熵、隨機森林和條件隨機場模型等[4,5]是被常用于文本情感分類的機器學習方法.Yang等[6]設計了一種分段級聯合話題-情感模型(STSM)來捕獲話題-情感的相關性,并獲得針對細粒度的情感分類.Fu[7]等人提出一種AL-SSVAE的半監督情感分類模型,該模型能夠更準確地捕捉給定對象的語義和情感,在情感分類任務中取得了較好的性能.基于機器學習的方法雖然可以自動提取特征,但往往依賴于人工選擇特征,而且性能也達到瓶頸.

近年來,許多學者將深度學習方法引入到文本情感分析中,并取得了良好的效果.基于深度學習的方法在神經網絡模型中自動提取特征,并從自身的誤差[8,9]中學習.Word2vec是2013年谷歌提出的詞向量工具集,簡單有效地解決了詞向量表示問題[10],但其獲取的分布式詞向量未包含情感信息.Kim[11]首先將詞向量輸入不同尺寸的卷積核進行卷積實現情感分類,取得了不錯的分類效果.Li[12]等人利用卷積神經網絡對微博用戶評論數據集進行情感分類,取得了較好效果.Miao[13]等人提出利用CNN提取文本的局部特征,然后通過BiGRU提取文本的序列特征,再通過兩個單向GRU層進一步減少文本特征,最后在分類器得到情感分類.趙亞歐[14]等人針對單一詞向量問題,提出利用ELMo獲得詞向量,并通過多尺寸卷積神經網絡實現文本情感分類.Zhang[15]等人提出的DSCNN通過長短期記憶網絡處理預先訓練的詞向量,然后使用卷積操作提取特征以層次化地構建分類模型,但網絡模型輸入單一,未能獲得有效的文本情感特征表示.

同時,越來越多的學者也將注意力機制融合到深度學習模型當中,通過獲取更多隱含的文本特征取得更好的分類效果.Wang Z[16]提出利用KNN計算注意力權值增強模型的分類效果.Zhu[17]等人利用BiLSTM提取包含上下文信息的文本特征,并利用自注意機制對提取的特征進行處理,再利用多尺寸卷積神經網絡進行局部特征提取獲得更高層次的抽象表示,提高了分類的準確性.CRAN[18]利用卷積操作捕獲注意力,將RNN與注意力相結合實現文本分類,但未充分考慮文本實例對象對分類結果的影響.關鵬飛[19]等人提出利用注意力機制直接學習文本特征的權重分布,通過與BiLSTM并行的方式在微博數據集上取得了較好的分類效果,但未能充分利用文本實例信息,忽略了與待分類文本關聯性更強更有意義的文本特征.

整體上來看,目前大量模型采用的分布式詞向量不包含關于詞的情感信息及其對分類的貢獻,導致模型輸入單一,無法關注重點情感特征信息;大量研究也未充分利用文本實例對象信息,未能利用文本間的相似性關系,而文本特征具有依賴性,相同話題下的數據集中則存在更多相似性特征.

針對上述問題,本文提出一種融合情感增強與注意力的文本情感分析模型(TKACNN,Convolutional neural network based on TF-IDF and KNN-Attention),貢獻有以下3個方面:

1)本文通過構建關鍵因子θ,將文本中的情感信息即情感詞和程度副詞融入到TF-IDF方法中以構建加權詞向量,關注重點情感信息,實現了情感信息上的增強.

2)本文基于具有空間屬性權重的加權歐式距離,對最近鄰算法進行改進,以獲取更優衡量距離.然后利用最近鄰改進算法獲取相似文本和其標簽向量,以此為基礎構建注意力機制.通過選取與待分類文本關聯性更強更有意義的文本特征,并結合標簽向量實現了多維特征的提取并有效增強了卷積神經網絡的分類能力.

3)最后將注意力機制與多尺寸卷積神經網絡結合,實現局部和全局特征的提取,有效的利用實例信息.實驗表明本模型分類效果更優,為今后工作提供了新的解決思路.

3 情感增強機制

在文本情感分析任務中,帶有情感信息的詞是極性劃分的重要因素.目前,大量研究采用的輸入模型單一,所以本文利用TF-IDF構造包含有情感信息加權的詞向量,實現詞向量的情感增強,以增強神經網絡對文本情感信息的學習.

3.1 情感信息特征構建

為考慮情感詞和程度副詞對文本情感分類的影響程度,本文通過匹配情感詞典來確定詞語是否包含情感詞和程度詞,通過橋梁關鍵因子融入到TF-IDF方法計算每個詞的權重,權重值的大小對分類結果會產生影響,需要能排除冗余噪聲,又能凸顯出更有意義的特征.

目前,Hownet、《國立臺灣大學詞典》和《清華大學漢語褒貶詞典》是文本情感分析中常用的情感詞典.如果詞典中的詞數過大,則會包含大量的情感信息較低的詞.如果詞典中的詞數太少,就會忽略文本中大量的情感信息詞,降低分類的準確性.本文采用Hownet,該詞典中含有中等數量的具有高度情感信息的詞,如表1-表3所示.

表1 正情感詞信息

表2 負情感詞信息

表3 程度詞信息

文本與Hownet詞典匹配完成后,為出現的情感詞和程度詞的賦予相應的權重,如式(1)所示,s為是否包含情感信息的權值,θ為關鍵影響因子且θ>1.

(1)

3.2 加權詞向量

首先本文利用word2vec[10]工具對數據集進行處理得到詞向量,則文本可表示為Vi={vi1,vi2,…,vil}.其中l是最大詞語數,i是訓練文本中第i個文本,d表示詞語特征維數,則文本可以表示為l×d維的矩陣向量.然后Vi作為輸入傳入多尺寸卷積神經網絡模型.訓練集為:N={V1,V2,…,Vm},其對應的類別標簽是:y={y1,y2,…,ym}.

TF-IDF是一種常用的權值計算方法,計算公式見式(4):

(2)

(3)

(4)

其中tf(ti,d)表示特征詞ti在文檔d中的頻數,M表示文檔d中詞的總數.idf(ti)表示逆文檔頻率,nti表示包含特征詞ti的文本數.

融入關鍵因子的權重函數:首先根據式(4),獲取特征詞的tf-idf,再融合關鍵因子對權重重建即wi,如式(5)所示:

wi=w′(ti,d)·s

(5)

其中ti為單詞,w′(ti,d)為公式(4)計算出的特征單詞的tf-idf值,wi為權重.

最后通過word2vec訓練得到分布式詞向量,構建加權詞向量V′作為輸入模型傳入多通道卷積神經網絡,如式(6)所示:

(6)

4 TKACNN模型

融合情感增強與注意力的多尺寸卷積神經網絡文本情感分析模型(如圖1所示).首先根據第3節,通過關鍵因子將情感詞和程度副詞貢獻度融入TF-IDF方法重建包含情感信息加權的詞向量,作為輸入模型傳入卷積神經網絡.然后依據改進后的KNN在已知標簽的訓練集中獲取與待分類文本關聯性更強、相似度更高的文本及其標簽向量構建注意力機制,對文本特征進行權重更新后至全連接層進行訓練,進一步提升文本情感分類的性能.最后通過softmax完成文本情感分類任務.

圖1 基于情感增強與注意力的多尺寸卷積神經網絡

4.1 輸入層

第3節得到的詞向量V′作為神經網絡的輸入分類模型.

4.2 卷積層

卷積層的主要功能是提取輸入矩陣最重要的局部特征.將訓練好的l×d維文本向量作為模型的輸入,使用多尺寸的卷積核對其進行卷積操作,獲取多維特征的提取.本文使用的多尺寸卷積核高度為3、4、5,即尺寸為h×d.設置滑動步長為1,則滑動窗口可表示為{S1:h,S2:h+1,…,Sl-h+1:l},對于輸入矩陣Vi={vi1,vi2,…,vil},卷積運算為:

(7)

式(7)中Wh代表權重矩陣,Wh∈Rh*d,t是滑動窗口的參數且t∈l,b∈R為偏置量,?為卷積計算.激活函數有tanh、sigmoid和Relu等,本文的激活函數f(x)采用Relu函數進行學習優化,卷積運算完成后,特征向量矩陣C表示為:

(8)

為了捕捉不同文本層的高級特征,進一步使用了多個不同維度的卷積核,并對卷積得到的多個特征矩陣進行匯聚和壓縮,提取主要特征.

4.3 池化層

經過卷積操作之后,會有一些冗余特征,池化層的對文本特征進一步壓縮,捕獲更有意義的特征.池操作通常分為平均池和最大池.對于文本情感分析,影響最大的通常是句子中的幾個單詞或短語,所以我們使用Max-pooling來提取最有意義的特征,每個尺寸的卷積核個數為128.

高度h為3、4、5卷積后得到的特征圖為:

C3=[C31,C32,…,C3128,max]
C4=[C41,C42,…,C4128,max]
C5=[C51,C52,…,C5128,max]

(9)

把經過池化后得到的特征矩陣進行拼接可以得到:

C′=[C3,C4,C5]

(10)

將文本矩陣C′作為全連接層的輸入.

4.4 注意力機制

TKACNN 模型利用 Attention 機制對語義特征進行權重學習,從多維特征矩陣學習更多更全面的信息,再經過softmax的分類器完成分類.

4.4.1 基于加權歐式距離的最近鄰改進算法

最近鄰算法通常采用歐氏距離來計算文本之間的相似度,本文使用加權歐氏距離計算相似度如式(11)所示:

(11)

公式(11)中Vt為待測文本,Vi為訓練文本,wji表示文本在不同特征值的權重.結合局部與空間屬性對特征值的影響[20],得到加權歐氏距離.基于歐氏距離結合特征因素差異的空間屬性權重的加權計算公式如式(12)所示,表示有關測試點在整個數據集和訓練集中的相對位置影響.

(12)

具有空間屬性權重的加權歐氏距離計算文本相似度,不但減少差異性了的影響,而且能獲取更優的衡量距離.在訓練集中找到與待分類文本Xi最相似的K個文本:{V1,V2,…,Vk},對應的類別標簽為:{y1,y2,…,yk}.

4.4.2 最近鄰注意力機制

考慮文本間關聯性對分類效果的影響,本文對3.4.1中得到的矩陣進行注意力構建,捕獲更多隱含的更有有意義的特征.最后將注意力矩陣融合,一起輸入至全連接層進行訓練(如圖1所示).

通過加權歐氏距離的最近鄰算法得到每個文本最相似的K個文本:{V,V2,…,Vk},其對應的類別標簽為:{y1,y2,…,yk}.每個文本與其K個文本的相似度計算公式如下[16]:

Qj=sim(V,Vj)

(13)

Q={Q1,Q2,…,Qk}

(14)

其中j∈{1,2,3,…,k},Qj表示待分類文本V與K個最相似文本的相似度,且組成相似度權重集Q.采用相似度權重集Q對改進的KNN算法得到的文本進行加權,利用公式(14)得到相似特征矩陣V′如公式(15)所示:

(15)

同時為了考慮文本矩陣V′對輸入文本的影響,計算輸入文本V對相似特征矩陣V′每一維特征的相似度,那么注意力的計算如公式(16)所示:

(16)

采用相似度權重集Q對文本標簽y加權得到加權標簽y′,計算公式如式(17)所示:

(17)

兩個注意力矩陣為:T=VA·W0和T′=y′·W1(W0∈Rs*d,W1∈Rs*d).將T與T′進行拼接輸入至全連接層訓練.結合基于神經網絡和基于實例的特征學習,可以有效提高分類能力.

4.5 全連接層

全連接層將有用的信息進一步整合提取和保留,計算如式(18)所示,其中W為權重,b為偏置量,采用Relu作為激活函數:

C″=f(WC′+b)

(18)

4.6 輸出層

通過sortmax分類器得到分類結果,計算如式(19)所示,激活函數采用sigmod:

(19)

本文模型定義的交叉熵損失函數如式(20)所示,采用的激活函數為Adam[21]:

(20)

5 實驗與分析

5.1 實驗環境

實驗環境及配置如表4所示.

表4 實驗環境

5.2 數據集及評價指標

本文針對評論數據集進行實驗,數據集采用公開數據集中文計算會議測評的微博情感數據集NLPCC2014和英文電影評論數據集MR,實驗采用10折交叉驗證的方法對NLPCC2014和MR數據集進行驗證,以降低隨機性對分類效果的影響.數據分類結果為兩類:正類和負類.表5、表6分別是NLPCC2014和MR數據集統計信息和數據集樣例信息.

表5 ChnSentiCorp數據集的統計信息

表6 NLPCC2014和MR數據集樣例

通過準確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1作為本文的評估指標以驗證模型的有效性,定義如下:

(21)

(22)

(23)

(24)

5.3 實驗參數設置

θ是情緒信息對情緒分類任務貢獻的度量.θ值過小,不能充分反映情感詞與非情感詞的差異,降低了情感分類的效果;如果θ過大,則會過度衡量情感信息的貢獻,降低情感分類的準確性.圖2為不同值下模型的分類效果.

圖2 θ取值實驗結果

由圖2可以看出,隨著θ的增大,F1先增大后減小.當θ為2、3、4時,將情感信息對模型的貢獻納入詞向量的權值中,使F1高于基值,同時關鍵影響因子θ分別為2、3時,F1得分最高,達到最大值80.31%、82.21%.當θ大于5時,情感信息與非情感信息的權重相差過大,導致F1低于基值.

實驗參數設置如表7所示.

表7 參數設置

5.4 實驗結果與分析

對本文提出的融合情感增強和注意力的文本情感分析模型(TKACNN)進行試驗,并且為了證明本文模型的有效性,分別與不同基準模型進行對比.針對NLPCC2014數據集,對比的基準模型為CNN[11]、MSCNN[14]、BiLSTM[19]、CNN-SVM[22];針對MR數據集,對比的基準模型為CNN[11]、DSCNN[15]、CRAN[18]、CNN-BiGRU[23].

CNN是基于Kim提出的卷積神經網絡分類模型.

MSCNN利用語言模型ELMo捕獲網絡輸入,再通過多尺寸卷積神經網絡得到分類結果.

BiLSTM將注意力機制與雙向LSTM以并行方式融合的神經網絡模型.

CNN-SVM利用CNN表示特征向量,并通過SVM進行情感分類.

DSCNN通過LSTM處理預先訓練的單詞嵌入,然后使用卷積運算符提取特征,層次化地構建文本表示.

CRAN通過卷積操作捕獲注意力,將RNN與注意力相結合,對文本進行建模,最終實現文本分類.

CNN-BiGRU通過BiGRU得到語義分布,然后利用淺層詞級CNN獲得中間表示,并通過整合得到分類結果.

TK-CNN.采用傳統歐氏距離的KNN算法和多尺寸卷積網絡結合構建的情感增強分類模型.

TKACNN.本文提出的融合情感增強與注意力的文本情感分析模型.

1) 針對兩個數據集與其他基準方法進行對比,在準確率方面(Accuracy) 本文模型和對比實驗結果如表8、表9所示.

表8 5種算法在NLPCC2014數據集上的準確率對比實驗結果

表9 5種算法在MR數據集上的準確率對比實驗結果

由實驗結果可以看出,相比較而言,本文模型在數據集NLPCC2014和MR上都表現出良好性能.在NLPCC2014微博數據集上的準確率,本文模型相比卷積神經網絡方法提高了3.07%,相比MSCNN方法提高了1.99%,相比最好的基準模型BiLSTM提高了1.59%,相比于NLPCC2014_Task2最優實驗結果[24]提高了8.85%;在英文數據集MR上的準確率,本文模型相比卷積神經網絡提高了1.52%,相比DSCNN模型提高了0.6%,相比最好的基準模型CRAN提高了0.1%.可以看出本文模型表現出優越的性能,這是因為本文模型考慮到在輸入模型中融合情感信息,有效實現了詞向量的情感增強,并且通過構建注意力機制獲得更多隱含信息,更有效地利用文本實例信息,使得文本特征與類別更具相關性,從而獲得的多維特征增強模了型的分類能力.

2)本文模型相比于TK-CNN模型在兩個數據集上的準確率均有所提高,可以看出基于改進的加權最近鄰算法比傳統最近鄰算法分類結果更好,這是因為本文模型利用空間屬性對距離加權減少差異性的影響,得到更優的衡量距離.本文模型與TK-CNN在指標精確率、召回率、F1、準確率上的結果如表10所示.

表10 不同數據集上的實驗結果

3)如圖3所示,相比于K-CNN(在本文提出的模型基礎上,不進行第2節的情感增強機制),本文模型在NLPCC2014微博數據集和英文數據集MR上的準確率均有所提高,說明通過本文的情感增強機制,可以增強神經網絡對文本情感信息的學習,能有效增強分類結果的準確性.

圖3 K-CNN、T-CNN、TKACNN實驗結果

相比T-CNN(在本文提出的模型基礎上,不進行第3節的注意力機制),本文模型在NLPCC2014微博數據集和英文數據集MR上的準確率也均有所提高,說明通過選取與待分類文本關聯性更強更有意義的文本特征,可以從多維特征矩陣中獲得更多隱含特征,加強了分類的準確性.

4)考慮注意力機制中的兩個加權向量VA和y′對分類結果的影響,設置aCNN(加權向量VA)、bCNN(加權標簽y′)對比實驗進行驗證.

由表11可以看出,3個實驗結果都優于卷積神經網絡,說明本文模型利用最近鄰改進算法可以選取更有意義的文本特征,并結合標簽向量加強了分類特征的準確性,并且將加權文本和加權標簽結合來構建注意力機制效果最優,更能捕獲文本間的依賴關系,證明了本文模型的可行性(如圖4所示).

圖4 aCNN、bCNN、TKACNN實驗結果

表11 加權文本VA和加權標簽y′對分類結果的影響

5)不同的K值對模型分類影響不同,考慮K值變化在NLPCC2014與MR數據集上的影響,設置K∈[1,20].

K值的變化會對分類結果產生影響,若值較小,會造成信息提取不充分,若值較大,會導致信息過大造成冗余.如圖5所示,K取0時,在NLPCC2014微博數據集和英文數據集MR上的準確率分別為78.67%、80.97%.隨著K值增加,在數據集上的準確率增高,在NLPCC2014微博數據集上,K=8時,準確率達到80.31%,在英文數據集MR上,K=13時,準確率達到82.10%.由圖中的曲線可以看出,合適的K值可以提高模型的準確率,在一定條件下模型的準確率會隨著K值的升高而提高,但超過某一數值之后,模型的準確率會隨著K值的升高而降低,這是因為過多的冗余特征產生噪聲干擾.

圖5 NLPCC2014與MR實驗結果

6 結束語

本文提出一種融合情感增強與注意力文本情感分析模型(TKACNN),通過實驗表明本文模型相較于其他對比試驗取得良好的分類效果,在準確率上超過已有的最好模型,性能表現更優,為今后的研究工作提出了新的思路.

首先本文在分布式詞向量的基礎上,將情感詞和程度副詞信息通過橋梁關鍵因子融入到TF-IDF重建權重,獲得了具有情感信息的詞向量表示,實現詞向量的情感增強.然后本文構建了具有空間屬性的加權歐式距離改進最近鄰算法,在已知標簽的訓練集中找尋與待分類文本關聯性更強、相似度更高的文本及其標簽向量,以此為基礎構建最近鄰注意力機制對文本特征進行權重更新,充分利用對象實例信息,實現了多維特征的提取并有效增強了卷積神經網絡的分類能力.最后將注意力機制與卷積神經網絡結合實現了局部與全局特征的提取,完成分類.

今后的研究工作:本文提出的方法將情緒分為積極和消極兩類,今后需進一步研究文本的情感更精細度的分類.

猜你喜歡
卷積向量神經網絡
基于全卷積神經網絡的豬背膘厚快速準確測定
基于神經網絡的船舶電力系統故障診斷方法
基于人工智能LSTM循環神經網絡的學習成績預測
向量的分解
基于圖像處理與卷積神經網絡的零件識別
MIV-PSO-BP神經網絡用戶熱負荷預測
基于深度卷積網絡與空洞卷積融合的人群計數
三次樣條和二次刪除相輔助的WASD神經網絡與日本人口預測
卷積神經網絡概述
向量垂直在解析幾何中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合