?

一種用于中文微博情感分析的多粒度門控卷積神經網絡

2020-08-25 06:56左敬龍朱興統
鄭州大學學報(理學版) 2020年3期
關鍵詞:粒度卷積神經網絡

陳 珂, 梁 斌, 左敬龍, 朱興統

(1.廣東石油化工學院 計算機學院 廣東 茂名 525000;2.哈爾濱工業大學(深圳) 計算機科學與技術學院 廣東 深圳 518055)

0 引言

隨著社交媒體的日漸繁榮,社交文本已成為人們在生活中發表意見和觀點的最重要信息來源[1-2]。文本情感分析可以從微博文本中挖掘用戶的情感表達,能有效幫助人們學習和判斷事物的好壞。如何從微博文本中挖掘用戶的情感表達,是自然語言處理領域的研究熱點之一[3]。和普通文本分類不同,文本情感分析任務需要考慮文本的情感表達以及文本中包含的不同極性的情感詞語,并有效利用這些信息[4]。近年來,越來越多學者開始將深度學習方法應用在自然語言處理任務中,并且在文本情感分析任務中也得到了廣泛利用。文獻[5]提出一種使用卷積神經網絡模型應用在文本分類任務中,并驗證了該模型在文本分類任務中的有效性。文獻[6]基于LSTM網絡提出一種短文本情感分析網絡模型,并驗證了LSTM網絡在短文本情感分析任務中的有效性。文獻[7]基于卷積神經網絡提出了一種使用自適應卷積濾波器的深度網絡模型,該模型在文本分類任務中取得了令人矚目的成功。在結合情感信息的研究工作中,文獻[8]使用不同通道接收文本信息的輸入,可以從短文本中挖掘更深層次的情感特征。但是,這類方法往往無法充分挖掘文本的深層次詞語特征信息,并且在分詞錯誤時會造成情感信息的缺失和噪聲的引入。因此,在中文微博情感分析任務中效果不佳。

基于目前深度學習在短文本情感分析任務中的成果,本文從詞語和單字兩個層面來分析短文本的情感特征,并通過帶有門控操作的卷積神經網絡來結合不同粒度的特征信息,從而可以控制信息的更新和傳遞,完成短文本的情感極性判斷。本文提出的多粒度門控卷積神經網絡(MG-GCNN)模型思路如下:1) 使用一個作用在詞語層面的卷積神經網絡來獲取文本的詞語信息,從而學習文本的詞語層面抽象化特征。2) 由于微博文本中往往會存在很多新興的網絡用語,而傳統的分詞方法無法將這類詞語正確分詞。因此,在詞語層面信息的基礎上,使用單字來表示文本信息,并通過卷積神經網絡來獲取文本的抽象化單字特征。3) 使用一個門控操作來結合詞語和單字粒度的特征信息,從而使抽象化特征能夠有控制地更新和傳遞,更好地挖掘短文本深層次的情感特征。在微博文本數據集上的實驗結果表明,MG-GCNN模型取得了較好的情感分類效果。

1 多粒度門控卷積網絡

在以往研究的基礎上使用詞語和單字層面來構建卷積神經網絡的輸入,并通過門控操作來控制信息的傳遞和調整,所提出的MG-GCNN模型的結構如圖1所示。

圖1 MG-GCNN模型的結構Figure 1 The structure of MG-GCNN model

1.1 任務定義

中文微博文本情感分析需要模型從有限的文本資源中獲取文本的情感特征信息,并通過學習提取到文本特征信息,對文本進行情感極性的判別。對于句子s={c1,c2,…,cr}和s={w1,w2,…,wn},其中wi和ci表示詞語和單字,分別代表文本的詞特征和字特征。通過將文本的詞特征和字特征映射為一個多維的連續值向量,可以得到文本的特征表示ei∈Rd和xi∈Rd,其中d為詞特征或者字特征向量的維度,在實驗中將詞向量和字向量映射為相同維度的特征向量。

1.2 詞語粒度卷積神經網絡

將輸入句子表示成一個詞語序列來獲取輸入文本詞語層面的特征信息。對于包含n個詞語的輸入句子,輸入矩陣可以表示為

e1:n=e1⊕e2⊕…⊕en,

(1)

式中:⊕為拼接操作;e1:n∈Rd×n。卷積神經網絡通過對句子進行卷積操作來完成輸入句子的詞語層面特征提取。對于窗口大小為h的卷積核,可以把輸入句子分為{e0:h-1,e1:h,…,en-h+1:n},然后對每一個分量進行卷積操作,得到的卷積特征圖可以表示為

Ai=ei:i+h-1·W+b,

(2)

式中:Ai為卷積操作得到的特征信息;ei:i+h-1∈Rd×h為長度為h的卷積窗口包含的詞語向量信息;W為權重矩陣;b為偏置向量。

1.3 單字粒度卷積神經網絡

由于中文微博文本的長度往往較短,同時文本中會包含大量無法正確分詞的網絡用語。因此,文本使用單字序列表示輸入句子來獲取文本更深層次的特征信息。對于單字序列s={c1,c2,…,cr},單字向量卷積神經網絡輸入矩陣可以表示為

x1:n=x1⊕x2⊕…⊕xr,

(3)

式中:x1:n∈Rd×r。與詞語粒度卷積神經網絡操作相同,通過不同大小的卷積核來對輸入信息進行卷積操作,獲取單字層面的情感特征信息。對于窗口大小為h的卷積核,卷積操作可以表示為

Bi=xi:i+h-1·W+b,

(4)

式中:Bi為卷積操作得到的特征信息;xi:i+h-1∈Rd×h為長度為h的卷積窗口包含的單字向量信息;W為權重矩陣;b為偏置向量。

圖2 門控卷積網絡Figure 2 Gated convolutional networks

1.4 門控卷積網絡

雖然詞語層面的信息包含了輸入文本最重要的特征,但是當輸入文本分詞不恰當、新型網絡用語使用較多時,單從詞語層面將無法挖掘輸入文本的情感信息。針對該問題,使用一個門控操作來結合不同粒度的特征信息,使模型可以更充分地挖掘文本的情感特征,門控卷積網絡如圖2所示。

使用門控操作連接不同粒度的特征信息,可以表示為

Hi=A?σ(B),

(5)

式中:A為詞語粒度特征信息;B為單字粒度特征信息;σ為Sigmoid激活函數;?為對應元素相乘。通過卷積操作,模型在訓練過程中可以有選擇地使用和學習不同粒度的特征信息,完成模型參數的調整,從而可以挖掘更準確的情感特征信息。

1.5 隱藏層網絡

為了提取句子中最重要的特征信息,采用max-over-time pooling對門控操作得到的特征信息進行池化操作,提取特征向量圖中最重要的特征信息,即Ho=max{Hi}。然后通過一個全連接層來完成特征信息的向量化映射,輸入文本的向量化表示為

H=Relu(Ho·W+b),

(6)

式中:H∈Rm為輸入文本的向量化表示,m為向量維度;W和b為全連接層的權重矩陣和偏置向量;Relu為全連接層激活函數。

1.6 模型訓練

通過一個Softmax函數輸出分類結果,即

y=Softmax(X·W+b),

(7)

X=H°r,

(8)

式中:r∈Rm為下采樣層輸出的正則項限制;°為對應元素相乘;W∈R|X|為全連接層權重矩陣;b∈R為全連接層偏置向量。使用反向傳播算法來訓練模型,通過最小化交叉熵來優化模型,交叉熵代價函數可以表示為

(9)

2 實驗及結果分析

從COAE2014數據集中標注6 000條帶有極性的數據,其中積極情緒樣本2 864條,消極情緒樣本3 136條。此外,從不同領域微博語料中隨機爬取5 000條帶有極性的中文微博文本,作為微博語料數據集(micro-blog dataset, MBD),其中積極情緒樣本和消極情緒樣本各2 500條。使用ICTCLAS分詞工具對語料進行分詞,詞向量和字向量采用Google的word2vec工具的skip-gram模型進行訓練,維度設置為300維。對于未登錄詞,采用均勻分布U(-0.01,0.01)來隨機初始化詞向量。在實驗中使用多窗口、多卷積核對句子進行卷積操作,其中窗口大小分別為2、3、4、5,每種窗口的卷積核個數均為100。為了防止過擬合,使用了dropout機制和權重的正則化限制,訓練過程采用Adadelta更新規則[9]。

2.1 實驗介紹

在COAE2014和MBD數據集上,將所提出的MG-GCNN模型和目前取得突破性成果的傳統方法、深度學習方法進行對比實驗。對比實驗所用的模型具體包括:1) MG-CNN為本文提出的多粒度信息輸入卷積神經網絡,但僅使用簡單拼接來結合不同輸入粒度的特征信息;2) MG-GCNN為本文提出的多粒度門控卷積神經網絡的完整模型;3) SVM[10];4) CNN[5];5) WFCNN[11];6) EMCNN[12];7) MCCNN[8];8) AC-CNN[7]。

2.2 實驗結果與分析

在COAE2014和MBD數據集上進行實驗,不同模型的情感分類結果如表1所示。

表1 不同模型的情感分類結果Table 1 Sentiment classification results of different models

從表1可以看出,所提出的MG-GCNN模型在2個數據集上的分類效果都優于對比實驗,其中在分類效果最好的MBD數據集上,F1值比以往研究中取得最好效果的MCCNN模型分別提升了0.42%和1.01%,從而驗證了本文提出方法的有效性。加入情感序列的WFCNN模型在COAE2014和MBD數據集上的分類效果都優于CNN模型,相比CNN模型分別提升了2.57%和3.05%。這表明在情感分析任務中,結合情感特征的模型能更好地學習句子的情感傾向,根據情感特征信息,使模型可以有效地學習句子的情感極性。對比使用門控操作的MG-GCNN模型和不使用門控操作的MG-CNN模型,可以看出,MG-GCNN模型在2個數據集上的分類效果比MG-CNN模型分別提升了2.19%和4.02%。這表明使用門控操作的MG-GCNN模型在訓練過程中,可以通過門控操作來控制不同粒度特征信息的傳遞和更新,同時也能保留輸入文本信息的序列化情感依賴;在分詞不恰當的情況下,也能通過門控卷積操作挖掘單字層面上信息的提取和學習,完成輸入文本的情感極性判別。此外,相比COAE2014數據集,MBD數據集保留了中文微博的原始文本特征,并且從不同領域的數據中隨機選取訓練集和測試集,在最大程度上保留了中文微博的特征。對比兩個數據集的實驗結果可以看出,MG-GCNN模型在MBD數據集上的分類效果優于COAE2014,表明MG-GCNN模型在更一般性的中文微博語料中能有更好的效果,從而驗證了MG-GCNN模型在中文微博情感分析任務中的有效性。

2.3 門控操作有效性驗證

為了進一步驗證所提出的MG-GCNN模型的有效性,分析了MCCNN、MG-CNN和MG-GCNN模型在2個數據集上的召回率和F1值的分類效果,對比結果如圖3和圖4所示。

圖3 召回率對比結果Figure 3 Comparison results of recall

圖4 F1值對比結果Figure 4 Comparison results of F1-score

從圖3可以看出,MG-GCNN模型與以往研究中取得最好效果的MCCNN模型進行對比,MCCNN模型在積極樣本數據集上的分類效果都略優于MG-GCNN模型,表明結合文本多樣化特征表示的MCCNN模型能通過不同類型特征信息來挖掘文本的隱藏特征,完成文本的情感極性判別。而在消極樣本數據集上,MG-GCNN模型的召回率都高于MCCNN模型,表明結合門控操作方法能使模型在訓練過程中學習不同粒度的文本特征信息,并通過門控操作保留文本的特征信息依賴關系。因此,在其他模型表現欠佳的消極樣本數據集上也能取得更優的情感分類效果。此外,從圖4的對比結果可以看出,MG-GCNN模型在4組實驗中的F1值都取得了最優的效果,表明MG-GCNN模型在不同極性數據集上的分類有效性比其他模型都平均,從而驗證了MG-GCNN模型在微博文本情感分析任務中的有效性。

2.4 經典樣例分析

為了進一步分析所提出的MG-GCNN模型在微博文本情感分析任務中的有效性,從數據集中抽取一些經典樣例進行對比分析,實驗結果如表2所示。

表2 經典樣例分析Table 2 Analysis of typical sentences

如表2所示,樣例1和樣例2屬于情感表達明顯、結構簡單的句子,這類句子是用戶表達情感的常用句子結構,所以3種模型都能正確識別這類句子的情感極性。樣例3屬于含有網絡用語的句子,這類句子通常包含分詞工具無法正確分詞的網絡用詞,結合多粒度特征輸入的MG-CNN和MG-GCNN模型都能有效利用這類詞語的情感信息正確識別文本的情感極性。樣例4也屬于微博文本中用戶表達情感的常用類型,這類句子往往包含有積極情感詞,但句子本身表示消極情感。不使用門控操作的MG-CNN模型因為無法保留句子中上下文的依賴關系,所以無法正確識別文本的情感極性。而使用多樣化信息輸入的MCCNN模型和結合門控操作的MG-GCNN模型通過對文本信息依賴關系的學習,都能正確識別文本的情感極性。樣例5屬于具有反問表達的句子,這類句子結構普遍比較復雜,所以MCCNN和MG-CNN模型都無法正確識別這類句子的情感極性。而MG-GCNN模型通過多粒度的信息輸入,可以挖掘更深、更細膩的情感信息表達,從而可以有效判別文本的情感極性。

3 結束語

基于卷積神經網絡和門控操作,本文提出一種MG-GCNN模型應用在中文微博情感分析任務中。在不使用外部特征的情況下,所提出的MG-GCNN模型在不同數據集上的多組實驗中都取得了最好的分類效果,從而驗證了該方法的有效性。同時通過對經典樣例的對比分析,進一步分析了MG-GCNN模型在中文微博情感分析中的優勢。本文在實驗中僅使用了詞語和單字粒度的特征信息,沒有考慮文本中的情感詞語特征,在后續研究工作中將進一步研究如何將所提出的模型和情感信息相結合。

猜你喜歡
粒度卷積神經網絡
基于遞歸模糊神經網絡的風電平滑控制策略
基于3D-Winograd的快速卷積算法設計及FPGA實現
粉末粒度對純Re坯顯微組織與力學性能的影響
動態更新屬性值變化時的最優粒度
卷積神經網絡的分析與設計
神經網絡抑制無線通信干擾探究
從濾波器理解卷積
基于神經網絡的中小學生情感分析
基于傅里葉域卷積表示的目標跟蹤算法
組合多粒度粗糙集及其在教學評價中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合