?

基于雙策略圖卷積網絡的方面級情感分析

2024-03-25 01:58孫赫文孟佳娜丁梓晴
大連民族大學學報 2024年1期
關鍵詞:層數正則句法

孫赫文,孟佳娜,丁梓晴,江 烽

(大連民族大學 計算機科學與工程學院 遼寧 大連 116650)

基于方面的情感分析是一種細粒度的情緒分類任務[1],旨在推斷出整句話中某一方面的情緒極性(positive、neutral或negative)。與句子級情感分析不同,一個句子可能有多個方面,不同的方面可能有不同的情感詞和情感極性。因此,有必要挖掘與方面詞相關的情感詞來預測其情緒極性。

近年來,可以捕獲句法依賴關系的圖神經網絡被探索建模方面詞和情感詞之間的聯系。因此,張等人[2]利用GCN學習句法依存圖上的節點表示,得到融合句法依存信息的上下文特征用于情感分類。Tang等人[3]通過重塑句法依存樹得到一個面向方面詞的圖結構,并利用關系圖卷積網絡對重塑后的句法樹進行編碼判斷方面詞的情感傾向。

然而,大多數的研究在將句法依賴關系應用到復雜數據集的ABSA任務時,就會面臨兩個問題。依賴關系解析結果不準確,而且忽略了不同依賴關系所產生的不同影響;對于依賴關系不敏感的數據集,由于非正式表達和在線評論的復雜性,方面詞的分類效果往往很差。

針對上述問題,本文提出了一種結合句法信息和詞共現信息的圖卷積網絡方法對方面級情感分析任務。通過使用提出的基于雙策略圖卷積網絡模型的方法可以提升三個公共數據集的情感分類效果。

1 相關工作

句法依存樹在實體抽取、文本分析,命名實體識別、情感分析、智能問答等領域有著廣泛的應用[4]。使用依賴解析工具對文本數據進行預處理,構建句法依存圖已經成為ABSA任務數據預處理的主流方法。句法依存圖展示了句子中各詞之間的句法依賴關系,圖中每一條邊都有自己的標簽,不同標簽代表不同依賴關系。例如依照句子“The Food is good but the smell is bad”構造的句法依存圖如圖1。

圖1 句法依存圖

“DET”標簽代表決定詞,圖中帶有“DET”標簽的有向邊從定冠詞“the”指向方面詞“Food”,就代表“Food”的決定詞是“the”。

引入句法依存圖建模有利于處理長文本數據,解決長距離依賴問題。因此,Dong 等人[5]提出了一種遞歸神經網絡,沿著依賴樹自適應地將單詞的情感傳播到方面。Nguyen等人[6]引入了一個包含句法信息的注意力模型來計算注意力權重。Phan等人[7]利用句法依賴樹探討了句法關系,并運用自注意機制進行句法學習。近兩年,在傳統卷積神經網絡(CNN)和圖嵌入的驅動下,GCN作為高效的CNN變體,其可以直接在圖上運行[8],其模型如圖2。

圖2 GCN模型結構圖

(1)

式中:Wl為權重矩陣;bl為偏置項;σ為激活函數。

2 本文方法

本文設計了雙策略圖卷積網絡(Dual-SGCN)模型以解決上述問題。首先,本文使用依賴解析器中反映所有依賴關系的概率矩陣來構建一個基于句法的圖卷積網絡(Syntactic GCN)。這種方法背后的思想是,與依賴解析器的最終離散輸出相比,表示單詞之間依賴關系的概率矩陣包含豐富的句法信息。其次,利用自注意機制構建了基于詞共現的圖卷積網絡(Word co-occurrence GCN)。這種方法背后的思想是,由自注意力形成的注意力矩陣,可以被視為一個邊加權無向圖,它反映了單詞對之間詞共現的頻率,無向圖的每條邊均會被賦予一個詞共現標簽,記錄了訓練中被該邊連接的單詞對出現在同一句子中的頻率,進而表示單詞對的相關性。

具體而言,給出句子-方面對(s,a),將長度為n的句子評論表示為s={w1,w2…wn},長度m的方面詞表示為a={a1,a2…am},它也是整個句子s的子序列。同時,方面詞可能是一個單詞也可能是多個單詞組成的短語。利用BiLSTM提取隱含上下文表示,對于BiLSTM編碼器,首先從嵌入查詢表E∈R|v|xde中得到句子s的單詞嵌入x={x1,x2…xn},其中|V|為詞匯量,de表示單詞嵌入的維數。然后,將句子的單詞嵌入信息輸入BiLSTM,生成隱藏狀態向量H={h1,h2…hn},其中hi∈R2d是從BiLSTM得到的t時刻的隱狀態向量。再將隱藏表示分別輸入SynGCN和WcoGCN模塊,然后采用BiAffine方法實現有效的信息交流。最后,將SynGCN和WcoGCN模塊中所有方面詞節點的表示通過池化和連接聚合,形成最終的方面表示。整體模型框架圖如圖3。

圖3 整體模型框架圖

2.1 基于句法結構的圖卷積網絡模型

SynGCN模塊以句法編碼作為輸入。為了對句法信息進行編碼,本文利用了依賴解析器中反映所有依賴關系的概率矩陣。與依賴解析器的最終離散輸出相比,反應所有依賴關系的概率矩陣可以通過提供所有潛在的句法結構來捕獲豐富的結構信息。在這里,本文使用最新的依賴解析模型LAL-Parser[10]。

2.2 基于詞共現信息的圖卷積網絡模型

WcoGCN不像SynGCN,后者一般是依靠額外的句法知識,前者則利用Self-attention并行計算每個單詞對的注意分數[11],從而獲得鄰接矩陣形式的注意力矩陣,表示為Awco∈Rn×n,然后將注意力分數矩陣Awco作為WcoGCN模塊的鄰接矩陣,表示為

(2)

同時,前文中所獲得的注意力矩陣Awco也會被視為一個邊加權無向圖。圖中的每個單詞均會與其他單詞有一條直接相連的邊,這種全連接關系儲存在本文所構造的鄰接矩陣中,為了體現單詞之間的語義相關性,每個單詞對之間的連接的邊均會被賦予一個詞共現標簽,它記錄了在訓練集中被該條邊連接的單詞對出現在同一句子中的頻率。為了避免詞共現標簽特征過于離散,本文對詞共現頻率進行分組:當單詞對的共現頻率等于20和21時,連接該單詞對的邊將會被標記為f0和f1;當單詞對的共現頻率范圍在[2k,2k+1](1≤k≤5)時,詞共現標簽則分別對應f2,…,f6,以句子評論“Food was okay,just so so ”為例,其帶有詞共現標簽的加權無向圖如圖4。

圖4 詞共現圖

因此,利用自注意力機制可以捕獲句子中每個詞的語義關聯詞,確定單詞對的詞共現頻率,比句法結構更靈活。WcoGCN可以適應對句法信息不敏感的在線評論。

為了有效交換SynGCN和WcoGCN模塊之間的相關特征,本文采用了BiAffine變換作為橋梁。流程如下公式:

(3)

(4)

式中,W1和W2是可訓練參數矩陣,最后在SynGCN和WcoGCN模塊的方面節點應用平均池化和連接操作。這樣,就得到了ABSA任務的最終特征表示:

(5)

(6)

(7)

其中f(·)是在方面節點表示上應用的平均池化函數。將得到的表示γ送入一個線性層,再通過一個softmax函數得到情感概率分布P。

P(a) = softmax (Wpλ+bp)。

(8)

其中,Wp和bp都是可學習權重和偏置。

2.3 正則化器

為了精確化詞共現特征,本文參考Li等人[12]設計了兩個正則化器來增強WcoGCN模塊。因此,在WcoGCN模塊的注意力分數矩陣上加入了一個正交正則化器,來減少不相關語義的干擾。此外,WcoGCN模塊應該能夠學習到不同于句法表示的詞共現信息。因此,在SynGCN和WcoGCN之間引入了差分正則化的算法。

每個單詞的相關詞應該在句子中的不同區域,所以注意力分數的分布應該很少重疊。因此,所有單詞的注意力得分向量之間應該是正交的。對于前文中給定的注意力得分矩陣Awco∈Rn×n,正交正則化器的表達式如下:

(9)

式中,I是一個單位矩陣,下標F表示Frobenius范數。所以,AwcoAwcoT各非對角元素最小化,從而維持矩陣Awco正交。

為了從SynGCN和WcoGCN學習到的兩種類型特征表示能夠體現包含在句法依賴樹和詞共現相關性中的不同信息。因此,本文在上述兩大模塊的鄰接矩陣間引入了差分正則化器,且該差分正則化器只約束WcoGCN。表達式如下所示:

(10)

3 損失函數

本文模型最終的損失函數計算如公式(11)所示:

(11)

式中:λ1,λ2,λ3為正則化系數;Θ為所有可訓練模型參數;lC是標準的交叉熵損失。計算如公式(12)所示:

(12)

式中,S包含所有的句子和方面對,C是不同情緒極性的集合。

4 實驗結果與分析

4.1 數據集

本研究在三個公共標準數據集上開展實驗。分別是Rest14,Lap14和Twitter的數據集,Rest14和Lap14來自SemEval ABSA公開挑戰賽[13]。此外,Twitter數據集是推文的集合。這三個數據集都有三種情緒極性:積極、消極和中性。這些數據集中的每個句子都用標記的方面及其對應的極性進行了注釋。這三個數據集的統計數據見表1。

表1 數據集統計表

4.2 實驗細節

對于本文實驗,運用預訓練的300維Glove[14]向量,從而實現初始化單詞嵌入的目標。單詞嵌入的維數設為30,然后將它們輸入到BiLSTM模型中,該模型的隱藏大小設置為50。為了減少過擬合,對BiLSTM的輸入詞嵌入應用dropout,其速率為0.7。SynGCN和WcoGCN模塊的dropout速率為0.1,SynGCN和WcoGCN層數為2層。全部的模型權值都進行相應的均勻分布初始化。本次研究中所運用的Adam優化器,實際設定的學習速率參數是0.002。Dual-SGCN于50個epoch之中開展訓練處理,設定具體的批處理數據是32。將三個數據集的正則化系數λ1和λ2分別設為(0.3,0.2)、(0.2,0.2)和(0.2,0.3),λ3設為10-4。

4.3 基線方法

為了驗證本文模型的有效性,將本文模型與一下方面級情感分析方法進行對比分析。

1) RAM[15]:使用多種注意和記憶網絡學習句子表征。

2) TNet[16]:設計一個多粒度的注意機制捕獲方面和上下文之間的字級交互。

3) ASGCN[17]:首先提出使用GCN學習面向方面的表示來進行面向方面的情感分類。

4) CDT[18]:在依賴樹上使用GCN來學習帶有句法信息的方面表示。

5) BiGCN[19]:采用層次圖結構集成詞共現信息和依賴類型信息。

6) R-GAT[20]:提出了一種面向方面的依賴樹結構,然后用關系GAT對新的依賴樹進行編碼。

4.4 實驗結果

為評估ABSA模型,應用準確率(Acc)、F1值為主要指標。在Rest14、Lap14和Twitter數據集上,本文的Dual-SGCN模型始終優于所有基于注意力和句法的方法。這些結果表明,本文的Dual-SGCN能夠有效地整合句法知識和詞共現信息。Dual-SGCN與RAM和TNet等以注意為基礎的方法進行對比,本文模型依靠句法知識來構建對應的依賴關系,從而規避注意機制導入的噪聲。除此之外,以句法為基礎的方法,如ASGCN、CDT、BiGCN、R-GAT等,雖然比基于注意的方法有更好的性能,但是其忽略單詞對的聯系??紤]到非正式或復雜的句子時,僅運用句法知識會造成表現不理想。主要實驗結果見表2。

表2 Dual-SGCN及主流ABSA方法在三個數據集的比較 %

4.5 消融實驗

為了進一步研究各模塊在Dual-SGCN模型中的作用,本次實驗進行了消融研究。SynGCN-模型只使用依賴解析器的離散輸出來構造GCN的鄰接矩陣。相反,SynGCN利用在依賴解析器中生成的概率矩陣作為鄰接矩陣。在Restaurant和Laptop數據集上,SynGCN模型的性能優于SynGCN-,這表明豐富的語法知識可以減輕依賴解析錯誤。WcoGCN模型利用自注意層構造詞共現圖的鄰接矩陣。這個WcoGCN模型在Twitter數據集上的表現優于SynGCN,因為與Restaurant和Laptop數據集相比,Twitter的評論在很大程度上是對語法信息不敏感的。Dual-SGCN w/oRO&RD表示去掉了正交正則化和微分正則化。類似地,Dual-SGCN w/oRO或RD表示只刪除一個正則化器。實驗結果表明,本文提出的兩種正則化方法能夠促進Dual-SGCN準確捕獲語義相關性??偟膩碚f,Dual-SGCN模型所有模塊都被實驗證實其發揮的作用。消融實驗結果見表3。

表3 消融實驗研究結果 %

4.6 最佳GCN層數分析

為了探究GCN層數這一關鍵超參數對于網絡性能的影響,本節設計了模型中圖卷積層數從1~8時在三個數據集上的對比實驗,實驗結果如圖5。

(a)GCN層數對準確率的影響

實驗結果表明,GCN層數設置為2時,網絡的性能達到最優,準確率(Acc)與F1值兩項指標均達到最高。圖卷積層數的持續增加導致實際性能下降。當圖卷積層數相對較少時,節點表示無法實現遠距離的傳播,限制了信息的傳遞范圍。然而,當層數過多時,由于梯度消失和信息冗余等實際存在的問題,模型變得非常不穩定,導致過擬合的現象加劇。因此,需要在選擇圖卷積層數時進行權衡,避免使用過多的圖卷積層,以免影響模型的性能。正確的層數選擇可以在保持信息傳遞范圍的同時避免過擬合的問題,從而提高模型的魯棒性和泛化能力。

5 結 語

提出一種Dual-SGCN模型架構,以解決基于注意力和基于句法依賴的ABSA任務方法的缺點。Dual-SGCN模型通過SynGCN和WcoGCN模塊集成了句法知識和詞共現信息。此外,為了有效地捕獲單詞之間的詞共現信息,從而提高語義相關性,本文在兩個模塊間提出了正交正則化和差分正則化。這些正則化器可以處理句法和詞共現相關的項,每個詞的重疊較少,并捕獲不同于句法結構的特征表示。在三個公共數據集上的實驗表明,本文的Dual-SGCN模型優于其他對比模型,提高了準確率。

猜你喜歡
層數正則句法
填筑層數對土石壩應力變形的影響研究
上海發布藥品包裝物減量指南
句法與句意(外一篇)
述謂結構與英語句法配置
MoS2薄膜電子性質隨層數變化的理論研究
剩余有限Minimax可解群的4階正則自同構
類似于VNL環的環
句法二題
詩詞聯句句法梳理
住在哪一層
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合