?

基于局部全局上下文引導的方面級情感分析

2024-02-21 06:00丁美榮賴錦錢曾碧卿徐馬一陳炳志
軟件導刊 2024年1期
關鍵詞:極性句法語義

丁美榮,賴錦錢,曾碧卿,徐馬一,陳炳志

(1.華南師范大學 軟件學院,廣東 佛山 528225;2.武漢大學 計算機學院,湖北 武漢 430072)

0 引言

通常來說,情感分析任務分為3 類:基于文檔的情感分析、基于句子的情感分析和基于方面的情感分析[1]。方面級情感分類(Aspect-level Sentiment Classification,ASC)是方面級情感分析(Aspect-Based Sentiment Analysis,ABSA)的子任務之一[2]。如圖1 所示,在句子“Good dishes but terrible service attitude”中,對“dishes”和“service attitude”兩個方面的情感極性分別為正和負。自深度神經網絡問世以后,以卷積神經網絡(Convolutional Neural Networks,CNN)[3]、門控遞歸單元(Gate Recurrent Unit,GRU)[4]、長短時記憶網絡(Long-Short Term Memory,LSTM)[5]、圖卷積網絡(Graph Convolutional Network,GCN)[6]等為代表的深度神經網絡模型廣泛應用于自然語言處理領域[7]。在方面級情感分類任務中,隨著注意力機制[8]的出現,深度神經網絡與注意力機制相結合的模型長期占據主流地位,并取得了可喜的成果[9-11]。方面詞上下文蘊含了豐富的句法信息,然而,受限于深度神經網絡的黑盒特性,其內在機理規律往往難以解釋,使得部分注意力機制未能充分捕捉文本中豐富的句法信息。

Fig.1 Example of sentimental dependencies圖1 情感依賴解析示例

近年來,利用句法信息提取文本特征的模型備受關注,通過依賴分析不僅可以利用詞與詞之間的關系,而且能以更好的語義指導分析上下文與方面詞之間的情感聯系。依賴句法最早由Michel[12]提出,其構造依賴句法分析樹(Dependency Syntax Parsing Tree,DSPT)顯示句子的句法信息。例如,圖1 展示了關于“Good dishes but terrible service attitude”餐廳評論的DSPT。其中“terrible”與“attitude”的依賴關系是“attitude”支配“terrible”,“terrible”服從于“attitude”。對于方面詞“dishes”,其具有3 種依賴關系,即“dishes”支配“Good”,“dishes”支配“but”,“dishes”服從于“attitude”。在方面級情感分析領域使用圖神經網絡進行句法信息提取的研究十分新穎,但如何降低文本的依賴解析錯誤與改進文本語義信息特征的提取仍需要作進一步研究。

鑒于方面詞上下文對方面詞情感極性的影響較大,因此如何能挖掘到方面詞上下文中的信息特征對于方面詞情感極性預測具有非常重要的意義。為了克服方面詞上下文對方面詞情感極性的影響,本文提出基于局部全局上下文引導的方面級情感分類模型。一方面,通過引入依賴句法分析樹為模型的輸入增加更多元的句法信息特征,另外通過局部上下文聚焦機制使目標方面詞到上下文的距離得到動態捕捉,從而更好地利用文本信息,同時也規避了部分文本噪音的影響;另一方面,將提煉后的局部特征向量與全局特征向量通過向量相加、相乘等方式進行引導處理,再通過使用全連接層的方式,較好地保留了提取的文本信息特征。最后,將處理過的局部向量與保留了信息特征的全局向量相加,作為輸入在聚合模塊進行處理,有效提取出方面詞上下文的信息特征,提高了模型對情感極性的預測準確度。

1 相關工作

在以往學者的研究工作中,傳統情感分析方法主要是基于文檔級或句子級的,相比之下,基于方面的情感分析是面向實體的研究,是更精細的情感分析任務。

基于傳統機器學習的方法則主要采用支持向量機(Support Vector Machines,SVM)[13]、k-最近鄰(k-Nearest Neighbor,KNN)[14]、條件隨機場(Conditional Random Field,CRF)[15]等進行情感分類。如Kiritchenko 等[16]使用SVM 檢測客戶評論中的方面詞以及對應情感;Akhtar等[17]使用SVM 和CRF 進行印地語的情感分類,并取得了不錯的效果;Patra 等[18]利用CRF 對Laptop 和Restaurant 數據集進行方面級情感分類,為消費者理性消費和制造商合理運營提供了一定的參考??傊?,這些方法主要要求人工選擇具有語義信息的特征進行訓練,有效減少了意見詞匹配的誤差,但是這些機器學習方法仍然具有一定的局限性,比如在數據集文本上需要人工提取特征這一步驟,最后的情感分析結果嚴重依賴于人工選擇的特征質量,并且無法對給定方面詞及其上下文之間的依賴關系進行建模。

與基于傳統機器學習的方法相比,深度神經網絡具有更復雜的模型結構、更強的特征提取和特征擬合能力,并且省去了人工提取特征的過程,降低了人工成本。隨著計算機硬件的發展、互聯網的普及,深度神經網絡也不再受到計算機硬件算力和樣本數據的局限。在以注意力為主的序列模型方面,Cheng 等[19]使用擴展的上下文模塊提高了Transformer 雙向編碼器的特征提取能力,同時提出成分聚焦模塊來提高形容詞和副詞權重,以解決平均池的問題;Huang 等[20]提出結合注意力機制的AGSNP 模型,使用兩個模塊分別處理上下文詞和方面詞,取得了不錯的效果;Ayetiran[21]提出兩個變體,其中CNN 變體用來提取高層語義特征,BiLSTM 變體處理CNN 的輸入,最后使用softmax 進行方面詞情感極性預測。在以句法信息為主的模型方面,Wang 等[22]提出R-GAT 模型,首先對依賴解析樹進行調整與剪枝,然后使用R-GAT 模型構建新的依賴樹進行情感預測;Gu 等[23]提出EK-GCN 模型,融合了外部知識,使用外部情感詞典為句子中的每個詞分配情感分數,構造情感矩陣,在一定程度上彌補了句法依賴樹不能捕獲邊緣標簽的缺點。在圍繞上下文建模的模型方面,Liu 等[24]提出的GANN 是一種封閉式的神經網絡,其專門設計了GTR 模塊用于學習方面詞的信息表征,同時編碼了上下文單詞與方面詞的語義距離、序列信息等情感線索;Phan 等[25]使用自注意力機制學習句法知識,提出句法相對距離以消除與方面詞句法聯系較弱的無關詞的不利影響;Xu 等[26]提出基于動態局部上下文和依賴簇(DLCF-DCA)的情感分析模型,其中DLCF 可以動態捕獲局部上下文的范圍,而DCA 則著重于提取語義信息。DLCFDCA 在局部上下文中加入了動態閾值,并且設置了依賴簇進行特征提取,達到了不錯的效果。

與基于注意力機制的模型相比,本文提出的模型融入了句法信息帶來的信息特征,使得特征更加多元化。相比于基于句法分析的模型,本文提出的模型以上下文為關注重點,圍繞上下文進行建模,同時引導局部上下文特征與全局特征進行特征交互而不是分別進行處理,有效保留了局部特征與全局特征,為后續進行特征聚合提供了有利條件。

2 LGCG模型

本文提出的基于局部全局的上下文引導網絡(Local-Global Context Guiding Network,LGCG)模型如圖2 所示。方面級的情感分類任務定義如下:給定長度為N 的句子,其由一組單詞構成,每個方面詞k均是句子的一部分。模型需要構建一個分類器預測一個或多個方面詞的情感極性。其中,M 為方面詞個數,M 始終小于N。

Fig.2 LGCG model圖2 LGCG模型

Fig.3 Context information transmission圖3 上下文信息傳遞

2.1 輸入嵌入層

輸入嵌入層將單詞轉換為攜帶語義信息的向量表示,對于一個句子,先使用預訓練語言模型BERT[27]將每個詞映射到嵌入向量ei∈Rd×1,其中詞向量的維度為d。

在LGCG 模型中,輸入嵌入層包括局部輸入嵌入和全局輸入嵌入,其中局部輸入的構造為Wl={[CLS]+Sentence+[SEP]},全局輸入的構造為Wg={[CLS]+Sentence+[SEP]+Aspect+[SEP]}。BERT 編碼器會將局部輸入與全局輸入分別編碼成,其中M、N分別為局部輸入和全局輸入的文本長度。[CLS]與[SEP]均為BERT 編碼器的標識符,分別表示句子的開始與結束。

2.2 局部上下文聚焦

本文采用局部上下文聚焦(Local Context Focus,LCF)機制[28],使得模型能動態識別局部上下文范圍,并對其進行更多的信息關注。另外,局部上下文聚焦使用上下文動態掩碼(Context Dynamic Mask,CDM)與上下文動態加權(Context Dynamic Weighted,CDW)兩種策略對上下文語義信息進行關注。

CDM 策略主要對語義相關性較低的上下文詞進行屏蔽,并主動丟棄超過SynRD 距離的上下文語義信息。在CDM 策略中,將SynRD 設置為3。當SynRD 小于該詞距離方面詞的長度時,則說明該詞對方面詞具有一定影響,將其賦值為1;當SynRD 大于該詞距離方面詞的長度時,則說明該詞對方面詞無影響,將其賦值為0。輸入序列中每個詞經過同樣的處理之后,均會產生長度一致的向量。CDM 策略具體計算過程如公式(3)—(5)所示。

CDW 策略則與CDM 策略不同,其對語義相關性較低的上下文詞進行了權重處理,仍然保留了超過SynRD 距離的上下文語義信息。在依賴樹的構造中,當句子的最大距離較大時,CDM 比CDW 有效,因為當最大距離很大時,也代表著局部上下文的范圍更大。在此情況下,CDM可以更好地減少無關語義信息的干擾。反之,當最大距離較小時,局部上下文的范圍有限,在此情況下,CDM 反而會丟失一部分局部上下文的語義信息,而CDW 可以保留局部上下文之外的部分語義信息,此時CDW 的加權效果會比CDM 更有效。CDW 策略具體計算過程如公式(6)—(8)所示。

其中,Global feature 為經過BERT 編碼器編碼后的全局特征向量,一方面,Global feature 與CDM/CDW 處理后的向量進行矩陣相乘,如公式(9)所示。另一方面,Global feature 與構造依賴樹時生成的方面詞依賴矩陣進行矩陣相乘,如公式(10)所示。其中,Depended 是由句法依賴樹生成的矩陣。

2.3 特征聚合層

特征聚合模塊(Features Aggregation,FA)包含兩個全連接層與一個編碼層。其中,第一個全連接層引入一個Dropout 層,而引入Dropout 則是為了防止過擬合的情況出現,同時提高模型對不同數據集的泛化能力。Featurel矩陣為CDM/CDW 矩陣與Depended 矩陣的相加。具體計算過程如公式(14)、(15)所示。

第二個全連接層引入一個池化層,用于將局部上下文和全局上下文的聚合特征由高維降至低維。在經過特征聚合層處理后,將聚合后的特征向量通過Encoder 編碼器進行編碼,之后通過池化層進行特征提煉,并應用其中一個層作為文本情感極性的預測結果,具體計算過程如公式(16)、(17)所示。其中,,dh為模型默認維度。

3 實驗與分析

3.1 數據集

為了驗證模型效果,本文選取SemEval-2014 的 Restaurant、Laptop 數據集[29]以及SemEval-2015 的Restaurant數據集[30]和SemEval-2016 的Restaurant 數據集[31]進行實驗,這4 個數據集是當前方面級情感分類任務中使用最廣泛的數據集。4 個數據集中的情感極性分為3 類:積極、中性和消極。所有數據集的統計信息如表1所示。

Table 1 Overall statistics of datasets表1 數據集總體統計

3.2 超參數設置

本文采用交叉熵損失函數作為目標函數,如公式(18)所示。

其中,C 為情感極性類別,為實際的情感極性類別,yi為模型預測的情感極性類別,λ為L2正則化參數,T為模型的參數集。

本文模型使用Pytorch 框架[32]實現,模型訓練過程中采用Adam[33]優化器,參數初始化函數則是采用xavier_uniform[34],模型相關超參數如表2所示。

Table 2 Settings of model hyperparameter表2 模型超參數設置

3.3 評價指標

本文使用準確率[35](Accuracy)和Macro-F1[36](MF1)評估模型性能,計算過程如公式(19)-(23)所示。準確率表示所有類別中正確預測數在所有樣本中的比例,通常準確率越高,表明模型性能越好。由于以上數據集分布不平衡,不能有效反映分類器的性能,所以采用MF1 作為額外的衡量標準。

對于情感極性分類i,TPi是正確預測的樣本數,FPi是將積極樣本錯誤預測為其他類別的積極樣本數,FNi是將消極樣本錯誤預測為其他類別的消極樣本數,Pi是精確率(Precision),Ri是召回率(Recall),MF1 值則是所有類別的F1結果。

3.4 對比模型

為了全面、合理地評估模型,本文將方面級情感分類基線模型分成3 類:基于注意力、基于句法分析、基于上下文建模的基線模型。

3.4.1 基于注意力的基線模型

本文引入5 種具有代表性的基于注意力機制的方面級情感分類基線模型。

(1)IAN。IAN 以交互式注意力機制學習文本上下文和目標,分別生成目標和上下文的表征。到目前為止,IAN 提出的方面項與上下文的交互體系結構仍然是方面級情感分類任務中最常用的交互體系結構[37]。

(2)AOA。AOA 以相同的方式對各個方面詞和句子進行建模,并捕獲各個方面詞和上下文句子之間的相互作用。AOA 模塊聯合學習方面詞和句子的表征,并自動聚焦于句子中的重要部分[11]。

(3)CF-CAN。CF-CAN 提出擴展的上下文模塊將上下文與目標詞進行聯系,使用一個多頭的注意力層學習目標與上下文之間的關系,解決了以往采用注意力機制的模型需要將序列壓縮成向量的問題[19]。

(4)ASGNP。ASGNP 改進了GSNP,用輸出門代替消防門以控制輸出,結合了注意力機制以有效提取上下文與方面詞之間的語義相關性[20]。

(5)CNN-BiLSTM。CNN-BiLSTM 設計CNN 與BiLSTM的變體,可以從高級語義與上下文特征兩個方向學習并進行捕獲,修改了目標表征使得模型性能得到提高[21]。

3.4.2 基于句法分析的基線模型

(1)ASGCN-DG。ASGCN-DG 以句法約束和遠程單詞依賴性為重點,利用圖卷積網絡在句子的DSPT 上得到鄰接矩陣,克服了注意力機制和基于CNN 模型的一些局限性。

(2)ASGCN-DT。ASGCN-DT 是ASGCN-DG 的一種變體。與ASGCN-DG 不同的是,ASGCAN-DT 構造的鄰接矩陣較為稀疏,因為ASGCN-DT 認為在DSPT 中,父節點易受子節點影響。

(3)R-GAT+BERT。R-GAT+BERT 通過對DSPT 的重新調整和剪枝,定義了一個較為統一的面向方面詞的依賴樹結構,并使用關系圖注意力網絡對新的依賴樹結構進行編碼[22]。

(4)EK-GCN。EK-GCN 充分考慮了大量與文本相關的外部知識,通過引入外部知識重構句法依賴樹,并設計了WSIN 模塊以充分考慮當前方面詞的信息,最后與評論的上下文信息進行交互[23]。

3.4.3 基于上下文建模的基線模型

(1)BERT-PT。BERT-PT 提出一種后訓練方法,用于更好地調整BERT 以包含更多領域知識和任務知識,從而有效地幫助BERT 更好地適應當前任務。

(2)GANN。GANN 使用門截斷RNN 學習信息,特別是方面相關的情感線索表征。其同時編碼上下文單詞之間的相對距離、方面詞、序列信息和語義依賴關系,從而更好地進行情感極性分類[24]。

(3)LCFS-BERT-CDM。LCFS-BERT-CDM 設計了一種基于DSPT 的局部上下文聚焦機制,利用方面詞與上下文之間的距離度量上下文中更重要的部分。LCFS-BERTCDM 屏蔽了離方面詞較遠的詞[28]。

(4)LCFS-BERT-CDW。LCFS-BERT-CDW 是LCFSBERT-CDM 的一個變體,其考慮了離方面詞較遠的詞帶來的影響[28]。

3.5 實驗結果與討論

基線模型與本文模型的實驗對比結果如表3 所示。由表3 可知,相對于對比的基線模型,本文提出的LGCG模型在方面級情感分類任務的4個數據集上,F1值以及準確率均有1%以上程度的提升。

Table 3 Experimental comparisons of several models in different datasets表3 幾類模型在不同數據集上的實驗結果對比 %

(1)LGCG 模型在方面級情感分類任務上的表現均超越了基于注意力的基線模型,主要因為其有效捕捉了局部文本中情緒信息詞帶來的影響。相比于CF-CAN 的多頭共注意力,LGCG 提出一個特征聚合模塊進行局部特征與全局特征的匯聚,提高了模型的表達能力。

(2)LGCG 模型在4 個數據集上的表現均優于基于句法分析的基線模型。不同于ASGCN-DG 模型所關注的鄰接矩陣,LGCG 模型使用局部上下文聚焦機制,使得模型能動態識別不同方面詞的局部上下文范圍,更加關注局部上下文,而不采用圖卷積網絡提取文本的句法信息。其次,相比于R-GAT-BERT 模型,LGCG 模型在不需要調整依賴樹結構的前提下,將句法信息融入模型,使得信息特征更加多元化,提高了模型的情感預測性能。

(3)LGCG 模型在基于上下文建模的基線模型中也取得了最高分數。其相比于LCFS-BERT 模型在4 個數據集上各項指標均有1%以上的提高,主要因為LCFS-BERT 模型雖然也采取LCF 機制,但其并未有效引導局部特征與全局特征進行交互,而是分別獨立地處理信息。LGCG 模型在關注方面詞局部上下文的同時,也進行了全局特征與局部上下文特征信息的融合操作,依賴矩陣使特征向量在融合過程中消除了部分信息噪音,從而使模型對情感極性的預測更為準確。

另外可以發現,相比于準確率,LGCG 模型在召回率上的表現會更突出一些,充分說明模型對情感極性的預測準確率有較大提升,也表明LGCG 模型的各個組件均起到了作用。

3.6 消融實驗與分析

為了驗證本文所提出模型中各個組件的性能,本文進行了消融實驗。在4 個基準數據集上的實驗結果如表4 所示。在表4 中,“without”表示去除相關組件,“equipped”則表示使用該組件。

Table 4 Result of ablation experiments表4 消融實驗結果 %

(1)可以看到當去除FA 模塊時,模型對文本情感極性的預測準確率和F1 值在4 個數據集上均下降了1%以上。原因是模型雖然保留了對局部特征與全局特征交互的過程,但模型直接進行特征提取,缺少了特征聚合操作,導致模型對文本信息特征提取不足,表達能力下降。

(2)當去除LCF 模塊時,此時在4個數據集上模型的準確率和F1值均下降了2%以上,其中F1值的下降程度更為明顯,在Restaurant14、Restaurant15 數據集上分別下降了6.48%、4.54%,充分說明了LCF 模塊在模型中對局部上下文的聚焦作用起到了至關重要的作用,是LGCG 模型的關鍵模塊。

(3)當將LCF 模塊與FA 模塊都去除時,明顯看到模型的各個指標在4 個數據集上均下降了3%~4%左右。這是因為模型缺少了主要模塊,兩個通道的信息特征并未進行特征交互,丟失了部分上下文信息特征,并且模型直接進行特征提取,模型提取的信息不足,導致情感極性的預測準確度下降。

總的來說,從消融實驗結果可以看出,LGCG 模型的各個組件在方面級情感分類任務中均起到了至關重要的作用。

4 結語

本文提出基于局部上下文和特征融合的方面級情感分析模型LGCG,通過引入句法信息以豐富特征,同時使用LCF 機制以及局部全局特征引導的方式進行特征交互,很好地保留了文本中的信息特征,最后對特征進行聚合與提取,提高了模型的表達能力,有效提升了模型在方面級情感分類任務中的性能。在4 個基準數據集中與基線模型相比,本文提出的模型在F1 值以及準確率上均有1%以上的提升。

雖然本文模型與基線模型相比有一定的進步,但在實驗中仍然發現了一些影響模型性能的問題:①使用不同的分詞器工具會影響對情感極性的預測。針對此問題,未來將考慮采用更先進的分詞器進行文本分詞工作;②使用不同依賴樹構造工具構造出的依賴樹存在不一致的問題,導致模型性能表現不理想。針對此問題,未來將考慮使用更好的依賴樹構造工具。

猜你喜歡
極性句法語義
句法與句意(外一篇)
述謂結構與英語句法配置
語言與語義
跟蹤導練(四)
句法二題
詩詞聯句句法梳理
“上”與“下”語義的不對稱性及其認知闡釋
表用無極性RS485應用技術探討
一種新型的雙極性脈沖電流源
認知范疇模糊與語義模糊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合