?

面向方面級情感分析的多視圖表示模型

2024-03-12 08:58徐學鋒
計算機工程與應用 2024年5期
關鍵詞:句法注意力語義

徐學鋒,韓 虎

蘭州交通大學電子與信息工程學院,蘭州 730070

情感分析是自然語言處理中的一項重要任務,主要是分析主觀性文本的情感傾向。方面級情感分析(aspect based sentiment analysis,ABSA)旨在識別句子中出現的某一特定方面的情感極性(例如,消極、中性或積極)。以評論“The drinks are always well made and wine selection is fairly priced.”為例,給定句子中包含兩個方面“drinks”和“wine selection”,所對應的情感極性分別是積極和消極。

近年來,深度學習在情感分析領域取得了令人矚目的成功,其中基于長短期記憶(long short-term memory,LSTM)[1]、基于卷積神經網絡(convolutional neural network,CNN)[2-3]和基于記憶網絡[4]等是解決情感分析任務的主流模型。上述模型僅從句子的上下文序列中捕獲信息,忽略了單詞間的句法關系,對于句子“food was okay,nothing special.”“food”很容易關注到觀點詞“okay”,難以學習到距離方面較遠觀點詞“nothing special”所攜帶的情感信息。為了解決長距離單詞依賴問題,利用基于圖神經網絡(graph neural network,GNN)的模型整合句子的句法結構[5-6],能夠更好地捕捉句子的全局信息,比不考慮句法關系的模型具有更好的性能。在句法依存樹中,方面詞“food”同時關注到觀點詞“okay”和“nothing special”,如果沒有正確利用方面詞與觀點詞間依賴關系,通過圖卷積操作之后會導致關鍵信息丟失,無法充分發揮句法結構的影響。盡管基于句法的方法很有效,但忽略了語料庫級別的詞共現信息,“nothing special”在SemEval 2014 數據集中以非正極性出現四次,模型應當能夠通過其全局信息對抗觀點詞“okay”的正極性,以做出正確的預測。任何沒有充分利用句法和詞共現信息的模型,都會導致最后分類器對句子中特定方面的情感趨向產生錯誤判斷。

目前融合句法信息和語義信息進行情感分類的復合方法,僅考慮句法與語義層面的信息交互,導致了最終的句子表示中缺少原始的上下文信息。此外,句法和語義信息是上下文特征的補充,融合模塊直接將句子的不同表示進行拼接,難以利用他們之間的互補性,忽略各自局部特征的相互影響。受到上述啟發,為充分利用句法依賴和詞共現信息增強評論語句的特征表示,本文提出了融合多視圖表示的圖卷積網絡模型(integrated multi-view representation graph convolutional network,ⅠMR-GCN),通過自注意力和特定方面注意力,獲取到基于上下文的表示,聯合句法與語義層面以增強句子的最終表示,并考慮一種局部和全局融合策略,逐步使得各分支的特征表示能夠相互受益。本文的主要貢獻如下:

(1)提出了一種融合多視圖表示的圖卷積網絡模型,該模型利用上下文信息、句法依賴信息和詞共現信息,通過圖卷積和注意力操作,分別獲得評論語句基于上下文、基于句法和基于語義的三視圖表示。

(2)設計了一種分層融合方式,通過對三種表示的不同組合與卷積操作以實現不同視圖之間信息的共享與互補,完成局部到全局的整合。

(3)本文在5 個公開數據集上評估模型的性能,實驗結果表明,該模型對不同數據集的準確率(accuracy,Acc)與宏平均F1值(Macro-F1,MF1)有所提升,并進一步證明了融合句法依存信息與詞共現信息對模型的重要性。

1 相關工作

1.1 方面級情感分析

近幾年,針對方面級情感分析的研究越來越多,國內外學者都集中于使用各種類型的深度學習模型來解決問題?;谏窠浘W絡的深度學習通常利用詞向量模型將文本轉化為實體向量,接著構建神經網絡模型并加以訓練,從而得到文本的情感趨向。

Tang等人[7]提出了基于目標依存的長短期記憶網絡(target-dependent long short-term memory,TD-LSTM)模型,使用兩個LSTM分別對方面詞的左右兩側的文本進行建模。然而,單純基于神經網絡的方法不能有效地區分句子中每個單詞的重要程度,而且句子的情感極性不僅由內容決定,還與所涉及的方面密切相關。Wang等人[8]提出一種基于注意力機制的特定目標情感分類模型,該模型通過注意力加權操作捕捉上下文中不同詞對特定目標的影響,從而識別句子中不同目標的情感極性。Ma 等人[9]提出了一種交互注意力神經網絡(interactive attention networks,ⅠAN)模型,基于不同的注意力網絡處理上下文和方面詞,獲得句子和方面的隱藏特征信息,使得兩者的聯系更緊密。自此,基于注意力機制的混合神經網絡模型廣泛應用于情感分類任務中。雖然注意力機制有助于模型關注句子中的不同部分,但這類方法僅針對句子的序列信息,難以捕捉詞語和句子中方面之間的句法依賴關系。

為了充分利用句法依存信息,Zhang 等人[10]使用圖卷積網絡(graph convolutional network,GCN)從句法依存樹獲取句子中的語法依賴信息,將學習到的節點表示結合注意力機制獲得更好的句子表示,從而識別方面所對應的情感極性。隨后,眾多學者利用圖卷積網絡處理非結構化數據的優勢,對方面級情感分析任務進行深入研究。Hou 等人[11]設計了一種基于選擇性注意力的GCN 模型(selective attention graph convolutional networks,SA-GCN)來處理方面詞與觀點詞在依賴樹上相距較遠的情況,根據相關的上下文直接從觀點詞中獲取信息。Liang等人[12]利用面向方面和方面間的句法依賴關系,提出了一種具有交互式圖卷積網絡(interactive graph convolutional networks,Ⅰnter-GCN)的圖感知模型,通過不同句法關系的不同連接權重豐富了關鍵方面的上下文句法依賴表示和不同方面之間的相互情感關系。

目前,還有學者提出了語義和語法層面對句子的隱藏特征進行整合,使得文本中不同節點信息之間進行充分的交互,這能夠進一步提高工作性能。Zhang 等人[13]致力于融合層次句法信息和局部詞匯語義信息,通過兩層的融合模塊和門控機制分別處理圖中功能不同的關系類型。Wang 等人[14]設計了一個關系圖注意網絡(relational graph attention network,R-GAT),利用多頭注意機制學習鄰域節點的語義信息,并添加了額外的關系頭來捕獲不同上下文之間的語法關系。

1.2 注意力機制

注意力機制(attention mechanism)[15]作為一種資源分配方案,將有限計算資源用來處理更重要的信息。為了使得神經網絡模型可以準確捕捉文本或語句中的關鍵情感詞,注意力機制常被應用于情感分析任務中。針對細粒度的情感分析任務,Liu 等人[16]使用注意力機制從隱藏狀態向量中提取語法和位置兩個層面的鄰域特征,以判斷句子的情感極性。Zhang 等人[17]提出了一種結合自注意力的方面感知注意力機制,以獲得句子的注意力權重矩陣,使得模型能夠學習到與方面相關的語義信息,還包含整個句子的全局語義。注意力機制不僅可以提高重要詞匯的權重,還能捕捉深層語義信息并融合多種特征信息。

在本文捕獲句子級文本的三種特征表示中,假設Ri表示通過放縮點積注意力得到的句子特征表示,其計算如下:

其中,表示第i個句子中第j個單詞的重要程度,表示第j個LSTM 的隱藏狀態向量。注意力權重的計算如式(2)所示:

假設,g()· 是計算單詞重要性的函數,具體如下:

其中,V是參數向量,Wh是參數矩陣,bh是偏置項。

1.3 句法依賴樹

句法依存分析旨在揭示語言的內部依賴關系,使用依賴解析器將一個句子轉化為圖形結構,清晰地展現出詞與詞之間的邏輯關系。受文獻[10]影響,通過句子中的句法依賴信息補充句子的表示,避免給定的方面錯誤地將句法不相關的詞語作為描述,逐漸成為目前針對方面情感分析的一種有效手段。Tang 等人[18]認為句法信息和方面之間的信息交互至關重要,利用圖卷積網絡學習獲得句法依賴信息,并使用注意力機制將句法特征與上下文信息交互以獲得語義信息。Wu和施榮華等人[19-20]通過融合句法信息的圖神經網絡處理文本特征,同時加強文本中不同節點信息之間的交互,從而提高文本情感分析的準確性。

本文通過spaCy 文本處理庫中的依存解析器構建句子的句法依賴樹,以“The drinks are always well made and wine selection is fairly priced.”為例,其句法依賴樹結構如圖1所示。其中,紅色字體表示方面術語,黃色字體表示觀點詞。方面術語“drinks”通過依賴關系“nsubj”“acomp”和“advmod”關注到對應的觀點詞“well made”,方面術語“wine selection”通過相應的依賴關系關注到觀點詞“fairly priced”。

圖1 句法依賴樹Fig.1 Syntactic dependency tree

1.4 詞共現矩陣

共現矩陣遵循的基本原理是:類似的詞往往出現在一起,并且會有類似的上下文。通過統計整個語料庫中所有單詞共現的頻率所構建的全局詞法圖(global lexical graph,GLG)能夠反映隱含的語義信息,同時建模一個詞和其余單詞的關系。

常見詞向量模型GloVe[21]與word2vec[22],都是根據詞匯的一塊出現的頻率,即單詞的共現信息,將語料編碼成一個向量。其中word2vec 是基于預測的模型,根據上下文來預測中間的詞匯,或者根據中間的詞匯預測上下文,而GloVe 是基于計數的模型,通過對全局共現矩陣進行降維,從而使得最終的表示中具有語料級的全局統計特征。Dai等人[23]也考慮將詞共現信息作為結構性語義,設計了一種雙通道語義學習圖卷積網絡來提高細粒度情感分析的模型性能。

本文使用的詞共現矩陣,主要通過以下兩個步驟獲?。旱谝徊?,構建全局詞法圖GLG,其中每個節點表示語料庫中的一個單詞,每條邊表示兩個單詞之間的共現頻率。首先,根據語料庫中所有不重復單詞構成詞表,然后依次計算每個單詞與上下文在窗口中同時出現的頻數,得到存儲各個單詞共現次數的全局共現矩陣,如式(4)所示:

其中,Countert(wi,wj)表示語料庫中單詞wi和單詞wj同時出現的次數,τ代表該語料庫包含單詞wi和單詞wj的句子數量。

第二步,為每個句子構建一個局部詞匯圖(local lexical graph,LLG),其大小是對應句子長度,通過遍歷將全局詞法圖GLG中的單詞分布信息轉換為局部詞匯圖LLG,利用局部共現矩陣C存儲句子的共現信息,其中兩個相同單詞之間具有相同的共現概率。

2 提出模型

給定包含n個單詞的句子S={w1,w2,…,wa+1,…,wa+m,…,wn-1,wn} ,其中,長度為m的方面項a={wa+1,wa+2,…,wa+m} ,即方面項a是句子S的一個子序列。方面級情感分析旨在預測句子S中特定方面a的情感極性y={-1,0,1} ,其中,-1,0,1 分別表示消極、中性和積極。

本文提出的ⅠMR-GCN 模型架構如圖2 所示,模型從多個視圖學習特征表示,即包含上下文、句法和語義三個分支。具體而言,上下文和句法分支分別從預先訓練的單詞嵌入中提取句子的語境和句法特征,并明確地建立句子中的方面和觀點詞之間的相關性。其次,語義分支通過引入語料的詞匯圖進行建模,將詞共現信息融入所學習的語義特征中。最后,通過層級融合模塊將學習到的多視圖表示進行協同融合。

圖2 ⅠMR-GCN模型結構示意圖Fig.2 Model structure diagram of ⅠMR-GCN

2.1 基于上下文的表示

2.1.1 詞嵌入與隱藏層

首先使用嵌入矩陣E∈?|V|×de獲得每個單詞對應的詞嵌入向量,其中 |V|和de分別表示詞表的大小和詞嵌入的維度。本文采用GloVe[21]嵌入模型和BERT[24]預訓練語言模型,將句子S和方面a進行映射處理,使其轉換為詞嵌入向量X={x1,x2,…,xa+1,…,xa+m,…,xn-1,xn},xi∈?de。然后將初始化后的單詞向量輸入到Bi-LSTM 中,將經過前向LSTM 輸出與后向LSTM 輸出的特征表示進行拼接,H={h1,h2,…,ha+1,…,ha+m,…,hn-1,hn},hi∈?2dh是隱藏狀態向量,其中dh表示單向LSTM輸出的隱藏狀態向量維度,Ha={ha+1,…,ha+m}是方面隱藏狀態向量。

2.1.2 注意力層

為了捕獲特定方面的上下文特征,本文引入了兩種注意力機制來實現。首先,通過自注意力機制充分學習上下文中的長距離依賴關系,然后使用方面感知的注意力機制,給方面和上下文分配合理的注意力權重,再利用加權聚合操作得到特定方面的上下文表示Rc。

2.2 基于句法的表示

在句法分支中,利用句子中明確的句法信息學習對應的句法感知表示,記作Rd。需要注意的是,在上下文、句法和語義三個分支中均共享單詞嵌入和Bi-LSTM的參數,以減少模型參數量。

2.2.1 圖卷積網絡層

基于方面的情感分類旨在從方面的角度判斷情感,因此,需要一種面向方面的特征提取策略。本文在句法依賴樹上應用多層圖卷積,再經過特定方面的掩蔽層獲得面向方面的特征。

對于圖G={V,}A,使用圖卷積運算更新每個節點的表示,如式(5)所示。這里值得注意的是,本文并沒有直接將輸入連續GCN層,每層網絡輸出都通過位置編碼處理,用以消除句法依存分析帶來的噪聲。利用式(6)計算句子中單詞間的位置距離特征pi,以增強距離方面詞較近的單詞信息,減弱距離較遠的信息。然后利用位置權重函數F(·)將位置距離特征融入每層圖卷積網絡的輸出向量中,如式(7)所示。

其中,A是通過句法依存分析獲得的鄰接矩陣,di=是依賴樹中第i個單詞節點的度。hli是第l層節點vi的網絡輸出,表示前一層圖卷積網絡輸出結果,Wl和bl分別是權重矩陣和偏置項。

其中,pi是第i個單詞的位置權重,a+1 和a+m分別是方面項開始和結束的位置。第L層GCN 的輸出為hL,如式(8)所示:

2.2.2 特定方面的掩蔽層

本文屏蔽了非方面詞的隱藏狀態向量,并保持方面詞的向量不變,如式(9)所示,經過掩蔽層的操作保留方面的特征信息,其輸出如式(10)所示:

2.2.3 基于方面注意力層

本文通過圖卷積網絡捕獲方面周圍的上下文信息,考慮了句法依賴關系和長距離依賴關系。但為了最終的表示能夠充分包含方面的特征信息,使用注意力機制將經過Bi-LSTM的隱藏狀態向量H與方面特征掩蔽后的方面詞之間進行交互,從而在句法上建立方面詞和相關觀點詞之間的聯系,利用式(11)~式(13)得到基于句法的表示Rd。

2.3 基于語義的表示

語義信息和句法信息對于句子的表語義信息和句法信息對于句子的表示學習是相互增強的[25]。在基于上下文的分支中,雖然能夠捕獲特定方面的上下文語義信息,但忽略了語料庫級別的結構性語義信息。為了充分學習單詞的共現信息,基于語義的分支也使用與句法分支相同的圖卷積捕捉方式,將網絡的輸出結果經過注意力機制實現語義交互,得到語義感知的表示,記作Rs。

2.3.1 圖卷積網絡層

與基于句法的表示分支結構類似,通過多層圖卷積捕捉存在于單詞共現矩陣中的隱含語義,同樣利用特定方面的掩蔽層,獲得面向方面的結構語義特征。

對三個分支中共享的Bi-LSTM 層輸出的隱藏狀態向量H進行式(6)的多層圖卷積操作,學習句子上下文和語料庫中單詞的語義特征,其中,需要將式(6)中基于句法依賴樹的鄰接矩陣A替換為單詞的局部共現矩陣C,第L層圖卷積網絡的輸出結果h?L。

2.3.2 語義交互層

為了在語義上建立方面詞和相關觀點詞之間的聯系,使用注意力機制將經過Bi-LSTM 獲取的隱藏狀態向量H與掩蔽操作后的方面詞向量之間進行交互,基于語義的表示Rs由式(14)~式(16)得出:

2.4 融合表示層

簡單拼接上述三個不同分支所得到的特定方面的句子表示,會導致輸出層待分類的信息過多,無法有效地提高性能。本文采用層級融合的表示方法充分利用三個分支中捕捉的信息,使得各個分支之間可以相互借鑒、取長補短,如圖3所示。

圖3 層級融合模塊示意圖Fig.3 Ⅰllustration of hierarchical fusion module

首先,第一層的融合機制是將三個分支的表示兩兩拼接成新的向量,即[Rd,Rc] 、[Rc,Rs] 和[Rd,Rs] ,融合后的表示輸入到三個獨立的全連接網絡中,以便獲得預測的情感特征表示Rdc,Rcs,Rds。

由于卷積網絡只需對數據的局部信息進行感知,就能夠得到全局的特征信息。第二層的融合利用一維卷積,使得上下文可以更好地與語義信息和語法信息相結合,從而獲得最終的表示Rfinal。

2.5 輸出層

本文將獲得的最終表示Rfinal輸入到全連接層,最后通過softmax進行分類輸出:

其中,p為情感極性決策空間,Wp和bp分別是權重參數和偏置項。

采用Adam 算法和L2正則化優化情感分類,使用交叉熵損失函數對該任務進行訓練:

其中,y∈Rdp為真實標簽分布,dp是情感分類的極性維數,pi為預測的第i個元素極性分布,λ是L2正則化系數。

3 實驗

3.1 實驗數據

為了驗證本文模型的有效性,本文在5個公開的數據集上進行了實驗,分別是ACL14 Twitter[26]、SemEval 2014[27]、SemEval 2015[28]、SemEval 2016[29]。為了避免數據集中隱含噪聲的影響,移除其中存在極性沖突或者句子中沒有明確方面的樣本,訓練和測試實例的數據量如表1所示。

表1 數據集統計Table 1 Dataset statistics

3.2 參數設置與評價指標

本文實驗中采用300維的預訓練GloVe初始化詞嵌入,單向LSTM 輸出的隱藏狀態維度設置為300,使用BERT預訓練模型時,隱藏狀態維度為768。模型中的權重采用滿足均勻分布進行初始化,GCN的層數設置為2,此時模型的性能表現最好。模型的超參數如表2所示。

表2 模型的超參數設置Table 2 Hyperparameters setting of model

模型采用準確率(accuracy,Acc)與宏平均F1 值(Macro-F1,MF1)等作為評價指標。對于單個類別,設TP 表示正確預測的樣本,FP 表示其他類別被預測為當前類別的樣本,FN 表示當前類別被錯誤預測為其他類別的樣本,則精準率(precision,P)、召回率(recall,R)和F1值的計算公式為:

利用式(22)、(23)計算多個類別的準確率Acc與宏平均MF1:

3.3 對比實驗

為了全面評估本文的模型,將其與一系列基準模型進行比較,各個模型簡介如下所示。

LSTM[7]:使用單個LSTM 進行上下文編碼,將最后一層隱藏狀態向量作為最終分類特征輸出。

ATAE-LSTM[8]:引入注意力機制,通過注意力權重分配強化特定目標的上下文表示。

MemNet[4]:將深度記憶網絡與多層注意力結合,以計算上下文單詞對某個方面的重要性。

ⅠAN[9]:提出方面與上下文具有交互性,利用交互注意力網絡有效建模方面與上下文間關系。

AF-LSTM[30]:提出一種融合方面的LSTM 模型,編碼方面和上下文之間的關系得到聯合表示,使得注意力層專注于學習上下文的相對重要性。

TD-GAT[5]:設計一種面向屬性層次的目標依賴圖注意力網絡,以充分利用句子的句法依賴關系。

ASGCN[10]:一種針對特定方面的情感分類框架,通過句法依賴樹加權的圖卷積操作學習到句法信息和長距離單詞依賴關系。

Bi-GCN[13]:設計了雙層交互式圖卷積網絡模型,聯合建模層次句法圖和詞法圖集成的詞共現信息和句法依賴信息,獲得更豐富的特征表示。

MⅠGCN[31]:通過多交互圖卷積對語法與語義特征進行融合操作,利用語義信息補充句法結構,解決依賴解析不準確的問題。

SK-GCN-BERT[32]:通過靈活的圖卷積神經網絡(GCN)來建模句法依賴樹和常識知識圖譜,使得句子基于語法和知識的方面表示充分融合。

DGEDT-BERT[33]:設計了通過依賴樹增強的雙通道transformer網絡結構,以迭代交互方式聯合學習基于平面的表示和基于圖的表示。

3.4 實驗結果與分析

本文進行了四組對比實驗,如表3所示。

表3 不同模型的結果對比Table 3 Comparison of results of different models單位:%

第一組(基線模型)主要包括基于LSTM 和注意力結合的各種建模方法(LSTM、ATAE-LSTM、MemNet、ⅠAN 和AF-LSTM),相比于僅使用LSTM 構建的模型,ⅠMR-GCN在5個數據集上的準確率與宏F1分別平均提升了4.99個百分點和8.05個百分點,并在Rest14數據集上表示尤其突出,準確率與宏F1 分別提升了7.48 個百分點和10.10 個百分點,證明對句法和語義結構進行聯合建模的有效性。

第二組(GCN 模型)是在建模上下文信息的基礎上,通過引入GCN 整合文本的各類結構信息建立的模型(TD-GAT、ASGCN、Bi-GCN、MⅠGCN),相比于GCN的基準模型ASGCN,ⅠMR-GCN 在5 個數據集上的準確率與宏F1分別平均提升了1.75個百分點和2.94個百分點,表明共現語義和上下文信息與句法信息集成有利于識別方面的情感極性??傮w來看,基于GCN 構建的各類模型的整體性能要優于基于LSTM 和注意力結合的各種方法。

第三組則是對比最新基于GCN 的模型Bi-GCN 和MⅠGCN,本文模型ⅠMR-GCN 在5 個數據集上的準確率均有不同程度提升,其中,相比于BiGCN準確率平均提升了1.07 個百分點,相比于采用多交互機制的MⅠGCN平均提升了0.71 個百分點,證明了本文分層融合上下文、句法和語義三種特征信息的必要性。

第四組是使用了BERT預訓練語言模型,整體上顯著提高了本文模型ⅠMR-GCN-BERT 的準確性,相較于SK-GCN-BERT 和DGEDT-BERT 模型,本文模型在Lap14、Rest15和Rest16數據集上的表現更加優異。SKGCN-BERT 通過外部知識的引入,解決Twitter 數據集中評論語句語法結構較弱的問題。為了避免依賴樹因評論語句的隨意性所引入的噪聲信息,DGEDT-BERT模型利用迭代交互的雙通道transformer 結構進行聯合細化,在目標任務上具備較好的性能。

3.5 消融實驗

在本節及后續章節進行的實驗中,除非另有說明,所有提到的ⅠMR-GCN 模型均基于GloVe,并認為ⅠMRGCN-BERT顯示出類似的趨勢。

如表4所示,W/O sem-syn表示僅保留上下文分支,W/O con-sem 表示僅保留句法分支,W/O con-syn 表示僅保留語義分支,W/O semantic代表上下文和句法信息進行交互,W/O syntactic代表上下文和語義信息進行交互,W/O contextual代表句法和語義信息之間交互。

表4 消融實驗結果Table 4 Ablation experiment results單位:%

總體上看,不同分支得到的句子表示都對本文模型有益。將本文模型分別與W/O sem-syn、W/O con-sem和W/O con-syn進行對比,實驗結果說明了單獨使用三個分支建模的性能相對較差,模型所學習的信息過少。

通過比較W/O semantic、W/O syntactic 和W/O contextual三種不同的結合方式,證明上下文、句法和語義信息之間的交互是有效的,其中W/O contextual的性能更優異,表明句法和語義信息之間的交互對于句子表示學習更加有利。同時,對比上述分支的實驗性能,去掉任何一個分支,模型的準確率和宏F1值均下降,進一步說明融合多個視角表示的重要性。

3.6 不同的融合方式

為了驗證本文提出的分層融合模塊的有效性,將其與另外兩種典型的信息融合方法進行比較,具體如下:

(1)“Contact”:多視圖表示直接串聯成行,并通過全連接層進行融合;(2)“Sum”:將表示輸入到三個獨立的全連接層中,對元素求和并進行融合;(3)“Fusion”:使用本文提出的分層融合模塊對表示進行融合。

如圖4和圖5所示,與其他融合策略相比,本文的分層融合模塊在準確率和宏F1 指標上都顯著優于它們。其中,“Fusion”相比于“Contact”,準確率平均提高1.35 個百分點,對比“Sum”的方式,準確率平均提升1.81 個百分點,宏F1值分別提升了2.43個百分點和3.08個百分點。

圖4 不同融合方式的準確率Fig.4 Accuracy of different fusion methods

圖5 不同融合方式的宏F1Fig.5 Macro-F1 of different fusion methods

多視圖表示進行拼接融合的方式,由于利用全連接層提取特征,會導致神經元個數增加,模型復雜度提升,過寬的全連接層會造成過擬合問題,上述結果也說明直接將多視圖表示進行拼接融合是不合理的。本文采用的從局部到全局的融合方式,可以充分利用句子不同視角的表示信息,更好地將輸入的數據從它原來所處的空間投影到目標域空間。

3.7 圖卷積網絡層數影響

實驗將GCN 的層數設置為L∈{1,2,…,8} ,在5 個數據集上對應的準確率和宏F1 值分別如圖6 和圖7 所示。本文模型ⅠMR-GCN在網絡深度為2時達到了最優的性能,隨著網絡深度的增加,模型性能存在一定的波動,整體性能呈現下降趨勢。在GCN 深度為8 層時,相比于最佳性能,其準確率平均下降了1.73%,宏F1 值平均下降了2.29%,由于層數增加,模型引入更多的參數,產生過擬合現象。

圖6 圖卷積網絡層數與準確率的關系Fig.6 Relationship between number of GCN layers and accuracy

圖7 圖卷積網絡層數與宏F1值的關系Fig.7 Relationship between number of GCN layers and Macro-F1

3.8 案例分析

本文針對Rest14數據集進行了案例研究,充分證明了ⅠMR-GCN模型的有效性。將3個分支應用的注意力權重可視化,如圖8所示,第1行代表基于上下文分支的注意力權重,第2 行代表基于句法分支的注意力權重,第3 行代表基于語義分支的注意力權重。權重分數越大,對應的區域顏色越深。

圖8 不同分支的注意力權重Fig.8 Attention weight of different branches

對于方面詞“staff”,基于上下文的表示主要集中在觀點詞“bit more friendly”上,這樣理解句子會產生偏差,導致做出錯誤預測。從句法和語義的角度來看,更關注另一個詞“should be a bit”,能夠正確識別出方面所對應情感極性,這表明句法依賴和詞共現信息有利于模型的整體建模。

4 結束語

本文綜合運用詞性、句法、語義等知識增強評論語句的特征表示,提出一種多視圖融合表示的圖卷積網絡模型,首先,利用自注意力機制捕獲上下文信息,同時通過圖卷積操作處理句法依賴和詞共現信息,然后使用方面感知注意力機制分別計算得到基于上下文、句法和語義分支的三視圖表示,最后設計了分層融合方式對三種不同視圖表示進行特征融合。經過實驗分析,該模型在公開數據集上準確率和F1 值優于基準模型,表明單詞之間的語義信息和句法依賴關系均不可忽略,且上下文信息對最終句子表示是有利的。本文模型存在一定的局限性,針對句法依賴未考慮具體的依賴關系。當前用于方面級情感分析的數據有限,難以擬合模型中復雜的參數信息。因此,后續研究考慮引入外部知識,輔助模型捕捉數據集中的常識知識,進一步提升分類效果。

猜你喜歡
句法注意力語義
讓注意力“飛”回來
句法與句意(外一篇)
述謂結構與英語句法配置
語言與語義
句法二題
詩詞聯句句法梳理
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合