?

面向多模態情感分析的雙模態交互注意力

2022-04-13 02:40包廣斌李港樂王國雄
計算機與生活 2022年4期
關鍵詞:模態注意力語音

包廣斌,李港樂,王國雄

蘭州理工大學 計算機與通信學院,蘭州730050

隨著移動互聯網和和社交媒體的蓬勃發展,越來越多的用戶通過YouTube、微博、抖音等社交媒體討論時事、表達觀點、分享日常等,從而產生了海量的具有情感取向的多模態數據。在社交媒體平臺上,用戶上傳的視頻是多模態數據的重要來源之一。視頻數據通常包含三種模態:描述用戶觀點的文本、表達用戶面部表情的圖像以及記錄用戶語音語調的音頻。針對這些多模態數據進行情感分析將有利于了解人們對某些事件或商品的觀點和態度,在輿情分析、心理健康、政治選舉等方面都有著巨大的應用價值。

與傳統的單模態情感研究相比,多模態情感分析的目標是通過融合多個模態的數據來推斷目標序列的情感狀態。如圖1 顯示了文本、面部表情和語音語調對于情感分類的作用。其中,視頻中說話人關于某部電影發表評論“The only actor who can really sell their lines is Erin.”這條評論是一個陳述句,而且沒有明顯體現情感取向的詞語,因此僅僅依據這句話所傳達的信息很難判斷出說話人的情感狀態,但如果為這句評論加入說話人的面部表情(facial expressions)和語音語調(voice intonation),則可以反映出說話人目前的情感狀態是消極的。因此,對于多模態情感分析任務,文本、語音和視頻模態之間的語義和情感關聯能夠為情感分類帶來重要的補充信息。

圖1 文本、面部表情和語音語調對于情感分類的作用Fig.1 Effect of text,facial expressions and voice intonation on sentiment classification

由于文本、語音和視頻特征在時間、語義維度上存在較大差異,目前大多數多模態情感分析方法是將所有可用的模態特征直接映射到一個共享空間中,學習不同模態之間復雜的交互作用。但是,大多數情況下,并不是融合的模態信息越豐富,情感分類的準確率就越高,這主要是因為不同模態的信息對于情感分類的貢獻是不相等的。

為了解決上述問題,本文提出了一種融合上下文和雙模態交互注意力的多模態情感分析方法,該方法首先采用BiGRU(bidirectional gated recurrent unit)分別捕獲文本、語音和視頻序列的上下文特征。然后利用不同模態之間存在的語義和情感關聯,設計了一種雙模態交互注意力,并結合自注意力和全連接層構造了一個層次化的多模態特征融合模塊,旨在通過注意力機制更多地關注目標序列及其上下文信息與各模態之間的相關性,從而幫助模型區分哪些模態信息對于判別目標序列的情感分類更加重要,實現跨模態交互信息的有效融合。最后,在CMU-MOSI(CMU multimodal opinion-level sentiment intensity)數據集上進行實驗,實驗結果表明,相比現有的多模態情感分類模型,該模型在準確率和1分數上均有所提升。

1 相關工作

多模態情感分析主要致力于聯合文本、圖像、語音與視頻模態的情感信息來進行情感的識別與分類,是自然語言處理、計算機視覺和語音識別相交叉的一個新興領域。與單一模態的情感分析相比,多模態情感分析不僅要學習單模態的獨立特征,還要融合多種模態的數據。多模態融合主要是通過建立能夠分析和處理不同模態數據的模型來為情感分類提供更多的有效信息。Zadeh 等人利用模態之間的聯系建立了一種張量融合網絡模型,采用三倍笛卡爾積以端到端的方式學習模態之間的動力學。Zadeh等人提出了一種可解釋的動態融合圖(dynamic fusion graph,DFG)模型,用于研究跨模態動力學的本質,并根據每個模態的重要性動態改變其結構,從而選擇更加合理的融合圖網絡。Chen 等人提出利用時間注意力的門控多模態嵌入式模型來實現多模態輸入時單詞級別的特征融合,該方法有效地緩解了噪聲對特征融合的影響。上述方法在進行特征提取時都將每個話語看作獨立的個體,忽略了與上下文之間的依賴關系。

多模態情感分析的研究數據通常來自社交網站上用戶上傳的視頻,這些視頻數據被人為地劃分成視頻片段序列,而片段序列之間往往存在著一定的語義和情感聯系。因此,當模型對目標序列進行情感分類時,不同片段序列之間的上下文可以提供重要的提示信息。Poria 等人建立了一種基于LSTM(long short-term memory)的層次模型來捕捉視頻片段間的上下文信息。Majumder 等人通過保持兩個獨立的門控循環單元來跟蹤視頻中對話者的狀態,有效地利用了說話者之間的區別和對話中的上下文信息。Shenoy 等人提出的基于上下文感知的RNN(recurrent neural network)模型能夠有效地利用和捕獲所有模態對話的上下文用于多模態情緒識別和情感分析。Kim 等人建立了一種基于多頭注意力的循環神經網絡模型,該模型采用BiGRU 和注意力機制來捕獲會話的上下文信息的關鍵部分。但是,現在人們表達情感的方式已不再局限于單一的文字,往往通過文本、圖像、視頻等多種模態相結合的方式共同傳遞信息,那么如何有效利用多模態信息進行情感分析仍是一項艱巨的任務。

近年來,注意力機制已被廣泛應用于NLP(natural language processing)領域。研究表明,注意力機制能夠聚焦于輸入序列的關鍵信息,并忽略其中不相關的信息,從而提高模型的整體性能。因此,越來越多的研究人員嘗試將注意力機制應用于探索模態內部和不同模態之間的交互作用。Zadeh 等人提出了一種多注意力循環神經網絡(multi-attention recurrent network,MARN),利用多注意力模塊(multi-attention block,MAB)發現模態之間的相互作用,并將其存儲在長短時混合記憶(long-short term hybrid memory,LSTHM)的循環網絡中。Xi 等人提出利用多頭交互注意力來學習文本、語音和視頻模態之間的相關性。Verma 等人提出了一種高階通用網絡模型來封裝模態之間的時間粒度,從而在異步序列中提取信息,并利用LSTM 和基于張量的卷積神經網絡來發現模態內部和模態之間的動力學。

綜上所述,隨著深度學習研究的不斷深入,多模態情感分析實現了跨越式的進步和發展,但如何有效地利用單模態獨立特征和多模態交互特征進行建模依舊是多模態情感分析所面臨的主要問題。為此,本文在現有多模態情感分析方法的基礎上,提出了一種融合上下文和雙模態交互注意力的多模態情感分析模型,旨在利用BiGRU 和注意力機制更多地關注相鄰話語之間的依賴關系以及文本、語音和視頻模態之間的交互信息并為其分配合理的權重,實現多模態特征的有效融合,從而提高多模態情感分類的準確率。

2 融合上下文和雙模態交互注意力的模型

本文針對現有多模態情感分析方法中存在情感分類準確率不高,難以有效融合多模態特征等問題,提出了一種融合上下文和雙模態交互注意力的多模態情感分析模型(multimodal sentiment analysis model based on context and bimodal interactive attention,Con-BIAM),如圖2 所示。具體來說,Con-BIAM 模型分為以下四部分:

圖2 融合上下文和雙模態交互注意力的模型結構Fig.2 Model structure combining context and bimodal interactive attention

(1)針對文本、語音和視頻模態數據的不同特點,構建不同的神經網絡提取單模態特征。

(2)利用BiGRU 分別編碼文本、語音和視頻序列,然后將其映射到共享的語義空間中,在每個模態的不同時間步長上捕獲視頻目標序列的上下文信息。

(3)利用不同模態之間的交互作用,設計了一種新穎的雙模態交互注意力機制融合不同模態的信息;然后通過雙模態交互注意力、自注意力和全連接層構造多模態特征融合模塊,得到跨模態聯合特征。

(4)將得到的上下文特征和跨模態聯合特征連接起來,經過一層全連接層后饋送至Softmax 進行最終的情感分類。

2.1 特征提取

為了獲取視頻中的文本、語音和視覺特征,采用卡內基梅隆大學提供的多模態數據分析工具CMUMultimodal Data SDK進行提取。對于文本數據,首先將視頻中的每個話語進行轉錄,然后將其表示為Glove 詞向量,輸入至卷積神經網絡中提取文本特征。為了有效地利用視頻中的動態信息,使用3DCNN(3D convolutional neural networks)從視頻中提取視覺特征。在實驗過程中,32 個特征圖(f)和5×5×5(f×f×f)的過濾器取得了最優的結果。對于音頻模態數據,利用openSMILE工具包以30 Hz的幀速率和100 ms的滑動窗口提取音頻特征。

2.2 上下文特征表示

本文將預處理后的文本()、語音()和視頻()特征分別輸入至BiGRU 中提取序列的上下文信息??紤]到不同模態數據的異構性,利用Dense層在時間維度上提取目標序列與上下文特征之間的長跨度信息,獲得相同數據維度的上下文特征表示。

假設數據集包含個視頻片段,每個視頻片段對應一個固定情感強度的觀點。視頻中包含的一系列片段序列可表示為:

此外,為了更加準確地對視頻片段X進行情感分類,將X定義為X的上下文:

其中,表示視頻中其他片段序列的長度。

BiGRU 由兩個方向相反的GRU(gated recurrent unit)構成,能夠有效地捕獲序列中上下文的長依賴關系,解決RNN 訓練過程中出現的梯度消失和梯度爆炸問題。在BiGRU 中,正向和反向輸入的特征向量會得到對應時刻的隱藏層表示,之后通過拼接操作得到具有上下文信息的文本、視覺和語音特征。雙向門控循環單元的結構如圖3 所示。

圖3 BiGRU 結構模型圖Fig.3 BiGRU structure model diagram

每個GRU 單元的工作原理如下:

其中,X是當前節點的輸入序列,h是上一個GRU 單元傳輸下來的狀態,r是GRU 的重置門,z是GRU 的更新門,W,W,U,U∈R是訓練過程中要學習的參數,是Sigmoid 函數,⊙表示對應元素相乘。

為了深度挖掘單模態特征的內部相關性,將得到的具有上下文信息的單模態特征分別映射到各自的語義空間中。計算過程如下:

其中,W、、、分別是激活函數tanh 的參數,、、是經過BiGRU 得到的文本、語音和視覺特征?!蔙,∈R,∈R分別表示最終輸出的具有上下文信息的文本、語音和視覺特征向量,表示Dense層中神經元的數量。

2.3 特征融合模塊

對于多模態情感分析任務,不同模態的數據包含了各自的情感信息,它們彼此不同卻又相輔相成。因此,在基于模態內部關系建模的同時關注另一種模態信息的補充作用,能夠有效地提升模型的分類性能。此外,在進行多模態信息融合時,不同模態的信息對情感分類結果的重要性也是不同的。因此,對多模態信息進行建模時,需要有選擇性地區分各模態信息對目標序列的情感預測的重要程度,增強重要信息所占的權重,從而輸出更有效的跨模態聯合特征表示。

由此,本文提出了一種多模態特征融合模塊(multimodal feature fusion module,MFM)。該模塊采用層次化的融合策略融合所有的模態特征,主要由兩層注意力機制和一個全連接層串聯構成。首先第一層是雙模態交互注意力(bimodal interactive attention,Bim_Att)層,Bim_Att 能夠將兩種模態的融合特征作為條件向量,強化與模態間重要交互特征的關聯,弱化與次要交互特征的關聯,深度探索不同模態之間的交互性;第二層是自注意力層(self attention,Self_Att),用于捕獲目標序列及其上下文信息與模態自身的相關性,從而減少對外部信息的依賴;最后一層是全連接層,用于提取雙模態交互融合信息和單模態內部信息,輸出跨模態聯合特征。

為了進一步增強模態之間的交互性,本文提出了一種雙模態交互注意力機制,整體結構如圖4 所示。雙模態交互注意力機制類似于一種門控機制,能夠將文本、語音和視覺特征進行兩兩融合,即文本+視頻、文本+語音和語音+視頻,并有條件地計算不同模態之間的交互向量。以文本()和語音()為例,首先將兩種模態的信息進行拼接,并經過一層全連接層捕獲模態之間的交互信息,得到雙模態聯合特征;接著在激活函數Sigmoid 的作用下生成條件向量,用于約束每個模態內部的相似程度,增加強關聯特征所持的比重。計算過程如式(10)、式(11)所示。

圖4 雙模態交互注意力(Bim_Att)結構圖Fig.4 Structure diagram of bimodal interactive attention(Bim_Att)

其中,⊕表示向量的拼接操作;表示隨機初始化的權重矩陣;表示偏置項。

其中,⊙表示對應元素相乘,·表示矩陣乘法。

最后,將得到的注意力特征向量與上下文特征向量進行拼接,并使用全連接層整合得到的模態間交互特征和模態內部特征,輸入至Softmax 進行情感分類,其計算過程如下:

其中,∈R,′表示全連接層輸出的特征維度,Wb是激活函數ReLU 的權重和偏置。

3 實驗與結果分析

3.1 數據集

本文使用多模態情感分析數據集CMU-MOSI 進行實驗,簡稱MOSI。該數據集由89 位不同英語演講者對來自YouTube網站中的主題進行評論,共有93個視頻。數據集中共包含3 702個觀點片段,共計26 295個單詞。每個視頻片段的情感強度在∈[-3.0,3.0]的線性范圍內,其中大于或等于0 的情感值表示正面情緒,小于0 的情感值表示負面情緒。本實驗將數據集劃分為訓練集、驗證集和測試集,分別設置為52、10、31。每個集合分別包含1 151、296和752個視頻片段。

3.2 實驗設置

本實驗所有代碼都是在Pycharm 代碼編輯器上采用Tensorflow 和Keras 深度學習框架編寫,利用顯存為32 GB 的GPU(NVIDIA Tesla V100)進行模型的訓練。實驗參數設置如表1 所示。

表1 實驗參數設置Table 1 Experimental parameter setting

本文選取1 分數和準確率(Accuracy)作為分類性能的評價指標。1 分數和Accuracy 的值越大,說明模型的整體性能越好。為了進一步驗證模型的有效性,將本文提出的Con-BIAM 模型與現有的一些多模態情感分析模型進行對比,實驗結果如表2 所示。

3.3 實驗結果分析

表2 列出了不同模型在MOSI 數據集上的實驗結果。圖5 是Con-BIAM 模型在MOSI 數據集上得到的混淆矩陣。

表2 在MOSI數據集上的實驗結果Table 2 Experimental results on MOSI dataset %

圖5 Con-BIAM 模型在MOSI數據集上的混淆矩陣Fig.5 Con-BIAM model confusion matrix on MOSI dataset

實驗結果表明,本文提出的Con-BIAM 模型在準確率和1 分數這兩個評價指標上的表現都要優于其他對比模型,準確率和1分數分別提升了5.41個百分點和12個百分點,尤其是對比現有先進的Multilogue-Net模型,準確率提升了0.72 個百分點,1 提升了5.3個百分點。這充分地說明了融合上下文和雙模態交互注意力的多模態情感分析(Con-BIAM)在多模態情感分類任務上的有效性和先進性。此外,根據上述實驗結果可以看出,Con-BIAM 模型的1 值與其他模型相比具有較大提升,這可能是因為不同層次不同組合的模態融合方法關注到了模態的內部信息和更高層次的模態交互信息,使得模型的精確率和召回率分別達到了85.22%和85.59%,進而增大了模型的1 值,提高了模型的分類性能。

4 對比實驗

為了進一步分析模態之間的聯合特征對模型最終分類效果的貢獻程度,在MOSI 數據集上分別針對雙模態和三模態聯合特征,選擇以下幾種多模態情感分析方法進行對比,實驗結果如表3 和表4 所示。

表3 不同模型在雙模態、三模態特征融合的準確率Table 3 Accuracy of different models in bimodal and trimodal feature fusion %

表4 不同模型在雙模態、三模態特征融合的F1 分數Table 4 F1 scores of different models in bimodal and trimodal feature fusion %

實驗結果表明,與其他模型相比,除了語音和視頻模態的融合之外,Con-BIAM 模型的其他模態融合方式都達到了最好的結果。其中,三種模態(文本、語音和視覺)融合的分類效果最佳,證明了多模態信息的必要性。在雙模態融合的實驗中,文本+圖像和文本+語音融合分類準確率高于語音+視頻的融合。這一方面說明了文本模態的情感特性更為顯著,另一方面也反映了語音和視頻模態的情感特性較弱,可能存在噪聲的干擾。

為了進一步分析視頻片段的上下文信息、自注意力和雙模態交互注意力對模型性能的貢獻,本文設計了三組對比實驗,比較不同模塊對于模型整體性能的影響。在MOSI 數據集上對比實驗的結果如圖6 所示。

圖6 在MOSI數據集上的對比實驗Fig.6 Comparative experiment on MOSI dataset

(1)Con-BIAM(GRU):使用GRU代替模型中BiGRU,比較上下文信息對模型性能的影響。

(2)Con-BIAM(Self_Att):舍棄雙模態交互注意力機制,保留自注意力機制,探究兩種模態之間的交互信息對分類效果的影響。

(3)Con-BIAM(Bim_Att):舍棄自注意力機制,保留雙模態交互注意力,探究單模態情感信息對分類效果的影響。

(4)Con-BIAM:本文所提出模型。

實驗結果表明,對于MOSI 數據集,舍棄Con-BIAM 模型中的任一重要模塊,都會使得模型的分類性能下降。首先,相比于GRU 模型,基于BiGRU 的模型準確率提升了2.52 個百分點,說明了對于視頻中某一片段序列,序列前面和后面的視頻片段都會對它產生一定的影響,而BiGRU 能夠同時捕捉到視頻片段序列前向和反向的信息。其次,多模態特征融合模塊中的雙模態交互注意力和自注意力對情感分類的準確率分別貢獻了1.20 個百分點和0.94 個百分點,1 值也分別提升了2.67 個百分點和2.36 個百分點。這主要是因為文本、語音和視頻模態內部與模態之間存在著大量的情感信息,而本文所設計的多模態特征融合模塊能夠同時提取單模態信息和雙模態融合信息,并通過注意力機制有選擇地關注有利于情感分類的模態信息,從而提高了模型分類性能。

5 結束語

本文建立了一種融合上下文和雙模態交互注意力的多模態情感分析模型,利用視頻片段的上下文信息和不同模態之間的交互信息來預測情感分類。該模型首先采用BiGRU 捕獲文本、語音和視頻序列之間的上下文信息。然后,通過雙模態交互注意力、自注意力和全連接層構成的多模態特征融合模塊,關注目標序列及其上下文信息與模態內部和模態之間的關聯性,實現了多模態信息的有效融合。最后,將得到的上下文特征和跨模態聯合特征輸入至分類器進行情感分類。在MOSI 數據集上的實驗結果證明了所提出的模型在多模態情感分類任務上的有效性和優異性。在未來的工作中,將針對多模態融合過程中所出現的語義沖突和噪聲問題展開進一步研究。

猜你喜歡
模態注意力語音
聯合仿真在某車型LGF/PP尾門模態仿真上的應用
多模態超聲監測DBD移植腎的臨床應用
讓注意力“飛”回來
跨模態通信理論及關鍵技術初探
如何培養一年級學生的注意力
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
對方正在輸入……
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合