?

基于特征融合的多任務視頻情感識別模型

2024-01-02 07:54張景浩谷曉燕
關鍵詞:低階高階音頻

張景浩,谷曉燕

(北京信息科技大學 信息管理學院,北京 100192)

0 引言

近年來短視頻數據呈爆炸式增長,傳播方式也日趨便利。視頻中包含文本、圖像、音頻三種模態的數據。研究其中包含的情感信息對于醫療健康、突發輿情、市場調研等領域的發展具有重要作用[1]?,F有研究大多集中于對文本模態的情感分析,而視頻中文本、圖像、音頻三種模態的數據可能含有不同的情感信息,如何捕獲這些模態間的關聯和互補信息對于視頻多模態情感分析至關重要。

深度學習是目前多模態融合使用的主流方法。Bahdanau等[2]首次將全局注意力和局部注意力應用于自然語言處理中。Poria等[3]在模態的融合中使用了注意力機制,并設計了一種基于注意力的循環神經網絡,該方法的缺點是較多地引入了其他模態的噪聲。多頭注意力機制是注意力機制模型的擴展,它可以在同一時間并行處理多個注意力模塊以學習序列內部不同依賴關系。Xi等[4]提出了基于多頭注意力機制的多模態情感分析模型,該模型首次運用多頭注意力機制實現模態間的兩兩交互。宋云峰等[5]提出了基于注意力的多層次混合融合模型,使用多頭注意力實現跨模態特征融合,利用自注意力機制提取任務貢獻度高的模態信息。

多任務學習是一種通過同時訓練多個任務并共享淺層參數來提高整體模型泛化能力的機器學習范式。深度學習模型通常都需要大量的訓練樣本以達到較高的分類精確度,但是收集大量的訓練樣本通常耗時耗力。在樣本數量有限的情況下,多任務學習是學習多個相關聯的任務很好的解決方法[6]。在多模態領域,常常使用多任務學習來提升任務的識別率。Yu等[7]通過增加單模態標簽的識別任務來輔助多模態情感的識別;Latif等[8]將識別人物類別作為輔助任務來提升情感識別的表現。

本文提出了一種基于特征融合的多任務視頻情感識別模型,該模型能有效提取視頻中文本、音頻、圖像的特征,并將這些特征融合用于情感分類。在公開數據集CH-SIMS上的實驗結果表明,相比于主流多模態情感分析模型,本文模型在分類準確率上有顯著提高。

1 視頻多模態特征提取

多模態數據特征提取的準確性直接影響模型情感識別的效果。為了有效地利用視頻數據中含有的信息并提高模型在情感識別任務上的準確率,本文針對文本、圖像和音頻三種模態設計了不同的特征提取方法,根據提取的特征層次可以分為低階特征、高階特征。

1.1 文本特征提取

在文本處理領域,文本特征提取方法通常包括Word2Vec(word to vector)、BERT(bidirectional encoder representations from transformers)、GloVe(global vectors for word representation)。Word2Vec通過神經網絡將詞映射為向量,捕捉詞與詞之間的上下文關系,缺點在于它只依賴于局部上下文信息,忽略了詞的全局統計信息。GloVe結合了詞頻統計和詞嵌入技術,通過全局矩陣提取出能夠反映詞間關系的詞向量,它雖然結合了全局統計信息,但在捕捉復雜語義關系上效果不佳。BERT利用雙向 Transformer 架構,通過大規模預訓練,生成能夠理解上下文的深度語言表示。相比于 Word2Vec 和 GloVe,BERT 的優點在于采用雙向上下文理解詞義,能夠更全面地捕捉文本含有的語義信息。本文選用中文BERT預訓練模型作為詞向量嵌入層,來提取低階文本特征。每段文本序列經過BERT預訓練模型得到的低階文本特征如式(1)所示:

Xt=BERT(T)

(1)

式中:Xt為低階文本特征;T為文本序列的輸入字符。為了進一步提取Xt中的局部特征,將低階特征Xt輸入到卷積神經網絡中,如式(2)所示:

(2)

(3)

圖1 文本高階特征提取Fig.1 Text high-order feature extraction

1.2 圖像特征提取

在圖像特征提取方面,CLIP(contrastive language-image pre-training)可以有效地捕捉到圖像中的空間局部和全局特征。CLIP是一種多模態預訓練模型,其使用Vision Transformer(ViT)[9]作為圖片的編碼器。這種基于Transformer架構的ViT模型在圖像分類和識別方面表現出優越的性能。為了提取出圖片中含有的情感信息,本文采用 CLIP預訓練模型來提取圖像的低階特征。每段視頻經過CLIP預訓練模型得到的低階圖像特征XV,如式(4)所示:

XV=CLIP(P)

(4)

式中:XV為低階圖像特征;P為輸入的視頻片段。為了提取音頻模態數據的局部特征,將低階特征XV輸入到卷積神經網絡中,如式(5)所示:

(5)

(6)

式中LSTM表示長短期記憶網絡。提取高階圖像特征的流程如圖2所示。

圖2 圖像高階特征提取Fig.2 Image high-order feature extraction

1.3 音頻特征提取

Wav2Vec[10]是一種無監督訓練大量語音數據的預訓練模型,能將原始語音數據映射成含有語義表征的向量。Wav2Vec能有效降低噪聲干擾,已在語音情感識別任務中展現出優秀的性能。本文使用Wav2Vec提取音頻特征,每段音頻信號經過Wav2Vec后得到的低階音頻特征,如式(7)所示:

XA=Wav2Vec(C)

(7)

式中:XA為低階音頻特征;C為輸入的語音片段。卷積神經網絡能對齊數據的序列維度并提取局部特征。為了進一步提取音頻數據的特征,將低階音頻特征XA輸入到卷積神經網絡中,如式(8)所示:

(8)

(9)

(10)

式中:BiLSTM代表雙向長短期記憶網絡。提取音頻特征的流程如圖3所示。

圖3 音頻高階特征提取Fig.3 Audio high-order feature extraction

2 視頻多模態情感識別模型設計

2.1 特征融合模塊

如何有效地將三種單模態(文本、圖像、音頻)特征融合成最終的多模態表示一直是多模態情感分析中面臨的主要挑戰。多頭注意力機制常用于特征融合,它能捕獲模態間的相關性,實現模態間的動態交互。本文采用多頭注意力來實現三模態的特征融合,具體過程如下:

首先得到經本文1.1~1.3節中單模態特征提取方法提取的高階特征,如式(11)所示:

(11)

式中:L為序列長度;d為特征維度;i表示視頻片段的索引;m∈{S,A,V},S表示文本模態,A表示音頻模態,V表示圖像模態。

注意力機制能夠依據信息的權重度量不同信息特征的重要性,加強內部關鍵信息和內部相關性,弱化無用信息和對外部信息的依賴。注意力機制定義為

(12)

式中:R為輸入的向量;dk為鍵向量K的維度;查詢向量Q定義為

Q=RWq

(13)

式中:Wq為可學習的矩陣參數,Wq∈d×dq,dq為查詢向量的維度。鍵向量K定義為

K=RWk

(14)

式中:Wk為可學習的矩陣參數,Wk∈d×dk,dk為Q和K的維度。值向量V定義為

V=RWv

(15)

式中:Wv為可學習的矩陣參數,Wv∈d×dv,dv為值向量的維度。為了進一步獲得文本模態的關鍵信息,將文本模態高階特征作為輸入向量,通過自注意力模型式(12)~(15)得到過程如下:

(16)

(17)

(18)

模型中三模態的交互和融合是利用多頭注意力機制實現的。多頭注意力機制[11]是基于自注意力模塊的擴展,它能提取更具表現力的序列表示,將突出關鍵信息的文本模態ZS作為多頭注意力輸入的鍵向量K和值向量V,將音頻視頻混合模態特征向量XAV作為多頭注意力的查詢向量Q,輸入到多頭注意力機制中,融合過程如圖4中(b)多頭注意力融合模塊所示,得到最終的多模態表示Z:

Z=Multi(XAV,ZS,ZS)

(19)

式中:Multi表示多頭注意力機制,定義為

Multi(Q,K,V)=concat(m1,m2,…,mi)W

(20)

式中:mi為第i個注意力頭的輸出,定義為

(21)

式中:i為注意力頭的索引。

整個融合過程如圖4所示。

圖4 多模態注意力融合模塊Fig.4 Multimodal attention fusion module

2.2 多任務情感分類與性別分類模塊

將融合后的多模態表示Z輸入到情感分類網絡中獲得最后的預測結果。為了進一步提高模型識別情感值的準確性,模型引入性別識別作為多任務學習的輔助任務,如圖4中(c)多任務分類模塊所示。Z被送入一個全連接神經網絡構成的分類器。這個分類器預測情感分布的同時也預測性別分布。對于每個樣本,模型的輸出值有兩個,第一個是預測的情感值,第二個是預測的性別值,通過計算預測情感值和真實情感值之間的誤差、預測性別值和真實性別值之間的誤差得到總的損失函數L:

L=αLe+(1-α)Lg

(22)

式中:Le表示情感預測的損失函數;Lg為性別預測的損失函數;α為超參數,用來調整不同任務的權重。在訓練過程中,模型將根據損失函數的值在反向傳播的過程中更新絕大部分隱藏層參數,只保留相應任務層的隱藏層參數獨立。

3 實驗與分析

3.1 實驗數據

實驗數據集選用中文多模態數據集CH-SIMS[7]。CH-SIMS共有2 281個視頻片段,來自中文影視劇、綜藝節目。每條數據都標記了情感傾向:消極、中性、積極。原始視頻數據沒有對男女性別進行標注,本文手工對男女性別進行標注,以便能在模型中進行多任務性別識別。CH-SIMS的數據統計信息如表1所示。

表1 數據集統計信息Table 1 Dataset statistical information

3.2 實驗參數與評價指標

實驗使用 TensorFlow開源框架,在NVIDIA RTX 3090 GPU上對網絡進行訓練。對于情感三分類(積極、中性、消極)問題使用準確率和F1值作為評價指標。具體實驗參數如表2所示。

3.3 實驗結果

為了評估本文模型的性能,選用以下6種較為先進的多模態情感分析模型進行對比。具體介紹如下:

1)EF-LSTM[12]:通過早期融合將不同模態特征拼接后輸入到LSTM網絡中得到分類結果。

表2 實驗參數設置Table 2 Experimental parameter settings

2)LF-LSTM[12]:將不同模態特征輸入LSTM網絡后通過后期融合進行拼接得到分類結果。

3)TFN[13]:將不同模態特征進行外積運算進行多模態融合。

4)MULT[14]:使用Transformer 模型進行模態間的兩兩交互增強,從而進行跨模態融合。

5)EMHMT[15]:是一種結合多頭注意力與多任務學習的跨模態視頻情感分析模型。

6)MLMF[7]:把三個單模態的情感識別作為輔助任務進行多任務學習。

實驗結果如表3所示。本文模型的準確率和 F1 值分別達到了68.71%和68.08%。與模型EF-LSTM、LF-LSTM相比,本文模型在融合方式上使用注意力機制突出了關鍵信息,并用合適的神經網絡提取高階模態特征用來融合分類,在準確率和F1值上分別提升了10%以上;相比于選取的最先進模型MLMF在準確率上提升了1.01百分點,驗證了模型的有效性。

表3 不同模型實驗結果對比

為了驗證本文1.1、1.2和1.3節中提取高階特征方法的有效性,分別設置多個對比實驗,將本文1.1、1.2和1.3節模型中提取的高階特征與其他模型提取的高階特征在情感分類效果上作對比。文本模態高階特征提取的對比實驗結果如表4所示。其過程是將從預訓練模型中得到的文本低階特征向量輸入到不同的神經網絡模型中提取高階特征并測試分類效果。對比模型具體介紹如下。

1) 全連接層:將式(1)中的低階文本特征向量Xt輸入到全連接層進行分類。

2)BiLSTM:將低階文本特征向量輸入到雙向長短期記憶網絡后用全連接層分類。

3)CNN:將低階文本特征向量輸入到卷積神經網絡后用全連接層進行分類。

4)BiLSTM+Att:將低階文本特征向量依次輸入到雙向長短期記憶網絡和注意力機制后進行分類。

5)CNN+Att:將低階文本特征向量依次輸入到卷積神經網絡和注意力機制后進行分類。

表4 文本模態高階特征提取的對比實驗結果Table 4 Comparative experimental results of high-order feature extraction in text modality %

從表4可以看到,用卷積神經網絡和注意力機制提取的高階文本特征在情感分類任務上的準確率和F1值分別達到66.03%、64.13%,證明本文1.1節中描述的文本單模態高階特征提取網絡能獲得語義更豐富、特征更突出的高階特征向量。

將從預訓練模型中得到的低階圖像特征輸入到不同的神經網絡模型中提取高階特征并測試分類效果,圖像模態高階特征向量提取的實驗結果如表5所示。對比模型具體介紹如下:

1)全連接層:直接將式(4)中的低階圖像特征向量XV輸入到全連接層進行分類。

2)CNN:將圖像低階特征向量輸入到卷積神經網絡后輸入全連接層進行分類。

3)CNN+LSTM:將圖像低階特征向量依次輸入到卷積神經網絡和長短期記憶網絡后進行分類。

4)CNN+LSTM+Att:將圖像低階特征向量依次輸入到卷積神經網絡和長短期記憶網絡、注意力機制后進行分類。

表5 圖像模態高階特征提取的對比實驗結果Table 5 Comparative experimental results of high-order feature extraction in image modality %

在圖像單模態的對比實驗中,加入了注意力機制之后分類效果相比于CNN+LSTM的準確率和F1值分別下降了3.21百分點和1.19百分點,這可能是由于過擬合造成的。因此在提取圖像高階特征向量時使用準確率最高的CNN+LSTM。

音頻單模態低階特征的實驗結果如表6所示。其過程是將從預訓練模型中得到的音頻低階特征向量輸入到不同的神經網絡模型中提取高階特征并測試分類效果。對比模型具體介紹如下。

1)全連接層:直接將式(7)中的音頻低階特征向量XA輸入到全連接層得到的分類結果。

2)BiLSTM:將音頻低階特征向量輸入到雙向長短期記憶網絡后用全連接層進行分類。

3)CNN+BiLSTM:將音頻低階特征向量依次輸入到卷積神經網絡和雙向長短期記憶網絡后進行分類。

4)CNN+BiLSTM+Att:將音頻低階特征向量依次輸入到卷積神經網絡和雙向長短期記憶網絡、注意力機制最后進行分類。

表6 音頻模態高階特征提取的對比實驗結果Table 6 Comparative experimental results of high-order feature extraction in audio modality %

從表6中可以看到,用卷積神經網絡和雙向LSTM網絡與注意力機制的組合網絡準確率和F1值分別達到了56.45%、50.33%,能獲取分類效果更好的高階音頻特征向量。

3.4 消融實驗

為了驗證模型的有效性,共設計了6組消融實驗。分別使用單模態特征或移除模型中單個模塊進行對比,以此來驗證本模型的有效性和各模塊的重要程度。實驗結果如表7所示,前3個消融實驗直接使用單模態高階特征進行情感分類。實驗結果顯示單文本模態在準確率上比另外兩個模態(音頻、圖像)高,這是因為文本模態特征提取技術較為成熟,含有的有效信息也較多,而圖像和音頻模態的實驗準確率則較低,說明該模態特征提取效率較低。用單模態性能最好的文本單模態特征識別的準確率和F1值低于三模態融合的準確率和F1值,這證明了文本、音頻、圖像的充分融合的必要性。移除了多任務學習模塊,在情感分類任務上的準確率和F1值分別下降了0.47百分點、0.66百分點,這說明加入性別識別多任務學習能提升情感分類的效果。在移除了多頭注意力模塊后,本文模型其準確率和F1值分別下降了2.85百分點、2.43百分點,說明了本文的多頭注意力融合模塊能夠利用不同模態的互補信息進行融合,提升了識別準確率。

表7 消融實驗結果Table 7 Ablation experimental results %

4 結束語

本文提出了一種基于注意力融合與多任務學習的多模態情感分析模型。首先使用預訓練模型BERT、Wav2Vec、CLIP得到文本、音頻、圖像的低階特征表示;然后將低階特征表示分別輸入到神經網絡中來提取模態的高階特征表示;接著利用多頭注意力融合模塊實現三模態的交互融合;最后,結合多任務學習獲得情感和性別的分類結果。在公開的中文多模態數據集CH-SIMS上的實驗結果表明,情感分類的準確率得到有效提升。未來的研究目標是探索模態缺失條件下如何進行模態融合,進一步提高情感識別的準確率。

猜你喜歡
低階高階音頻
有限圖上高階Yamabe型方程的非平凡解
高階各向異性Cahn-Hilliard-Navier-Stokes系統的弱解
山西低階煤分布特征分析和開發利用前景
滾動軸承壽命高階計算與應用
一類具低階項和退化強制的橢圓方程的有界弱解
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
一類完整Coriolis力作用下的高階非線性Schr?dinger方程的推導
基于Daubechies(dbN)的飛行器音頻特征提取
Extended Fisher-Kolmogorov方程的一類低階非協調混合有限元方法
音頻分析儀中低失真音頻信號的發生方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合