?

基于Transformer的多子空間多模態情感分析

2024-05-03 09:43田昌寧賀昱政王笛萬波郭栩彤
關鍵詞:音頻注意力模態

田昌寧 賀昱政 王笛 萬波 郭栩彤

摘要 多模態情感分析是指通過文本、 視覺和聲學信息識別視頻中人物表達出的情感。 現有方法大多通過設計復雜的融合方案學習多模態一致性信息, 而忽略了模態間和模態內的差異化信息, 導致缺少對多模態融合表示的信息補充。 為此提出了一種基于Transformer的多子空間多模態情感分析(multi-subspace Transformer fusion network for multimodal sentiment analysis,MSTFN)方法。該方法將不同模態映射到私有和共享子空間,獲得不同模態的私有表示和共享表示,學習每種模態的差異化信息和統一信息。首先,將每種模態的初始特征表示分別映射到各自的私有和共享子空間,學習每種模態中包含獨特信息的私有表示與包含統一信息的共享表示。其次,在加強文本模態和音頻模態作用的前提下,設計二元協同注意力跨模態Transformer模塊,得到基于文本和音頻的三模態表示。 然后, 使用模態私有表示和共享表示生成每種模態的最終表示, 并兩兩融合得到雙模態表示, 以進一步補充多模態融合表示的信息。 最后, 將單模態表示、 雙模態表示和三模態表示拼接作為最終的多模態特征進行情感預測。 在2個基準多模態情感分析數據集上的實驗結果表明, 該方法與最好的基準方法相比, 在二分類準確率指標上分別提升了0.025 6/0.014 3和0.000 7/0.002 3。

關鍵詞 多模態情感分析;Transformer結構;多子空間;多頭注意力機制

Multi-subspace multimodal sentiment analysismethod based on Transformer

Abstract Multimodal sentiment analysis refers to recognizing the emotions expressed by characters in a video through textual, visual and acoustic information.? Most of the existing methods learn multimodal coherence information by designing complex fusion schemes, while ignoring inter-and intra-modal differentiation information, resulting in a lack of information complementary to multimodal fusion representations. To this end, we propose a multi-subspace Transformer fusion network for multimodal sentiment analysis (MSTFN) method. The method maps different modalities to private and shared subspaces to obtain private and shared representations of different modalities, learning differentiated and unified information for each modality. Specifically, the initial feature representations of each modality are first mapped to their respective private and shared subspaces to learn the private representation containing unique information and the shared representation containing unified information in each modality. Second, under the premise of strengthening the roles of textual and audio modalities, a binary collaborative attention cross-modal Transformer module is designed to obtain textual and audio-based tri-modal representations. Then, the final representation of each modality is generated using modal private and shared representations and fused two by two to obtain a bimodal representation to further complement the information of the multimodal fusion representation. Finally, the unimodal representation, bimodal representation, and trimodal representation are stitched together as the final multimodal feature for sentiment prediction. Experimental results on two benchmark multimodal sentiment analysis datasets show that the present method improves on the binary classification accuracy metrics by 0.025 6/0.014 3 and 0.000 7/0.002 3, respectively, compared to the best benchmark method.

Keywords multimodal sentiment analysis; Transformer structure; multiple subspaces; multi-head attention mechanism

在互聯網發展初期,用戶大多只用文本這一單一模態來表達觀點態度,但隨著互聯網不斷向著多模態信息方向發展,僅從文本中獲得的信息不足以挖掘人們的觀點態度[1]?,F有的多模態情感分析方法致力于探索一種復雜且有效的多模態融合方法以學習融合表示,從而獲得多模態一致性信息,但由于說話者的特殊風格(如反諷),單一模態中可能包含與多模態一致性信息不同的情感信息。這些方法大多將這些單一模態信息當作噪聲處理,因此,丟失了模態內和模態間的差異性信息,導致模型學習到的情感信息并不全面,從而限制了模型的性能。

盡管不同模態之間存在異質性,但均具有相同的動機和情感傾向,與視頻片段整體的情感走向一致。因此,將不同模態映射到同一個特征子空間中,可以學習到包含統一信息的多模態表示。同時,將不同模態映射到不同的特征子空間中,能夠學習特定于某個模態的信息,從而更全面地學習每種模態所表達的情感信息?,F有的多模態情感分析方法在設計跨模態Transformer進行模態融合時使用三元對稱的結構,如圖1 (a)所示,這種方式將每種模態分別與另外2種模態進行融合,導致多模態融合表示存在冗余信息,從而影響了模型對視頻中情感的判斷。因此,如何設計一種能夠充分融合多模態表示并去除冗余信息的二元跨模態Transformer融合方案成為目前多模態情感分析中的一個熱點研究問題。圖1(b)為二元融合結構示意圖,這種方式只選取其中2個模態與另外2個模態進行融合,因此,能夠在保證模態融合的前提下,減少冗余信息的生成,提升模型的性能。

本文提出了一種能夠同時學習模態統一性信息和模態間與模態內差異化信息,并減少冗余信息的多模態情感分析方法,即基于Transformer的多子空間多模態情感分析方法。該方法設計了多個子空間,將不同模態的表示映射后得到包含統一信息和特定于某種模態的差異化信息的特征表示。設計了基于文本、音頻、視頻模態的協同注意力二元跨模態Transformer模塊,使得一種模態能夠同時與另外2種模態相互映射,簡化復雜的融合結構、減少冗余信息的同時更充分地建模模態間的交互作用。此外,將每種模態的2種表示融合后生成最終包含多方面情感信息的單模態表示,并兩兩結合生成雙模態表示,使模型更進一步學習到與情感相關的信息。最后,通過在2個基準數據集上設計的一系列實驗驗證了該方法的優越性和有效性。

1 相關工作

1.1 單模態情感分析

情感分析作為當前的熱門研究領域,其發展初期是以文本為主的單模態情感分析,許多研究者在文本情感分析領域做了深入研究,為情感分析的進一步發展奠定了基礎。早期的文本情感分析工作首先使用詞袋模型Bagofwords[2]或帶有頻率的N-gram[3]從文本中提取特征,將文本轉換成向量。然后使用支持向量機[4]、樸素貝葉斯[5]等傳統的機器學習方法對情感極性進行分類。隨著深度學習技術的廣泛應用,卷積神經網絡[6]和循環神經網絡[7]被應用到文本情感分析中,由于這些網絡能夠捕捉上下文之間的關系,因此取得了良好的效果。近年來,隨著基于Transformer結構的預訓練模型的興起,文本情感分析的性能也取得了突破性的發展。除了文本數據中包含豐富的情感信息之外,視頻和音頻數據中也包含了大量的情感信息。視頻中人物的面部表情和肢體動作均包含了人物的情感信息,早期的方法采用局部二值模式[8]、局部相位量化特征[9]以及Gabor特征[10]等手工特征對圖像的情感進行分類。近年來,大多數方法均采用深度神經網絡對圖像中的情感極性進行分析。音頻中的語速、語調、聲音強度以及Mel頻率倒譜系數[11]等聲學特征均與說話者的情感息息相關,對這些音頻特征進行分析也可以得到說話者的情感極性。

盡管各領域的單模態情感分析方法在不斷發展進步,但由于單一模態所包含的與情感相關的信息是有限的,在缺乏與其他模態信息進行交互的情況下難以全面理解人的真實情感,而多模態情感分析可以很好地解決該問題。

1.2 多模態情感分析

隨著新媒體產業的高速發展以及智能手機的普及,包含多種模態數據的短視頻數量激增,越來越多的人通過短視頻來表達對某一產品或事物的看法。多模態情感分析任務利用短視頻中文本、圖像以及音頻多種模態的數據分析人們的情感極性。針對這一任務,研究者提出了許多方法來提高情感分析的準確率。Poria等人使用各個模態的特征提取器提取特征,然后將3個模態的特征輸入到淺層模型中進行拼接,最后將拼接的特征輸入到分類模塊中得到情感極性[12]。由于不同模態對情感極性判斷的貢獻度不同,Kampman等人對不同的模態特征進行加權融合[13]。羅淵貽等人提出一種自適應權重融合策略獲取不同模態對情感分析的貢獻度[14]。Zadeh等人提出的TFN模型通過笛卡爾積和張量融合的方式對模態內和模態間進行建模[15]。隨著注意力機制在各個領域表現出的顯著成果,許多研究者利用注意力機制將不同模態的信息進行融合。張濤等人和陳宏松等人均使用交叉注意力對不同模態的信息進行融合[16-17]。周柏男等人使用模態內自注意力和模態間的交叉注意力使各模態間信息共享并減少噪聲信息[18]。盧嬋等人提出文本指導的多模態層級自適應融合方法,利用注意力機制將文本模態與其他模態進行融合[19]。不同的是,Han等人提出了一種多模態融合的新思路,摒棄了設計復雜的融合方式的想法,設計一種層次化框架,最大化單模態輸入對和多模態融合結果與單模態輸入之間的互信息,通過多模態融合維護情感分析任務相關信息[20]。

2 多模態情感分析方法

圖2為本文提出的基于Transformer[21]的多子空間多模態情感分析方法的整體網絡框架圖,該網絡主要由4個模塊組成,分別是模態私有與共享表示學習模塊(private and shared representations learning module,PSRLM)、協同注意力跨模態Transformer模塊(co-attention cross-modal Transformer,CACT)、雙模態表示生成模塊(bi-modal representation generation module,BRGM)以及情感預測模塊。模態私有與共享表示學習模塊通過將不同模態的特征序列映射到不同子空間來學習模態的私有表示和共享表示。協同注意力跨模態Transformer模塊同時建模1種模態和其余2種模態之間的交互作用,獲得基于文本和基于音頻模態的三模態表示。在雙模態表示生成模塊中,首先使用模態的私有表示和共享表示生成該模態的最終表示,每2種模態相融合后再生成雙模態表示。在情感預測模塊中,將單模態表示、雙模態表示與協同注意力跨模態Transformer模塊中獲得的多模態表示進行拼接后,經過Transformer編碼器編碼得到最終的融合表示,并通過全連接層進行情感預測。

2.1 模態私有與共享表示學習模塊

在分別使用語言預訓練模型BERT[22]、視覺預訓練模型ViT[23]以及音頻預訓練模型wav2vec從原始數據中提取初始的特征序列Im之后,為了使視覺和音頻模態的特征序列獲得時序信息,使用單層單向長短期記憶網絡為這2種模態的特征序列注入上下文相關信息和長期依賴,并使用全連接層將3種模態的特征表示映射到同一維度,以便輸入到后續的網絡模型中進行操作,該過程如式(1)~(3)所示。

為了學習同一模態內不同方面的情感信息和不同模態間的差異化信息,設計了模態私有與共享表示學習模塊。首先,同一個視頻片段中的每種模態的數據都具有相同的情感傾向,這也是多模態情感分析能夠實現的原因。因此,為了獲取每種模態所包含的統一性信息,首先定義一個共享編碼器Encshared,將每種模態的初始特征序列表示經過Encshared編碼后映射到同一個子空間中,獲得具有統一情感傾向和共性情感信息的共享表示。同時,特征序列在經過共享編碼器編碼后有助于縮小不同模態之間的異質鴻溝,如式(4)所示。

同一模態的數據在包含統一情感傾向信息的同時,也具有特定于模態和包含說話者敏感風格的特殊信息,比如文本模態時常具有的諷刺傾向,一部分人群習慣于采用夸張的面部表情表達與所述文字相反的情感。因此,學習特定模態與情感相關的信息,能夠實現對情感分析進一步的信息補充,從而提升模型的性能。在將每種模態的初始特征序列通過Encshared映射到共享子空間以學習模態統一表示的同時,分別為3種模態定義各自的私有編碼器Encpm,經過Encpm編碼后將每種模態的初始特征序列映射到各自的私有子空間中,以捕獲特定于不同模態的差異化信息,并且學習模態內和模態間的不同特征,該過程如式(5)所示。

2.2 協同注意力跨模態Transformer模塊

在將每種模態的初始特征序列映射到共享子空間并獲得共享表示之后,每種模態的共享表示都獲得了一致的情感傾向和統一性信息,為了更進一步挖掘每種模態與情感相關的信息,同時建模不同模態之間的交互作用,并減小不同模態間的異質性,從而學習多模態融合表示,本文設計了一種協同注意力跨模態Transformer,其結構如圖3所示。

為每種模態的共享表示添加位置編碼以使模型能夠捕獲序列的順序信息,如式(6)所示,

多頭注意力機制output(式中簡記Ooutput作為跨模態注意力的核心組成部分,定義多頭注意力機制Ooutput=MHA(Q,K,V),如式(7)~(9)所示,

在協同注意力跨模態Transformer模塊中,以基于文本的協同注意力跨模態Transformer(t→a+v)為例,共包含L層協同注意力跨模態Transformer層(簡稱為CACT層),對于第i層CACT層(i=1,2,…,L),針對每種模態的輸入首先采用自注意力機制探索模態內的交互作用,如式(10)~(12)所示。

在每種模態進行模態內的交互作用之后,建模文本模態與音頻、視覺模態的交互作用以及音頻模態與文本、視覺模態的交互作用。以基于文本模態的協同注意力跨模態Transformer為例,將文本模態的表示投影后作為查詢,音頻模態和視覺模態的表示拼接后作為中間值,將中間值經過投影后獲得鍵和值。此時,能夠獲得文本模態句子中的每個單詞與每一幀音頻和視覺特征的相似性關系,其次,將跨模態注意力的輸出送入前饋神經網絡中獲得協同注意力跨模態Transformer層的輸出,如式(13)、(14)所示。

2.3 雙模態表示生成模塊

在學習到每種模態的私有表示和共享表示之后,為了綜合表示單模態表示,將同一模態的2種不同表示融合后生成最終的單模態表示,每種單模態表示的輸出由式(15)定義,

um=Sigmoid(FC(Fsharedm,Fpm))(15)

式中:um∈Rd。此時,最終獲得的單模態表示融合了同一模態不同方面與情感相關的信息,既包含統一性信息,又同時具備特定于某種模態獨特的信息。

為了實現補充基于文本和基于音頻的多模態融合表示的信息,設計了雙模態表示生成模塊,將包含不同方面信息的單模態表示雙雙進行融合,以獲得雙模態融合表示,彌補了多模態融合表示只注重學習多模態統一性信息的缺陷,如式(16)所示,

bm1m2=MLP((um1,um2)θMLP)

m1,m2∈{a,v,t},m1≠m2(16)

式中:bm1m2∈Rd;MLP(·)表示多層神經融合網絡,由2層全連接層分別后接Leaky ReLU激活函數和tanh激活函數組成;θMLP代表其網絡參數。

2.4 情感預測模塊

將單模態表示、雙模態表示和多模態融合表示進行拼接后,得到最終的多模態融合表示,該多模態融合表示同時具備統一性信息以及模態內和模態間的差異化信息,使模型能夠學習到更全面的與情感相關的信息。將拼接后的多模態融合表示輸入到兩層標準Transformer編碼器中進行編碼以建模不同表示之間的自注意力,再將具有自注意力的融合表示送入多層預測網絡進行情感預測,如式(17)、(18)所示。

f=TRM(ua,…,bav,…,hLt,hLa)(17)

=MLPN(f,θMLPN)(18)

式中: f∈R8d;MLPN(·)表示多層預測網絡,由2層全連接層和一個ReLU激活函數組成;θMLPN代表其網絡參數。

2.5 損失函數

為了確保每種模態的私有表示和共享表示捕獲到同一種模態不同方面的信息,同時確保能夠學到不同模態之間的差異化信息,采用軟正交約束計算同一模態間不同表示的相似性和不同模態表示之間的相似性之和作為差異損失,其定義如式(19)所示,

式中:‖·‖2F表示弗羅貝尼烏斯范數的平方操作;N表示訓練樣本的個數。

對于情感分析中的回歸任務,采用均方誤差損失作為損失函數,將差異損失加權后作為回歸任務中的總體損失函數來衡量情感強度預測的準確性,如式(20)所示,

對于分類任務,采用交叉熵損失作為損失函數,將差異損失加權后作為分類任務中的總體損失函數來衡量情感分類的準確性,如式(21)所示,

式中:γ作為超參數,用于調整差異化損失Ldiff在總體損失函數中的權重值。

3 實驗及結果分析

本節將對本文所提出的基于Transformer的多子空間多模態情感分析方法的有效性進行驗證,在2個基準數據集上設計并完成多項實驗。

3.1 實驗設置

1)基準數據集。為評估本方法的有效性,本文使用由卡耐基梅隆大學公開的多模態意見級情感強度數據集(Multimodal Opinion-level Sentiment Intensity,CMU-MOSI)和多模態意見情感與情緒強度數據集(Multimodal Opinion Sentiment and Emotion Intensity,CMU-MOSEI),數據集中分別包含文本、視覺和音頻3種模態的數據,2個數據集的組成與劃分如表1所示。CMU-MOSI數據集是一個評論性視頻的集合,每條評論數據的情感強度被標注為區間[-3,3]內的實數,從-3到3分表代表:強消極、消極、弱消極、中立、弱積極、積極和強積極。CMU-MOSEI比CMU-MOSI的視頻數量更多,涵蓋的話題范圍更廣,其情感標簽包含二分類、五分類以及七分類的標注,常用的是區間為[-3,3]的七分類情感強度標簽。除此之外,該數據集也包含6種情緒標簽,分別為:開心、悲傷、生氣、厭惡、驚喜與恐懼,每種情緒的強度為取值在[0,3]的實數。

2)實現細節。在模態私有與共享表示學習模塊中,長短期記憶網絡的隱藏狀態的維度設置為768,輸出維度為128。在協同注意力跨模態Transformer模塊中,每個協同注意力跨模態Transformer塊包含4層協同注意力跨模態Transformer層,自注意力的注意力頭數設置為4,基于文本和基于音頻的跨模態注意力中的注意力頭數都設置為8,最終輸出的多模態表示的維度設置為128維。在訓練過程中,網絡訓練采用的是Adam優化器,batch-size的調整范圍是{16,32,64},迭代次數epoch設置為50。本文提出的方法使用深度學習框架Pytorch實現,在RTX 3090GPU上進行模型訓練。

3.2 基準方法

LMF[15]:利用低秩張量進行多模態融合,以提高效率。

MFN[24]:明確地解釋了神經架構中的2種交互,并隨著時間對其進行建模。

RAVEN[25]:對非語言子詞序列的細粒度結構進行建模,并基于非語言線索動態地調整單詞表示。

MulT[26]:使用基于跨模態注意力的跨模態Transformer進行模態翻譯。

ICCN[27]:通過深度典型相關性分析來學習模態之間的相關性。

MAG-BERT[28]:采用多模態適應門將對齊的非語言信息與文本表示相結合。

MISA[29]:將各模態表示投影到模態特定和模態不變空間中,并學習分布相似性、正交損失、重構損失以及任務預測損失。

Self-MM[30]:設計了一個多模態和單模態任務來學習模態間的一致性和模態內的特異性。

MMIM[20]:分層最大化單模態輸入對和多模態融合結果與單模態輸入之間的互信息。

Hycon-B[31]:通過不同種類的對比學習模態間和模態內的交互關系以及樣本間和類間關系,從而減小模態差距。

ICDN[32]:結合跨模態Transformer方法和自監督獲取單模態情感標簽方法,同時學習一致性和差異化信息。

PS-Mixer[33]:采用基于MLP-Mixer的極性向量和強度向量的混合器模型實現不同模態數據之間的通信。

3.3 實驗結果分析

本小節將本文所提出的基于Transformer的多子空間多模態情感分析方法與基準方法在CMU-MOSI和CMU-MOSEI這2個基準數據集上進行性能比較,并對實驗結果進行了多方面的詳細分析,實驗結果如表2和表3所示。

對表2中的實驗結果分析可得,在CMU-MOSI數據集上,本文所提方法的實驗結果均要高于基線方法。其中,在回歸任務中,本文方法在MAE、Corr評價指標上得出了0.705、0.800的實驗結果,相比最好的基準方法,MAE下降了0.008,Corr提升了0.008;在分類任務上,二分類準確率Acc-2和F1得分分別為85.71%/86.63%、85.64%/86.63%,相比最好的基準方法分別提升了0.025 6/0.014 3、0.025 2/0.015 3。本方法在各項評價指標上的結果均優于最好的基準模型,驗證了本文提出的模型的有效性。其中,“/”左邊是消極與非消極時的二分類結果,“/”右邊是消極與積極時的二分類結果。

表3展示了本方法在CMU-MOSEI數據集上的多模態情感分析實驗結果。從表3中的數據分析得知,本方法在回歸任務的評價指標MAE和Corr上的結果與相對應的最好的基準方法SELF-MM和Hycon-B分別相差0.004和0.014;在分類任務中,本方法在二分類準確率Acc-2和F1得分上均取得了最優的結果:83.17%/85.99%和83.31%/85.92%,與最好的基準方法PS-Mixer相比分別提升了0.000 7/0.002 3和0.002 1/0.001 5,進一步證明去除冗余信息后對提升多模態情感分析精度有著重要作用。

綜合表2和表3的實驗結果可以得到,本方法在2個數據集上均實現了優于其他基線方法的性能,強基線模型PS-Mixer僅在較小的數據集CMU-MOSI上的實驗結果較為突出,證明該模型的魯棒性較差。本文提出的方法性能不局限于輸入數據的類型,具有較高的魯棒性。與應用傳統的三元Transformer結構方法如MulT和ICDN相比,MSTFN在各項評價指標上的實驗結果均遠高于這2種方法的實驗結果,由此可以分析得出,采用二元Transformer融合方案的模型能夠更好地實現多模態數據的融合,縮小模態間的異質性,提升模型情感分析能力。綜合以上分析可以得出,本方法是具有較高性能的多模態情感分析方法。

3.4 消融實驗

本文提出的基于Transformer的多子空間多模態情感分析方法由4個模塊組成,其中的主要模塊為模態私有與共享表示學習模塊、協同注意力跨模態Transformer模塊以及雙模態表示生成模塊。為了驗證3個主要模塊的有效性,在非對齊的CMU-MOSI數據集上設計了多項消融實驗。在完整模型MSTFN的基礎上,逐步去除各個主要模塊生成不同的模型版本,對本模型的各個版本的定義和解釋如下。MSTFN w/o PSRLM:去除模態私有與共享表示學習模塊的模型,相對應地,在訓練階段只保留基本的任務損失函數,去除差異化損失函數。此時,模型只能學習到多模態一致性信息而忽略了模態內和模態間的差異化信息。MSTFN w/o CACT:去除協同注意力跨模態Transformer模塊的模型。3種模態的共享表示被簡單地拼接起來,再經過情感預測模塊進行情感分析。這樣模態共享表示之間缺乏交互作用,導致不同模態之間仍存在較大的異質鴻溝。MSTFN w/o BRGM:去除雙模態表示生成模塊的模型。這會導致缺少同一模態內的交互作用,并且缺少對包含不同方面情感信息的單模態表示之間關系的建模,缺少對多模態融合表示的信息補充。

表4顯示了使用本模型的幾種變體所進行的消融實驗的結果。由表4中的數據可以得出,模態私有與共享表示學習模塊以及協同注意力跨模態Transformer模塊是使本方法達到最優性能的必要條件,協同注意力跨模態Transformer模塊對本方法的貢獻度最高。模態私有與共享表示在建模多模態統一性信息的同時,學習了模態內和模態間的差異化信息,對多模態融合信息進行了補充。協同注意力跨模態Transformer模塊同時建模文本和視覺、音頻模態以及音頻和視覺、文本模態之間的交互作用,保證了多模態融合表示包含足夠的與情感相關的信息,促進了多模態數據進一步融合。同時,相比于傳統的三元對稱的跨模態Transformer結構,二元跨模態Transformer結構能夠在保證減小模態間異質性的前提下減少冗余信息。

在協同注意力跨模態Transformer模塊中,本方法采用基于文本和基于音頻模態的多模態融合表示,為了驗證基于不同模態的協同注意力跨模態Transformer模塊對整個模型的影響,除了使用文本和音頻模態作為目標模態的完整模型上的實驗之外,分別在CMU-MOSI數據集上進行了1種目標模態、2種目標模態以及3種目標模態的實驗,實驗結果如表5所示。只有1種目標模態的情況下,分別以a、v、t為目標模態,利用1個單一的協同注意力跨模態Transformer獲得音頻與視覺和文本的交互[a→t+v]、視覺與音頻和文本的交互[v→t+a]以及文本與音頻和視覺的交互[t→a+v]。其次,對于2種目標模態的情況,同時采用2個協同注意力跨模態Transformer,獲得基于2種模態的多模態表示:[a→t+v]和[v→t+a]、[a→t+v]和[t→a+v]、[v→t+a]和[t→a+v]。最后,在有3種目標模態時,構建3個協同注意力跨模態Transformer模塊以同時建?;谖谋?、音頻和視覺模態的多模態融合表示,即[t→a+v]、[a→t+v]和[v→t+a]。由表5中的實驗結果可以得出,在只有1種目標模態時,基于音頻的協同注意力跨模態Transformer的性能最優,文本僅次于音頻模態,二者之間的差異很小且結果均高于單獨的視覺模態,說明基于具有語義信息的音頻、文本模態更能夠提升模態間的交互作用。同理,在2種目標模態的情況下,本方法中使用基于文本和音頻的協同注意力跨模態Transformer的結果最高。在3種目標模態的情況下,雖然對多種模態之間進行了復雜且全面的交互作用的建模,但是由于存在過多冗余信息,導致模型的性能降低,分類準確率以及預測精度甚至低于單獨的文本和音頻模態。

4 結語

本文提出了一種通過將不同模態的初始特征表示映射到不同子空間中以獲得多模態統一信息并學習模態內和模態間差異化信息的方法,稱為基于Transformer的多子空間多模態情感分析方法。該方法通過構建多模態的共享子空間和每種模態的私有子空間,獲得具有統一信息的共享表示和包含模態內與模態間的差異化信息的私有表示,摒棄傳統的三元對稱Transformer融合方案,設計了二元的協同注意力跨模態Transformer模塊對共享表示進行融合,同時建模1種模態與其余2種模態之間的交互作用,生成雙模態表示,對多模態融合表示進行信息補充。與以往的工作相比,本方法在2個多模態情感分析數據集中取得了具有競爭力的結果,這也有力地證明了模態內和模態間的差異化信息對多模態數據中包含的統一性信息在情感分析中能夠起到信息補充的作用,同時,驗證了二元Transformer融合方案能夠去除冗余信息,以此提升情感分析的準確率。更進一步地,設計多個消融實驗證明每個模塊的有效性,同時驗證了具有不同目標模態的協同注意力跨模態Transformer模塊對本方法的性能影響。最后,對超參數對整體損失函數的貢獻度進行分析,并從模型復雜度的角度進一步評估和分析本方法。

參考文獻

[1] PORIA S, CAMBRIA E, BAJPAI R, et al. A review of affective computing: From unimodal analysis to multimodal fusion[J]. Information Fusion, 2017, 37(C): 98-125.

[2] ZHANG Y, JIN R, ZHOU Z H. Understanding bag-of-words model: A statistical framework[J].International Journal of Machine Learning and Cybernetics, 2010, 1(1): 43-52.

[3] LI B F, LIU T, ZHAO Z, et al. Neural bag-of-ngrams[C]∥Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco: ACM,? 2017: 3067-3074.

[4] CHEN P H, LIN C J, SCHLKOPF B. A tutorial on ν-support vector machines[J].Applied Stochastic Models in Business and Industry, 2005, 21(2): 111-136.

[5] RISH I.An empirical study of the naive Bayes classifier[J].Journal of Universal Computer Science, 2001, 1(2):41-46.

[6] ALBAWI S, ABED MOHAMMED T A, Al-ZAWI S. Understanding of a convolutional neural network[C]∥2017 International Conference on Engineering and Technology (ICET). Antalya: IEEE, 2017: 1-6.

[7] MALHOTRA P, VIG L, SHROFF G, et al.Long short term memory networks for anomaly detection in time series[C]∥23rd European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning. Bruges:ESANN,2015.

[8] SONG K C, YAN Y H, CHEN W H, et al. Research and perspective on local binary pattern[J]. Acta Automatica Sinica, 2013, 39(6): 730-744.

[9] WANG Z, YING Z L. Facial expression recognition based on local phase quantization and sparse representation[C]∥2012 8th International Conference on Natural Computation. Chongqing: IEEE, 2012: 222-225.

[10]KAMARAINEN J K. Gabor features in image analysis[C]∥2012 3rd International Conference on Image Processing Theory, Tools and Applications (IPTA). Istanbul: IEEE, 2012: 13-14.

[11]HAN W, CHAN C F, CHOY C S, et al. An efficient MFCC extraction method in speech recognition[C]∥2006 IEEE International Symposium on Circuits and Systems (ISCAS). Kos: IEEE, 2006: 4pp.

[12]PORIA S, CHATURVEDI I, CAMBRIA E, et al. Convolutional MKL based multimodal emotion recognition and sentiment analysis[C]∥2016 IEEE 16th International Conference on Data Mining (ICDM). Barcelona: IEEE, 2016: 439-448.

[13]KAMPMAN O, BAREZI E J, BERTERO D, et al. Investigating audio, video, and text fusion methods for end-to-end automatic personality prediction[C]∥Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Melbourne: Association for Computational Linguistics, 2018: 606-611.

[14]羅淵貽,吳銳,劉家鋒,等.基于自適應權值融合的多模態情感分析方法[J/OL].軟件學報.(2023-10-07)[2023-11-20].https:∥doi.org/10.13328/j.cnki.jos.006998.

LUO Y Y, WU R, LIU J F, et al. Multimodal sentiment analysis based on adaptive weight fusion[J/OL].Journal of Software.(2023-10-07)[2023-11-20].https:∥doi.org/10.13328/j.cnki.jos.006998.

[15]ZADEH A, CHEN M H, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis[C]∥Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: Association for Computational Linguistics, 2017: 1103-1114.

[16]張濤,郭青冰,李祖賀,等.MC-CA:基于模態時序列耦合與交互式多頭注意力的多模態情感分析[J].重慶郵電大學學報(自然科學版),2023,35(4):680-687.

ZHANG T, GUO Q B, LI Z H, et al. MC-CA: Multimodal sentiment analysis based on modal temporalcoupling and interactive multi-head attention[J].Journal of Chongqing University of Posts & Telecommunications (Natural Science Edition), 2023, 35(4):680-687.

[17]陳宏松,安俊秀,陶全檜,等.基于BERT-VGG16的多模態情感分析模型[J].成都信息工程大學學報,2022,37(4):379-385.

CHEN H S, AN J X,TAO Q H, etal. Multi-modal sentiment analysis model based on BERT-VGG16[J].Journal of Chengdu University of Information Technology, 2022, 37(4):379-385.

[18]周柏男,李旭,范豐龍,等.基于交互注意力機制的多模態情感分析模型[J].大連工業大學學報,2023,42(5):378-384.

ZHOU B N, LI X, FAN F L, et al. Multi-modal sentiment analysis model based on interactive attention mechanism[J].Journal of Dalian Polytechnic University, 2023, 42(5):378-384.

[19]盧嬋,郭軍軍,譚凱文,等.基于文本指導的層級自適應融合的多模態情感分析[J].山東大學學報(理學版),2023,58(12):31-40.

LU C, GUO J J, TAN K W, et al. Multimodal sentiment analysis based on text-guided hierarchical adaptive fusion[J].Journal of Shandong University(Natural Science), 2023, 58(12):31-40.

[20]HAN W, CHEN H, PORIA S. Improving multimodal fusion with hierarchical mutual information maximization for multimodal sentiment analysis[C]∥Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Punta Cana: Association for Computational Linguistics, 2021: 9180-9192.

[21]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: ACM, 2017: 6000-6010.

[22]DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL]. (2019-05-24)[2023-11-20]. http:∥arxiv.org/abs/1810.04805.

[23]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL]. (2021-06-03)[2023-11-20]. http:∥arxiv.org/abs/2010.11929.

[24]ZADEH A, LIANG P P, MAZUMDER N, et al. Memory fusion network for multi-view sequential learning[C]∥Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence. New Orleans: ACM, 2018: 5634-5641.

[25]WANG Y S, SHEN Y, LIU Z, et al. Words can shift: Dynamically adjusting word representations using nonverbal behaviors[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 7216-7223.

[26]TSAI Y H H, BAI S J, LIANG P P, et al. Multimodal transformer for unaligned multimodal language sequences[J].Proceedings of the Conference Association for Computational Linguistics Meeting, 2019, 2019: 6558-6569.

[27]SUN Z K, SARMA P, SETHARES W, et al. Learning relationships between text, audio, and video via deep canonical correlation for multimodal language analysis[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(5): 8992-8999.

[28]RAHMAN W, HASAN M K, LEE S W, et al. Integrating multimodal information in large pretrained transformers[J].Proceedings of the Conference Association for Computational Linguistics Meeting, 2020, 2020: 2359-2369.

[29]HAZARIKA D, ZIMMERMANN R, PORIA S. Misa: Modality-invariant and-specific representations for multimodal sentiment analysis[C]∥Proceedings of the 28th ACM International Conference on Multimedia. Seattle: ACM, 2020: 1122-1131.

[30]YU W M, XU H, YUAN Z Q, et al. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(12): 10790-10797.

[31]MAI S J, ZENG Y, ZHENG S J, et al. Hybrid contrastive learning of tri-modal representation for multimodal sentiment analysis[J]. IEEE Transactions on Affective Computing, 2023,14 (3): 2276-2289.

[32]ZHANG Q A, SHI L, LIU P Y, et al. RETRACTED ARTICLE: ICDN: Integrating consistency and difference networks by transformer for multimodal sentiment analysis[J]. Applied Intelligence, 2023, 53(12): 16332-16345.

[33]LIN H, ZHANG P L, LING J D, et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis[J].Information Processing & Management, 2023, 60(2): 103229.

猜你喜歡
音頻注意力模態
讓注意力“飛”回來
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于Daubechies(dbN)的飛行器音頻特征提取
“揚眼”APP:讓注意力“變現”
音頻分析儀中低失真音頻信號的發生方法
A Beautiful Way Of Looking At Things
Pro Tools音頻剪輯及修正
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合