?

視頻問答技術研究進展

2024-03-23 08:04包翠竹董建峰謝滿德
計算機研究與發展 2024年3期
關鍵詞:注意力模態特征

包翠竹 丁 凱 董建峰 楊 勛 謝滿德 王 勛

1 (浙江工商大學計算機科學與技術學院 杭州 310018)

2 (浙江工商大學信息與電子工程學院 杭州 310018)

3 (浙江省電子商務與物流信息技術研究重點實驗室(浙江工商大學) 杭州 310018)

4 (中國科學技術大學信息科學技術學院 合肥 230026)

圖靈測試至今依然是評判機器是否具有人類智慧的重要手段,它代表著機器對人類知識體系或交互的理解程度,是人工智能的一個充分條件.近些年來,為了讓機器像人類一樣思考與交互,研究者們一直熱衷于類似圖靈測試相關人工智能系統的研究,如問答系統.隨著問答系統在自然語言處理的成功,人們開始考慮將這種交互式的問答方式引入計算機視覺領域,對視覺對象進行交互式理解[1].在此背景下,基于圖像的ImageQA 在2015 年被提出[2],并受到廣泛關注[3-5].而VideoQA 則是ImageQA 的自然擴展,即將ImageQA 的單幅圖像延伸為圖像序列,VideoQA任務應運而生.VideoQA 可以被認為是一種視覺圖靈測試,它也需要理解問題的能力,但不一定需要更復雜的自然語言處理.一個優秀的VideoQA 模型能夠解決諸多計算機視覺相關方面的問題,因此它可以作為圖靈測試的重要組成部分.由于生活中大多數數據均為動態視覺信息,VideoQA 系統在實際場景中的應用更為廣泛,基于視頻的對話問答已逐漸成為人機交互的重要方式.這項技術的發展對智慧教育、智能交通以及視頻取證等方面均有著積極的影響,尤其能極大程度地幫助視障人士在網絡與現實世界獲取有用的視覺信息[6].

據當前調研所知,國內單純的VideoQA 方向的綜述文章未見發表,與之相關的ImageQA 綜述如文獻[1]對VideoQA 任務的難點只做了簡單分析,文獻[7]針對ImageQA 任務提出的部分挑戰同樣適用于VideoQA 任務.國外鮮有報道,在目前發表的幾篇綜述論文中,Patel 等人[8]對目前常用的數據集和主流方法進行分類與介紹,但僅僅是簡單羅列,并沒有分析各方法之間的關系.Khurana 等人[9]對主流方法的分類總結比文獻[8] 更為全面,然而該文提到的方法與數據集不夠完善.Sun 等人[10]對現有VideoQA 任務的數據集與方法的歸納與總結相對完善,對模型分析比較透徹,但近2 年新出現的方法與數據集也有待完善.相對于國外的這3 篇綜述,本文除了回顧基于注意力機制[11]的方法與記憶網絡(memory networks, MemNN)[12]的方法之外,還將近2 年新出現的基于圖網絡,如圖神經網絡[13](graph neural network,GNN) 與圖卷積神經網絡[14](graph convolutional network,GCN)的方法、基于預訓練的方法以及基于Transformer[15]與BERT[16]的方法進行了總結與分析;同時,將當下絕大多數用于VideoQA數據集各項指標進行了收集,并對常用數據集的模型性能進行匯總與分析.通過表1 進行對比,可以看出本文無論是數據集還是方法介紹均是目前最全面的.

Table 1 Comparison of VideoQA Survey Works表1 VideoQA 綜述工作對比

除此之外,本文的VideoQA 研究進展調研力求提供一個全面且系統的綜述工作,收集了計算機視覺、自然語言處理、多媒體和機器學習等諸多領域的知名會議與期刊論文,如CVPR,ICCV,ECCV,AAAI,NeurIPS,IJCAI,ACM MM,ACL,EMNLP,TPAMI,TIP,IJCV 等.這些論文主要發表于2017-2021 年,對于2022 年1~3 月發表的論文也進行了統計,如圖1 所示.本綜述具體行文的組織結構如圖2 所示.

圖1 論文統計Fig.1 Paper statistics

圖2 本文的概述Fig.2 The overview of our paper

1 VideoQA 概述

本節主要介紹VideoQA 問題定義、VideoQA 相較與ImageQA 的區別及挑戰以及近幾年VideoQA 的發展趨勢.

1.1 問題定義

VideoQA 的目標是根據一個視頻 V 和與之相關的問題q推斷出問題的答案.VideoQA 模型可以表述為:

其中 F為評分函數, θ為模型參數, A 是一個可能存在答案的集合.

VideoQA 任務中的問題可以分為開放式問題、選擇題和填空題3 種類型.開放式問題類型如圖3(a)所示,問題沒有候選答案;選擇題類型如圖3(b)所示,1 個問題對應多個候選答案,候選答案中只有1 個是正確的;填空題類型如圖3(c) 所示,1 句話中缺少1個詞,需要模型進行填充.其中,填空題可以視為一種特殊的開放式問題,在后文2.3 節將其視為開放式問題.

圖3 各類型問題示例Fig.3 Examples of various types of questions

1.2 VideQA 與ImageQA 的區別及挑戰

VideoQA 是一項結合計算機視覺與自然語言處理的任務,該任務根據問題來分析視頻內容并得出答案.VideoQA 由ImageQA 發展而來,ImageQA 任務中的模型根據給定的一幅圖片及自然語言的問題,以自然語言的形式給出答案,如圖4 所示.相較于ImageQA,VideoQA 將圖片替換成視頻,從靜態的圖片變成了動態連續的幀序列.所以,不能簡單應用原有的ImageQA 模型,而是需要在原有的基礎之上對幀序列進行動作分析和時序建模,并同時考慮到視頻中的多模態信息,因此VideoQA 相對而言更具有挑戰性.

圖4 VideoQA 與ImageQA 模型對比Fig.4 Comparison of VideoQA and ImageQA models

具體來講,VideoQA 相對于ImageQA 主要有2方面的區別:一方面,對于ImageQA 來講,圖片是靜態的,包含的信息(顏色、對象及其空間位置等)更容易通過模型進行提取與分析,所以模型只需要充分理解單幅圖片上的所有信息,外加少量輔助知識,就能夠在回答針對單幅圖像的問題上取得具有競爭性的結果.相比于ImageQA,VideoQA 模型處理的是連續變化的動態視頻幀信息,包含更豐富多變的信息(外觀信息、音頻信息、動作與狀態轉換等).另一方面,ImageQA 大多是關于對象外觀的幀級問題,主要關注圖片的對象屬性,例如顏色或者空間位置等,推理部分相對較少.然而VideoQA 中大多是關于對象行為與因果關系的問題,此類問題的回答就需要模型具有更強的對上下文建模和因果推理的能力.同時,視頻中包含許多時間線索,大部分問題也是關于視頻的時序推理,比如狀態轉換、動作計數等,所以VideoQA 模型又需要良好的時序建模能力.

從上述VideoQA 與ImageQA 的對比分析中,可以總結VideoQA 任務主要面臨4 方面挑戰:

1)基于問題的關鍵幀定位

視頻通常每秒包含多幀圖片,必然存在大量問題無關的冗余信息,這種冗余會干擾模型的推理過程.如何保證從大量復雜信息中根據問題定位到預測答案所需的關鍵時刻信息是至關重要的.突出與問題相關的重要信息是進行準確推理的關鍵.

2)豐富多樣的信息需要記憶

為了更準確地回答有關動作、因果等相關的復雜問題,模型無論在數量上還是在多樣性上都需要記憶更長的信息,而信息的完整性是進行推理的前提.

3)基于幀序列的時空建模

視頻作為圖像序列,不僅包含靜態屬性,如顏色、位置,還包含更多時空相關的動態屬性,如動作和狀態轉換.豐富多樣化的信息意味著推理過程更加復雜,需要根據問題整合時空2 個維度的信息進行綜合推理.多維度信息可以互相增強,對于時空推理的問題起到很大幫助.

4)多模態信息的語義理解

多模態信息體現在視頻包含多個類型的媒體數據,如圖像、語音、標題和字幕等.這些數據的交叉使得視頻具有更復雜的語義信息,也對模型獲取更好的多模特征表示提出了更高的要求.

應對這4 個挑戰的關鍵在于如何建立視頻和問題之間的語義聯系及其在時序上的連續性與關聯性,其關鍵是將視頻特征和文本特征進行處理與融合.根據模型處理方法的不同,本文將VideoQA 模型分為基于注意力的模型、基于記憶網絡的模型、基于圖網絡的模型、基于預訓練的模型、基于Transformer 與BERT 的模型及其他模型.

1.3 VideoQA 發展趨勢

總體來講,VideoQA 模型由最初的注意力和記憶網絡發展到目前流行的圖網絡、預訓練及Transformer 與BERT,代表性模型的年歷表概覽如圖5 所示.早期的VideoQA 模型(2017-2019)為了去除視頻中大量問題無關的冗余信息,多數采用了注意力機制,此類方法根據問題有效地提取視頻的關鍵信息以用于答案推理.同時,為了保證模型能夠從視頻中更好地挖掘多個時間幀信息的關聯性,保證信息的完整性,許多模型引入了記憶網絡.2020 至今,鑒于圖神經網絡在關系建模和推理方面的優異表現,部分研究者開始將其應用于VideoQA 任務中以更好地建模對象關系信息,并且挖掘豐富的時-空相關的動態屬性.

圖5 主流的VideoQA 模型年歷表概覽Fig.5 Overview of the mainstream VideoQA model almanacs

除此之外,隨著Transformer 與BERT 模型在自然語言處理領域所展現的出色性能,越來越多的研究者嘗試將其引入自己的VideoQA 模型(包括預訓練模型)中去.Transformer 與BERT 改進了循環神經網絡(recurrent neural network,RNN)訓練慢的缺點,利用自注意力機制實現快速并行,并且可以增加到非常深的深度,充分挖掘深度神經網絡模型的特性,提升模型準確率.與此同時,視覺語言預訓練模型在近2 年也展現了在海量互聯網數據中學習視覺-文本聯合表征的強大能力,這種由數據驅動的預訓練模型的性能在下游的VideoQA 任務中也嶄露頭角.

2 VideoQA 模型

圖6 為VideoQA 模型的詳細處理流程.VideoQA模型處理主要分為視頻與文本的特征提取與編碼、多模態特征處理與融合以及答案生成3 個部分.特征提取與編碼又分為視頻和文本的特征提取與編碼,主要介紹目前通用的技術,該部分內容將在2.1 節進行介紹;對特征的處理與融合是VideoQA 的核心與關鍵,也是研究者們圍繞該任務展開研究的主要方面,每一個方法的不同之處也均體現在這一部分,該內容將在2.2 節進行重點介紹;答案生成部分對于不同的問答任務已經形成了相對固定的答案解碼方式,該部分將在2.3 節進行綜合介紹.

圖6 VideoQA 模型處理流程Fig.6 VideoQA model processing flow

2.1 特征提取與編碼

2.1.1 視頻特征

視頻的視覺特征提取不僅包含靜態的區域級(對象)特征和幀級特征提取,還包含動態的片段級特征提取.區域級特征是對局部信息的細粒度表示,可以表示為對象特征及其標簽,此類特征一般使用目標檢測網絡進行提取,如Faster R-CNN[17].幀級視頻特征是對全局視覺信息的粗粒度表示,較之于區域級特征可以獲取更豐富的信息,如場景信息等.目前幀級特征常直接應用ImageQA 模型中的圖片特征提取方法,即在ImageNet[18]上預訓練的2D 卷積神經網絡,如VGGNet[19],GoogLeNe[20],ResNet[21].片段級視頻特征,是順序的和動態的特征表示,如動作.片段級特征早期采用用于動作識別的3D 卷積網絡,從空間和時間維度中提取特征,從而捕獲在多個相鄰幀中編碼的動作信息.隨著C3D[22]網絡在動作識別和捕捉視頻動態信息中展現出優異性能,C3D 成為主流的動作特征提取方法,后續也有方法在C3D 的基礎上進一步地優化,如雙流膨脹3D 卷積網絡I3D[23]等與基于時域和空間域分離的S3D[24]網絡.除此之外,ResNeXt[25]與SlowFast[26]等也用于3D 動作識別.除了視覺特征以外,視頻中音頻模態信息也被用來作為視覺特征的補充[27-28].比如對于唱歌、演講類型的視頻,音頻信息對于視頻中事件的理解可以起到很好的補充作用.針對VideoQA 中的音頻特征的提取,常見的有手工設計的傳統特征梅爾頻譜以及基于深度神經網絡的SoundNet[29]與WALNet[30].此外,視頻中的標題和字幕包含了豐富的語義信息,通常也用作為視頻的文本模態信息的建模.由于標題或字幕特征提取與問題特征提取類似,其特征提取方式將在2.1.2 節文本特征提取中介紹.

視頻在輸入時包含視覺、字幕與音頻多種模態信息,模型對其進行融合方式也不盡相同.簡單地操作實現不同模態的特征向量的整合,例如部分模型使用點乘、點加、拼接和加權求和[31],然而簡單操作使得參數之間幾乎沒有聯系,這種方式的聯合向量表達能力明顯不足.所以有模型使用雙線性池化融合視頻多模態特征向量來獲得一個聯合表征空間[32-33],其方法是計算兩者的外積,通過將外積生成的矩陣線性化成一個向量表示,這意味著該方法更具有表現力.目前,很多模型利用注意力機制來融合視頻多模態信息[34-35],多模態特征向量通過注意力操作可以動態產生求和時要用到的權重,特征融合時可以保存額外的權重信息,起到信息互補的作用.此外,由于Transformer 全自注意力的結構天生就具備處理不同模態數據的能力,逐漸成為主流的多模態融合的方法.其主要分為單流模型和多流模型,單流模型將視覺和文本的嵌入拼接到一起,輸入到一個Transformer中;而多流模型讓視覺和文本使用2 個或多個獨立的Transformer 分別編碼[36-37],并且可在中間層加入視覺和文本2 個模態之間互注意力來融合多模態信息.

2.1.2 文本特征

文本特征提取包括視頻中字幕的文本特征提取與問題的文本特征提取,文本特征提取又可以分為單詞級特征與句子級特征.對于單詞級特征,主要采用包括Word2Vec[38]和GloVe[39]的詞嵌入來提取單詞級特征.而對于句子級特征,主要采用Skip-Thought[40]和BERT 來提取句子級特征.其中BERT 是一種經過微調的基于Transformer 的語言模型,它能夠捕捉雙向上下文信息,用以在不同的句子級別任務中預測句子,目前已成為主流的文本處理方案.

視頻中的視覺和文本都是序列數據,因此在VideoQA 任務中,許多研究者使用基于RNN 的模型來編碼視頻的幀級特征與文本的單詞級特征,來獲取視頻片段級特征和問題級特征.常被使用的經典RNN 結構包括長短期記憶(long short term memory,LSTM)[41]編碼器和門控遞歸單元(gated recurrent unit,GRU)[42],雙向LSTM(Bi-LSTM) 和雙向GRU(Bi-GRU)均為前兩者的變體.

2.2 模型處理方法

2.2.1 基于注意力的模型

注意力機制廣泛應用于自然語言處理和計算機視覺領域,目前已經成為神經網絡結構的重要組成部分.常見的注意力機制包括點積模型、雙線性模型以及近幾年流行的自注意力模型和多頭注意力模型等.在VideoQA 任務中可將問題作為查詢,將視頻作為源,那么注意力機制就是用來定位視頻中與問題相關的信息.由此,注意力的實質可以看作一個查詢到一系列鍵值對的映射.如圖7 所示,注意力的計算主要分為3 階段:第1 階段是將查詢和每個鍵進行相似度計算得到權重,常用的相似度函數有點積、拼接、感知機等;第2 階段一般是使用一個softmax 函數對這些權重進行歸一化;第3 階段將權重和相應的鍵值進行加權求和得到最終的注意力.

圖7 注意力計算的3 個階段Fig.7 Three stages of attention calculation

在VideoQA 任務中,鍵和值通常是同一個.因此,常見的注意力計算過程可以描述為3 種計算方式:

其中si是計算的注意力得分,代表查詢與鍵之間的相似性;ai是si經過歸一化得到的注意力分布,實質為概率分布;c是由權重與值進行加權求和得到的最終注意力向量.從注意力計算過程可以看出,注意力機制本質相當于資源再分配機制,對原資源根據對象重要程度重新分配資源,所分配的資源其實就是權重.本文將基于注意力機制的模型分為:單跳注意力[43-54]、多跳注意力[33,55-61]和多模態注意力[62-74].

1)單跳注意力

單跳注意力模型是指以問題為查詢,對視頻的視覺特征只執行1 次注意力計算,視頻的視覺特征包含區域級、幀級和片段級特征.

Zhao 等人[43]提出了雙層注意力網絡(dual-level attention network,DLAN)模型.該網絡基于幀級與片段級的視頻特征分別利用詞級與問題級注意力機制來學習問題的聯合視頻表征.盡管DLAN 利用細粒度詞級注意力來增強視頻表示,然而它忽略了詞級語義,不同的單詞需要不同程度的注意力,甚至有些詞并不需要注意.Xue 等人[44]提出異構樹型網絡,該網絡通過問題中的詞來構建語義樹,并根據單詞詞性對樹中的詞進行處理,區分視覺詞和語言詞,使注意力計算更為合理.此外,與DLAN 模型分層思想不同,Jang 等人[45]提出的時空視頻問答(spatio-temporal VQA,ST-VQA) 模型基于時空注意力機制來突出重要的區域與重要的幀,使用2 個雙層LSTM 來挖掘視頻視覺內容與問答文本內容之間的關系.Falcon 等人[46]對ST-VQA 模型的幀特征提取做了微調并設計使用了3 種數據增強技術,分別為重采樣、鏡像和水平翻轉.Mazaheri 等人[47]提出基于分層時空注意的模型更加關注文本編碼的網絡,使用2 個獨立的LSTM 分別對填空題句子空缺處的左右片段進行并行編碼及反編碼.Xu 等人[48]提出利用粗粒度問題特征和細粒度詞特征來逐步細化注意力的方法.對于給定視頻,該模型以問題的詞級特征作為引導,在每個時間步上通過設計的注意力單元(AMU)對幀級外觀特征與片段級動作特征進行關注.除了利用分層機制對視頻與問題進行建模,Chao 等人[49]認為視頻中的對話具有多層上下文關系,從分層注意力角度對視頻與文本進行時空注意力機制學習.而Zhao 等人[50]從自適應分層增強編解碼網絡(AHRN)學習的角度來對視頻內容進行建模.自適應編碼網絡根據其設計的二進制門函數對視頻進行分割,然后利用注意力機制在問題的引導下學習相關幀與片段的聯合表示,生成問題感知視頻表示.

Kim 等人[51]從多任務學習的角度來解決VideoQA任務,提出問題引導下的視頻與字幕匹配任務和時間定位任務作為VideoQA 的輔助任務.與文獻[51]設計思想相似,Lei 等人[52]提出基于證據的時空答案(spatio-temporal answerer with grounded evidence,STAGE)模型在空間與時間維度上進行監督訓練,用于輔助主任務.這種額外的輔助監督學習在一定程度上可以彌補模型在小規模數據集上監督學習的不足.然而STAGE 模型主要是在時間維度上提取具有預設間隔的網格級特征.相比之下,為了更好地執行多事件時間推理,Gao 等人[53]提出了時序分割與事件注意力網絡模型,該模型利用設計的算法將視頻分割成事件級片段表示,然后利用注意力機制來定位給定問題的關鍵事件并輸出答案.事件級片段表示使得模型在多變環境中更容易定位到關鍵事件.

2)多跳注意力

多跳注意力機制在視頻上進行迭代注意力計算,本次注意力計算結果作為下次注意力計算的輸入.相對于單跳注意力計算,多跳注意力計算可以逐漸細化問題對于視頻的注意,以逐步引導注意到答案的正確位置.假設k-1 次的注意力計算結果為hzk-1(Q,V),多跳計算過程可以表示為

使用問題q初始化y0,問題與視頻產生的注意力與問題級聯,作為新的問題特征與視頻特征再次進行注意力計算,如此迭代計算以更新yk.使用最終更新后的問題特征與視頻特征產生最后的問題引導的視頻注意力.

基于對象屬性在視覺理解任務中的有效應用,Ye 等人[55]提出了一種基于屬性增強的注意網絡模型.該模型利用對象屬性來增強視頻表示,然后引入多步推理過程,對視頻進行多跳注意力計算.在文獻[55]中強調了對象屬性對于VideoQA 任務的重要性,但沒有很好地利用問題中的每個詞與視頻每個部分的關系.為了能夠根據問題找到視頻不同部分之間的上下文關系,Chowdhury 等人[56]提出分層關系注意力模型.該模型在每個時間步上以問題的每個詞嵌入和視頻的動作與外觀特征作為注意力模塊的輸入,注意力模塊的輸出與問題編碼后的特征一塊傳遞到關系模塊,其注意力模塊借鑒于文獻[48].Zhao 等人[57]提出了多流分層注意力上下文網絡,和文獻[56]中的問題與視頻不同部分具有上下文關系類似,Zhao等人認為對話具有雙層順序關系,所以使用層次注意力上下文網絡對其進行分層建模,與問題特征結合生成上下文感知問題表征.

為了同時利用視頻的空間特征和時序信息,部分方法采用注意力機制對時-空信息進行建模.Zhao等人[58]提出了一個分層時空注意網絡模型r-STAN,該模型根據目標對象與問題分別從空間層次與時間層次聯合學習關鍵幀的視覺特征表示,并且在網絡中加入了多步推理過程來進一步提升模型性能.Song等人[59]利用空間注意力完成多重邏輯推理操作,利用時間注意力捕捉長時間依賴并收集完整的視覺線索.其中時間注意力模塊使用的是經過改良的GRU,稱為ta-GRU(temporal-attention GRU),將時間注意力與其隱藏的狀態轉移過程關聯起來,通過捕捉長時間依賴性,獲取更完整的時序視覺線索.此外,Jiang 等人[60]提出問題引導時空上下文注意的網絡(questionguided spatio-temporal contextual attention network,QueST)模型.該模型從時間和空間2 個維度引入視覺信息對問題信息進行協同建模,然后從2 個維度挖掘與問題相關的視覺信息.

區別于以往文獻[45, 48]中提出的方法,將外觀與動作分別做單獨處理,Yang 等人[33]提出了問題感知管道交換網絡(tube-switch network,TSN),其注意力模塊是基于多模態分解雙線性池(multi-modal factorized bilinear pooling,MFB)[62],可以對外觀和動作進行同步注意力機制,而更新模塊可以逐步細化多層TSN 中的關注點,交換模塊則根據問題在每個推理步驟中自適應地選擇外觀或運動管道作為主特征,另一個特征作為支撐特征用于豐富主特征,指導多步推理過程中的注意力細化.

現有模型對于VideoQA 任務只提供答案,并未針對答案提供可解釋的依據.Liang 等人[61]提出了一種聚焦視覺與文本注意力(focal visual-text attention,FVTA)模型,該模型可以預測答案的同時,給出視覺和文本證據以解釋推理過程.圖8 展示了FVTA 與傳統注意力的區別,模型從問題、文本與視覺3 個維度進行關注,應用于3 維張量,而一般的注意力模型應用于矢量或矩陣.該模型的核心在于視覺與文本的注意力層,其在每個時間步上進行多跳注意,跨越多個序列,充分利用了多時間步、多序列的特質.FVTA注意力機制特有的性質使其既考慮了視覺與文本序列的內相關性,又考慮了交叉序列的相互作用,保留了序列數據中的多模態特征表示而不丟失重要信息.

圖8 FVTA 和傳統注意力的比較[61]Fig.8 Comparison of FVTA and traditional attention[61]

3)多模態注意力

VideoQA 模型需要處理的數據包含多種模態,模態內與模態間往往存在很多關聯信息.對于模態內的關系,使用由注意力機制演變而來的自注意力來挖掘自身內部信息特征得到相關性;對于模態間的關系,通常使用共同注意力機制來獲取,例如問題引導視頻注意力與視頻引導問題注意力.此外,對于包含字幕的視頻,還將存在字幕引導的問題注意力與問題引導的字幕注意力.模型通常包含但不僅限于這2 種注意力機制,對于注意力模塊的輸入可以按需調整.

Xue 等人[63]提出了一種基于視頻與問題共同注意力機制的方法.該方法提出的注意力機制分為問題引導的視頻注意力與視頻引導的問題注意力,以及將兩者進行整合的統一注意力.與文獻[63]類似,Chu 等人[64]進一步提出了重看與重讀機制,實質上也是視頻與問題的共同注意力.兩者組合的遺忘觀察模型為共同注意力模型,更好地利用了視頻的時間信息和答案的短語信息.Gao 等人[65]提出了一種結構化雙流注意力網絡(structured two-stream attention network,STA) 的模型,不同的是該模型由多層共同注意力網絡組成.

然而由于視頻的復雜性與時序性,僅僅將共同注意力機制應用到VideoQA 中往往效果很差.針對這一問題,Li 等人[66]提出具有多樣性學習的可學習聚合網絡(learnable aggregating net with diversity learning,LAD-Net),該網絡使用獨特的多路徑金字塔式共同注意力機制.多樣性學習是為了處理視頻復雜的特征,將視頻特征與問題特征以不同維度的特征表示進行多次共同注意力學習,再利用懲罰機制進行多樣性學習.

共同注意力機制能夠較好地捕獲了模態之間的關系,而對于模態內關系的內部依賴刻畫不足.Li 等人[67]將自注意力機制與共同注意力機制結合,提出了位置自注意力和共同注意力(positional self-attention with co-attention,PSAC) 模型,PSAC 模型結構如圖9所示.位置自注意力通過關注同一序列中的所有位置,然后添加絕對位置的表示來計算每個位置的響應.同時利用共同注意力機制以使模型能夠同時考慮相關的視頻和文本特征,從而消除了不相關的視頻和文字信息,確保了正確答案的生成.

圖9 PSAC 模型結構[67]Fig.9 The structure of PSAC model [67]

部分方法不僅限于將注意力機制應用到視頻與問題2 種模態,而且考慮了字幕與問題之間的注意力.Kim 等人[68]提出了一種多模態雙重注意力記憶(multimodal dual attention memory,MDAM) 模型.MDAM 中的雙重注意力與多模態融合是其關鍵所在.雙重注意力機制的設計思想來源于Transformer.自注意力模塊用于學習預處理幀與字幕潛在的可變信息.多頭注意模塊在給定問題下根據自注意力模塊的輸出來找出與問題相關的潛在信息.與文獻[68]相比,Lei 等人[69]提出的網絡增加了一個視覺概念特征.該網絡分為3 流進行獨立處理,將區域視覺特征、視覺概念特征和字幕特征分別與問答對進行基于注意力機制的特征融合,每個處理流均使用上下文匹配模塊[75-76]和Bi-LSTM 策略.該方法并沒有充分地考慮到視頻和字幕之間的交互以及視頻中的對象關系,對于多模態推理的能力有所欠缺.針對文獻[69]中的方法不足,Li 等人[70]提出關系感知分層注意力網絡,在引入視覺概念的同時充分考慮了對象之間的動態關系和交互理解.該網絡使用基于GAT[77]編碼器建模對象之間的空間和語義關系,并采用問題引導的層次注意力模塊捕捉多模態對象的靜態和動態關系,最后利用自注意力機制進行多模態融合以突出各模態本身的重要性.

利用多模態注意力機制來定位問題相關的關鍵時刻,然而關鍵時刻定位所需的模態可能與答案預測所需要的模態不同.Kim 等人[71]提出模態轉移注意力網絡(modality shifting attention network,MSAN),它很好地解決了模態轉換問題.MSAN 包含2 個組件,即時刻提議網絡(如圖10 中的②)與異構推理網絡(如圖10 中的③).前者用來定位具體時刻,利用注意力機制對上下文與假設進行聯合建模;后者使用多模態注意力機制來預測答案,它引入異構注意力機制來考慮模態間和模態內的相互作用.同時也提出了模態重要性調制(如圖10 中的①)來給定2 個組件中每個模態的權重.

圖10 MSAN 模型的關鍵模塊[71]Fig.10 Key modules of MSAN model[71]

與傳統的注意力機制不同,Jin 等人[72]提出了一種新的多交互注意力機制.多交互在該模型中指的是視覺信息與文本信息的交互,以及多模態中多層次交互,即幀級和片段級2 種類型的交互,其與Transformer 模型結構相似.該模型既考慮了視頻中的動態特征,又考慮了不同級別的句子表示,這對模型的推理起到關鍵作用.

Kim 等人[73]提出雙級注意力機制,分別是詞/對象級與幀級.然后以自注意力和交叉注意力機制融合視頻與密集字幕來進一步改進模型的時間定位,最后通過門控機制選擇信息量最大的幀.視頻中密集字幕的引入相比于單個圖像字幕能夠提供更有用的線索來回答問題.基于文獻[73]提出的模型,Chadha等人[74]在其輸入端加入了常識知識庫,從輸入視頻中的幀特征來生成對應常識性特征與原視頻特征連接.這些常識性特征可以幫助模型更好地感知視頻中事件之間的關系,從而提高模型在常識推理的視頻任務中的表現.

本節從單跳注意力、多跳注意力與多模態注意力3 個互相獨立又存在包含關系的方面對基于注意力的模型進行了詳細介紹.單跳注意力僅能突出視頻與問題的淺層關系,深層關系則需要視頻與問題的多跳注意力遞進挖掘.而多模態注意力除了關注視頻與問題的交互權重之外,同時考慮各模態的自注意力以及視頻與問題,字幕與問題之間的共同注意力,充分探索了多模態中模內關系與模間關系.整體來講,基于注意力的模型有著低復雜度且與時序無關的特點,也說明該類模型無法捕捉位置信息,即不能學習視頻與問題序列中的順序關系.

2.2.2 基于記憶網絡的模型

在VideoQA 這一長序列學習任務中,模型需要記憶更多的視頻內容,并在答案推理時,根據問題在記憶的多個時間幀信息中進行準確定位.現有的大多數機器學習模型都缺乏能夠與推理無縫結合的長期記憶單元.雖然基于RNN 的方法可以進行序列學習,但受其記憶單元本身的特性影響,不能準確完整記憶長序列內容.為了解決這一問題,研究人員探索使用記憶網絡來進行長序列學習和推理.本文將基于記憶網絡的模型分為靜態記憶網絡[31-32,78-81]和動態記憶網絡[34-35,82-86].

1)靜態記憶網絡

MemNN 由Weston 等人[12]提出,被用于文本問答.該網絡的核心思想是構建一個可以讀寫的記憶組件,同時建立故事、問題與答案之間的關系模型.MemNN 模型需要支持答案的事實進行監督訓練,然而現有數據集并不包含答案對應的事實支撐.因此,Sukhbaatar 等人[78]提出了端到端記憶網絡(end-to-end memory network,MemN2N),同樣用于文本問答.與MemNN 不同的是,該網絡使用輸入輸出對進行端到端的訓練,所以MemN2N 僅僅需要弱監督訓練模式,更普遍地適用于現實環境.

受ImageQA 任務的啟發,Zeng 等人[79]進一步對MemN2N 模型進行擴展,提出了拓展型端到端記憶網絡模型E-MN,將其原始輸入修改為由幀序列組成的視頻,使用雙向LSTM 對幀表示序列進行編碼,捕獲連續幀中動作之間的時序關系,提高了模型對時間信息的感知能力.但是,由于視頻包含了豐富多樣的數據,簡單的擴展模型并不能很好地利用它們.與文獻[79]類似,Tapaswi 等人[80]基于MemN2N 模型進行修改.為了應用于更大規模的MovieQA 數據集,他們將原模型的詞嵌入替換為Word2Vec 預訓練的詞嵌入來減少訓練參數,并學習一個共享的線性投影層將視頻和問題映射到一個低維的公共空間.

Kim 等人[31]提出了一種深度嵌入記憶網絡(deep embedded memory network,DEMN) 用來解決視頻故事問答任務,該模型對記憶網絡的泛化成分進行了優化.該網絡將視頻的場景與對話作為重點,將兩者組合成視覺語言特征對,由其學習場景嵌入與對話嵌入.然后以句子形式將場景和對話結合起來,從視頻場景與對話的聯合流中重新構建視頻故事,將其儲存在長期記憶組件中.

由于DEMN 記憶網絡模型是將每個記憶槽視為獨立的內存塊,因此忽略了相鄰記憶塊之間的相關性.Na 等人[32]提出了一種用于電影故事問答的可讀寫記憶網絡(read-write memory network,RWMN),該網絡的卷積分層網絡由多個更高容量和更具靈活性的讀寫內存構成,并采用連續的方式存儲,增強了存儲單元之間的關聯性進而使得后續推理更加準確.RWMN 的輸入與DEMN 相似,推理和回答預測部分與MemNN 相似.與其他記憶網絡的不同之處在于該模型記憶陣列的維數在處理過程中減小,而其他模型的維數是不變的.

以上基于靜態記憶網絡的方法將不同模態信息保存于不同的記憶塊中,并沒有對需要記憶的特征做預處理或增強處理.Cai 等人[81]提出了一種基于遞歸神經網絡和自注意力模塊的模型.其核心是特征增強模塊與注意力機制.特征增強利用視覺特征與問題特征通過記憶機制相互增強,兩者進行細粒度的模態交互后,再記憶到內存中.從2 個記憶模塊輸出問題引導的視覺特征與視覺引導的問題特征,作為自注意力的輸入,來捕獲序列的全局上下文.然后再使用互注意力機制進行2 種特征的互相關注.這種跨模態的特征增強記憶方法,可以實現在沒有冗余信息的情況下有效記憶.

2)動態記憶網絡

為了能夠解決長序列的動態記憶和推理問題,Kumar 等人[82]提出動態記憶網絡(dynamic memory network, DMN),用于解決基于文本問答問題.其核心處理模塊為情景記憶模塊,它由注意力模塊與循環網絡組成,以問題、上一次記憶的內容和事實表征作為當前迭代的輸入,用來更新情景記憶內容,并通過多次迭代更新得到最終的答案預測.Xiong 等人[83]在DMN 模型之上做了進一步優化,提出了動態記憶網絡優化模型DMN+.該優化模型將DMN 中單向的 GRU換成了雙向GRU,將原來記憶更新使用的GRU 替換成ReLU,不但簡化了模型,還提高了模型的準確率.與靜態記憶網絡相比,動態記憶網絡能夠通過注意力機制來迭代更新記憶內容,過濾掉不相關的記憶內容.

考慮到DMN/DMN+缺乏動作分析與時序建模,Gao 等人[34]提出了一種基于DMN/DMN+的動作與外觀共同記憶網絡模型.具體來講,將視頻的動作特征和外觀特征輸入時間卷積和反卷積神經網絡,生成多級上下文事實.這些上下文事實被用作記憶網絡的輸入,共同記憶網絡擁有2 種獨立的記憶狀態,一種用于動作,另一種用于外觀.最后,使用共同注意力機制解決動作與外觀信息的交互和聯合建模.與文獻[34]相同,Fan 等人[84]提出的異構記憶增強多模態注意力模型同樣考慮了視頻的動作特征與外觀特征,不同之處在于該模型能充分地利用視覺特征和問題特征與記憶內容的相互作用來學習全局上下文感知表征,模型架構如圖11 所示.模型第1 部分將外觀特征和運動特征融合起來,同時學習時空注意力,解決了多數方法未能正確識別注意力的問題.第2 部分設計了新的網絡結構,將問題編碼器和問題記憶網絡整合起來,主要是為了解決有較為復雜語義且需要推理的問題.最后一部分,設計了一個多模態融合層,可以有效地將視覺特征和問題特征與注意力權重結合起來,并支持多步推理.

圖11 異構記憶增強多模態注意力模型[84]Fig.11 Heterogeneous memory enhanced multimodal attention model[84]

針對電影類的VideoQA 任務,視頻中包含大量的字幕信息,這些字幕對問答尤為重要.Wang 等人[35]提出了一個由靜態詞記憶模塊和動態字幕記憶模塊組成的分層記憶網絡(layered memory network,LMN),能夠學習電影內容的分級(幀級與片段級) 表示.首先,靜態詞記憶模塊利用幀區域視覺特征映射到單詞空間,得到幀級語義表示.然后,通過動態字幕記憶獲得電影片段中特定幀的語義表示,即片段級表示.片段級表示是從詞空間到句子空間的轉換,從而可獲得大量的語義信息.Wang 等人[35]同時提出了靜態詞記憶的多跳機制、動態字幕記憶的更新機制以及問題引導下的字幕表示機制,這3 個機制對模型的延伸方法去除無關信息起到非常大的作用,也大大提高了模型的推理能力.此外,一般的多模態融合方法[87-88]只關注于建模不同模態的交互特征,這些方法對問題是不知曉的,因為在模態融合過程中問題與答案是不參與其中的,所以Kim 等人[85]提出了漸進注意力記憶網絡(progressive attention memory network,PAMN).PAMN 包含3 個主要功能模塊:①遞進注意力機制,找出與回答問題有關的時間部分;②動態模態融合,自適應地確定每個模態的貢獻來聚合每個記憶模塊的輸出;③信念修正答案方案,該方案基于已有的問題和注意力對每個候選答案的預測分數進行連續修正.

Yu 等人[86]提出了由2 個不同的記憶網絡組成的多模態分層記憶注意力網絡框架.該網絡又可以稱為一種粗粒度到細粒度的記憶體系結構,它能完成從粗粒度到細粒度的推理過程.第1 層為頂部引導記憶網絡,淺層次上過濾與問題不相關的信息.第2 層為底部增強的多模態記憶注意力網絡,該網絡負責進行深度推理.雙層記憶網絡的共同協作能夠學習到視頻幀之間的細粒度注意力,從而提升問答的質量.

總的來看,記憶網絡的引入主要解決了模型對視頻長序列建模的問題,在基于注意力突出重要內容的基礎之上又保證模型不遺漏其他用于推理的必要信息.靜態記憶網絡雖然能夠完成對長序列信息的記憶,但并未對其記憶內存2 次或多次加工,即其保存的信息往往是粗粒度的.動態記憶網絡則是對靜態記憶網絡的優化,通過多次注意力使得記憶內容更加精細,更有助于模型推理.但是記憶網絡需要較大存儲空間與讀寫開銷,因此模型計算量也相對很大.同時,該類方法建模視頻復雜的時空結構的能力較弱,在處理時空推理的問題上表現不佳.

2.2.3 基于圖網絡的模型

近年來,圖神經網絡在知識圖譜與社交網絡等領域取得了重大突破[89-90].圖神經網絡可將數據看作圖中節點,節點與節點間通過邊進行連接,并通過消息傳播對節點間的依賴關系進行建模.同時,圖神經網絡不僅能很好地處理結構化數據,而且能夠處理像視頻這樣的非結構化數據.視頻包含豐富的時空相關的動態屬性,在一個視頻中,幀級信息能夠提供視頻的空間結構,例如對象的位置信息與動作信息,而片段級信息能夠提供視頻的時間結構,例如發生動作的序列以及狀態的轉換.為了能夠更進一步地提高VideoQA 的性能表現,對視頻時空結構的聯合推理十分必要.因此,研究者通過利用圖神經網絡來挖掘視頻中的時空依賴關系,更好地建模對象間的關系信息.

Huang 等人[91]提出了一個位置感知圖卷積網絡(location-aware graph convolutional network,L-GCN)來建模視頻中被檢測對象之間的關系.視頻編碼流利用對象位置感知圖來理解視頻內容.基于對象的位置感知圖既考慮了對象之間的交互,又考慮了對象的時間位置信息.但是該方法比較依賴于學習模態之間的位置關系,并沒有挖掘到問題的深層次語義關系.

與文獻[91]提出的方法不同,Jiang 等人[92]提出了異構圖對齊(heterogeneous graph alignment,HGA)網絡,把問題與視頻特征融合形成一個異構圖,再送入GCN 中.該網絡將多模態因素視為統一的異構圖節點,并通過對齊策略來生成加權鄰接矩陣,構造多層圖卷積網絡進行多模態交叉推理.HGA 通過建模多種模態之間的復雜相關性,促進了模態間和模態內的相互作用以及跨模態推理.

雖然HGA 同時利用了視頻的外觀特征與動作特征,但是并沒有充分挖掘兩者分別與問題的深層關系.Seo 等人[93]提出了動作-外觀協同網絡(motionappearance synergistic network,MASN),將GCN 與注意力機制相結合.前期利用GCN 分別對外觀特征與動作特征進行時空建模,后期以問題為引導的視覺表示為輸入,利用注意力機制生成分別以外觀和動作為中心的特征及混合特征,最后通過融合模塊來調節3 種信息的權重.

現有模型HGA 與MASN 直接將外觀特征與動作特征進行交互,沒有充分利用異構模態的交互.Park 等人[94]提出了一種稱為Bridge2Answer 的方法,Bridge2Answer 模型核心組件如圖12 所示.該方法采用GCN 思想構建表觀圖、運動圖與問題圖,并充分利用它們之間的交叉關系來推斷答案.其中以問題圖作為外觀圖到動作圖和動作圖到外觀圖的交互橋梁,利用問題的合成語義以調節外觀圖與動作圖之間的關系.由于問題圖的結構可以反映單詞之間的語義依賴關系,因此問題條件的視覺節點能夠有效地傳遞到問題邊緣的相關視覺節點.

圖12 Bridge2Answer 方法的圖交互部分[94]Fig.12 The graph interaction part of Bridge2Answer method[94]

此外,為了在執行推理時進一步挖掘外觀特征和動作特征關聯和互補的關系,Wang 等人[95]提出了雙視覺圖推理單元(dual-visual graph reasoning unit,DualVGR),模型以迭代方式堆疊該單元執行多步推理.DualVGR 通過查詢懲罰模塊過濾掉不相關片段的特征,使用多視圖圖網絡提供上下文感知的特征表示.多視圖圖網絡分別處理外觀、動作及兩者之間關系的特征圖,對于外觀圖與動作圖,通過自注意力機制更新其鄰居節點的表示,對于兩者關系圖則基于AM-GCN[96],通過執行圖卷積操作為各自尋求一個特定的嵌入和一個公共嵌入.

為了更關注于視頻中的對象及其交互,Dang 等人[97]提出以對象為中心的視頻表示作為構建視頻時空結構基礎的方法,該方法的重點是將視頻抽象為時空中存在的動態交互對象.問題條件下的對象特征通過GCN 與上下文對象特征進行交互,整合動態對象圖的時間維度信息,創建一個由N個對象組成的無序集合.最終,視頻被抽象為一個時空圖,其空間和時間依賴性取決于問題.以對象為中心的視頻表示的輸出用作通用關系推理引擎的知識庫,并應用于提取問題的相關視覺信息.

與MASN,HGA,DualVGR 相比,Jiang 等人[98]提出的輕量級視覺語言推理(lightweight visual-linguistic reasoning,LiVLR)模型,在同一數據集上較大程度地減少了模型參數的同時又提升了模型的性能.該模型主要由基于GCN 的視覺編碼器、語言編碼器與多樣性感知視覺語言推理模塊(diversity-aware visuallinguistic reasoning module,DaVL)組成.視覺和語言編碼器最終生成多粒度的視覺和語言表示,由于模型考慮了視覺表征和語言表征在不同語義層次上的多樣性,所以使用基于GCN 的DaVL 模塊進一步編碼和捕獲節點之間的關系,并輸出聯合問題相關表征.

現有基于GCN 的方法均在相同尺度的視頻片段中尋找答案,然而這些方法往往會導致獲取的信息不足或冗余的問題.Jiao 等人[99]提出了一種多尺度遞進注意力網絡(multi-scale progressive attention network,MSPAN),將GCN 與注意力結合來實現跨尺度視頻信息之間的關系推理,MSPAN 網絡結構如圖13 所示.通過不同核大小的最大池化得到多尺度圖,多尺度圖中的每個節點通過GCN 進行節點更新,再利用逐步注意力機制來實現跨尺度圖交互過程中多尺度特征的融合.這種跨尺度特征交互能夠挖掘不同尺度視頻片段中對象之間的深層次關系.

圖13 MSPAN 網絡結構[99]Fig.13 MSPAN network structure[99]

以往方法一般只研究對象間或幀間的單一交互,不足以理解視頻中復雜的場景.Peng 等人[100]提出了一種遞進圖注意網絡模型(progressive graph attention network,PGAT),它通過圖注意網絡以漸進方式探索視頻的對象級、幀級和片段級的多重關系.這些不同級別的圖以循序漸進的方式連接起來,以理解從低級到高級的視覺關系.Liu 等人[101]將記憶機制結合到圖網絡中,提出了視覺圖記憶與語義圖記憶,并認為語義關系與視覺關系對于推理一樣重要.這2 種圖記憶機制通過可學習的視覺到語義和語義到視覺的節點映射相互協作和交互.最后,構建了從對象級到幀級的層次結構,從而實現了層次的視覺語義關系推理.

本節主要介紹了基于圖網絡的模型,該類模型之所以能夠達到較好效果的原因在于它能夠直接對視頻內容結構進行時間和空間的統一建模,較容易捕獲到視頻中各對象之間的關系,能夠學習到更好的節點表示,對后續時空相關的推理問題起到較大作用.由于GCN 需要將整個圖放到內存和顯存,多層GCN 將會有很大開銷,模型訓練耗時也會很久.

2.2.4 基于Transformer 和BERT 的模型

針對RNN 等序列模型不適合處理序列的長期依賴以及不易于并行化數據處理的問題,研究人員提出了Transformer[15].Transformer 通過其內部自注意力機制能以有限的層數建模長期依賴關系,而且相比于RNN,Transformer 能夠利用分布式GPU 進行并行訓練,提升模型訓練效率.BERT 實際是Transformer 的復合體,其最早被應用于自然語言處理領域[16].隨著Transformer 與BERT 的流行,越來越多的模型開始將二者引入到各個領域,并取得了令人驚嘆的結果.當前存在的大部分用于VideoQA 的模型都是基于RNN 的模型,如LSTM,然而類似這樣的模型可能無法捕獲長序列之間的關系.因此研究者嘗試將Transformer 和BERT引入到VideoQA 任務上,并取得了顯著的效果.

Yang 等人[102]提出使用BERT 對視頻中的視覺概念與文本內容進行編碼來獲得視頻場景的視覺信息與文本信息.同時,Urooj 等人[103]提出了MMFTBERT 模型,采用BERT 單獨處理多模態中的每一個模態,然后使用一個新設計的基于Transformer 的融合方法進行后期融合.該方法考慮到了早期對不同模態的單獨處理,將模態融合放在后期,這樣處理使得模態更能友好交互,突出關鍵信息.并且該方法也是第一個使用Transformer 進行模態融合的方法.

文獻[104] 提出的ROLL 模型的3 個獨立分支read,observe,recall 均是使用Transformer 提取語言特征建模,但是該模型依賴于知識庫.與之相比,Engin等人[105]提出的DialogSummary 方法則不需要這些外部知識.該方法視頻描述的生成借鑒于ROLL,其核心思想是從視頻中的原始數據提取所需知識,將以往人工生成知識的過程替換為從視頻任務原始對話中自動生成情節摘要.模態處理與MMFT-BERT 類似,每個模態由BERT 進行獨立編碼,不同的是該方法采用一個相對簡單的模態融合方法,而MMFT-BERT則采用了一種基于Transformer 的多模態融合方法.

VideoQA 評估任務大多僅限于單個單詞的開放式答案或從多個短語中選擇一個短語,限制了模型的應用場景.Sadhu 等人[106]將VideoQA 任務作為填充短語任務,為了能夠評估短語式答案,模型計算預測答案對比空字符串的相對改進.基于此任務,提出了5 個基準模型,其中VOG-QAP 與MTX-QAP 綜合表現突出.VOG-QAP 使用了額外的短語編碼器并在多模態特征上應用Transformer.MTX-QAP 與ActBert具有類似的架構,但它用一個普通的Transformer 替換了ActBert 的TNT,在一個Transformer 中聯合編碼語言和視覺特征.

與文獻[106]動機類似,Castro 等人[36]提出的T5+I3D 模型同樣是以生成式答案解決填詞或短語的任務.該模型屬于早期融合模型,模型的編碼與解碼均基于Transformer.此外,Castro 等人[36]使用T5(編解碼Transformer 網絡)對模型進行初始化,并結合I3D 提取的視頻特征使得模型性能略優于后期融合模型.

文獻[107]中基于2D 的場景圖忽略了視頻本質是發生在3D 空間中的事件,Cherian 等人[108]提出基于Transformer 的(2.5+1)D 時刻場景圖的方法,該方法的處理流程如圖14 所示.他們將視頻幀2D 畫面轉換成2.5D(偽3D)場景圖,然后構造一個包含靜態與動態子圖的 (2.5+1)D 時空場景圖表示,以更好地捕捉視頻中的時空信息流.Transformer 將場景圖嵌入到時空分層潛在空間中,以不同的粒度捕獲子圖及其交互,其核心思想是使用圖節點的時空接近度來定義相似性.

圖14 (2.5+1)D 視頻問答推理流程示意圖[108]Fig.14 The schematic illustration of (2.5+1)D VideoQA reasoning pipeline[108]

與文獻[99]的思想有些相似,Peng 等人[109]提出的PTP 同樣利用視頻中的多尺度信息.將視頻按不同級別構建時間金字塔,高層級比低層級具有更豐富的局部信息,低層級比高層級具有更完整的全局信息.該模型包括問題Transformer 和視覺推理2 個模塊,兩者均在Transformer 上進行了改進, 在每個模塊中引入了一種多模態注意力機制來輔助問題與視頻交互,并在不同層次的信息傳遞中采用殘差連接.問題Transformer 用來構建從粗粒度到細粒度的問題詞與視覺內容之間的多模態語義信息,在問題特定語義的指導下,視覺推理模塊從問題與視頻之間局部到全局的多級交互中推斷出視覺線索.

以上基于Transformer 的部分模型在VideoQA 任務上實現了最優性能比基于圖網絡模型更優的性能,這歸因于其自注意力結構的設計.Transformer 主要由多頭注意力機制組成,且相較于傳統RNN, CNN,Transformer 在大模型和大數據方面具有強大的可擴展性且架構靈活.然而正因其對大數據訓練的依賴,使其在小規模數據集上泛化性與自適性較弱.

2.2.5 基于預訓練的模型

預訓練模型最早是在自然語言處理和計算機視覺等單模態領域嶄露頭角,并在許多下游單模態任務中也被證實它的有效性.后來,研究者們將預訓練模型應用于多模態任務,并取得了重大進展[110-111].目前主流的多模態預訓練模型是視覺-語言預訓練模型,其通常利用輔助任務從大規模未標注或弱標注數據中自動挖掘監督信號來訓練模型,從而學習通用表示.這些預訓練模型通過在下游任務上使用少量人工標記數據進行微調就能實現令人驚訝的效果.

最近一些方法使用帶有圖像字幕的數據集(如COCO[112]和Visual Genome[113])或視頻字幕的數據集(如HowTo100M[114]) 來預訓練多模態視覺語言表示.這些方法絕大部分是基于Transformer 之上在大數據集上進行預訓練,它們通常使用通用目標進行優化,例如掩碼語言損失、圖像-文本匹配損失以及圖像標題生成損失等.以下介紹的預訓練模型部分是針對于特定VideoQA 任務的,其余則是與下游任務無關的預訓練模型.

Kim 等人[115]提出了自監督預訓練方法,有效地利用了數據集的額外優勢以及學習更好的特征表示.自監督預訓練階段不需要額外的數據或注釋,在給定視頻與字幕的條件下來預測相關問題而非預測答案,這樣使得模型能夠學習到較好的權重.Yang 等人[116]提出針對特定任務的預訓練模型VQA-T(VideoQATransformer),對于目標VideoQA 效果的提升有更大幫助.該模型的2 個分支均是基于Transformer,可以很容易地對不同的下游VideoQA 數據集進行微調,這些數據集可能包含訓練中沒有出現的新答案.

相比于特定任務的預訓練模型,下游無關的預訓練模型更加靈活、應用更廣.Zhu 等人[37]提出了用于多種視頻和語言任務的預訓練模型ActBERT,該模型從無標記數據中進行聯合視頻與文本表示的自監督學習.ActBERT 模型的核心為TNT(TaNgled Trans former block),其包含3 個Transformer 來編碼3 個來源特征,即全局動作特征、區域對象特征和語言特征.為了增強視覺特征和語言特征之間的相互作用,ActBERT 在語言Transformer 中注入視覺信息的同時,在視覺Transformer 中加入語言信息.通過跨模態的交互作用,TNT 可以動態地選擇有用的線索進行目標預測.基于此模型,Zhu 等人[37]提出了4 個預訓練任務:掩碼語言建模、掩碼動作分類、掩碼目標分類和跨模態匹配.

文獻[37]的模型設計是對BERT 的直接改編,簡單地將視覺和文本特征拼接作為輸入,而失去了視頻和文本模式之間的時間對齊.Li 等人[117]提出的HERO模型以一種分層的方式對多模態輸入進行編碼,其包含2 層Transformer.第1 層為跨模態Transformer,用于融合字幕與其對應的局部視頻幀;第2 層為時序Transformer,用于獲取視頻每一個片段的全局上下文嵌入.該分層模型首先在幀級層面挖掘視覺和文本局部上下文,然后將其轉化為全局視頻級時間上下文.基于此模型提出了4 個預訓練任務,相對于常見的掩碼語言建模與掩碼幀建模增加了視頻與字幕匹配和幀順序建模.

與文獻[117]提出的預訓練任務相似,Zellers 等人[118]提出了一個通過大規模無標簽的視頻片段以自監督方式訓練基于Transformer 的預訓模型MERLOT.視覺與語言特征均加入了位置嵌入,然后由基于RoBERTa[119]結構的Transformer 對視覺和語言進行聯合編碼,并設計了幀與字幕匹配、掩碼語言建模和幀順序建模3 個預訓練任務.

現有的部分工作如文獻[37]提出模型離線提取密集的視頻特征和文本特征,然而從視頻幀的全部序列中提取特征會導致對內存和計算的過多需求.Lei 等人[120]提出了一個通用的預訓練模型CLIPBERT,其核心思想為稀疏采樣與密集推理,圖15 為常見的視頻-語言學習方法和 CLIPBERT 的比較.CLIPBERT將來自同一視頻的不同片段子集用于不同的訓練步驟,因而其在一定程度上提高了模型的泛化能力.此外與文獻[37, 117]不同的是,該模型使用的是圖像文本數據集進行的預訓練,實驗結果表明圖像文本預訓練同樣有益于視頻-文本任務.

圖15 流行的視頻和語言學習范式和 CLIPBERT 之間的比較[120]Fig.15 Comparison between popular video-and-language learning paradigm and CLIPBERT[120]

受文獻[120]中稀疏采樣策略的啟發,Yu 等人[121]提出了基于CLIPBERT 的孿生采樣與推理的方法(siamese sampling and reasoning,SiaSamRea).SiaSamRea的思想為多個片段應該相互依賴,應將上下文片段之間的相互依賴知識融于網絡推理中,以在同一視頻中捕獲相似的視覺和關鍵語義信息.所以該方法在稀疏采樣的基礎之上進一步采樣了多個相似的片段,來學習片段之間的相互關系.不同于以往的相關工作如CLIPBERT,在同一個視頻中挖掘它們的上下文知識,SiaSamRea 模型中的每個視頻-文本對都被獨立地編碼到網絡中.充分地利用了片段之間豐富的上下文信息,可以進一步提升模型推理的準確性.

現有多模態學習任務中,通常會因存在噪聲而使模型無法達到預期效果.Amrani 等人[122]提出了一種去噪聲的方法,使用自監督方式去訓練一個去噪模塊.在多模態數據中,當2 個或多個模態不具有相同語義含義時樣本認定包含噪聲.因此,該模型將噪聲估計簡化為多模態密度估計任務,利用多模態密度估計,又提出了一種用于多模態表示學習的噪聲估計組件,該組件嚴格基于不同模態之間的內在相關性.該方法從去噪聲的角度,在多模態任務中一定程度上提高升了性能.

此外,Luo 等人[123]認為掩碼輸入將不可避免地為掩碼建模與跨模態匹配等任務引入噪聲,所以提出了對比跨模態匹配和去噪的方法CoCo-BERT.該方法包含2 個耦合的視頻/句子編碼器,同時利用屏蔽和非屏蔽的多模態輸入,從多模態對比學習的角度加強跨模態關聯.模型的核心是通過對比方式同時追求模態間匹配和模態內去噪,并利用掩碼和非掩碼輸入來加強跨模態推理.

Seo 等人[124]提出了一個多任務的預訓練模型CoMVT,該模型的目標主要是基于當前的視頻片段和對應字幕來預測下一段話語,微調后的模型在下游VideoQA 上取得了具有競爭性的結果.CoMVT 有2個關鍵點:1)雖然該模型沒有像CLIPBERT 稀疏采樣,但其利用注意力機制聚合冗余特征,從而構造出更緊湊的視覺特征;2)使用一個共同注意力Transformer CoTRM[125]進行跨模態融合.CoTRM 由雙流組成,每一個流由2 個TRM 組成,其中一個用于模態間特征交互,另一個用于模態內特征交互.2 個流本質上分別處理每個模態,允許通過每個流中TRM 的不同模態特征進行特定的操作和表示.

與先前相關工作提出的預訓練任務不同,Fu 等人[126]提出了掩碼視覺標識建模的預訓練任務.視頻幀被“標記”為離散的視覺標識,用于重建原始視頻幀.在預訓練期間,沿空間和時間維度屏蔽了部分視頻輸入,模型學習恢復這些屏蔽部分的離散視覺標記.相對于掩碼語言/幀建模,模型需要在離散空間上進行預測,這避免了與文獻[117]中類似的特征維度的過度訓練問題.此外,所提出的VIOLET(videolanguage Transformer)模型并不是簡單地均值池化或對一系列單個幀特征進行連接,而是包含Video Swin Transformer[127],它可以顯式地為視頻語言學習建模視頻時間.

如果預訓練數據集和下游數據集之間存在領域差距,當前流行的“先訓練后微調”的視覺和語言模型泛化能力就會變弱.Zhou 等人[128]系統地研究了視頻語言預訓練與微調模型中的領域差距問題,并提出了一個任務自適應的視頻語言預訓練模型,通過過濾和調整源數據到目標數據,然后進行領域聚焦的預訓練,這有效地縮小了源數據(用于預訓練)和目標(用于微調)數據之間的領域差距.

本節主要介紹了預訓練模型在VideoQA 任務中的應用,它們主要通過基于大規模數據進行預訓練來學習不同模態之間的語義對應關系.目前,基于Transformer 的預訓練模型取得了VideoQA 任務的最佳性能.這歸因于預訓練模型不僅能夠充分利用廣泛的網絡資源,而且還能完美地解決人工標記數據較為復雜的問題.預訓練模型通常是通過微調將知識轉移到下游任務,隨著模型規模的不斷增加,每個下游任務均有不同的微調參數,將導致參數學習效率低下,同時多種下游任務也使得預訓練和微調階段的設計變得繁瑣.

2.2.6 其他模型

除2.2.1~2.2.5 節所述的5 種VideoQA 任務的解決方法外,還有許多研究者們提出了不同于上述方法的模型來解決該問題,同時也達到了具有競爭性的表現.例如基于基礎構建單元的模型、基于神經符號的推理模型、基于強化學習的模型、引入外部知識的模型、引入音頻信息的模型等.

1)基于基礎構建單元的模型

當前VideoQA 任務中的問題類型不受限制,許多模型根據數據集特性來進行設計,導致其在數據形態改變或視頻長度改變的數據集上的性能表現不升反降.為了緩解這一問題,模型需要具備對視覺信息與文本信息深厚的建模能力,學習時空中跨模態信息以對對象、關系和事件進行推理.

Le 等人[129]提出了一種分層次條件關系網絡(hierarchical conditional relation network,HCRN).條件關系網絡(conditional relation network,CRN) 是HCRN的基礎可重用構建塊,該單元計算輸入對象之間的稀疏高階關系,然后通過指定的上下文調制編碼.然而,CRN 只是專注于單個對象動作的時間推理,不能很好地推廣到時空中多個物體相互作用的情景.與HCRN 分層推理結構的設計理念相似,Dang 等人[130]提出了一種由OSTR 基礎單元構建的面向對象時空推理層次(hierarchical object-oriented spatio-temporal reasoning,HOSTR) 模型.HOSTR 的特點是對象內時間聚集和對象間空間相互交互的劃分,從而提高推理過程的效率.HCRN 與HOSTR 都以通用的可視化推理為目標,兩者都忽略了問題的不同部分可能會需要不同粒度級別的視覺信息.Xiao 等人[131]設計了分層問題引導圖注意網絡(HQGA),基于問題條件的圖注意力單元(QGA) 通過圖的聚合和池化將低層次的視覺信息聚合為高層次的視頻元素,并通過堆疊QGA 單元在每層注入問題,從而實現多粒度級別的視覺-文本匹配.

2)基于神經符號的推理模型

部分模型側重于對復雜的視覺與語言的模式識別能力,而忽略了蘊含于視頻結構中的時序與因果關系.Yi 等人[132]提出了基于碰撞事件的視頻推理數據集CLEVRER,同時又提出針對于該數據集的模型-結合神經網絡和符號的動態推理(neuro-symbolic dynamic reasoning, NS-DR)模型,該模型結合了用于模式識別和動力學預測的神經網絡,以及用于因果推理的符號邏輯.NS-DR 將動態規劃納入視覺推理任務中,能夠直接對未觀察到的運動和事件進行預測,并能夠對預測性和反事實性任務進行建模,這將對VideoQA 任務有著積極的影響.然而NS-DR 模型需要對視頻視覺屬性和物理事件進行密集注釋,這在真實場景中是不切實際的.Chen 等人[133]提出了一個統一的神經符號框架,即動態概念學習器(dynamic concept learner,DCL),它基于對象追蹤和語言建模來識別視頻中的對象與事件并分析其時間和因果結構,而無需對視覺屬性和物理事件(如訓練期間的碰撞)進行注釋.

在NS-DR 與DCL 基礎之上,Ding 等人[134]提出了基于可微物理模型的神經符號視覺推理框架VRDP(visual reasoning with differentiable physics),它通過從視頻和問題對中學習物理模型,并利用顯式的物理模型對物體動力學進行建模,基于準確的動力學預測來回答長期和反事實預測問題.VRDP 由視覺感知、概念學習器和可微物理模型3 個模塊組成.視覺感知模塊用于得到物體及其軌跡;概念學習器借鑒于NSCL[135],負責從物體的軌跡信息和問題對中學習物體的屬性;根據物體的軌跡和屬性,通過可微物理模擬學習相關物理參數,得到較為準確的物理模型.模型的神經符號執行器利用了NS-DR 和DCL 中的方案,通過預測出的物體軌跡和碰撞事件進行逐步顯式的符號推理,使得模型具有良好的解釋性.

3)基于強化學習的模型

迄今為止,用于VideoQA 的方法在現實生活中應用性非常弱,原因之一就是應用性強的數據集非常少.Xu 等人[136]提出了應用性較強的交通問答數據集TrafficQA,并基于該數據集設計了一種基于動態推理的高效一瞥網絡.Xu 等人[136]通過6 個具有挑戰性的任務來訓練該網絡模型,與現有的VideoQA 模型不同,為了減少視頻幀之間冗余信息的影響,該模型自適應地確定每一步跳過的幀數和選擇的幀位置,以及對選擇幀需要分配的計算粒度.該方法避免了對視頻中不相關的片段進行特征提取,從而大大降低了整體的計算成本,實現了推理的可靠和高效.

4)引入外部知識的模型

除了利用數據集本身信息之外,數據集外部的知識對問答推理也有極大的幫助.Garcia 等人[137]提出的模型ROCK (retrieval over collected knowledge)通過知識檢索模塊來獲取與問題最相關的知識.知識源來自于他們自己構建的數據集,知識類型為人工注釋的句子,知識檢索模塊通過計算問題與知識的相似性分數來獲取有用的信息.Han 等人[138]提出了一個利用電影片段、字幕和基于圖像的外部知識庫來回答問題模型.圖像的外部知識庫是他們設計的一個PlotGraphs 的數據集,該數據集以圖像形式提供回答問題的額外信息.與文獻[137-138]不同,Garcia等人[104]提出了ROLL 模型,其獲取的外部知識來源于在線的外部知識.不同于以往人工手動生成場景描述或者故事摘要等,該模型使用無監督方式生成視頻場景描述,并且以弱監督方式獲取外部知識.

5)引入音頻信息的模型

以往研究忽略了利用視頻中的音頻信息,雖然有相關工作利用語音轉換字幕系統,但僅限于提取其中的文字信息.Le 等人[27]提出的模型VGNMN (videogrounded neural module network)嘗試將音頻模態加入推理過程,其分為對話理解與視頻理解2 部分.VGNMN 模型由多個負責不同功能的神經網絡塊組成,形成復合推理結構,實現逐步檢索語言和視覺信息的顯示推理過程,這種模塊化方法可以實現模型更好的性能和透明度.Shah 等人[28]提出了三重注意力網絡模型,同樣也將音頻信息整合到VideoQA 任務中.模型利用Mel Spectrograms,SoundNet 與WALNet提取3 種音頻特征,與視頻和字幕形成異構信息源,音頻、視頻、字幕三者分別與問題使用注意力機制來不斷更新內存向量.該模型通過消融實驗證明了音頻信息的加入有利于VideoQA 模型性能提升.

2.3 答案生成

在1.1 節提到,問題大致可以分為開放式問題與選擇題2 種類型.開放式問題可以分為開放式單詞問題與開放式數字問題,即開放式問題對應的答案是單詞或者數字,所以此類問題需要2 種解碼器.而選擇題則只需要1 種解碼器.

對于開放式單詞問題的任務,一般視為多標簽分類任務,因此使用softmax 回歸函數.定義一個softmax分類器,該分類器以多模態融合表示O為輸入,通過計算置信度向量s從詞匯表中選擇答案,計算形式表述為

其中WT與b是模型參數.一般通過交叉熵損失函數或softmax 損失函數來訓練該解碼器,通過a~=得到預測答案.

對于開放式數字問題的任務,與選擇題任務類似,將上下文表示O輸入一個線性回歸函數中,與之不同的是,通過舍入函數(舍入到最近整數)輸出的是一個整數值答案.計算形式表述為

其中WT與b是模型參數.通過均方差損失函數來訓練該解碼器.

對于選擇題任務,1 個問題對應多個候選答案,只有1 個選項為正確答案.每一個候選答案將與給定的問題以相同的方式進行處理,最后將得到的融合表示O送入一個定義的線性回歸函數,并為每個候選答案輸出一個真實分數.其計算形式表述為

其中WT與b是模型參數.通常訓練模型的方法都是最小化預測答案與正確答案之間的損失,所以通過最小化成對比較的鉸鏈損失來訓練解碼器max(0,1+sn-sp),其中sn和sp分別是由錯誤答案和正確答案計算的分數.

3 數據集及性能

隨著越來越多的研究者們關注VideoQA 領域,用于解決此任務的數據集也越來越豐富.例如以電影與電視劇為視頻源的數據集MovieQA[80],TVQA[69],MovieFIB[139],KnowIT VQA[137]等,這些數據集更加注重評測模型對視頻與文本的理解能力,以及對故事情節的推理能力.基于動畫類型的數據集SVAQ[59],MarioQA[140],PororoQA[31],Env-QA[53],CLEVRER[132],CRAFT[141]也相繼被提出.該類型視頻中的場景相對簡單,故事線也較為清晰.此外,以開放類視頻為視頻源的數據集有MSRVTT-QA[48],MSVD-QA[48],YouTube2Text-QA[55],TGIF-QA[45],Activitynet-QA[142]等,它們的數據大多來自于YouTube 或其他在線網絡視頻.這一類數據集更注重于生活場景,對實際應用來講更具有意義.各數據集的詳細指標如表2 所示,部分數據集示例如圖16 所示,圖16 中僅展示了視頻的1 幀,但是所有的問題和答案都屬于視頻中的一個片段.對于每個數據集,我們只展示1 個問題和相應的正確答案.下面將對每個數據集進行詳細介紹,同時統計了頻繁使用的數據集對應的模型實驗結果,并進行了對比與分析.

圖16 部分數據集示例Fig.16 Some examples of datasets

Table 2 Comparison of Indicators of Each Data Set表2 各數據集指標對比

3.1 影視劇類型

1)MovieQA[80]

MovieQA 是應用廣泛的大規模數據集之一,旨在評估從視頻和文本中自動理解故事的能力.為了更好地理解視頻內容,數據集還提供了與電影視頻、字幕、描述性視頻服務、腳本和情節概要相關的5 種故事來源.基于這些來源的不同組合,該數據集包括6 個子任務:視頻加字幕、僅字幕、僅描述性視頻服務、僅劇本、僅情節概要和開放式.由于影片片段的長度、不斷變化的背景和故事情節,MovieQA 更注重用抽象和高層次的信息來理解故事.

表3 統計了主流模型在該數據集上的性能表現,根據測試集準確率對實驗結果進行了排序.將DEMN作為基準模型,其在驗證集與測試集的實驗結果為44.7%和30.0%.RWMN 在測試集的性能明顯優于DEMN,表明相鄰記憶塊關聯性在提高電影理解能力方面起著至關重要的作用.FVTA 測試集準確度相對于RWMN 提升1%,在一定程度上體現了引入多跳注意機制對答案推理的必要性.LMN 采用了更新機制和問題引導注意力模型,使字幕記憶與問題更加相關,并且LMN 具有良好的可擴展性.MDAM 通過后期融合避免了早期融合的過擬合現象,并利用自注意力模型使得性能有所提升.與LMN 相比,PAMN模型將多跳注意力與記憶網絡相結合來動態推理,使生成的答案更加準確可靠.Jasani 等人[153]使用在維基百科上的電影情節訓練的WikiWord Embedding 詞嵌入模型進行推理時僅使用問題和答案,而忽略任何參考字幕或視頻.該模型性能之所以最優,是因為該數據集中的問題存在語言偏見或問題較為簡單.

Table 3 Performance of Mainstream Models on MovieQA表3 主流模型在MovieQA 上的性能表現%

總的來講,由于MovieQA 數據集本身長視頻及多模態特性(包含字幕),使其在VideoQA 這一任務中更具挑戰性.由表3 可以看出,基于注意力與記憶網絡的模型更適用于此類長視頻數據集,注意力機制可以從復雜的故事情節中尋找關鍵信息,記憶網絡則用來保證電影情節的完整性.PAMN 模型正是由于巧妙地整合了兩者從而達到了次優的性能.然而諸如此類的的模型嚴重依賴語言提示,由于未充分利用視覺特征而更容易出現語言偏見,WikiWord Embedding 模型就是通過使用經過適當訓練的詞嵌入,利用數據集的偏好達到性能最優.

2)TVQA[69]

TVQA 數據集中的視頻來源于3 種類型的6 部經典美劇.數據集中的問題采用了組合式的設計,包含問答和定位2 個部分,并且每個問題都帶有時序定位.也就是說問題模板首先使用開始時間戳和結束時間戳,根據“when / before / after”來定位與問題相關的視頻片段中的相關時刻,然后構成與視頻和問題理解相關的“what / how / where / why”問題.回答這樣的問題需要模型具有一定的時序定位、理解對話和視頻的能力.

表4 統計了主流模型在該數據集上的性能表現,根據準確率對實驗結果進行了排序.作為基準網絡,文獻[69]中的模型在驗證集與測試集上的實驗結果分別是65.85%與66.64%.STAGE[52]相對于原有模型同時考慮了時間與空間信息,聯合定位時刻與對象位置,大幅度提升了模型的準確率,表明時空信息對于回答問題的重要性.其次,MSAN 模型性能的提升從回答問題需要不同模態的角度證明了模態轉移的必要性.文獻[115]提出使用預訓練模型,將文本進行掩碼并與原始文本形成對比學習,從而學習到更好的特征表示,模型準確率相對于基準模型提升近10%.

Table 4 Performance of Mainstream Models on TVQA表4 主流模型在TVQA 上的性能表現%

與MovieQA 數據集相似,TVQA 同為帶有字幕的長視頻.從性能表現上來看,STAGE 雖然引入時空位置信息,但在建模對象交互上的欠缺導致其性能不佳.文獻[102]提出基于BERT 的模型,結構設計較為簡單也達到了具有競爭性的性能,足以證明此類模型在VideoQA 任務上的巨大潛力.其次文獻[115]提出的預訓練模型實現了當前最優性能,但是其只是在已有數據集上進行自監督預訓練,有限的數據集導致模型不能學習得到更好的權重.根據TVQA數據集上的對比結果可以預見BERT 與預訓練模型將會是下一步的發展趨勢.

3)LSMDC-QA[143]

LSMDC-QA 數據集是來源于大規模電影描述挑戰LSMDC16[154],該數據集由M-VAD 和MPII-MD 數據集融合而成.該數據集針對模型對電影與字幕的理解提出了單項選擇與視頻檢索2 個任務.單項選擇任務中的正確答案來自真實字幕,而其他候選答案是從其他字幕中隨機選擇的.與其他數據集相比,該數據集具有更多的視頻片段,更關注電影本身.

4)其他

電影與電視劇類型數據集還包括MovieFIB,TVQA+,KnowIT VQA,DramaQA.MovieFIB 是為視障人士提供的一個基于描述性視頻注釋的填空問答數據集,其擁有超過30 萬條的問答與視頻對.TVQA+數據集是來源于TVQA 中的一個電視劇《生活大爆炸》,在此基礎上為問題的相關視頻的幀上添加目標邊框注釋,使其具有更多的時空關系.KnowIT VQA數據集來自《生活大爆炸》的前9 季,該數據集試圖通過整合外部知識來解決之前數據集有限的推理能力,是最大的基于知識的人工生成VideoQA 數據集之一.DramaQA 數據集來源于韓劇《又是吳海英》,提供217 308 張以字符為中心的注釋圖像,該數據集著重于以角色為中心的表示形式,注釋考慮了角色的行為和情感方面.

3.2 動畫類型

1)MarioQA[140]

MarioQA 數據集中的視頻源于一款《無限馬里奧兄弟》的游戲視頻,每個視頻片段都帶有事件記錄,其基于手工構建的模板與不同的事件.事件的類型包括吃、舉、敲和扔等.數據集由3 個子集組成,包含不同的時間關系特征問題:沒有時間關系問題、簡單時間關系問題與復雜時間關系問題.MarioQA 數據集的特征是具有時間依賴性與多個事件的大量視頻,視頻中事件的發生是清晰的,所以很容易在游戲視頻中學習完整的語義信息.

2)PororoQA[31]

PororoQA 數據集源于兒童卡通視頻.該視頻共有171 集,每集有一個不同的故事,平均長度為7.2 min,總時長為20.5 h,共16 066 對場景對話和27 328 個人工生成的細粒度場景描述語句.卡通視頻相對于電影、電視劇等其他視頻來說,視頻簡單明了,故事結構連貫,人物和背景的數量較少.

3)SVQA[59]

SVAQ 數據集是由Unity3D 生成的關于幾何變化的視頻組成.數據集中的每個視頻片段包含了3~8個靜態或動態3D 幾何圖形.每個幾何圖形都有3 個基本屬性: 形狀、大小和顏色.其中動態幾何圖形具有額外的動作類型和動作方向的屬性.基于這些屬性,可以根據對象之間特定的時空關系、相對位置和動作順序來構造問題.與其他VideoQA 數據集相比,合成視頻包含了真實視頻中難以收集的對象之間清晰的時空關系,這也導致該數據集的視頻內容不夠豐富,只包含具有對象之間各種時空關系的長結構化的問題.此外,SVQA 中的問題需要多步推理,它可以分解為可讀的邏輯樹或鏈布局,每個節點表示需要進行比較或算術等推理操作的子任務.

4)Env-QA[53]

Env-QA 數據集的提出旨在評估模型理解動態環境的能力.通過最近發布的AI2-THOR[155]模擬器生成以自我為中心的關于在環境中探索和互動的視頻,這些視頻共涉及15 種基本動作、115 種物體和120種室內模擬環境.Env-QA 提供了5 種類型的問題,從不同的方面評估對環境的動態理解,包括查詢對象屬性、對象狀態、事件、事件的時間順序、事件或對象的計數數量.與MovieQA 和TVQA 這類影視數據集相比,Env-QA 更加關注于環境的交互.

5)CLEVRER[132]

CLEVRER 數據集中的每個視頻都展示了一個簡單的玩具物體場景,它們模擬物理中的相互碰撞.該數據集的任務設計側重于時序和因果的邏輯推理,因其有著較好的注釋,可為復雜推理任務的模型提供有效評估.該數據集中的問題分為描述性、解釋性、預測性和反事實4 種類型,從互補的角度研究了視頻中的時序和因果推理問題.

6)CRAFT[141]

該數據集由Box2D 模擬器創建,旨在評估模型對 2D 模擬視頻相關問題的時間和因果推理能力.數據集中的視頻包含各種運動物體,它們彼此和場景相互作用.問題類別包括以前研究過的描述性問題和反事實問題,同時引入了一個新的因果問題類別,通過因果、使能、預防概念來理解物體之間的因果交互作用.

3.3 開放類型

1)TGIF-QA[45]

TGIF-QA 數據集來源于TGIF 數據集(Tumblr GIF)[156],以GIF 動態圖作為視頻源.該數據集基于TGIF數據集提出了4 種類型的任務:重復計數、重復動作、狀態轉換和幀問答.重復計數任務是關于計算某一動作重復次數的開放式問題.重復動作任務定義為識別視頻中重復動作的單項選擇問題.狀態轉換任務也是一個單項選擇問題,是關于識別另一種狀態之前或之后的狀態,包括面部表情(如從悲傷到快樂)、動作(如從站立到坐)、位置(如從臥室到客廳)、物體屬性(如從空到滿).幀問答任務是一個開放式問題,主要是基于視頻中的某一幀,類似于圖像問答.與其他數據集相比,TGIF-QA 包含了更多的動詞形式,理解視頻片段的內容需要豐富的時空推理.

表5 統計了現有主流模型在該數據集上的實驗結果,對重復動作、狀態轉換與幀問答這3 個任務使用準確率進行評估,對計數任務使用損失進行評估.一些基于注意力機制的方法雖然嘗試從時空角度處理視頻特征,并取得一些成效,但其并未真正理解對象的空間交互,以至于在時空問題上表現一般.L-GCN 通過位置感知圖建模對象位置信息與空間關系;HGA 則構建視頻與問題的異構圖,側重于模態的對齊與推理過程.L-GCN 與HGA 的模型性能均高于一般的注意力模型,但是它們沒有利用或利用視頻幀級的信息不夠充分,缺乏對視頻細粒度的理解.MSPAN 通過多尺度視頻特征交互來挖掘視頻中對象的高層次關系,由于其限于幀級與片段級的單一交互,這不足以處理視頻中的復雜場景.PGAT 同時探索了對象、幀和片段之間的多個模態內交互,以更全面地理解視覺內容,在圖網絡模型中達到最優性能.引入音頻信息的VGNMN 模型在各個任務上都取得了僅次于預訓練模型的較優性能,同時Le 等人[27]通過消融實驗證明了音頻模態在VideoQA 任務中的重要性.預訓練模型在該數據集上表現最為突出,例如MERLOT 與VIOLET 等,它們在動作與狀態類問題上的準確率高達90%以上.盡管預訓練在各種視頻語言任務上都有明顯的改善,但Transformer 在視頻語言上的潛力并未得到充分挖掘,一方面是缺少標準的預訓練數據集,另一方面則是Transformer的效率問題,包括內存占用量和計算量.

Table 5 Performance of Mainstream Models on TGIF-QA表5 主流模型在TGIF-QA 上的性能表現

2)MSRVTT-QA 和MSVD-QA[48]

MSRVTT-QA 和MSVD-QA 數據集分別來源于MSRVTT 和MSVD 視頻數據集.MSRVTT-QA 數據集更大且具有更復雜的場景.數據集包含約1 萬個視頻片段和約24.3 萬個問答對,問題有5 種類型,包括what,who,how,when,where,該數據集中的視頻相對較長,長度為10~30s 不等,相當于每個視頻300~900幀.MSVD-QA 數據集共有1 970 個視頻片段和50 505個問題答案對.與 MSRVTT-QA 類似,問題有5 種類型,主要用于視頻字幕實驗,但由于其數據量較大,因此也用于VideoQA 任務.

表6 統計了主流模型在該數據集上的性能表現,表中值均為準確率,其與表5 如出一轍,性能更優的模型都是基于圖網絡和預訓練模型.基于圖結構的模型LiVLR 在MSRVTT-QA 取得了最佳的實驗結果,其中GCN 對視覺與語言的多粒度信息進行時空建模起到關鍵性作用.基于大規模數據集的預訓練模型在下游VideoQA 任務上性能表現出眾,MSRVTT-QA和MSVD-QA 數據集上的實驗結果也印證了這一結論.但此類數據驅動的模型,可解釋性相對較弱.

Table 6 Performance of Mainstream Models on MSRVTT-QA and MSVD-QA表6 主流模型在MSRVTT-QA 和MSVD-QA 上的性能表現%

由TGIF-QA,MSRVTT-QA,MSVD-QA 上統計的實驗數據不難發現,用于VideoQA 上的方法逐漸由常規注意力和記憶網絡轉向圖神經網絡與基于Transformer 的預訓練模型.此外,也有研究者提出其他的算法模型同樣有著出色的表現,如基于基礎構建單元的HCRN 與HOSTR,它們在某種程度上為后續模型設計提供了另一種設計思路,如HQGA.

3)Activitynet-QA[142]

Activitynet-QA 數據集來源于Activitynet 視頻數據集,由YouTube 短片組成.其中問題的類型分為3 種:基于動作的問題,檢測模型對粗略時序動作的理解;基于空間關系的問題,測試模型對靜態幀的空間推理能力;基于時序關系的問題,考察模型從一個序列的幀中推理對象的時序關系的能力.答案類型分為6 類: 是/否、數字、顏色、對象、位置和其他.為了確保問題的質量,數據集限制問題和答案的長度,題目最多20 個詞,答案最多5 個詞.與其他VideoQA數據集相比,Activitynet-QA 具有大規模、全人工注釋的長視頻,而且來源于生活,更加貼合實際,因此相對其他數據集更有意義.

4)YouTube2Text-QA[55]

YouTube2Text-QA 數據集是提出比較早的一個VideoQA 數據集,來源于YouTube2Text[157]數據集.其數據取自YouTube 短視頻,對于每一個視頻片段,均由人工手動生成自然語言描述.問題的類型為單項選擇與開放式,問題的提問方式分為who、what 和其他.YouTube2Text-QA 數據集規模相對較大,而且帶人工注釋的視頻描述對于問答對的產生很方便,對模型訓練也有很好的作用.

5)Video-QA[79]

Video-QA 數據集來源于互聯網上的在線視頻庫.每個視頻通常有3~5 個描述句子,描述性句子由視頻提交者制作.描述包含場景細節、演員、動作以及可能的非視覺信息.問答類型也較為豐富.Video-QA 數據集是以最少的人力生成的一個較大規模的基于視頻的問答數據集.

6)AGQA[150]

AGQA 源于Action genome[158],是一種新的組合時空推理的數據集,提供了一個評估視覺模型中各種維度的組合時空推理的基準.其包含約1.92 億個不平衡問答對,這種不平衡的問答對將引起模型偏見,Grunde-McLaughlin 等人[150]通過平衡答案分布和問題結構的類型來最大限度地減少這種偏見,將原始不平衡問答對集合減少為390 萬個問答對的平衡子集.該數據集的語料庫純粹是基于視覺的,比現有的基準測試集大3 個數量級,適用于評估模型復雜的多步推理能力.

7)其他

數據源為開放類型的數據集還包括EgoVQA,Social-IQ,LifeQA,Tutorial-VQA,How2QA,TrafficQA,NExT-QA,STAR,Fill-in-the-Blank.EgoVQA 數據集是一個新穎的以自我為中心視角的VideoQA 數據集,視頻都是第一人稱,其視頻源是公共IU Multiview 數據集,為多視圖自中心視頻研究而收集的.Social-IQ數據集來自于YouTube 上各種各樣的視頻,視頻中的情景與事件貼近生活,其目標是分析由自然互動組成的非約定俗成的社交情境,是一個開拓性的真實世界無約束數據集,旨在評估現在和未來人工智能技術的社交智能.LifeQA 數據集來源于YouTube 上人們在不同場景下的日常生活視頻,這些視頻均為在自然環境下帶語音互動的視頻;因其問答均與生活息息相關,非常有助于真實的問答系統.Tutorial-VQA數據集由76 個教程網站上的視頻組成,視頻均經過預處理,包含文本及每句話的時間戳信息,是一種用于在教程視頻中尋找答案范圍的新型數據集.How-2QA 數據集來源于HowTo100M 和電視劇,視頻類型具有多樣性特點.與TVQA 類似,該數據集也為每個問題提供了相關時刻的開始點和結束點.TrafficQA數據集通過在線和離線獲取相結合的方式收集了覆蓋各種真實的交通場景的視頻,非常有助于交通場景中的輔助駕駛、違章檢測等應用.NExT-QA 中的視頻源于YFCC-100M[159],視頻主要關注于現實的生活場景,內容具有豐富的對象交互.該數據集的問題分為因果關系問題、時序性問題與描述性問題3 種類型,旨在評估模型的因果動作推理與時間動作推理的能力.STAR[151]源于Charades[160]數據集,它與AGQA同為真實世界場景的數據集.AGQA 中的任務設計側重于時空關系,而STAR 更關注基于現實情景的推理,側重于人與對象交互、時間序列分析、動作預測和可行性推理.Fill-in-the-Blank 源于一個多語言視頻字幕數據集VaTeX[161],通過掩碼視頻英文字幕中的名詞性單詞或短語得到具有多個正確答案的填空題,其余正確答案均由人工生成.EgoTaskQA[152]在LEMMA[162]數據集基礎上進行數據增強,與EgoVQA 類似,也是一個以自我為中心的VideoQA 數據集.采用與AGQA同樣的方式平衡答案分布和問題結構的類型來減少數據偏見,其問題設計借鑒CLEVRER,旨在評估模型的時空和因果推理能力.

4 未來挑戰與展望

4.1 挑 戰

VideoQA 任務涉及計算機視覺與自然語言處理2 個領域,面臨著更為嚴峻的挑戰,相對于ImageQA而言其應用前景更為廣泛.隨著近幾年研究者們在該任務上的不斷改進與創新,眾多模型被提出并在特定的數據集上有著出色表現.同時,受到該任務的啟發,應用于各種場景的數據集也層出不窮.盡管目前有很多優秀的模型與數據集,但是能夠真正應用于實際生活中的少之又少.這意味著目前的模型大多只是為了提升對特定數據集的性能,并不能在現實中實現人機互動,所以該任務還需要進行不斷探索與研究.總之,VideoQA 仍處于一個發展階段,也必然存在著諸多問題與挑戰.

4.1.1 模型的評估能力不足

目前開放式問答模型相對較少,其主要原因是對于該類型的問答難以制定合適的評估標準,其次真正意義上的開放式問答的數據集幾乎沒有.傳統的開放式問答任務是預定義一個答案集合,從中選擇一個答案,其被視為一個多分類任務,與選擇題任務類似.即當前開放式問答任務的答案都屬于一個潛在的答案集合,這并不符合人工智能的發展目標,所以生成式答案更適于人們的邏輯.文獻[36, 63,106] 提出的模型解決開放式問題,該模型根據視頻與問題來生成一個自由形式的答案.這種類型的開放式問答能夠像人一樣回答問題,所以其應用范圍更廣,更符合實際需求,但模型的準確率評估依然是個難題.

4.1.2 模型缺乏可解釋性

目前,大多數模型不能夠對其問答過程進行充分的可視可解釋性分析,因而VideoQA 的結果一直很難被完全信服.因此,如何利用可視化的工具分析解釋模型的內部機理尤為重要.一旦能夠進行可視化的機理解釋,就可以給出一個通用的VideoQA 模型范式,在各種不同類型的數據源間進行遷移學習.

4.1.3 模型的魯棒性與泛化能力較弱

數據集缺陷是導致模型魯棒性與泛化能力不足的重要原因.部分數據集規模較小,學習樣本不足將導致模型欠擬合,測試樣本不足也將導致預測結果可靠性較低.幾乎近一半數據集中的問答對是通過固定問題模板結合程序自動生成,這使得問答類型缺乏多樣性,很容易導致模型訓練過擬合.部分數據集存在偏見,這些數據集收集的問題有的更側重于視覺信息,有的更側重于文本信息,而有的不需要視覺與文本信息就能夠正確回答.這種數據集偏見可能會使得模型達到很好的訓練效果,但在測試集表現出很大差異,難以泛化到其他數據集.

4.2 展 望

基于4.1 節所述的VideoQA 問題與挑戰,未來的研究工作可以從以下5 個方面進行開展.

4.2.1 構建更加完善的數據集

好的數據集是訓練優秀模型的前提.首先數據集規模不能太小,可以在必要時通過數據增強來擴充數據集,由此達到增強模型的魯棒性、提升模型泛化能力的目的.其次可以加入對抗樣本訓練,提升模型在對抗樣本的魯棒性,但是若模型過于魯棒,其泛化能力就會下降.然后,數據集中的各種類型的問題需要均衡,比如根據單一模態回答的問題與需要根據融合模態回答的問題比例不要相差太大,只需單一模態就能回答的問題的數量最好也不要偏向某一模態信息.對于具體問題,例如涉及到狀態轉移、計數等時序性問題的比例也需要提高.只有均衡的數據集才能夠正確地評價VideoQA 模型的能力.

4.2.2 多模態協同學習

相比于圖像,視頻具有更加豐富的多模態信息,包括音頻、字幕、光流等.當前絕大多數VideoQA 模型在處理視頻數據時,以視頻的視覺模態為主;也有一些方法同時利用視頻的視覺模態和字幕模態,但通常只是對多模態特征進行簡單地融合,如簡單的點乘、拼接或雙線性池化等[31-33],這種融合方式很難充分利用模態之間的互補信息.為了更加充分地利用視頻的多模態信息:一方面可以同時引入更多不同模態信息而不只是2 種模態;另一方面可以通過不同模態之間的協同學習而不只是簡單的模態融合來挖掘多模態信息的潛力,比如通過不同模態分支之間的互學習來提升對視頻的表示能力.此外,并不是所有視頻都存在各個模態的信息,比如某個視頻可能沒有音頻信號,如何處理某些模態丟失的情況是十分有價值的研究問題;同時,對多模態信息的建模會增加模型的復雜度,如何構建更加輕量的多模態協同使用的模型也是未來值得研究的問題.

4.2.3 加強因果關系推理

在ImageQA 中,Wang 等人[163]提出了QA R-CNN的模型,同時構建了EST-VQA 數據集.該數據集加入了支撐答案的證據,模型在推理答案時會提供預測該答案的支撐證據.文獻[164-165]也提出了使用顯式知識進行因果推理的方法,可以使模型預測的答案更具有可解釋性.與ImageQA 相同,VideoQA 也更加需要使預測的答案具有可解釋性,因為大多數模型依賴于預定義的答案池,無法處理詞匯表之外的問題答案.因此這些模型是否真正具有理解和推理問題的能力,還是僅僅對固定答案空間的過度擬合很難知曉.所以在構建視頻數據集時加入支撐答案的證據也是未來的必要工作,讓VideoQA 模型進行答案推理,并提供支撐證據保證了推理過程的因果關系,也使得預測答案更加合理.

4.2.4 外部知識的引入

目前,大部分VideoQA 模型只關注數據集中可利用的視覺與文本信息,然而忽略了并不是所有的問題都能夠憑借數據集提供的信息進行回答.由于數據集本身提供的信息有限,無論是在ImageQA 還是在VideoQA 中,僅僅利用給定的視覺與文本信息來回答問題往往是不充分的,VideoQA 任務中的部分問題更需要結合先驗知識進行推理.這些知識包括常識知識、關系知識等,它們一般通過在線獲取或者手動構建.將與問題相關的實體對象與外部知識進行關聯,從而提升模型對視頻和問題的理解程度以達到知識推理的準確性.

如圖17 所示,這是一個涉及視覺與常識知識的問題[166].要正確回答“地面上的紅色物體能用來做什么?”,模型所憑借的不僅源于圖像上所識別的“消防栓”這單一信息,而且必須依靠來自外部的常識知識,即“消防栓能滅火”作為支撐的事實,才能正確給出“滅火”這一答案.這是一個ImageQA 模型上利用外部知識的場景,此外文獻[167-172]提出ImageQA的模型均結合了外部知識進行推理,均取得了優異的實驗結果.同理,VideoQA 包含更豐富的信息,推理過程中更加需要外部知識的支撐.目前已有少數工作如文獻[104, 137-138]在VideoQA 模型推理時合理地查詢外部知識,進一步提升了模型回答的準確率.同時,外部知識也可以解決現有方法在基于特定數據集訓練的模型泛化能力弱的問題,所以,如何將外部知識與VideoQA 模型結合起來也是未來要討論的重點.

4.2.5 預訓練與提示的結合

近2 年來,視覺語言預訓練模型在從大規模數據中學習聯合視覺-文本表示方面取得了巨大成功.預訓練模型能夠流行起來的一個重要原因是用于訓練這些強大的視覺語言模型的大規模數據可以很容易地從互聯網上獲取到,而無需任何耗時費力的手動注釋.因此,有理由相信,隨著數據集規模的不斷增大,在不久的將來會訓練出用于下游任務更強大的模型.

將預訓練模型用于特定的下游任務,比較流行的方法是微調(Fine-tuning).而現在有研究者希望用提示(Prompting)來代替原來的Fine-tuning 方法,它不同于Fine-tuning 改造原有模型參數的方式,Prompting則是將下游任務的輸入輸出形式改造成預訓練任務中的形式.Radford 等人[173]提出CLIP 模型,給定其適當手工設計的Prompting,使模型有效地縮小預訓練和下游任務之間的差距.Ju 等人[174]在CLIP 基礎上提出通過學習特定任務的提示向量來實現高效和輕量級的模型適應,并將CLIP 的圖像理解擴展到視頻理解,并增加了對時間維度的處理.其在動作識別與文本視頻檢索任務中的性能均優于現有方法,相信未來將其應用到VideoQA 任務中也將會取得優異的性能表現.

5 總 結

本文主要對該領域的發展現狀、各種模型框架以及不同的基準數據集進行了回顧.對比分析了VideoQA 任務與ImageQA 任務兩者的重要區別與挑戰,主要區別是視頻相對于圖片具有更復雜的語義信息.同時對用于該任務的各種模型進行了詳細的分析與討論:注意力機制的應用能夠像人一樣關注到視頻與問題中的有效信息;記憶機制加上注意力能夠對關鍵信息不斷更新與保存;利用圖網絡建模視頻時空結構進行聯合推理更能準確地解決時空相關問題;利用海量數據進行預訓練基于Transformer或BERT 的模型具有較好的魯棒性.本文對用于該任務的數據集也進行了細致介紹,并分析了部分模型在數據集上的實驗結果,最后指出了目前數據集與模型存在的一些不足,數據集存在的局限性導致模型魯棒性與泛化能力不足,以及模型本身缺乏可解釋性.雖然VideoQA 被提出已有五六年之久,但該領域仍處于發展階段,很少有實際落地的應用.隨著越來越多的研究者們的加入,相信在不遠的將來,VideoQA 技術一定會應用于現實生活中.

作者貢獻聲明:包翠竹負責課題設計、文獻歸納、論文撰寫與修改;丁凱負責論文撰寫、文獻整理與數據收集;董建峰負責課題構思、論文修改與結構設計;楊勛負責論文指導與修改以及提供材料支持;謝滿德負責規劃論文整體結構、提出論文修改意見;王勛負責論文指導與修改、論文審閱.

猜你喜歡
注意力模態特征
讓注意力“飛”回來
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
線性代數的應用特征
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合