?

面向多模態自監督特征融合的音視頻對抗對比學習

2023-02-18 06:32盛振濤陳雁翔齊國君
中國圖象圖形學報 2023年1期
關鍵詞:對抗性音視頻級別

盛振濤,陳雁翔*,齊國君

1.合肥工業大學計算機與信息學院,合肥 230601;2.智能互聯系統安徽省實驗室(合肥工業大學), 合肥 230601;3.機器感知與學習實驗室(美國中佛羅里達大學), 美國奧蘭多 32816

0 引 言

在自然界中,音頻和視覺事件往往同時發生:當說話時,嘴唇會同時動作;當飛機低空掠過時,飛機會同時發出噪聲;當切菜時,刀與案板碰撞會發出聲音。由于自然界中音視頻信息具有時間同步性,因此人類在感知自然界的過程中,聽覺系統和視覺系統往往協同工作來采集音視頻信息,然后由大腦中樞系統融合處理音視頻信息,最終人類形成了對外界的認知。在感知研究中,已有大量文獻(Shams 和 Kim,2010;Heffner 和 Heffner,1992;Risto,1992)提供了實驗證據,表明人在理解動態事件時不僅依靠視覺系統,還需要聽覺系統的輔助,如果一個人的聽覺功能受到影響,那么他對視覺事件的敏感度會降低(Myklebust,1960)。因此,相比于單從聽覺事件或者視覺事件中提取到的特征,從音視頻事件中可以提取到的特征包含更加豐富的信息。

對比學習是一種自監督表示學習,它使用對比損失(van den Oord 等,2018)衡量表示空間中樣本對之間的相似性。在計算機視覺領域,傳統的對比學習通過衡量樣本之間的互信息(Hénaff,2020;Hadsell等,2016;Hjelm等,2019;Zhuang等,2019;van den Oord等,2018)來學習數據特征。Chen等人(2020)將對比學習應用到計算機視覺領域,提出可以對圖像進行增強編碼,讓同一幅圖的不同增強視圖相互靠近,不同圖像的增強視圖相互遠離。對比學習需要從負樣本空間中抽取負樣本,如何構建負樣本空間是一個關鍵的問題。為了良好地對比學習質量,構建負樣本空間的原則是足夠大且具有連續性(He 等,2020)。在計算機視覺領域,許多工作(Hu 等,2021;He 等,2020;Li 等,2021;Ho 和 Vasconcelos,2020;Kalantidis 等,2020)專注于視覺負樣本空間的構造。Wu 等人(2018)提出可以維護一個包含所有訓練樣本的存儲庫;He 等人(2020)提出可以構建一個帶有隊列和移動平均編碼器的動態負樣本字典,既保證了負樣本空間規模性和連續性,又減少了內存占用;Li 等人(2021)、Kalantidis 等人(2020)提出可以通過聚類等手段尋找更加有效的負樣本,增強負樣本空間的有效性;Hu 等人(2021)、Ho 和 Vasconcelos(2020)提出引入對抗性負樣本的想法,可以有效地使負樣本空間覆蓋到具有挑戰性的訓練樣本,提高對比學習質量。但是上述工作提出的對負樣本空間的改進措施都聚焦于視覺單一模態,沒有考慮到對比學習在音視頻多模態領域的應用。相比于上述單一視覺模態下的對比學習,音視頻跨模態對比學習可以使用不同的音視頻視圖進行對比學習,從而學習到信息更加豐富的音視頻信息(Morgado 等,2021b;Owens 和 Efros,2018)。

本文針對音視頻多模態下的對比空間負樣本空間的構建問題,提出了面向多模態自監督特征融合的音視頻對抗對比學習方法,如圖1所示。在圖1左側,首先將視覺片段和音頻片段進行增強編碼,分別得到視覺特征向量和聽覺特征向量。對同一片段再次進行增強編碼,可以得到對應的正樣本。在圖1中間部分,展示了音視頻跨模態對抗對比學習的訓練流程。

首先,如圖1中間左側下方所示,使用標準正態分布來生成視覺和聽覺對抗性負樣本集合,從而構建了音視頻負樣本空間。定義視覺和聽覺對抗性負樣本數量均為65 536,確保了音視頻負樣本空間的規模性。其次,在圖1中間的上半部分表示了音視頻模態間的對抗對比學習,以左上的視覺特征向量為例,將其和對應的同一音頻片段的在不同增強視圖下的聽覺特征向量作為正樣本對(圖1中間的左上方的相對箭頭兩側),而聽覺對抗性負樣本構成了負樣本空間。在模態間對比學習的過程中,視覺特征向量要靠近聽覺正樣本,同時遠離聽覺對抗性負樣本。然后,聽覺對抗性負樣本進行模態間對抗更新,使得自身更加接近視覺特征向量,增加對比學習的難度。以聽覺特征向量為核心的模態間對抗對比學習流程也是如此。

與此同時,如果僅有圖1中間的上半部分的音視頻模態間對抗對比學習,那么實際上模型就退化為了單一模態的對抗對比學習,這是因為視覺和聽覺對抗性負樣本初始化時為標準正態分布,不包含任何自身模態的信息。為此,如圖1中間的下半部分,增加了音視頻模態內的對抗對比學習。以圖1右下的視覺特征向量為例,將其和對應的同一視覺片段的在不同增強視圖下的視覺特征向量作為正樣本對,而視覺對抗性負樣本構成了負樣本空間。在模態內對比學習的過程中,視覺特征向量靠近視覺正樣本,同時遠離視覺對抗性負樣本。接著,視覺對抗性負樣本進行對抗更新,使得自身更加接近視覺特征向量,增加對比學習的難度。圖1左下聽覺特征向量對應的模態內對抗對比學習流程也是如此。

最終,視覺和聽覺特征向量既包含了模態間信息,也包含了自身模態的信息。其融合了視聽覺信息,可以更好地指導圖1右側的下游任務,提升準確率。1.2節的數學推導證明了對抗性負樣本可以不斷地跟蹤音視頻訓練樣本中難以區分的樣本,從而提高對比學習質量。

圖1 面向多模態自監督特征融合的音視頻對抗對比學習方法方法示意圖

本文定義了一個視聽覺對抗性負樣本集合,以此來代替原有的視覺對抗性負樣本集合和聽覺對抗性負樣本集合。這一改進簡化了框架,降低了框架的復雜度,1.3節的數學推導和2.3.1節的消融實驗證明了這一簡化措施的等價性和有效性。

音視頻多模態自監督學習的目的是通過預訓練得到融合音視頻信息的特征表示,其通過微調可以遷移到不同下游任務上。對于提出的面向多模態自監督特征融合的音視頻對抗對比學習方法,選取Kinetics-400(Kay 等,2017)數據集進行預訓練,選取動作識別和音頻分類下游任務,分別評估了訓練得到的包含聽覺信息的視覺特征表示和包含視覺信息的聽覺特征表示。實驗從定性和定量的角度表明,該方法可以很好地融合音視頻特征,在動作識別和音頻分類下游任務上與其他音視頻跨模態自監督學習方法相比取得了具有競爭性的結果。

綜上所述,本文的貢獻在于:

1)提出了面向多模態自監督特征融合的音視頻對抗對比學習方法,創新性地引入了視覺、聽覺對抗性負樣本集合來構建音視頻負樣本空間;

2)構建了音視頻模態間與模態內對抗對比的聯合學習模式,并證明了視覺和聽覺對抗性負樣本可以有效跟蹤訓練樣本中難以區分的樣本,從而提高了音視頻特征融合質量;

3)進一步提出了音視頻對抗對比學習簡化框架,在減少一半視聽覺對抗性負樣本的同時保證了本文方法的精度。

1 面向多模態自監督特征融合的音視頻對抗對比學習

面向多模態自監督特征融合的音視頻對抗對比學習方法引入了視覺和聽覺對抗性負樣本,從而構建了一個更加高效的音視頻跨模態負樣本空間,增強了音視頻跨模態對比學習的學習質量。

1.1 音視頻對抗對比學習框架

圖2 音視頻對抗對比學習框架

本文采用了經典的InfoNCE對比損失函數(van den Oord 等,2018),具體為

LInfoNCE(X,X′,R)=

(1)

綜上所述,一方面,通過音視頻編碼器將視覺片段和音頻片段投影到特征空間,得到視覺正樣本對和聽覺正樣本對;另一方面,定義視覺對抗性負樣本集合和聽覺對抗性負樣本集合。由于集合中的每個對抗性負樣本都是可梯度更新的,相當于在每個對抗性負樣本后都添加了全連接層。初始狀態下,全連接層的可梯度更新的參數矩陣為單位矩陣(矩陣行寬和列寬均為向量長度)?;谝粢曨l正樣本對和視聽覺對抗性負樣本集合,計算得到模態間與模態內對比損失函數。

因為視覺對抗性負樣本集合Rv和聽覺對抗性負樣本集合Ra初始化為正態分布,所以其本身不包含音視頻信息。如果僅僅定義模態內損失函數或模態間損失函數,那么就僅能學習到對應模態的特征,而無法學習到音視頻跨模態特征,從而退化為單一模態下的對抗對比學習。因此,定義了聯合對比損失函數LJoint,具體為

LJoint=LCross+LIn

(2)

LCross=LInfoNCE(Xv,X′a,Ra)+

LInfoNCE(Xa,X′v,Rv)

(3)

LIn=LInfoNCE(Xv,X′v,Rv)+

LInfoNCE(Xa,X′a,Ra)

(4)

式中,LIn為音視頻模態內的對比損失函數,LCross為音視頻模態間的對比損失函數。這一聯合損失的形式與圖2右側一致。在圖2中,對比損失函數LInfoNCE(Xv,X′a,Ra)簡寫為Lossva,其他3個損失函數亦然。在1.2節中,證明了通過對抗對比學習優化聯合對比損失函數LJoint(式(2)),視覺對抗性負樣本集合Rv和聽覺對抗性負樣本集合Ra不僅跟蹤了模態內難以區分的特征樣本,同時也跟蹤了模態間的難以區分的特征樣本。

1.2 音視頻對抗對比學習梯度分析

根據定義的聯合對比損失函數LJoint(式(2))可以看到,存在著兩個可訓練的主體:音視頻查詢編碼器fvq和faq以及視覺和聽覺對抗性負樣本集合Rv和Ra。不僅沿著聯合對比損失函數LJoint最小化方向更新音視頻查詢編碼器fvq的參數θv和faq的參數θa,還沿著聯合對比損失函數LJoint最大化方向更新視覺和聽覺對抗性負樣本集合Rv和Ra。因此,聯合對比損失函數LJoint的優化問題變成了一個最大最小化問題,即

(5)

(6)

(7)

(8)

(9)

(10)

1.3 音視頻對抗對比學習框架的簡化

(11)

(12)

2 實驗及結果分析

為了評估性能,首先進行預訓練,然后在動作識別和音頻分類下游任務上進行遷移學習,最后分別進行定性和定量評估。音視頻對應和音視頻實例判別是音視頻跨模態自監督學習領域具有代表性的方法,分別與它們進行實驗對比。對抗對比學習(adversarial contrast,AdCo)是一種視覺模態下的自監督表示學習方法。將其作為比較方法,體現音視頻特征融合的有效性。音視頻對應(audio visual corresponding,AVC)是一個二元分類任務:給定一個視覺片段和一個音頻片段,判斷它們是否對應,其中正對來源于同一個視頻,負對來源于不同視頻。音視頻實例判別學習則采用對比學習,將一個視覺片段與多個音頻片段進行對比,同時將一個音頻片段與多個視覺片段進行對比。其中正對來源于視頻中時間同步對應的音視頻片段,負樣本既可能來源于同一視頻的不同時間點的片段,也有可能來源于不同視頻的片段。因此,音視頻實例判別中包含了音視頻對應和音視頻時間同步這兩個隱含約束條件。音視頻實例判別學習存在3種變體,分別是模態間實例判別學習(self-audio visual instance discrimination)、聯合模態實例判別學習(joint-audio visual instance discrimination)和跨模態音視頻實例判別學習(cross-audio visual instance discrimination,Cross-AVID)。經過實驗驗證,跨模態音視頻實例判別學習在3種變體中達到了最優效果(Morgado 等,2021b),因此本文采用跨模態音視頻實例判別學習(Cross-AVID)作為比較方法。為了公平比較,采用與本文方法相同的架構和優化設置重新實施上述方法。

2.1 實驗設置

2.1.1 數據集選取

采用Kinetics-400K(Kay 等,2017)的子集Kinetics-100K(Morgado 等,2021b)進行音視頻對抗對比學習預訓練。Kinetics-400數據集包括了240 K的持續時間大約為10 s的視頻,涵蓋了400類人類動作,例如演奏樂器、握手或者擁抱等。在預訓練時,僅使用自監督學習方法提取Kinetics-400數據集中的音視頻信息,而不使用標簽信息。

針對下游動作識別任務,選取了UCF-101數據集(Soomro 等,2012)和HMDB-51(human metabolome database)數據集。UCF-101數據集包含了13 320個視頻,涵蓋了101類真實動作,具有動作多樣性。UCF-101的視頻在相機運動幅度、物體外觀和姿態、物體尺度、視角、背景和光照條件上都存在較大變化,非常具有挑戰性。HMDB數據集(Kuehne等,2011)包含6 849個剪輯,分為51個動作類別,每個類別至少包含101個剪輯。動作類別可以分為5種類型:面部表情動作、與對象操縱相關的嘴部動作、肢體運動、與環境交互的肢體動作以及與人類交互的肢體動作??梢钥吹?,HMDB51數據集類別之間的相似性高,非常具有挑戰性。本文選取了HMDB-51數據集中的20類動作進行下游動作識別任務。針對下游音頻分類任務,采用了ESC50(environmental sound classification)數據集(Piczak,2015)。ESC50數據集包含有2 000個環境錄音,每段錄音長度為5 s,分為50個類別,可以作為環境聲音分類的基準測試方法。本文選取了ESC50數據集中的25類用做基準。

2.1.2 視覺特征與聽覺特征的預處理

在視覺處理上,以16 幀/s的幀率隨機選取一段時長為0.5 s的視覺片段,其中包含了8個連續的視頻幀。然后對選取的視覺片段進行標準的視覺增強操作(Szegedy 等,2015),包括隨機裁剪、隨機水平翻轉和色彩調節。經過視覺增強操作,得到8×224×224的視覺增強視圖對,將其送入到視覺編碼器組中。在音頻處理上,以24 KHz的音頻采樣頻率選取了與視覺片段對應的時長為2 s的音頻片段。同樣地,對音頻片段進行增強操作,包括隨機調整音量、時間抖動,并且接著進行了短時傅里葉變換,得到了200×257(200個時間步長,257個頻率點)的音頻增強視圖對,將其送入音頻編碼器組中。

2.1.3 音視頻網絡架構和優化設置

對于視覺模態,選取了2層標準3D卷積神經網絡,并在其后添加了3層MLP(multilayer perceptron)層,以此作為視覺編碼器架構。對于聽覺模態,選取了2層標準2D卷積神經網絡,同樣在其后添加了3層MLP層,以此作為音頻編碼器架構。具體架構如表1所示。

表1 音視頻網絡架構

在表1中,Xs表示視覺片段中每一幀的空間尺寸,Xn表示視覺片段的幀數,Cv表示視覺片段的通道數,Xf表示音頻片段的頻率采樣點數,Xt表示音頻片段的時間采樣點數,Ca表示音頻片段的通道數。對于視覺片段,采用RGB格式,因此視覺片段的初始通道數為3。對于音頻片段,采用單通道,因此音頻片段的初始通道數為1。視覺與聽覺對抗性負樣本集合大小均設置為65 536。

Adam優化器學習率分別設置為0.011和1.1來優化音視頻編碼器網絡和視聽覺對抗性負樣本集合。優化器權重衰減值均設置為0.000 01,動量值均設置為0.9。批處理大小設置為96,訓練總批次設置為30。訓練過程使用了2塊TITAN Xp型號的GPU。在訓練過程中,對于同一個批次,首先沿對比損失減小的梯度方向來更新音視頻編碼器網絡,然后沿對比損失增大的梯度方向來更新視覺和聽覺對抗性負樣本集合。

2.2 定性評估

2.2.1 預訓練效果的定性評估

對本文方法的預訓練效果進行定性評估。將視覺編碼器組的視覺查詢編碼器作為前端,并在其后加上了1層全連接層和1層softmax層來映射至101類,以此作為下游動作識別的監督網絡。遵循之前的工作(Korbar 等,2018;Tian 等,2020;Han 等,2019)在UCF-101數據集上的評估協議,網絡重新整體微調訓練來進行遷移學習。與此同時,將視覺查詢編碼器未經預訓練的監督網絡和視覺查詢編碼器經過Cross-AVID預訓練后的監督網絡設置為對照網絡。

預訓練參數在2.1節已經詳細說明,為了進行下游遷移學習,還需要進行下游監督網絡的優化設置。仍舊使用Adam優化器來優化網絡。為了與預訓練參數保持合理的相對關系,優化器的學習率設置為0.000 1,動量設置為0.9,批處理大小設置為64,總訓練批次設置為13。

在經過上游預訓練(可選)和下游遷移學習后,通過對101維標簽中實際類別指向的標簽誤差進行反向傳播,提取監督網絡最后一層卷積層的梯度,然后將梯度可視化,并與原始圖像相疊加,最終可得監督網絡最后一層卷積層的梯度類激活熱力圖(gradient-class activation map,Grad-CAM),如圖3所示。由于監督網絡最后一層卷積層的尺寸為112×112,因此給出的梯度類激活熱力圖的細粒度較大。另外,由于圖像經過了數據增強操作,與原始圖像相比,梯度類別激活熱力圖會隨機水平翻轉或者隨機局部放大。

圖3 梯度類激活熱力圖對比

圖3從左到右原始圖像的真實動作標簽分別為:棒球投擲、彈奏西塔琴、彈奏多爾鼓和乒乓球擊球。對于Grad-CAM來說,越明亮的地方表明其梯度值越大,對于類別的貢獻越大。圖3第1列,相比于視覺查詢編碼器未經預訓練和視覺查詢編碼器經過Cross-AVID預訓練后的監督網絡,視覺查詢編碼器經過本文方法預訓練后的監督網絡更多地關注了棒球手的全身投擲準備動作,這些都是高層語義信息,是區分動作的重要信息源。第2列視覺查詢編碼器經過本文方法預訓練后的監督網絡更多地關注了彈琴者的彈琴動作,而不是像Cross-AVID只是關注了一些邊緣輪廓信息。第3列視覺查詢編碼器經過本文方法預訓練后的監督網絡更多地關注了擊鼓者的擊鼓動作。第4列視覺查詢編碼器經過本文方法預訓練后的監督網絡更多地關注了乒乓球運動員的擊球動作。圖3表明,經過本文方法預訓練后,下游動作識別任務的監督網絡更多地關注了高層語義信息。

2.2.2 視覺和聽覺對抗性負樣本質量的定性評估

在1.2節的音視頻對抗對比學習梯度分析中,證明了視覺和聽覺對抗性負樣本可以跟蹤難以區分的視聽覺樣本。本節通過可視化音視頻對抗對比學習的音視頻查詢樣本與視覺和聽覺對抗性負樣本的t-SNE(t-distributed stochastic neighbor embedding)圖,定性分析了視覺和聽覺對抗性負樣本的質量。由于本文方法既有音視頻模態間對抗對比學習,又有音視頻模態內對抗對比學習,因此,將音視頻查詢樣本與視覺和聽覺對抗性負樣本(在圖4(a)中簡記為音視頻對抗樣本)組合在一起,繪制其t-SNE圖,如圖4(a)所示。

將跨模態音視頻實例判別(Cross-AVID)設置為對照方法。由于跨模態音視頻實例判別僅僅使用了模態間對比學習,因此將視覺查詢樣本和從音頻存儲庫中采樣的負樣本組合在一起,繪制其t-SNE圖,如圖4(b)所示;將視覺查詢向量和從音頻存儲庫中采樣的負樣本組合在一起,繪制其t-SNE圖,如圖4(c)所示。

圖4 音視頻對抗對比學習的t-SNE圖與跨模態音視頻實例判別的t-SNE圖對比

將圖4(a)(b)進行比較,可以發現本文方法獲得的視覺對抗性負樣本的分布更加均勻,呈橢圓狀分布,而在Cross-AVID中,從音頻存儲庫采樣的負樣本的分布卻存在著小集群,即圖4(b)中紅框所標區域。與圖4(c)進行比較,可以發現在Cross-AVID中,從視覺存儲庫采樣的負樣本分布不均勻,即圖4(c)中紅框標注區域缺失了負樣本。

圖4(b)(c)中存在的小集群以及缺失會使得Cross-AVID方法的負樣本空間無法很好地覆蓋到音視頻查詢樣本。這會導致音視頻查詢樣本與負樣本很容易被區分。而通過本文方法獲得的視覺和聽覺對抗性負樣本分布(圖4(a))呈橢圓形,較好覆蓋到音視頻查詢樣本。因此音視頻查詢樣本與對抗性負樣本不容易區分,有利于提高對比學習的質量。也就是說,視覺與聽覺對抗性負樣本在迭代過程中密切跟蹤了視聽覺樣本,構建了一個更加高效的音視頻負樣本空間。

2.3 定量評估

將本文方法與音視頻對應(AVC)和跨模態音視頻實例判別(Cross-AVID)這兩種音視頻自監督學習方法進行比較。此外,設置了對抗對比學習(AdCo)作為視覺單模態的對照組。在相同的架構下,相比于視覺表示對比學習(SimCLR)、動量對比學習(MoCO v2)和基于聚類對比的對比學習SWAV(swapping assignments between views)等視覺自監督學習方法,AdCo在ImageNet數據集上的TOP1準確率更高(Hu 等,2021)。本文還對1.3節中提出的簡化(表2中最后一行)進行了消融實驗。

2.3.1 動作識別任務

表2比較了各種音視頻自監督表征學習方法預訓練的遷移效果。在相同實驗設置下,基于視覺單模態的自監督表征學習方法AdCo在各項指標上均低于基于音視頻多模態的自監督表征學習方法(AVC、Cross-AVID、本文),這說明基于音視頻多模態的方法學習到了更加高質量的信息(Huang 等,2021),因此在下游遷移任務上的效果也更好。比較3種基于音視頻多模態的自監督表征學習方法,本文方法在視覺片段級別的TOP1和TOP5準確率以及視頻級別的TOP1和TOP5準確率上均達到了最優效果。與跨模態音視頻實例判別(Cross-AVID)方法相比,視覺片段級別的TOP1準確率高出了0.47%,視覺片段級別的TOP5準確率高出了2.06%;視頻級別的TOP1準確率高出了0.35%,視頻級別的TOP5準確率高出3.17%。音視頻對應(AVC)方法除了在視頻級別的TOP5準確率上比跨模態音視頻實例判別(Cross-AVID)方法高0.68%以外,其他指標均低,這是由于跨模態音視頻實例判別(Cross-AVID)學習還包含了同一視頻的不同時間點的負樣本片段,因此隱含有音視頻時間同步這一約束條件,是一個更為困難的對比學習任務,可以學習到更優質的特征表示。而本文方法由于構建了更加高效的負樣本空間,因此學習到的特征表示包含了更加豐富的音視頻信息,在下游任務上的遷移效果更好。與無預訓練直接進行動作識別的方法相比,3種音視頻多模態自監督表征學習方法在各項指標上均有提升,這說明了其有效性。與此同時,雖然AdCo在ImageNet的TOP1準確率上效果優于SimCLR、MoCO v2和SWAV等視覺自監督學習方法(Hu 等,2021),但是AdCo在動作識別UCF數據集上準確率指標值卻均低于未經預訓練的方法的指標值,這可能是因為AdCo采用了與3種音視頻多模態自監督表征學習方法相同的實驗設置,而它需要更多的訓練批次。

表2 動作識別任務準確率(UCF)

此外,在HMDB動作識別數據集上進行了測試。將預訓練得到的視覺編碼器組的視覺查詢編碼器作為前端,下游網絡設置了3層全連接層和1層softmax層來映射至20類,采用Adam優化器來優化網絡,學習率設置為0.000 1,動量設置為0.9,批處理大小設置為64,訓練批次設置為8。由于類別數為20,TOP5準確率意義不大,因此表3中給出視覺片段級別和視頻級別的TOP1準確率。

表3 動作識別任務準確率(HMDB)

通過表3可以看到,在相同的實驗條件下,本文方法在HMDB動作識別數據集上達到了最優效果。相比于Cross-AVID方法,本文方法在視覺片段級別的TOP1準確率和視頻級別的TOP1準確率上分別高了0.89%和0.83%。AdCo的視覺片段級別和視頻級別的TOP1準確率比無預訓練的準確率分別高了2.3%和2.48%,這可能是因為對動作識別HMDB數據集來說,AdCo的預訓練是充分的。

表2和表3的最后兩行分別在UCF和HMDB動作識別數據集上進行了改進措施的消融實驗。比較表2最后兩行的數據,在UCF動作識別數據集上,對比本文方法在簡化前和簡化后的表現,視覺片段級別和視頻級別的TOP1準確率相差不超過0.25%,視覺片段級別和視頻級別的TOP5準確率相差不超過0.5%。比較表3最后兩行的數據,在HMDB動作識別數據集上,對比本文方法在簡化前和簡化后的表現,視覺片段級別的TOP1準確率差值超過0.5%。這可能是由于HMDB數據集的動作幅度大,導致視覺片段級別的準確率波動大。視頻級別準確率通過對視覺片段的預測值取平均后得出??梢钥吹?,視頻級別的TOP1準確率相差不超過0.25%。在這兩個數據集上的消融實驗結果說明了簡化對抗性負樣本這一措施在減少了一半對抗性負樣本的同時保證了精度。

2.3.2 音頻分類任務

在環境聲音ESC數據集上,對本文方法得到的包含視覺信息的聽覺特征進行評估。具體來說,將預訓練得到的音頻編碼器組的音頻查詢編碼器作為前端,下游網絡設置了3層全連接層和1層softmax層,映射至25類。采用了Adam優化器對網絡進行優化,學習率設置為0.000 1,動量設置為0.9,批處理大小設置為64,訓練批次設置為8。由于AdCo是純視覺預訓練方法,因此本文選用了音視頻對應AVC方法和跨模態音視頻實例判別學習Cross-AVID方法作為音頻分類任務的對照組。

在表4中報告了音頻片段級別和音頻級別的TOP1準確率。通過對同一音頻的10個音頻片段的預測值(預測為各個類別的值,大小為0到1之間)求平均,計算得到音頻級別的TOP1準確率。

表4 音頻分類任務準確率(ESC)

通過表4可以看到,本文方法效果優于無預訓練的方法。這證明了本文方法的有效性。相比于各類音視頻自監督表示學習方法,本文提出的方法達到了最優效果。具體來說,相比于跨模態音視頻實例判別學習Cross-AVID,在音頻片段級別的TOP1準確率上高出了1.56%,在音頻級別的TOP1準確率上高出了2.88%。相比于音視頻對應學習AVC,在音頻片段級別的TOP1準確率上高出了3.13%,在音頻級別的TOP1準確率上高出了3.84%。

2.4 音視頻對抗對比學習訓練架構分析

在本節中,通過增加音視頻對抗對比學習的網絡架構的深度,測試了其在不同深度網絡架構上的表現。

音視頻對抗對比學習的視覺架構從2層拓展到了18層,新增加的16層使用了R(2+1)D卷積層(Tran 等,2018),最后的3層全連接層保留。音視頻架構從2層標準2D卷積神經網絡拓展到了10層2D卷積神經網絡,最后的3層全連接層也仍然保留。由于深層網絡架構的訓練參數遠大于淺層網絡架構,為了保證深層網絡和淺層網絡架構具有可比性,深層網絡優化參數中的批處理大小設置為32,下游訓練批次設置為7,其余優化參數與2.1.3節設置的一致。

下游動作識別任務數據集選用UCF數據集。經過預訓練后,在下游動作識別監督網絡上進行遷移學習,優化參數與2.3.1節中設置的一致。最終得到了音視頻對抗對比學習分別在淺層網絡架構和深層網絡架構上的視覺片段級別的TOP1準確率、TOP5準確率和視頻級別的TOP1準確率、TOP5準確率,如圖5左側4組柱狀圖所示。在圖5右側還繪制了不同架構的參數數目對比的柱狀圖。

如圖5第5組所示,深層網絡架構參數比淺層網絡架構參數多出一千萬個左右。通過圖5左側4組可以看到,深層網絡架構下的學習效果均優于淺層網絡架構下的學習效果,在視覺片段級別的TOP1準確率上高出了2.59%,在視覺片段級別的TOP5準確率上高出了5.87%;在視頻級別的TOP1準確率上高出了3.48%,在視頻級別的TOP5準確率上高出了5.44%。準確率的提升說明本文方法通過加深網絡架構得到了更好的效果,并且還有很大的提升空間。

圖5 不同深度網絡架構下的音視頻對抗對比學習的學習效果比較

3 結 論

本文的主要研究內容是面向多模態自監督特征融合的音視頻對抗對比學習方法。通過創新性地引入視覺和聽覺對抗性負樣本和音視頻模態內與模態間相聯合的對抗對比學習方式,使得視聽覺對抗性負樣本可以不斷跟蹤難以區分的樣本,構建了更加高效的音視頻負樣本空間,提高了音視頻對比學習的學習質量。在此基礎上,提出了采用視聽覺對抗性負樣本來代替視覺對抗性負樣本和聽覺對抗性負樣本,簡化框架的同時保持了性能。

在相同條件下與Cross-AVID等方法比較,本文提出的音視頻對抗對比學習方法在動作識別和音頻分類上的各項指標均達到了最優效果。本文方法存在的不足有:通過增加網絡深度,得到了更好的性能,說明存在很大的提升空間。此外,本文采用了整個負樣本空間用做對比學習,一些與正樣本互相關性高的負樣本做出的貢獻可能有限(Morgado 等,2021b)。

下一步的工作可以在本文搭建的音視頻負樣本空間的基礎上,探索高效的負樣本選擇策略,提高特征融合質量。本文方法具有廣泛的應用場景,例如音源定位、視聽語音分離等音視頻相關的下游任務。

猜你喜歡
對抗性音視頻級別
技能主導類隔網對抗性項群運動訓練特征和實戰技巧研究——以網球為例
Microchip推出首款車載以太網音視頻橋接(AVB)全集成解決方案
3KB深圳市一禾音視頻科技有限公司
級別分明
關于羽毛球教學中多球訓練的探討
WIFI音視頻信號傳輸的關鍵問題探究
邁向UHD HDR的“水晶” 十萬元級別的SIM2 CRYSTAL4 UHD
新年導購手冊之兩萬元以下級別好物推薦
技戰能主導類格斗對抗性項群的競技特點與訓練要求
你是什么級別的
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合