?

基于深度學習的多視點視頻編碼方法綜述

2021-02-14 06:23繆辰啟

電視技術 2021年12期

關鍵詞：編碼方法深度圖碼率

羅鋮，繆辰啟

（福州大學物理與信息工程學院，福建福州 350108）

0 引言

為了提供身臨其境的體驗，多視點視頻從不同的位置和角度捕捉視覺信息，導致了數據量的激增。如何在保證重建質量的前提下降低編碼碼率已經成為一個關鍵問題。傳統的多視點視頻編碼（Multiview Video Coding，MVC）[1]方法通常利用混合編碼框架對每個視點進行編碼。當前流行的多視點加深度（Multi-view plus Depth，MVD）方法為了進一步降低編碼碼率，在編碼時忽略中間視點，并在解碼端通過深度圖重建它們。然而這類方法在碰到物體遮擋和變形的情況時，很難得到精確的深度信息，所以難以重建中間視點。最近的研究工作已經證實了基于深度學習的視頻編碼的可行性[2]，這得益于神經網絡強大的非線性建模能力和大批量數據集的訓練。不過現階段學術界對基于深度學習的多視點視頻編碼研究較少，這仍然是一個值得繼續探索的方向。

1 多視點視頻的特點及應用

多視點視頻是由攝像機陣列對同一場景進行拍攝所形成的一系列具有時間和空間相關性的視頻[3]，其采集過程如圖1所示。

圖1 多視點視頻拍攝示意圖

當前多視點視頻在多個場景都有其巨大的應用和研究價值，比如遠程控制的醫療手術、VR/AR等沉浸式體驗以及體育直播中的特效制作等等。在這些場景下，用戶可以基于自己所處的不同角度位置，觀看自己感興趣的內容。然而多視點視頻不可避免地帶來多倍的數據量，因此不得不對其進行壓縮編碼。

多視點視頻編碼可以通過消除同一視點內的時域相關性和不同視點間的空域相關性，在保證重建視頻質量的同時減少編碼碼率，實現對多視點視頻的有效壓縮。根據多視點視頻編碼方法是否涉及深度學習技術，可以將多視點視頻編碼分為傳統的多視點視頻編碼和基于深度學習的多視點視頻編碼兩類，具體分類如圖2所示。

圖2 多視點視頻編碼分類圖

2 傳統的多視點視頻編碼

多視點視頻編碼在高效視頻編碼（High Efficiency Video Coding，HEVC）標準的基礎上增加了視點間預測，形成了多視點高效視頻編碼（Multi View-High Efficiency Video Coding，MV-HEVC）標準[4]。除此之外，它還引入了深度圖的概念，其中每個視點都可以有一個額外的深度圖。將基于深度圖的渲染（Depth-Image-based Rendering，DIBR）技術應用在HEVC中，這種編碼方法被稱為MVD[5]。由此，人們將傳統的多視點視頻編碼分為兩類，即基于視點預測的多視點視頻編碼和基于深度圖的多視點視頻編碼。

2.1 基于視點預測的多視點視頻編碼

MV-HEVC是當前最先進的多視點視頻編碼標準，它啟發了許多對其框架內模塊改進的工作。HANNUKSELA等人[4]對HEVC的多視點擴展做了階段性總結，并描述了多視點視頻編碼的標準做法，為未來的工作樹立了一個重要的里程碑。ROODAKI等人[6]在MV-HEVC的基礎上提出了一種視點級的率失真（Rate Distortion，RD）模型，他們推導出一個將視點間和視點內的差異考慮在內的RD模型，以更準確地估計每個視點的總體碼率。為了解決運動矢量（Motion Vector，MV）預測效率低下的問題，LEE等人[7]提出了一種基于相鄰兩個視點間幾何相互關系的幀內MV預測，這些幾何相互關系來源于對極幾何、相似度和仿射變換。與傳統的質量失真/質量碼率（Quality Distortion/Quality Rate，QD/QR）模型不同，LI等人[8]提出了一種基于基礎視點和依賴視點之間精確目標碼率關系的多視點碼率分配方法。為了降低編碼復雜度，JIANG等人[9]提出了一種幀間預測方法，通過感知失真閾值模型，揭示模式選擇與編碼失真閾值間的關系。

2.2 基于深度圖的多視點視頻編碼

針對深度圖序列，人們從不同角度提出了各種編碼方法，如深度圖的率失真優化、增強、碼率分配及虛擬視點合成等。MüLLER等人[10]通過改進運動補償模塊來編碼深度圖序列，進而提出了一種基于視點間預測的深度圖HEVC擴展方法。通過對中間視點的深度圖和相鄰視點的紋理圖進行合成，大大節省了編碼碼率。該方法在MVC的發展中樹立了一個重要的里程碑。為了解決合成中間視點邊界質量下降的問題，RAHAMAN等人[11]使用高斯混合模型來分離前景，以填補合成視點中的空洞。此外，通過幀插值的方式可以進一步減少視頻傳輸的數據量。在文獻[12]中，YANG等人利用深度圖和視點間的相關性提出了一種幀插值方法，該方法將幀分解成多個層，利用相鄰的視點和深度圖重建遮擋區域。這種方法在顯著提高插值幀質量的同時，進一步減少了MVD傳輸的數據量?？紤]到深度圖在中間視點構建中的應用，改進MVC的一個可行方法是獲取準確的深度圖。YANG等人[13]提出了一種跨視點多邊濾波方案，利用不同間隙的相鄰視點的顏色和深度先驗來提高深度圖的質量。

研究人員研究的另一個問題是紋理和深度圖之間的碼率分配。在傳統的率失真優化中，深度圖是不需要呈現給用戶的。由此GAO等人[14]提出了一種聯合信源編碼和信道編碼方法來優化碼率分配。為了降低編碼模式選擇的復雜度，ZHANG等人[15]提出了一種基于深度直方圖投影和允許深度失真的高效MVD方案。除此之外，LIN等人[16]提出了一種基于視覺感知的多視點深度快速編碼方法，提升了編碼效率。

3 基于深度學習的多視點視頻編碼

隨著深度學習熱潮的到來，很多方法將深度學習引入到多視點視頻編碼中，并大大改善了性能。這些工作包括基于深度學習的多視點視頻編碼優化和基于深度學習的多視點視頻編碼后處理。其中，基于深度學習的多視點視頻編碼優化指的是基于深度學習對多視點視頻編碼框架中的某一模塊進行優化；基于深度學習的多視點視頻編碼后處理指的是在多視點視頻編碼框架外對解碼后的視頻進行增強。然而迄今為止，還沒有開發出端到端的深度多視點視頻編解碼器，所以暫不討論。

3.1 基于深度學習的多視點視頻編碼優化

基于深度學習的多視點視頻編碼優化方法將深度學習引入多視點視頻編碼框架的特定模塊中，用于提升編碼效果。JIA等人[17]將生成對抗網絡（Generative Adversarial Network，GAN）與傳統的編碼框架相結合，合成高質量的視點并提高編碼效率。此外，多視點視頻編碼通常利用視點內的幀間相關性來實現更有效的壓縮。GU等人[18]提出了一種光場壓縮方法，將光場圖像看作MV-HEVC編碼框架下的多視點序列，利用神經網絡合成虛擬幀并為設計的分層編碼結構提供額外參考。LEI等人[19]提出了一種用于多視點視頻編碼的深度參考幀生成方法，通過視差引導的生成網絡轉換不同視點之間的視差。LIU等人[20]提出了一種基于卷積神經網絡（Convolutional Neural Network，CNN）的多視點深度快速編碼方法，利用可學習的邊緣分類網絡降低編碼復雜度。

3.2 基于深度學習的多視點視頻編碼后處理

將深度學習應用于多視點視頻編碼框架的后處理階段，不僅可以提高多視點視頻的質量，還能有效地消除壓縮偽影。ZHU等人[21]提出了一種用于3D-HEVC的視點合成增強方法，將壓縮偽影去除視為圖像恢復任務，并以此重建無失真的合成圖像。JAMMAL等人[22]提出了一種多視點質量增強方法，在沒有傳統深度信息的情況下直接學習低質量視點和高質量視點之間的映射關系。CHEN等人[23]提出了一個殘差學習框架，該框架利用視點間的相關性及多模態先驗來恢復目標視點的深度視頻。最近，HE等人[24]提出一種基于圖神經網絡（Graph Neural Network，GNN）的壓縮偽影去除方法，通過融合相鄰視點信息和抑制誤導信息來減少壓縮偽影。

4 總結與展望

傳統的多視點視頻編碼方法衍生出MV-HEVC和3D-HEVC兩類標準。MV-HEVC在HEVC的基礎上增加了視點預測，而3D-HEVC又在其基礎上引入了邊信息的概念，將深度圖作為邊信息，以提高多視點視頻的編碼效率。但是，由于遮擋和變性問題，深度圖難以精確地反映原始視點的信息，導致重建視頻的質量偏低。

基于此，許多工作結合著傳統多視點編碼框架進行。深度學習浪潮的到來，進一步提高了這種混合編碼框架的效果。一類方法是將框架內的模塊用基于深度學習的模塊進行替代，另一類方法則是在解碼端對重建視頻進行增強。引入深度學習后的這兩類多視點視頻編碼方法雖然對提高編碼效率和提升重建質量有一定效果，但是由于其本質是依賴于傳統多視點視頻編碼框架的方法，并不是端到端進行優化，因此沒能充分挖掘出大批量數據集的潛能。

因此，基于深度學習的端到端多視點視頻編碼方法研究工作非常有必要展開。這類方法可以通過端到端優化及數據驅動的方式，有效去除傳統多視點視頻編碼框架內模塊的性能冗余，達到更進一步的率失真性能。

5 結語

多視點視頻作為實現元宇宙的重要載體，在虛擬現實場景等方面起著重要作用，在深度學習蓬勃發展的今天，正成為研究的熱點問題之一。本文介紹了多視點視頻的特點及應用，討論了多視點視頻編碼的分類，并根據編碼方法是否涉及深度學習，詳細介紹了傳統的多視點視頻編碼和基于深度學習的多視點視頻編碼現有的工作進展。其中，傳統多視點視頻編碼方法可分為基于視點預測的和基于深度圖的多視點視頻編碼方法，基于深度學習的多視點視頻編碼方法可分為基于深度學習的多視點視頻編碼優化和多視點視頻編碼后處理。最后對現有方法進行了總結，并結合深度學習背景，對多視點視頻編碼的未來發展方向給出了一些看法。

猜你喜歡

編碼方法深度圖碼率

一種基于WMF-ACA的深度圖像修復算法

上海師范大學學報·自然科學版(2021年4期)2021-09-23

一種基于HEVC 和AVC 改進的碼率控制算法

科學技術創新(2021年2期)2021-01-21

基于FPGA的多碼率卷積編碼器設計與實現

桂林電子科技大學學報(2020年1期)2020-12-18

可變摩擦力觸感移動終端的漢語盲文編碼設計

工程設計學報(2020年2期)2020-05-25

基于深度圖的3D-HEVC魯棒視頻水印算法

計算機應用(2019年3期)2019-07-31

基于狀態機的視頻碼率自適應算法

計算機應用(2018年7期)2018-08-27

一種基于局部直方圖匹配的深度編碼濾波算法

軟件導刊(2016年9期)2016-11-07

毫米波大規模MIMO系統中低復雜度混合預編碼方法

電信科學(2016年9期)2016-06-15

疊加速度譜在鉆孔稀少地區資料解釋中的應用

科技視界(2016年2期)2016-03-30

多光譜圖像壓縮的聯合碼率分配—碼率控制方法

宇航學報(2014年2期)2014-12-15

電視技術2021年12期

電視技術的其它文章: 融媒體時代電視新聞節目的創新路徑研究
——以鳳凰衛視《全媒體全時空》節目為例; 遠程制作技術在新媒體直播中的應用; 虛擬現實技術在大型電視節目制作中的應用研究; 基于量子通信技術的廣電網絡的研究探索; 無人機航拍在大型體育賽事中的應用; 4K IP小型技術支持平臺建設淺析

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合