?

基于逆向重建和運動軌跡偏移的視頻重定向質量評價

2024-03-05 07:35盧銘勝唐振華
無線電工程 2024年3期
關鍵詞:重定向偏移量逆向

盧銘勝,唐振華,2*

(1.廣西大學 計算機與電子信息學院,廣西 南寧 530004;2.廣西多媒體通信與網絡技術重點實驗室,廣西 南寧 530004)

0 引言

隨著電子顯示技術的發展,顯示設備的尺寸變得多種多樣,當視頻的分辨率和尺寸與顯示設備不相符時,有可能會造成屏幕資源的浪費,甚至會嚴重影響用戶的觀看體驗。視頻重定向(Video Retargeting)技術會將視頻的分辨率和尺寸調整到與顯示設備的尺寸一致,同時盡可能地保持視頻的重要信息和時間連續性。目前主流的視頻重定向方法是基于內容感知的方法,主要有4種[1-2]:變形(Warping)[3-5]、細縫裁剪(Seam-Carving,SC)[6-8]、智能裁剪(Smart Cropping)[9-11]和多操作符(Multi-operator)[12-14],這些方法能很好地保持某一方面的特征。但是在重定向過程中,不可避免地會擠壓或刪除部分像素點,導致空間和時間失真??臻g失真主要是個別幀中的線條、形狀或紋理失真和信息丟失,時間失真主要表現為時間上的不一致偽影、播放時的抖動?,F有的視頻重定向質量評價(Video Retargeting Quality Assessment,VRQA)方法主要分為主觀評價和客觀評價。

主觀評價需要組織一批測試者觀看重定向視頻,并根據既定的測試原則和流程對重定向視頻的質量做出評價,測試者根據主觀感知對測試視頻進行排序。主觀評價存在著固有的缺陷:① 無法對重定向視頻的失真進行量化,難以為改進視頻重定向算法性提供指導意見;② 評價結果有個人傾向性和隨機性;③ 過程費時費力,難以實現實時評價。

視頻重定向質量客觀評價是利用算法自動地對重定向視頻的空間和時間失真進行衡量,自動地生成重定向視頻質量評價結果,不需要人為參與;可以通過評價過程及結果分析重定向算法的不足。如今,視頻重定向質量客觀評價仍處于起步階段。Li等[15]提出一種評估視頻時間連續性的指標,通過測量視覺相鄰幀之間映射像素點的坐標差來評估重定向視頻的視覺質量,該方法只適用于目標快速運動的視頻的時間失真,并且沒有提出空間失真的評估。Yan等[16]提出一種針對視頻時間抖動的評價方法,主要是利用相鄰幀之間對應網格的高度差或寬度差來評估視頻的時間抖動,該方法只適用對Warping處理的重定向視頻的時間失真進行評估。

Hsu等[17]提出一種基于時空質量分析的視頻重定向質量的客觀評價方法,該方法提出在空間和時間域中進行尺度不變特征變換(Scale Invariant Feature Transform, SIFT),解決視頻尺度不一致的問題。雖然該方法可以評估重定向視頻的整體質量,但無法對目標靜止的視頻的時間失真評估。董偉鑫[18]提出基于逆向重建網格的視頻重定向質量客觀評價算法,對Niu等[19]提出的視頻重定向方法反向應用,但其性能依賴于SIFT-flow[20]稠密匹配的精準度。趙祖翌[21]在董偉鑫[18]的基礎上提出了一種基于匹配校驗的網格重建的視頻重定向質量客觀評價算法方法,該算法對SIFT-flow稠密匹配進行校驗,對匹配錯誤的幀進行放大處理,并計算原始幀與重定向幀中對應網格塊的感知哈希衡量時間失真。放大處理雖然減少了錯誤匹配,但是改變了重定向視頻的信息量,使得評價結果與原重定向視頻不一致。

現存的視頻重定向質量客觀評價算法均以SIFT-flow稠密匹配為基礎。由于原始幀與重定向幀尺寸不一致,SIFT-flow稠密匹配會產生錯誤,客觀評價算法性能下降。為了減少錯誤匹配,提高客觀評價算法的性能,本文修改SIFT-Flow公式中平滑項的權重,并設計一種檢測刪除黑邊的算法,提高了SIFT-flow稠密匹配的準確性。在董偉鑫[18]的基礎上,本文提出使用網格損失率(Grid Loss Ratio,GLR),增加對重建網格未匹配區域失真的衡量,實現全面評估重定向視頻的質量。本文還提出利用追蹤算法追蹤網格的運動軌跡,計算原始視頻與重定向視頻對應相鄰網格運動軌跡偏移量的變化來衡量時間連續性失真,減少對SIFT-flow的依賴。

1 問題分析

SIFT-flow的錯誤匹配會對空間失真衡量產生誤差,如圖1所示,其中①~⑥行分別是對均勻縮放(Uniform-Scaling,US)、黑邊填充(Letterbox)、裁剪(Cropping)、Warping[19]、SC[22]和精確均勻(Refined Homogeneous,RH)[23]6種重定向視頻的SIFT-flow匹配關系的說明。圖1(b)是在重定向幀劃分的均勻網格,圖1(c)是在原始幀中的逆向重建網格,圖1(d)中無內容區域是原始幀中未匹配的部分,圖1(e)是根據映射關系和原始幀中像素值得到的重構圖,假設SIFT-flow匹配正確,則重構圖應與重定向幀保持一致。如圖1①、④、⑤行的(e)和(f)列所示,重構圖在方框中均出現了空間內容丟失的情況,這表明SIFT-flow存在錯誤匹配的情況,會引入不屬于重定向操作引起的空間失真,并主要存在Letterbox、Warping和SC方法的重定向視頻中。

圖1 匹配錯誤引起空間失真誤差說明Fig.1 Illustration of spatial distortion error caused by matching error

SIFT-flow稠密匹配錯誤還會引入額外的時間失真,如圖2所示。圖中相鄰的重定向幀內容沒有明顯變化,重定向幀也沒有抖動,但相鄰2幀的逆向重建網格卻有著很大的差別,這說明相鄰2幀之間的稠密匹配關系也存在錯誤匹配的情況。使用相鄰2幀逆向重建網格頂點位置來衡量時間連續性失真[18]時,其評價結果會存在較大誤差。

圖2 匹配錯誤引起時間失真誤差說明Fig.2 Illustration of temporal distortion error caused by matching error

通過對SIFT-flow稠密匹配和相關稠密匹配算法[24-26]的研究,了解到SIFT-flow稠密匹配錯誤的原因。根據文獻[20]給出SIFT-flow的目標函數表達式定義如式(1)所示:

(1)

視頻重定向過程會刪除像素點或擠壓視頻內容,使得重定向幀的像素點位置和尺度改變,因此流向量的位移較大;由于刪除和擠壓像素點,在重定向幀中相鄰的像素點,在原始幀中不再相鄰,并且位置可能存在較大的距離。使用較大的權重α約束相鄰像素的流向量具有相似位移,在建立稠密匹配的時候,會限制匹配范圍,使得形變較大區域以及像素嚴重丟失區域出現匹配點聚合,導致錯誤匹配。

對于Cropping和RH,由于都使用裁剪操作,裁剪的內容完全保留了原始視頻的內容,匹配幾乎完全正確;RH是裁剪和變形組合方法,裁剪掉一部分視頻內容然后變形,形變程度較低,因此這2種方法匹配正確率較高,如圖1③、⑥行所示。逆向重建網格無法覆蓋被裁剪掉的內容,所以無法衡量這部分內容丟失帶來的空間失真,也會影響最終的評價結果。

2 基于逆向重建和運動軌跡偏移的方法

為了解決上述問題,提高客觀評價算法性能,本文提出一種基于逆向重建和運動軌跡偏移的VRQA算法,具體如下:

① 本文通過修改平滑項權重和檢測刪除黑邊盡進行預處理,減少了SIFT-Flow的錯誤匹配。

② 對于逆向重建網格出現的未匹配區域,提出使用GLR來衡量其空間失真。對于匹配區域的空間失真,仍沿用文獻[18]的空間幾何失真(Spatial Geometric Distortion,SGD)、空間結構失真(Spatial Structure Distortion,SSD)和局部信息丟失(Local Information Loss,LIL)指標衡量。

③ 提出使用原始幀與重定向幀中相鄰網格運動軌跡偏移量的誤差來衡量重定向視頻的時間連續性失真。

本文算法框架如圖3所示,具體步驟如下:

圖3 算法框架Fig.3 Algorithm framework

① 檢測重定向視頻是否為Letterbox重定向得到的,如果是則對重定向視頻進行刪除黑邊的處理,否則直接進入步驟②。

② 對每張重定向視頻幀劃分尺寸為10×10的均勻規則網格,接著使用SIFT-flow稠密匹配,此處對SIFT-flow的目標函數表達式中的平滑項權重修改為α=0.2,根據稠密匹配關系生成逆向重建網格。

③ 使用SGD、SSD和LIL指標衡量空間失真;

④ 為了衡量逆向重建網格未匹配區域,在SIFT-flow匹配圖中劃分均勻規則網格,若網格內容被刪除超過90%,則認為過度刪除,記錄網格個數并計算占比,使用網格的重要度值作為每個網格的權重值。

⑤ 對重定向視頻幀劃分較大的均勻網格,使用SIFT-flow稠密匹配在原始幀生成對應網格。接著使用文獻[27]中的方法進行每個網格進行跟蹤,得到每個網格的運動軌跡,分別計算原始幀與重定向幀對應相鄰網格運動軌跡的偏移量,對比二者偏移量,根據運動軌跡偏移量的變化來衡量時間連續性失真。

⑥ 將所有指標分配權重進行融合,得到最終的客觀評價分數。

2.1 平滑項權重設置

對平滑項的權重α減小,觀察逆向重建網格的變化。圖4是減小α對逆向重建網格的影響,其中①~⑥行分別是對US、Letterbox、Cropping、Warping、SC和RH這6種重定向方法。對于Letterbox、Warping和SC,隨著α的減小,逆向重建網格的覆蓋區域增大,如圖4②、④、⑤行所示。當α=0.2時,逆向重建網格幾乎完全覆蓋了原始視頻幀;當α=0.1時,網格的覆蓋區域與α=0.2幾乎一致,但是出現了部分網格交叉翻轉,根據視頻重定向方法的原理,重定向幀的像素點不會出現交叉的情況,網格翻轉是由于匹配錯誤導致的,因此把α減小到0.1也會導致匹配錯誤。通過對比圖4①、③、⑥行,將α減小到0.2對US、Cropping和RH的逆向重建網格影響較小,SIFT-flow稠密匹配仍然正確,因此,接下來僅對Letterbox、Warping和SC進行分析。

圖4 α減小對逆向重建網格的影響Fig.4 Effect of α decrease on reverse reconstructed grid

對重構圖與原始幀進行比較,如圖5所示,第一、二行分別是SC和Warping在不同權重下的重構圖。當權重取2、1、0.5和0.1時,重構圖或多或少都會存在部分失真,如圖中方框部分。當α=0.2時,重構圖幾乎與重定向幀相同。

圖5 α減小對重構圖的影響Fig.5 Effect of α decrease on reconstructed figure

2.2 黑邊檢測與刪除

雖然減小平滑項的權重能較好地解決SC和Warping匹配不準確的問題,但對于Letterbox仍然無法解決黑邊匹配的問題,如圖6所示。從圖6可以看出,逆向重建網格覆蓋區域變大,在重構圖中,中間部分內容基本上能較好地還原,但是黑邊部分仍然無法正確匹配。

圖6 減小α對Letterbox的影響Fig.6 Effect of α decrease on Letterbox

為了解決Letterbox無法準確匹配的問題,本文研究了Letterbox重定向方法的原理。其原理是對原始幀進行等比例縮放,保持原始幀的寬高比,當某一邊縮放到目標尺寸后,在另一邊填充黑色像素點,使其達到與原始幀一樣的長度。例如,要將視頻的寬度縮放到原來的50%,Letterbox首先將視頻的寬度和高度都縮放到原來的50%,接著在縮放視頻的上下兩部分填充黑色像素點,使其達到原來的高度,對高度縮放同理。黑色像素點在原始視頻中是不存在的,所以無法在原始幀當中找到相匹配的點。因此,相對于其他刪除或者擠壓像素點的重定向方法,Letterbox即使在α=0.2的情況下,黑邊部分仍無法匹配。

在進行Letterbox時,填充部分像素的RGB分量均為0,對于寬度縮小的視頻,Letterbox在上下兩邊,對于高度縮小的視頻,Letterbox在左右兩側。因此,只要檢測重定向視頻存在整行或者整列像素的RGB分量為0,就能檢測出黑邊。由于Letterbox在上下或者左右兩側,視頻內容在中間,可以將識別的黑邊直接裁剪,保留視頻原有的內容。對于Letterbox的重定向視頻,首先刪除黑邊,再進行SIFT-flow稠密匹配,建立逆向重建網格和重定向幀的重構圖,結果如圖7所示。圖7(b)是檢測并刪除黑邊之后的重定向幀,可以看到黑邊被完全刪除,完整地保留了中間的視頻內容,并且網格覆蓋全面。通過對比圖7(b)和圖7(c),重構圖與刪除黑邊后的重定向幀的還原度高,因此,Letterbox刪除黑邊再進行匹配,能得到較好的匹配結果。

圖7 刪除黑邊對Letterbox的影響Fig.7 Effect of remove blackedges on Letterbox

2.3 空間失真衡量

2.3.1 SGD

如果網格內容發生幾何變形,則重建網格與原始均勻網格的寬高比就會變化,因此通過計算均勻網格與逆向重建網格的寬高相似度的變化得到SGD,并使用網格的重要度值作為權重。計算均勻網格與逆向重建網格的寬高相似度:

(2)

(3)

(4)

2.3.2 SSD

在重定向過程中,SSD主要表現為直線發生彎曲,線條斷續,本文通過計算逆向重建網格的邊在水平和垂直方向的形變來衡量SSD:

(5)

(6)

2.3.3 LIL

在重定向過程中,信息丟失會隨著內容刪除或擠壓而產生,因此信息丟失可以通過計算重建網格的面積變化進行衡量。LIL通過計算,逆向重建網格與原始均勻網格的面積變換來衡量,如式(7)所示,其中N表示均勻網格的尺寸,本文中N=10。

(7)

2.3.4 GLR

為了衡量逆向重建網格無法匹配區域的失真,本文提出了GLR。首先根據SIFT-flow得到匹配關系,在SIFT-flow匹配圖上劃分均勻網格,大小與重定向幀中的一致,大小為10×10。如果網格的損失達到90%以上時,就認為部分視頻內容被過度刪減,局部刪除的區域越大,內容丟失就越明顯,重定向的效果就越差。第t幀的GLR定義如下:

(8)

式中:n是損失達到90%以上的網格數,N是網格的大小,wt是n個網格重要度值占整個原始幀重要度值的比例,H和W分別是原始幀的高和寬。

2.4 基于網格運動軌跡偏移量的時間失真衡量

雖然將平滑項權重減小能夠獲得較為準確的匹配,重構圖的內容與重定向幀的內容幾乎保持一致,但是對于內容的細節仍有部分差異,因此通過相鄰2幀之間逆向重建網格的頂點坐標的變化來衡量時間失真可能會引入較大的誤差,從而影響重定向視頻的整體質量分數。保持時間連續性就是保持原始視頻與重定向視頻內容運動的一致性,避免抖動等時間偽影。如果能保持較好的時間連續性,原始視頻與重定向視頻對應內容的運動軌跡應該是相似的,相鄰軌跡的偏移量變化也應該是一致的,如果2條軌跡之間的偏移隨時間改變,這將產生運動偽影和不連貫性,因此使用運動軌跡失真(Motion Trajectory Distortion,MTD)衡量時間失真。為了減少SIFT-flow匹配引入的誤差,本文使用目標跟蹤算法追蹤原始視頻和重定向視頻對應網格的運動軌跡,并通過計算相鄰網格的運動軌跡的偏移量來衡量重定向視頻的時間失真,稱為MTD。網格跟蹤如圖8所示。

圖8 網格跟蹤Fig.8 Grid tracking

具體操作步驟如下:

① 首先在重定向視頻的第一幀劃分規則的均勻網格,并使用SIFT-flow匹配生成原始視頻第一幀的跟蹤網格。在Multimedia Lab(ML)數據庫中,包含3種尺寸的視頻,對不同尺寸的視頻使用不同大小的網格進行劃分,對CIF視頻劃分網格的大小為20×20,對720P視頻劃分網格的大小為50×50,對1080P視頻劃分網格的大小為100×100。

③ 得到跟蹤網格的運動軌跡之后,分別計算原始幀和重定向幀中對應網格與其四鄰域網格運動軌跡的偏移量,最后計算原始幀與重定向幀網格偏移量的誤差,如式(9)所示:

(9)

2.5 重定向視頻質量客觀評價指標融合

空間失真SSD由SGD、SSD、LIL和GLR線性加權得到,如式(10)所示:

SSD=α·SSGD+β·SSSD+χ·SLIL+δ·SGLR,

(10)

式中:SSGD、SSSD、SLIL和SGLR是所有視頻幀的SGD、SSD、LIL和GLR的平均值,4個權重分別設置為α=0.2、β=0.2、χ=0.5和δ=0.1。SSD越小,重定向視頻的空間質量就越好。

重定向視頻的整體質量分數通過融合空間失真分數和時間失真分數得到,根據人眼視覺特性,人們通常更關注視頻的抖動和偽影,即更注重時間連續性,因此本文將空間和時間失真的權重分別設置為μ=0.3,λ=0.7,最后融合得到重定向視頻的整體質量分數SRVT,如式(11)所示:

SRVT=μ·SSD+λ·SMTD。

(11)

3 實驗結果與分析

本文算法在Matlab平臺實現,在Windows 10系統、Intel Core i5、12 GB RAM的環境下運行,所有實驗均在公開的ML主觀數據庫[18]中進行。

3.1 測試數據庫

ML數據庫共有28個經過公認的源視頻,這些視頻包含了各種各樣的場景、內容,其中20個視頻分辨率為352 pixel×288 pixel,4個視頻分辨率為1 280 pixel×720 pixel,4個視頻分辨率為1 920 pixel×1 080 pixel。數據庫中的視頻重定向算法包括3種傳統重定向方法和3種流行的方法,分別是US、Letterbox、Cropping、Warping[19]、SC[22]和RH[23]。使用上述6種重定向算法對源視頻進行高度不變,寬度分別縮放50%和75%的重定向操作,得到336個重定向視頻,該數據庫中共包含392個視頻。文獻[18]隨機邀請43名受試者參加實驗,通過雙刺激法,每次展示源視頻和2種不同的重定向視頻受試者根據自己的主觀感受和觀看感受選擇視覺質量更好的結果,收集所有受試者的評價數據,進行統計分析,得到一個重定向視頻質量的主觀評價數據庫。

3.2 實驗結果對比

重定向視頻的受眾是人類用戶,其質量的好壞由用戶評判,因此主觀評價是客觀評價的基準,視頻重定向質量客觀評價結果與主觀評價結果越接近,客觀評價算法性能越好。本文采用肯德爾相關系數(Kendall Rank Correlation Coefficient, KRCC)[18]來衡量主觀評價與客觀評價之間的一致性,計算如式(12)所示:

(12)

現有完整的重定向視頻客觀評價算法主要有:Hsu等[17]提出的基于時空質量分析評價方法、董偉鑫[18]提出的基于逆向重建網格的評價算法和趙祖翌[21]提出的基于匹配校驗的網格重建評價方法。因為Li等[15]和Yan等[16]提出的方法只能衡量時間失真,所以不做比較,本文實驗結果主要與Hsu等[17]、董偉鑫[18]和趙祖翌[21]的算法進行對比。在ML數據庫中,將視頻分為大顯著區域、小顯著區域、無顯著區域、目標靜止和背景靜止5類,分別對這5類視頻進行性能比較,對比結果如表1所示。其中,整體性能是數據庫中所有視頻的平均KRCC和KRCC的標準差。

表1 客觀質量評價算法性能對比

由表1可以看出,本文方法在ML數據庫中,相較于Hsu等[17]和董偉鑫[18]的算法有較大幅度的提升,特別是無顯著區域;與趙祖翌[21]的算法相比,本文方法在大顯著區域、無顯著區域和目標靜止類型的視頻都高于趙祖翌[21]的算法,小顯著區域類視頻稍低,但是差距不大;相機靜止類視頻與趙祖翌[21]持平。本文算法對數據庫中所有視頻的平均KRCC最高,整體性能和穩定性最好;KRCC的標準差也最小,穩定性較好,與主觀評價結果的一致性更高。

3.3 消融實驗

為了證明本文提出的預處理、GLR指標和運動軌跡偏移量的有效性,對其進行了消融實驗,結果如表2所示。其中,直接匹配(Direct Matching)是在平滑項權重α=2情況下進行SIFT-flow稠密匹配,并計算2.3節中的SGD、SSD和LIL;預處理(Pre-processing)是修改平滑項權重和刪除黑邊操作,并求出SGD、SSD和LIL;GLR是2.3節提出的GLR指標,MTD是2.4節提出的時間失真衡量指標。在消融實驗中設置的權重與2.5節一致。

表2 消融實驗

在消融實驗中共進行了6組實驗:直接匹配+運動軌跡偏移量、直接匹配+GLR、直接匹配+GLR +運動軌跡偏移量、預處理+運動軌跡偏移量、預處理+GLR和預處理+GLR +運動軌跡偏移量。實驗在相同的運行環境中進行。

為了證明本文提出的預處理的有效性,本文將第一組和第四組、第二組和第五組,第三組和第六組進行對比,從表2中可以看出,無論從視頻類別還是整體性能的角度,預處理的結果均比直接匹配的結果好,這充分表明減小平滑項權重值和刪除黑邊有著明顯的效果,減小了SIFT-flow稠密匹配錯誤,逆向重建網格能更好地衡量重定向視頻的時空失真。

為了證明GLR的有效性,本文將第一組和第三組、第四組和第六組進行比較,第三組的整體平均KRCC比第一組高0.019,第六組的整體平均KRCC比第四組高0.06,這是因為在直接匹配時,稠密匹配錯誤較大,導致得到的GLR不準確。當進行預處理之后,減小了稠密匹配錯誤,加入GLR對整體性能有著較大提升。

為了證明本文提出使用運動軌跡偏移量衡量時間連續性失真的有效性,本文將第二組和第三組、第五組和第六組進行比較。通過表2可以看出,第三組的整體KRCC比第二組高0.091,第六組的整體KRCC比第五組高0.124,并且第三和第六組不同視頻類別均明顯高于第二和第五組。

綜上所述,本文提出的算法能有效地評估重定向視頻的空間和時間失真,可以為選擇重定向方法提供科學參考。

4 結束語

本文提出一種基于逆向重建和運動軌跡偏移的VRQA算法,對文獻[18]存在的問題進行了改進。首先,本文將平滑項權重修改為0.2并刪除重定向視頻的黑邊,改善了SIFT-flow的匹配準確性;接著,提出了GLR指標,解決了無法衡量逆向重建網格未匹配區域失真的問題;最后,提出使用原始幀與重定向幀中相鄰網格運動軌跡偏移量的誤差來衡量時間失真,進一步減少錯誤匹配對算法性能的影響。實驗結果表明,本文算法與ML主觀數據庫的相關性達到了0.593,與其他算法相比,該算法的性能有了較大提升,能夠更加全面準確地衡量重定向視頻的客觀質量。

本文提出的算法與主觀結果的相關性較高,但也存在一些問題,如該算法均在局部上衡量時空失真,忽略了內容全局失真對主觀感受的影響。接下來可對重定向視頻的全局時空失真做進一步研究。

猜你喜歡
重定向偏移量逆向
逆向而行
基于格網坐標轉換法的矢量數據脫密方法研究
解決安卓文件夾亂象
重復壓裂裂縫重定向的措施研究
攪拌針不同偏移量對6082-T6鋁合金接頭勞性能的影響
基于最小二乘平差的全極化SAR配準偏移量估計方法
4G偽基站的監測定位與規避協同分析
逆向工程技術及應用
基于馬氏體重定向的鐵磁形狀記憶合金本構理論分析
基于Andriod多屏互動的遙控器設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合