?

基于視覺感知的高效視頻編碼標準幀內量化矩陣優化方法

2014-06-02 04:22鄭明魁蘇凱雄王衛星楊秀芝蘭誠棟
電子與信息學報 2014年12期
關鍵詞:空間頻率缺省碼率

鄭明魁 蘇凱雄 王衛星 楊秀芝 蘭誠棟

?

基于視覺感知的高效視頻編碼標準幀內量化矩陣優化方法

鄭明魁 蘇凱雄*王衛星 楊秀芝 蘭誠棟

(福州大學物理與信息工程學院福州350108)

該文使用一種基于離散余弦變換(DCT)的調制傳遞函數(MTF)改進高效視頻編碼標準(HEVC)幀內量化矩陣,并在計算過程中采用一種新的空間頻率計算方法。HEVC整數DCT變換是在DCT變換的基礎上經過伸縮擴展以及微調后得到的,與DCT變換有所區別,因此針對這種差別進一步優化校正量化矩陣。仿真過程中設計一種基于結構相似性(SSIM)的Bjontegaard比特率差值(BDBR)方法來測試量化矩陣的編碼性能,結果表明在相同的視頻質量下,該文設計的量化矩陣能進一步降低碼率。該方法在編碼過程中只需要簡單地改變量化矩陣,沒有影響編碼模型的算法結構,也不會增加編碼的復雜度。

高效視頻編碼標準;視覺感知;調制傳遞函數;量化矩陣

1 引言

與H.264/AVC相比,新一代高效視頻編碼標準(High Efficiency Video Coding, HEVC)在相同的視覺質量下能使比特率降低一半[1,2]。HEVC仍然采用混合編碼框架,在正交變換環節,它對預測殘差采用四叉樹狀的多尺寸整數離散余弦變換(Discrete Cosine Transform, DCT),變換尺寸可以為32×32, 16×16, 8×8等[3];此外,對有些4×4的幀內預測亮度分量則可以采用離散正弦變換(Discrete Sine Transform, DST)[4,5]。正交變換后的殘差系數主要采用均勻量化的方法[3],同一變換塊中的不同頻率系數使用相同的量化步長。實際上,人眼對不同頻率分量的敏感度是不同的,因此HEVC同時支持并提供了一種基于視覺感知特性的量化矩陣[6],通過這個缺省的量化矩陣使得不同系數可以用不同的量化步長進行量化。

視覺感知特性的量化矩陣設計主要基于調制傳遞函數(Modulation Transfer Function, MTF)進行,MTF體現了人眼對不同空間頻率的敏感程度。目前有多個文獻提出了不同的MTF模型,Mannos等人[7]最早將MTF特性用于圖像編碼,但所提出的MTF函數主要面向離散傅里葉變換(Discrete Fourier Transform, DFT); Daly[8]則在此基礎上對MTF函數進行微調,該模型被延續到HEVC量化矩陣的設計[6]。因此HEVC缺省量化矩陣所采用的感知模型實際上最初是針對DFT變換的。人眼對DFT系數與DCT系數的頻率感知不完全相同,因此使用基于DFT變換的MTF函數設計DCT系數的量化矩陣,具有一定的局限性。此外,HEVC視頻編碼采用的是整數DCT變換,需要將生成的DCT量化矩陣經過校正后才能用于整數DCT系數的量化,而HEVC則沒有經過調整就直接將其用于量化,這也是該缺省量化矩陣的另一個局限性。

本文使用一種基于DCT變換的MTF函數設計HEVC幀內量化矩陣;在MTF函數中提出一種新的空間頻率計算方法;此外,HEVC視頻編碼采用的是整數DCT變換,這種變換是在DCT變換的基礎上對各個基矢量進行伸縮擴展以及微調后形成的,與DCT變換還有所區別,因此本文還對所設計的量化矩陣進行校正處理,以適應HEVC整數DCT變換的特點。由于峰值信噪比(Peak Signal to Noise Ratio, PSNR)在評價視頻質量時沒有體現人眼的感知特性,本文在仿真時設計了一種基于結構相似性(Structural SIMilarity, SSIM)的Bjontegaard比特率差值(Bjontegaard Delta Bit Rate, BDBR)方法來測試量化矩陣的編碼性能。最后的仿真和分析結果表明,本文所提出的基于視覺感知特性優化的幀內量化矩陣與HEVC缺省矩陣相比,在相同的視頻質量下進一步降低了碼率。

2 基于DCT變換的調制傳遞函數MTF模型與空間頻率計算

2.1 基于DFT變換的MTF模型與HEVC缺省量化矩陣

調制傳遞函數MTF體現了人眼對不同空間頻率的敏感度。Mannos和Sakrison最早將MTF特性用于圖像編碼,其模型如式(1)所示[7]。

文獻[9]將文獻[8]的Daly模型用于設計靜止圖像編碼標準JPEG的量化矩陣,獲得了較好的視覺質量與壓縮效果。JCTVC-G880提案則進一步將這個量化矩陣作為HEVC的缺省幀內量化矩陣[6]。實際上由以上的分析可知式(2)模型最初的設計是針對基于DFT變換的圖像編碼,并被延續到HEVC的缺省量化矩陣的設計。對于同一圖像信號,DFT系數與DCT系數是不同的,但人眼接收到的圖像信息卻完全相同,因此人眼對DFT系數與DCT系數的頻率感知不應該完全相同,也不能簡單的使用基于DFT變換的MTF函數設計DCT的量化矩陣。

2.2 基于DCT變換的MTF模型與空間頻率計算

許多視頻圖像編碼標準都采用DCT變換,Nill將人眼視覺感知特性與DCT變換相結合,通過利用加權函數,提出了一種基于DCT變換的MTF函數(Nill模型)[10]。Nill模型函數在緩解圖像的方塊效應方面有一定的改善[11],對于2維的圖像,其調制傳遞函數表達式如式(5)所示[10]。

由于HEVC采用了整數DCT變換去除像素空間域的相關性,而Nill模型更能體現人眼在DCT變換域的視覺特性,基于這種分析,本文結合該模型用式(6)來表示人眼對不同頻率DCT系數的響應并將其用于設計量化矩陣。

將文獻[9]基于Daly模型的人眼頻率響應曲線與本文采用Nill模型得到的人眼頻率響應曲線進行對比,如圖2所示。橫坐標為空間頻率,縱坐標體現了人眼對不同空間頻率的敏感度。從曲線上可以看出,實際上人眼對DCT系數與DFT系數在低頻位置的視覺感知響應非常相似,但是在中頻位置,人眼對DCT系數相對更敏感一些,而高頻則衰減的更多。

3 基于視覺感知特性的DCT變換編碼量化矩陣設計

圖1 1 mm圖像在距離dis處觀察到的周期數和夾角示意圖

圖2 文獻[9]與本文的人眼頻率響應曲線對比

4 HEVC整數DCT變換幀內量化矩陣優化校正

圖3 HEVC及本文提出的DCT幀內量化矩陣

0000-1-1-2-2 0000-1-2-2-1 00-1-2-2-2-2-1 00-2-2-2-1-10 -1-1-2-2-2024 -1-2-2-104710 -2-2-2-1271320 -2-1-104102034

圖5 歸一化后的HEVC整數DCT與DCT 8×8變換矩陣對比

對于4×4 HEVC整數DCT幀內量化矩陣,也是采用類似的計算方法,獲得的4×4幀內量化矩陣如圖6(b)所示。由圖6可知,實際上4×4的HEVC量化矩陣內嵌于8×8矩陣內,16×16以及32×32的整數DCT量化矩陣之間也存在這種內嵌關系。HEVC為了節省數據量,16×16以及32×32的幀內量化矩陣由8×8幀內量化矩陣插值得到,每2×2或者4×4的子塊都共用8×8量化矩陣對應位置上的量化步長。

5 性能仿真與分析

5.1 壓縮碼率與重構視頻質量仿真

為了仿真本文設計的幀內量化矩陣的性能,將HEVC設置成幀內編碼模式。本文使用HEVC參考軟件HM 10.0作為測試平臺,并分別設置QP值為22, 27, 32, 37[13],對幾種常見的不同分辨率的測試序列進行仿真驗證,如表1所示。

不同測試序列進行編碼后的壓縮碼率與視頻質量對比如表1前兩列所示。為了進一步分析對比,本文對不同QP下生成的碼率和視頻質量進行曲線擬合,繪制碼率-結構相似性(Rate-Structural Similarity, R-SSIM)曲線。如圖8所示,分別為RaceHorses序列與BQSquare測試序列使用HEVC缺省量化矩陣以及本文方法編碼后對應的R-SSIM曲線。由圖8可知,在相同的碼率下,本文所提出的量化矩陣能獲得更高的質量;而在相同的視頻質量下,本文的方法能更有效的壓縮視頻,獲得更低的碼率。

分析其性能改善的原因,主要是由于本文的量化矩陣更符合HEVC整數DCT系數的頻率感知特性。本文方法對低頻分量的量化與缺省矩陣一樣,但中頻系數的步長要低于缺省矩陣,由于人眼對中頻也有一定的敏感度,同時視頻圖像在中頻位置的能量分布也相對較多,因此中頻系數量化步長的減少有利于避免能量的損失,減少量化誤差的引入,對提高視頻圖像的質量具有積極影響。此外,高頻系數量化步長的增加則提高了圖像的壓縮率,通常情況下DCT的高頻系數都較小,圖像能量較少分布在該區域,人眼對其敏感度也低,因此在高頻位置增加量化步長對圖像的質量影響不大,同時進一步提高了壓縮率。正是由于中頻與高頻量化步長的同步調整,使得本文提出的量化矩陣具有更好的視頻質量與壓縮性能。

5.2 基于SSIM的BDBR編碼性能計算與分析

對于Flower測試序列,基于SSIM的BDBR值為-3.55%,即本文提出的量化矩陣與HEVC缺省量化矩陣相比,在相同圖像質量下能平均減少3.55%的碼率。其他測試視頻平均碼率減少的情況如表1最后一列所示,由表中可知不同測試序列的碼率都得到改善。對于某些序列,如BQTerrace與Foreman序列,在QP為37時,使用本文量化矩陣得到的比特率會稍大一些,其主要原因是由于當量化步長較大時大多數高頻系數被量化為零,而本文量化矩陣對應的中頻系數量化步長相對較小,因此獲得的比特率稍大一些,但這也同時增強了圖像質量。綜合比特率與圖像質量這兩個因素,這兩個序列在相同質量下比特率還是分別減少了2.07% 與1.19%。不同分辨率的測試序列在相同視頻質量下平均的碼率減少值為2.03%。

圖7 RaceHorses測試序列不同量化矩陣幀內編碼重構視頻對比

圖8 幀內編碼RaceHorses序列與BQSquare序列的R-SSIM曲線

表1不同序列在不同量化矩陣進行幀內編碼時的對比

測試序列QP比特率(kbps)SSIM基于SSIM的BDBR (%) 缺省矩陣本文方法缺省矩陣本文方法 BQTerrace1920×1080600幀221740781618460.963070.95852-2.07 2776269735920.910590.91002 3239833394600.881410.88146 3721518215490.845050.84529 RaceHorses832×480300幀2215217145660.974350.97306-1.22 27912587480.955840.95411 32512049630.921970.92050 37255025280.857260.85750 BQSquare416×240600幀2213134123690.974340.97012-2.13 27822178100.936670.93422 32505948240.889300.88731 37300528800.836470.83374 Foreman352×288300幀22374335780.975560.97416-1.19 27217020900.951150.94989 32118311550.913410.91271 376086100.861090.86162 Flower352×288250幀22816077630.992450.99105-3.55 27588654610.983400.98071 32394736270.961930.95814 37241022670.915400.91219

6 結束語

本文使用一種基于DCT變換的MTF函數來改進HEVC的幀內量化矩陣,在計算過程中使用一種新的空間頻率計算方法。并在此基礎上,進一步對其進行校正調整,以符合整數DCT變換的特點。在分析編碼性能時,使用SSIM進行視頻質量評價,并設計一種基于SSIM的BDBR方法測試量化矩陣的性能改善情況。仿真結果表明,本文方法更適用于HEVC的變換系數,在相同的視頻質量下,本文提出的量化矩陣能平均降低比特率2.03%左右。由于在編碼過程中只需要簡單地改變量化矩陣,并不要改變編碼模型的結構,也沒有增加編碼復雜度,卻可以因此降低碼率,這對于每個比特都彌足珍貴的視頻編碼方法研究具有一定的參考價值。本文所設計的量化矩陣不僅可以用于HEVC編碼標準,經過適當調整也可以作為H.264/AVC, AVS2或者其他基于DCT變換的視頻編碼標準的參考量化矩陣。此外,本文設計的是幀內量化矩陣,在后續的工作中可以將其推廣到幀間量化矩陣,以進一步提高HEVC的編碼效率。

[1] Sullivan G J, Ohm J, Han Woo-jin,. Overview of the High Efficiency Video Coding (HEVC) standard[J]., 2012, 22(12): 1649-1668.

[2] Ohm J and Sullivan G J. High efficiency video coding: the next frontier invideo compression[J]., 2013, 30(1): 152-158

et al.IEEE Journal of Selected Topics in Signal Processing

[3] Saxena A and Fernandes F C. Mode dependent DCT/DST for intra prediction in block-based image/video coding[C]. Proceedings of the 2011 18th IEEE International Conference on Image Processing (ICIP), Brussels, Belgium, 2011: 1685-1688.

[4] Yeo Chuo-hao, Tan Yih-han, Li Zheng-guo,. Mode dependent transforms for coding directional intra prediction residuals[J].2012, 22(4): 545-554.

[5] Haoqe M, Tabatabai A, and Morigami Y. HVS model based default quantization matrices[C].JCTVC-G880, 7th The Joint Collaborative Team on Video Coding Meeting, Geneva, Switzerland, 2011: 1-14.

[6] Mannos J L and Sakrison D J. The effect of a visual fidelity criterion on the encoding of images[J]., 1974, 20(4): 525-536.

[7] Daly S. Subroutine for the generation of a two dimensional human visual contrast sensitivity function[R]. Eastman Kodak, 1987.

[8] Wang Ching-yang, Lee Shiuh-ming, and Chang Long-wen. Designing JPEG quantization tables based on human visual system[J]., 2001, 16(5): 501-506.

[9] Nill N B. A visual model weighted cosine transform for image compression and quality assessment[J].1985, 33(6): 551-557.

[10] Chitprasert B and Rao K R.Human visual weighted progressive image transmission[J].1990, 38(7): 1040-1044.

[11] Sullivan J, Ray L, and Miller R. Design of minimum visual modulation halftone patterns[J].1991, 21(1): 33-38.

[12] Bossen F. Common test conditions and software reference configurations[C]. JCTVC-J1100, 10th The Joint Collaborative Team on Video Coding Meeting, Stockholm, Sweden, 2012: 1-3.

[13] Wang Zhou, Bovik A C, Sheikh H R,. Image quality assessment: from error measurement to structural similarity[J].,2004, 13(4): 600-612.

[14] Bjontegaard G. Calculation of average PSNR differences between RD-curves[C]. VCEG-M33, 13th Video Coding Experts Group Meeting, Austin, USA, 2001: 1-4.

鄭明魁: 男,1976 年生,講師,博士生,研究方向為多媒體通信與視頻編碼.

蘇凱雄: 男,1959 年生,教授,博士生導師,研究方向為多媒體通信、數字電視廣播.

王衛星: 男,1959 年生,教授,博士生導師,研究方向為圖像處理與融合.

An Improved Intra Quantization Matrix for High EfficiencyVideo Coding Based on Visual Perception

Zheng Ming-kui Su Kai-xiong Wang Wei-xing Yang Xiu-zhi Lan Cheng-dong

(,,350108,)

A Discrete Cosine Transform (DCT) based Modulation Transfer Function (MTF) is used to improve the intra quantization matrix for the High Efficiency Video Coding (HEVC) standard. A new method is used to calculate the spatial frequency in the calculation process. The integer DCT for the HEVC is achieved by scaling and hand-tuning the DCT matrix. Due to difference between these two transforms, the quantization matrices are optimized. The experimental results show that the proposed HEVC intra quantization matrix based on the visual perception can reduce more bit rate at the similar video quality by using a Structural SIMilarity (SSIM) based Bjontegaard Delta Bit Rate (BDBR) performance evaluation. Since only the quantization matrices are changed in the encoding process, the proposed algorithm does not affect the structure of the encoding algorithm and does not add the coding complexity.

High Efficiency Video Coding(HEVC); Visual perception; Modulation Transfer Function (MTF); Quantization matrix

TN919.8

A

1009-5896(2014)12-2861-08

10.3724/SP.J.1146.2014.00318

蘇凱雄 skx@fzu.edu.cn

2014-03-10收到,2014-06-09改回

國家自然科學基金(61170147),福建省高校產學合作重大項目(2012H6012)和福建省自然科學基金(2013J01234)資助課題

猜你喜歡
空間頻率缺省碼率
一種基于HEVC 和AVC 改進的碼率控制算法
基于“缺省模式”設計平臺的控制系統研發模式重塑
基于FPGA的多碼率卷積編碼器設計與實現
基于稀疏貝葉斯的多跳頻信號二維波達方向估計
基于狀態機的視頻碼率自適應算法
空間頻率變化對不同年齡段正常眼圖形視覺誘發電位的影響
關聯期待與缺省推理下缺省語境的生成模式
多光譜圖像壓縮的聯合碼率分配—碼率控制方法
觀點句中評價對象/屬性的缺省項識別方法研究
新標準下正常人眼對比敏感度的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合