?

視覺感知編碼方法綜述

2013-03-26 03:23趙志軍
電視技術 2013年3期
關鍵詞:宏塊感興趣編碼

張 倩,張 遠,趙志軍

(中國傳媒大學信息工程學院,北京 100024)

視覺感知編碼方法綜述

張 倩,張 遠,趙志軍

(中國傳媒大學信息工程學院,北京 100024)

本文給出了視覺感知編碼方法的綜述。首先介紹了人類視覺系統(HVS)的特性,然后根據視覺感知編碼方法所利用的視覺特性不同將其分為三類,并分別介紹了各類方法的研究現狀。最后展望了視覺感知編碼的應用前景和發展方向。

視頻編碼;視覺感知;HVS

隨著寬帶網絡和高清晰顯示器的發展,人們對視頻畫面的質量有了更高的期望,這也給視頻編碼技術帶來了新的要求和挑戰。如何在計算復雜度受限的情況下,得到最優的率失真性能是視頻編碼設計的核心問題。傳統的視頻編碼算法主要采用幀內預測、幀間預測和熵編碼等技術來消除視頻中的冗余信息以達到改善視頻編碼率失真性能的目的。然而,傳統的視頻編碼算法并沒有充分考慮人類視覺系統(HVS)的特性。因此,如何有效地利用視覺感知原理,優化現有的編碼算法具有重要的理論意義和應用價值。

本文主要結合國內外研究現狀,對視覺感知編碼方法進行總結。

1 人類視覺系統(HVS)

人類視覺系統由眼球、神經系統及大腦的視覺中樞三部分構成。當人們注視視頻場景時,入射光首先由瞳孔和水晶體調節、聚焦,使景物在視網膜上成像,然后由視網膜上的神經元將光信號轉化成神經信號并發送到視皮層,經過視皮層以及腦部其它相關區域的進一步處理后,形成對視頻場景的感知。

近幾年來,在視覺生理學、心理學的指導下,通過對人眼的某些視覺現象的觀察和研究,人們發現了HVS的很多特性。在視覺感知編碼中,一般應用到的HVS特性主要有:對比敏感度、掩蔽效應、中央凹特性、運動感知、視覺注意等[1-2]。

1)對比敏感度

對比敏感度(Contrast Sensitivity)是HVS最為基本的視覺特性,它包括空間對比敏感度和時間對比敏感度??臻g對比敏感度是指HVS對空間視頻信號的敏感程度,定義為觀察者能夠覺察到的測試激勵信號的最小對比度值的倒數。時間對比敏感度是指HVS對信號運動頻率的敏感程度。通常用對比敏感度函數 (Contrast Sensitivity Function,CSF)來描述HVS對不同空間、時間頻率的視頻信號的敏感程度。

2)掩蔽效應

視覺掩蔽效應(Visual Masking Effect)是HVS較為重要的特性之一。它是指當另外一個視覺信號存在時,HVS會降低對目標視覺信號的敏感度,特別是當掩蔽信號與原始信號的頻率和方向相同時,掩蔽效應最強。譬如,相對于低頻的圖像區域,高頻的圖像區域對視覺信號失真具有更強的掩蔽能力。

3)中央凹特性

在視網膜的中央凹(Fovea)上分布著密度極高的光感受器,并且其密度會隨著離心率(Eccentricity)的增大而快速下降。因此,當人在注視視頻場景中的某一點時,對于離注視點較近的區域,HVS感知的空間頻率分辨率較高,而對于離注視點較遠的區域,HVS感知的空間頻率分辨率較低。

4)運動感知

HVS另外一個較為重要的視覺特性是運動感知。運動感知分為低級階段和高級階段。在視覺感知的低級階段,HVS主要對局部視覺特征進行處理,如運動的速度、方向;在運動感知的高級階段,HVS會對生物運動產生感知響應,譬如人的臉部和手部運動。

5)視覺注意

當注視視頻場景時,人會快速地將注意力集中在感興趣的視頻內容或者對象上,這種現象稱為HVS的視覺注意(Visual Attention)。視覺注意有兩種工作方式:一種是由外部激勵驅動的自底向上(Bottom-up)的處理過程,這種工作方式屬于低級視覺研究范疇;一種是由任務驅動的自上而下(Top-down)的處理過程,這種工作方式屬于高級視覺研究范疇。

2 視覺感知編碼方法

視覺感知編碼的目的是利用已知的HVS特性,最大限度消除人眼無法感知的信息,用更少的比特資源提供視覺感知質量更理想的視頻圖像。為此,研究人員提出了大量的視覺感知編碼方法。根據編碼方法所利用的HVS特性不同,把視覺感知編碼方法歸納為3類:基于視覺敏感度的編碼方法、基于視覺注意的編碼方法和混合的編碼方法?;谝曈X敏感度的編碼方法主要利用人眼敏感度的有限性消除視覺冗余;基于視覺注意的編碼方法主要利用人眼對視頻畫面上不同內容或對象注意程度不同的特性,對視頻內容進行自適應編碼;還有部分編碼方法是以上兩種編碼方法的綜合,把這類編碼方法叫做混合的編碼方法。

2.1 基于視覺敏感度的編碼方法

人眼的視覺敏感度是有限的,并且HVS對不同視頻信號的失真也有不同的敏感程度。這就為消除視覺冗余提供了可能。目前,基于視覺敏感度的編碼方法主要有3類:基于JND模型的編碼方法、基于SSIM的編碼方法和基于頻域加權量化的編碼方法。

2.1.1 基于JND模型的編碼方法

JND(Just Noticeable Distortion)指人眼能夠覺察到的最小失真,它表征了人眼對視頻信號的敏感程度。JND閾值會受到視頻信號的背景亮度、頻率、運動、紋理信息等因素的影響。通過JND模型調節量化參數和比特分配可以達到消除視覺冗余的目的?,F有的JND模型主要分為兩類:一類是作用于像素域的JND模型;一類是作用于變換域(如DCT域、小波域)的JND模型。文獻[3]提出的JND模型綜合考慮了空域JND門限和時域JND門限,其中空域JND門限主要考慮背景亮度的自適應性和紋理的掩蔽效應,時域JND門限則通過估計幀間的平均亮度差異得到。文獻[4]在文獻[3]的基礎上提出了非線性掩蔽效應相加模型(Non-linear Additivity Model for Masking,NAMM)的概念,構建了一個更加符合HVS特性的JND模型。它綜合考慮了多種掩蔽效應同時作用的情況以及色度信息的掩蔽效應,基于人眼對邊界的失真更為敏感的特性,該模型區分了邊界區域和非邊界區域,以避免因過高的估計邊界區域上的掩蔽效應而導致主觀質量下降。實驗表明,將上述JND模型移植到運動搜索算法中可以提高運動搜索算法的效率,采用該模型對運動補償后、DCT變換前的殘差數據進行預濾波,可以提高視頻的主觀質量。

雖然像素域的JND模型可以給出原始視頻圖像一個非常直觀的JND圖,但是它不能包含描述HVS對不同頻率敏感程度的對比敏感度函數(CSF),所以不能夠精確地模擬HVS的特性。因此,變換域的JND模型成為當前的研究熱點。文獻[5]提出了一種作用在DCT域上的JND模型。該模型通過整合時—空域對比敏感度函數、眼動機制、亮度自適應性和掩蔽效應,估計出一個更加符合HVS特性的JND門限值。然而,文獻[5]在估計JND門限值時只考慮了運動矢量的大小,而忽略了運動矢量的方向也會影響JND門限值的事實。文獻[6]在文獻[5]的基礎上做出了改進:通過引入非線性校正得到一個更加精確的亮度自適應性函數;由人眼對平滑區域和邊界的失真較為敏感的特性,將宏塊分為3類,并通過掩蔽效應因子調節各類掩蔽效應的大小;在傳統的時域CSF上考慮了視網膜運動補償特性和運動的方向。

2.1.2 基于SSIM的編碼方法

SSIM(Structural Similarity)是一種新的圖像質量評價方法[7],該方法把對結構信息的度量作為圖像感知質量的近似。由于HVS的主要功能是從視野中提取結構信息,所以,與PSNR相比,SSIM的評價結果更符合人的主觀感受。因此,可以用SSIM替換傳統的圖像質量評價方法優化編碼算法。文獻[8]提出了一種基于SSIM的運動估計算法,該算法在運動搜索時使用SSIM來尋找參考幀中的匹配塊。相比傳統的算法,該算法確定的數據塊與當前塊的匹配程度更高。文獻[9]提出了一種基于SSIM的率失真優化算法。該算法在率失真優化過程中應用SSIM來衡量重建塊的失真程度,據此得到更優的編碼模式。由于該算法在運動搜索時仍然使用SAD來確定匹配塊,所以并未引入過多的計算復雜度,但同時也限制了該算法在無顯著運動和運動劇烈兩種情況下的率失真優化增益;另外,采用靜態的拉格朗日因子使該算法缺乏一定的內容自適應性。文獻[10-11]均提出了基于SSIM的自適應率失真優化算法。文獻[10]通過已編碼幀的率失真模型來估計當前編碼幀的拉格朗日因子。文獻[11]將塊分為平滑和非平滑兩類,并計算一幀中不需編碼系數的概率,由此根據輸入視頻序列的特性自適應確定拉格朗日因子。為了更加合理的分配比特資源,文獻[12]將SSIM應用到碼率分配和碼率控制過程中。實驗表明該算法在降低碼率的同時保存了更多的圖像結構信息,提高了視頻的主觀質量。文獻[13]使用DCT域的SSIM系數來對DCT系數進行標準化,使之符合視覺感受的一致性,并基于這種標準化方法定義了一個新的率失真模型進行模式選擇。由于標準化因子是由預測宏塊得到的,因此量化矩陣可以根據視頻內容的特性自適應的調整,同時并沒有消耗額外的比特資源。實驗表明,和H.264編碼算法相比,該算法在節省比特資源的同時也保證了視頻的主觀質量。

2.1.3 基于頻域加權量化的編碼方法

基于頻域加權量化的編碼方法主要根據人眼對不同特性的編碼單元敏感度不同的特點,將編碼單元分為不同類型,比如紋理復雜類、平滑類、邊界類等,不同的編碼單元適用不同的量化權重。這樣,在保證視頻主觀質量的同時降低了非敏感區域的碼率。文獻[14]根據宏塊的特性將其分為6類,并且由不同的權重因子調整基本單元(BU)層碼率分配的估計值進而調整量化步長。在H.264/AVC編碼模式選擇時,細節豐富的區域通常采取較小的宏塊分割,而平滑的區域通常采取較大的宏塊分割。文獻[15]基于這點提出了一種宏塊級自適應頻域加權量化的方法,該方法根據周圍宏塊的分割模式將當前編碼宏塊分為3類,并分別采用不同的頻域加權量化方案,不僅使編碼結果更加符合人眼的視覺特性同時也沒有因為引入頻率權重因子而消耗更多的比特資源。但是,該方法采用的量化矩陣是預先設定的,不能根據輸入的視頻內容進行調整。所以,這種方法缺乏一定的內容自適應性。

2.2 基于視覺注意的編碼方法

根據是否考慮HVS的中央凹特性,基于視覺注意的編碼方法可以分為兩類:基于感興趣區域的編碼方法和基于感興趣區域和中央凹特性聯合的編碼方法。

2.2.1 基于感興趣區域的編碼方法

基于感興趣區域(Region-of-Interest,RoI)的編碼方法的基本思想是:在視頻編碼前,對輸入的視頻場景進行視覺感知分析確定感興趣區域。在編碼過程中,通過調整編碼參數來分別控制感興趣區域和非感興趣區域的失真程度,進而改善感興趣區域的編碼質量。

在基于感興趣區域編碼的過程中,編碼器依據視頻場景中不同圖像區域的感興趣程度來分配比特資源和計算資源。因此,對輸入的視頻序列,如何確定感興趣區域是一個關鍵的問題。經典的可計算視覺注意模型是通過一種或整合多種視頻特征得到視頻畫面的顯著性圖(Saliency Map)進而確定感興趣區域。視頻特征主要包括以下幾種類型:1)空間域視頻特征,比如膚色、亮度;2)時間域視頻特征,比如運動;3)綜合考慮空間域和時間域的視頻特征,這種方法更符合HVS的感知原理。

人臉是最常見也是最容易引起觀看者注意的特征之一。適當地提高視頻中臉部的編碼質量能有效地改善視頻整體的主觀質量。文獻[16]首先確定了膚色的判定閾值,并通過此閾值來識別人臉的區域。然后對非感興趣區域進行低通濾波以減少背景的高頻成分,最后通過控制宏塊級量化參數來控制不同區域的編碼質量。文獻[17]在文獻[16]的基礎上將人臉以及人臉周圍的宏塊設定為感興趣區域以避免臉部周圍視覺感受的下降。在對視頻內容進行編碼時,該算法在宏塊級使用一種線性QP值預測的方法來控制不同區域的編碼質量。文獻[18]由膚色和紋理信息得到顯著性圖,并據此確定感興趣區域。然后在感興趣區域與非感興趣區域適用不同的量化參數、運動搜索范圍、參考幀數目。實驗結果表明,該方法可以降低計算復雜度并且保證視頻的主觀質量。由于這類方法沒有考慮視頻內容的時域特性,所以有一定的局限性。

由于人眼更傾向于關注視頻場景中運動的物體,因此人對運動物體的失真比靜態物體更加敏感。文獻[19]根據運動矢量場得到運動顯著性圖,并由運動顯著性圖調節比特資源的分配。首先,作者根據不同模式的塊的運動矢量場得到各自的運動顯著性圖并將其融合為一個整體的運動顯著性圖,然后由運動顯著性圖調整幀級和宏塊級的碼率分配。這樣,更多的比特資源可以分配給運動信息顯著的幀和宏塊,進而提高視頻的主觀質量。

由于視頻場景中的時域和空域的視覺信息都會對HVS的感知結果造成影響,近年來,基于時空域視覺特征融合的感興趣區域編碼方法越來越受到視頻處理領域研究人員的關注。文獻[20]提出了一種應用于實時視頻通話的感興趣區域編碼方法。該方法由膚色和幀間差異快速地得到顯著性圖,當顯著性圖確定以后,更多的比特資源和計算資源可以分配到感興趣區域中。所以,很多編碼參數可以自適應地調整,比如:量化參數、宏塊可選的編碼模式、參考幀數目、運動搜索的范圍、運動估計的精度。這樣,在降低了編碼復雜度的同時,保證了視頻的主觀質量。文獻[21]考慮亮度、色度、紋理、膚色、運動矢量因素來構造顯著性圖,再通過一定的門限值判定得到感興趣區域。然后將目標碼率分別分配給感興趣區域和非感興趣區域,不同區域的宏塊由所分配的碼率得到一個初始的QP值。然后,為了提高整體的視頻主觀質量,根據一定的限制條件調整初始QP值確定該宏塊的QP值并進行編碼。文獻[22]將紋理特征圖和運動特征圖融合得到顯著性圖,由于構造運動特征圖時考慮了全局的運動信息,該顯著性圖可以較好的應用于有攝像機運動的視頻內容中。然后,由顯著性圖得出不同宏塊的視覺重要權重,并相應地采用不同的DCT系數抑制矩陣。在抑制過程中,根據宏塊視覺重要程度的不同,宏塊的高頻系數也不同程度的裁減掉。這樣,節省了非感興趣區域的比特消耗,進而將更多的比特資源分配到感興趣區域,提高主觀的視頻質量。

2.2.2 基于感興趣區域和中央凹特性聯合的編碼方法

由HVS中央凹特性可知,相對于注視點中心區域,HVS對離注視點較遠的圖像區域的細節分辨能力較低,因此應當適當提高注視點中心區域的編碼質量。將中央凹特性集成到基于感興趣區域的編碼方法中可以更好地消除視覺冗余并且提高視頻的主觀感受。文獻[23]提出了一種類似具有中央凹特性的濾波器的來減小視頻圖像在空間上的分辨率,并應用濾波后的圖像優化視頻編碼時的碼率控制技術。文獻[24]考慮顏色、方向、灰度、運動等因素構造了一個自下而上的顯著性模型來確定視頻圖像中存在的注意焦點,然后以注意焦點為中心,通過模擬中央凹的空間分辨率變化規律,對視頻內容進行低通濾波,最后對濾波后的視頻進行編碼。這樣在注意焦點上保留更多圖像細節的同時減少了背景圖像的高頻成分,提高了編碼效率。文獻[25]提出了一種自動選取注意焦點的可伸縮視覺感知編碼方法,該方法可以根據視頻場景自動地確定多個注意焦點,并根據視頻的內容和網絡帶寬的情況進行可伸縮編碼。該方法還應用了一種自適應的幀預測算法,該算法能夠有效地減少幀間預測時的誤差積累,減小預測誤差,提高視頻壓縮算法的性能。

基于感興趣區域和中央凹特性聯合的編碼方法雖然能夠提供更好的主觀視頻感受,但是自動選取注意焦點和視覺注意力模型的計算復雜度很高,而編碼的性能又主要依賴于以上二者的精確程度。所以,該方法很難應用于實時的視頻通信場合中。

2.3 混合的編碼方法

混合的編碼方法是基于視覺敏感度的編碼方法和基于視覺注意的編碼方法的綜合,其編碼結果能夠進一步提高視頻的主觀質量。比如文獻[26]提出了一種包含視覺敏感性、視覺注意和中央凹特性的FJND(Foveated Just-Noticeable-Distortion)模型。由中央凹特性可知,隨著離心率的增大,HVS對圖像細節分辨能力將逐漸下降,所以JND門限也應相應提高。該FJND模型能夠更好地消除全局的視覺冗余。實驗表明,將其應用在H.264/AVC視頻編碼框架上可以明顯提高視頻的主觀質量,并降低碼率。類似的還有文獻[27-28]。文獻[29-30]提出了一種基于視覺失真敏感度的比特分配算法。由于人眼對運動的物體和結構性紋理較為敏感,此算法綜合考慮了視頻內容的運動注意特性和紋理信息,得到視覺失真敏感值并根據此值調整宏塊級的量化步長。通過對視覺敏感度的分析可以把較少的比特分配到人眼對失真不敏感的區域,以達到節省比特的目的。文獻[31]利用膚色檢測算法,確定感興趣區域,并結合亮度和紋理信息對失真的掩蔽效應,確定不同區域的量化步長。這樣可以自適應的為視頻內容的前景和背景分配比特資源。但是由于該方法忽視了時域上的視覺特征,而且只能應用在視頻電話場合,因此使用范圍較窄。文獻[32]綜合了視覺注意力模型、眼動機制、視覺敏感度模型和掩蔽效應模型得到一個時空域失真掩蔽度量值。該模型通過運動的強度和方向確定感興趣區域,然后對于非感興趣區域的宏塊,由空間頻率和塊的運動速度篩選出人眼不敏感的DCT系數,通過上述系數的掩蔽門限得到該宏塊的時空域失真掩蔽度量值并由此值調整宏塊的量化參數。文獻[33]提出了一種更加符合人眼特性的率失真優化算法。首先,該算法根據SSIM衡量重建塊的失真程度,這與人對失真的主觀感受更加相符。然后,通過DCT系數的標準差來確定拉格朗日因子,由于DCT系數的標準差能在一定程度上反映輸入視頻序列的特性,所以該方法具有一定的內容自適應性。最后,利用人眼對不同視頻區域失真程度注意度不同的特點,利用視頻畫面的顯著性圖來確定宏塊的顯著性系數,并由顯著性系數調整計算率失真代價時的失真權重。實驗表明,該方法能節省相當的比特資源,同時能提高感興趣區域的主觀視頻質量。

混合的編碼方法能夠更好地模擬HVS的特性,較大程度地壓縮視覺冗余。但是如何降低計算復雜度是混合編碼方法面臨的一大難題。

3 結束語

本文介紹了人類視覺系統的特性,并總結了視覺感知編碼方法的研究現狀。分別詳細介紹了基于視覺敏感度的編碼方法、基于視覺注意的編碼方法和混合的編碼方法,并闡述了各類方法的優點和局限性。

隨著視覺感知模型的發展和3D視頻、計算機圖形學以及高動態光照渲染視頻等應用的普及,視覺感知編碼技術的應用領域日益擴大。并且,由于人們對多媒體娛樂等視頻應用的期望越來越高,給多媒體服務帶了新的需求和挑戰,如何應用視覺感知原理改善用戶體驗也是視覺感知編碼的一項重大任務之一。

雖然研究人員在視覺感知編碼領域已經取得了很大的成就,但是很多研究工作還有待完善。目前,視覺感知編碼可從以下幾個方面展開研究:1)更深入地探索人類視覺系統的特性;2)提高視覺感知編碼的編碼性能,進一步壓縮視覺冗余;3)降低視覺感知編碼的計算復雜度;4)隨著3D技術的日益成熟,如何將視覺感知編碼技術融入3D技術也是一個很大的挑戰。更多跨學科的研究工作有望在視覺感知編碼領域實現新的突破。

:

[1]WINKLER S.Digital video quality:vision models and metrics[M].New York:John Wiley&Sons,2005.

[2]鄭雅羽.基于視覺感知的H.264感興趣區域編碼研究[D].杭州:浙江大學,2008.

[3]CHOU C H,CHEN C W.A perceptually optimized 3-D subband codec for video communication over wireless channels[J].IEEE Trans.Circuits and Systems for Video Technology,1996,6(2):143-156.

[4]YANG X K,LIN W,LU Z K,et al.Just noticeable distortion model and its applications in video coding[J].Signal Process:Image Commun ication,2005(20):662-680.

[5]JIA Y,LIN W,KASSIM A A.Estimating just-noticeable distortion for video[J].IEEE Trans.Circuits And Systems for Video Technology,2006,16(7):820-829.

[6]WEI Z,NGAN K N.Spatio-temporal just noticeable distortion profile for grey scale image/video in DCT domain[J].IEEE Trans.Circuits and Systems for Video Technology,2009,19(3):337-346.

[7]WANG Z,BOVIK A C,SHEIKH H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans.Image Prosess,2004,13(4):600-612.

[8]MAI Z Y,YANG C L,KUANG K Z,et al.A novel motion estimation method based on structural similarity for H.264 inter prediction[C]//Proc.2006 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP 2006).Toulouse,France:IEEE Press,2006:913-916.

[9]YANG C,LEUNG R,PO L,et al.An SSIM-optimal H.264/AVC inter frame encoder[C]//Proc.ICIS.Shanghai:[s.n.],2009:291-295.

[10]HUANG Y,OU T,SU P,et al.Perceptual rate-distortion optimization using structural similarity index as quality metric[J].IEEE Trans.Circuits and Systems for Video Technology,2010(20):1614-1624.

[11]WANG S,MA S,GAO W.SSIM based perceptual distortion rate optimization coding[C]//Proc.VCIP .Huangshan:[s.n.],2010:1-10.

[12]OU T,HUANG Y,CHEN H.A perceptual-based approach to bit allocation for H.264 encoder[C]//Proc.VCIP.Huangshan:[s.n.],2010:7741.

[13]WANG S Q,REHMAN A,WANG Z,et al.SSIM-Inspired divisive normalization for perceptual video coding[C]//Proc.International Conference on Image Processing,2011.[S.l.]:IEEE Press,2011:1657-1660.

[14]MINOO K,NGUYEN T Q.Perceptual video coding with H.264[C]//Proc.39th Asilomar Conference on Signals,Systems,and Computers.Pacific Grove,CA:[s.n.],2005:741-745.

[15]CHEN J,ZHENG J,HE Y.Macroblock-level adaptive frequency weighting for perceptual video coding[J].IEEE Trans.Consumer Electronics,2007,53(2):775-781.

[16]CHEN M J,CHI M C,Hsu C T,et al.ROI video coding based on H.263+with robust skin-color detection technique[J].IEEE Trans.Consumer Electronics,2003,49(3):724-730.

[17]CHI M C,JHU J A,CHEN M J,et al.H.263+region-of-interest video coding with efficient skin-color extraction[C]//Proc.Consumer Electronics,2006.[S.l.]:IEEE Press,2006:381-382.

[18]WANG Minghui,ZHANG Tianruo,LIU Chen.Region-of-Interest based H.264 encoding parameter allocation for low power video communication[C]//Proc.Signal Processing & Its Applications.Kuala Lumpur:IEEE Press,2009:233-237.

[19]LIU Zhi,YAN Hongbo,SHEN Liquan,et al.A motion attention model based rate control algorithm for H.264/AVC[C]//Proc.Computer and Information Science.Shanghai:[s.n.],2009:568-573.

[20]LIU Yang,LI Zhengguo,SOH Y C .Region-of-Interest based resource allocation for conversational video vommunication of H.264/AVC[J].Circuits and Systems for Video,2008,18(1):134-139.

[21]CHIANG J C,HSIEH C S,CHANG G,et al.Region-of-interest based rate control scheme with flexible quality on demand[C]//Proc.Multimedia and Expo(ICME),2010.[S.l.]:IEEE Press,2010:238-242.

[22]ZHENG Yayu,FENG Jie,MA Hanjie,et al.H.264 ROI coding based on visual perception[C]//Proc.Visual Information Engineering.Xi'an,China:[s.n.],2008:829-834.

[23]LEE S,PATTICHIS M S,BOVIK A C.Foveated video compression with optimal rate control[J].IEEE Trans.Image Process.,2001,10(7):977-992.

[24]ITTI L.Automatic foveation for video compression using a neurobiological model of visual attention[J].IEEE Trans.Image Proces.,2004,13(10):1304-1318.

[25]WANG Z,LU L,BOVIK A C.Foveation scalable video coding with automatic fixation selection[J].IEEE Trans.Image Process.,2003,12(2):243-254.

[26]CHEN Z,GUILLEMOT C.Perception-oriented video coding based on foveated JND Model[C]//Proc.Picture Coding Symposium,2009.Chicago:IEEE Press,2009:1-4.

[27]CHEN Z,GUILLEMOT C.Perceptually-Friendly H.264/AVC Video Coding[C]//Proc.Image Processing(ICIP),2009.Cairo:IEEE Press,2009:3417-3420.

[28]CHEN Z,GUILLEMOT C.Perceptually-friendly H.264/AVC video coding based on foveated just-noticeable-distortion model[J].IEEE Trans.Circuits and Systems for Video Technology,2010,20(6):806-819.

[29]TANG C W,CHEN C H,YU Y H,et al.Visual sensitivity guided bit allocation for video coding[J].IEEE Trans.Multimedia,2006,8(1):11-18.

[30]SUN C,WANG H J,KIM T H,et al.Perceptually adaptive Lagrange multiplier for rate-distortion optimization in H.264[C]//Proc.Future Generation Communication and Networking(FGCN 2007).Jeju:IEEE Press,2007:459-463.

[31]YANG X,LIN W,LU Z,et al.Rate control for videophone using local perceptual cues[J].IEEE Trans.Circuits System Video Technology,2005,15(4):496 –507.

[32]TANG C W.Spatiotemporal visual considerations for video coding[J].IEEE Trans.Multimedia,2007,9(2):231-238.

[33]WANG X,SU L,HUANG Q M,et al.Visual perception based lagrangian rate distortion optimization for video cxoding[C]//Proc.Image Processing(ICIP),2011.Brussels:IEEE Press,2011:1653-1656.

Overview of Perceptual Video Coding

ZHANG Qian,ZHANG Yuan,ZHAO Zhijun

(Information Engineering School,Communication University of China,Beijing 100024,China)

This paper reviews the methods of perceptual video coding.First,the physiological characteristics of HVS are introduced.Then,the development status of various methods of perceptual video coding is reviewed.Finally,future directions and challenges related to perceptual video coding are briefly discussed.

video coding;perception;HVS

TN919.81

A

【本文獻信息】張倩,張遠,趙志軍.視覺感知編碼方法綜述[J].電視技術,2013,37(3).

國家自然科學基金項目(61001177)

張 倩(1988— ),女,碩士生,主研視頻編碼;

張 遠(1973— ),女,教授,主研視頻處理與通信;

趙志軍(1970— ),女,副教授,主研數字電視技術。

責任編輯:魏雨博

2012-07-29

猜你喜歡
宏塊感興趣編碼
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
更 正
《全元詩》未編碼疑難字考辨十五則
基于運動估計與補償的雷達拼圖預測分析*
子帶編碼在圖像壓縮編碼中的應用
Genome and healthcare
這樣的智能廚房臺面,你會感興趣嗎?
基于選擇特征宏塊的快速視頻穩像
IP網絡丟包條件下的H.264高清視頻實時解碼問題分析
基于宏塊合并的H.264模式選擇算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合