?

交互式視頻質量評價方法研究進展

2021-11-28 10:48李繼龍趙雪楊鈾

中興通訊技術 2021年1期

李繼龍趙雪楊鈾

摘要：在交互式視頻應用快速發展的同時，如何評價視頻質量成為當前亟待解決的挑戰性難題，其成果對整個多媒體通信系統的各環節技術發展具有關鍵作用。從主觀質量評價、客觀質量評價兩個角度綜述了當前交互式視頻質量評價的研究與應用現狀，其中主觀質量評價方法包括主觀視頻質量評價數據庫、主觀視頻質量評價打分與計算機制，客觀質量評價方法則包括視覺信號處理與分析、深度學習機制下的評價與建模方法等。在總結上述研究方法與成果的基礎上，展望了本領域的研究與發展。

關鍵詞：交互式視頻；視頻質量評價；主觀質量評價；客觀質量評價

Abstract： With the rapid development of interactive video applications， the research on interactive video quality assessment becomes an urgent challenge to the community， because it is helpful to the development of other modules in the multimedia communication system. The researches on interactive video quality assessment via both objective and subjective methodologies are surveyed. Extant methods are then reviewed， including databases of subjective video quality assessment， score and computation mechanism of subjective video quality assessment， visual signal processing and analysis of objective video quality assessment， and deep learning based methods of objective video quality assessment. Based on the above surveys， future directions and open problems on the research of interactive video quality assessment are discussed.

Keywords： interactive video； video quality assessment； objective quality assessment； subjective quality assessment

在視頻通信系統中，視頻源與信道之間如同水源與水管的關系。如何克服信源與信道之間的各種矛盾，從而給用戶提供更加優質的視頻服務，一直以來都是業界追求的目標。然而，自電視機誕生之后的100多年，視頻服務一直是被動接受的模式，其發展變化無非只是從不同地點的同一時刻接受同一服務（廣播電視），變成在不同地點的不同時刻接受同一服務（基于互聯網協議的互聯網視頻）。人們在觀看視頻的過程中始終無法主動改變正在播出的視頻內容，這使得該領域的研究與應用給人們所提供的想象空間非常有限。近些年來，在線視頻服務開始從被動式向主動式轉變，出現了云端虛擬現實（VR）、云游戲等Cloud VR業務及以面向在線教育、在線會議的多視點視頻業務等，用戶可以在終端通過“人-機-內容”交互的方式主動改變所看到的視頻內容。在線視頻服務有望在可預見的未來實現“千人千面”的特點。為此，與這類視頻有關的質量評價問題開始涌現，成為傳統視頻質量評價研究領域中的新方向、新課題。

視頻的質量評價主要面向終端用戶，因此該環節位于多媒體通信系統的最末端，其目的在于為多媒體通信系統前端的采集、處理、編碼等環節提供一個可供參考的評價依據，從而構成處理流程上的閉環。視頻質量評價的研究對象總體而言可分為兩個層面：一個是解決信道質量與顯示質量之間的關系，主要考察的是用于描述信道質量的多種因素與視頻重建客觀質量之間的作用機制，一般稱為關鍵質量指標（KQI）；另一個是解決顯示質量與用戶感受之間的關系，主要考察的是用于描述圖像重建質量的多種因素與人類視覺系統響應質量之間的作用機制，一般稱為視頻質量評價（VQA）。相比而言，由于涉及信道質量，因此關注通信終端應用的學者與企業比較重視對KQI的研究；而視頻的信息失真與質量重建更多的是由有損壓縮或視頻處理的環節所帶來的，因此涉及上述領域的學者和企業比較重視對VQA的研究。Cloud VR及多視點視頻業務作為產業界中的新生事物，目前在KQI方面的研究較少，尚不構成體系；但是這兩種視頻形式在學術界的研究中已經歷過較長的歷程，因此在VQA方面的成果已具有一定規模，本文的工作也主要集中于此。

1 交互式視頻質量的主觀評價

如前所述，視頻的最終接收者是用戶，因此視頻質量的好壞理應由人來決定。然而，終端用戶因個人知識背景、觀看環境，甚至觀看時的情緒千差萬別，其對視頻質量優劣的反應也會各不相同，因此如何對視頻質量進行有效的評價是一個極具挑戰性的難題[1]。一般情況下，其研究可分為主觀、客觀質量評價兩個大的方向。視頻主觀質量評價采用“自頂向下”“以人為本”的研究模式，探索涉及人本體相關的因素與視頻質量之間的聯系；客觀質量評價采用“自底向上”“以技術為本”的研究模式，探索和構建視頻中的視覺信號與視頻質量之間的映射關系。兩種模式互為支撐，不可相互替代。

視頻主觀質量評價從技術手段上可通過邀請主觀測試人員采取某種規定的打分機制，對具有不同失真類型、等級的視頻進行打分，這涉及主觀質量評價數據庫、主觀質量評價打分和計算機制等相關工作。在打分與計算機制方面，國際電信聯盟無線電通信部門（ ITU-R）和電信標準分局（ITU-T）制定了通用的主觀質量打分與計算機制，如 ITU-R BT.500-13[2]和ITU-T P.910[3]等。在打分的操作過程中，根據刺激方式的不同，主觀質量評價方法可以分為單刺激、雙刺激和多刺激的方式。單刺激即在一次打分過程中只播放失真視頻，雙刺激則在一次打分過程中隨機播放參考、失真視頻。在不同的標準機制中，操作流程略有不同。如ITU-R BT.500-13設計了單刺激連續質量估計方法（SSCQE ）、雙刺激失真分級方法（DSIS）、雙刺激連續質量分級方法（DSCQS）、同時雙刺激連續估計方法（SDSCE）等。ITU-T P.910 設計了用于評價失真視頻的打分方法，包括絕對類別打分法（ACR）、隱藏參考圖絕對類別打分法（ACR-HR）、降質類別打分法（DCR）、匹配對比較法（PC）等。打分時可以采用百分制或等級打分制，其中較為常用的等級打分制提供了5個感受等級，即 5（優秀）、4（良好）、3（一般）、2（差）、1（很差）。主觀測試人員打分后，對異常數據進行處理，便可得到每個視頻的平均主觀意見得分（MOS），然后再進一步通過計算失真圖像與原始圖像的 MOS 分數差得到差異平均主觀意見得分（DMOS）。在絕大多數情況下，通過主觀質量評價方法建立起來的主觀數據庫包含失真圖像及其MOS/DMOS，為圖像的客觀質量評價方法提供了測試依據，而且人們一般也認為主觀分數最接近圖像的用戶對視頻質量的感知。目前，上述打分與計算機制是針對傳統的非交互式的圖像、視頻業務的，并沒有專門針對交互式視頻設計與之相對應的打分與計算機制。雖然如此，大多數科研與工程技術人員認為上述打分與計算機制是與顯示內容無關的，因此還可以將這些方法繼續沿用至交互式視頻的主觀評價研究與應用中。在影響交互式視頻主觀質量的關鍵因素中，目前尚未有明確的研究成果，一些終端企業一方面參考了立體視頻舒適度評價中的如眩暈、分辨率等因素，另一方面也站在企業自身的角度提出了包括黑邊、交互延遲、卡頓等方面的因素[4]。這些工作為本領域未來的研究與發展提供了較好的思路。

主觀質量評價數據庫的建立是開展質量評價打分的前提，需要就應用過程中典型的情況進行表達，如分辨率、失真類型、失真等級等。目前針對交互式視頻的主觀質量評價所建立的數據庫較少，其建立經歷了從立體視頻到交互式視頻的發展過程。WANG X.等考慮了非對稱失真特性對視覺感知質量的影響，建立了雙目立體圖像主觀質量評價數據庫[5]。該數據集包含4種不同的失真類型、10個場景共400組失真圖像對。A. K. MOORTHY等針對對稱失真，建立了包含20個場景共計365組失真圖像對的LIVE-Phase-I數據集[6]。CHEN M. J.等同時考慮了對稱和非對稱失真特性的影響，建立了包含8個場景和360組失真圖像對的LIVE-Phase-II數據集[7]。針對立體圖像質量評價的客觀評價模型的建模需求，WANG J. H.等建立的WaterlooIVC-3D圖像質量數據庫[8]，探索了信號失真分別對單目圖像和立體圖像視覺感知質量的影響。針對立體視頻系統中的編碼壓縮方案對視覺感知質量的影響，WANG J. H.等建立了WaterlooIVC-3D視頻質量數據庫[9]。隨著虛擬現實（VR）業務的廣泛應用，3D VR內容的視覺質量評價得到了廣泛關注。近期，CHEN M.等建立了LIVE-3DVR圖像質量數據庫[10]，該數據庫包含了15個3D VR場景、6種失真類型，共計450組失真圖像的用戶評分和眼動數據。前述工作主要針對自然場景內容，未考慮交互視頻中存在的虛擬視點繪制等過程對視覺感知質量的影響。在此基礎上，YANG Y.等以交互過程中所產生的虛擬視點為切入口，建立了虛擬視點視頻主觀質量評價數據庫[11-12]。該數據庫主要考慮了多視點視頻在彩色圖、深度圖壓縮聯合失真的情況下對虛擬視點圖像繪制的相關影響，重點考察了量化參數（QP）從22到47，且？QP=5的條件下，對5個不同分辨率的視頻進行的失真處理。上述數據庫的建立，為本領域研究工作奠定了非常重要的基礎。但是，由于主觀質量評價數據庫的建立是一個極其耗費資源、投入大見效慢的工作，受到各種外部因素的影響，該方向的工作在近些年來的推進相對遲緩。

2 交互式視頻質量的客觀評價

客觀質量評價的目標在于克服主觀質量評價對人本身的依賴，僅依靠對視頻信號的分析與計算即可實現視頻質量的評價，從而使得視頻質量評價從分時、分空間的人為操作變成當時當刻的自動計算，這樣可以大大提升多媒體通信系統的處理效率。

近年來，交互式視頻的客觀質量評價以360°VR視頻為主，分別以該視頻的球面映射（SP）、等距柱面映射（ERP）、立方體映射（CMP）等3種不同的方式為載體，在其基礎上提取視覺特征并加以建模，來實現客觀質量的評價。例如，球面峰值信噪比（S-PSNR）[13]、加權峰值信噪比（WS-PSNR）[14]等都是在傳統的峰值信噪比計算的基礎上進行了微調，以適應VR視頻的應用。但是，這些方法還是無法避免視頻客觀質量評價的典型問題，即信號的失真不能代表視覺主觀感受上的失真程度。為此，CHEN S. J.在結構相似性度量的基礎上提出了球面結構相似性（S-SSIM）度量模型，能夠取得比WS-PSNR更加貼近人眼主觀感受的性能效果[15]。這種方法較為直觀，主要是將SSIM方法應用到了SP上，因此研究人員認為應該還會有更好的處理模式來解決上述問題。在這種思路的影響下，利用深度學習的方式來進行視頻質量評價是一種快速見效的研究手段。如ZHANG L.提出了綜合局部描述子的圖像質量評價方法（IL-NIQE）[16]、LIU L. X.提出了朝向梯度下的圖像質量評價方法（OG-IQA）[17]，他們都通過反向傳播神經網絡來將圖像的特征映射成為圖像的客觀質量。此外，利用信號分析的方法進行VQA的也不在少數，如XUE W.提出了用梯度幅值和高斯-拉普拉斯算子進行建模的方法[18]，A. MITTAL提出了自然場景統計失真的方法[19]，YANG Y.提出了基于Counterlet小波的方法[11， 20]、相似性評估法[21]等。這些方法雖然在計算效率上具有較好的性能，但是它們對SP與二維圖像之間相互轉換時所具有的視覺失真缺乏有效的分析，因此其最終的表現性能仍然有待提升。為此，H. T. LIM提出了一種基于對抗生成網絡的VR視頻質量評價方法，將多種壓縮失真、位置信息、視覺特征進行了融合，取得了較好的計算效果 [22-23]。

上述研究工作主要針對SP模式展開，對ERP和CMP的模式研究較少。值得注意的是，SP是一種平面與球面的相互映射過程，雖然這種映射符合當前VR應用的工程需求，但是存在著較多的幾何失真。在這種本身就具有失真的圖像上進行VQA計算，是值得商榷的。相比于ERP，SP具有更小的失真，而CMP的失真則幾乎可以忽略不計。如何在這兩種映射的基礎上進行VQA的建模與計算，并與SP進行有效關聯，是一個值得探索的方向。

3 交互式視頻的發展趨勢

在信息傳遞的各種形式中，視聽信號更容易讓人們理解，因此也成為了現實世界中信息的主要載體。自從視聽業務以數字信號播出以來，音視頻信號在數字設備中的應用變得更加便利。這導致視聽業務的表現形式越來越豐富，人們對視聽服務的需求不斷激增，這也倒逼著傳統的用于承載音視頻業務的通信方式不斷發展。近些年來，通信技術的不斷發展，特別是5G技術與產品的國際化競爭引起了人們的廣泛關注。信道越來越寬，傳輸速率越來越快，通信變得無處不在，這些都使得信源與信道之間的抱團滾動式發展產生越來越大的影響力。自由視點電視的概念于1996年被提出，它認為觀眾應該改變觀看的視角，從被動接收到主動改變所觀看的內容，形成千人千面的視覺效果[24]。雖然上述工作未能帶來商業價值，但是這個交互式媒體的思路與目前低時延、大帶寬的通信技術相結合，在近幾年形成了VR、云游戲、云主機的高交互視聽業務，它和在2020年新冠肺炎疫情期間發揮關鍵作用的在線教育、直播連麥、在線會議、遠程醫療等互動式視聽業務模式一起開始逐漸被用戶所接納。未來媒體勢必以千人千面為目標，朝著大數據量、大計算量、大通信量的方向發展。上述業務架構具有“云-邊-端”協同計算特點，在未來一定會衍生出更豐富的媒體應用。

為了在這些關鍵應用中保障用戶的體驗，增強用戶對交互式視頻的粘滯度，無論是KQI還是VQA，仍有一些問題值得深入研究、探討。

致謝

本文的工作得到深圳大學計算機學院王旭副教授的支持，在此特別表示感謝。

參考文獻

[1] HUYNH-THU Q， GARCIA M N， SPERANZA F， et al. Study of rating scales for subjective quality assessment of high-definition video [J]. IEEE transactions on broadcasting， 2011， 57（1）： 1-14. DOI：10.1109/tbc.2010.2086750

[2] ITU. Methodology for the subjective assessment of the quality of television pictures， Recommendation ITU-R BT.500-13 [EB/OL].[2020-12-20].https：//www.itu.int/dms_pubrec/ itu-r/rec/bt/R-REC-BT.500-13-201201-I??！PDF-E.pdf

[3] ITU. Subjective video quality assessment methods for multimedia applications， ITU-T P. 910 [EB/OL]. [2020-12-20]. https：//www.itu. int/rec/T-REC-P.910/en

[4] Cloud VR用戶體驗與評測白皮書 [EB/OL].[2020-12-20]. https：//www.huawei.com/ minisite/static/cloud-vr-user-experience-evaluation-white-paper-cn.pdf

[5] WANG X， YU M， YANG Y， et al. Research on subjective stereoscopic image quality assessment [C]//Multimedia Content Access： Algorithms and Systems III. San Jose， CA， USA： SPIE， 2009： 18-22. DOI：10.1117/12.807641

[6] MOORTHY A K， SU C C， MITTAL A， et al. Subjective evaluation of stereoscopic image quality[J]. Signal processing： image communication， 2013， 28（8）： 870-883. DOI： 10.1016/j.image.2012.08.004

[7] CHEN M J， SU C C， KWON D K， et al. Full-reference quality assessment of stereopairs accounting for rivalry [J]. Signal processing： image communication， 2013， 28（9）： 1143-1155. DOI：10.1016/j.image.2013.05.006

[8] WANG J H， REHMAN A， ZENG K， et al. Quality prediction of asymmetrically distorted ste- reoscopic 3D images [J]. IEEE transactions on image processing， 2015， 24（11）： 3400-3414. DOI： 10.1109/tip.2015.2446942

[9] WANG J H， WANG S Q， WANG Z. Asymmetrically compressed stereoscopic 3D videos： quality assessment and rate-distortion performance evaluation [J]. IEEE transactions on image processing， 2017， 26（3）： 1330-1343. DOI： 10.1109/tip.2017.2651387

[10] CHEN M， JIN Y， GOODALL Y， et al. Study of 3D virtual reality picture quality [J]. IEEE journal of selected topics in signal processing， 2020， 14（1）：89-102

[11] YANG Y， DAI Q. Contourlet-based image quality assessment for synthesised virtual image [J]. Electronics letters， 2010， 46（7）： 492-494. DOI： 10.1049/el.2010.3522

[12] YANG Y， WANG X， LIU Q， et al. User models of subjective image quality assessment on virtual viewpoint in free-viewpoint video system [J]. Multimedia tools and applications， 2016， 75（20）： 12499-12519. DOI： 10.1007/ s11042-014-2321-7

[13] YU M， LAKSHMAN H， GIROD B. A framework to evaluate omnidirectional video coding schemes [C]//2015 IEEE International Symposium on Mixed and Augmented Reality. Fukuoka， Japan： IEEE， 2015： 31-36. DOI：10.1109/ismar.2015.12

[14] SUN Y， LU A， YU L. AHG8： WS-PSNR for 360 video objective quality evaluation： ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11， JVET-D0040 [S]. 2016

[15] CHEN S J， ZHANG Y X， LI Y M， et al. Spherical structural similarity index for objective omnidirectional video quality assessment [C]//2018 IEEE International Conference on Multimedia and Expo （ICME）. San Diego， CA， USA： IEEE， 2018： 1-6. DOI：10.1109/icme.2018.8486584

[16] LIN ZHANG， LEI ZHANG， BOVIK A C. A feature-enriched completely blind image quality evaluator [J]. IEEE transactions on image processing， 2015， 24（8）： 2579-2591. DOI：10.1109/tip.2015.2426416

[17] LIU L X， HUA Y， ZHAO Q J， et al. Blind image quality assessment by relative gradient statistics and adaboosting neural network [J]. Signal processing： image communication， 2016， 40： 1-15. DOI：10.1016/j.image.2015.10.005

[18] XUE W， MOU X， ZHANG L， et al. Blind image quality assessment using joint statistics of gradient magnitude and Laplacian features[J]. IEEE transactions on image processing， 2014， 23（11）： 4850-4862. DOI： 10.1109/ tip.2014.2355716

[19] MITTAL A， MOORTHY A K， BOVIK A C. No-reference image quality assessment in the spatial domain [J]. IEEE transactions on image processing， 2012， 21（12）： 4695-4708. DOI： 10.1109/tip.2012.2214050

[20] 蔣剛毅，王旭，楊鈾，等. 基于Contourlet的質降圖像質量評價模型 [J]. 光電子激光， 2009， 20（5）：1658-1662

[21] 黃大江，郁梅，楊鈾，等. 基于相似度的立體圖像對中右視點圖像質量評價方法 [J]. 光子學報， 2008， 37（8）：1673-1697

[22] LIM H T， KIM H G， RA Y M. VR IQA Net： deep virtual reality image quality assessment using adversarial learning [C]//IEEE international conference on acoustics， speech and signal processing. Calgary， AB， Canada： IEEE， 2018： 6737-6741. DOI： 10.1109/ ICASSP.2018.8461317

[23] KIM H G， LIM H T， RO Y M. Deep virtual reality image quality assessment with human perception guider for omnidirectional image[J]. IEEE transactions on circuits and systems for video technology， 2020， 30（4）： 917-928. DOI： 10.1109/tcsvt.2019.2898732

[24] TANIMOTO M. FTV： free-viewpoint television[J]. Signal processing： image communication， 2012， 27（6）： 555-570. DOI： 10.1016/j.image.2012.02.016

作者簡介

李繼龍，國家廣播電視總局廣播電視科學研究院正高級工程師、學術帶頭人；主要研究工作包括融合媒體、5G廣播電視、廣播電視融合網、無線數字廣播、信道編碼和調制技術研究等；曾參與多項國家、部委重要項目研發工作，作為主要研究人員參與了有線/無線衛星融合網、衛星直播標準和數字音頻廣播標準的研究與制定；曾獲得廣電總局“科技創新獎”一等獎一項、二等獎兩項，“王選新聞科學技術獎”一等獎兩項、二等獎一項；發表論文40余篇，出版著作3部，獲得授權國家發明專利6項。

趙雪，武漢理工大學信息工程學院在讀研究生；主要從事機器學習、深度學習領域的研究工作。

楊鈾，華中科技大學電子信息與通信學院教授、博士生導師，中國圖象圖形學學會圖象視頻處理與通信專委會秘書長；主要從事以視覺感知與計算為核心的計算機視覺、計算攝像學、立體視頻系統等方面的研究工作；2012年獲教育部高等學?？萍汲晒夹g發明一等獎，2018年當選英國國際工程技術學會會士（IET Fellow），2020年獲TET創新技術獎中“通信與信息技術”領域杰出創新獎；主持和參與包括國家重點研發計劃、國家自然科學基金面上項目、“863”項目、國家重大專項、國家重大科技成果轉化等在內的項目20余項；發表論文80余篇，獲得授權國家發明專利24項。

中興通訊技術2021年1期

中興通訊技術的其它文章: 小視頻內容分析技術發展探討; 構建智能實時網絡，使能5G視頻業務繁榮; 面向視頻云微服務系統的智能運維技術; 用于人工智能的硅基光電子芯片; 篳路藍縷玉汝于成; 視頻技術和用戶體驗評測專題導讀

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合