?

基于深度殘差回歸網絡和圖像塊預置信度的盲圖像質量評價研究①

2023-07-15 02:14齊博張國華于立子
關鍵詞:子塊殘差卷積

齊博, 張國華, 于立子

東北石油大學秦皇島校區 大數據與計算機科學系,河北 秦皇島 066004

信息傳輸技術的發展使圖像這一信息載體形式得到較大范圍的應用, 且數據網絡連接密切程度的增加也使社交手段中圖像信息的應用頻率提高.圖像信息使用方式在社交生活、安全防范以及交通運輸等領域均具有較好的、積極的作用, 能有效且直觀地傳達出信息的表現內容.圖像信息質量越高, 則其在傳輸過程中的信息損失較小, 但在圖像的采集編碼和傳輸交換等過程中, 不可避免地會存在因圖像信息失真而致使圖像質量較差的問題[1].而且在不同評價標準下, 圖像質量存在一定的差異, 認知體系、環境條件, 以及評估者自身心理活動和偏好等都會使圖像在進行主觀評價時存在感知差異.盲圖像質量評價(blind image quality assessment, BIQA)在比較過程中不存在可參考的高清圖像, 其僅從失真圖像本身進行評價, 故其精度很難得到較好的保證.胡晉濱等[2]借助Wasser-stein距離生成條件對抗網絡以實現失真圖像的復原, 并對復原圖像進行分塊采樣和卷積處理.通過借助VGG-19卷積神經網絡(convolutional neural network, CNN)池化特征提取、特征灰度處理, 以及圖像與特征之間的對應相似性得分計算.該研究提出的方法在場景模擬仿真訓練中表現出較好的性能和準確性, 具有較高的主觀一致性.陳勇等[3]提出將空間域和變換域應用到盲圖像立體評價中以改善立體圖像質量預測質量欠佳的問題, 并將提取的合并場景統計特征輸入到支持向量機中, 構建特征域上的質量分數預測模型.結果證明該方法在立體圖像數據評價上的均方根誤差為5.603, 具有較高的有效性.借助深度學習網絡進行盲圖像質量評價能有效實現對特征信息的提取, 故本研究提出基于卷積神經的殘差網絡結構, 并基于人眼視覺特點, 設置圖像置信區間, 以更好實現對盲圖像的質量評價, 以期提高盲圖像評價精度, 提高其應用有效性.

1 文獻綜述

針對當前圖文印刷圖像存在失真的問題, 陳富偉等[4]提出以元學習方式進行盲圖像質量評價, 通過失真先驗知識的獲取、多層次特征獲取以及降維處理及權值融合等操作構建起質量評價模型.該模型在失真測試集上所表現出的SRCC值均在0.85以上, 泛化性能表現較好, 具有較高的圖像質量預測分數.面對當前傳統高斯降噪算法的低執行效率問題, 徐少平等[5]借助CNN進行圖像質量感知的盲圖像降噪算法設計, 即以淺層CNN和深層CNN分別實現降噪圖像質量的初步估值和給定性評估, 并以分類字典實現不同噪聲模式的匹配.結果表明該算法具有較高的降噪效果, 且其在完成效率上表現較好.盲圖像視覺評價主要是實現語言描述與數字分數的轉換, 但其不可避免地存在相關信息的丟失.心理概念應用到盲圖像評價模型中, 能通過對定性評價的直接確定以及質量標簽的等級處理來實現數據處理.

針對當前多失真圖像質量的評價精度較低的問題, 王同樂等[6]提出以信息損失值作為圖像度量值, 借助概率矩陣分解和支持向量回歸進行特征向量的構建和模型訓練.結果表明該算法與個體的主觀評價結果具有較高的一致性.將正常照度圖像進行低照度合成以及顏色分量的分解, 陳清江等[7]借助特征提取和雙殘差卷積獲得圖像之間的映射關系, 并以雙邊濾波優化增強圖像以使得其趨近于參考圖像.實驗結果表明該方法下的結構相似度最高趨近于0.95, 盲圖像評價指標優于其他對比算法, 有效提高了算法運行效率.張玉波等[8]提出以注意力機制實現圖像盲模糊算法的改進, 架構起多尺度循環體系, 并以殘差通道選擇模塊和跨層長連接實現特征提取以避免圖像紋理缺失而帶來的精度損失情況.其研究結果表明該方法較之經典去模糊網絡算法具有較好的應用精度, 其結構相似性有所提升.吳夢凡等[9]從噪聲估計、模糊處理和網絡重建3個方面進行改進, 并提出降質信息估計的盲圖像復原算法, 實現算法的重建處理.其結果表明該算法在主客觀質量評價指標上表現較好.馮象初等[10]借助L0范數進行稀疏檢驗, 并借助博弈理論建立起圖像修復模型, 以交替方向乘子法解決算法問題中的最小化問題和收斂性問題, 結果表明該方法在主客觀質量評價指標上具有較好的應用性和穩健性.從圖像的色彩空間特性出發, 陳揚等[11]提出基于互補色小波變換的圖像質量盲評價算法以實現顏色通道信息的把握.并從自然場景圖像的設計以及多尺度及方向進行模型構建, 結果表明該評價方法能有效實現失真圖像的特征提取, 并具有較高的評價精度.深度學習算法能有效對圖像特性信息進行提取, 同時在盲圖像評價指標中應注重評價的全面性.其中結構平衡理論考慮了3條邊的符號之積來判定其是否處于平衡狀態, 將該理論應用到盲圖像質量研究中, 就需要在保證其質量精度的同時滿足人眼視覺系統, 保證多維度下質量評價結果的平衡.故研究基于深度學習網絡, 提出符合視覺系統的圖像置信結構, 以期提高圖像質量精度.

2 基于深度殘差回歸網絡和圖像塊預置信度的盲圖像質量評價分析

2.1 深度殘差回歸網絡下的盲圖像質量評價

盲圖像質量評價主要包括特征提取和質量預測兩方面, 其主要是通過衡量圖像的失真情況以及對模型進行訓練以實現圖像在客觀失真下與主觀質量的映射關系.按照其應用場景的差異性, 該質量評價方法包括專用和通用兩種方法, 兩種方法的區別在于是否對失真的類型進行限定.圖像特征與失真特征的相關性較差以及模型的預測性能有限等問題是當前在盲圖像質量評價中主要出現的問題[12].為較好實現盲圖像質量評價, 本研究引入CNN進行圖像特征提取.CNN作為一種深度學習網絡, 包含卷積計算以及深度結構, 其作為一種前饋神經網絡在圖像分類領域有較好的應用效果.同時CNN在訓練階段具有較好的反饋效應和參數調整機制, 故其在進行圖像信息特征抽取時能較好地考慮到多維度信息結構, 并在監督學習過程中借助映射實現參數的最優化.CNN的空間不變性使得其在進行特征提取時具有較好的效率, 其結構包括卷積層、激活函數層、池化層以及全連接層.卷積層和激活函數層中的參數多是借助梯度下降法進行優化, 其中卷積層中的卷積核是實現特征信息提取的關鍵步驟.圖像自身具有一定的拓撲結構, 故其形式多借助矩陣進行表達, 參數優化過程就是獨立卷積核的特征提取單元經由線性疊加后的最終優化結果[13].同時考慮到卷積層數增多以及網絡深度的加深會使得局部特征圖的信息存在丟失的情況, 故本研究對卷積操作前的圖像進行擴編補零以減少特征圖不斷縮小的問題.CNN的反向傳播主要是在池化層中進行的, 在反向傳播過程中, 池化層的殘差傳播首先需要恢復到預處理前的池化大小.隨后判斷前向傳播策略為均值下采樣還是最大下采樣來進行池化殘差的處理, 即對應將殘差值放入平均子矩陣位置還是子矩陣的最大位置.不同卷積層之間的誤差遞推公式可表達為:

(1)

式中:l,l-1表示卷積層z的當前層及前一層,δl表示當前層l的誤差,δl-1為l-1層的誤差,w表示卷積層的權重值,b為偏置項,J表示誤差矩陣.對卷積核在卷積前進行翻轉以及與誤差矩陣進行計算, 即可得到上一層的誤差.在確定卷積核矩陣元素為wij, 輸入值為矩陣大小為4×4的a時, 則可表示出偏置項的梯度, 即:

(2)

借助(2)式, 可對每層神經元的梯度進行推導計算, 并得到相應的卷積層權值和偏置數.同時為減少不同頻次特征信息在提取過程中的被稀疏化, 研究在CNN中引入殘差網絡來避免梯度消失和爆炸問題.殘差網絡中的殘差塊結構能在拓寬網絡層次的同時降低其層次誤差, 圖1為殘差網絡結構.

圖1 殘差網絡結構

圖1為ResNet50的結構, 輸出值在預處理后進入5個階段的Block結構中, 并將最后運算完成的值輸入到全連接層進行分類和歸一化處理.當卷積網絡層結構越大時, 相應的神經網絡具有較高的函數適應性, 但其相應也會使得網絡對數據的依賴程度加深進而導致過擬合現象的產生.深度殘差網絡在進行信息的輸入與層級傳輸時, 會加入恒等映射來避免這種情況.同時殘差塊結構中的輸入與輸出之間存在短連接, 其能有效實現映射關系的擬合.殘差單元的函數關系可表示為:

(3)

式中:xk表示第k個殘差單元的輸入,yk為第k個殘差單元的輸出,F(xk,wk)表示優化目標.每個殘差結構之間均存在激活函數h, 令h(xk)=xk,xk+1=yk, 則可以得到反向傳播公式為:

(4)

式中:ε表示損失函數,L表示殘差單元數.同時考慮到數據庫中的圖像大小具有不完全一致性, 難以適應全連接層對特征向量維度處理的固定統一性, 故需要在網絡設計時將卷積層的特征圖進行轉化, 保持維數相同.原有卷積網絡的原始圖像會經由卷積處理和池化操作, 進而得到特征信息圖, 且圖中被標注的目標區域經過映射處理后可得到映射區.本研究基于感興趣區的磁化特性, 提出以非均勻步長池化處理來實現特征圖的不同移動步長的設置, 即不同大小的輸入圖像在經由卷積處理后得到的特征圖在最大池化過程中具有步長差異[14].應用在盲圖像質量評價中的深度殘差網絡回歸模型的學習以差異平均主觀分數(difference mean opinion score, DMOS)數據為標記.卷積層中的特征向量為固定維數, 且網絡輸出值為全連接層的最值節點, 該方法減少了激活函數的映射處理, 可直接得到圖像的質量評價分數.

2.2 基于圖像預測以及區域置信度的盲圖像質量評價

對深度殘差網絡模型進行優化, 即在原有殘差塊結構中加入1×1大小的卷積核, 對其進行先降維后升維的操作, 并在輸出維度差異下對輸入值進行線性映射變換, 減少參數量以提升計算效率.圖2為殘差塊參數改進示意圖.

圖2 殘差塊的參數改進

隨后研究選擇平滑損失函數作為模型構建的損失函數, 其數學表達如式為:

(5)

圖3 深度殘差網絡回歸模型的示意圖

數據庫樣本量的限制在一定程度上會造成算法網絡的過擬合問題, 故本研究設計對圖像進行分塊處理, 并對不同圖像子塊的預測分數進行計算及其與圖像真實分數之間的擬合程度進行計算.不同圖像尺寸劃分下預測結果與真實結果之間的一致性存在差異, 亮度對比情況、紋理豐富程度以及背景區域內容和邊緣結構信息等指標是比較圖像差異的重要內容.圖像子塊的比較結果與預測值之間可構建起相關置信度模型, 且不同圖像子塊因預測分數的差異可表現出不同的置信度, 通過對不同子圖像塊進行預測分析, 就可得到與人眼主觀感知系統相一致的結果.同一幅圖像中的不同區域目標所包含的信息也有所不同, 圖像的均方根誤差越大表明其對比度越大, 被感知的程度越明顯, 且絕對亮度的差異也能表現不同圖像子塊之間的區別.故本研究設計基于置信度差異的預測分數加權算法, 以此提高評價的一致性.在置信區間構建過程中, 亮度差異所表現出的圖像預測偏差最為明顯, 但其數量相對較少, 故本研究以亮度均值的殘差來實現不同亮度圖像的大小排序, 并得到圖像塊預測分數的置信區間.

-n*σE≤P≤n*σE

(6)

式中:n表示經驗值,σE為殘差數據的標準差,E為殘差按其絕對值大小進行排序的結果,P表示待評價圖像.依據置信區間, 則可得到圖像子塊的數量、均方根誤差和圖像子塊對應的預測質量分數.

③靳靜:《反壟斷法價格協同行為的認定研究——以艾司唑侖藥品壟斷案為例》,載《反壟斷法》2016年第9期。

(7)

式中:N為圖像子塊的數量,C和S為均方根誤差和預測質量分數.同時考慮到不同對比度大小劃分下的子塊預測結果與其真實質量分數之間具有一定的差異, 故本研究借助高斯離散化模型進行置信度計算.通過對不同子塊與最大對比度子塊之間的距離進行計算, 得到子塊所對應的貢獻程度, 降低偏差較大的局部區域對預測結果的干擾.高斯擬合函數的數學表達為:

(8)

式中:σ表示置信因子,gi為圖像子塊的亮度,di為gi與亮度對比最大的圖像子塊之間的最大距離.置信度在最大距離處趨近于0, 對圖像子塊的置信度進行歸一化處理, 其計算公式為:

(9)

以歸一化后的置信度作為圖像子塊的權重, 即可實現對圖像子塊分數的預測處理.整體的算法流程見圖4.

圖4 算法流程

在圖4中, 對圖像子塊的篩選需要符合人眼視覺, 且計算各圖像子塊的均方根誤差與最大值之間的距離是進行置信區間重新設計的關鍵, 以歸一化后的置信度作為權重來實現對圖像質量的預測, 能有效實現對圖像信息特征的提取.

3 盲圖像質量評價應用效果分析

在實驗過程中, 研究在LiVe圖像數據庫中選取大型合成失真數據集和真實失真數據集來組成樣本實驗數據, 并在實驗過程中按照6∶4的比例將實驗數據劃分為測試數據和訓練數.其中對訓練樣本數據進行旋轉以及鏡像等無損處理以保證樣本數據分布的均衡, 并對其進行顏色通道處理, 得到失真圖像120幅.其失真類型包括高斯白噪聲、空間相關噪聲、JPEG壓縮以及均值偏移等.裁剪上述圖像樣本, 得到像素尺寸分別為256,128,64以及32的圖像子塊.并將裁剪得到的圖像子塊納入實驗檢驗中.訓練過程中, 統一設置訓練批次為16, 初始學習率為0.001, 最大迭代次數為2 000.對本研究對圖像進行分塊處理后的數據增強效果進行分析, 其結果見圖5.

圖5 本研究算法改進前后的圖像處理結果

從圖5可以看出, 在對模型數據進行增強前, 本研究提出的算法在改進后的Pearson 相關系數和Spearman 等級相關系數均值分別為0.937 6和0.951 3, 且數據的損失情況有所改善, 有效避免了數據的過擬合問題, 泛化性能得到了進一步的提高.隨后對本研究提出的圖像子塊預測結果進行分析, 并以統計均值作為預測分數, 其結果見表1.

表1 圖像子塊的預測分數均值結果

表2 本研究方法在不同數據類型上的圖像質量評分

表2中的數據類型涉及交通工具、建筑、人物和自然場景等內容.表2結果表明, 本研究提出的方法所表現出的均方根差均小于9, 且其SROCC值指標和PLCC值在10種數據類型下的數值均在0.9以上, 其均值為0.953 1和0.933 7.說明本研究提出的算法能有效實現圖像信息的提取, 具有較好的評價一致性.隨后選擇較為常見的盲圖像質量評價方法與研究提出的方法進行對比, 并對每一類圖像數據進行隨機抽取, 以反復試驗5次之后的結果中值為實驗結果.此處用到的比較算法為無參考空間域圖像質量評估算法(blind/referenceless image spatial quality evaluator, BRISQUE)、失真圖像評估算法(distortion identification-based image verity and integrity evaluation, DIIVINE)、基于代碼無參考評價算法(codebook representation for no-reference image, CORNIA)以及基于CNN的評估算法(image quality assessment-convolutional neural network, IQA-CNN).并借助相關評價指標對失真圖像的預測結果進行一致性分析, 其結果見表3.

表3 不同算法的圖像質量

表3結果表明, 在高斯白噪聲失真圖像中, SROCC值和PLCC值從大到小分別為: 本研究算法,IQA-CNN,DIIVINE,CORNIA,BRISQUE; 本研究算法,IQA-CNN,CORNIA,DIIVINE,BRISQUE.本研究提出的方法與IQA-CNN算法的質量效果與主觀評價效果具有較高的一致性, 但本研究提出的方法的RMSE值(5.298 2)明顯低于IQA-CNN算法(9.851 7).在空間相關噪聲、JPEG壓縮以及均值偏移3種失真圖像中, 本研究提出的方法所表現的測試指標效果最好, 且其誤差值均低于4, 其與最大均方根誤差之間的差值幅度達到了38.77%,45.68%和62.73%.上述結果表明, 本研究提出的盲質量評價算法表現出較好的主觀一致性, 且其預測結果與真實值之間的偏差較小, 能較好適應不同失真圖像類型, 魯棒性較強.隨后對失真圖像的均方根對比情況與預測分數之間的分布情況進行統計, 其結果見圖6.

圖6 失真圖像的均方根對比情況與預測分數之間的分布情況

圖6中橫坐標表示圖像DMOS值與預測質量分數的差值, 其數值越靠近0, 則表明其預測結果的偏差越小, 縱坐標表示圖像對比度的差值, 其數值越大表明其對比度越小.圖6結果表明, 本研究提出的算法對圖像預測結果表現出較好的特征區別度, 其數值基本都靠近數值0, 較少受到噪聲數據的影響.隨后對模型的預測值與主觀值的擬合結果進行分析, 其結果見圖7.

圖7 失真圖像類型下的模型預測值與主觀值之間的擬合曲線

圖7中的曲線和坐標點分別表示DMOS值和擬合曲線, 圖7結果表明, 無論是否對失真圖像類型進行劃分, 本研究所提出的模型對圖像質量評價的擬合效果均更好, 所表現出的聚集程度更為明顯, 且主客觀評價分值具有較高的一致性.

4 結論

本研究對CNN進行了改進, 通過引入殘差結構以及圖像子塊置信度設置來實現對盲圖像質量評價效果的提升, 并對本研究提出的方法進行檢驗, 結果表明本方法有效避免了數據的過擬合問題, 且其在256×256,128×128,64×64,32×32尺寸下的失真圖像預測分數提升最大達到了3.88%,3.49%,3.51%,3.21%.在10種數據類型下, 本研究提出的方法的均方根差均小于9, 其SROCC指標和PLCC指標均值為0.953 1和0.933 7, 具有較高的評價一致性.同時在算法對比實驗中, 本研究提出的算法在高斯白噪聲失真圖像中的SROCC指標和PLCC指標均最優, 其RMSE值(5.298 2)明顯低于IQA-CNN算法(9.851 7), 在其他3種失真圖像類型下的最大均方根誤差比較差值幅度達到了38.77%,45.68%和62.73%, 圖像預測偏差較小, 且其主客觀評分擬合曲線受失真圖像類型的干擾較小.考慮其他符合人眼視覺特性的圖像質量評價指標是今后研究需要進一步改進的內容.

猜你喜歡
子塊殘差卷積
基于八叉樹的地震數據分布式存儲與計算
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設計及FPGA實現
基于特征值算法的圖像Copy-Move篡改的被動取證方案
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
從濾波器理解卷積
基于波浪式矩陣置換的稀疏度均衡分塊壓縮感知算法
基于傅里葉域卷積表示的目標跟蹤算法
基于分布式ICA-PCA模型的工業過程故障監測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合