?

融合多重注意力機制的人眼注視點預測

2022-12-21 03:23孔力胡學敏汪頂劉艷芳張龑陳龍
中國圖象圖形學報 2022年12期
關鍵詞:注視點人眼注意力

孔力,胡學敏*,汪頂,劉艷芳,張龑,陳龍

1. 湖北大學計算機與信息工程學院,武漢 430062; 2. 中山大學數據科學與計算機學院,廣州 510006

0 引 言

人眼在觀察畫面時會傾向于關注自己感興趣的區域,自動忽略一些不重要區域,這種機制稱為視覺注意力機制(Borji,2021;Dorta等,2018)。王文冠等人(2019)提出,從人類生理機理的角度而言,人類的視覺注意力機制基于視網膜的特殊生理結構,即高分辨率的視網膜中央凹和較低分辨率的邊緣視網膜。視網膜的中央凹區域集中了絕大多數的視錐細胞,負責視力的高清成像。人們關注某一物體時,通過轉動眼球將光線集中到中央凹,獲取顯著區域的更多細節而忽略其他不相關區域的信息??梢?,人類視覺注意力機制引導視網膜的生理結構完成對場景信息的選擇性收集任務,該機制可將有限的腦資源用于場景中重要信息的處理,是人類視覺高效率和高精度的基礎。

顯著目標檢測的任務通常分為顯著區域檢測和人眼注視點預測兩類(Oyama和Yamanaka,2018)。早期的人眼注視點預測往往是基于人工選擇特征方法(Valenti等,2009)。Zhang和Sclaroff(2016)利用在LAB色彩空間(lab color space)中獲得的一組特征生成最終的人眼注視概率圖。這類方法通常只關注圖像的低級特征或只關注圖像的高級特征,沒有將不同層次的特征結合起來。

隨著深度神經網絡在計算機視覺任務上的廣泛應用,人們在顯著目標檢測上使用了深度神經網絡技術。Vig等人(2014)首次使用深度神經網絡技術預測顯著概率圖。之后,人們開始關注如何有效增加模型深度來提高模型的表達能力。SALICON(saliency in context)(Huang等,2015)將不同分辨率的圖像輸入同一種神經網絡,然后組合這些分辨率圖像的高級特征進行預測。Deepfix(Kruthiventi等,2017)使用空洞卷積技術進行預測。上述一些方法直接使用主干網絡的高層特征預測顯著圖,或不加區分地聚合多級特征進行預測,這些方法都未考慮特征之間的冗余,容易導致不佳的預測效果(何偉和潘晨,2022)。

注意力機制的發展為人眼注視點預測提供了新的方向。SAM-Res(saliency attention model)(Cornia等,2018)提出了帶有注意力機制的長短期記憶(long short-term memory,LSTM)人工神經網絡結構。DINet(dilated inception network)(Yang等,2020)將帶有空洞卷積的IncePtion網絡用于自下而上的人眼注視點預測。GazeGAN(gaze generative adversarial network)(Che等,2020)采用通道方向的注意力進行人眼注視點預測。盡管這些方法取得了良好的性能,但仍然沒有考慮不同層特征對顯著目標的貢獻差異。

現有基于注意力機制的人眼注視點預測研究往往集中在空間級和通道級注意力的問題上,既忽視了不同層級之間特征的重要性對預測結果的影響,也沒有分析和融合空間、通道以及層級多種注意力機制的模型。此外,現有方法較少考慮人眼在觀察事物時的中心偏置問題,導致預測精度有限。本文基于ConvLSTM(convolutional LSTM)模型,將層注意力機制與空間、通道注意力機制相融合,提出一種多重注意力機制的網絡(multiple attention mechanism network, MAM-Net)進行人眼注視點預測。本文主要工作有以下3點:1)提出一種層注意力機制,并與空間、通道注意力機制相融合,提出基于ConvLSTM的多重注意力模型,從層級、空間和通道多個角度增強模型的表征能力;2)提出一種高斯學習模塊,根據當前的特征信息自動選擇合適的高斯模糊參數,優化人眼注視點預測概率圖,解決人眼視覺的中心偏置問題,提高預測效果;3)在公開數據集上進行多項綜合性測試。結果顯示,本文方法在多數人眼注視點預測指標上超過了現有主流模型。

1 多重注意力機制與人眼注視點預測

本文提出的基于多重注意力機制的人眼注視點預測模型主要分為3部分,即圖像特征提取模塊、多重注意力模塊和高斯學習模塊,如圖1所示。

圖1 人眼注視點預測總體流程圖Fig.1 Overview of eye fixation prediction

1.1 圖像特征提取模塊

本文提出的MAM-Net中的特征提取模型以ResNet-50作為主干網絡。在不減小圖像尺寸和增加模型參數的情況下,為緩解傳統ResNet-50在顯著性預測中特征信息丟失問題,在傳統ResNet-50的基礎上進行改進,設計了一種基于空洞卷積(Liu和Han,2018)的ResNet-50網絡??斩礆埐罹矸e網絡(dilated ResNet,DRN)的參數設置如表1所示。為表述方便,將第1個卷積塊記做M0,其余4個殘差卷積模塊分別記做M1、M2、M3和M4,選擇每個殘差模塊的最后一層結果作為特征圖。為兼顧模型大小與精確度,本文選取的特征圖數量為原網絡所提取的1/8。

表1 基于空洞卷積的ResNet-50參數設置Table 1 Parameters in the ResNet-50 based on dilated convolution

1.2 多重注意力模塊

由于淺層特征對于顯著圖的細節十分重要,而深層特征提供了抽象的語義信息。所以,初始特征圖先經過通道、空間注意力處理,再利用層注意力機制來優化不同層之間的權重,能有效突出特征表達,最后輸入ConvLSTM中生成初步預測的特征圖Q,該過程如圖2所示。

圖2 MAM結構Fig.2 Architecture of the MAM

1.2.1 通道注意力機制設計

通道注意力的目的是表達某層卷積中不同通道之間的特征重要性(Hu等,2020),本文設計的通道注意力機制如圖3中紅色虛線框所示。

F∈RH×W×C為提取到的特征圖,其中F可看成F=[F1,F2, …,Fc],Fi∈RH×W表示第i個通道,C為通道的數量。對F同時使用全局最大池化操作和全局平均池化操作,得

Favg=FC(GA(F))

(1)

Fmax=FC(GM(F))

(2)

式中,FC為全連接層(fully connected)函數,GA和GM分別表示全局平均池化(global average pooling)和全局最大池化(global max pooling)。Favg和Fmax分別表示平均池化和最大池化后進行FC后的特征。將大小為R1×1×C的權重向量Favg和Fmax進行對應元素加和操作,經由激活函數生成最終的通道注意力參數Mc,即

Mc=σ(Favg+Fmax)

(3)

式中,σ表示sigmoid函數。

Fc為通道注意力處理后的特征,具體過程為

Fc=Mc?F

(4)

式中,?代表元素相乘。

圖3 通道注意力與空間注意力模塊Fig.3 Channel-spatial attention aggregation module

1.2.2 空間注意力機制設計

空間注意力的目的是表達同一通道圖像的不同區域像素點之間的權重關系(Woo等,2018),本文設計的空間注意力結構如圖3綠色虛線框所示。

將特征圖Fc在通道維度上先后進行平均池化和最大池化操作,得到Fa和Fm∈RH×W×1,具體為

Fa=GA(Fc)

(5)

Fm=GM(Fc)

(6)

式中,Fa和Fm分別為經過平均池化和最大池化后的特征圖。

為了將Fa和Fm基于通道維度融合成一個有效的特征圖,本文設計大小為7 × 7的卷積進行卷積操作,使其降維為單通道,接著通過激活函數得到空間注意力的特征參數Ms,具體為

Ms=σ(f7×7[Fa;Fm])

(7)

式中,f7×7[Fa;Fm]為卷積操作。

Fcs∈RH×W×C為通道—空間注意力處理后的特征圖,過程為

Fcs=Ms?Fc

(8)

1.2.3 層注意力機制設計

由于不同層的特征表述的信息不同,信息的重要程度也不同,若無差別地處理不同特征會影響最終的預測效果。本文提出一種層注意力機制,如圖4所示。將各個層級劃分成獨立的塊,初始每一個獨立的塊有相同的層級注意力的權重,層注意力的權重可以表達相對高效的層級特征。通過通道和空間注意力模塊后的特征記為Xt=Fcs∈RL×H×W×C,其中L為MAM-Net中提取的特征層數,C為當前特征具有的通道數,W和H分別對應特征圖的寬度和高度。層注意力機制計算為

Wt=G*Ht-1

(9)

St=softmax(Wt)?L

(10)

(11)

式中,Ht-1是ConvLSTM在t-1時刻生成的隱藏狀態,*代表卷積操作,G為卷積模塊,利用GA和FC來改變每一層的權重,Wt∈RL×1×1×1。St為RL×H×W×C的權重圖。將Xt乘以St作為層注意力機制的輸出結果,得到輸入ConvLSTM的數據。

1.3 高斯學習模塊

人眼觀察圖像時傾向于圖像中心部分,這種中心偏置行為往往導致實際的人眼注視點與預測算法得到的結果不一致(Liang和Hu,2015;Tatler,2007)。

圖4 層注意力機制Fig.4 Layer attention

本文提出一種高斯學習模塊,通過設置不同的高斯濾波核來處理初步人眼注視點圖Q,生成最終的人眼注視點預測圖。高斯學習模塊由高斯濾波層和卷積層組成,如圖5所示。圖5中,n為高斯濾波核的數量,本文中n=10,為經驗值。

在高斯濾波層中,將特征圖Q分別經過n個不同高斯核的模糊處理,得到一組濾波后的圖像{Q1,Q2, …,Qn}。高斯濾波核可具體表示為

(12)

圖5 高斯學習模塊結構Fig.5 Gussian learning module

圖6 不同γ取值的人眼注視點預測圖Fig.6 Saliency prediction probability in differentγ((a)original image;(b)fixation maps; (c)saliency maps;(d)γ = 0.01;(e)γ = 0.02;(f)γ = 0.04;(g)γ = 0.06;(h)γ = 0.08;(i)prediction)

1.4 損失函數

SAM-Res模型在人眼注視點預測中取得了較好的結果,本文損失函數系數參照該方法,采用一種組合的損失函數,由3個不同的顯著性評估指標線性組合而成,能夠有效平衡不同評估指標。具體為

L(y,yden,yfix)=-LNSS-2LCC+10LKLD

(13)

式中,LNSS、LCC和LKLD分別代表計算歸一化掃描路徑一致性(normalized scanpath saliency,NSS)、線性相關系數(linear correlation coefficient,CC)和相對熵(Kullback-Leibler divergence,KLD)3個指標的損失函數。LNSS用來計算預測值與人眼注視點之間的損失,LCC和LKLD用來計算預測值與注視點概率圖之間的損失。yden是數據集標注的人眼注視點概率圖標簽,yfix是數據集標注的人眼注視點二值圖標簽。標簽數據會被標準化為均值為0、標準差為1的數據分布,y為預測圖。

2 實驗與結果分析

實驗硬件GPU為GeForce GTX 1080TI 11 GB,CPU為Intel Core i7-7700K,深度學習框架選用 PyTorch。

采用公開數據集SALICON(Huang等,2015)和MIT300/1003(Judd等,2009)作為本文的實驗數據集。測試SALICON數據集時,先采用在ImageNet上訓練好的分類模型的參數,然后在SALICON上進行訓練微調。測試MIT300/1003數據集時,使用從SALICON數據集上訓練好的模型進行微調。實驗選擇Adam作為優化器,batch size設置為8,epoch設置為29,采用SAM模型中的損失函數作為訓練過程的損失函數。

用于衡量人眼注視點模型預測結果的方法主要包括線性相關系數CC、相似性測度(similarity metric,SIM)、信息增益(information gain,IG)、相對熵KLD、受試者工作特性曲線下面積(area under ROC curve,AUC)及其改進版sAUC(shuffled AUC)、歸一化掃描路徑一致性NSS(Bylinskii等,2018)。其中,CC用來統計預測圖與真實顯著圖之間的線性相關性;SIM用來衡量預測圖與真實顯著圖的交叉分布,衡量二者分布匹配程度;IG能夠估算模型相對于使用中心偏置技巧的信息增量;KLD用來衡量顯著性預測結果與真值分布之間的距離;AUC用以將檢測顯著圖作為二值分類器與真值顯著圖進行比較;sAUC為AUC的變體,為了消除使用中心偏置技巧效應的影響,隨機從其他顯著圖中挑選負類樣本;NSS能夠衡量人眼注視點固定位置的平均歸一化顯著性。

CC、NSS和AUC之間具有高相關性,稱為相似度量集群。CC、NSS、AUC、sAUC、SIM和IG指標數值越高,表明預測效果越好,KLD指標是衡量二者顯著區域分布距離,數值越低表示越好。不同指標在人眼注視點預測中的作用不同,本文采用這些指標對實驗結果進行評價。

2.1 不同注意力機制的對比實驗

多重注意力機制是本文的核心,在主流的人眼注視點數據集SALICON上進行注意力模型的對比實驗。具體方法為分別添加不同的注意力機制,將各個模塊拆除分別進行對比實驗。將通道、空間和層注意力機制分別簡稱為CA (channel attention)、SA(spatial attention)和LA (layer attention),真值簡稱為GT(ground truth)。

圖7為可視化實例,加入多重注意力機制后不僅能清晰地預測出目標區域,而且能很好地抑制背景的影響。引入通道注意力機制,可以對圖像中特征的種類有所側重,更好地理解圖像中的內容。

表2為在不同注意力機制驗證集上的結果對比。表2中CA的CC、AUC和NSS相較于無注意力機制分別提高0.014、0.009和0.048,說明層注意力能夠更好地理解圖像中的內容,提高預測注視點的位置以及分布精度。SA+CA方法的CC、sAUC和NSS相較于只引入通道機制分別提高0.007、0.005和0.015,顯示圖像的空間位置信息得到更好區分。在引入層注意力后,區別于傳統的使用深層特征作為最后預測,添加層注意力機制能后,模型能更好地提取特征,達到更好的預測效果,相較于添加通道和空間注意力,CC、sAUC和NSS指標分別提高了0.017、0.007和0.034,表明經過層注意力機制處理后的特征圖與真實圖存在更多的相似位置。

2.2 消融實驗

為測試本文提出的多重注意力機制、高斯學習和空洞卷積模塊對人眼注視點預測的影響。以ResNet-50為主干網絡,在SALICON數據集上進行消融實驗。ResNet為原始版本ResNet-50上添加一個上采樣層,使模型獲得與標簽圖像同樣分辨率的預測人眼注視點結果圖;DRN是加了空洞卷積的Res-Net-50;DRN + MAM結構是加了空洞卷積的ResNet-50模型結構后,使用MAM結構優化提取的特征;DRN + GL是在DRN結構后添加一個高斯學習(Gussian learning,GL)模塊來優化人眼注視概率圖。本文提出的MAM-Net模型是在DRN + MAM的結構上添加高斯學習模塊來優化預測結果。

圖7 不同注意力機制效果圖Fig.7 Result images of different attention mechanisms((a)original image;(b)ground truth;(c)SA + CA + LA;(d)no attention;(e)CA;(f)SA + CA))

表2 不同注意力機制在SALICON驗證集的結果對比Table 2 Comparative results of different attention mechanisms on the SALICON dataset

圖8為消融實驗中不同模型訓練過程的損失函數曲線圖,為使曲線更加簡潔清晰,采用epoch作為橫坐標??梢钥闯?,在訓練后期,本文提出的MAM-Net模型和DRN + GL模型在損失值上比較接近,從20個epoch后變化穩定,且比其他模型的損失值明顯更小。

圖8 訓練過程中不同模型的損失函數曲線圖Fig.8 Loss function curves of different models in the training process

圖9為添加不同模塊的可視化結果。

表3為5種獨立模型的對比結果??梢钥闯?,MAM-Net結構在SALICON驗證集上有3項評價指標超過了其他組合,分別是AUC、NSS和sAUC,本文將MAM-Net作為人眼注視點預測的最優選擇。表3中DRN結構相較于普通的ResNet-50結構得到了更好的結果,可以得知在原始ResNet-50上添加空洞卷積能提高對顯著性位置的預測精度;添加MAM模塊后,各項指標相較于DRN模型存在一定提升,在CC指標上達到了0.894,優于對比方法,表明MAM模塊使用的多重注意力能更有效地提高顯著圖分布的預測;從表3第3行和第5行的對比中可知高斯學習模塊能夠提高模型預測精度。MAM-Net的AUC、sAUC和NSS的評分比只添加了MAM的結構分別高出0.004、0.007和0.032,表明高斯學習模塊使預測結果更接近于人眼注視點的真實分布。

圖9 不同模塊處理結果圖Fig.9 Result images with different modules((a)original image;(b)ground truth;(c)plain ResNet;(d)Dilated + ResNet;(e)DRN + MAM;(f)DRN + GL;(g)MAM-Net(ours))

表3 MAM-Net不同模塊驗證集對比實驗Table 3 Ablation analysis of MAM-Net validation sets

2.3 主流模型對比實驗

為了驗證MAM-Net模型的有效性,將本文方法與目前主流人眼注視點預測模型SAM-Res(Cornia等,2018)和DINet(Yang等,2020)進行對比實驗,結果如表4所示??梢钥闯?,在SALICON數據集上,對比相似使用ConvLSTM結構的SAM-Res和DINet模型,本文提出的基于多重注意力機制的方法在sAUC指標上分別高出 0.3%和0.5%,在IG指標上分別提高了6%和192%,在KLD評價指標上分別提高了33%和53%,在3種模型對比中均達到了最優結果。

表4 不同模型在SALICON測試數據集的結果對比Table 4 Comparative results of different methods on the SALICON test dataset

為了驗證模型的泛化能力,在難度較大的MIT300/MIT1003數據集上與3種基于深度學習的模型DeepGazeI(Kümmerer等,2014)、eDN(ensemble of deep networks)(Vig等,2014)、GoogLeNetCAM(class activation map)(Mahdi和Qin,2019)和基于淺層學習的顯著性模型Judd(Judd等,2009),以及3個傳統的顯著性模型GBVS(graph-based visual saliency)(Harel等,2007)、LGS(local global saliency)(Borji和Itti,2012)和RC(region-based contrast)(Cheng等,2015)進行對比,對比結果如表5所示??梢钥闯?,本文提出的MAM-Net有良好表現,CC指標為0.58,表現最好,其他兩個指標也與最好指標相接近。

表5 不同模型在MIT300/1003測試集上的結果對比Table 5 Comparative results of different methods on the MIT300/1003 test dataset

使用中心偏置的方法可以提高模型在各項指標上的評分。由于AUC指標會受到中心偏置的影響,sAUC評價方法可有效提高AUC指標的魯棒性。IG能夠估算模型相對于使用中心偏置技巧的信息增量。本文方法在sAUC、IG和KLD等指標上比對比模型更好,體現了高斯學習模塊在預測中的作用。

圖10和圖11為在SALICON和MIT300/1003數據集上的測試結果示例圖??梢钥闯?,MAM-Net能夠預測人、面部、物體和其他主要的強顯著性區域。特別地,當圖像中的強顯著性區域不明顯或圖像主體比較分散時,如圖10第2、3、4行和圖11第3行,與對比方法相比較,MAM-Net能產生更為準確的顯著性區域,與真實的人眼注視點更加接近。

本文方法也存在一些局限性。如圖12所示,當眾多物體集中在一幅圖像中,造成圖像中顯著性對象過于擁擠時,本文方法和對比方法均難以取得較好的預測效果。

圖10 SALICON數據集對比測試結果示例Fig.10 Comparative testing results on the SALICON dataset((a)original images;(b)ground truth;(c)DINet;(d)SAM-Res;(e)MAM-Net)

圖11 MIT300/1003數據集對比測試結果示例Fig.11 Comparative testing results on the MIT300/1003 dataset((a)original images;(b)ground truth;(c)Judd;(d)GBVS;(e)MAM-Net)

圖12 SALICON上的部分效果不佳示例Fig.12 Some poor cases on the SALICON datasets((a)original images;(b)ground truth;(c)DINet;(d)SAM-Res;(e)MAM-Net)

3 結 論

本文提出了一種融合多重注意力機制的人眼注視點預測方法。該方法以ResNet-50為主干網絡,一方面通過通道和空間注意力機制優化由ResNet-50提取的特征,用以增強圖像中的通道特征和空間特征;另一方面設計層注意力機制,有選擇地融合不同層間的特征,解決沒有充分利用圖像高低層特征的問題。此外,為了解決人眼觀察圖像產生的中心偏置的行為,提高模型預測性能,本文提出一種高斯學習模塊,通過設置不同的高斯核來優化和生成更符合人眼注視規律的預測圖。實驗結果表明,本文提出的基于MAM-Net的人眼注視點預測方法可以有效優化視覺任務的特征圖,在圖像上準確預測人眼的視覺區域。與SAM-Res和DINet等對比方法相比,在KLD和sAUC等多項評價指標上取得更優的結果。

本文方法也存在一定的局限性。多重注意力機制可以有效提高人眼注視點的預測結果,但是在語義豐富的場景中,特別是眾多目標集中在一起時,造成圖像中顯著性對象過于擁擠,預測效果會明顯下降。在后續工作中,如何提高語義豐富圖像的特征表達能力和預測效果是首要研究目標。此外,將人眼注視點預測與特定視覺任務相結合,例如基于視覺的自動駕駛,是另一研究方向。

猜你喜歡
注視點人眼注意力
眼動儀技術在里院建筑特色分析中的應用
讓注意力“飛”回來
基于超復數小波和圖像空域的卷積網絡融合注視點預測算法
人眼X光
人眼為什么能看到虛像
射擊運動員的反向眼跳研究
“揚眼”APP:讓注意力“變現”
閃瞎人眼的,還有唇
A Beautiful Way Of Looking At Things
基于中央凹圖像顯著性和掃視傾向的注視點轉移預測模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合