?

基于混合Transformer模型的三維視線估計

2024-01-16 01:13童立靖王清河馮金芝
關鍵詞:視線特征提取注意力

童立靖,王清河,馮金芝

(北方工業大學 信息學院,北京 100144)

在計算機視覺領域,三維視線估計是一個具有挑戰性的研究課題,它在人機交互[1]、教育[2]、醫學[3]、商業[4]等領域發揮著重要作用.三維視線估計方法主要分為兩大類:基于模型的方法和基于外觀的方法[5],基于模型的方法通常需要專用硬件,這使得它們在不受約束的環境中難以適用.而基于外觀的方法可以直接從獲取的圖像中估計出三維視線方向,表現出不錯的視線估計結果.

近年來,隨著深度學習的發展,提出了許多新的基于外觀的三維視線估計方法.然而,個人和環境因素(如頭部姿勢、面部外觀和光線明暗等)的影響復雜多樣,這些因素分散并融合在整個外觀之中,讓基于外觀的視線估計問題變得更加復雜且具有挑戰性[6].這意味著深度學習模型所學習的映射函數應該是高度非線性的,并具有很好的處理整個外觀的能力,否則會導致視線估計的準確度不夠高.因此,更為有效的視線估計模型至關重要.

由于深度學習方法可以對圖像和視線之間的高度非線性映射函數進行建模,相比傳統方法,可以取得更好的視線估計效果.ZHANG 等[7]首先提出了一個基于VGG 模型的卷積神經網絡架構,使用單目圖像預測視線方向.此后,他們又設計了一個空間權重卷積神經網絡[8],給那些與視線相關的面部區域賦予更多權重來提高視線估計精度.CHEN等[9]采用擴張卷積方法,在不降低空間分辨率的情況下,利用從圖像中提取的高級特征,捕捉人眼圖像的細微變化.SHA 等[10]提出了離散化視線網絡DGaze-Net(Discretization Gaze Network),通過將視線角度離散化為K個容器,將分類約束添加到視線預測器中,視線角度在使用真實視線角度回歸之前預先應用了分箱分類,以提高視線估計的準確性.但是,這些基于單個卷積神經網絡模型進行視線估計的方法,相比目前的一些深度學習方法,網絡模型結構的復雜度不高,特征提取能力不強,因而視線估計的準確度不高,難以達到預期的精度.

受到雙眼不對稱性的啟發,CHENG等[11]提出了基于面部的非對稱回歸評估網絡FARE-Net(Facebased Asymmetric Regression Evaluation Network),采用非對稱方法,為每只眼睛的損失權重賦予非對稱權重,分別估計兩只眼睛的三維視線角度,來優化視線估計結果.CHENG 等[12]提出了一種粗到細的自適應網絡CA-Net(Coarse-to-fine Adaptive Network),首先使用面部圖像預測主視線角度,然后利用眼部圖像估計的殘差進行自適應.LUO 等[13]提出了一種協作網絡模型CI-Net(Consistency estimation Network and Inconsistency estimation Network),通過兩個網絡協作,加入注意力機制,自適應分配眼睛和面部特征之間的權重來估計視線.這些通過多個卷積神經網絡合作進行視線估計的方法,導致模型的參數量急劇上升.此外,這些方法對提取到的特征利用還不夠有效,提取到的特征和視線估計之間的建模效果還不夠理想.

CHENG 等[14]首次提出了使用Transformer[15]模型GazeTR(Gaze estimation using Transformer)進行視線方向估計.其后LI 等人[16]使用卷積結構取代了SwinTransformer 的切片和映射機制,使得Transformer 可以進行多尺度特征學習.但是,原始Transformer 模型的特征提取能力較弱,無法準確有效地提取視線估計特征,致使視線估計的準確度相比使用多個卷積神經網絡的模型并沒有太大提高.

針對上述問題,本文提出一個基于混合Transformer 的視線估計模型,在模型參數量保持在較低水平的同時,能夠較為準確地估計出視線方向,主要步驟如下:

(1)在MobileNet V3[17]網絡基礎上,將壓縮-激勵注意力機制SE(Squeeze-and-Excitation)替換為坐標注意力機制CA[18](Coordinate Attention),并修改MobileNet V3 網絡的輸出層,增加一個1 × 1 的卷積層,以充分有效地提取人臉圖像中的視線特征,并將其輸入到Transformer模型中;

(2)在Transformer 模型的前向反饋神經網絡層,加入一個卷積核大小為3 × 3 的深度卷積層,提高了模型的表達能力,以輸出較為準確的視線估計.

1 本文模型

本文模型包括特征提取模塊和視線估計模塊兩部分.首先將人臉圖像送入基于改進的MobileNet V3網絡特征提取模塊,然后將提取的特征輸入到改進后的Transformer 模型,并最終輸出視線方向的估計結果.本文模型的整體結構如圖1所示.

圖1 混合Transformer模型網絡結構Fig.1 Network structure of hybrid Transformer model

1.1 基于改進的MobileNet V3網絡的特征提取

MobileNet V3 使用網絡架構搜索NAS(Network Architecture Search)技術,并結合NetAdapt算法[19]對卷積核和通道進行優化組合.卷積操作上,使用深度可分離卷積(Depthwise Separable Convolution)替代了傳統的卷積,并引入線性瓶頸結構(Linear Bottlenecks)和倒殘差結構(Inverted Residual Blocks).此外,在原始MobileNet V3 中還使用了壓縮-激勵注意力機制,通過全局池化操作,將特征圖壓縮為一個全局特征向量,此全局特征向量包含了整個特征圖的全局信息;然后使用兩層全連接層,將全局特征向量映射為一個注意力向量,這個注意力向量可以根據特征的重要性來調整每個特征的權重.

為了更好地提取圖像特征,并降低模型的整體復雜度,本文改進了MobileNet V3網絡,加入了多層坐標注意力機制,來替換壓縮-激勵注意力機制,提高特征提取的有效性,并新增一個1 × 1 的卷積層,替換原始輸出層的池化和全連接操作,最終輸出準確有效的人臉圖像視線特征圖.

在本文的視線估計方法中,對于給定的人臉圖像I∈RH×W×C,使用改進的MobileNet V3 網絡進行特征提取,其中H、W分別為圖像的長度和寬度,C為通道數.改進的MobileNet V3 網絡將原有網絡中的壓縮-激勵注意力機制替換為坐標注意力機制,壓縮-激勵注意力機制只使用全局特征向量,因而在特征圖中缺少位置信息,而坐標注意力機制通過編碼操作可以嵌入精確的位置信息,從而能夠更好地捕捉特征圖中的位置關系,提高了模型的特征提取能力;同時,坐標注意力機制與壓縮-激勵注意力機制相比,單層坐標注意力機制在特征提取時主要使用的是1 × 1 的卷積,而單層壓縮-激勵注意力機制在特征提取時主要使用的是兩層全連接層.1 × 1 卷積在計算時是對輸入通道的線性組合,而全連接層的計算則是輸入與權重相乘并相加,再加上偏置項,因此就單層的計算成本而言,這兩種方法變化不大.此外,在原始MobileNet V3 網絡中使用的是8 層的壓縮-激勵注意力機制,而在改進的MobileNet V3 網絡中,使用的是3層的坐標注意力機制,因此模型的總體復雜度有所降低.坐標注意力機制結構如圖2所示,它通過精確的位置信息對通道關系和遠程依賴進行編碼.

圖2 坐標注意力模塊Fig.2 Coordinate attention module

為了使注意力機制能夠具備捕捉遠程空間交互作用的精確位置信息,對全局池化進行了分解,將其轉換為一維的特征編碼操作.對于輸入的圖像特征X,每個通道首先使用大小為(H,1)或(1,W)的池化核沿水平和垂直坐標進行編碼.因此,高度為H的通道C的輸出如式(1)所示:

寬度為W的通道C的輸出如式(2)所示:

為了適應視線估計任務,去除了原始MobileNet V3 網絡輸出層,對于MobileNet V3 網絡輸出的7 × 7 × 960 特征數據,新增了一個1 × 1 的卷積層,進行通道縮放,其新增卷積層結構如圖3所示.

圖3 新增的卷積層Fig.3 New convolution layer

1 × 1 卷積后的特征數據,經批量歸一化BN(Batch Normalization)操作和h-swish 激活函數處理后得到7 × 7 × 32 的特征圖,其中,h-swish 激活函數的計算如式(3)所示.與傳統的ReLU 等激活函數相比,h-swish 激活函數更加平滑且具有連續性,能夠提高模型的性能和精度.

1.2 基于改進Transformer模型的視線估計

MobileNet V3 網絡層輸出的特征圖經過改進的Transformer模型處理,完成三維視線估計.改進后的Transformer網絡整體結構如圖4所示.

圖4 改進后的Transformer模型結構Fig.4 Improved Transformer model structure

它由多個并行編碼層組成,每個編碼層包含兩個子層:多頭自注意力層MSA(Multi-head Self-Attention)和前向反饋神經網絡層FNN(Feedforward Neural Network).對于MobileNet V3 網絡提取的特征圖fimg∈Rh×w×c,首先在嵌入層中調整為2維的圖像塊fp∈Rl×c,其中l=h·w,h、w分別為圖像塊的長度和寬度,l為特征矩陣的長度,c為特征矩陣的維度.此外,在嵌入層還向特征矩陣中添加了額外的標記ftoken,ftoken是一個可學習的嵌入向量,并且與特征向量具有相同的維數,即ftoken∈R1×c.然后重新編碼每個圖像塊的位置信息,創建一個可學習位置編碼fpos∈R(l+1×c),并加入到圖像特征矩陣中,得到最終的特征矩陣如下:

其中[]表示連接操作.

在三維視線估計的多頭自注意力模塊中,自注意力機制將特征矩陣f∈R(l+1×c),經過線性變換,得到查詢向量Q∈Rn×dk,鍵向量K∈Rn×dk和值向量V∈Rn×dv,其中n為輸入序列的長度,dk和dv為每個特征的維度.自注意力機制的計算如式(5)所示:

多頭自注意力模塊將自注意力機制擴展到多個子空間,通過不同的線性變換對查詢、鍵和值進行N次線性投影,其中N為多頭頭數.每個頭的輸出被拼接并經過線性變換得到最終輸出.為了穩定訓練、加速收斂,每個多頭自注意力層之后都進行了層歸一化LN(LayerNormalization)和殘差連接[20],然后輸入給前向反饋神經網絡層.

為了能夠準確估計出視線方向,提高模型的整體性能,本文對Transformer 模型的前向反饋神經網絡層進行了改進.Transformer 模型的前向反饋神經網絡層能夠將多頭注意力機制的輸出進行非線性變換和全局特征整合.傳統的前向反饋神經網絡通常由兩個全連接層和一個非線性激活函數組成,能夠完成序列中不同位置間的關系捕捉.然而,傳統的前向反饋神經網絡不足以應對三維視線估計任務中的復雜映射,導致其估計精度不高.本文對前向反饋神經網絡層進行了改進,在兩個全連接層之間增加了一層卷積核大小為3 的深度卷積層.在卷積操作中,只對輸入的每個通道進行卷積計算,而不是像傳統卷積那樣對所有輸入通道進行計算,其卷積過程如圖5 所示.此深度卷積層能夠有效地捕捉序列中的局部空間關系和長期依賴關系,從而加強前向反饋神經網絡的非線性表示能力和全局特征整合能力,提高了模型對三維視線特征的捕捉能力.

圖5 深度卷積的過程Fig.5 Depthwise convolution process

在改進后的Transformer 中,MSA 層輸出的特征矩陣x′由具有深度卷積層的前向反饋神經網絡進行特征整合,實現非線性映射,如式(6)和式(7)所示:

式中:X為輸入的嵌入層特征矩陣,MSA(·)為多頭自注意力處理函數,LN(·)為層歸一化處理函數,FNN(·)為前向反饋神經網絡映射函數,x與X具有相同的維度,即x∈Rn×d,因此模型可設計為N層Transformer的并行處理.

改進后的Transformer 處理嵌入層輸入,并輸出視線估計特征矩陣.選擇第一個特征向量,即ftoken的對應位置,作為視線特征表達,并使用多層感知機MLP(Multi Layer Perception)從視線特征表達中回歸視線方向矢量,如式(8)所示:

式中:[0,:]為選特征矩陣第一行,g為估計的視線方向矢量,MLP(·) 為多層感知機映射函數,Transformer(·)的計算如式(6)和式(7)所示.

2 實驗和分析

2.1 數據集和評價指標

本文使用MPIIFaceGaze 數據集進行模型的訓練和評估,并按照文獻[21]對其進行了預處理.經過預處理后,MPIIFaceGaze 數據集包含15 個受試者的45000張圖像,使用留一評估法進行評估,角度誤差作為評價指標.

2.2 實驗細節

本文模型使用PyTorch 實現,在NVIDIA Tesla V100 GPU 上進行訓練.訓練時,批量大?。˙atchsize)設置為512,迭代周期(Epoch)為120,學習率設置為0.0005,權重衰減為0.5,衰減步驟設置為60 個epoch.使用Adam 優化器訓練模型,其中β1=0.9,β2=0.99;使用線性學習率進行預熱,設置為5個epoch.

實驗圖像為224 × 224 × 3 的人臉圖像,視線估計結果為由垂直偏轉角(Pitch)和水平偏轉角(Yaw)構成的二維向量.訓練過程中的損失函數為L1-loss函數,如式(9)所示:

式中:yi為真實值為估計值|為真實值與估計值之間的絕對誤差,n為樣本個數為對所有樣本的誤差取均值,從而得到平均絕對誤差MAE(Mean Absolute Error),MAE 越小,估計結果與真實值越接近.

改進后的Transformer 模型執行8 頭自注意力機制,前向反饋神經網絡層中神經元個數為512,每層中的神經元隨機失活率dropout為0.1.

2.3 不同視線估計方法的對比分析

為了評估視線估計的性能,將本文方法與CANet、AGE-Net[22]、GazeTR、L2CS-Net[23]等方法進行了對比實驗.本文提出的基于混合Transformer 模型的三維視線估計方法在視線估計精度上均高于其他方法,結果如表1所示.

表1 實驗結果對比Tab.1 Comparison of experimental results

此外,本文與使用Transformer 模型進行視線估計的GazeTR 方法,在MPIIFaceGaze 數據集上,對15 個不同對象的視線估計誤差進行了分析對比,本文方法在12 個對象中的視線角度誤差表現均優于GazeTR,結果如圖6所示.

圖6 MPIIFaceGaze數據集上15個不同對象的視線估計角度誤差結果Fig.6 Angle error results of gaze estimation for 15 different subjects on the MPIIFaceGaze dataset

本文方法與GazeTR 方法的部分結果可視化圖像如圖7所示,綠色為視線的真實方向,紅色為本文方法的視線估計方向,紫色為GazeTR 的視線估計方向.

圖7 結果可視化圖像Fig.7 Result visualization images

最后,本文方法還與GazeTR、L2CS-NET 方法的模型參數量和視線估計角度誤差進行了綜合比較,實驗結果如圖8 所示,其中氣泡越大,參數量越大.本文方法在視線角度誤差較小時,仍能保持較低的模型參數量.

圖8 模型大小與視線角度誤差的對比Fig.8 Comparison of model size and angle error of gaze estimation

2.4 模型改進前后的性能對比分析

為驗證對MobileNet V3 網絡和Transformer 模型的改進在三維視線估計任務中的有效性,在MPIIFaceGaze 數據集上,基于相同的實驗環境條件,對全部15 個不同人物的45000 張人臉圖像,在角度誤差、參數量、計算復雜度方面進行了模型改進前后的實驗對比,結果如表2所示.

表2 模型改進前后性能對比Tab.2 Performance comparison before and after model improvement

其中DW 表示在Transformer模型的前向反饋神經網絡層加入的深度卷積,CA 表示在MobileNet V3網絡中引入的坐標注意力模塊.分析實驗結果可知,在Transformer 模型的前向反饋神經網絡層加入一層深度卷積后,模型性能得到顯著提高,最后在MobileNet V3 網絡中引入坐標注意力模塊,視線估計的準確度達到最高.改進后的方法相比原始MobileNet V3+Transformer、MobileNet V3+Transformer+DW 方法準確率分別提高約0.72°和0.31°.另外,本文方法的參數量相比MobileNet V3+Transformer 和MobileNet V3+Transformer+DW 明顯降低,本文方法的計算復雜度也比具有壓縮-激勵注意力機制的MobileNet V3+Transformer+DW 方法略有降低,可見本文方法所做的改進是有效的.

3 結語

本文提出了一種基于混合Transformer 模型的視線估計方法,利用改進后的MobileNet V3 網絡構建特征提取器,在MobileNet V3 網絡中引入了坐標注意力模塊,充分有效地提取圖像中的特征,然后將特征輸入到改進后的Transformer 模型中,通過在Transformer模型的前向反饋神經網絡層加入一層深度卷積,提升了模型在視線估計任務中的準確性.通過與其他方法的實驗對比,本文方法可以較為準確地進行三維視線估計,并且模型的參數量能維持在較低的水平.

猜你喜歡
視線特征提取注意力
讓注意力“飛”回來
要去就去視線盡頭的山
基于Daubechies(dbN)的飛行器音頻特征提取
你吸引了我的視線
“揚眼”APP:讓注意力“變現”
Bagging RCSP腦電特征提取算法
A Beautiful Way Of Looking At Things
當代視線
基于MED和循環域解調的多故障特征提取
雨天戴偏光太陽鏡 視線更清晰
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合