?

基于多頭軟注意力圖卷積網絡的行人軌跡預測

2023-03-24 13:24彭濤康亞龍余鋒張自力劉軍平胡新榮何儒漢李麗
計算機應用 2023年3期
關鍵詞:有向圖行人注意力

彭濤,康亞龍,余鋒,張自力,劉軍平,胡新榮,何儒漢,李麗

(1.紡織服裝智能化湖北省工程研究中心(武漢紡織大學),武漢 430200;2.湖北省服裝信息化工程技術研究中心(武漢紡織大學),武漢 430200;3.武漢紡織大學 計算機與人工智能學院,武漢 430200)

0 引言

行人軌跡預測基于當前已知行人隨時間變化的笛卡兒坐標集,預測未來時間內行人的運動軌跡。行人軌跡預測在監控系統、無人駕駛等應用領域有著重要作用[1]。在監控系統下,行人軌跡預測能夠判斷是否有異常情況;對于無人駕駛系統,行人軌跡預測能夠提供關鍵的行人軌跡信息。

在早期的工作中,Helbing等[2]提出了社會力模型描述行人間的作用力;Keller等[3]組合貝葉斯濾波器和運動學模型以預測行人的軌跡;Kooij等[4]建立了基于上下文的動態貝葉斯網絡以預測行人軌跡。上述方法需要對模型進行嚴謹的建模,存在一定局限性,而基于深度學習的軌跡預測方法則不需要預設固有的物理模型,憑借大規模數據集就能擬合較好的映射關系。目前,大量基于深度學習的軌跡預測方法被提出,社會長短期記憶(Social Long Short-Term Memory,S-LSTM)網絡[5]是首個使用深度學習預測行人軌跡的算法。S-LSTM 使用循環神經網絡(Recurrent Neural Network,RNN)對每個行人進行建模,并設立一個社交池計算行人之間的相互影響,通過發掘行人之間的隱藏信息預測行人的軌跡。社會生成對抗網絡(Social-Generative Adversarial Network,S-GAN)[6]使用生成對抗網絡(Generative Adversarial Network,GAN)預測多模態軌跡,并提出一種池化機制根據行人之間的相對距離計算行人之間的交互作用。社會時空圖卷積神經網絡(Social Spatio-Temporal Graph Convolutional Neural Network,Social-STGCNN)[7]直接將行人的軌跡建模為圖,并對邊進行加權,由行人之間的相對距離表示行人之間的交互作用。這些算法忽略了行人交互作用的有向性,而稀疏圖卷積網絡(Sparse Graph Convolution Network,SGCN)[8]提出了稀疏有向交互作用算法解決了行人之間交互作用無向的問題。但SGCN 忽略了兩個問題:1)行人在同一空間位置下有意義的位置交互信息;2)同一時間單個行人與全局行人交互對行人軌跡預測的影響。為解決上述問題,本文提出多頭軟注意力(Multi-head Soft ATTention,MS ATT),即多頭空間和通道注意力,如圖1 所示,其中⊙為哈達瑪積??臻g注意力關注行人在同一空間位置下交互信息的位置信息;通道注意力則考慮什么樣的交互信息才有意義。

圖1 多頭軟注意力的結構Fig.1 Structure of multi-head soft attention

為解決同一時間下單個行人與其他行人交互對行人軌跡預測的影響,引入內卷網絡Involution[9]。內卷網絡的卷積核Involution Kernel 在每個空間位置下都不同,根據單個位置鄰域的元素動態生成對應位置下的Involution Kernel 并與輸入的特征圖進行全局乘加運算,從而解決同一時間下單個行人與其他行人交互對行人軌跡預測的影響。在此基礎上,提出一種稀疏內卷學習,如圖2 所示,利用MS ATT 獲取行人之間的交互得分,通過內卷網絡獲取單個行人與全局的互動信息,生成更高層次的交互特征。使用Zero-Softmax 函數的歸一化操作修剪多余的交互作用后,可以獲得稀疏空間和稀疏時間鄰接矩陣。在得到稀疏鄰接矩陣后,考慮到非對稱歸一化稀疏鄰接矩陣可以表示稀疏有向圖,通過聯合學習稀疏空間和稀疏時間有向圖,建模稀疏有向交互和軌跡的運動趨勢,利用圖卷積網絡(Graph Convolutional Network,GCN)級聯學習軌跡特征,并使用時間卷積網絡(Temporal Convolutional Network,TCN)[10]估計雙高斯分布參數,生成預測軌跡。

圖2 稀疏內卷學習的結構Fig.2 Structure of sparse involution learning

1 相關工作

1.1 行人軌跡預測

對于行人軌跡預測,SoPhie[11]使用卷積神經網絡(Convolution Neural Network,CNN)從整個場景中提取特征,對每個行人使用雙向注意力機制,然后連接注意力輸出與視覺CNN 輸出,以此生成未來的軌跡。PITF(Peeking Into The Future)[12]則考慮了行人周圍的環境因素,即人與場景的交互和人與對象的交互。S-BiGAT[13]使用LSTM 對每個行人的軌跡以及圖注意力網絡(Graph ATtention network,GAT)[14]的交互進行建模。RSBG(Recursive Social Behavior Graph)[15]注意到一些遠處成對的行人之間存在很強的交互作用,因此邀請社會學家根據特定的物理規則和社會學行為將行人手動分為不同的組。STAR(Spatio-Temporal grAph tRansformer)[16]通過Transformer 框架對空間交互作用和時間依賴性進行建模。SGCN 則提出了一種稀疏圖卷積網絡,分別對空間圖和時間圖進行建模,從而學習行人之間的交互作用和行人的運動趨勢以預測行人的軌跡。圖卷積神經網絡的軌跡預測模型TP-GCN(Trajectory Prediction GCN)[17]利用LSTM 提取行人軌跡的運動特征,將行人視作頂點,相互關系視作邊,并根據視覺盲區范圍篩選無關頂點間的連接權重,然后使用GCN提取不同軌跡之間的交互特征。張志遠等[18]使用行人間的距離和方向信息構建注意力模型,使用GAN 生成軌跡??諘r社交關系池化行人軌跡預測模型(Space-time sOcial relationship pooling pedestrian trajectory Prediction Model,SOPM)[19]使用空時社交匯集機制學習行人軌跡特征的全部社交,再利用關系池化方法,將空時社交特征池化為“引力-斥力”社交,再將這種社交作為RNN 解碼器隱藏部分輸入,以預測軌跡。SA-GAN(Social-Attention GAN)[20]定義了一種新型社會關系,使用注意力模型對社會關系建模,探索不同池化匯集機制對軌跡預測的影響。程媛等[21]利用非參數估計對起點與終點相同的軌跡構建密度分布的不確定軌跡模型,在預測階段,通過KS(Kolmogorov-Smirnov)檢驗方法與具有相同起點的不確定軌跡模型進行匹配,其中匹配程度最高的不確定軌跡即為預測軌跡。上述方法都使用GAN 生成更真實的軌跡,本文算法則構建時空圖,利用GCN 提取軌跡特征。本文算法與STGCNN、SGCN、TP-GCN 相似,將人視作頂點,交互作用視作邊,然后使用GCN 提取交互特征。

1.2 圖卷積和內卷網絡

GCN[22]將非歐氏空間的圖數據轉換為歐氏空間圖數據。目前的GCN 模分為兩類:1)光譜域GCN。以光譜分析的形式考慮圖形卷積的局部性,設計了基于圖傅里葉變換的卷積運算,由于拉普拉斯矩陣的特征分解,要求鄰接矩陣對稱。2)空間域的GCN。卷積核直接應用于圖節點及鄰居節點,在邊緣進行卷積,適用于非對稱鄰接矩陣。對于空間域的GCN,GAT 使用注意力機制對節點之間的交互進行建模;為了處理時空數據,時空圖卷積網絡(Spatial Temporal GCN,STGCN)[23]將空間GCN 擴展到時空GCN 進行基于骨架的動作識別,從局部時空范圍聚集節點;SSTGCNN 利用STGCN 從圖中提取空間和時間信息,預測行人的軌跡;SGCN 與已有的全局控制網絡不同,通過學習的稀疏鄰接矩陣聚合節點,動態確定要聚合的節點集,而本文算法的網絡與SGCN 相似。

內卷網絡Involution 在設計上與普通卷積(Convolution)的特性相反,在通道維度共享卷積核(Kernel),在空間維度采用空間位置下自動生成的Kernel 進行建模。在通道維度上,Convolution 的每個通道都有一個獨立、私有的Kernel;而Involution 在通道維度上共享Kernel,將通道數分成G個組,每個組共享一個自己的Involution Kernel。在空間維度上,Convolution 共享一個Kernel,采用滑動窗口的方式進行卷積運算;而Involution 在空間上每個Pixel 的Involution Kernel 都不相同,每一個像素都會有一個Kernel。Involution Kernel 的大小為H×W×K×K×G,H、W分別表示特征圖的高和寬;K為卷積核大??;G表示通道組數,G<C,C為通道數,表示通道共享G個Kernel。Involution Kernel為H∈RH×W×K×K×G。Involution 的操作主要分為兩個步驟:首先生成Involution Kernel,然后將Involution Kernel 和輸入的特征圖進行Multiply-add 運算生成對應位置的特征圖。

1.3 注意力機制

通道注意力[24]利用通道間的特征關系產生通道注意力圖,它側重于捕獲輸入圖像中有意義的特征。通道注意力包含平均池化和最大池化操作,其中:平均池化(AvgPool)可以聚合輸入圖像全局的特征信息;最大池化(MaxPool)則可以捕獲輸入圖像最顯著的特征信息。將產生的平均池化和最大池化特征輸入共享多層感知機(MultiLayer Perceptron,MLP)網絡,共享MLP 網絡由MLP 和一個隱藏層組成。共享MLP 網絡可以通過壓縮隱藏層的通道維度減少網絡參數開銷,同時保證高效地計算通道注意力。最后,將共享網絡的輸出特征進行求和得到最終的通道注意力。

與通道注意力不同,空間注意力[24]利用空間的特征關系生成空間注意力圖,側重于信息在何處,是對通道注意力的補充。為了計算空間注意力,沿通道維度應用平均池化和最大池化操作,并連接它們以生成特征信息,最后應用卷積層生成空間注意力圖。分析表明,沿通道維度應用池化操作可以有效地突顯信息區域。

2 多頭軟注意力圖卷積網絡

現有工作能夠輕松捕獲行人之間的交互作用,但難以捕獲行人在同一空間位置下有意義位置的交互信息?,F存方法在建模同一時間下單個行人與全局行人的交互時既不直觀,也難以解釋特征狀態下的物理意義。為解決這些問題,本文提出一種多頭軟注意力圖卷積網絡,如圖3 所示,?表示在C個通道上進行乘法運算,⊕表示在K×K空間鄰域內聚合求和運算。首先使用稀疏內卷學習從空間圖和時間圖學習稀疏有向交互和運動趨勢;然后,通過GCN 從稀疏空間和稀疏時間有向圖中提取交互作用和運動趨勢;最后,將學習到的軌跡特征送入時間卷積網絡預測雙高斯分布參數,該參數即預測的行人軌跡。

圖3 多頭軟注意力圖卷積網絡的結構Fig.3 Structure of multi-head soft attention graph convolution network

2.1 稀疏內卷網絡

2.1.1 圖輸入

2.1.2 多頭軟注意力

在擁擠環境下,行人自然行走時為避免相互之間發生碰撞,行人之間會產生一種交互作用力。為了建模這種交互作用,使用MS ATT 計算行人之間交互作用的得分矩陣。引入多頭形成多個子空間,讓網絡能夠關注不同方面的信息。在空間圖下,時間獨立,多頭表示不同時刻的交互信息,即每個頭關注不同時刻的交互信息;在時間圖下,每個人的運動趨勢特征獨立,多頭則表示不同行人的運動趨勢特征,即每個頭關注不同行人的運動趨勢特征。所謂MS ATT 就是多頭通道注意力和空間注意力的融合。通常利用通道注意力獲取行人之間有意義的交互Mc(Espa),如式(2)所示;利用空間注意力獲取空間位置下行人之間交互的位置信息Ms(Espa),如式(3)所示。MS ATT 將通道注意力點乘空間注意力,經過一層平均池化操作和一個卷積操作,最后經過一個Sigmoid 激活函數操作,得到多頭軟注意力Rspa,如式(4)所示。

其中:φ1(·)為全連接層表示的線性變換;σ1為Sigmoid 激活函數;Espa表示空間圖嵌入表示線性變換的權值;Rspa為行人之間交互作用的得分矩陣。

2.1.3 稀疏空間有向圖

為了得到行人之間更詳細的交互信息,首先將Rspa沿時間通道進行1× 1 融合,得到空間-時間交互特征;然后通過內卷,產生更高層次的運動交互Ispa。在時間通道上,根據特征圖上某個像素的合集作為輸入自動生成Involution Kernel。Involution Kernel 表示為,其中:φ2是由兩層線性變換中間夾雜批標準化(Batch Normalization,BN)和修正線性單元(Rectified Linear Unit,ReLU)的操作,Ψi,j是輸入特征圖坐標(i,j)鄰域的一個索引集合。因此表示輸 入特征 圖上包含的某個 像素合 集。Involution Kernel 的輸入是特征圖上(i,j)位置節點沿時間通道的一個特征向量。由于Involution Kernel 是某個通道上的特征向量,需要對它進行一個重排列轉換為空間維度,生成對應的Involution Kernel,如 式(5)、(6)所 示。最后將Involution Kernel 和輸入的特征圖進行Multiply-add 操作以生成對應更高層次的交互特征,如式(7)所示。

其中:φ3(·)由W1和W0兩層線性變換和σ2函數組成,σ2=ReLU(BN(·))代表BN 和ReLU 操作;k為通道編號;ΔK為以中心像素(i,j)進行卷積的鄰域偏移量集鄰域的偏移量為Involution的分組操作。

在得到高層次交互Ispa的基礎上,可以得到稀疏交互作用的掩碼Mspa:

其中:F{·}表示等式成立輸出為1,否則輸出為0;ε越大,行人之間交互作用越稀疏,反之,表明行人之間的交互作用越密集。

為了確保節點自連接,添加了一個單位矩陣Iidentity與稀疏交互作用掩碼Mspa相加,得到的結果與表示交互作用得分矩陣的Rspa相乘,最后得到稀疏空間鄰接矩陣:

其中:⊙為哈達瑪積。

為了得到最終的稀疏空間有向圖,把式(9)得到的稀疏鄰接矩陣通過Zero-Softmax 函數激活,得到歸一化的鄰接矩陣結合空間圖的節點Vt可以得到稀疏空間有向圖G=。具體過程圖3 所示。

2.1.4 稀疏時間有向圖

對于稀疏時間有向圖的生成,其生成部分與稀疏空間有向圖類似,不同的地方是在時空融合部分,空間有向圖沿時間通道進行了1× 1 的卷積融合,對于時間有向圖,則沒有這個操作,是因為行人的數量N會隨著場景的不同發生改變,只需要在時空融合部分直接使用多頭軟注意力產生的行人運動趨勢得分矩陣Rtmp,同稀疏空間有向圖對Rtmp進行處理,得到表示行人運動趨勢特征的鄰接矩陣

如同稀疏空間有向圖,從輸入的時間圖中獲得了稀疏時間有向圖以此來表示行人的運動趨勢。

2.2 軌跡表示和預測

非歐數據節點的鄰居節點數量可能不同,由于它不具備平移不變性,因此不能用CNN 提取圖像中相同的結構。因此本文采用GCN 對稀疏空間有向圖和稀疏時間有向圖中的節點進行聚合,以此學習軌跡特征。使用兩個GCN 對稀疏空間有向圖和稀疏時間有向圖進行處理:一個是先把送入GCN,然后把送入GCN;另一種方式與此相反。具體表示如式(10)~(11):

其中:δ為參數修正線性單元(Parametric Rectified Linear Unit,PReLU)激活函數;Wspa和Wtmp是GCN 的權重;YITF表示交互-運動趨勢特征,YTIF表示運動趨勢-交互特征。

TCN 擁有大規模并行處理的特點,在訓練和驗證網絡時更快,并且在處理歷史信息長短問題上更加靈活,同時TCN不存在梯度消失和梯度爆炸的問題。TCN 中同時融合YITF和YTIF,在考慮行人之間的交互特征的同時,綜合行人的運動趨勢特征,以找到行人運動狀態發生變化的關鍵點,從而能夠更好地預測行人軌跡。因此,在時間維度上采用TCN 預測雙高斯分布參數,具體表示如式(12):

模型的訓練的損失函數采用負對數似然函數:

3 實驗與結果分析

3.1 數據集和評價標準

為驗證本文算法的有效性,在ETH(Eidgenossische Technische Hochschule)[25]和UCY(University of CYprus)[26]數據集上進行訓練。ETH 包含2 個名為ETH 和HOTEL 的場景,UCY 包含3 個名為ZARA1、ZARA2 和UNIV 的場景,每0.4 s 對數據集中的軌跡采樣1 次。本文算法的訓練方法與SSTGCNN 相同,在特定場景的一部分上進行訓練,在其余部分上進行測試,并在其他4 個場景上驗證。在評估時,觀察8幀、3.2 s 的軌跡,并預測之后4.8 s 的軌跡,即12 幀圖像中行人的軌跡。

采用平均位移誤差(Average Displacement Error,ADE)[27]和最終位移誤差(Final Displacement Error,FDE)進行度量評估。ADE 測量所有的預測軌跡點與真實軌跡點的均方誤差,FDE 測量預測目的地和真實目的地的距離誤差。具體計算方式如式(14)~(15)所示:

3.2 實驗參數設置

在實驗中,設置圖形嵌入維數為64;多頭軟注意力層數為1;內卷網絡的通道維度為64;卷積核大小為3;步距為1;內卷網絡層數為1??臻g-時間圖卷積和時間-空間圖卷積分別級聯1 層、TCN 級聯5 層。非線性激活函數δ采用PReLU[28]。使用Adam[29]優化器訓練150 個epoch,數據批次大小為128,初始學習率為0.01,衰減系數為0.000 1,以50個epoch 為間隔。在推理階段,從學習的雙變量高斯分布中抽取20 個最接近地面真實的樣本計算ADE 和FDE 度量。

3.3 實驗結果

將本文算法與S-LSTM、S-GAN、SoPhie、PITF、GAT、SBiGAT、SSTGCNN、RSBG、STAR、SOPM、SA-GAN、TP-GCN、SGCN 進行實驗比較。實驗結果如表1 所示,可以看出,本文算法優于對比算法,尤其是FDE。相較于SGCN,本文算法的FDE 降低了16.92%;相較于SOPM,本文算法的ADE 降低了2.78%。通過分析發現,使用MS ATT 能有效捕獲行人之間有意義的位置交互信息,同時采用Involution 捕獲了同一時間單個行人與全局行人交互對行人軌跡預測的影響,因此可以得到更好的預測效果。

表1 不同算法的ADE、FDE指標對比Tab.1 ADE,FDE indicators of different algorithms

在算法模型訓練期間,記錄并繪制了本文算法的最小訓練損失和驗證損失隨迭代次數變化的曲線,如圖4 所示。

圖4 訓練損失與驗證損失Fig.4 Training loss and validation loss

將本文 算法與S-LSTM、SR-LSTM[30]、S-GAN、PITF、SSTGCNN、SGCN 進行對比,算法參數量和推理時間結果如表2 所示,實驗的推理時間為每個推理步驟所用時長之和。實驗結果表明,相較于SGCN,本文算法在推理時間相同的情況下,參數量減少了28.32%;相較于PITF,本文算法的參數量減少了94.95%,推理時間減少了97.38%。雖然本文算法的參數量和推理時間都高于SSTGCNN,但ADE 和FDE 都小于SSTGCNN。

表2 算法參數量和推理時間Tab.2 Parameters and reasoning time of algorithms

3.4 消融研究

為驗證算法模塊的有效性,在ETH 和UCY 數據集上進行了消融實驗,以分離每個模塊對最終性能的影響。如表3所示,本文評估了MS ATT 與Involution 模塊??梢钥闯?,只使用MS ATT,相較于同時使用MS ATT 與Involution 的本文算 法,ADE 提高了2.78%,FDE 提高了10.00%,驗證了Involution 對行人軌跡預測的貢獻。只使用Involution,ADE提高了2.78%,FDE 提高了8.48%,表明多頭軟注意力對行人軌跡預測也很重要。無論去除哪個模塊都會導致網絡的準確率降低。實驗結果表明,稀疏內卷學習的多頭軟注意力和內卷網絡對行人軌跡預測很重要。

表3 不同模塊的消融實驗結果Tab.3 Ablation experimental results of different modules

為了驗證行人之間交互作用的稀疏性對行人軌跡預測的影響,本文設置了不同大小的ε來尋找合適的閾值,具體如表4 所示。ε=1,表示行人之間沒有交互作用;ε=0,表示行人之間有非常密集的交互作用。ε越大,行人之間交互作用越稀疏;ε越小,行人之間的交互作用越密集??梢钥闯?,當ε=0.5 時,本文算法具有最佳的預測效果。

表4 不同ε閾值的消融實驗的ADE/FDE指標Tab.4 ADE/FDE indicators of ablation experiments of different ε

3.5 可視化繪制和表示

對于實際場景下軌跡預測的繪制,需要將預測坐標點轉換為像素坐標點。具體做法如下:1)使用OPENCV 每0.4 s對視頻數據集進行采樣,將視頻轉換為幀;2)輸出感興趣的預測軌跡,在文本數據集下找到對應的幀ID,從對應幀ID 到OPENCV 處理好的視頻幀下找到對應幀;3)對感興趣的預測軌跡點進行單應性變換為像素坐標點,繪制到對應的圖像幀。圖5 為直接使用預測的行人坐標點繪制的行人軌跡。

圖5 同時對比了三組不同的場景:圖5(a)、(b)表示兩個行人向相同方向行走,圖5(c)表示三個行人并排行走。實心圓點代表預測的起點,虛線代表預測的軌跡,實線代表真實的軌跡,不同標記的軌跡代表著不同的行人。在圖5(a)中,本文算法的FDE 最優;在圖5(b)中,SSTGCNN 預測的行人i的ADE 和FDE 都達到了最優,行人j的FDE 最優;圖5(c)中本文算法的FDE 同樣取得了最優。

圖5 軌跡可視化表示Fig.5 Visual representation of trajectories

圖6 為ETH、HOTEL 實際場景下部分軌跡預測的可視化表示,將本文算法、SGCN、S-LSTM 的預測軌跡和真實軌跡進行對比,圖中圓點代表行人當前位置。圖6(a)中,S-LSTM 擬合效果最優。圖6(b)、(d)、(e)中本文算法的擬合效果最優。圖6(c)中,本文算法和SGCN 都能夠很好地擬合真實軌跡,S-LSTM 的擬合較差。圖6(f)中3 種算法都能夠較好地擬合真實軌跡。圖6(g)~(i)展示了相向行走的行人受對面行人的影響,可以看出,本文算法的擬合較好。綜上所述,本文算法預測的軌跡更加貼合行人的真實軌跡。

圖6 實際場景可視化表示Fig.6 Visual representation of actual scenes

4 結語

本文提出多頭軟注意力生成行人之間的交互得分矩陣,以捕獲同一空間位置下有意義的位置交互信息;并設計了一種稀疏內卷學習網絡以模擬稀疏有向交互和運動趨勢,在ETH 和UCY 數據集上的結果均優于對比算法?,F有方法并未考慮場景因素給行人軌跡預測帶來的預測影響,因此在軌跡預測方面仍有提升空間。在今后的工作中,將研究如何有效融合場景因素以進一步提升行人軌跡預測的精度。

猜你喜歡
有向圖行人注意力
讓注意力“飛”回來
有向圖的Roman k-控制
毒舌出沒,行人避讓
路不為尋找者而設
超歐拉和雙有向跡的強積有向圖
關于超歐拉的冪有向圖
“揚眼”APP:讓注意力“變現”
我是行人
A Beautiful Way Of Looking At Things
有向圖的同構判定算法:出入度序列法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合