?

基于Transformer動態場景信息生成對抗網絡的行人軌跡預測方法

2022-08-13 08:22邱文濤張艷寧
電子學報 2022年7期
關鍵詞:行人軌跡動態

裴 炤,邱文濤,王 淼,馬 苗,張艷寧

(1.陜西師范大學現代教學技術教育部重點實驗室,陜西西安 710119;2.陜西師范大學計算機科學學院,陜西西安 710119;3.上海交通大學航空航天學院,上海 200240;4.空天地海一體化大數據應用技術國家工程實驗室,陜西西安 710129;5.西北工業大學計算機學院,陜西西安 710129)

1 引言

基于深度學習的行人軌跡預測[1]是近年來人工智能和計算機視覺領域的熱點研究問題,應用在視頻安防監控、目標跟蹤等方面.行人軌跡預測是根據目標行人的歷史軌跡以及行為特征綜合分析后,推測出目標行人在未來的位置坐標[2].在行人密集的公共場所,監測場所內行人的活動軌跡,并分析人群的運動、檢測異常的行人軌跡,對犯罪預防、防恐防暴等公共安全領域有著積極的作用[3,4].在目標跟蹤[5,6]領域,在跟蹤過程中因目標行人被短暫遮擋而導致跟蹤失敗時,可以使用行人軌跡預測技術預測目標行人的未來軌跡,實現對目標行人的繼續跟蹤.

行人間的社交關系與所處的場景都會影響行人對未來路徑的規劃.例如當目標行人前方有結伴而行的路人時,根據社交慣例,其不會從路人之間徑直穿越,而是選擇繞行.在道路上遇到不同障礙物時會選擇不同的策略改變其行進方向,其可以分為靜態障礙物和動態障礙物兩類:當目標行人遇見靜態障礙物,如道路旁停放的汽車、樹木以及建筑物,這時行人會選擇繞行,而當其遇見動態障礙物,如行駛的汽車,行人首先會預估汽車的行進速度及其對自身前進路徑的影響,進而會選擇減速慢行或者駐足等候汽車通過.

行人軌跡預測本質上是基于時間序列的預測問題,該問題更關注近距離范圍內的鄰居行人及環境對目標行人的影響,較遠距離的鄰居行人及環境對目標行人的影響相對較弱,LSTM 在處理長距離依賴的時序問題上有較好的效果,但在短距離預測方面稍顯不足,此外,靜態場景信息對行人路徑規劃的影響體現在當前短時間內,而動態場景信息會影響行人對未來長遠的路徑規劃.

因此,有效利用物理環境以及行人間的社交關系對解決行人軌跡問題至關重要,為解決上述問題,本文提出一種基于Transformer 動態場景信息生成對抗網絡的行人軌跡預測方法,該方法首先構造動態場景信息提取模塊,提取動態場景信息特征,同時利用Transformer在解決短距離依賴的時序問題上的優勢,以此構造基于Transformer 的生成對抗網絡對行人軌跡進行特征提取,同時利用池化模塊將動態場景信息和行人社會交互信息進行特征融合,增強模型對物理場景信息以及社交信息的學習,進而提高模型預測的精準率.

主要貢獻如下:

1.首先為了解決LSTM 在短距離依賴的時序預測問題上的不足,本文使用在短距離依賴的時序預測問題表現更好的Transformer 網絡取代LSTM,Transformer網絡的自注意力機制使網絡在提取目標行人的社會交互信息特征與歷史軌跡特征時更加關注近距離的鄰居行人.

2.其次通過構造動態場景信息提取模塊,使用卷積神經網絡[7]提取動態場景信息特征,并利用池化模塊將動態場景信息特征、歷史軌跡特征、行人社會交互信息進行特征融合.池化模塊利用社交邊界模型對其交互信息進行池化操作,選取對行人軌跡產生最大影響的特征信息,將其與動態場景信息特征進行特征融合后反饋至解碼器進行預測,從而實現將動態場景信息和行人社會交互信息結合,提升模型合理預測的精度.

3.最后構建基于Transformer 的生成對抗網絡,生成器以池化層和隨機高斯噪聲為輸入,將生成的符合日常生活規范的行人軌跡信息持續輸入到鑒別器網絡,生成器和鑒別器進行博弈,不斷優化雙方網絡參數,最終使生成器可以生成高質量的行人軌跡信息擴充訓練集,從而提高模型預測的準確率.

在ETH[8]和UCY[9]數據集上的實驗結果和相關實驗分析表明,本文提出的行人軌跡預測方法相較于以往基于傳統循環神經網絡模型的行人軌跡預測算法具有更高的準確率,驗證了本文提出的行人軌跡預測方法的有效性.

2 相關工作

傳統的行人軌跡預測研究[10~14]通常使用相對復雜的數學統計模型如:本領域的開創工作是Helbing[10]提出的基于社會力的線性模型Social Force,它將行人和障礙物對目標的影響簡單抽象為引力與斥力,行人與目標相互靠近稱之為引力,反之行人與目標相互排斥從而避免碰撞稱之為斥力,以此進行建模.Kitani[11]等人使用基于隱含馬爾科夫模型和逆最優控制的方式通過對行人的動作理解進行強化學習建模,從而更好地學習靜態環境對行人軌跡的影響.但此類模型需要對場景進行語義標注,模型對復雜場景的泛化能力較低,在面對動態場景無法取得很好的預測效果.

此后基于數據驅動的深度學習模型[15~22]成為行人軌跡預測的主要方法,如基于循環神經網絡模型(Recurrent Neural Network,RNN)以及長短期記憶網絡模型(Long Short-Term Memory,LSTM)的方法[23~26]逐漸用在解決此類時間序列問題上,此類模型相較于社會力等數學統計類的模型可以處理復雜的場景,且預測準確率有較大提升,逐步成為行人軌跡預測的主流模型.現階段基于LSTM 的社交網絡模型有SRLSTM[25]、Social-LSTM[18]等模型,此類模型引入了行人社交機制,利用行人之間的歐式距離和LSTM 的隱藏特征信息進行社會化建模,通過社會池化層對其進行池化后根據隱藏狀態信息進行預測.Pei[1]提出了一種在行人密集場景下的基于Social-affinity LSTM 的行人軌跡預測方法,其根據鄰居行人的相對位置構造了一種社會親和力圖用于記錄鄰居行人的社交影響權重,Social-affinity LSTM 根據目標行人的個人軌跡特征和鄰居行人的影響進行軌跡預測.上述方法的缺點在于并未考慮行人的軌跡是多模態的,在許多情況下對于行人而言可供選擇的路徑是多樣的,并非單一路徑.

生成對抗網絡(Generative Adversarial Network,GAN)的出現為多模態的行人軌跡預測提供了技術途徑.Gupta[27]等人提出了一種基于生成對抗網絡(Social-GAN,SGAN)的行人軌跡預測方法,其通過LSTM 構造生成對抗網絡,利用生成對抗網絡的生成器網絡和鑒別器網絡不斷博弈,從而強迫網絡不斷優化模型參數、生成符合社會規范的軌跡,以此擴充數據集,提高預測精度,但它未利用任何場景信息,僅利用行人之間的社會交互信息,未考慮場景對行人的影響,因此可能會出現違背生活常識的預測軌跡.

此后Sadeghian[28]等人將場景信息與注意力機制[29,30]結合,同時利用生成對抗網絡生成多模態的軌跡.Vineet[31]等將圖注意力(Graph ATtention network,GAT)網絡和生成對抗網絡相結合,其利用圖注意力網絡對靜態場景中所有行人之間的社會交互進行建模,通過生成對抗網絡構造預測軌跡與目標行人的行為特征之間的可逆映射來生成符合社會規范的軌跡.上述方法僅考慮當前時刻靜態場景對行人的影響,未考慮動態場景的影響.

3 問題定義

行人軌跡預測問題可以看作是在固定場景中根據給定n個目標行人的歷史軌跡以及狀態特征,預測目標行人的未來軌跡坐標的問題,其本質上是基于時間序列的預測問題.在本文中,給定目標行人的軌跡X=(X1,X2,…,Xn),其 中Xi=為 場景中所有目標行人的個數為目標行人i在t時刻的坐標,tobs為觀測的時序時長.將行人的真實軌跡表示如下:

其中tpred為預測的時序長度,相似的,本文方法預測的行人軌跡表示如下:

4 基于Transformer 動態場景信息生成對抗網絡的行人軌跡預測方法

本文提出的基于Transformer 動態場景信息生成對抗網絡的行人軌跡預測方法總體網絡結構如圖1所示,模型整體由動態場景信息提取模塊、生成器網絡、池化模塊、鑒別器網絡和損失函數組成,其中動態場景信息提取模塊由卷積神經網絡構成,生成器網絡包含編碼器和解碼器,池化模塊包含行人社會交互計算模塊,鑒別器網絡包含解碼器、全連接層和多層感知機.由于本文中的生成對抗網絡與Transformer 都由編碼器與解碼器組成,作為區分,本文將生成對抗網絡中的生成器網絡與鑒別器網絡中的編碼器分別表示為G-Encoder、DEncoder,將生成器的解碼器表示為G-Decoder,將Transformer的編碼器與解碼器表示為T-Encoder、T-Decoder.

本模型的預測過程如圖1所示,首先由場景提取模塊進行動態場景信息特征提取,G-Encoder 將場景內所有行人的軌跡作為Transformer 的輸入,學習行人的歷史軌跡特征.池化模塊根據G-Encoder傳入的行人軌跡特征信息計算出目標行人的社會交互信息,之后將社會交互信息與動態場景信息進行特征融合獲得行人狀態信息.G-Decoder 將行人狀態信息加入隨機高斯噪聲進行解碼后生成相應的預測路徑.生成器網絡產生的預測路徑與真實的行人數據作為鑒別器的輸入,DEncoder 將路徑信息進行編碼之后由多層感知機對其進行分類鑒別.損失函數模塊負責計算行人軌跡預測模型的誤差,并將誤差進行反向傳播,從而增強生成器網絡生成軌跡的能力.生成器網絡和鑒別器網絡會持續進行對抗訓練,鑒別器網絡對真假軌跡信息的鑒別能力也在對抗過程中不斷提高,整個網絡的參數也不斷優化,最終生成器網絡將產生可以媲美真實軌跡的高質量軌跡序列信息,模型的預測能也隨之提升.

圖1 基于Transformer動態場景信息生成對抗網絡的行人軌跡預測方法總體網絡結構

4.1 動態場景信息提取模塊

行人當前時刻所處的靜態場景會影響行人短時間內的行進方向,而動態場景會對其未來長遠的路徑規劃產生重要影響,因此將動態場景信息引入行人軌跡預測方法顯得尤為必要.為了獲取行人所處的場景并加以利用,本文設計了動態場景提取模塊,如圖2所示.

圖2 動態場景提取模塊的工作流程

本模塊由兩個關鍵部分組成,一個是場景關鍵幀提取模塊,用于在視頻中獲取行人所處的場景.場景提取模塊首先將目標行人的編號視為鍵,將其出現的時刻視為值,由此構造哈希表.在哈希表中檢索出目標行人出現的起止時間,根據起止時間獲得視頻對應的場景關鍵幀Pt,將當前時刻到tobs時刻的幀集合設為場景集合另是卷積神經網絡模塊,其首先對中的場景關鍵幀進行特征提取,對其進行最大池化計算得到動態場景信息張量動態場景信息提取模塊工作的相關過程如下所示:

在本文中使用的卷積神經網絡CNN(·)為ResNet,其網絡初始化參數為使用ImageNet 預訓練之后得到的參數,MAX(·)代表最大池化運算.

4.2 生成器網絡

在處理時序問題上通常采用以長短期記憶網絡(LSTM)為代表的循環神經網絡(RNN),最近研究[32]表明LSTM 在解決長距離依賴的問題上表現較好,但在解決短距離依賴的問題上Transformer 網絡表現較好,因此本文選擇使用Transformer 網絡與LSTM 共同構造生成對抗網絡.與一般的生成對抗網絡相似,本文方法也由生成器網絡和鑒別器網絡組成,在本文中生成器網絡用于學習行人真實軌跡的數據分布、生成預測軌跡序列,其中G-Encoder 編碼器由Transformer 網絡構成,G-Decoder解碼器由LSTM構成.

4.2.1 G-Encoder編碼器

本文將所有行人的軌跡看作是二維坐標序列,GEncoder 編碼器首先使用多層感知機將每個行人的軌跡序列由二維坐標序列轉換為時空位置張量將其作為Transformer 網絡的輸入,Transformer 網絡將學習并得到每位行人時空位置特征信息具體過程如下:

其中,φ(·)為含有非線性激活函數ReLU 嵌入層(Embedding Layer)網絡,wee為嵌入層網絡的權重參數.式(8)中Τrans(·)為G-Encoder編碼器中的Transformer網絡.

4.2.2 G-Decoder解碼器

其中,wde為G-Decoder 解碼器中LSTM 網絡的權重參數,wdfc為全連接網絡權重參數,wdp1與wdp2為多層感知機MLP(·)的不同權重參數.

4.3 池化模塊

本文方法分別使用動態場景信息池化模塊和行人社會交互信息池化模塊來處理動態場景信息和行人社會交互信息.

4.3.1 動態場景信息池化模塊

其中?是含有ReLU 非線性激活函數的多層感知器,weh是?的權重參數.X it,ngb行人i的所有鄰居行人在t=tobs時的軌跡坐標張量.γ為多層感知機,Wep為其權重參數.

4.3.2 行人社會交互信息池化模塊

社交信息池化社交信息池化模塊首先確定影響行人的社交邊界.例如,當目標行人行走時,離其最近的人對其規劃路徑時的決策影響最大,為此本文設計了社交邊界模型來衡量行人間的社會交互影響,利用鄰里之間的相對距離和行人的當前坐標去構造邊界模型,得到社交邊界特征張量,將其與動態場景信息張量、軌跡特征張量進行特征融合后得到行人狀態信息特征具體過程如下:

其中,式(16)中Rmn(·)為指示函數,用于檢查坐標(x,y)是否在m?n表示的方格內部(在則返回1,否則返回0),Ni表示第i個行人社會邊界區域內的所有鄰居集合表示第i個人在t-1 時刻的狀態特征信息,?(·)是含有ReLU非線性激活函數的映射函數,we和wa是映射函數?(·)的權重系數.

4.4 鑒別器網絡

其中,wp為全連接層FC 的權重參數,wy為多層感知機MLP的權重參數.

4.5 損失函數

本文采用的損失函數由LGAN(G,D)和LL2(G)兩部分組成,其中LGAN(G,D)是生成對抗網絡的損失函數,LL2(G)是L2 坐標偏移的損失函數,其本質是基于最大似然定理的概率分布函數,用于計算真實坐標位移與預測得到的K個位移G(z)之間的最小差值以便提升預測軌跡的質量.通過對各個損失函數進行反向傳播,不斷地優化生成對抗網絡各層的權重參數.其表達式如下:

其中,γ為超參數,用于平衡LGAN(G,D)與LL2(G),E 為期望.

5 實驗與分析

本文實驗環境為Ubuntu 16.04,GPU為NVIDIATITAN XP,CPU為Inte(lR)Core(TM)i7-7700K CPU@4.20 GHz×8,使用的深度學習框架為PyTorch 1.7.0.

本文實驗首先在ETH和UCY兩個公共數據集上評估我們提出的方法的可行性,這兩個數據集包含真實的行人軌跡和社會活動,包括對物理障礙物的躲避、行人之間行走.其中ETH 數據集包含ETH 和Hotel 兩個場景,UCY數據集包含Zara1、Zara2和Univ三個場景.

5.1 實驗數設置及評價指標

在本文實驗中Transformer 網絡的參數如下:TEncoder 的層數為6,head 個數為6,T-Decoder 的層數為8,head 個數為8.G-Encoder 中嵌入層單元數為64,隱藏層單元數為64,多層感知機單元數為1 024,G-Decoder的嵌入層單元數為64,隱藏層單元數為128,多層感知機單元數為1 024,瓶頸層單元數為1 024,使用ReLU作為激活函數,生成器網絡的學習率設置為0.001.鑒別器中編碼器的嵌入層單元數設置為64,隱藏層單元個數設置為64,多層感知機單元數為1 024,學習率設置為0.001.池化模塊中的嵌入層單元數為64,隱藏層單元數為64,多層感知機單元數為1 024,使用ReLU 作為激活函數.場景提取模塊使用在ImageNet 數據集上預訓練的ResNet 模型,整個網絡中噪聲為8 個維度的高斯噪聲,訓練時的數據的批次大小為32,epochs 大小設置為500,訓練迭代次數設置為15 000 次,觀察軌跡的長度設置為8步,預測軌跡長度為12步.

與之前的研究方法[3,4]類似,在此本文選用ADE(平均偏移誤差)和FDE(最終偏移誤差)作為評價指標來刻畫預測軌跡的準確性.ADE 是通過計算每個時刻的預測軌跡與真實軌跡的平均歐氏距離來評估預測序列的準確性.FDE 是通過計算最終時刻的預測軌跡位置與真實軌跡位置的平均歐氏距離來評估預測序列的準確性.

5.2 實驗結果與分析

本文將文中方法和LSTM、Social-LSTM、Social-GAN、Sophie、Social-BiGAT 在ETH 和UCY 數據集上進行對比實驗.

5.2.1 定量分析

本文將文中方法和LSTM、Social-LSTM、Social-GAN、Sophie、Social-BiGAT 在ETH 和UCY 數據集上進行對比實驗.各種軌跡預測方法的ADE 和FDE 的對比結果如表1 所示.其中ADE 和FDE 的數值表示預測軌跡與真實軌跡誤差,數值越小表示預測誤差越小、準確率越高,各種場景下的最優結果已在表中標記.從表1中可以看出,本文方法的ADE 和FDE 表現在ETH 和UCY 兩大數據集中的多個場景取得了較好的效果.本文方法的行人社會交互信息池化模塊將來自于Transformer 的自注意力機制提取的社交特征與社交邊界特征進行融合,從而更準確的刻畫行人之間的社交影響.不同于上述模型僅考慮了社交因素而忽略了動態場景信息對目標行人的影響,本文方法中同時引入了動態場景信息池化模塊,將其與行人社會交互信息池化模塊相結合后產生社會交互約束,在對軌跡進行預測時會迫使模型生成符合日常生活規范的軌跡,使得模型對真實場景的擬合效果更好,模型的預測能力也隨之提升.因此本文方法在大多數場景下的ADE 和FDE 優于LSTM、Social-LSTM、Social-GAN、Sophie、Social-BiGAT 等模型.

表1 不同模型的ADE和FDE結果對比

5.2.2 消融實驗

為了進一步驗證本文提出方法的有效性,本小節中使用定量分析方法進行驗證.首先,本文選擇Social GAN 作為基線方法,測試其在各個數據集場景中的實驗結果.在此基礎上,保持相同的試驗參數設置,本文分別設計為其加入動態場景信息提取模塊、Transformer網絡以及兩者結合方法的試驗,具體對比結果如表2所示.

表2 表明:在單獨使用動態場景信息提取模塊或Transformer 網絡的情況下,本文方法在大多數場景中的ADE 和FDE 優于基線方法,在使用兩者結合的方法時,本文方法在全部場景中的ADE 和FDE 均優于基線方法.

表2 消融實驗結果對比

在ETH 數據集中,受數據集中場景的制約,行人行進路線基本固定,故動態場景信息對行人的路徑規劃有一定影響,本文方法相較于基線方法ADE 提高了19.75%,FDE 提高了22.37%,但略低于單獨使用動態場景信息的方法,推測是因為Transformer 網絡自注意力機制中的位置編碼器,使得本文方法更關注行人自身的軌跡,從而弱化了動態場景信息的影響權重.

Hotel數據集中場景較為復雜,對行人的路徑規劃影響較大,因此本文方法相較于基線方法ADE 提高了52.78%,FDE提高了60.25%,和ETH 數據集中的情況相反,單獨使用Transformer方法的準確率略高于本文方法,推測和ETH數據集中情況相似,動態場景信息對模型的影響權重略大,使得模型側重于學習動態場景信息.

Univ 數據集中行人較為密集,障礙物處于道路邊緣,因此對目標行人影響最大的是周圍行人,得益于Transformer 網絡的自注意力機制,本文方法相較于基線方法ADE提高了11.67%,FDE提高了37.5%.

Zara1 與Zara2 數據集場景相同,場景中的車輛、建筑物會影響行人對未來路徑的規劃,本文方法相較于基線方法ADE 分別提高了5.88%、26.19%,FDE 分別提高了47.62%、8.7%.

5.2.3 定性分析

圖3 展示了各模型在ETH 和UCY 數據集中各個場景中的軌跡預測可視化對比圖.其中圖3(a)為ETH 數據集場景下的軌跡預測對比圖,該場景兩側是積雪與圍墻,場景前方有路障球.從圖3(a)中可以看出,僅有本文方法預測的軌跡接近真實軌跡,LSTM、Social-GAN模型預測得到的軌跡與真實軌跡偏差較大.

圖3(b)為Hotel 數據集場景下的預測對比圖,該場景是位于車站的一個旅館前,行人的軌跡主要是進出車站或者直行經過旅館,場景中行人軌跡比較復雜.從圖3(b)第一張圖像中可以看出行人真實軌跡是直行,但Social-GAN、LSTM 預測行人將會轉向.圖3(b)第二張圖像中可以看出目標行人的真實意圖是直行路過,本文方法預測得到行人的軌跡與真實軌跡十分貼合,但Social-GAN 預測行人將會轉向進入車站,LSTM 預測的行人行進方向基本正確,但與真實軌跡相差太大.圖3(b)第三張圖像場景內行人行進方向與圖3(b)第一張圖像剛好相反,目標行人的真實軌跡是轉向,Social-GAN、LSTM 均對行人未來的行進方向判斷失誤,只有本文方法預測得到的軌跡與真實軌跡最相符.

圖3(c)為Univ 數據集場景下的預測對比圖,該場景是大學校園的一個交叉路口,該場景中人群密度大,可以看作是典型的擁擠社交場景.人群密度大帶來的問題就是行人軌跡無序,社交信息對目標行人的路徑規劃產生決定性的影響,這體現在目標行人隨時會調整前進方向,同時還會因為與其他行人交談而產生中途長時間逗留的現象.從圖3(c)中可以看出,本文方法在該擁擠社交場景中的預測表現顯著優于其他的模型,這得益于本文使用的Transformer 網絡的自注意力機制與其位置編碼器在處理時序問題上的優異表現.

圖3 各模型在不同場景的預測軌跡可視化對

圖4(a)為Zara1 數據集場景下的預測對比圖,圖4(b)為Zara2 數據集場景下的預測對比圖.兩個場景均為商場前的道路,行人的運動軌跡主要為進出商場或者路過.從圖4(a)中可以看出在行人稀疏時,各個模型的預測結果大致相似,本文方法預測的軌跡與真實軌跡幾乎重合,在各個模型中表現最優.圖4(a)中第一張圖像展示了行人轉向時各種模型的軌跡預測對比圖,從圖中可以看出LSTM、Social-GAN 模型均未預測到目標的轉向,另外從圖4(b)中第二張圖片可以看出其他模型的預測軌跡會與汽車障礙物發生接觸,這顯然違背了生活常識,而本文方法預測得到的軌跡明顯優于其他模型,這是因為本文方法引入的動態場景信息可以綜合考慮到目標旁邊的汽車障礙物,從而選擇繞過汽車調整行進方向.

圖4 各模型在zara1和zara2場景的預測軌跡可視化對比

5.2.4 預測時效分析

表3 中LSTM 模型最為簡單,預測的精準度也最低,其預測所耗費的時間為2.7 ms.Social-LSTM 在LSTM 的基礎上加入了社會池化模塊,計算量大幅增加導致時間開銷增加,其預測所耗費的時間為4.2 ms.Social-GAN與本文方法都基于生成對抗網絡,需要進行大量前向傳播以及通過優化鑒別器進行反向傳播更新生成器參數,其中Social-GAN 預測所耗費的時間為29.4 ms,本文方法引入的動態場景信息提取模塊會進行多次卷積、池化,所以耗時比Social-GAN 稍長,其預測所耗費時間為34.3 ms.對比結果如表3 所示,雖相對于其它對比方法預測耗時略長,但本文方法在34.3 ms仍然能夠預測未來120幀的軌跡,完全滿足視頻處理實時性的要求(該數據集視頻幀率為25 FPS).考慮到本文方法預測精度在對比方法中最高,因此該方法綜合表現優異.

表3 各模型預測時效分析

5.2.5 合理性分析

為了進一步驗證本文方法的預測結果是否符合日常規范,如圖5 所示,本小節分別展示了本文方法在面對靜態遮擋物和場景中移動目標時的預測結果(包含場景ETH、Hotel、Univ 和Zara1).為了將可視化的結果更好的展示,在此對每組目標生成10 次軌跡預測結果(多模態軌跡預測).其中(a)、(b)、(c)展示了本文方法面對靜態障礙物時的預測結果,(d)展示了本文方法在面對動態障礙物時的預測結果.

圖5 不同場景的多模態軌跡可視化預測結果

從圖5(a)中可以看出本文方法在面對路障球進行預測時,其預測的軌跡分布在路障球的左右兩側,從而避開路障球.圖5(b)中展示了本文方法預測的軌跡會繞過路燈.圖5(c)中展示了本文方法預測的軌跡分布在花壇旁邊的空地上.在日常生活中,行人在避讓車輛時會讓車輛先行通過,本文方法在圖5(d)Zara1 場景中生成的軌跡均未與行進中的汽車車頭部分接觸(圖中軌跡與車的其他部分也并未接觸,在第4幀之后汽車已經駛離場景).以上場景的預測軌跡符合日常規范,也證明本文方法提出的動態場景信息提取模塊是合理有效的,所預測的結果是符合日常規范的.

6 結論

針對目前行人軌跡預測方法對物理環境以及行人間的社交關系利用不充分問題,本文提出了一種基于Transformer 動態場景信息生成對抗網絡的行人軌跡預測方法.與其他行人軌跡預測方法相比,本文方法在ETH 和UCY 數據集的多數場景中ADE 和FDE 的表現優于其他方法,在復雜場景中可以較為準確的預測目標行人的軌跡,證明本文方法提出的動態場景信息提取模塊與引入的Transformer 網絡對模型的預測效果有顯著提升作用.但是在擁擠場景中,本文方法的預測效果距離預期還有提升空間.在接下來的工作中,將引入圖注意力神經網絡對行人之間的社會交互建模,以此提高本文方法在各場景中的預測精度與預測效率.

猜你喜歡
行人軌跡動態
國內動態
解析幾何中的軌跡方程的常用求法
國內動態
國內動態
毒舌出沒,行人避讓
軌跡
軌跡
動態
路不為尋找者而設
軌跡
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合