?

OMC框架下的行人多目標跟蹤算法研究

2024-03-12 08:58賀愉婷吳金蔓馬鵬森

計算機工程與應用 2024年5期

關鍵詞：注意力損失卷積

賀愉婷，車進，吳金蔓，馬鵬森

1.寧夏大學物理與電子電氣工程學院，銀川 750021

2.寧夏沙漠信息智能感知重點實驗室，銀川 750021

多目標跟蹤是計算機視覺領域的研究熱點，旨在估計視頻序列中某個或多個目標的位置和尺寸，同時賦予每個目標唯一的身份標識，并在目標運動過程中保證目標身份信息穩定。它被廣泛應用于視頻監控、城市安全、無人駕駛等領域。

多目標跟蹤按照檢測和特征提取的執行步驟，分為“分離式”跟蹤范式和“聯合式”跟蹤范式。分離式模型（如SORT[1]、DeepSORT[2]等）遵循先檢測后特征提取的步驟，分步執行的優勢是算法的準確度相對較高，但是就會導致實時性相對差一些，因此聯合式跟蹤模型JDE[3]將特征提取部分融合到目標檢測網絡中，同時輸出檢測和重識別信息，使得實時性大幅提高。與此同時，研究發現檢測任務和ReⅠD任務存在“競爭”問題，這在一定程度上限制了跟蹤的性能，因此，Zhang等人[4]提出FairMOT 算法，著重考慮了兩個分支任務的集成問題，采用CenterNet[5]作為目標檢測算法，并行輸出ReⅠD分支，并且探究了ReⅠD維度問題，將目標檢測和重識別很好地統一起來。同樣地，基于JDE 模型，Liang 等人[6]提出特征互惠網絡緩解了JDE 模型中兩個分支任務的“矛盾”，同時提出SAAN 網絡，在特征提取方面進一步優化?！奥摵闲汀备櫮Ｐ拖噍^于“分離式”模型有了極大的改進，但是仍然存在一定的問題。Liang等人[7]進一步研究發現大部分基于檢測的跟蹤模型完全依賴于檢測模型檢測結果的正確性，但是這只是理想狀態，實際應用中不會存在目標全部被檢測到的情況，因此提出OMC（one more check）算法，基于CSTrack 跟蹤框架，設計了一個Recheck 網絡，以恢復由MOT 任務中不完善的檢測所引起的錯誤分類的目標。經過對OMC算法的深入研究，本文發現雖然OMC 算法對誤檢的恢復有著不錯的效果，但是并未考慮從源頭上對特征進行優化，遮擋導致的“漏檢”和“誤檢”問題依然存在，進而造成多目標跟蹤過程中的“誤跟”和“漏跟”問題仍然嚴重。因此本文考慮從源頭優化目標特征的質量，主要基于OMC 算法提出五點改進：（1）首先優化特征提取器，在Backbone部分集成全局注意力機制，獲取跨維度的相互作用信息，強化特征；（2）在Neck部分，采用轉置卷積上采樣方法進一步增強網絡推理能力；（3）構造遞歸交叉相關網絡利用自相關和互相關性質充分學習檢測和ReⅠD 特征的特性和共性，使得模型性能增強；（4）優化尺度感知注意力網絡，集成新的通道注意力模塊HSCAM，學習強鑒別性的特征；（5）更換了檢測分支邊界回歸損失函數，采用EⅠoU作為新的損失函數，回歸更加準確，有效降低了FN和FP指標值。

1 網絡模型

1.1 整體框架

本文采用OMC算法作為基礎跟蹤框架，OMC模型主要是在CSTrack的基礎上添加了一個Recheck網絡恢復檢測器漏檢的目標。本文算法的具體流程：首先，給定一幀x，經過一個特征提取器φ處理，生成特征Ft=φ(x)，然后將Ft輸入遞歸交叉相關網絡（recursive cross-correlation network，RCCN），將共享特征進行解耦如公式（1），并通過二次交叉互相關性質學習不同任務的特性和共性，對特征進行增強，再分別輸入Head分支（包含檢測分支和ReⅠD分支），輸出檢測結果和ⅠD嵌入。此處的ReⅠD分支采用尺度感知注意力網絡（scaleaware attention network，SAAN），集成了空間和通道注意力模塊對特征進行進一步增強，此時的跟蹤器生成了檢測結果和重識別結果，Recheck網絡則用于恢復由檢測器引起的錯誤分類。本文算法的具體框架如圖1所示。

圖1 算法架構Fig.1 Algorithm architecture

公式（1）表示對共享特征Ft進行解耦，得到為檢測結果（包括∈RH×W×1為前景概率，∈RH×W×4為原始錨框），∈RH×W×C表示ⅠD嵌入(C=512)。Dbase表示經過greedy-NMS[8]進行處理后的基礎檢測結果，Dbase中的每個錨框對應于Fid中嵌入的(1×1×C)向量，所有目標ⅠD 嵌入集合表示為Eid。最后，利用錨框和Dbase的ⅠD嵌入與歷史軌跡進行關聯。

實際情況中，檢測器并不能保證檢測的完全正確，當CSTrack 基礎檢測器錯誤地將目標歸類為背景時，Recheck 網絡用以修復錯誤問題。它是由兩個模塊組成：轉換檢測模塊和過濾假陽性（false positive）的細化模塊。通過測量和當前ⅠD嵌入之間的相似性來轉換歷史軌跡。它將特征Ft與相似性圖進行融合，得到細化后的特征圖，在一定程度上緩解了由于目標在當前框中消失而導致的false positive。Recheck 網絡的執行可以表示為：

其中，Π代表Recheck 網絡，實現歷史軌跡到當前幀的轉導，輸出轉導結果Mp。Mp與原始錨框一并構成修正后的檢測結果，傳入greedy-NMS 進行處理輸出轉換檢測結果Dtrans，再通過ⅠOU 機制與Dbase相結合，輸出最終的候選錨框Dfinal，然后與中相應的ⅠD 嵌入進行關聯。

1.2 特征提取器設計

OMC 算法的基礎檢測框架采用YOLOv5 結構，為了提高性能，本文在Backbone 部分集成了全局注意力機制，增強特征輸出，同時對Neck網絡部分進行優化，將原始的最近鄰插值（nearest interpolation）上采樣方法替換為轉置卷積（transposed convolution，TC）上采樣。

首先，考慮提升檢測器的性能，在Backbone集成全局注意力（global attention mechanism，GAM）[9]，明確網絡應該關注的目標對象和位置。GAM不僅可以減少信息的丟失并且能放大全局維度交互特征。GAM包括兩個子模塊：通道注意力子模塊和空間注意力子模塊。兩個模塊的連接同CBAM 注意力機制[10]。通道注意力子模塊，通過三維排列在三個維度上保留信息，然后使用一個多層感知器（MLP）放大跨維通道-空間依賴性；空間注意力子模塊，通過使用兩個（7×7）卷積進行空間信息的融合，其中涉及到的通道縮減比r取值16（同BAM注意力機制[11]設置）。GAM 注意力機制的數學過程如公式（3）和公式（4），其整體結構圖及子模塊的結構如圖2所示。

圖2 GAM注意力機制Fig.2 GAM attention mechanism

其中，Fin表示輸入特征，Mc和Ms分別為通道注意力和空間注意力，?代表元素乘法。輸入特征經過通道注意力子模塊處理之后得到中間特征Fm，再將中間特征作為輸入傳入空間注意力子模塊處理得到強化后的特征Fout。

針對Neck 部分的優化，本文改進了原始的上采樣方式（最近鄰上采樣），替換為轉置卷積上采樣方式。最近鄰上采樣方式計算比較簡單，速度快，但是存在圖像失真，特征細節丟失等問題；而轉置卷積屬于基于深度學習的上采樣方式，權值是可學習的，通?？梢匀〉酶玫男Ч?。兩種上采樣方式的計算公式如公式（5）和公式（6），對比圖如圖3所示。

圖3 兩種上采樣方式對比圖Fig.3 Comparison chart of two up-sampling methods

最近鄰上采樣公式：

其中，(Ox,Oy)表示原圖像中像素點的坐標，(Dx,Dy)表示目標圖像中像素點的坐標，(Ow,Oh)表示原圖像的寬高，(Dw,Dh)表示目標圖像的寬高。當(Ow/Dw)和(Oh/Dh)小于1時，相當于將原圖像進行放大；反之縮小。

轉置卷積計算公式：

其中，X表示輸入（n維列向量），Y表示輸出，C表示卷積核轉換的稀疏矩陣表示，X′表示通過轉置矩陣將輸出矩陣的尺寸同輸入特征尺寸轉換一致的新輸出的矩陣。

采用不同的上采樣方式在MOT16各訓練子集上進行對比實驗如表1，可以驗證更換為轉置卷積上采樣方式后帶來了性能的增益。

表1 兩種上采樣方式在MOT16不同訓練子集上的消融實驗Table 1 Ablation experiments of two upsampling methods on different training subsets of MOT16

1.3 遞歸交叉相關網絡

本文提出遞歸交叉相關網絡（RCCN）替換CSTrack中原始的互惠網絡（reciprocal network，REN）[6]，同樣地學習檢測分支特征和重識別分支特征的特性和共性，通過學習反映不同特征通道之間相互關系的自相關性來增強每個任務的特性；通過交互不同任務之間的語義信息增強任務之間的共性。增加二次交叉關聯關系的構建，使得各個任務的特性和共性更加顯著。

遞歸交叉相關網絡的結構如圖4所示，其中輸入特征Fi∈RC×H×W，通過平均池化得到對背景信息更為敏感的特征∈RC×H′×W′，并且通過相同的操作（Conv+reshape）得到代表檢測任務的張量M1∈RC×H′W′和代表ReⅠD任務的張量M2∈RC×H′W′，再對張量轉置，進行自相關矩陣乘法和互相關矩陣乘法，并通過Softmax 計算出偏檢測任務的自相關權重WT1∈RC×C和互相關權重WS1∈RC×C，以及偏ReⅠD 任務的自相關權重WT2∈RC×C和互相關權重WS2∈RC×C。然后，通過一個可學習參數λ將自相關權重和互相關權重進行融合，分別得到最終的權重因子{W1,W2} 。自相關權重、互相關權重以及最終的權重因子的數學計算如下：

圖4 遞歸交叉相關網絡Fig.4 Recursive cross-correlation networks

得到權重因子之后，再對原始特征圖進行卷積和reshape的處理，將原始的Fi∈RC×H×W變換為Fi∈RC×N(N=H×W)，此時，就可以將重塑后的原始特征與權重因子進行矩陣乘法，分別得到兩個任務的增強特征再將其reshape 為RC×H×W。同理，本文進行二次的特征增強過程，操作過程同上，最終得到進一步增強后的特征，并且為了避免處理過程中信息的丟失，將增強特征與原始特征進行融合得到與，分別輸入檢測任務分支和重識別任務分支進行后續處理。

1.4 尺度感知注意網絡

關于ReⅠD網絡分支的構建，OMC框架中采用的尺度感知注意網絡（SAAN），如圖5所示，首先對輸入的不同尺寸的特征圖（指：原圖尺寸的1/16和1/32倍）進行上采樣到原圖尺寸的1/8倍，并通過3×3卷積進行編碼[12]；接下來，對于三個分支的處理是分別通過空間注意力（spatial attention module，SAM）抑制背景噪聲，增強目標表征。SAM具體的操作是：首先經過平均池化和最大池化生成兩個二維映射Fsavg∈R1×H×W和Fsmax∈R1×H×W,其次經過一個7×7的卷積層提取特征，然后使用Sigmoid激活函數進行歸一化，得到空間注意力圖，將得到的空間注意力權重與特征相乘得到增強后的特征，并與原始特征進行融合輸出特征，最后將處理后的三個分支上的特征Concat起來傳入通道注意力機制進行后續處理。

圖5 SAAN網絡架構Fig.5 SAAN network architecture

經過空間注意力模塊的處理，網絡獲悉了更利于產生具有強鑒別性ⅠD 嵌入的特征位置；接下來將引入通道注意力模塊（channel attention module，CAM）重點關注“什么”特征對提取強鑒別性的特征有利。本文在此處構建了新的通道注意力子模塊HS-CAM，具體的操作是：首先對傳入的特征進行并行的池化操作（包含最大池化和全局平均池化）獲得不同分辨率特征的統計信息，然后將最大池化特征和全局平均池化后的特征分別送入一個共享網絡（具有一個隱藏層的多層感知器）進行處理生成通道注意圖，原始的共享網絡采用的激活函數是LeakyReLU，雖然相比于常用的ReLU 激活函數，LeakyReLU 可以有效解決ReLU 激活函數在輸入為負值情況下梯度消失的問題，但是它需要傳入一個參數α，該參數并不能被神經元學習，靈活性低。因此，考慮到性能以及計算量，本文發現采用Hard-swish 激活函數[13]替換之后模型性能更優，Hard-swish計算公式如下：

1.5 Recheck網絡

OMC 框架中的Recheck 網絡用于恢復由檢測器引起的錯誤分類目標，由轉換檢測模塊和細化模塊構成，具體的模塊描述如下：

其中，mi中最大值的位置即為歷史軌跡的預測狀態。通過公式可以得到n個相似性響應，構成集合M={m1,m2,…,mn} ，其中的每個元素表示歷史軌跡的轉換檢測結果。實際情況中，會出現外觀相似度較高的目標，同樣會得到高響應值，這就會對預測造成干擾，影響網絡判斷，針對此，需要縮小高響應范圍，設置限制條件，加入一個縮放半徑r，將mi離散化轉成二進制掩模m?i，見公式（13）：

其中，表示m?i在(x,y)處的值，(cx,cy)表示mi中最大值的位置，r是收縮半徑。以r為邊的方框區域為限，區域內設置為1，區域外設置為0。然后，將二進制掩模m?i與原始相似性響應mi相乘以消除干擾性質的高響應帶來的模糊預測。最后會得到n個處理后的響應圖，通過元素加和操作得到最終的相似性圖。

式中，Ms表示總的相似性圖。對當前幀中的每個位置都計算出一個相似度得分，得分越高表示歷史軌跡中的目標在該位置中出現的概率越大。

經過檢測轉換模塊，生成了總相似性圖Ms，然后將Ms傳入細化模塊進行處理，目的是緩解當前幀中未出現的目標在軌跡傳導過程中帶來的假陽性問題。細化模塊具體處理過程是：首先通過兩個3×3卷積層，將Ms先映射到高維空間（Channel=256），再降維（Channel=1）得到細化后的相似度響應，然后傳入原始特征Ft與逐元素相乘得到新的特征F?∈RH×W×C,F?再通過卷積層得到最后的預測響應Mp。此時的Mp與構成預測結果Dtrans。此時Dtrans作為歷史軌跡在當前幀上的預測框與基礎檢測中的檢測框Dbase進行融合作為總的檢測框用于數據關聯，Dtrans和Dbase的融合計算如公式（15）：

式中，首先計算轉換檢測結果得到的每一個預測框bi與基礎檢測框Dbase的ⅠoU，然后基于ⅠoU的最大值計算出一個目標得分s。當s得分高時，表示該錨框在初始檢測的時候被遺漏。因此，設定一個閾值(ε=0.5)，當s高于閾值的時候，轉換檢測模塊重新訓練錨框，將其作為基礎檢測結果的補充，對基礎檢測進行修正，保證軌跡的連續性。

2 損失函數

模型搭建完成之后，引入損失函數對其進行訓練，此處主要包括檢測分支的損失、ReⅠD 分支的損失以及針對Recheck網絡設計的損失函數。

2.1 檢測分支損失函數

檢測分支損失函數主要包括分類損失和回歸損失兩部分。公式（16）～（19）分別描述了分類損失計算公式，邊框回歸損失的計算以及總的檢測損失計算公式。

分類損失主要用于前景/背景的區分，OMC 中采用Focal Loss[14]：

其中，α表示平衡樣本因子（取值0.25），γ是一個調制參數（此處取值0），pt表示真實標簽的概率，公式如下：

式中，p表示前景概率，代表向下取整操作，r表示下采樣率（取值同OMC[7]），該公式反映了處在位置的錨點作為正樣本。

針對邊框回歸損失的計算，OMC 算法中使用的完全交并比損失（complete intersection over union loss，CⅠoU Loss）[15]，但是CⅠoU 忽略了寬高分別與其置信度的真實差異，對模型的擬合造成困難，阻礙了模型優化的有效性[16]。因此本文采用有效交并比損失（efficient intersection over union loss，EⅠOU Loss）[17]，兩種ⅠoU損失公式如式（18）和（19），示意圖見圖6。

圖6 兩種ⅠoU示意圖Fig.6 Schematic diagram of two types of ⅠoU

式中，IOU=(A∩B)/(A∪B)計算的是預測錨框A與真實錨框B重合部分覆蓋的面積和二者覆蓋的總面積的比值[18]，描述兩個框之間的重合度。o代表預測框的中心點，ogt代表真實框的中心點，ρ2(o,ogt)表示兩個框中心點之間的距離，c是兩個邊框外接最小包圍框的對角線距離，其中，a=v/[(1-IOU)+v]表示寬高比損失系數，(wgt,hgt)表示真實框的寬高，(w,h)表示預測框的寬高，為真實框與預測框的寬高比損失。但是CⅠoU損失函數中的v考慮的是預測框與真實框寬高比的差異，而EⅠoU 損失函數對其進行了改進，分別計算了寬、高損失：

EⅠoU損失函數包含ⅠoU損失，距離損失和寬高損失三部分，(cw,ch)表示預測框和真實框最小外接包圍框的寬高。因此，回歸損失計算如下，其中E 表示EⅠoU 操作，傳入真實錨框bi以及在(x,y)處的預測框b?x,y。

綜上，總的檢測損失由分類損失和回歸損失組成，計算公式如下：

其中，Np表示正樣本數量，m代表分辨率數，通過加入權重因子β來確定分類損失和回歸損失在總損失計算中的占比，設置為0.05。

從圖6可以直觀看出，CⅠoU損失考慮了目標框和預測框之間的距離以及目標框和預測框的寬高比，而EⅠoU在CⅠoU的基礎上將目標框和預測框的長、寬考慮在內，可以更好地反映預測框與目標框之間的寬、高差異，加快網絡收斂，使得回歸更加準確。

2.2 ReID分支損失函數

ReⅠD 分支的損失函數同CSTrack[6]，對于外觀特征的學習，期望得到具有強鑒別性的目標，即不同的目標，距離盡可能大，因此采用交叉熵損失，數學公式如下：

式中，N表示當前幀中目標的數量，K表示目標類別數。

2.3 Recheck網絡損失函數

針對Recheck 網絡的訓練，OMC 引入了一個監督函數，由于相似度圖Mp的真值被定義為多個高斯分布的組合，因此每個目標的監督信號定義為一個類高斯掩模，計算如公式（23）：

式中，Mxy和Txy表示Mp及其監督信號T在(x,y)處的值。

因此，總的損失函數計算是三個部分損失函數的加權，具體的融合公式為：

其中，為了平衡檢測和重識別任務，增加參數η（取值0.02）[6]。

3 實驗結果與分析

3.1 數據集與評價指標

（1）數據集：

Crowdhuman數據集[19]是用于行人檢測的大型數據集，包括訓練集15 000張，測試集5 000張，驗證集4 370張圖片，數據集分布見圖7（a）。其中每張圖片中大約包含23 個人，并存在著各種遮擋情況，Crowdhuman 數據集對每個行人目標都分別對其頭部、人體可見區域和人體全身進行邊界框注釋[20]。

圖7 實驗數據集Fig.7 Experimental data sets

MOTChallenge數據集是用于行人多目標跟蹤的大型公開數據集，數據集分布見圖7（b）。其中，MOT15數據集[21]由22個視頻序列構成（11個用于訓練，11個用于測試）；MOT16 數據集[22]由28 個視頻序列構成（14 個用于訓練，14個用于測試）；MOT17數據集與MOT16數據集序列一致，不同之處是為每一個視頻序列提供3種公開檢測器（DPM、FRCNN、SDP）檢測結果；MOT20 數據集[23]由8 個視頻序列構成（4 個用于訓練，4 個用于測試），共13 410 幀，采集于密集場景，平均人群密度達到每幀246個行人。

（2）評價指標

本文在MOT16 和MOT20 數據集上測試算法的有效性，采用多目標跟蹤領域通用指標[24]來評估模型的性能，具體的評估指標及其含義如表2。

表2 多目標評估指標Table 2 Multi-objective assessment indicators

3.2 實驗環境與訓練策略

實驗環境基于Ubuntu 18.04 操作系統，1 塊Tesla V100顯卡，運行內存為64 GB，顯存32 GB，采用Pytorch 1.7.1深度學習框架，Python 3.8的服務器下實現。

訓練過程分為兩個階段，第一階段使用Crowdhuman數據集、MOT17、MOT15數據集3個數據訓練基礎跟蹤器，第二階段使用MOT17 數據集訓練Recheck 網絡，在MOT16訓練集上進行消融實驗評估對比，在MOT20訓練集上進行模型改進前后的對比實驗，在MOT16 測試集上與其他先進算法進行對比實驗，評估改進模型的正確性。

3.3 消融實驗

本文在MOT16訓練集上進行消融實驗，①是在特征提取器Neck部分采用轉置卷積上采樣；②是在特征提取器Backbone 部分集成GAM 注意力機制；③是構建RCCN 網絡；④是重構SAAN 網絡中通道注意力模塊；⑤是采用EⅠoU損失函數作為邊框回歸損失。①～⑤逐一增加改進點；⑤代表本文所提算法。實驗結果如表3 所示（↑表示指標值越高越好，↓表示指標值越小越好），模型改進可視化結果圖如圖8所示。

表3 模型在MOT16訓練集上的消融實驗Table 3 Ablation experiments of model on MOT16 training set

圖8 MOT16訓練集評估模型改進前后的對比圖Fig.8 Comparison chart of before and after model improvement evaluated by MOT16 training set

由表3可知，通過采用轉置卷積上采樣方式使得模型綜合性能指標MOTA提升0.7個百分點，FP下降210，FN下降549；通過集成GAM注意力機制，加強了網絡對有效信息的關注，指標進一步提高；RCCN 網絡通過學習任務之間的特性和共性，有效緩解了語義混淆問題，使得模型的MOTA 相較于原始模型提升1.7 個百分點，MT指標增加19，ML指標下降11；對重識別網絡的重構主要是提出HS-CAM通道注意模塊，較改進前各項指標都有所優化；最后，改進檢測分支的回歸損失函數，將原始的CⅠoU損失替換為EⅠoU損失后，加速了預測框的收斂，MOTA 提升至89.6%，ⅠDF1 提升0.9 個百分點(④vs.⑤)，模型綜合性能得以進一步提升。

可視化結果如圖8，MOT16-04數據集中，采用原始模型處理時，在110幀處一位坐著的男士被漏檢；298幀處，出現了一個框同時包含兩個行人并賦予ⅠD的情形，這將會造成歧義；在435 幀處，出現了由于行人遮擋導致被遮擋行人“掉框”的情況（以上問題在圖中用紅色虛線圈出）。而改進模型中并未出現上述問題，直觀反映了改進模型的性能。

3.4 對比實驗

本文模型與原始OMC 模型在MOT20 數據集上的對比結果如表4，可視化對比圖如圖9所示。

表4 MOT20訓練集上進行模型改進前后的對比實驗Table 4 Comparison experiments before and after model improvement on MOT20 training set

圖9 在MOT20數據集上模型改進前后對比圖Fig.9 Comparison before and after model improvement on MOT20 dataset

由表4中指標數據可知，本文改進模型MOTA指標相比較原始模型提升1.9 個百分點，ⅠDF1 上升1.1 個百分點，ⅠDP 指標輕微下降，ⅠDR 指標增加1.7 個百分點，MT 增加85，ML 減少17，綜合性能更優?？梢暬瘓D如圖9，本文任取兩幀（371 幀和404 幀）進行對比，本文發現，采用原始模型跟蹤過程中，371 幀中ⅠD 為302 的女士，由于行人的遮擋，在404幀中ⅠD切換為130，造成了身份混亂；而采用本文改進模型跟蹤時，該女士在371幀中ⅠD 為397，經過遮擋后，在404 幀ⅠD 仍然保持為397，反映出改進模型的有效性。

為了進一步驗證本文算法的優勢，在MOT16、MOT20測試集上與部分先進多目標跟蹤算法進行對比實驗。各項多目標跟蹤的評價指標如表5和表6，并且在MOT16測試集子集上的可視化跟蹤軌跡如圖10所示。

表5 模型在MOT16測試集上與其他先進算法的對比實驗Table 5 Model comparison experiments with other advanced algorithms on MOT16 test set

表6 模型在MOT20測試集上的對比實驗Table 6 Model comparison experiments with other advanced algorithms on MOT16 test set

圖10 可視化跟蹤軌跡展示Fig.10 Visual tracking trajectory display

為了實驗的公平性，本文采用相同的策略訓練OMC原始模型并在MOT16、MOT20測試集上進行評估得到了各項指標。由表5可知，基于MOT16測試集，本文模型的ⅠDF1指標相較于OMC算法提升了1.2個百分點，較JDE算法提升了14.6個百分點，FP指標較FairMOT算法減少了14 042，MTgt指標較OMC算法有所下降，但高于其他所列算法，MLgt較OMC 算法減少1.5 個百分點，但FPS 指標有所下降；基于MOT20 測試集，本文算法較OMC 算法MOTA 提升了1.5 個百分點，ⅠDF1 提升了2.3 個百分點，MTgt增加了2.1 個百分點，MLgt減少了9.9 個百分點。綜上分析，改進后的模型性能得以提升。改進模型在MOT16測試集上的可視化跟蹤軌跡展示如圖10。

4 結束語

針對多目標跟蹤中由于實際環境復雜多變導致的跟蹤性能差的問題，本文基于OMC 多目標跟蹤框架展開研究，提出改進模型以提升跟蹤性能。首先對特征提取器進行重構，在Backbone 集成了GAM 注意力機制，強化特征信息，在Neck網絡中采用轉置卷積上采樣；其次構建RCCN網絡加強學習檢測和ReⅠD任務的特性和共性，得到解耦特征；然后對SAAN網絡進行優化，構建了新的通道注意力機制HS-CAM 用于集成；最后采用EⅠoU 損失作為邊框回歸損失函數，提升了跟蹤的準確度。實驗結果表明，本文模型有效提升了多目標跟蹤指標，在人群密度較大的MOT20數據集，MOTA指標提升至62.8%；在MOT16測試集上MOTA指標較OMC算法提升了2.4個百分點，較JDE算法提升了9.1%。以上指標的提升反映了改進后跟蹤模型性能的優勢。

猜你喜歡

注意力損失卷積

讓注意力“飛”回來

小雪花·成長指南(2022年1期)2022-04-09

基于3D-Winograd的快速卷積算法設計及FPGA實現

北京航空航天大學學報(2021年9期)2021-11-02

胖胖損失了多少元

數學小靈通·3-4年級(2021年5期)2021-07-16

從濾波器理解卷積

電子制作(2019年11期)2019-07-04

玉米抽穗前倒伏怎么辦?怎么減少損失?

今日農業(2019年15期)2019-01-03

基于傅里葉域卷積表示的目標跟蹤算法

北京航空航天大學學報(2018年1期)2018-04-20

“揚眼”APP:讓注意力“變現”

傳媒評論(2017年3期)2017-06-13

A Beautiful Way Of Looking At Things

第二課堂(課外活動版)(2016年2期)2016-10-21

一般自由碰撞的最大動能損失

廣西民族大學學報(自然科學版)(2015年3期)2015-12-07

讀者·校園版(2015年19期)2015-05-14

計算機工程與應用2024年5期

計算機工程與應用的其它文章: 聯邦學習中的攻擊手段與防御機制研究綜述; 區塊鏈P2P網絡及安全研究; 深度學習的工人多種不安全行為識別方法綜述; 深度學習在骨折診斷中的應用綜述; 多模態檢索研究綜述; 三階段自適應采樣和增量克里金輔助的昂貴高維優化算法

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合