基于超輕量化孿生網絡的自然場景奶牛單目標跟蹤方法

2023-11-23 04:38劉月峰劉好峰

農業機械學報 2023年10期

劉月峰劉博暴祥劉好峰王越

(內蒙古科技大學信息工程學院, 包頭 014010)

0 引言

隨著經濟的發展和社會的進步,消費者對于牛肉的品質、奶牛的奶質有著更高的要求,奶牛養殖場需要向大規模、科學綠色養殖的方向發展[1-2]。自然場景下奶牛身份識別和跟蹤系統是奶牛養殖場智能化管理的重要內容[3-6]。對于需要著重關注的奶牛個體,例如剛治愈的奶牛、行為不正常的奶牛等,需要進行單目標跟蹤,并且可以為接下來奶牛多目標跟蹤奠定基礎。單目標跟蹤技術是近年來熱門的研究工作,主要研究方向為基于相關濾波的方法[7]和基于Siamese FC[8-10]的孿生網絡方法?；赟iamese FC的孿生網絡方法由模板分支和搜索分支組成,模板由第1幀得到的Anchor獲得,推理階段將模板圖像在搜索圖像中進行局部搜索,類似于局部單次檢測框架?；趯\生網絡的方法分為Anchor-base方案和Anchor-free方案。Anchor-base方案大多基于多尺度測試,預設一定數目的Anchor在網絡中進行訓練,而Anchor-free方案大多通過分類和回歸直接對目標進行跟蹤,獲取其位置和預測框。LI等[11]提出了區域特征提取網絡(Siamese region proposal network,Siamese-RPN),它由特征提取的子網絡和包括分類回歸分支的區域提議子網絡構成,在當時公開數據集上取得了領先的跟蹤性能指標。LI等[12]隨后又將Resnet深層網絡作為孿生網絡特征提取網絡逐層聚合,證明了先前由于深層網絡存在padding的原因破壞了跟蹤平移不變性的要求導致跟蹤失敗,并加入深度交叉相關實現模板特征與搜索圖之間的特征匹配,進一步提升了跟蹤性能。ZHANG等[13]提出了一種Anchor-free的方案預測目標的位置和大小,引入特征對比模塊,從預測的邊框中學習對象感知特征,進一步幫助跟蹤器對目標和背景進行分類。GUO等[14]使用逐像素卷積代替分離通道卷積,并加入Center-ness中心懲罰項進行跟蹤,取得了較高的性能評估指標。CHEN等[15]使用Resnet50作為骨干網絡,去掉了最后兩個卷積塊的降采樣操作,采用不同的擴張率提高模型的感受野,用分類模塊和回歸模塊組成自適應頭部,超過了當時所有跟蹤器的跟蹤效果。為了解決背景干擾大、分類和回歸樣本不匹配的問題,FENG等[16]設計了基于排序的優化損失函數,包括分類和回歸排名損失函數,進一步加強了跟蹤的性能。上述方法采取的特征提取網絡大多基于Resnet50網絡進行改進,包含較大的參數量,選取一種輕量化模型提取特征是本文研究的重點。

傳統正負樣本選取策略[14-16]將視頻數據前后相鄰幀圖像隨機抽取1幅作為正樣本,其他視頻段中隨機抽取1幅作為負樣本輸入模型訓練,將圖像數據經過翻轉、平移、亮度變換等數據增強處理后輸入訓練。go-turn[17]方法根據目標運動軌跡設計出一種運動增廣策略,正負樣本靠近目標真實框中心分布密集,向四周發散分布。這兩種選取策略對于幀速率高、視頻流穩定的攝像頭效果明顯,然而若出現丟幀或目標相鄰幀位移較大的情況,這兩種策略效果較差,故設計合適的正負樣本選取策略直接決定了本文跟蹤器性能。

通用跟蹤器[15-16]正負樣本點劃分區域方法各異,主要包括根據真實框(ground-truth)作為劃分依據和根據真實框設計橢圓作為劃分依據的方法。前者將真實框內部作為正樣本點選取區域,外部作為負樣本點選取區域,由于大部分物體真實框邊界存在大量背景干擾,若將背景作為正樣本傳入網絡則會增大模型學習難度。后者結合通用跟蹤對象外形特征,設計兩個橢圓作為樣本點代選區域,增加無關樣本點的選取,巧妙地將物體邊緣較難學習位置忽略,提升了跟蹤精度。

現有跟蹤器方法使用的特征提取網絡大多基于淺層網絡Alexnet和深層網絡Resnet系列網絡,Alexnet網絡參數少但特征提取能力較差,Resnet網絡有較強的特征提取能力卻包含大量的冗余參數。Mobileone網絡基于MobileNet網絡[18]改進,是一種輕量型架構,它的特點是低參數量、高效率完成深度學習任務,合并冗余參數的設計壓縮了網絡結構,大大提升了推理速度,是一種十分適用于部署移植的網絡架構[19-20]。

本文旨在研究一種適合在自然場景下部署的奶牛單目標跟蹤器,“自然場景”即飼養奶牛的牛舍場景,其中包含奶牛間遮擋、牛舍欄桿遮擋、晝夜光線變化以及復雜的背景噪聲等實際飼養場景。為提升數據樣本采集多樣性,還加入公開數據集的奶牛數據,并提高正樣本質量來增強模型學習能力,最后將跟蹤器輕量化壓縮。

1 材料和方法

1.1 研究方案

本文首先將獲取到的視頻轉換為圖像數據后制作單目標跟蹤數據集,并加入部分公開數據集中“?！?、“馬”的跟蹤數據,進行多數據集聯合訓練。首先進行正負樣本的選取,結合傳統方法和go-turn方法,將圖像相鄰n幀隨機抽取2幅圖像作為正樣本,從其他視頻序列隨機抽取6幅圖像作為負樣本;接著進行樣本預處理工作,將2幅正樣本采用shiftbox-remo的數據增強方式,每幅圖像隨機增強11次,均勻正樣本的分布,增加樣本多樣性,共組成24對正樣本對,6對負樣本對,并進行一定概率的遮擋、亮度變換、翻轉操作;然后傳入改進后的backbone特征提取網絡Mobileone-remo,將Mobileone中步長(stride)為2的雙、三支結構重參數化為單支結構,處理速度更快、參數量更少;預設2組自適應權重,將1/8、1/16、1/32尺度下的特征層進行融合,一組用于回歸分支,一組用于分類分支;再采用分離通道卷積的方式傳給分類分支和回歸分支;最后模型通過分類損失、回歸損失、中心排序損失(Center-rank loss)聯合優化網絡參數,完成奶牛單目標跟蹤器的設計工作,本文具體研究方案流程圖如圖1所示,跟蹤器Siamese-remo網絡模型如圖2所示。

圖2 Siamese-remo網絡模型示意圖Fig.2 Schematic of Siamese-remo network model

1.2 數據材料獲取和數據集構建

1.2.1數據材料獲取

本文使用的數據集由兩部分構成,一部分為2020年內蒙古自治區包頭市某奶牛養殖場采集到的52頭奶牛視頻。視頻共2 596段,每段60 min,視頻格式為MPEG4,視頻幀高度為1 080像素,寬度為1 920像素,碼率為1 639 kb/s,傳輸速率為60 f/s。另一部分為公開數據集中牛類、馬類視頻和圖像。由于牛和馬的體型相似,且為了增添訓練樣本的多樣性,本文擴充一定規模的數據,將搜集到的公開數據集中牛類、馬類的單目標跟蹤視頻、圖像加入訓練集。

1.2.2數據集構建

本文結合自然場景下奶牛養殖場的視頻圖像,制作了符合單目標跟蹤的數據集。由于奶牛在養殖場中行動緩慢,且處于進食狀態的奶牛位置變化較小,故首先將奶牛處于進食狀態的視頻去除,僅保留奶牛處于移動狀態的視頻圖像;由于奶牛在牛場移動緩慢,故將原視頻每10幀抽取1幀圖像;然后本文使用Labelme軟件進行數據標注,將每段視頻中每頭奶牛的行動軌跡標注信息放在一個路徑下,最終得到63段視頻,1 890段奶牛跟蹤序列;最后將數據文件進行裁剪和統一圖像大小,整理成與GOT10K格式相同的數據形式,即以真實框中心坐標為中點,經過設計好的長寬計算方式裁剪出大小為127像素的圖像作為模板圖像,大小為511像素的圖像作為搜索圖像,若裁剪窗口超出圖像范圍,則用平均RGB值進行填充,如圖3所示。

由于從自然場景下獲得的上述數據規模較小,難以完成單目標跟蹤的要求,故本文選擇將DET[21]、COCO[22]、GOT10K[23]、VID[21]、YTB[24]、LASOT[25]公開數據集中標注為“?！焙汀榜R”類的數據加入到訓練集,模型根據不同數據集保存圖像的方式分別讀取到跟蹤序列的真實框。

1.3 實驗方法

1.3.1正負樣本選取策略

本文的正負樣本選取策略通過結合Siamban方法[15]和go-turn方法[17]來增加網絡泛化性能。孿生網絡訓練樣本分為2個分支:模板分支和搜索分支,從數據集中隨機抽取1幅模板圖像,首先從其所在視頻跟蹤序列對應幀前后frame-range幀中隨機抽取2幅圖像,每幅圖像進行12次shiftbox-remo圖像增廣操作后得到一組正樣本隊列;然后從其所在不同視頻跟蹤序列幀中隨機取6幅圖像,進行shiftbox-remo圖像增廣操作后作為負樣本,即1幅模板圖像對應24幅正樣本,6幅負樣本。

模板幀圖像對應的正樣本搜索圖像區域中,根據圖像中真實框劃分區域,分為正樣本點、負樣本點和無關樣本點,分別記為1、0、-1,如圖4所示,中間小矩形面積包含的樣本點為正樣本點,大矩形外側的樣本點為負樣本點,2個矩形中間部分為無關樣本點,設計無關樣本點的目的是圖像中真實框邊緣樣本包含較多復雜背景噪聲干擾,且理論上邊緣信息網絡較難學習,故將其設置為無關樣本不參與損失計算。經過實驗對比論證,奶牛單目標跟蹤模型設計2個正方形區域劃分正負樣本點邊界效果最佳,正樣本取正樣本區域內所有正樣本點計算損失,負樣本隨機取3倍正樣本數的負樣本點計算損失。

圖4 正負樣本點選取策略示意圖Fig.4 Schematic of positive and negative sample point selection strategy

1.3.2正負樣本預處理

根據1.3.1節的描述,數據集包含尺寸為127像素×127像素的原始模板圖像和尺寸為 511像素×511像素的原始搜索圖像,本文根據原始模板圖像,在搜索圖中裁剪出相應像素的搜索圖。首先以搜索圖中真實框為基準,假設真實框寬高分別為w、h,裁剪出的搜索圖寬wcrop、高hcrop分別為w+0.5(w+h)、h+0.5(w+h),為了增加泛化性能,對寬高進行小幅度形變處理。

自然場景下奶牛單目標跟蹤受遮擋因素影響嚴重,為了解決這個問題,本文首先對裁剪框位置進行隨機選取,模擬出奶牛部分區域未受遮擋時的真實場景,實現跟蹤框“局部—整體”的跟蹤能力。采用shiftbox-remo的裁剪方式,假設真實框左上角、右下角坐標分別為(x1,y1)、(x2,y2),裁剪框左側可選擇區域即(x1-wcrop,x2),裁剪框上側可選擇區域即(y1-hcrop,y2),若超出圖像邊界,則將坐標極值設為邊界坐標,裁剪框位置范圍如圖5所示,正方形為原始搜索圖,紅色框為真實框,虛線框為裁剪框,A、B、C、D為裁剪框移動范圍極限位置,本文為了提升正樣本質量,選擇將裁剪框與真實框之間的交并比Iou>0.3的圖像作為搜索圖像,最終將裁剪后的圖像統一尺寸為160像素×160像素的搜索圖。

圖5 shiftbox-remo裁剪方式示意圖Fig.5 Schematic of shiftbox-remo cropping method

為了進一步解決遮擋問題對跟蹤模型的影響,設計了適用于上述裁剪方式的正樣本區域選取方式,如圖6所示,圖6a為裁剪框位置和原正負樣本點選取區域示意圖,回歸分支正負樣本點選取區域如黃色矩形所示,圖6b為分類分支正負樣本點選取區域隨真實框更新示意圖,紅色區域為裁剪框位置。根據1.2.2節正負樣本點選取策略,兩個黃色矩形中間部分樣本點將作為無關樣本忽略,然而經過裁剪、resize操作后僅存在無關樣本和負樣本傳入網絡,無法學習到遮擋情況下局部正樣本信息,這與本文實現“部分—整體”的跟蹤目標相悖,故將分類分支中物體真實框坐標隨著圖像裁剪操作而更新位置,這樣可以提升正樣本多樣性并提升其質量;回歸分支仍保留裁剪操作之前的坐標,這樣可以使網絡具有預測“部分—整體”的能力,而并非僅可以預測局部位置。

圖6 正負樣本點劃分區域示意圖Fig.6 Schematics of dividing positive and negative sample points into regions

考慮到自然場景下晝夜變換亮度不同,且數據集光線較暗,本文對圖像亮度進行數據增廣,提升模型在夜間的跟蹤能力,本文對模板圖像和搜索圖像進行了一定程度的翻轉、旋轉、隨機擦除等數據增強方式,提升了模型泛化能力。

1.3.3特征提取網絡——Mobileone-remo

Mobileone網絡是一個輕量化的深層網絡模型,相較于Resnet系列網絡等深層網絡模型,具有簡單、高效、即插即用的特點。如圖7所示,為了進一步壓縮網絡模型結構,并盡可能減小深層網絡中padding對于平移不變性的影響,類比于Siamese RPN++模型對Resnet50網絡的處理[12],本文將Mobileone中stride為2的3×3卷積padding設置為0,由于scale分支、3×3卷積分支、skip分支尺度不同無法相加,故將3個分支進行重參數化操作。對于僅有scale分支和skip分支的結構塊,實驗發現將其重參數化后并不會影響跟蹤性能,反而可以進一步壓縮模型,減少運算成本,故對Mobileone-remo同樣進行重參數化操作。

圖7 基線模型Mobileone與本文模型Mobileone-remo的結構圖Fig.7 Baseline model Mobileone and model Mobileone-remo

1.3.4多尺度預測

深層網絡不同層可以提取到圖像不同尺度的信息,較淺層可以獲得圖像高分辨率信息,例如顏色、位置,而較深層可以提取到圖像豐富的語義信息,跟蹤任務需要計算出跟蹤位置和跟蹤對象,故采取多尺度特征自適應融合方式訓練網絡。首先預設兩組訓練權重Wi和W′i(i=0,1,2),分別與1/8、1/16、1/32尺度特征相乘,一組用于分類分支訓練,一組用于回歸分支訓練,由深層網絡不同層提取圖像信息特點可知分類分支深層網絡權重占比較大,回歸分支淺層網絡權重占比較大。

1.3.5多功能特征頭

Siamese-remo將模板圖像和搜索圖像融合后的特征進行分離通道卷積,包含兩個功能頭進行跟蹤,一個用于分類,一個用于回歸?？紤]到模板幀在圖像預處理階段會將一定范圍背景裁剪保留,本文經過仿真統計出中心9×9區域數據仍可以捕捉到完整的跟蹤模板信息,故卷積前會對模板幀特征進行中心裁剪[12,15],以真實框中點為中心裁剪大小為9×9的區域,然后輸入分離通道卷積網絡,如圖8所示。在分類分支中,本文將圖像信息分為前景和背景,故輸出通道數為2;在回歸分支中,回歸信息為訓練樣本點與真實框4條邊的距離,分別記為L、R、T、B,故輸出通道數為4。

圖8 分離通道卷積和多功能頭示意圖Fig.8 Depth-with cross correlation and multifunctional head

1.3.6損失函數

本文在分類分支使用cross entropy loss計算;在回歸分支使用IOU loss計算;兩種損失函數權重組合自適應調優,聯合優化訓練網絡。Loss計算公式為

Loss=αLoss1+βLoss2

(1)

其中

(2)

(3)

式中α、β——網絡自適應學習權重,初始值取1

Loss1——cross entropy loss

Loss2——IOU loss

N——標簽樣本總數

y(i)——樣本為正樣本的標簽

1-y(i)——樣本為負樣本的標簽

A——預測框B——真實框

本文創新性地設計了一種基于真實框中心點位置距離的排序損失——Center-rank loss?？紤]到本文研究對象為奶牛,目標一定會占據真實框中心點附近大面積區域,故根據坐標位置對目標的分類、回歸得分進行排序,靠近目標中心的樣本點置信度高于較遠位置的樣本點置信度;同理,越靠近目標中心的樣本點IOU高于較遠位置的樣本點IOU。由于正樣本點數量過多導致排序訓練時間過長,且這種強制排名可能帶來某些樣本點排序的不合理性,本文選擇距中心位置一定區域范圍內,隨機選n個樣本點進行排序,可以在一定程度上提高模型預測能力。假設正樣本i,j∈Apos,Center-rank loss的計算公式為

(4)

式中di——正樣本i與真實框中心點的距離

dj——正樣本j與真實框中心點的距離

pi——正樣本i的前景置信度

pj——正樣本j的前景置信度

γ——超參數控制損失值

總損失函數為

Lossall=Loss+Losscenter-rank

(5)

最終本文Center-rank loss正樣本點選取范圍為原正樣本選取區域的1/4,選取點數為15。

2 實驗與結果分析

2.1 實驗系統環境和參數設置

本實驗操作系統為Ubuntu 18.04,CPU 為 AMD EPYC 7543 32-Core Processor,主頻3 400 MHz,GPU為NVIDIA GeForce GTX 3090×4,運行內存為24 GB。奶牛身份跟蹤模型訓練共20個訓練周期,對于維度為(N,C,H,W)的特征向量采用dropout方法防止過擬合,概率參數設為0.3對通道維度C進行凍結操作,并對H×W維度也按照類似dropout方式進行參數為0.05概率的凍結,以模擬出某些非全局特性,使模型學習到一定程度的局部特征。初始學習率為0.001,經5個訓練周期的學習率預熱達到0.005,backbone權重衰減系數為0.001,全局權重衰減系數為0.000 5,batch_size設置為4,num_workers設置為16,預訓練模型使用ImageNet訓練網絡模型。

2.2 評估指標

現有的用于單目標跟蹤評價的指標有準確率(Accuracy)、魯棒性(Robustness)、期望平均重合度(EAO)、查準率(Precision)、成功率(Success plot)等。魯棒性是體現跟蹤器穩定性的指標,數值越大穩定性越差,定義為每個視頻序列上跟蹤失敗的視頻幀占總幀數的比例,平均魯棒性即所有視頻序列平均跟蹤失敗比例。

EAO結合跟蹤器平均重合度和魯棒性,是一個更全面的單目標跟蹤性能評價指標,EAO數值越大跟蹤性能越好。查準率為預測框中心點位置與真實框中心點歐氏距離小于一定閾值的視頻幀百分比,以像素為單位,根據不同的閾值得到不同的百分比,該評估指標可以反映目標位置的準確性,但是無法反映目標大小與尺度變化。成功率含義為重合率得分,即IOU超過設定閾值即為跟蹤成功的幀。

2.3 單目標跟蹤實驗

本文提出的單目標跟蹤模型在奶牛測試集中準確率達到59.4%,魯棒性達到0.172,EAO達到0.475,查準率為63.1%,成功率為52.1%,模型參數量達到2.7×106,在大幅縮小模型規模的前提下保持了較高的精度。本文還對模型在其他場景下的跟蹤結果進行實驗,驗證模型的泛化能力,由于公開數據集中奶牛單目標跟蹤數據遮擋情況較少且光線較亮,跟蹤效果更優,結果準確率達到62.1%,魯棒性達到0.162,EAO達到0.512,查準率為67.4%,成功率為54.4%。跟蹤結果如圖9所示,其中包含本文數據集場景和其他場景的可視化跟蹤效果。為了更好地對比本文模型的優勢,本文對比現在較為流行的一些單目標跟蹤器訓練本數據集的結果,采用相同的參數調優策略,盡可能達到該研究方法的最優結果,EAO值如表1所示,各跟蹤器在本文測試集的查準率和成功率指標如圖10所示。

表1 不同跟蹤器跟蹤性能EAO結果比較Tab.1 Comparison of tracking performance EAO results of different trackers

圖9 奶牛跟蹤模型結果可視化效果圖Fig.9 Visualizations of dairy cow tracking model results

圖10 不同跟蹤器的成功率和查準率結果對比Fig.10 Comparison of success plot and precision plot results of different trackers

從圖9可以看出,本文模型對于解決目標受復雜背景因素影響、遮擋因素影響等問題具有較好的處理能力。從表1可以看出,僅有SiamFC和SiamRPN模型采用淺層網絡Alexnet作為特征提取網絡,而其余模型所采用特征提取網絡皆為Resnet50框架。本文選用改進的Mobileone超輕量化模型提取特征,在參數量較大縮減的情況下,通過上文的改進策略,Siamese-remo超出了大部分Resnet50模型的EAO,較性能最高的模型相比EAO僅落后2.1%,參數量卻大大縮減。在對成功率和查準率的結果比較中(圖10),本文模型較最優模型低1.1個百分點和5.2個百分點,進一步證明了本文模型的有效性。

2.4 消融實驗

2.4.1正負樣本選取及預處理策略實驗

基線模型采用隨機抽幀的方式從相鄰幀抽取正樣本,對圖像不進行預處理;go-turn方法采用運動裁剪方式,模擬物體運動軌跡,對搜索圖像隨機裁剪,重復11次,構成12對正樣本對;本文結合基線模型和go-turn模型樣本選取方法,抽取2幅正樣本,隨機進行11次shiftbox-remo裁剪方式,構成24對正樣本對。本文還對模板圖像裁剪大小、形狀進行對比,假設真實框寬高分別為w、h,裁剪中心為真實框中點,超出位置根據RGB均勻填充。裁剪方式共分為4種:①將h、w放大兩倍,然后統一到160像素×160像素。②將h、w分別放大至h+0.5(h+w)、w+0.5(h+w),并比較h+0.5(h+w)與w+0.5(h+w)像素,選擇數值大的值裁剪正方形區域,并統一至160像素×160像素。③在原圖直接裁剪160像素×160像素大小區域。④本文方法將h、w分別放大至h+0.5(h+w)、w+0.5(h+w),然后統一到160像素×160像素。實驗結果如表2所示。

表2 不同正負樣本選取及預處理策略的EAO比較Tab.2 EAO comparison of experimental results for different positive and negative sample selection and preprocessing strategies

由表2可得,對于寬高比例較大的奶牛目標,裁剪方式①會進行較大的形變處理,影響實驗結果;裁剪方式②、③對目標沒有形變處理,導致泛化性能較差,而本文方法對奶牛目標進行基于寬、高的形變,形變尺度比例適中,取得了最優效果。本文模擬了10 000幅圖像通過3種裁剪方式的真實框中心點位置,如圖11所示,可以看出基線模型沒有對裁剪位置平移,故中心點位置全部落到中央;使用運動增廣方式對裁剪框位置進行處理,模擬物體運動方向,但數據預處理后樣本分布范圍較小,泛化能力較差;使用本文的裁剪方式物體可以均勻分布在圖像各區域位置,由于需要保證裁剪框與真實框之間IOU大于0.3,故中心點落在圖像角落區域的概率逐漸降低,實驗結果證明使用本文裁剪方法跟蹤效果最佳。

圖11 經圖像裁剪后真實框中心點位置仿真結果示意圖Fig.11 Schematics of simulation results of ground truth center point position after image cropping

2.4.2正負樣本點劃分方式及選取策略實驗

實驗對比采用圖12a的正負樣本劃分方式,對比不同負樣本點數目對跟蹤結果的影響,包括隨機取24個正樣本點,隨機取72個負樣本點;取全部正樣本點,取全部負樣本點;取全部正樣本點,隨機取正樣本點3倍數目負樣本點;隨機取24個正樣本點,取全部負樣本點。還對比3種正負樣本點劃分方式的有效性,分別為橢圓、圓、矩形,并且對于是否添加無關樣本進行研究,對比實驗如圖13所示。圖13 中,p為正樣本,n為負樣本,i為無關樣本,r為矩形,c為圓形,e為橢圓形,all p為全部正樣本,all n為全部負樣本,3num(p)n為3倍正樣本數目的負樣本數。

圖13 正負樣本點選取區域劃分方式及樣本點選取數目實驗結果Fig.13 Experimental results on division of positive and negative sample point selection regions and number of sample points selected

實驗證明,由于本文跟蹤器為特定類別實例跟蹤,對于奶牛個體,外觀更接近于矩形,橢圓和圓形會將奶牛邊緣位置部分特征點定義為負樣本點進行學習,影響跟蹤器的準確性。在是否加入無關樣本的實驗中,加入無關樣本的跟蹤器EAO比不加無關樣本的跟蹤器EAO高1.3%,因為無關樣本的存在將物體邊緣難以學習到的樣本忽略,這樣可以提升正樣本數據的質量,并且可以減少由于邊緣背景噪聲帶來的影響。根據圖13可知,正樣本點全部選取,隨機選取正樣本數量3倍的負樣本效果最佳,并且結合測試結果可知正樣本數量越多對于跟蹤器的學習效果越好。由于自然場景下背景復雜,負樣本如果全部選取會在一定程度對邊緣位置正樣本有抑制作用,小概率情況下將導致跟蹤過程預測框略小。

2.4.3特征提取網絡及多尺度預測實驗

本文對不同模型特征提取網絡backbone進行比較,包括Alexnet、Resnet18、Resnet34、Resnet50、MobilenetV1、MobilenetV2、Mobileone、Mobileone-remo,利用本文制作的數據集分別訓練上述模型,實驗結果如表3所示。

表3 不同模型跟蹤性能Tab.3 Results of tracking performance indicators for different models

從表3可以發現,由于淺層網絡無法獲得深層網絡的語義信息,相較深層網絡回歸準確率較差;而深層網絡中Resnet系列網絡精度明顯高于輕量化網絡模型,但網絡模型包括大量參數,參數量為輕量化網絡模型的10～30倍;相較于其他深層輕量化網絡模型,Mobileone-remo具有跟蹤準確率更高,參數量更少的優點,在Mobileone的基礎上縮小一半的參數量,由于對步長為2的Padding置零,可以盡可能減小對跟蹤模型平移不變性的破壞,故跟蹤性能有所提升。

為了探究多尺度特征對跟蹤模型的影響,以及采用兩套初始化權重分別對分類回歸進行訓練的作用,設計相關消融實驗,實驗結果如表4所示。

表4 消融實驗結果Tab.4 Ablation experiment resultts

實驗結果表明,經過對多尺度特征進行融合,效果明顯優于僅使用單一尺度特征跟蹤,淺層網絡提取到高分辨率特征和深層網絡提取到的語義信息共同對跟蹤網絡起作用,故采用3種尺度特征自適應融合效果最佳?，F有孿生網絡跟蹤器對于分類分支和回歸分支采用相同的權重參數進行訓練,并不能很好地利用多尺度特征完成不同任務的優勢,本文采用不同初始化參數單獨訓練分類和回歸,網絡自適應訓練后打印權重信息發現,在回歸任務上深層網絡權重占比較高,在分類任務上淺層網絡權重占比較高,實驗結果證明該方法對跟蹤性能有一定程度的提升。

2.4.4不同損失函數實驗

本文比較了不同損失函數訓練對跟蹤性能的影響,僅對算法損失函數部分進行改動,實驗數據、模型以及訓練方法不變。SiamBAN模型[15]使用二元交叉熵損失函數用于分類,使用IOU損失用于回歸,按兩者所占比重1∶1進行權重計算,記為type 1,實驗結果如圖14所示;本文采用了基于樣本點與真實框中心點距離進行分類回歸排序,記為type 2;Siamese-CAR模型[14]在分類分支中加入center-ness并用于分類損失,記為type 3;回歸模型計算真實框坐標(x1,y1,x2,y2)替代L、R、T、B,使用L1損失,記為 type 4;根據Siamese-Mask模型[26]加入二值分割分支損失函數,記為 type 5;根據Siamese-RBO模型[16]在分類分支加入了基于IOU和置信度的動態排名損失,記為type 6。

圖14 6種不同損失函數跟蹤結果Fig.14 Tracking results of six different loss function

通過圖14可以看出,本文提出的基于中心位置的排序損失評估結果僅次于基于IOU和置信度動態排序的損失評估指標。結合圖15可視化分類效果,分析可得加入Rank-remo loss后,由于分類得分排序受距離影響,分類響應在目標中心至邊緣區間有一定梯度的緩慢下降;而原始損失函數由于沒有距離的影響,分類響應僅在目標邊緣突然下降,與距離無關。本文選取分類得分最高值點進行回歸訓練,選取到的最高值點距離目標中心越近,則越有利于目標回歸學習,而原始方式選取到分類得分最高值點位置區域更大,當選取到樣本點接近目標邊緣位置時會影響回歸效果,故說明在解決跟蹤問題的過程中,基于樣本點與真實框中心點距離對其分類和回歸結果進行重新排序是有效果的?；贗OU和置信度動態排序的方法,需要根據樣本點置信度排名調整IOU排名,根據樣本點IOU排名調整置信度排名,這種動態算法無疑需要更大的計算量,嚴重影響了訓練時間,這與本文設計網絡算法的初衷相違背,故設計統一排序標準——按與真實框中心點的距離進行排序,有效地降低了算法復雜度,減少了一半的訓練時間,且跟蹤性能也取得了較好的結果。

圖15 Rank-remo loss與原始損失函數分類計算結果可視化示意圖Fig.15 Visualization diagram of Rank-remo loss and original loss function classification calculation results

2.4.5數據增強實驗

本文數據為自然場景下的奶牛圖像,存在大量遮擋、光線變換等場景,為了擴充樣本多樣性,本文進行了尺度變換(SCALE)、灰度變換(GRAY)、模糊處理(BLUR)、翻轉(FLIP)、隨機擦除(ERASE)等數據增強工作,有效提升了模型性能,實驗結果如表5所示,經實驗對比各數據增強操作得出最優超參數,并設置數據增強概率SCALE為0.5, GRAY為0.4, BLUR為0.2, FLIP為0.5, ERASE為0.5。

表5 數據增強結果Tab.5 Results of data enhancement

從表5可以看出,經過采用5種常見的數據增強工作,實驗EAO提升0.022,加入灰度和隨機擦除方式的效果最為明顯,這是由于本文實驗數據集背景為牛舍,夜間光線較暗,加入灰度增廣來豐富數據多樣性,對于解決夜間跟蹤“誤跟”、“漏跟”問題效果明顯。而牛舍中存在大量遮擋場景,加入隨機擦除的方式也有利于模型的性能提升。

2.4.6其它實驗

本文對推理階段模板幀是否更新進行比較,在模板幀更新模型中,將前一幀作為后一幀跟蹤模型的模板圖像進行處理[27]。實驗發現,模板幀更新會導致跟蹤失敗,實驗結果較差,模型跟蹤失敗后也缺乏糾錯能力,當預測框位置準確率較低時,會影響模板幀更新后質量,導致跟蹤失敗。還比較了不同預訓練模型對實驗的影響,分別包括使用ImageNet[28]預訓練模型、通用多類別跟蹤數據集預訓練模型、奶牛目標檢測數據預訓練模型等,比較發現使用ImageNet預訓練模型效果較好。

3 結束語

提出了一種自然場景下奶牛單目標跟蹤模型,基于傳統孿生網絡算法,設計了一種新型的正負樣本選取策略,提升了模型樣本的多樣性,并進行shiftbox-remo數據增強處理,提升正樣本采集質量。然后使用改進后的Mobileone-remo網絡提取特征,融合1/8、1/16、1/32尺度特征,并分別輸入分類分支和回歸分支,采用超輕量化模型提取到高質量特征。最后加入了中心點排序損失函數進行訓練,根據樣本點與真實框中心點距離優化模型參數。實驗證明,本文提出的跟蹤器在奶牛測試數據集的EAO評估指標達到0.475,模型參數量縮小至1/20,節省了計算資源,提高了計算效率,驗證了本文方法的有效性,為奶牛身份識別與目標跟蹤系統的研究提供了技術支持。