?

基于空間注意力和可變形卷積的無人機田間障礙物檢測

2023-03-07 03:31杜小強李卓林馬锃宏楊振華王大帥
農業機械學報 2023年2期
關鍵詞:障礙物注意力卷積

杜小強 李卓林 馬锃宏 楊振華 王大帥

(1.浙江理工大學機械工程學院,杭州 310018;2.浙江省種植裝備技術重點實驗室,杭州 310018;3.龍泉市菇源自動化設備有限公司,龍泉 323700;4.中國科學院深圳先進技術研究院,深圳 518055;5.廣東省機器人與智能系統重點實驗室,深圳 518055)

0 引言

隨著機器人技術和人工智能的快速發展,植保無人機逐漸成為我國農業航空產業的重要組成部分[1]。但是我國農田非結構化特點突出,隨機離散化分布的障礙物(樹木、電線桿、建筑、人、電線塔等)對無人機飛行安全構成嚴重威脅[2]。準確識別障礙物是無人機進行避障和路徑規劃的前提,對保證無人機作業效率和飛行安全至關重要。

傳統的無人機障礙物檢測方法是利用距離探測傳感器,如激光雷達[3]、微波傳感器[4]、超聲波傳感器[5]等,感知障礙物的存在。但是,這類方法會受到傳感器性能和環境的限制,只能獲取有限的距離和輪廓[2]。雖然現今已有研究證明能夠通過激光傳感器或深度相機等獲得的點云直接識別障礙物類別[6],但是由于點云數據的稀疏性,感知障礙物的類別精度較低[7]。為了在RGB空間對障礙物進行描述,部分研究人員還研究了基于機器學習算法和單目相機的目標感知方法,但此類方法依賴于人工選取圖像特征,計算耗時較長,難以滿足無人機高動態、高實時性作業的要求。

近年來,隨著人工智能的迅速發展,基于卷積神經網絡的深度學習算法在計算機視覺領域展現出強大的性能。隨著精準農業的發展,人工智能在其他領域的發展成果開始遷移到農業領域[8-14]。但是深層神經網絡計算量大,模型運行速度慢;又由于我國農田環境復雜,非結構化特點突出,隨機離散化分布的障礙物會導致障礙物檢測困難,直接將Mask R-CNN應用于非結構化農田環境下的障礙物檢測,會導致模型的精度下降。

MNIH等[15]最早提出注意力機制。將注意力機制與神經網絡結合,將有利于從空間域、通道域深度挖掘圖像信息的特征,進而提高神經網絡模型的檢測精度和速度。黃林生等[16]將多尺度卷積結構和注意力機制結合,提出一種農作物病害識別模型。熊俊濤等[17]在Deeplab V3網絡的基礎上引入稠密特征傳遞方法和注意力模塊,實現在復雜野外環境中為智能疏花提供視覺支持,并且該模型具有較強的魯棒性和識別率。注意力機制的引入,增強了有用特征的權重,減弱了無用特征的影響,進一步提高了特征提取能力,提高了模型的魯棒性。

標準卷積的常規采樣難以適應目標的形狀變化[18],為此,DAI等[19]提出可變形卷積,替代傳統的標準卷積,通過對卷積核中每個采樣點位置增加可學習的偏移量,從而增加空間采樣位置,可變形卷積核的大小和位置可以根據圖像內容發生自適應的變化,從而提高目標檢測的精度。SUN等[20]通過將RGB圖像與近紅外圖像融合,并引入可變形卷積對R-FCN模型進行改進,解決自然環境中的復雜背景和夜間光線不足造成甜菜幼苗和雜草識別困難的問題??勺冃尉矸e的引入提高了網絡對圖形幾何變形的適應能力,進而提高模型的特征提取能力。

我國非結構化農田環境中隨機離散分布的障礙物對植保無人機的飛行安全和作業效率有直接影響。傳統圖像識別方法依賴人工提取特征,計算耗時較長,難以適應非結構化田間復雜環境下的實時作業要求。深度學習算法雖然在圖像分類、目標檢測和圖像分割等領域應用廣泛,但在農田障礙物檢測中的應用尚有不足。

本文基于空間注意力機制和可變形卷積對Mask R-CNN模型進行優化,解決現有的深度學習模型對田間障礙物的檢測精度低、魯棒性較差等問題。

1 數據集構建

在文獻[21]的研究基礎上,通過無人機航拍、手持相機拍攝和網絡搜索等方法,采集多環境、多場景、多視角下的田間典型障礙物圖像信息,對文中數據集進行補充,包括樹木、電線桿、建筑、電線塔、無人機、人共6類障礙物,一共6 000幅圖像。同時,為了減少計算量,降低模型訓練時間,將原圖像調整為416像素×416像素。隨后,用Labelme圖像標注工具標注出障礙物圖像輪廓,共標注目標11 578個,制作成COCO格式的數據集。在數據集中隨機選取4 800幅圖像作為訓練集,600幅圖像作為驗證集,600幅圖像作為測試集,比例為8∶1∶1。圖1為6類障礙物圖像。

圖1 田間障礙物圖像示例

2 田間障礙物實例分割模型

Mask R-CNN是一種先進的實例分割算法,具有目標檢測和實例分割兩大功能,能夠精確地檢測目標并準確地分割目標,在性能上超過了Faster R-CNN,是一種綜合性能優異的實例分割算法。Mask R-CNN是一個兩階段的框架,第1階段是通過主干網絡(殘差神經網絡(ResNet)和特征金字塔網絡(Feature pyramid network, FPN))提取圖像特征,并通過區域生成網絡生成感興趣區域;第2階段用于分類提議區域并生成邊界框和掩膜。

針對非結構化農田障礙物的特點,對現有的Mask R-CNN實例分割網絡進行改進,構建一種適用于田間障礙物圖像檢測和分割的網絡。本文主要對主干網絡做出以下改進:在ResNet網絡的階段2、階段3、階段5加入空間注意力機制和可變形卷積。

2.1 基礎網絡選取

在計算機圖像視覺里,卷積神經網絡的網絡層數越深,能獲取到的信息就越多,特征也就越豐富。但是隨著網絡層數的不斷加深,就會出現梯度消失或梯度爆炸的問題[22],導致優化效果更差,測試數據和訓練數據的準確率降低。針對這個問題,對輸入層和中間層進行歸一化操作,這可以使得具有數十層的網絡能夠開始用反向傳播進行隨機梯度下降(SGD),從而讓網絡達到收斂。然而當更深層次網絡開始收斂時,出現網絡退化問題,增加層數卻導致更大的誤差。為解決這個問題,HE等[23]提出了殘差網絡。殘差網絡的核心在于ResNet殘差塊結構。

ResNet殘差塊使用Shortcut connection(捷徑連接)的連接方式進行Identity mapping(恒等映射),將輸入x與經過堆疊的權重層得到的F(x)進行跨層連接,既不增加額外參數,也不會增加計算復雜性。當x和F維度相同時有

y=F(x,{Wi})+x

(1)

其中

F=W2σ(W1x)

(2)

式中x、y——殘差塊輸入、輸出向量

F(x,{Wi})——要學習的殘差映射

σ——ReLU函數

Wi——權重

當x和F的維度不相同時,需要對輸入x進行線性映射來匹配維度,即

y=F(x,{Wi})+Wsx

(3)

式中Ws——線性映射函數

對于更深層次的網絡,為了減少訓練時間,將ResNet的瓶頸(Bottleneck)架構設計成3層堆棧,如圖2所示,這3層分別是1×1、3×3和1×1卷積,第1個1×1卷積將256維的通道降到64維,再通過另一個1×1卷積將維度還原,既保持了精度,又減少了計算量。神經網絡層數越多,對于原始數據的映射越多,可以得到更深層次的信息,但是模型訓練時間也會越長,對應的權重文件也越大,不利于模型在移動終端的部署。

圖2 瓶頸結構

2.2 注意力機制

注意力機制最早由MNIH等[15]提出并引入圖像分類領域,視覺注意力機制體現了人類視覺系統主動選擇關注對象并加以集中處理的視覺特性,該特性能有效提升圖像內容篩選、目標檢索等圖像處理能力。從人工智能角度看,注意力機制是機器學習中的一種數據處理方法,本質是利用相關特征圖學習權重分布,再用學到的權重施加在原特征圖之上,最后進行加權求和以快速提取稀疏數據的重要特征[24]。

在Transformer attention[25]的最新版本中,注意權重被表示為4個注意因子(ε1、ε2、ε3、ε4)的總和,這4個注意因子所涉及的依賴關系的性質各不相同。ε1對于查詢和關鍵內容更敏感;ε2更關注查詢內容和相對位置;ε3僅僅關注關鍵內容;ε4僅僅關注相對位置。ZHU等[26]對當前空間注意機制進行深入研究,通過分析不同注意因子的不同組合對于不同領域(圖像目標檢測、圖像語義分割、神經機器翻譯)的效果,得出注意因子為ε3(Key content only)的空間注意力機制,比4個注意因子(ε1、ε2、ε3、ε4)總和的空間注意力機制在圖像方面的精度和效率更佳。

目標檢測模型的3大組件(backbone、neck、head)中,backbone(本文采用ResNet網絡)的主要作用是特征提取,另外ResNet網絡由5個階段組成,其中階段2~5都由瓶頸層組成,瓶頸層的主要作用是進行特征提取。因此本文將在ResNet網絡的階段2~5的瓶頸層中串聯插入一個空間注意力模塊,如圖3所示,增強有用信息,抑制噪聲等干擾元素的權重。并且繼續探索在ResNet不同的階段中加入空間注意力機制對于田間障礙物實例分割模型魯棒性的影響。

圖3 加入空間注意力機制模塊的殘差塊結構

2.3 可變形卷積

由于非結構化田間障礙物形態各異,面積大小不一,這給障礙物識別任務帶來了很大的困難,而且以往的卷積神經網絡對整體特征的提取是依靠其固定的卷積結構,對于形態各異的目標特征提取的適應、調節能力較弱,目標識別能力不強,泛化能力差。實際上,傳統的神經網絡的卷積核通常是固定尺寸、固定大小(3×3、5×5),難以自適應目標的形狀變化[18]。為了解決限制傳統卷積神經網絡識別能力的這一難題,DAI等[19]提出了一種可變形卷積網絡,替代傳統的標準卷積,經研究表明,通過可變形卷積網絡增加可訓練的偏移量,從而適應目標形狀的變化,有利于提高目標檢測的魯棒性[27-29]。

二維卷積的操作步驟為:①在輸入特征圖x上使用規則網格R進行采樣。②用ω加權的采樣值進行求和。一個3×3的卷積為

R={(-1,-1),(-1,0),…,(0,1),(1,1)}

(4)

對于標準的卷積過程,輸出特征圖y中每個位置y(P0)的計算公式為

(5)

式中Pn——R中所有采樣位置

P0——輸入特征圖中每個位置

可變形卷積過程公式為

(6)

式中 ΔPn——采樣點偏移量

可見,可變形卷積就是在傳統的卷積操作上加入了一個采樣點的偏移量ΔPn,以調整關鍵元素的采樣位置,如圖4所示??勺冃尉矸e只為神經網絡模型增加少量的參數和計算,但是大大提高了目標檢測的精度[30]。

圖4 卷積核大小為3×3的正常卷積核可變形卷積的采樣方式

本文利用可變形卷積替代ResNet網絡瓶頸層中的3×3卷積,與空間注意力機制共同改進ResNet網絡,改進得到的基于空間注意力機制和可變形卷積的實例分割網絡模型(ResNet-50+SA+DCN(2,3,5))整體結構如圖5所示。

圖5 利用可變形卷積和空間注意力機制改進的Mask R-CNN實例分割網絡

3 試驗與結果分析

3.1 試驗環境

試驗選用的處理器為Intel(R)Core(TM)i7-10700K,主頻3.8 GHz,8核,16 MB緩存;64 GB內存;NVIDIA GeForce RTX2080TI(11GB)GPU用于加速計算。操作系統是Ubuntu 20.04,編程語言選用Python,選擇PyTorch深度學習框架實現網絡模型的搭建、訓練和調試。

3.2 模型訓練與對比分析

考慮模型訓練效果以及試驗條件,本文模型采用遷移學習,主干網絡采用ImageNet預訓練的ResNet-50網絡作為初始輸入權重。模型訓練的周期為24,每個周期迭代的次數為2 400;設置學習率為0.002 5,采用線性增加策略動態調整學習率,初始學習率為2.4×10-4,當迭代次數為500時,學習率調整為預設置的2.5×10-3;動量因子為0.9,權重衰減系數為0.000 1,優化算法為隨機梯度下降(SGD),損失函數為對數交叉熵損失(Cross entropy loss)。

3.2.1主干網絡選擇分析

Mask R-CNN模型的主干網絡選擇ResNet-50、ResNet-101,通過平均精度均值(mAP)、參數量、推斷時間和損失值對比,確定適合非結構化田間障礙物實例分割的主干網絡深度。試驗中,控制其他條件不變,只改變主干網絡的深度,兩個不同深度模型的性能對比如圖6所示。

圖6 ResNet-50和ResNet-101的損失值曲線

圖6中ResNet-50和ResNet-101的損失值均隨著迭代次數的增加逐漸下降并收斂,最終趨于穩定。2個網絡的損失曲線相差不大,基本重合,模型訓練的總損失分別約為0.2和0.18,一定程度上說明了2個模型具有相似的性能。此外通過表1的mAP比較,可以看出ResNet-101的mAP略微高于ResNet-50,但是相差不大,僅為2個百分點左右,但是ResNet-101模型參數量遠高于ResNet-50,約為6.276×107;推斷時間也比ResNet-50長??紤]到非結構化障礙物識別模型將用于無人機,且無人機檢測需要實時性強,機載端內存有限,考慮到ResNet-101網絡對本文研究的非結構化農田障礙物分割提取任務有較大的冗余,降低網絡深度對模型的性能影響不大,但是能提高模型的運算速度。綜上所述,選擇ResNet-50最為合適。

本文以ResNet-50為主干網絡構建Mask R-CNN實例分割模型,并用空間注意力機制和可變形卷積對主干網絡進行改進。確認模型深度為ResNet-50后,分析利用空間注意力機制和可變形卷積改進模型的有效性。首先利用空間注意力機制對Mask R-CNN進行改進,與原網絡性能進行比較。主要從mAP、AP50、AP75、APS、APM、APL、參數量和推斷時間進行性能分析。增加注意力機制模型的測試結果如表1、2所示。表1中,mAP指的是交并比從0.5開始,間隔0.05一直取值到0.95然后求得的平均值;AP50指交并比為0.5時的平均精度;AP75指交并比為0.75時的平均精度;APS、APM、APL分別對應面積小于322像素(小目標物體)、面積大于322像素小于962像素(中等目標物體),面積大于962像素(大目標物體)測試平均精度。

3.2.2改進后的網絡性能分析

由表1可知,加入空間注意力機制后的模型(ResNet-50+SA)比原模型在各項性能上都有了不同程度的提升。從Bbox來看,ResNet-50+SA模型比改進前模型的mAP高5.8個百分點,特別是小面積物體的平均精度(APS),提高20.1個百分點;從Mask來看,改進后比改進前模型的mAP提高4.3個百分點,APS提升比較顯著,為18個百分點;另外改進后模型的參數量僅增加8.6%。

從表2可知,不論是Bbox還是Mask,加入空間注意力機制后的模型比Mask R-CNN模型性能都有提升,其中電線桿的特征是細長,屬于小面積目標。這種小面積目標的平均精度(AP)從40.1%、27.5%提升到53.6%、33.1%,分別提高13.5、5.6個百分點。

表2 不同模型各個類別的AP值對比

從APS和電線桿AP可知,空間注意力機制提高了模型對于細小物體特征的提取能力??臻g注意力機制的引入可以在獲得較高AP值的基礎上,使模型參數量增長較少。

在加入空間注意力機制的基礎上,將瓶頸層的3×3卷積調整為可變形卷積,兩者結合共同改進Mask R-CNN,為了進一步優化ResNet-50+SA +DCN模型的性能,本文從ResNet階段2~5的組合((2,3)、(2,4)、(2,5)、(3,4)、(3,5)、(4,5)、(2,3,4)、(2,3,5)、(3,4,5)、(2,3,4,5))中分別引入2個模塊,并對這些組合進行遍歷,分析試驗在不同階段組合中引入空間注意力模塊和可變形卷積模塊對于模型的影響。其中,(2,3)是從ResNet的階段2、階段3引入2個模塊;(3,4,5)是從ResNet的階段3、階段4、階段5引入2個模塊;(2,3,4,5)是從ResNet的階段2、階段3、階段4、階段5引入2個模塊,以此類推。測試結果如表1、2所示。

從表1、2可知,不論從ResNet的哪個階段引入可變形卷積,ResNet-50+SA+DCN模型的綜合性能都比僅引入空間注意力機制的ResNet-50+SA模型性能更優。從ResNet的2個階段引入空間注意力機制和可變形卷積分析,ResNet-50+SA+DCN(4,5)模型比其他模型的權重文件更大;從ResNet的3個階段引入空間注意力機制和可變形卷積分析,ResNet-50+SA+DCN(3,4,5)模型比其他模型的權重文件更大。由此可知,在ResNet的前階段引入空間注意力機制和可變形卷積,能夠加強網絡前階段對重點特征信息的提取能力和提升網絡對不同尺寸的目標適應能力,減少網絡后階段需要處理的數據量,從而減少模型的參數量。從ResNet的全部4個階段進行改進對網絡性能提升不大,但是2個模塊的引入帶來的參數量會增加網絡的負荷,導致模型的參數量偏大。

從總體的mAP值和各類別的AP值、參數量、推斷時間進行分析,由表1、2可知,從3個階段((3,4,5)、(2,3,5))引入空間注意力機制和可變形卷積模塊比其他模型的綜合性能更優。此外對比ResNet-50+SA+DCN(2,3,5)和ResNet-50+SA+DCN(3,4,5)兩個模型,ResNet-50+SA+DCN(2,3,5)模型的參數量更小,速度更快;而且ResNet-50+SA+DCN(2,3,5)模型在Mask上的mAP更高,而且模型的參數量比ResNet-50僅增長6.6%,比ResNet-50+SA的參數量更少。

由表1分析可知,從Bbox來看,本文提出的ResNet-50+SA+DCN(2,3,5)模型在mAP上比YOLACT高5.9個百分點,比PointRend高1.5個百分點。從Mask來看,ResNet-50+SA+DCN(2,3,5)在mAP上比YOLACT高2.3個百分點,比SOLO高15.3個百分點,但是比PointRend低3.5個百分點;另外,ResNet-50+SA+DCN(2,3,5)的APS比YOLACT高14.9個百分點,比SOLO高25.5個百分點,比PointRend高2.8個百分點。從參數量來看,SOLO模型的參數量最少,比ResNet-50+SA+DCN(2,3,5)少1.056×107,其中PointRend的參數量最多,比ResNet-50+SA+DCN(2,3,5)多9.10×106;在推斷時間方面,ResNet-50+SA+DCN(2,3,5)的推斷時間比YOLACT少4.4 ms,比SOLO少1.3 ms,比PointRend少3.2 ms。

從表2分析可知,從Bbox的AP值來看,ResNet-50+SA+DCN(2,3,5)比PointRend、YOLACT、SOLO模型的性能都更加優異,但是從Mask的AP值來看,PointRend模型的性能更為優異。PointRend模型利用計算機圖像渲染技術提高了Mask的AP值,但是在參數量、推斷時間、Bbox方面的性能低于本文提出的ResNet-50+SA+DCN(2,3,5)模型。

綜上所述,本文將在ResNet的階段2、階段3、階段5引入空間注意力機制模塊和可變形卷積模塊,構建適用于非結構化農田障礙物識別模型ResNet-50+SA+DCN(2,3,5),模型資源開銷低,為后期將目標識別與分割模型移入內存有限的無人機設備提供了可能。

3.2.3不同模型輸出結果分析

為了更直觀地解釋引入空間注意力機制和可變形卷積對Mask R-CNN模型性能的提升,通過圖像輸出結果對不同模型進行分析。

如圖7b所示,目標人物的頭部沒有完全識別,加入空間注意力機制后,模型識別效果(圖7c、7d)比Mask R-CNN模型的識別(圖7b)更準確;其次圖7c目標手部還沒有完全覆蓋,加入可變形卷積模塊后(圖7d),目標的輪廓分割效果最好,網絡提取的特征更好地覆蓋在目標對象區域。如圖8c、8d所示,加入空間注意力模塊后的模型特征提取能力更強,可以識別到更多的物體。此外,加入可變形卷積后模型ResNet-50+SA+DCN能夠識別到更遠處的物體(圖8d)。但是對于較遠處被阻擋的目標還是會出現無法識別的情況。

圖7 不同模型的輸出結果(人)

圖8 不同模型的輸出結果(電線桿與建筑)

綜上所述,ResNet-50+SA和ResNet-50+SA+DCN模型提取的特征更好地覆蓋在目標對象區域,說明在現有的Mask R-CNN模型加入空間注意力機制模塊可以增強有用信息,提高網絡模型的特征提取能力;而加入可變形卷積模塊可以使模型增大感受野,提高模型對目標不同尺寸的適應能力,進一步說明了本文對網絡的改進是有效的,可以為無人機障礙物識別提供視覺支持。

4 結論

(1)為了建立適用于無人機田間障礙物識別的網絡模型,本文以空間注意力機制和可變形卷積改進ResNet特征提取網絡,進而優化Mask R-CNN實例分割模型,可以實現非結構化農田障礙物的識別與分割。

(2)為了提高利用空間注意力機制和可變形卷積改進Mask R-CNN模型的有效性,分析從ResNet的階段2~5中的不同組合中引入2個模塊對于模型性能的影響,最終確定在ResNet的階段2、階段3、階段5引入2個模塊的性能最優,ResNet-50+SA+DCN(2,3,5)模型的Bbox和Mask的mAP值分別為71.3%、62.3%,與僅加入空間注意力機制的模型相比,Bbox和Mask的mAP值分別提高1.0、1.1個百分點,參數量和推斷時間也有了相應的優化。

(3)與YOLACT、SOLO、PointRend模型相比,ResNet-50+SA+DCN(2,3,5)在Bbox上的mAP更高,推斷時間更短,實時性更好;另外,與Mask R-CNN模型相比,本文模型在小面積目標的檢測方面,性能更加優異。因此,ResNet-50+SA+DCN(2,3,5)模型在非結構化田間障礙物識別與分割任務中具有優異的表現,并且在控制模型檢測速度的情況下,用很小的資源開銷明顯提升了模型檢測準確率,較好地平衡了模型復雜度和識別精度,充分證明了ResNet-50+SA+DCN(2,3,5)模型在非結構化農田障礙物識別與分割上的優越性。

猜你喜歡
障礙物注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
高低翻越
SelTrac?CBTC系統中非通信障礙物的設計和處理
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
一種基于卷積神經網絡的性別識別方法
土釘墻在近障礙物的地下車行通道工程中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合