?

基于全景視覺的無人船水面障礙物檢測方法

2024-02-29 04:39周金濤高迪駒劉志全
計算機工程 2024年2期
關鍵詞:全景障礙物卷積

周金濤,高迪駒,劉志全

(上海海事大學航運技術與控制工程交通運輸行業重點實驗室,上海 201306)

0 引言

隨著無人船應用技術的不斷提高,應用場合不斷擴大,越來越多的水上交通問題越發明顯,其中,水面障礙物檢測成為解決該問題和實現無人船避障與導航的關鍵。傳統的水域目標檢測方法分為接觸式與非接觸式。接觸式檢測方法主要與過往船只在短距離范圍內通過傳感器進行識別,但這種傳感器使用并不方便,且受距離的限制。非接觸式檢測方法主要依靠特定傳感器獲取目標物體的磁場、聲波等信息來進行識別。也有研究人員將輪廓檢測等傳統圖像算法運用到目標檢測任務中。但是,在光照變化、艦船遮擋、角度變化以及視線不足等情況下,這些傳統目標檢測方法的魯棒性較弱,且無法實現實時檢測的目的[1]。

在機器人、智能汽車、智能船舶以及地理信息獲取等領域中,全景視覺取得了一些成果[2],并已成為相關領域研究的方向和重點,主要分為多目全景、魚眼鏡頭全景和折反射式全景3 類。魚眼鏡頭全景本質上是一種大廣角鏡頭,且不能實現真正的全景視覺功能。折反射式全景系統因圖像兩端嚴重畸變,導致成像質量不佳。多目全景視覺相較于魚眼鏡頭全景和折反射全景視覺系統,具有全視角、無畸變以及圖像信息豐富完整等優點[3-4]。與傳統視覺環境感知系統視場相比,多目全景視覺系統可以實現水平方向范圍內的大視場監控,其寬廣的視角為監控周圍環境帶來了便利。在多目全景圖像拼接過程中,尺度不變特征轉換(SIFT)[5]和加速穩健特征(SURF)[6]是2 種常見的基于特征的圖像配準算法。SIFT 算法對旋轉、尺度和光照具有較強的魯棒性。SURF 算法是在SIFT 算法的基礎上發展起來的,采用積分圖像和盒型濾波器對高斯二階偏導數進行簡化,縮短特征提取時間,具有與SIFT 算法相似的魯棒性。與SIFT 算法相比,SURF 算法大幅加快特征提取速度,但是在提取特征后,對2 幅圖像進行匹配時,特征點仍然存在不匹配與誤匹配的問題。隨機抽樣一致(RANSAC)[7]和M 估計樣本一致(MSAC)[8]算法常用來剔除誤匹配點。

基于深度學習的圖像處理算法相對于傳統圖像算法,具有無須手工設置特征、精度高、速度快等優點。為此,利用全景視覺技術并結合深度學習目標檢測方法,成為無人船水面障礙物檢測的1 個重要技術。針對無人船在航行過程中障礙物檢測的目標過小或目標被遮擋等問題,文獻[9]提出一種基于深度卷積神經網絡的海面小目標多幀檢測方法,表現出可接受的泛化能力,比常規檢測方法具有更優的探測性能。文獻[10]基于K-最鄰近(KNN)算法和異常檢測的思想設計一種全新的分類器,有效避免現有方法在水面小目標檢測時尺寸限制和特征壓縮損失,顯著提升性能。最新研究表明,YOLO 系列算法可以適用于各種不同的目標檢測場景。文獻[11]提出一種基于改進YOLOv5 的不同交通場景下的車輛檢測方法。文獻[12]提出一種基于YOLOv5 多尺度特征融合的水下目標檢測輕量化算法。文獻[13]提出一種基于YOLOv5 的卷積神經網絡來檢測軸承蓋缺陷。文獻[14]提出一種用于車輛目標檢測的增強 型YOLOv4 網 絡。文 獻[15]提出一 種改進YOLOv5 的遙感小目標檢測網絡,解決遙感圖像中小目標易被錯檢、漏檢等問題。在水面障礙物檢測方面,針對在小物體檢測效果差,水面反射引起的估計精度低等問題,文獻[16]提出一種基于圖像分割的水面障礙物檢測網絡。文獻[17]提出一種基于單目視覺的新型實時障礙物檢測方法,以有效區分海面上的障礙物和復雜的背景。文獻[18]提出一種基于擴張卷積神經網絡的水面無人艇障礙物類型識別方法。文獻[19]提出一種基于卷積神經網絡的水面無人船障礙物檢測方法,進一步提高對某些類型障礙物的檢測和分類能力。但對于視角不足的問題,會造成檢測時障礙物缺失從而影響無人船航向判斷。

本文提出基于全景視覺的無人船水面障礙物檢測方法。設計一種改進的SURF 算法,在SURF 算法的基礎上引入k 維(k-d)樹構建數據索引,并利用MSAC 算法剔除誤匹配點,實現精匹配。同時,為解決拼接過程中出現的縫隙或重影等問題,提出一種基于圓弧函數的加權融合算法,并進一步對YOLOv5s 的主干網絡和損失函數進行改進,提出改進的YOLOv5s 障礙物檢測模型(DS-YOLOv5s),以實現目標檢測的實時性和精度的提高。最終將得到的多目全景拼接圖輸入到訓練好的模型中,驗證本文方法的有效性。

1 圖像配準與融合的改進

在圖像配準階段,通過對傳統SURF 算法進行改進,引入k-d 樹來構建數據索引,實現搜索空間級分類,并利用MSAC 算法剔除誤匹配點,實現精匹配。在圖像融合階段,本文提出一種基于圓弧函數的加權融合算法,解決圖像融合過程中重疊區域存在的拼接縫隙或重影問題,使得在圖像重疊區域得到自然過渡效果和高圖像質量,為后續全景圖像中的目標障礙物檢測奠定基礎。

1.1 基于改進SURF 的圖像配準算法

在檢測水面障礙物之前,需要制作數據集,且數據量偏大。當數據集較大時,計算的復雜性將大幅增加,提取的特征點越多,計算所需的時間就越長,但是實時性難以得到保證。在這種情況下,考慮通過構建數據索引來加快計算速度。SURF 算法提取的特征點將呈現聚類形式,使用樹結構構建數據索引,以實現搜索空間級分類并快速匹配。但是SURF算法提取的特征點沒有折疊空間,因此可以使用基于搜索引擎的k-d 樹。k-d 算法是建立平衡二叉樹的過程,實際上是1 個遞歸過程。

為了使圖像拼接可以得到更優的圖像質量,在進行特征點快速匹配之后須進行精匹配。MSAC 算法與RANSAC 算法有相同的基本思想,2 種算法的區別在于成本計算方式不同。在成本計算上,RANSAC 對隊列值的選擇很敏感,太大的隊列無效,太小的隊列不穩定,而MSAC 可以減少補償這些影響。因此,本文采用的多目視覺全景圖種類較多,相比RANSAC,使用MSAC 算法進行特征點的精匹配更合適。

1.2 基于圓弧函數的加權融合算法

傳統基于距離的加權融合算法是線性函數,隨距離從0~1 線性變化。在整個過程中權重的變化率是均勻的,導致重疊區域不能完全自然收斂[20]。在多目視覺全景圖拼接過程中,涉及到多張圖像進行拼接融合,當重疊區域內容非常復雜時,中心將出現拼接縫隙或重影。為了解決這一問題,本文提出一種基于圓弧函數的加權融合算法,以獲得非線性變化權重?;趫A弧函數加權融合的圖像拼接算法示意圖如圖1 所示,w'1和w'2是改進后的權重,IL(i,j)和IR(i,j)是非重疊區域的像素值,I(i,j)是重疊區域的像素值,p是重疊區域的任意一點,d為點p的橫坐標,d1是左圖像中非重疊區域的右邊界橫坐標,d2是右圖像中非重疊區域的左邊界橫坐標。重疊區域中的虛弧是重疊區域中左圖像的權重,而實弧是重疊區域中右圖像的權重,2 個權重由半徑為r的弧組成,其中r=(d2-d1)/2,因此可以獲得改進的權值w'1和w'2。

改進的權值計算式如式(1)和式(2)所示:

快速全景圖像拼接處理主要由多目視覺圖像快速獲取、改進的SURF 特征點提取匹配和全景圖像拼接融合3 個模塊組成。根據第1.1 節改進的SURF圖像配準算法和基于圓弧函數的加權融合算法,對獲取到的多目全景視覺圖像進行特征提取,確定相鄰圖像的重疊部分,根據重疊特征點的信息進行匹配和拼接融合。

2 YOLOv5s 網絡模型改進

YOLOv5 網絡的主干部分是跨階段部分網絡(CSPNet)[21]。為充分利用從不同層提取的特征信息,YOLOv5 還采用特征金字塔網絡(FPN)結構[22]。在FPN 特征組合之后,在此基礎上添加路徑聚合網絡(PAN)[23]結構。經卷積下采樣后,將組合的底部特征圖與左側FPN 結構中的相同比例特征圖拼接,最后獲得3 個不同大?。?9×19、38×38 和76×76)的輸出特征圖。大小為19×19 的特征圖具有較大的下采樣率,適用于規模較大的目標;大小為76×76 的特征圖則具有較小的下采樣率,適用于尺度較小的目標。

在主干網絡模型中使用深度可分離卷積(DSCOV)替換掉常規卷積來減少網絡參數量[24],在損失函數計算方面,使用簡化最優傳輸分配策略(SimOTA)進行正負樣本的匹配[25]。DS-YOLOv5s算法由網絡訓練和檢測2 個過程組成,總體框架如圖2 所示。網絡結構主要分為骨干網絡、頸部網絡和頭部網絡,其中網絡輕量化操作在骨干網絡部分進行,網絡結構中的虛線、實線、灰實線3 個框分別表示3 個尺度特征圖。損失函數的改進部分在訓練模塊。另外1 個為檢測部分。

圖2 DS-YOLOv5s 算法的總體框架Fig.2 Overall framework of the DS-YOLOv5s algorithm

2.1 YOLOv5s 網絡輕量化

針對障礙物檢測的實時性要求,本文采用深度可分離卷積代替YOLOv5 骨干特征提取網絡的普通卷積,以減少原模型的網絡參數量,縮短模型的推理時間,提高整個模型的推理能力。其核心思想是將標準卷積分為逐通道卷積和逐點卷積2 個部分。深度可分離卷積過程如圖3 所示,首先進行逐通道卷積,對每個輸入通道進行卷積運算,得到與輸入特征圖通道數一致的輸出特征圖,然后進行逐點卷積,利用1×1 卷積運算對特征圖進行降維,結合所有逐通道卷積輸出。n和m分別為輸入和輸出通道數,k×k為卷積核大小。

圖3 深度可分離卷積過程Fig.3 Process of depthwise separable convolution

深度可分離卷積神經網絡的計算式如式(4)所示:

其中:βi表示網絡第i層的輸入特征圖;ξin表示第i層特征圖的第n個通道;kn表示第n個通道的卷積核;D(·)表示逐通 道卷積 操作;S(·)表示 逐點卷 積操作;τ為D(·)操作的輸出,表示第i層特征在經過逐通道卷積后的狀態,并作為S(·)操作的輸入;輸出βi+1表示網絡第i+1 層的輸入特征圖。

2.2 損失函數的改進

損失函數是衡量訓練與實際結果之間相似度的重要指標。與YOLOv3、YOLOv4 不同,YOLOv5 在正樣本和負樣本的定義中采用跨鄰域網絡匹配策略,以獲得更多的正樣本錨點并加速損失函數的收斂。

YOLOv5 的損失主要由分類損失、置信度損失以及定位損失3 部分組成,計算式如式(5)所示:

其中:λ1、λ2、λ3為平衡系數;Lcls、Lobj、Lloc分別表示分類損失、置信度損失以及定位損失。

YOLOv5 根據錨幀和真實幀的交并比(IoU)來分配正負樣本。然而,在不同大小、形狀、遮擋條件下正負樣本的劃分也是不同的,并且還需要考慮上下文信息。較優的樣本匹配算法可以有效解決密集目標檢測問題,并在目標的極端比例或極端尺寸不平衡正樣本時優化檢測效果[26]。因此,SimOTA 將樣本匹配視為最佳匹配。YOLOv5 原有的損失函數計算量偏大,在模型訓練量較大時,容易導致真實值與預測值差別較大。因此,使用SimOTA 分配策略匹配正負樣本,可在一定程度上減少損失計算量。成本計算式如式(6)所示:

其中:Cij為成本;λ為平衡系數;為分類損失;為回歸損失。

通過式(6)可知,成本由分類損失和回歸損失2 個部分組成,并且網絡預測的類別和目標邊界框越準確,成本越小。

2.3 數據集制作

基于YOLOv5 的無人船水面障礙物檢測在很大程度上依賴于數據集質量。因此,在訓練過程中使用高質量的數據集可以使深度學習器提取到更有效的特征。由于沒有可用水面障礙物的相關大型公開數據集,因此一部分需要從網絡上獲取水面障礙物圖像,同時也從一些公共水面障礙物數據集中獲取圖像。為保證深度學習器能夠識別不同種類的水面障礙物,本文選取14 個類別圖像,是海洋或內河中常見的障礙物,包含8 750 張圖片,按常規比例7∶1∶2,將數據集劃分成訓練集、驗證集和測試集。水面障礙物類別圖如圖4 所示。

圖4 水面障礙物類別圖Fig.4 lmages of obstacles categories on the water-surface

在各種擾動下的水面障礙物圖像如圖5 所示。水草或其他設施阻擋了部分檢測目標、障礙物附近強烈的陽光反射、河流的復雜水面、圖像中的目標太小以及目標附近有波紋等。上述情況是水面障礙物檢測中的困難示例,添加此類圖像可以提高模型的魯棒性。

圖5 在各種擾動下的水面障礙物圖像Fig.5 Images of water-surface obstacles under various disturbances

3 實驗與結果分析

3.1 圖像配準與融合實驗

多目視覺全景圖是由無人船船體上的相機從多個角度采集到的圖像拼接而成的。圖像經過初步配準后會出現較為明顯的拼接縫隙或重影,經過改進的圖像融合算法處理后,可以在一定程度上解決該問題。本文對采用的基于改進SURF 圖像配準算法和基于圓弧函數的加權融合算法進行實驗分析。

3.1.1 基于改進SURF 算法的圖像配準實驗

待配準原圖如圖6 所示。圖7 所示為不同配準算法得到的對比圖。

圖6 待配準原圖Fig.6 Original images to be matched

圖7 不同配準算法的配準圖Fig.7 Registration images among different registration algorithms

本文采用匹配正確率(CMR)評價圖像拼接的準確度[27]。CMR 作為一種相對客觀評價算法匹配性能的衡量指標,其得到的數值越高,表明算法的匹配性能越優,相應的圖像配準準確度也更優。匹配正確率(計算中用RCM)的計算式如下:

其中:NC表示正確匹配點數量;NR表示優化后所有匹配點數量。

不同算法配準對比實驗結果如表1 所示,SURF在匹配正確率和時間上比SIFT 有更大的優勢,匹配正確率提高了9.52 個百分點,耗時縮短了9.18 s?;赟URF+RANSAC 算法的匹配正確率比SURF 算法有較大優勢,但在時間上沒有優勢,匹配正確率提高7.84 個百分點,耗時增加了6.94 s?;诟倪MSURF的算法與基于SURF+RANSAC 的算法相比,特征點的匹配正確率提高3.63 個百分點,匹配時間加快了5.83 s,與基于SURF 的算法相比,特征點的匹配正確率提高11.47 個百分點。因此,改進SURF 算法的整體性能更優。

表1 不同算法配準實驗結果 Table 1 Experimental results of registration using different algorithms

3.1.2 基于圓弧函數的加權融合實驗

為了更好地進行后續水面障礙物目標檢測工作,本文需要得到更清晰的圖像。在改進SURF 算法圖像配準的基礎上,本文選用分辨率較高的圖像作為待拼接圖,對采用的基于圓弧函數的加權融合算法進行驗證。圖8 所示為較高分辨率待拼接原圖,圖9 所示為融合前后的拼接圖。

圖8 較高分辨率待拼接原圖Fig.8 Original images to be stitched in higher resolution

圖9 融合前后的拼接圖Fig.9 Stitching images before and after fusion

從圖9 可以看出,經過基于圓弧函數的加權融合之后,在圖像拼接過程中出現的拼接縫隙以及重影問題已經得到基本解決,使拼接圖像的中心區域具有自然過渡效果并得到質量較高的圖像,為后續進行目標檢測奠定了基礎。

3.2 檢測模型訓練結果與分析

本文實驗使用的深度學習框架是PyTorch 1.7.0,操作系統是Ubuntu 18.04,CPU 是Intel?Xeon?Platinum 8255C CPU @2.5 GHz,GPU 是單卡NVIDIA GeForce RTX 3080(10 GB)。網絡訓練的初始學習率設置為0.01,學習率動量因子設置為0.937,權重衰減系數設置為0.000 5,超參數配置使用hyp.scratch.yaml 文件。Batch_size 設置為8,迭代次數為200。

本文將平均精度(mAP)作為模型性能的評價指標[28]。準確率(P)、召回率(R)和平均精度(mAP,計算中用mmAP)的計算式如式(8)~式(10)表示:

其中:TTP為真陽性;FFP為假陽性;FFN為假陰性;AAPi為某一類i的P-R曲線下的面積,通過將某些列的閾值調整為使用不同P和R值繪制的圖像而獲得。mAP 可以通過將每個對應類別下的AP 值相加和平均來獲得,以反映模型的整體性能。

為驗證該模型的有效性,本文選擇YOLOv3[29]、YOLOv4[30]、YOLOv5s、YOLOv5m 和DS-YOLOv5s這5 種模型進行對比實驗,結果如表2 所示,加粗表示最優數據。從表2 可以看出,DS-YOLOv5s 準確性和實時性都優于對比模型。在精度方面,DSYOLOv5s 比YOLOv5s 提 高1 個百分 點,mAP@0.5達到95.7%。在檢測速度方面,DS-YOLOv5s 比YOLOv5s 提 高6 幀/s。YOLOv4 的 網絡參數量更 大,導致其在各個指標性能均不理想。因此,當同時考慮檢測實時性和準確性時,DS-YOLOv5s 具有更優的性能。

表2 不同目標檢測模型的實驗結果 Table 2 Experimental results among different target detection models

為更加直觀地評價該模型的性能,本文對改進前后以及對比實驗中其余模型的檢測結果進行對比,結果如圖10 所示。第1 列為被遮擋目標,第2 列為復雜水面環境,第3 列為多目標的圖像。從圖10可以看出,DS-YOLOv5s 模型表現較優的檢測性能,檢測到了更多目標,并識別出被遮擋目標,檢測精度高,且不存在誤檢和漏檢問題。在被遮擋目標檢測對比中,YOLOv4 和YOLOv5m 模型存在漏檢問題。這是因為2 個模型的網絡參數量較大,隨著網絡深度的加深,感受野增大,而特征圖的尺寸減小,位置信息變得越來越模糊,使得小目標的精確檢測變得困難。綜上所述,本文提出的模型在被遮擋目標、復雜水面環境以及多目標檢測中檢測效果最好。DS-YOLOv5s 模型檢測速度為51 幀/s,具有實時的檢測速度,且不存在誤檢、漏檢等問題,滿足水面環境復雜場景下障礙物檢測實時性與準確性的要求。

圖10 面向復雜場景的對比實驗結果Fig.10 Comparison experimental results for complex scenarios

YOLOv5s 模型改進前后的P-R曲線如圖11 所示(彩色效果見《計算機工程》官網HTML 版)。從圖11 可以看出,對于每個類別,DS-YOLOv5s 模型整體性能是最優的,且絕大多數類別的檢測準確率均高于YOLOv5s 模型。

圖11 YOLOv5s 模型改進前后的P-R 曲線Fig.11 P-R curves before and after the improvement of the YOLOv5s model

為評估本文引入的模塊和不同模塊組合順序對算法性能優化的程度,本文設計一系列消融實驗。消融實驗結果如表3 所示,其中,“√”表示在YOLOv5s網絡模型的基礎上加入該策略,“—”表示無任何策略加入。消融實驗以組合形式考慮了DSCOV、SimOTA 分配策略這2 種因素的影響。從表3 可以看出,相比DSCOV,YOLOv5s+DSCOV 的mAP@0.5有所下降,這是因為DSCOV 使網絡參數量減少,且加快檢測速度,同時也會降低精度。相比YOLOv5s、YOLOv5s+DSCOV,YOLOv5s+SimOTA 的mAP@0.5分別提高1.2 和1.6 個百分點。相比DSCOV、YOLOv5s+DSCOV,YOLOv5s+DSCOV+SimOTA 的mAP@0.5 分別提高1.0 和1.4 個百分點。本文綜合考慮實時性和準確度,改進后模型的14 個類別AP值更優,說明采用DSCOV 以及SimOTA 分配策略可以提升模型性能。因此,本文提出的網絡在該數據集上具有最佳的綜合性能。

表3 消融實驗結果Table 3 Ablation experimental results %

3.3 全景圖檢測結果

本文將拼接完成的全景圖輸入到訓練好的模型中進行檢測,檢測該模型是否可以快速準確識別到水面障礙物。圖12 所示為從水平方向多個角度獲得參與測試的多目視覺圖像,對圖像進行全景拼接,將得到的全景圖用于測試。拼接后的多目視覺全景圖如圖13 所示,障礙物檢測圖如圖14 所示。

圖12 參與測試的多目視覺圖像Fig.12 Multi-eye visual images of the participants in the test

圖13 多目視覺全景拼接圖Fig.13 Multi-eye vision panorama stitching image

圖14 障礙物檢測圖Fig.14 Obstacle detection image

從圖13 可以看出,拼接圖已消除拼接縫隙或重影,進而得到更優的圖像質量,用于后續的目標物檢測。從圖14 可以看出,對拼接好的全景圖可以實現精準識別,檢測速度為50 幀/s,滿足實時性要求。

4 結束語

為解決無人船在海洋或內河等水域環境下水面障礙物檢測視角狹窄問題,本文提出一種基于全景視覺的無人船水面障礙物目標檢測方法。為提升圖像配準速度和配準率,引入k-d 樹來構建數據索引,實現搜索空間級分類,通過MSAC 算法對匹配點進行優化,剔除誤匹配點。采用一種基于圓弧函數的加權融合算法解決圖像融合中出現的拼接縫隙或重影問題,獲得自然過渡效果和質量較高的圖像。在目標檢測部分,采用深度可分離卷積網絡替換YOLOv5 主干網絡中原有卷積網絡,并對損失函數計算分配策略進行改進,提出水面障礙物目標檢測模型DS-YOLOv5s。實驗結果表明,基于改進的SURF 算法在特征點的匹配正確率和匹配速度均有明顯的改善。在障礙物檢測方面,基于改進的YOLOv5s 目標檢測方法在實時性和準確度方面得到顯著提高,可對多目視覺全景拼接圖中的目標障礙物實現實時精準檢測識別。因此,基于全景視覺的無人船水面障礙物檢測方法為無人船自主避障、自主航行提供有效的解決方案。后續將采集更多樣本進行檢測研究,提高目標檢測準確率。

猜你喜歡
全景障礙物卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
戴上耳機,享受全景聲 JVC EXOFIELD XP-EXT1
高低翻越
SelTrac?CBTC系統中非通信障礙物的設計和處理
從濾波器理解卷積
全景敞視主義與偵探小說中的“看”
基于傅里葉域卷積表示的目標跟蹤算法
從5.1到全景聲就這么簡單 FOCAL SIB EVO DOLBY ATMOS
全景搜索
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合