?

點云投影結合輕量化卷積神經網絡實現三維成像聲吶快速目標分類?

2024-02-29 10:58任露露鞏文靜李寶奇黃海寧
應用聲學 2024年1期
關鍵詞:深度圖聲吶波束

任露露 尹 力 鞏文靜 李寶奇 黃海寧

(1 中國科學院聲學研究所 北京 100190)

(2 中國科學院先進水下信息技術重點實驗室 北京 100190)

(3 中國科學院大學 北京 100049)

0 引言

隨著聲吶技術的發展,基于聲吶圖像的目標探測和分類技術得到了廣泛研究。在水下礦產資源勘探、管道和電纜探測、海洋生物分類等領域具有重要作用[1-2]。目前常用的聲吶設備類型有側掃聲吶、前視二維聲吶、合成孔徑聲吶以及三維成像聲吶等。側掃聲吶、前視二維聲吶以及合成孔徑聲吶都屬于二維成像聲吶,其聲吶圖像是真實三維場景在二維斜距平面上的投影,相同距離不同高度的點在聲吶圖像中重合在一起,給后期的目標識別分類帶來很大困難。三維成像聲吶通過發射寬波束的聲脈沖照射場景,使用二維接收面陣對回波信號進行采集,再經過波束形成獲得三維空間中散射點的強度信息,可以實現對水下場景和目標的立體觀測。三維成像聲吶獲取的目標信息相比二維聲吶增加了高度維度的信息,因此三維成像聲吶更加適合用于水下目標的分類識別。

近年來,利用聲吶圖像實現水下目標分類識別是國內外學者的研究重點。例如,Dura等[3]使用無監督馬爾科夫分割算法分割出目標陰影并擬合為橢圓,提取橢圓參數作為形狀特征,實現了對水下目標的分類;許文海等[4]利用水平集方法提取水下目標的輪廓,計算目標的不變矩特征,并將其作為后續目標分類的依據,取得了較好的效果。然而,上述方法基于人工設計并提取特征,對專業領域知識要求較高,且在特征提取過程中會不可避免地丟失部分關鍵信息,導致泛化能力不足。隨著深度學習理論的不斷發展,卷積神經網絡(Convolutional neural networks,CNN)在聲吶圖像目標分類領域得到了重要應用[5]。McKay 等[6]使用預訓練的CNNs 結合支持向量機方法,與VGG16、VGG19 等網絡進行了比較,表明了其在合成孔徑圖像識別中的有效性;Alshalali 等[7]采用遷移學習的方法,利用預訓練的YOLO 模型,以45 frame/s 實現水下蛙人的實時檢測;鞏文靜等[8]通過對MobilNetV2 網絡進行改進,將三維成像聲吶聲學深度圖像和同步采集的光學圖像作為網絡輸入,實現了更好的分類性能。然而,由于水下光學成像作用距離有限,可能會限制該方法在實際應用中的具體表現,并且僅僅使用三維成像聲吶成像結果的深度圖這一點也具有改進的空間。

與前視二維聲吶、側掃聲吶和合成孔徑聲吶不同,三維成像聲吶的成像結果是三維點云,包括場景中散射點的位置信息和強度信息。由于三維點云具有高度稀疏性和不規則性,增加了點云處理難度,傳統的三維點云目標分類方法主要通過提取點云特征點的結構屬性、強度屬性、形狀屬性或者多種屬性的組合進行對比實現點云的分類任務?;谏疃葘W習的方法也在點云數據處理任務上取得大的成功,比如使用體素方法Voxelnet[9]和使用點云特征方法PointNet[10-11]。但是總體來說,點云數據處理的計算量和復雜度遠大于二維圖像處理,其處理時間和功耗也會大于二維圖像處理。

基于以上討論,本文采用二維圖像的目標分類方法而不是直接對點云進行處理來實現三維成像聲吶目標分類任務。首先,本文提出一種投影方法,根據三維成像聲吶的波束方向,將三維成像聲吶的成像結果三維點云投影為深度圖和強度圖,分別保存三維點云的位置信息和強度信息。然后,利用深度圖和強度圖分別作為第一個通道和第二個通道構建混合通道圖,將混合通道圖作為目標分類網絡的輸入。最后,使用輕量化卷積神經網絡MobilnetV2 完成三維聲吶圖像中的水下目標分類。該方法的優點是既保留了三維點云中散射點的深度信息和強度信息,同時也避免了三維點云目標分類方法巨大的計算量和功耗。實驗結果驗證了該方法的有效性,可以滿足水下實時目標檢測的需求。

1 三維成像聲吶點云生成

1.1 三維成像聲吶波束形成

三維成像聲吶一般由無指向性發射換能器、二維接收面陣以及數據處理模塊組成。發射換能器發射聲脈沖照亮整個成像場景,二維接收面陣用來接收回波信號[12],數據處理模塊主要的任務是對回波數據進行波束形成,得到成像結果[13-15]。按照文獻[16]中提出的方位角和俯仰角如圖1 所示,二維接收面陣有M×N個陣元,其中沿著y方向分布N行陣元,沿著x方向分布M列陣元。三維成像聲吶需要對所有距離切片上回波數據進行波束形成,這樣便可以獲得每一個距離切片上散射點的強度分布。遠場波束形成中每個距離切片上回波數據的波束形成方法是一樣的,現在對單個距離切片上回波數據的波束形成方法進行說明。對于單個距離切片的某個散射點,其單位方向矢量u和其在yz平面上的投影之間的夾角為βi,u和其在xz平面上的投影之間的夾角為αi。

圖1 方位角及俯仰角定義Fig.1 Azimuth and pitch angle definition

散射點的單位方向矢量表達式:

則該距離切片上所有散射點的回波信號可以表示為

其中,Ai為信號幅度為噪聲矩陣,表示與目標方向有關的信號相位矩陣。

其中,m=1,2,···,M,n=1,2,···,N。遠場回波信號的相位可以分成與俯仰和方位向相關的兩個獨立分量。方位向與俯仰向波束形成導向矢量可以表示為

因此二維平面接收陣遠場單個距離切片上回波數據的常規波束形成計算公式為

根據公式(6)便可以將原始回波數據中的每一個距離切片進行波束形成,得到每個距離切片上散射點的強度分布。三維成像聲吶接收到的原始回波數據維度為M×N×Nr,M×N是平面接收陣元的數量,Nr為距離向的采樣點數;將所有距離切片的回波數據經過常規波束形成之后波束域數據的維度是Nα×Nβ×Nr,其中Nα和Nβ是方位向和俯仰向的波束數目,波束形成之后的波束域數據表示成像空間中散射點的強度。對于波束域中索引為(α,β,r)的點在笛卡爾坐標系下的位置表示為

式(7)中:r=ct/2,t為回波到達時間。如圖2 所示,通過計算波束域數據中每個散射點的空間位置便可以將波束域數據轉換為原始點云P,其中原始點云P中包含Nα×Nβ×Nr個散射點的位置信息和強度信息。

圖2 波束形成示意圖Fig.2 Schematic diagram of beamforming

由于海洋環境的復雜性,三維成像聲吶系統采集得到的回波信號不僅包括探測場景和目標的信息,還包括海洋背景噪聲、混響、聲吶自身系統噪聲干擾等非目標信息。這些干擾在聲吶圖像上表現為噪點,需要對聲吶圖像進行預處理,實現抑制干擾、提升圖像質量的目的。三維成像聲吶成像結果的預處理包括最大值濾波和閾值濾波這兩個步驟,可以去除大部分的干擾和噪聲,而且操作簡單,運算量小,可以實時運行。

1.2 最大值濾波

三維成像聲吶的使用場景包括水下地形測繪、水中目標探測等,其中感興趣目標在整個三維成像空間中表現為若干連續曲面和孤立散射點的集合。而三維成像聲吶波束形成之后的波束域數據維度是Nα×Nβ×Nr,表示整個三維成像空間中的散射點的強度分布,其中大部分空間中并不存在目標,其強度為環境噪聲,需要將其去除。由于三維成像聲吶的工作頻率為數百千赫茲且工作距離通常不大于100 m,其聲波穿透射能力弱、聲線彎曲效應小,同時其波長短,遠小于感興趣目標的尺度,在對感興趣目標成像時不會發生繞射,同一個波束前方物體會對后方物體造成遮擋。所以對波束域數據按照波束方向進行最大值濾波,即每個波束方向僅僅保留強度最大的點,經過最大值濾波之后的點云中包含了Nα×Nβ個散射點位置信息和強度信息。圖3 為方框、漁網、繩子這3種目標最大值濾波后點云。

圖3 最大值濾波點云Fig.3 Maximum filtered point cloud

1.3 閾值濾波

最大值濾波已經大大降低了數據量,去除了大部分噪聲,但是從最大值濾波的輸出結果中仍然存在很多噪聲,很難分辨出目標??紤]到三維成像聲吶通常用于水下小目標探測,感興趣目標通常不會充滿整個觀測視野,而且目標的后向散射強度要明顯大于環境噪聲。根據這一特性,使用閾值濾波將幅度較小的噪聲點進行去除,閾值設定為最大強度的22%,即最大強度的第一旁瓣(-13.26 dB)高度。如圖4 所示,經過閾值濾波之后便可以看出目標輪廓。為了方便后續將三維點云投影至二維圖像,閾值濾波將強度小于設定閾值的散射點強度和距離都置零,這樣閾值濾波之后點云中點的個數依舊是Nα×Nβ。

圖4 閾值濾波點云Fig.4 Threshold filtered point cloud

2 三維點云至二維圖像投影

三維點云具有高度稀疏性和無序性,這兩個特點使得三維點云難以處理以及處理運算量大。三維成像聲吶生成的點云同樣是高度稀疏的和無序的,但是這些點云中的點分布具有一定的規律性,在距離向以及兩個角度向都分布在預定義的網格上。利用這個特性,便可以將三維點云投影為二維圖像,同時保留點云的強度信息和位置信息。圖5 為三維點云至二維圖像投影流程圖。

圖5 三維點云至二維圖像投影流程圖Fig.5 Flow chart of 3D point cloud to 2D image projection

2.1 點云生成深度圖

經過閾值濾波和最大值濾波之后,三維成像聲吶點云中包含了Nα×Nβ個散射點的位置信息和強度信息,Nα和Nβ分別是水平方向和垂直方向的波束數量,其中位置信息為散射點在聲吶坐標系下的三維坐標,用公式(8)表示。

將每個波束方向散射點的距離進行歸一化處理并且映射至0~255 區間范圍,便可以實現深度圖的生成,深度圖中每個像素數值與其對應散射點的三維坐標的關系如下:

其中,?.」表示向下取整,∥·∥表示取模,∥pα,β∥表示散射點與聲吶之間的距離,Rmax為聲吶的作用距離。生成的深度圖為單通道的灰度圖,為了方便觀察,將單通道深度灰度圖進行偽彩化得到偽深度偽彩圖,如圖6所示。

圖6 不同目標深度圖Fig.6 Depth image

2.2 點云生成強度圖

和深度圖類似,經過閾值濾波和最大值濾波之后的點云中保存了每個波束方向散射點的強度信息bα,β,強度信息也經過歸一化處理并且映射至0~255區間范圍,便可以實現強度圖的生成:

圖7 為生成的強度圖為單通道灰度圖,同樣進行偽彩化得到強度偽彩圖。

圖7 不同目標強度圖Fig.7 Intensity image

2.3 混合通道圖

三維成像聲吶成像結果三維點云中包含的散射點位置信息和強度信息,分別生成深度圖和強度圖。深度圖中像素點的值越大,代表該波束方向的散射點距離聲吶越遠,強度圖中像素值越大,代表該波束方向散射點強度越大。深度圖和強度圖都是單通道的灰度圖,MobileNetV2 網絡輸入為三通道的RGB 圖像。為了在目標分類任務中充分利用三維成像聲吶成像結果中的距離信息和強度信息,將深度圖和強度圖進行融合生成混合通道圖。如圖5流程圖所示,混合通道圖是三通道RGB圖像,其維度為Nα×Nβ×3,單通道強度圖作為混合通道圖的R 通道,單通道的深度圖作為混合通道圖的G 通道,混合通道圖的B 通道為零矩陣,圖8 為使用各個目標強度圖和深度圖生成的混合通道圖。

圖8 不同目標混合通道圖Fig.8 Mixd image

3 目標分類網絡

三維成像聲吶通常搭載于無人平臺或者蛙人手持使用,需要目標分類算法實時運行的情況下同時具有計算量小和低功耗的特點。目標分類網絡選用輕量化卷積神經網絡MobileNetV2,MobileNet是由Google 在2017 年提出的新型輕量化網絡[17],適用于移動和嵌入式設備;MobileNetV2 在其基礎上進一步改善了網絡性能[18],相比普通的全卷積網絡能夠減少80%~90%的計算量,與VGG16 等常用網絡相比,具有低消耗和實時性等優點,符合實時目標分類任務的要求。

3.1 深度可分離卷積

傳統標準卷積既過濾輸入又將過濾后的輸出進行組合,最終形成一組新的輸出,如圖9(a)所示。假設卷積核尺寸為DK,特征圖的大小為DF,輸入通道數為M,輸出通道數為N,則標準卷積的計算量為DK·DK·M·N·DF·DF。深度可分離卷積將一個標準卷積分解成一個深度卷積(Depthwise convolutions)和一個逐點卷積(Pointwise convolutions)。深度卷積將輸入的每個通道各自與其對應的卷積核進行卷積,產生與輸入通道數個數相同的結果,最后將得到的各個通道對應的卷積結果作為最終的深度卷積結果,完成輸入特征圖的過濾,如圖9(b)所示。深度卷積的計算量為DK·DK·M·DF。逐點卷積將深度卷積的結果作為輸入,卷積核大小為1×1,卷積過程與標準卷積類似,其通道數與輸入一致,完成對深度卷積輸出的線性組合,如圖9(c)所示。逐點卷積的運算量為M·N·DF·DF。

圖9 標準卷積與深度可分離卷積過程示意圖Fig.9 Schematic diagram of standard convolution and depth-separable convolution

則深度可分離卷積的計算量與標準卷積計算量比值為

由此可見,當使用3×3 大小的卷積核時,深度可分離卷積的計算量可以減小至標準卷積的1/9。

3.2 反向殘差結構

反向殘差網絡結構是先升維、再卷積、最后降維的過程,首先輸入通過1×1 的卷積來進行通道擴張以擴展維度,再用3×3 的深度卷積提取特征,最后用1×1 的卷積將通道數壓縮,整個過程與殘差網絡相反,因此稱其為反向殘差網絡。圖10(a)和圖10(b)分別表示卷積步長為1 和步長為2 的情況下反向殘差網絡結構圖。

圖10 反向殘差網絡結構圖Fig.10 Reverse residual network structure diagram

3.3 MobileNetV2分類網絡

MobileNetV2 網絡相比標準卷積網絡具有更低的資源消耗和較高的實時性,MobileNetV2 網絡包括普通卷積(Conv2d)、具有反向殘差結構的深度可分離卷積(Bottleneck)和平均池化(Avgpool)。MobileNetV2 網絡的結構如圖11 所示,參數如表1所示。t為中間卷積通道的擴展因子,c為輸出通道個數,n表示該層的重復次數,s為卷積步長。

表1 MobileNetV2 網絡結構Table 1 Network structure of MobileNetV2

圖11 MobileNetV2 網絡結構Fig.11 MobileNetV2 network structure

3.4 模型復雜度評估

網絡模型的復雜度通常使用參數量和計算量進行評估,卷積層和全連接層的參數量和計算量可以表示

其中,P和F分別代表模型的參數量和計算量,Ml和Kl分別表示輸入圖片的尺寸和卷積核大小,Cl-1和Cl為輸入特征圖與輸出特征圖的通道數,D1、D2為網絡中卷積層與全連接層的個數。

4 實驗分析

為了驗證使用二維圖像網絡實現三維成像聲吶點云目標分類任務的可行性,同時對比不同圖像輸入情況下網絡收斂情況,本文設計了以下實驗:首先使用三維成像聲吶采集水下目標數據,數據采集場地在杭州千島湖,三維成像聲吶通過支架固定在水下2 m 深的位置,觀測方向水平,通過線纜與上位機相連進行控制與供電,實驗過程中目標由可移動的船搭載,在3~30 m 距離內隨機移動,進行數據采集。三維成像聲吶的參數為:工作頻率600 kHz,作用距離120 m,發射信號為CW脈沖,脈寬33 ms,距離分辨率為2.5 cm;接收面陣規模為48×48,陣元間距為2.5 mm,采用512 個采樣通道稀疏布陣,接收陣孔徑為0.12 m×0.12 m,可以計算得到角度分辨率1?,方位角范圍θα=(-45?,45?),俯仰角度范圍θβ=(-45?,45?)。接著對三維成像聲吶獲取的回波數據進行波束形成,波束形成過程中設置方位向和俯仰向的波束數目Nα=224、Nβ=224,經過最大值濾波以及閾值濾波之后得到目標三維點云數據,再使用本文所提方法將三維點云數據投影至二維圖像制作實驗數據集。選取鐵框、漁網、繩子3 種水下物體作為分類的目標,分別建立深度圖、強度圖及混合通道圖的數據集。3 個數據集各有494 張圖像,圖像尺寸為224×224,其中鐵框圖像210 張,漁網圖像132張,繩子圖像152 張。使用MobilenetV2 及其他網絡模型作為特征提取部分對網絡進行訓練,對比不同輸入下模型的訓練、測試結果,驗證混合通道圖對水下目標的分類效果。實驗使用的所有網絡均基于Keras 深度學習框架基礎,實驗計算機采用CPU 為6 核i7-10750H、Windows 操作系統、GPU為RTX2070。

4.1 不同輸入數據下MobileNetV2 模型分類準確率

使用上述數據集,分別將水下目標的深度偽彩圖、強度偽彩圖及深度強度混合通道圖作為網絡的輸入部分,利用MobileNetV2 模型對水下目標進行分類。根據網絡和數據集設置的學習率大小為0.00005,迭代次數設置為100,訓練批次batchsize為16,采用分類交叉熵作為代價函數。將目標數據集中的398 張圖像作為訓練集對模型進行訓練,將其余的96 張作為測試集進行測試。對該模型進行100 次的運行測試,取平均值作為最終模型準確率。圖12 為不同輸入數據下MobileNetV2 模型訓練過程代價函數值及分類準確率隨迭代次數的變化曲線,表2 為不同輸入數據下MobileNetV2 網絡的分類結果。

表2 不同輸入數據下模型分類準確率Table 2 Model classification accuracy under different input data

圖12 訓練過程曲線Fig.12 Change curve of training process

由訓練過程曲線及表中數據可以看出,本文所提出的投影方法結合輕量化卷積神經網絡Mobilenetv2,可以實現三維點云目標分類任務。在模型訓練過程中,使用混合通道圖作為網絡輸入得到的代價函數訓練曲線相比單純使用深度圖或者強度圖得到的訓練曲線收斂更快,此種情況下模型的分類性能更好。同時,在水下目標分類任務中,將混合通道圖作為模型輸入得到的分類準確率達到91.13%,相比深度圖和強度圖作為模型輸入時的分類準確率平均提高0.5%和5.71%。由此說明,目標的強度深度混合通道圖包含深度圖和強度圖兩種特征的數據,網絡學習到的目標信息更為全面,有利于提高分類準確率。

4.2 輕量化性能比較

MobileNetV2 網絡中的深度分離卷積模塊相比標準卷積具有輕量化的特點,為了驗證本文所使用模型的輕量化優勢,分別使用VGGNet16、ResNet50 與本文MobileNetV2 網絡在水下目標數據集上進行特征提取和分類實驗。實驗使用數據集為鐵框、漁網、繩子3 種水下目標的混合通道圖,訓練過程中的模型的參數設置均與4.1節實驗相同,將混合深度圖數據集中的398張圖像作為訓練集對模型進行訓練,剩余部分作為測試集進行測試。幾種不同模型的參數量如表3所示。

表3 不同模型參數量Table 3 Different network model parameters

由表3 中的數據能夠看出,VGGNet16 網絡的參數量高達121.58 M,其參數量在3 個模型當中最大,由此可見該模型的空間復雜度較高,對計算機硬件資源的要求較高。ResNet50 的參數量為45.75 M,相比VGGNet16減少一半以上,而本文使用的MobileNetV2 模型參數僅為2.28 M,模型參數量較小,能夠有效應用到各種嵌入式設備中。

4.3 模型計算速度比較

由公式(11)可知,當使用3×3大小的卷積核時,深度可分離卷積的計算量可以減小至標準卷積的1/9,與計算量相對應的是模型的計算速度。為了進一步衡量本文使用模型在水下目標分類任務中的計算速度,分別使用VGGNet16、ResNet50 與本文MobileNetV2網絡對水下目標圖像進行特征提取和分類,所使用的數據集及參數設置均與4.2 節實驗相同,3 種模型的計算速度如表4 所示。其中,訓練時間是指模型在訓練過程中對每張圖像耗費的時間,測試時間是指模型在測試過程中對每張圖像進行預測所需要的時間。

表4 不同模型計算速度Table 4 Computational speed of different network models

從訓練時間來看,VGGNet16 訓練每張圖像所需要的時間為17 ms,ResNet50 則需要20 ms,本文MobileNetV2 模型只需要9 ms 即可完成對每張圖像的訓練,訓練時間減少一半左右。從測試時間來看,VGGNet16 對每張圖像的預測時間最長,需要27 ms,ResNet50 預測每張圖像需要13 ms,而MobileNetV2 僅需要4 ms 便可實現對圖像的類別預測。不同模型的實驗結果表明,VGGNet16 及ResNet50 網絡在訓練和測試時間上均大于本文所用的模型。由此可見,本文所用模型計算時間較短,對于實時性要求較高的水下目標分類任務更具優勢。

4.4 不同模型分類準確率

在充分考慮模型參數及計算量的基礎上,使用VGGNet16、ResNet50 與本文MobileNetV2 網絡對水下目標圖像進行特征提取和分類,通過分類準確率進一步衡量本文使用模型的分類性能。實驗使用的數據集仍為3 種目標的混合通道圖,將其中398張圖像作為訓練集進行模型訓練,剩余部分作為測試集,參數設置與前述實驗相同,對3 個模型均進行100 次的運行測試,取平均值作為最終模型準確率,實驗結果如表5所示。

表5 不同模型分類準確率Table 5 Model classification accuracy of different network models

由此可見,本文MobileNetV2 模型與VGGNet16 模型對上述3 類目標的分類準確率達到91%以上,相比ResNet50模型要高出2.3%左右。但是綜合考慮4.2 節及4.3 節中VGGNet16 較高的參數量和計算代價,本文方法在該水下目標分類任務中具有更好的實用性。

5 結論

本文對三維成像聲吶目標分類這一問題進行了研究。首先,針對三維點云目標分類網絡計算量大的問題,從三維成像聲吶波束形成原理出發,提出了一種在不丟失目標散射點位置信息和強度信息的前提下將三維成像聲吶點云投影至二維圖像的方法,從而可以使用二維圖像分類網絡實現三維成像聲吶點云目標分類任務。接著使用MobileNetV2網絡實現了三維成像聲吶快速目標分類,通過對比深度圖,強度圖以及混合通道圖分別作為網絡輸入的實驗結果,可以看出混合通道圖比單獨的深度圖和強度圖收斂速度更快,目標分類準確率也更高,說明了三維成像聲吶所獲取目標的位置信息和強度信息對于目標分類都非常重要。然后通過和VGGNet16、ResNet50 對比,可以看出MobileNetV2 在保證目標識別正確率的情況下具有網絡參數少、運行速度快的特點。

猜你喜歡
深度圖聲吶波束
探索大洋的“千里眼”——聲吶
一種便攜式側掃聲吶舷側支架的設計及實現
聲吶
基于深度圖的3D-HEVC魯棒視頻水印算法
毫米波大規模陣列天線波束掃描研究*
圓陣多波束測角探究
Helix陣匹配場三維波束形成
一種基于局部直方圖匹配的深度編碼濾波算法
疊加速度譜在鉆孔稀少地區資料解釋中的應用
基于非正交變換的局域波束空時自適應處理
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合