?

基于聲吶圖像的類別增量學習方法研究

2023-05-12 12:40陳鑫哲梁紅徐微雨
西北工業大學學報 2023年2期
關鍵詞:聲吶識別率增量

陳鑫哲, 梁紅, 徐微雨

(西北工業大學 航海學院, 陜西 西安 710072)

隨著水下勘探技術的不斷發展與水下環境的逐漸開發,更多未經訓練過的水下目標信息會被獲取,水下目標識別系統的需求也隨之增加。目前,大部分用于水下目標聲吶圖像的分類識別網絡采用的都是一次性輸入所有類別樣本的訓練方法,這樣訓練好的分類識別網絡只能對學習過的類別樣本進行分類識別,當有新的類別樣本需要學習時,就只能將目前的所有類別樣本重新進行訓練,需要耗費大量的時間與算力。

類別增量學習(class-incremental learning,C-IL)[1]要求分類識別網絡能不斷地從新獲取的任務類別樣本中學習到新知識,同時保留歷史學習過的任務目標類別知識。但是,類別增量學習網絡在學習了新任務類別樣本后,通常會對歷史學習過的任務類別樣本出現災難性遺忘問題[2],導致所有任務目標的分類識別準確率嚴重降低。

為了緩解災難性遺忘問題,研究人員提出了各種增量學習方法,依據方法原理的不同,可以將目前的增量學習方法分為以下2類:基于正則化(regularization)和基于重放(replay)?;谡齽t化的代表方法有:Li等[3]提出的不忘學習(learning without forgetting,LWF),DeepMind團隊提出的彈性權重鞏固(elastic weight consolidation,EWC)[4]?;谥胤诺拇矸椒ㄊ荢hin等[5]提出的生成重放(generated replay,GR),基于生成重放的增量學習方法對類別增量學習總體表現更好,它對于光學圖像取得了較高的類別增量識別準確率,并且在一定程度上緩解了災難性遺忘問題。

相比數以百萬計的高質量光學圖像數據,由于獲取難度高、水下環境噪聲干擾大和觀測角度有限,聲吶圖像存在樣本數少、分辨率低和邊緣不連續的問題[6],直接將光學領域的識別方法應用于聲吶圖像,通常表現較差[7]。因此,GR增量網絡對聲吶圖像類別增量學習的可行性還待進一步研究。

本文研究GR增量網絡對于聲吶圖像類別增量學習的可行性,提出一種適用于聲吶圖像類別增量學習的改進GR增量網絡,緩解災難性遺忘問題,提高聲吶圖像所有任務目標類別的平均識別準確率。

1 數據集的建立

本文建立的數據集包含前視聲吶和側掃聲吶等多種聲吶成像設備得到的聲吶圖像,依據圖像的目標類別將其整理劃分為6類,分別是飛機、沉船、瓶子、輪胎、石塊和水下機器人。采用雙線性插值法對聲吶圖像進行尺寸統一,規范后的圖像尺寸為(112,112),每個目標類別的數據按照4∶1的比例隨機分為訓練集和測試集,數據集分布如表1所示。

表1 數據集分布

本文將數據集劃分為如圖1所示的3個任務目標,依次輸入到類別增量學習網絡中,作為新的類別知識對網絡進行訓練。

圖1 任務目標

2 GR增量網絡

2.1 GR增量網絡結構

GR增量網絡是由重構模型和識別網絡組成的合作雙模型架構。利用這種模型架構,網絡可使用重構的歷史數據和真實當前數據的集合進行聯合訓練,緩解災難性遺忘問題,GR增量網絡學習流程如圖2所示。

圖2 GR增量網絡學習流程

GR增量網絡在類別增量學習過程中,對歷史類別數據進行重構的模型是變分自編碼器(variational autoencoder,VAE)[8],由編碼器、采樣模塊和解碼器組成。編碼器將圖像數據分布的高維特征映射到低維特征上,這一部分主要是均值和方差的計算;圖像數據經過編碼后,采樣模塊從正態分布中采樣數據,并與編碼器得到的均值和方差聯合計算,從而得出采樣變量;獲得采樣變量后,將其作為解碼器的輸入,利用解碼器進行圖像還原,輸出生成圖像。對圖像進行訓練的識別網絡采用多層感知機(multilayer perceptron,MLP)[9]這一淺層全連接網絡。

2.2 GR增量網絡實驗分析

本文實驗平臺為AMD 5900X CPU、Nvidia RTX 3080 GPU和32G內存的工作站,Pytorch版本為1.9,操作系統為Windows10。針對本文建立的聲吶圖像數據集,采用GR增量網絡進行訓練。隨著任務目標的不斷增加,網絡對新任務目標和舊任務目標的識別率變化如圖3所示。

圖3 GR增量網絡的識別率

當第一個任務進入增量網絡訓練完成后,網絡對所有目標類別的識別準確率為89.9%。當第二個任務作為新類別數據進入增量網絡訓練完成后,網絡對所有目標類別的平均識別率為73.6%,對歷史學習的第一個任務的識別率從89.9%降為50.5%。當第三個任務作為新類別數據進入增量網絡訓練完成后,網絡對所有目標類別的平均識別率為67.6%,對歷史學習的舊任務目標的識別率明顯下降,其中,對第一個任務的識別準確率降到了27.3%,對第二個任務的識別準確率降到了79.6%。結果表明,GR增量網絡的平均識別率較低,對歷史任務目標產生了較嚴重的災難性遺忘。

3 改進的GR增量網絡

3.1 網絡結構改進原理

由2.2節可知,GR增量網絡對于聲吶圖像的類別增量學習效果較差,本文對GR增量網絡的重構模型和識別網絡進行改進,以期望獲得更好的類別增量學習性能。

GR增量網絡的重構模型VAE雖然可以通過編碼與解碼重構圖像,但是這種方式下生成的圖像較為模糊[10]。深層卷積生成對抗網絡(deep convolutional generative adversarial network,DCGAN)[11]由生成器和判別器兩部分組成,二者結構近似于卷積神經網絡,但是使用帶步長的反卷積層或卷積層代替池化層,DCGAN通過生成器與判別器的生成對抗來重構圖像。本文隨機選取飛機和沉船的重構圖像進行對比,VAE和DCGAN重構的聲吶圖像分別如圖4a)和圖4b)所示。兩圖的上半部為原始聲吶圖像,下半部為重構的圖像。VAE重構的圖像中,當飛機較小時,圖像無法清晰分辨目標,并且所有沉船的重構圖像均嚴重失真。相比而言,DCGAN重構的飛機與沉船圖像輪廓更明顯、細節更豐富,大部分重構圖像可較為清晰地分辨目標。

圖4 VAE和DCGAN重構的聲吶圖像

GR增量網絡的識別網絡MLP是由多個神經元層組成的全連接網絡模型,它早期在手寫數字識別和行人檢測中獲得了不錯的效果[12]。但是,在進行聲吶圖像類別增量學習訓練時,MLP這種全連接網絡模型的參數量是十分巨大的,過大的參數量會導致網絡訓練過擬合,而且在圖像的特征提取過程中,MLP會將所有圖像轉換成一維向量,導致其失去空間特征,影響圖像的分類識別準確率。卷積神經網絡(convolutional neural network,CNN)[13]利用卷積層和池化層實現了網絡結構的局部連接、權值共享和空間下采樣,在提取出圖像局部空間特征的同時,有效降低了網絡模型訓練的參數量,避免訓練過擬合,對圖像的準確識別起到積極作用。

本文基于水下目標聲吶圖像的特點,設計搭建新的DCGAN和CNN,并將設計搭建好的DCGAN和CNN分別替換GR增量網絡的VAE和MLP,作為網絡新的重構模型和識別網絡,得到改進的GR增量網絡。改進的GR增量網絡結構如圖5所示。

圖5 改進的GR增量網絡結構

3.2 網絡模型搭建

3.2.1 DCGAN模型搭建

基于生成對抗網絡理論與水下目標聲吶圖像特點,設計搭建DCGAN需考慮以下幾點:

1) 生成器與判別器模型的設置。生成器與判別器要求模型對稱,即生成器的反卷積層與判別器的卷積層數目相等,這樣才能達到網絡可微的目的,從而使網絡的損失函數在訓練過程中向著一個方向穩定收斂。

2) 反卷積層和卷積層數目的設置。由于聲吶圖像樣本數少,應使用較少的層數進行模型搭建,避免因參數過多而導致網絡訓練出現過擬合。

3) 卷積層參數的設計,包括卷積核大小、步長、邊界填充數目。聲吶圖像經過裁剪等預處理操作后,圖像的尺寸相較原始圖像減小了很多,為了避免網絡模型在聲吶圖像的特征提取過程中丟失大量的有用特征,應使用較小的卷積核,如3×3卷積核。設置步長可以壓縮卷積層的運算量,加快網絡訓練的擬合速度,但是步長不宜設置過大,過大的步長會使卷積層提取不到充足的聲吶圖像特征。邊界填充是為了避免帶步長的卷積運算錯過聲吶圖像的邊緣信息,邊界填充的數目需根據輸入圖像、步長與卷積核來設置,不能超過卷積核的大小,以避免無效運算。

4) 網絡參數優化算法和激活函數的選取。Adam算法能基于訓練數據迭代更新網絡參數,具有計算高效和所需內存少等優勢。ReLU、Leaky ReLU激活函數在圖像處理的卷積神經網絡中使用較多,它們能夠保持梯度不衰減,從而緩解梯度消失問題。

綜合考慮以上幾點設計要求,本文設計搭建的DCGAN的生成器與判決器模型分別如表2~3所示。

表2 生成器模型

表3 判別器模型

生成器首先產生隨機噪聲輸入到網絡第一層——全連接層,通過全連接層進行尺寸變換,轉化為7×7×128的特征矩陣,然后該特征矩陣通過4層反卷積核大小為3×3,步長s=2的反卷積層,同時,對反卷積層進行p=1的邊界填充。其中,在每個反卷積層進行反卷積操作前,都使用批次標準化BatchNorm和激活函數Leaky ReLU,將特征歸一化與非線性整合,以加速網絡訓練和提升訓練的穩定性。最終,經過4個反卷積層后,網絡輸出得到與歷史圖像尺寸(112,112)相同的生成圖像。

判別器與生成器形成模型對稱,同樣設置4層卷積核大小為3×3,步長s=2的卷積層,并進行p=1的邊界填充,經過每一層卷積操作完成特征提取后,對得到的特征進行BatchNorm批次標準化以及Leaky ReLU激活函數的非線性整合。然后,判別器網絡中加入了Dropout,可在一定程度上避免網絡過擬合。最后,將提取到的特征圖經過全連接層輸出映射為一個值,并將這個值經過sigmoid激活函數后,輸出該判別器網絡對輸入圖像數據類別的概率值。

3.2.2 CNN模型搭建

CNN與DCGAN的判別器模型設計搭建原理大體相似,不同的是本文的CNN采用ReLU激活函數,并且比DCGAN的判別器多了池化層的設計,池化層通常位于卷積層之后,用于降低卷積層的尺寸,從而降低網絡訓練復雜度,但是,池化層在降低網絡復雜度的同時會丟失掉圖像的許多特征。由于聲吶圖像分辨率低,應用于聲吶圖像識別的CNN應使用較少的池化層,池化方法可以選取最大池化。本文設計搭建的CNN模型如表4所示。

表4 CNN模型

3.3 改進的GR增量網絡實驗分析

為驗證本文提出的改進的GR增量網絡的類別增量學習性能,使用該網絡對水下目標聲吶圖像數據集進行類別增量學習訓練,每一個任務目標訓練完成后,都用當前學習過的所有類別數據進行測試,得到網絡對新任務目標和舊任務目標的識別率變化如圖6所示。

圖6 改進的GR增量網絡的識別率

將GR增量網絡與改進的GR增量網絡的平均識別準確率進行對比,網絡改進前后的類別增量識別率結果如表5所示。

表5 增量網絡改進前后的類別增量識別率

采用改進的GR增量網絡,第一個任務進入增量網絡訓練完成后,網絡對所有目標類別的平均識別率為100%。當第二個任務作為新類別數據進入增量網絡訓練完成后,網絡對所有目標類別的平均識別率為94.3%,對歷史學習的第一個任務的識別率從100%降至98.6%,對第二個任務的識別率為90%。當第三個任務作為新類別數據進入增量網絡訓練完成后,對當前所有目標類別的平均識別率為87%,對歷史學習的第一個任務的識別率從98.6%降到了79.3%,對歷史學習的第二個任務的識別率從90%降到了83.6%,對第三個任務的識別率為98%。改進的GR增量網絡對當前所有任務目標的平均識別準確率始終高于GR增量網絡,平均識別率相比提高了19.4%。改進的GR增量網絡對于歷史任務目標的平均識別率相比GR增量網絡提升了34.7%。

為驗證本文提出改進的重構模型和識別網絡分別對于聲吶圖像類別增量學習的作用,將重構模型VAE和DCGAN與識別網絡MLP和CNN分別進行組合,重構模型和識別網絡分別改進前后的平均識別率和參數量如表6所示。

表6 增量網絡改進前后的平均識別率和參數量

由表6可得,相比VAE+MLP,DCGAN+MLP的平均識別率提高了11.8%,參數量降低了47.5%;VAE+CNN的平均識別率提升了11.2%,參數量降低了31.5%;DCGAN+CNN的平均識別率提高了19.4%,參數量降低了79%。相比單獨改進識別網絡,單獨改進重構模型對GR增量網絡平均識別率的提高和參數量的降低更加明顯,而DCGAN+CNN是最佳的GR增量網絡結構。

4 實驗驗證與分析

4.1 實驗數據集的建立

為驗證本文提出的改進GR增量網絡對水下目標聲吶圖像類別增量學習的泛化性,通過外場試驗建立水下目標聲吶圖像數據集如表7所示,將實驗數據集隨機劃分為圖7所示的3個任務目標。

表7 實驗數據集

圖7 任務目標

4.2 增量網絡泛化性實驗

分別采用GR增量網絡和改進的GR增量網絡對實驗數據集進行類別增量學習訓練,得到改進前后的GR增量網絡對所有任務目標的識別率如表8所示。

表8 增量網絡改進前后的類別增量識別率

本文提出的改進的GR增量網絡相比GR增量網絡,第一次訓練后的平均識別率提高了11.1%。第二次訓練后的平均識別率提高了14.2%。第三次訓練后,對所有任務目標的平均識別率提升了8.6%。對歷史任務目標的平均識別率提升了18.8%。

對于本文建立的實驗數據集,采用經典增量學習方法與本文提出的改進GR增量網絡進行對比,各種增量學習方法的識別率結果如表9所示。

由表9可得,基于正則化的EWC和LWF方法對于聲吶圖像類別增量學習表現較差,當網絡訓練完成后,對所有任務目標平均識別率均低于45%。相比而言,GR增量網絡總體表現更好,尤其是本文提出的改進GR增量網絡,對所有任務目標的平均識別率達到86.9%。

表9 各種增量學習方法的識別率

5 結 論

本文基于深層卷積生成對抗網絡與卷積神經網絡理論,對GR增量網絡的重構模型與識別網絡進行改進,提出了一種改進的GR增量網絡,對所有聲吶圖像任務目標的平均識別率提升了19.4%,對歷史任務目標的平均識別率提升了34.7%。采用外場實驗獲得的水下目標聲吶圖像實驗數據集進行了網絡泛化性實驗,改進的GR增量網絡對所有任務目標的平均識別率提升了8.6%,對歷史任務目標的平均識別率提升了18.8%。上述結果表明,本文提出的改進GR增量網絡對于聲吶圖像具有良好的類別增量學習性能,較好地緩解了對歷史任務目標的災難性遺忘問題。

猜你喜歡
聲吶識別率增量
探索大洋的“千里眼”——聲吶
提質和增量之間的“辯證”
一種便攜式側掃聲吶舷側支架的設計及實現
基于類圖像處理與向量化的大數據腳本攻擊智能檢測
“價增量減”型應用題點撥
聲吶
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
提升高速公路MTC二次抓拍車牌識別率方案研究
基于均衡增量近鄰查詢的位置隱私保護方法
高速公路機電日常維護中車牌識別率分析系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合