?

基于Mel聲譜圖與改進SEResNet的魚類行為識別

2024-02-21 07:38楊雨欣楊宗軼林遠山
漁業現代化 2024年1期
關鍵詞:特征提取魚類養殖

楊雨欣,于 紅,楊宗軼,涂 萬,張 鑫,林遠山

(1 大連海洋大學信息工程學院,遼寧 大連 116023;2 大連市智慧漁業重點實驗室,遼寧 大連 116023;3 設施漁業教育部重點實驗室(大連海洋大學),遼寧 大連 116023;4 遼寧省海洋信息技術重點實驗室,遼寧 大連 116023)

精準養殖是魚類養殖的新趨勢[1],魚類行為識別為精準養殖提供技術支持[2]。目前,魚類行為監測主要采用計算機視覺技術量化和識別魚類的多種行為[3-5]。趙夢等[6]將SKNet注意力機制與YOLOv5融合,構成了關注像素級信息的特征提取網絡,有效增強了檢測效果;韋思學等[7]提出通道非降維雙重注意力機制ECBAM,對降維操作進行了優化,進一步提高了識別精度。然而,在規?;?、集約化等更為復雜的養殖環境中,計算機視覺方法仍有局限性[8],研究者考慮到聲波在水中衰減小且不受水體渾濁影響、傳播范圍更廣,開始將深度學習引入聲音識別領域[9]。Kong等[10]提出了在大規模AudioSet數據集上訓練的預訓練音頻神經網絡(PANNs),并證明可以將神經網絡轉移到其他音頻相關任務,但網絡提取聲音特征能力受限;Desplanques等[11]提出利用1D卷積神經網絡融合Res2Net和SE模塊以聚合聲音不同層次的特征,增強特征通道相互依賴性,但難以處理聲音細節特征。在魚類行為識別領域中,同樣可使用聲學特征[12-13]。Meng等[14]提出將魚類攝食音頻轉換為聲音特征信息,使用卷積神經網絡(CNN)模型對魚的攝食強度進行分類,但CNN對魚類細粒度聲音信息提取能力有限;胥婧雯等[15-16]采用能對魚類聲音特征進行細粒度分類的ResNet網絡,實現低維細節特征與高維語義特征融合,但樣本種類較少,且深度殘差網絡中有大量冗余層、網絡提取關鍵信息少。

基于以上分析,可用神經網絡增強魚類聲音特征提取[17],識別魚類行為,但現有魚類聲音數據和識別模型存在不足[18-19]。本研究首先開展魚類行為聲音信號數據采集,然后提出基于Mel聲譜圖與改進SEResNet的魚類行為識別模型TAP-SEResNet,通過Mel聲譜圖對頻率特征進行非線性映射,提升網絡對魚類聲音高級語義特征提取能力;通過融合時序聚合池化層TAP,使SEResNet保留最佳聲音特征信息。以上改進使SEResNet在復雜養殖環境下魚類行為識別的準確率與F1值的性能指標得到顯著提升。

1 材料與方法

1.1 數據集

1.1.1 試驗對象與環境

本試驗在大連海洋大學魚類行為學實驗室進行,試驗系統共3個養殖池,養殖池直徑60 cm,高度60 cm,養殖水深40 cm,如圖1所示。

圖1 魚類行為數據采集系統

以虹鱒魚(Oncorhynchus mykiss)為試驗對象,選取體長8~10 cm、平均規格10 g,共30條,養殖水溫保持15~18℃,密度9.2 kg/m3,pH為6.5~6.9,溶氧質量濃度12±2 mg/L,將虹鱒魚按數量均分為3個養殖池以保持最適養殖魚群密度,均經過1個月的養殖適應期。每天定量投喂兩次[20],投喂時間分別為早上10:00和下午18:00。在飼料投喂時段,通過攝像頭觀察魚類行為,采集魚群攝食、游泳和跳躍聲音信號,試驗期間保持室內安靜。

為采集魚類不同行為的聲音信號,使用水下聲學測量系統,水聽器型號為AQH20k-1062,采樣頻率20~20 000 Hz,覆蓋魚類發聲頻率范圍。為避免水聽器撞擊水箱壁造成雜音,將鉛錘垂直放置于養殖池水面下方10 cm的位置,水聽器綁在鉛錘上固定在養殖池中央。另一端連接計算機存儲數據,存儲為wav格式。為實時觀察魚類行為且不妨礙魚類正常生活,攝像頭(??低暰W絡攝像機)架設在高于水面30 cm的養殖水箱旁,同時連接計算機。

1.1.2 數據集構建

虹鱒魚是一種具有商業價值且養殖廣泛的魚類,其跳躍行為對于魚類健康監測和養殖環境改進有重要意義[21]。經過分析[22],將魚群行為分為“Feed” “Swim” “Jump”三種,采集聲音信號,聲音頻譜圖如圖2所示。其中,“Feed”表示攝食行為,“Swim”表示游泳行為,“Jump”表示跳躍行為,紅色虛線表示跳躍軌跡。

圖2 魚類行為數據集劃分

為了保證聲音包含一個完整周期的行為信息,每個行為采集時長為120 s。由于魚類行為聲音時長短,將采集到的聲音信號按照每段2 s進行人工切分并編號;另設一組噪聲對照組同步采集背景噪聲,以便獲取環境噪聲。收集不同時間段的試驗數據并重復進行上述采集過程,采集虹鱒魚攝食聲音信號樣本300個,游泳聲音信號樣本420個,跳躍聲音信號樣本300個,共計樣本1 020個。訓練、驗證、測試集按照7∶2∶1比例隨機劃分。

1.2 魚類行為識別方法

1.2.1 聲音特征提取

魚類聲音信號是非穩態信號,在時域中難以看出其特性,需要將每幀信號進行傅立葉變換得到相應頻譜圖,以分析聲音特征。目前,聲音特征提取常用方法為聲譜圖(Spectrogram)[23]、Mel頻率倒譜系數(MFCC)[24]和Mel聲譜圖(Mel spectrogram)[25]等。聲譜圖能夠捕捉頻率變化,但對于非穩態聲音信息處理能力不足,丟失部分細節時域信息。Mel頻率倒譜系數具有較強特征表達能力,但是通過離散余弦變換轉換為較低維度的特征向量時,壓縮過多頻率尺度,致使識別準確率不高。

Mel聲譜圖通過應用Mel濾波器對音頻信號進行傅里葉變換,將能量非線性映射到頻域梅爾刻度上,提取出魚類聲音中的重要頻率特征,在頻率軸上對音頻信號進行有效壓縮,提高聲音信息分辨能力;在保留魚類聲音關鍵信息的同時降低特征維度,能更完整地提取魚類細粒度聲音信息。因此,為了精準表示魚類行為聲音特征,選擇高分辨率、特征表示較好的Mel聲譜圖特征提取方法,提取不同魚類行為Mel聲譜圖特征如圖3所示。魚類攝食行為聲音信號含有斷斷續續的峰值波動,因此Mel聲譜圖呈現出明顯的魚類攝食強度變化;游泳行為聲音是連續的波動信號且強度較弱,因此Mel聲譜圖特征微弱,呈現出較為明顯的周期性特征;跳躍行為聲音為短暫的脈沖信號,因此Mel聲譜圖持續時間短,信號振幅大。

圖3 不同魚類行為的Mel聲譜圖

1.2.2 TAP-SEResNet框架設計

由于真實養殖環境下存在各種刺激源,飼料投放、水流變化等外部條件刺激將導致魚類產生不同的聲音響應,因此魚類聲音數據具有復雜性和多樣性,對魚類的行為識別必須具有較高的抗混淆能力與精準性。ResNet網絡[26]中的殘差結構能夠有效降低魚類聲音特征之間的相關性,增強模型對于差異化特征的感知能力,避免關鍵信息逐層消失;SENet[27]能夠對魚類聲音中的關鍵特征進行加權計算,增強模型對于魚類細粒度聲音的特征提取和區分能力。因此,SEResNet對于魚類聲音能夠高效提取特征、關注重要信息,可滿足魚類行為識別要求。

TAP-SEResNet基于SEResNet,其模型結構如圖4所示。TAP-SEResNet由SEResNet、TAP、全連接層和Softmax分類器構成。輸入Mel聲譜圖信息,首先經過SEResNet的殘差連接,得到魚類原始聲音特征,通過嵌入的SE注意力機制模塊進行關鍵特征加權計算,學習魚類聲音關鍵信息,并和原始特征相加;針對養殖環境中頻率波動大、特征差異小的魚類細粒度聲音信息提取困難問題,通過融合TAP,提升對魚類聲音信息的特征提取能力,最后將深層聲音特征提供給全連接層整合信息,經過Softmax分類器輸出魚類行為識別結果。

圖4 TAP-SEResNet結構圖

1.2.3 TAP模塊

針對養殖環境下復雜多樣的魚類行為聲音信息,SEResNet的殘差結構和SE注意力機制能夠有效提取魚類聲音深層細粒度特征,但是殘差網絡中聲音特征尺寸過度壓縮會導致關鍵信息丟失。為保留最佳魚類聲音特征信息同時不丟失背景信息,提出TAP模塊。TAP通過融合池化區域的最大值和平均值,兼顧魚類聲音信號的局部關鍵信息和整體背景信息,從而強化空間信息,提升空間感知能力,提供更豐富、全面的特征表達。時序聚合池化層TAP結構如圖5所示。

圖5 時序聚合池化層TAP結構圖

設魚類行為聲音經過卷積處理后的特征向量為ht,沿著總時間維度t,同時進行平均池化μ和最大池化f(x)。平均池化能提供區域內特征的整體趨勢和背景信息;最大池化則能夠捕捉輸入區域內的最顯著特征,保留重要局部細節和去除冗余信息。最后將池化后的魚類聲音特征信息進行拼接操作,得到融合后的向量E,計算如公式(1)~(4)所示:

ht=(h1,h2,...,ht)

(1)

(2)

f(x)=max(0,hi)

(3)

E=[μ,f(x)]

(4)

式中:hi(i=1,2,...,t)是特征向量分量;max表示取特征向量最大值;[,]表示拼接操作。

1.3 試驗平臺與評估指標

1.3.1 試驗平臺與模型訓練參數

本研究試驗環境為Intel Core 17-9700 CPU 3.00 GHz 3.00處理器,RTX3090顯卡,32GB內存,操作系統為Windows10,運行環境Python3.8,開源深度學習框架Pytorch版本為1.13.1。訓練參數設置batch_size為32,epoch為100。

1.3.2 評估指標

本研究所提模型評估采用準確率、F1值作為模型性能評價指標,分類評估采用精確率、召回率和F1值作為分類性能評價指標。

準確率(Accuracy,Ac)反映的是被預測為正確魚類行為樣本數與樣本總數的比值,即是模型正確識別各種魚類行為的概率;精確率(Precison,Pr)反映的是在特定魚類行為下,正確分類樣本在所有預測為該魚類行為樣本中所占的比例;召回率(Recall,Re)反映的是正確分類的魚類行為占所有該行為總樣本的比例;F1值(F1-score,F1)作為分類器的綜合指標,是精確率和召回率的調和平均數。計算如公式(5)~(8)所示:

(5)

(6)

(7)

(8)

式中:TTP(True Positives)為在正樣本中預測出正確魚類行為的樣本數;FFN(False Negatives)為在正樣本中預測出錯誤魚類行為的樣本數;FFP(False Positives)為在負樣本中預測出正確魚類行為的樣本數;TTN(True Negatives)為在負樣本中預測出錯誤魚類行為的樣本數。

2 試驗設計與結果分析

2.1 消融試驗

為驗證時序聚合池化層TAP對SEResNet改進的有效性,設計消融試驗內容如下:分別在有池化層TAP和無池化層TAP條件下進行了魚類行為識別對比試驗。試驗結果如表1所示,加入TAP模塊后模型的準確率、F1值分別提升3.23%、4.33%,表明所提模塊有效。通過融合TAP模塊對SEResNet模型進行改進,結合最大值和平均值,保留魚類聲音信號的局部關鍵信息和整體背景信息,使魚類細粒度聲音完整提取,減少有效信息丟失,提升模型性能,可更好滿足魚類行為識別要求。

表1 消融試驗

2.2 對比試驗

2.2.1 特征提取方法對比

為驗證Mel聲譜圖對于魚類聲音特征提取的有效性,設計對比試驗內容如下:在TAP-SEResNet的基礎上與目前常用的聲音特征提取方法聲譜圖[23]和Mel頻率倒譜系數[24]進行對比。試驗結果如表2所示,Mel聲譜圖相比其他方法準確率分別提升8.36%、0.97%,F1值分別提升8.8%、0.47%。由分析可得,聲譜圖處理非穩態聲音信息能力不足,Mel頻率倒譜系數壓縮過多頻率尺度,影響模型準確性。Mel聲譜圖在頻率軸上有效壓縮魚類聲音信號,增強聲音信息特征提取和分辨能力,與Mel頻率倒譜系數和聲譜圖相比,更適用于提取魚類聲音信息,明顯優于其他方法。

表2 特征提取方法對比

2.2.2 模型對比試驗

為驗證TAP-SEResNet在魚類行為識別的有效性,與先進聲音識別模型進行對比試驗,對比模型分別是:Kong等[10]通過遷移學習方法,提出聲音識別網絡PANNs-CNN14;Desplanques等[11]通過結合Res2Net模塊和SE注意力機制并使多層特征聚合,提出語音識別網絡ECAPA-TDNN;胥婧雯等[15]通過結合MFCC和ResNet,提出魚類行為識別網絡MFCC+ResNet。試驗結果如表3所示,與其他方法相比,TAP-SEResNet準確率分別提升5.32%、2.80%和1.64%,F1值分別提升5.93%、1.96%和2.00%。經分析可得,PANNs-CNN14通過將神經網絡用于音頻任務,學習聲音特征,但是CNN對聲音信息提取能力有限;ECAPA-TDNN通過在1D卷積網絡基礎上融合Res2Net和SE模塊以聚合聲音不同層次的特征,但是對噪聲和環境變化比較敏感;MFCC+ResNet通過將殘差模塊中的最大池化替換為平均池化,多維度學習魚類聲音特征,但是深度殘差網絡含有大量冗余層,有效聲音信息提取不夠。TAP-SEResNet通過融合TAP模塊保留更多的魚類行為聲音關鍵特征,同時不丟失聲音背景信息,促進SEResNet對魚類細粒度聲音信息進行有效提取,達到最優識別性能。

表3 不同模型與TAP-SEResNet的性能對比

2.3 TAP-SEResNet識別結果

為驗證TAP-SEResNet對魚類行為識別的分類性能,識別結果和歸一化混淆矩陣如表4和圖6所示。

表4 TAP-SEResNet魚類行為識別結果

圖6 魚類行為識別歸一化混淆矩陣

由表4數據分析可得,“Feed”行為由于聲音信息較豐富,分類效果最好,評估指標均在98%以上;“Feed”和“Jump”魚類行為識別精確率均達到98%以上,“Feed”和“Swim”魚類行為識別召回率均達到99%以上,3個魚類行為識別F1值均達到89%以上,模型整體準確率為91.15%。由圖6可知,歸一化混淆矩陣的左上到右下的對角線表示每個分類的識別準確率,對角線外區域表示錯誤分類區域,“Feed”和“Jump”分類精確率均達到98%,穩定性好。故TAP-SEResNet通過融合TAP模塊,增強模型分類性能,試驗結果表明所提模型改進的有效性。然而本算法仍具有局限性,由于魚類游泳行為動作幅度小、特征不明顯,游泳行為有效聲音信息較少,故圖6中游泳行為識別結果的精確率僅達到81%,與攝食、跳躍行為識別結果相差17%,識別效果較差,說明部分魚類聲音信息仍然無法高效捕捉和分辨,同時試驗環境中可能存在影響聲音檢測的其他干擾因素。

對比魚類品種識別[28-29],本研究識別難度在于魚類行為聲音信息難采集、頻率波動大和特征差異小等特點使得目標特征信息難以捕捉,聲音關鍵信息的提取準確率低;對比魚類攝食強度量化[30],本研究識別難度在于真實養殖環境通常比較復雜,魚類行為聲音信息易受環境噪聲影響且含有多樣性和復雜性,增加了識別難度。針對上述難點,TAP-SEResNet識別模型通過采用Mel聲譜圖提取聲音特征信息,從而降低了魚類聲音信息提取難度;同時提出融合TAP模塊加強對關鍵特征的提取,從而增強SEResNet對魚類細粒度聲音信息的識別能力。

3 結論

本研究提出基于Mel聲譜圖和改進SEResNet的魚類行為識別模型TAP-SEResNet,魚類聲音信息由Mel聲譜圖特征提取,通過融合TAP模塊保留魚類聲音的局部關鍵信息和整體背景信息,減少關鍵信息丟失,提高SEResNet模型識別能力,可為研究魚類行為識別領域提供技術支持,有助于養殖過程中對魚類行為實現精準檢測。然而,本研究僅在實驗室環境下進行,對復雜養殖環境中含有雜亂背景聲音信息的問題,仍需進一步研究改進,同時還可以針對魚類聲音特點考慮其他更有效的特征提取方法。

猜你喜歡
特征提取魚類養殖
青山綠水 健康養殖
基于MFCC和ResNet的魚類行為識別
紅螯螯蝦的養殖技術
黃顙魚養殖,不變不通
魚類運動會
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
魚類是怎樣保護自己的
豬市虐我千百遍 我視養殖如初戀
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合