基于改進膠囊神經網絡的樂音主頻識別研究

2023-05-24 08:15劉玥彤

南京理工大學學報 2023年2期

劉玥彤,吳迪,滕華

(1.哈爾濱音樂學院管弦系,黑龍江哈爾濱 150028;2.哈爾濱工程大學計算機科學與技術學院,黑龍江哈爾濱,150001;3.齊齊哈爾大學計算機與控制工程學院黑龍江齊齊哈爾,161006;4.西華師范大學計算機學院,四川南充,637009)

深度學習技術的不斷深化給音樂藝術等領域發展帶來了新的機遇,將深度學習技術應用于音樂創作和鑒賞成為研究熱點,特別是樂音的信號檢測、特征提取和樂音識別等環節均成為深度學習技術的應用對象。樂音識別技術作為語音識別技術的一種,其研究方式和語音識別的路徑類似,但由于樂音因為樂器差異,音符高中低音混合等特點,樂音識別又呈現出不同于普通語音識別的新特點。樂音特征提取與樂音主頻識別研究成為解決樂音識別的關鍵問題[1]。前者為樂音識別算法提供有效準確的樣本特征,而后者是樂音識別中的關鍵環節,當前的樂音識別研究大多集中在這兩個方面,本文重點研究解決樂音主頻識別的問題。

近年來,關于樂音主頻識別的研究較少,劉瑩等[2]從音頻信號分析的角度對鋼琴樂音進行相關性比較,根據相關函數求解來獲得鋼琴樂音的識別結果。趙凌覽等[3]也是從音頻信號分析角度對音頻時域信號進行頻域變換,并結合音頻標準頻域來進行匹配操作,從而獲得音頻識別結果。這兩種方法在處理樂音識別時更傾向于音頻信號的傳統處理方法,將樂音信號當做普通音頻信號處理方式來對待,這造成了兩者的樂音識別準確率還有較大的提升空間。

隨著計算性能的大幅提升,深度學習技術出現了爆發式的發展,并在各種領域得到了廣泛的應用。例如,采用深度學習技術的語音翻譯系統的準確率獲得了顯著的提高。目前絕對大多數深度學習技術都是基于卷積神經網絡架構,但是卷積神經網絡也存在許多缺點,例如無法理解部分與整體之間的關系,可能對樂音主頻識別性能產生不利影響。Hinton提出的神經網絡能夠識別局部的“膠囊”,而不是使用總結全局特征的單標量輸出“神經元”,因此膠囊神經網絡對微小的變化更為敏感。因此,本文嘗試采用深度網絡學習中最新的膠囊神經網絡來對樂音信號特征進行訓練分類,從而完成樂音主頻信號識別。此外,為了提高不同樂器樂音信號的識別準確度,以便滿足實際應用要求,本文對傳統CapsNet的相似度計算方法進行了改進,從而有效模仿高中低音之間的相似性。

1 樂音主頻識別原理

樂音主頻識別作為樂音識別的關鍵步驟,其識別的準確度對整個樂音的識別有關鍵影響。

圖1 樂音主頻識別結構

在樂音信號的提取過程中,需要對音符進行端點檢測并有效分割,從而完成樂音信號的預處理,之后對信號進行數字化處理,并進行特征提取,為樂音識別模型訓練提供可用的特征集。當前主要采用的特征提取方法主要有線性預測倒譜參數(Linear predictive cepstral coefficient,LPCC)法,通過確定LPCC,從而獲得樂音的主頻特征。

設LPCC的經過n個輸入采樣后獲得的預測輸出為s(n),則[4]

s(n)≈a1s(n-1)+a2s(n-2)+…+aps(n-p)

(1)

式中：p表示s(n)之前的樣本數,a1、a2和ap分表表示LPCC系數。

s(n)疊加沖擊u(n)響應后變為

(2)

式中：G表示增益系數。

對式(2)進行頻域變換

(3)

那么傳遞函數

(4)

(5)

根據實際值和預測建立誤差函數e(n)

(6)

那么傳遞函數

(7)

對誤差函數e(n)進行系數偏導運算,獲得LPCC系數值,從而得到樂音主頻特征參數。

根據樂音主頻參數組建特征向量,輸入至樂音主頻識別算法進行訓練,最后得到樂音主頻識別模型,根據識別模型則可獲得識別結果。

2 基于CapsNet的樂音主頻識別

2.1 膠囊神經網絡原理

膠囊神經網絡(CapsNet)相對于傳統神經網絡來說,其采用膠囊單元替換了傳統的神經元單元,膠囊之間的連接權重等參數采用動態路由算法來進行更新迭代。

令Ui表示第i膠囊層輸出向量,經過第j膠囊層連接預測得到[5]

(8)

式中：Wij表示第i和j層之間的連接權重。

CapsNet的權重經過動態路由獲得,其主要根據動態路由獲得,第i和j層之間的相似度為bij,耦合系數為cij,那么bij為[6]

(9)

(10)

式中：bik表示第i和k膠囊層之間的相似度,m表示bij的數量。

對于第j層膠囊來說,其輸入與低層膠囊的輸出有關,那么第j層膠囊的輸入sj計算方法為[7]

(11)

(12)

采用壓縮函數求解高層膠囊輸出vj,計算方法為[9]

(13)

CapsNet損失函數為[10,11]

λ(1-Tk)max(0,‖vk‖-m-)2

(14)

式中：k為類別編號,Tk為類別,Num為類別總數,vk為預測值,m+和m-為類別閾值,λ是系數常量。

2.2 膠囊神經網絡的改進

考慮到樂音主頻音符的高中低音之間的相似性,為了提高樂音主頻分類準確性,對傳統CapsNet的相似度計算方法進行了改進

(15)

同時需要修改sj的計算方法

(16)

高層膠囊的輸出和損失函數計算公式以傳統CapsNet一致。

2.3 主頻識別流程

首先對樂音信號進行噪聲濾除[12,13],然后采用LPCC法獲得樂音主頻系數,構建樂音主頻特征向量,接著建立CapsNet樂音主頻識別網絡模型,通過路由動態求解獲得CapsNet的網絡參數,確定穩定的CapsNet識別模型,最后采用該模型進行樂音主頻預測。

圖2 基于改進的CapsNet樂音主頻識別流程

3 實例仿真

為了驗證改進的CapsNet在樂音主頻識別方面的性能,進行實例仿真。本文選用的數據集來自于88鍵鋼琴,分別提取了單音數據集和曲譜數據集,數據集保存格式為.wav。實例仿真的過程分為3個部分：(1)分別對改進的CapsNet在樂音單音頻率和樂音曲譜主頻識別性能方面進行仿真;(2)對比CapsNet和改進的CapsNet識別性能,驗證特征相似度改進對識別性能的影響;(3)分別采用常用樂音識別算法和改進的CapsNet算法進行性能對比。

考慮到不同樂器樂音的主頻頻率分布范圍有差異,為了充分驗證改進的CapsNet算法在樂音識別中的性能,選擇了如表1所示的不同樂器的樂音信號,其采樣頻率均為22.05 kHz。

表1 樂音集

3.1 識別準確度仿真

3.1.1 單音識別準確度

采用改進的CapsNet算法對單音集進行性能仿真,對比其頻率值,結果如表2所示。

表2 單音識別性能

從表2可得,經過改進的CapsNet算法識別,單音的實際頻率和識別頻率非常接近,12個音符中,正向偏差為5個,負向偏差為7個,其中在b1音符獲得最大偏差為-0.19,而在#f1音符獲得最小偏差為-0.04,可見改進的CapsNet算法在單音中識別準確率高,基本保持了0.2%以下的識別誤差。

3.1.2 曲譜識別準確率

圖3至圖6展示了改進的CapsNet算法在4類樣本測試集的主頻識別中預測值與實際值的差距,大部分預測和實際主頻值都重合了,僅有少數幾個樣本的主頻出現了較小偏差,這表明改進的CapsNet算法對樂音主頻識別性能適用性強。橫向對比發現,在小提琴集的主頻值較高時,其識別性能出現了較多的誤差,這可能是因為小提琴集的主頻上限值高,改進的CapsNet算法在對高頻率識別時有一定的不穩定性,而在其他3類樣本集的主頻識別中,識別錯誤的樣本點頻率分布比較均勻,未出現明顯的高頻率識別錯誤的情況。

圖4 小提琴樂音主頻識別準確率

圖5 豎琴樂音主頻識別準確率

圖6 吉他樂音主頻識別準確率

3.2 相似度改進的識別性能影響

為了驗證采用余弦相似改進的特征相似度對CapsNet算法樂音主頻識別性能的影響,分別采用CapsNet算法和改進的CapsNet算法對曲譜的主頻識別進行性能仿真。

從表3知,在樂音主頻識別準確度方面,CapsNet和改進CapsNet算法均能獲得0.9以上的準確率,其中在數據集4.wav中改進的CapsNet獲得了最高識別準確率0.964 1,而CapsNet算法在數據集2.wav中獲得了最高識別準確率0.916 8,但是兩者對比,經過改進的CapsNet準確率均優于改進CapsNet算法,這表明經過余弦相似特征度計算后,相比于內積計算,其對樂音頻率的類間相似具有更好的區分作用,所以其能夠在高中低音的樂音中獲得更佳的識別準確率。在RMSE性能方面,改進的CapsNet樂音主頻識別的穩定性仍優于CapsNet算法,這表明采用余弦相似進行特征差異比對更適合于樂音音符比對,這可能是因為樂音主頻頻率值較接近而不容易分類,而采用余弦相似相比內積相似更能夠區分不同的主頻頻率,且穩定性更高。

表3 CapsNet和改進CapsNet的準確率和RMSE

3.3 不同算法的樂音主頻識別準確率

為了進一步驗證改進的CapsNet算法的樂音主頻識別性能,分別采用離散小波變換(Discrete wavelet transform,DWT)算法[14]、小波分析算法[15]、生成對抗網絡(Generative adversarial networks,GAN)[16]和改進的CapsNet算法對表1的4類不同樂器樣本集進行性能仿真,結果如圖7所示。

圖7 4種算法的樂音主頻識別準確率

從圖7得,對于4類樂音樣本集,其識別準確率差異較大,尤其是吉他集。對于同類數據集,改進的CapsNet算法樂音識別準確率最高,GAN算法次之,DWT算法最差,從識別時間方面來看,GAN算法最差,其他3種算法差距較小。

對上述仿真結果進行綜合性分析,可以得出：改進的CapsNet在樂音單音頻率和樂音曲譜主頻識別方面均具有較好的適用性。此外,由于特征相似度改進的影響,改進的CapsNet對樂音頻率的類間相似具有更好的區分作用。因此,對于4類樂器樂音主頻識別,相比現有多種類似算法,改進的CapsNet算法具有更高的識別準確率,最高可達到97%。

4 結束語

采用改進的CapsNet算法用于常用樂器的樂音主頻識別,可以獲得較高的樂音主頻識別準確率。本文主要創新點在于采用余弦相似度對傳統的內積計算進行有效改進,優化特征差異判斷策略。因此,相比現有多種類似算法,改進的CapsNet算法具有更高的識別準確率,最高可達到97%。后續研究將從兩個方面著手以進一步優化樂音主頻識別性能,一方面是對樂音特征提取進行策略改進,另一方面是對CapsNet算法進一步優化改進,以提高CapsNet算法在樂音主頻識別研究中的適用性。