?

基于深度神經網絡的電子音樂音質評估研究

2022-11-09 08:23劉穎
微型電腦應用 2022年10期
關鍵詞:基頻電子音樂音質

劉穎

(咸陽師范學院, 音樂學院, 陜西, 咸陽 712000)

0 引言

電子音樂是當前音樂領域中的一個主要音樂體系,隨著電子樂器與播放器等設備的快速發展,電子音樂內樂器數量顯著提升。電子音樂音質評估是判斷電子音樂制作水平的主要評價指標[1]。

關于音質評估的研究有:李子晉等[2]以主觀感知得分為基礎提取出了表征音色的客觀音頻特征,并對其差值進行計算,得出音色相似性矩陣,實現了音質檢測與評估。趙志成等[3]以音樂小節為依據劃分了音樂信號,通過音樂信號的部分特征推斷整體特征,基于李雅普諾夫指數驗證音樂信號中的混沌特性通過檢測到的音樂信號特征評估其音質?,F有的音質評估方法在使用過程中存在音質評估精度較差的問題[2-3]。

為了改善這一問題,本研究提出基于深度神經網絡的電子音樂音質評估方法??紤]電子音樂中最重要的要素為旋律[4],因此在采用深度神經網絡進行音質評估前,需先提取電子音樂主旋律,在電子音樂主旋律基礎上分析影響電子音樂音質的各項因子,基于這些影響因子構建深度神經網絡,提升最終評估精度。

1 基于深度神經網絡的電子音樂音質評估方法

1.1 電子音樂預處理

電子音樂預處理過程由音頻采樣、歸一化、分幀以及時頻與變換等過程共同組成。一般情況下,電子音樂高于5 kHz的諧波分量占比較低[5],因此在對電子音樂實施降采樣處理時設定采樣率為10 kHz,以此降低后續運算復雜度。電子音樂內音頻信號具有短時平穩特性,需選取漢明窗對電子音樂音頻信號實施分幀加窗處理,設定每幀信號取樣點數量為320個。電子音樂信號時頻轉換采用短時傅里葉變換。

電子音樂由各個具有一定時值的音符組成,各音符的主要特性表現為具有相對穩定的頻譜。這說明電子音樂內各音符在語譜圖上為一系列以段間差異顯著、段內差異微弱為特征的頻譜段?;诖?,可選用度量距離算法實施音符分割處理。作為綜合數據段間均值與方法的距離度量方法,利用度量距離算法能夠確定電子音樂音頻段落間的差距。設定數據窗長為5幀,利用式(1)可描述度量距離算法DIS表達式:

(1)

式中,μ1表示前一段電子音樂音頻特征的均值矢量,μ2表示后一段電子音樂音頻特征的均值矢量,tr(∑1)表示前一段電子音樂音頻特征協方差矩陣的跡,tr(∑2)表示后一段電子音樂音頻特征協方差矩陣的跡。在2段電子音樂音頻間特征均值差異較為顯著、段內特征方差較為微弱的條件下,度量距離可描述2段電子音樂音頻間距離,兩者之間為正比例相關[6]。

采用短時幅度譜確定特征參數。經由依幀滑動數據窗確定關于幀數t的度量距離函數DIS(t):

(2)

計算DIS(t)內全部的極大值點,設置DIS(t)均值的閾值為T1,刪除

考慮電子音樂中既包含濁音段,也包含非濁音段,因此在切分后需利用濁音段檢測算法判斷濁音段與非濁音段。濁音段的頻譜方差顯著大于非濁音段,因此在確定電子音樂中濁音段時可采用頻譜方差作為特征參數。

通過上述電子音樂預處理過程可有效降低電子音樂旋律定位虛警率,利用度量距離算法實現音符切分,通過方差法確定電子音樂濁音段。在此基礎上,利用維特比算法跟蹤濁音段主導基頻軌跡,同時利用基頻辨別模型確定電子音樂主旋律。

1.2 主旋律提取

在確定電子音樂內各濁音段主導基頻軌跡后,利用基頻辨別模型判斷當前主導基頻軌跡為主電子音樂還是伴奏,將不屬于主電子音樂的基頻軌跡刪除。

不同的電子樂器有不同的音色與音質,這主要是由電子樂器聲音的頻譜決定的,也就是由聲音基因與不同次諧波的相對強度決定的。

考慮人類聽覺特性的梅爾頻率倒譜系數是可體現聲音譜包絡特征的參數[8],利用神經網絡構建基頻辨別模型。同時電子音樂聲頻均包含諧波結構,因此電子音樂頻譜具有近似稀疏性,以某段電子音樂為樣本,提取其中的主導基頻F0,并通過梳齒濾波器采集對應聲源的諧波譜,將提取信號的梅爾頻率倒譜系數輸入基頻辨別模型確定對應基頻是否為電子音樂聲。電子音樂主旋律提取的詳細過程如下。

(1) 利用主導基頻F0構造出式(3)所示的梳齒濾波器:

(3)

其中,梳齒濾波器頻率單位為0~5 kHz,式(3)中K和b(f)分別表示0~5 kHz范圍內諧波數量和梳齒濾波器基本波形。

(2) 利用梳齒濾波器對信號幅度實施濾波處理,獲取F0對應的諧波譜,并采集其對應的梅爾頻率倒譜系數參數。

(3) 將梅爾頻率倒譜系數輸入基頻辨別模型,確定F0是否為電子音樂聲基頻。

(4) 統計各濁音段內電子音樂基頻的幀數,若統計結果大于此濁音段總幀數的1/2,即可確定此濁音段的主導基頻軌跡為電子音樂主旋律。

1.3 因子提取

一般情況下,與電子音樂音質具有緊密相關性的因子主要有聲源特性、音響器材的信號特性、聲場特性、聽覺特性、立體感等類型。梁惠恩[9]采用層次分析法分析了電子音樂音質的多種影響因素,計算了不同影響因子的權重,基于該研究結果,確定了電子音樂音質的15個影響因子,在提取出的電子音樂主旋律中選取圖1所示的15個影響因子作為電子音樂音質評估模型的建?;A。

圖1 影響因子

以確保評估因子間不具有線性相關性為目的,選取方差膨脹因子對圖1所示的各項評估因子實施多重共線性檢驗。通常情況下,在方差膨脹因子高于15的條件下,不同因子對應的方差膨脹因子均低于15,由此充分表現出圖1內所選的15個因子間不具有明顯的線性相關性,因此可用于電子音樂的音質評估。

以保障深度神經網絡正常訓練為目的,需引入對照樣本。生成與主旋律中樣本點一致的隨機對照點,將不同因子層內各樣本點與對照點的屬性值錄入數據表內,生成樣本集,樣本集內各數據均包含圖1內的15個因子屬性值,將樣本集內數據作為深度神經網絡的輸入數據。

1.4 深度神經網絡評估模型構建

深度神經網絡模型構建以開源項目Keras人工神經網絡庫為基礎[10]。由于樣本數量較少,因此選取包含4層全連接層、總計14層的深度神經網絡模型。

圖2 深度神經網絡模型

圖2的全連接層能夠與人工神經網絡內隱藏層的功能一致,4層全連接層的單元數(輸出維度)分別為30、15、7和1。由于訓練集內樣本數量較少,維度較低,為了提升深度神經網絡模型對電子音樂音質影響因子的表達能力,在第1層全連接層內擴展維度,經過3層全連接層后將輸出收縮至一個單元的全連接層,輸入電子音樂音質評估結果。

歸一化層位于2個全連接層間,利用歸一化方法對數據實施歸一化處理的核心為一致化處理神經網絡各層的輸出與輸入分布,確保各層間數據的分布固定化,防止出現訓練速度過慢或過擬合的問題,詳細操作過程如下:

激活層的主要功能為利用激活函數激活全連接輸出結果。作為非線性的變換函數,激活函數可模擬腦神經元閾值激活特性,將非線性特征引入深度神經網絡內,提升模型表達能力。激活層內包含ReLU函數和Sigmoid函數。前者為分段函數,可提升模型收斂速度與網絡稀疏性;后者可將回歸層的輸入映射至[0,1],主要應用在模型最后一層完成類別評估。經過Sigmoid函數處理后,深度神經網絡輸出值即電子音樂音質評估值。2個函數的表達式分別如下:

2 實驗結果與分析

驗證本研究所提方法的實際應用效果,進行實驗分析。在互聯網內選取500段電子音樂作為測試數據,該數據選自酷我電子音樂排行榜中的前500首電子音樂,該音樂集中的電子音樂的發表時間較新,且具有一定程度的代表性。從該音樂集的每首音樂中截取音樂特征較為明顯的部分進行實驗。從選取的電子音樂主旋律提取與深度神經網絡建模效果兩方面分別進行分析,所得結果如下。

2.1 電子音樂主旋律提取

設定電子音樂主旋律提取實驗環境:信干比分別為0 dB和10 dB。信干比S/R計算公式如下:

(10)

式中,E1和E2分別表示電子音樂中電子樂器聲音的能量和噪音的能量。

以旋律定位查全率、旋律定位虛警率、原始音高準確率、原始色度準確率和整體準確率為評價指標。將文獻[2]和文獻[3]方法分別定義為對比方法1和對比方法2。對比信干比分別為0 dB和10 dB的條件下本研究所提方法與2種對比方法的各項評價指標,結果如圖3所示。分析圖3得到,本研究所提方法在信干比分別為0 dB和10 dB的條件下的占比分別為0.09%和0.24%,與2種對比方法相比占比略低。由于本研究所提方法中判斷電子音樂主旋律過程中有較低概率將電子音樂旋律判斷為噪音,因此本研究所提方法的旋律定位查全率略低于對比方法1。但這種誤判概率較低,因此本研究所提方法的旋律定位虛警率明顯低于2種對比方法。整體準確率是最主要的評價指標,本研究所提方法在不同信干比的條件下整體準確率分別達到了87.33%和78.5%,高于2種對比方法。綜合對比之下,本研究所提方法提取電子音樂主旋律的性能優于2種對比方法。

2.2 深度神經網絡建模效果

為驗證本研究所提方法中深度神經網絡模型的構建效果,對比本研究所提方法和2種對比方法的建模效果。選取AUC值作為不同評估方法建模效果的評價指標。AUC值的取值范圍為[0,1],其值越大表示評估效果越好,其值≤0.5表示模型無法實現分類。

考慮到建模樣本較少,因此采用k-fold交叉驗證,具體過程如下:將樣本集內全部樣本任意劃分為k份,同時實施k次循環,每次選擇第k份樣本用于檢驗,其余樣本用于訓練。大量研究資料顯示10-fold交叉驗證可獲取更優的效果,因此本研究所提方法采用10-fold交叉驗證。不同方法內模型10-fold交叉驗證結果如圖4所示。圖4中,虛線為10-fold交叉驗證內各次檢驗對應的受試者工作特征曲線(ROC曲線),實線所描述的是10次交叉驗證的平均ROC曲線。

圖3 電子音樂主旋律提取結果

分析圖4得到,本研究所提方法、對比方法1和對比方法2建模的平均AUC值分別為0.918 7、0.8718和0.867 6。本研究所提方法的平均AUC值顯著高于2種對比方法,由此說明本研究所提方法建模效果更好。

(a) 本研究所提方法

3 總結

本研究提出了基于深度神經網絡的電子音樂音質評估方法,在電子音樂主旋律基礎上分析電子音樂音質影響因子,將其作為電子音樂音質評估模型的建?;A,構建深度神經網絡模型評估電子音樂音質。實驗結果顯示,本研究所提方法中深度神經網絡具有較好的建模效果,可提升模型應用效果。但本研究仍存在一定的局限性,未考慮到不同音樂類型音質評估的因子,后續研究中可以針對多種音樂類型音質的影響因子進行研究,以進一步提升音質評估技術的全面性。

猜你喜歡
基頻電子音樂音質
語音同一認定中音段長度對基頻分析的影響
現場電子音樂與單件樂器結合時的功能及其實現方式
基于時域的基頻感知語音分離方法?
如何提高電子音樂的藝術鑒賞價值
私人影院音質優選 ATT(安緹)SUB-12+
讓全家人共享Hi-Fi音質 DALI(達尼)OBERON C系列
多艙段航天器振動基頻分配速算方法
在小空間享受大型音箱的音質 Definitive Technology UIW RLS Ⅱ/UIW RSS Ⅱ
其它都好,音質有待提高 小米AI音箱
第 18 屆北京國際電子音樂節
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合