?

基于混合判別受限波茲曼機的音樂自動標注算法

2017-09-19 05:35王詩俊
關鍵詞:茲曼社群音頻

王詩俊, 陳 寧

(華東理工大學信息科學與工程學院,上海 200237)

基于混合判別受限波茲曼機的音樂自動標注算法

王詩俊, 陳 寧

(華東理工大學信息科學與工程學院,上海 200237)

對于音樂自動標注任務,在很多情況下,未標注的歌曲量遠遠超過已標注的歌曲數據,從而導致訓練結果不理想。生成模型能夠在某種程度上適應少量數據集的情況,得出較為滿意的結果,然而,在有充分數據集的情況下生成模型的效果卻劣于判別模型。本文提出了一種結合生成模型與判別模型兩者優勢的面向音樂自動標注的混合判別波茲曼機模型,該模型可明顯提升音樂自動標注的準確率。實驗結果表明,混合波茲曼機的效果不僅好于傳統的機器學習模型,同時,模型在擁有足夠訓練數據量的情況下與判別模型效果相當,且在訓練集較少的情況下效果也好于判別模型。另外,為了防止模型過擬合,還引入了Dropout規則化方法以進一步加強模型的性能。

音樂自動標注; 混合判別受限波茲曼機; 機器學習; 人工智能

隨著數字音樂的發展,在線歌曲的數量呈指數級增長。讓用戶快速找到自己感興趣的歌曲,是目前互聯網服務必須解決的一個問題。一個可行的方法是利用歌曲標簽,即用戶可以通過搜索標簽的方式找到自己喜歡的歌曲。

Tingle等[1]利用兩種新的特征——Echo Nest Timbre (ENT)和Echo Nest Songs (ENS),以聲學標簽 (Acoustic tags) 和流派標簽(Genre tags)作為標注為音頻進行自動標注。Sordo等[2]利用基于音頻內容相似性的模型對具有近似風格或感情的音樂進行了自動標注。

除上述標簽外,一種最容易獲得的標簽是社群標簽(Social tags)[3],社群標簽的獲得不需要專業人士的參與,極大地節約了人力和時間成本。所有用戶都可以為歌曲進行標注,例如“女聲”、“舒緩”、“好聽”等語義級別描述。文獻[4]提出了利用MFCC(Mel Frequency Cepstrum Coefficient)特征來訓練AdaBoost模型,該模型能夠根據音頻特征和社群標簽進行自標注。文獻[5]利用社群標簽進行情感音樂分類,使用聚類的方式將音樂分為“高興”、“悲傷”、“憤怒”和“溫和”4種情緒。文獻[6]利用文本挖掘和信息檢索技術對龐大的語義級社群標簽進行文本分析,從而最終對音樂進行情感分類。文獻[7]結合利用用戶信息、社群標簽以及音頻特征為用戶推薦音樂。

但社群標簽存在一些問題。第一,并不是所有的歌曲都擁有足夠的社群標簽,只有少量的熱門歌曲擁有足夠多的標簽,新歌或是冷門歌曲的標簽都很缺乏。第二,用戶可能會使用同義詞(如Favorite,Favorites)、無用詞(如Awesome,Own it)、歧義詞(如Love可以代表用戶喜愛的歌曲也可代表是愛情歌曲)來標注音樂。第三,由于社群標簽是語義級特征,需要對其進行語義分析。因此,可以參與模型進行訓練的歌曲量其實并不多。正因為如此,在少量訓練數據集的情況下對音樂進行準確的自動標注非常重要。

目前,擁有高準確率的深度學習模型被用于音樂自標注研究中。文獻[8]利用深度置信網絡DBN(Deep Belief Network)來自動提取輸入音頻的特征以進行流派分類,不過該模型需要足夠的訓練集,并且流派類別非常少,屬于某個流派的歌曲數量依舊十分龐大,無法使用戶快速找到自己喜歡的歌曲,本文不再對該方法進行比較。

生成模型(Generative model)可以解決訓練數據集數量較少的問題,在少量數據集情況下的效果要好于分類問題中常使用的判別模型(Discriminative model)[9],但在擁有大量訓練數據的情況下,判別模型卻要好于生成模型。為了兼顧兩者的優勢,本文提出了一種將生成波茲曼機和判別波茲曼機混合組成的混合判別波茲曼機(Hybrid Discriminative Restricted Boltzmann Machines,HDRBM)。實驗證明該模型即使在少量帶標簽音樂訓練集的情況下也能達到精準標注的結果。

另外在訓練模型時,可能因為訓練數據集太少會導致過擬合的情況。為了防止過擬合,本文在混合判別波茲曼機中加入了Dropout[10]規則化方法。Dropout能夠提高模型的準確率[11],本文實驗證實了Dropout使混合波茲曼機在小規模數據集下也能保持準確性。

混合判別波茲曼機模型在音樂數據訓練集較為充分時,標注準確率能達到與單一的判別波茲曼機相仿的效果,在小規模訓練集上訓練時,混合判別波茲曼機的準確度相比判別波茲曼機或是其他機器學習模型更為優秀。同時,本文的實驗證實了Dropout方法確實能夠防止因為少量音樂數據集而導致的過擬合現象。

1 受限波茲曼機

1.1生成波茲曼機

如圖1所示,傳統波茲曼機是一種無向生成模型,擁有一層輸入層和一層隱層,層與層之間互相連接,層之內無連接。通過訓練,隱層可以學習到輸入層的概率分布模型,也可以理解為隱層學習到了輸入層的特征。

圖1 生成受限波茲曼機Fig.1 Generation restricted Boltzmann machines

傳統受限波茲曼機是無監督學習模型,若將音頻放入模型中學習,隱層將能夠學習到音頻特征,并重構原始的輸入音頻信息。正因為這種特性,傳統波茲曼機常常被當作多層深度學習模型中的一層,用來提取上一層輸入的特征。不過,將原來的輸入(音頻)聯合其類別(社群標簽)一同輸入波茲曼機,就能使波茲曼機學習到輸入和標簽的聯合分布,即生成波茲曼機,如圖2所示。

圖2 判別受限波茲曼機Fig.2 Discriminative restricted Boltzmann machines

在音樂自標注任務中,假設生成波茲曼機有n個隱節點,輸入數據為d維音頻特征,有c種音樂標簽,由此形成的概率分布為

(1)

-hTWx-bTx-cTh-dTy-hTUy

(2)

式(2)為波茲曼機的能量公式,其中,參數W為隱層和輸入層之間的連接權值系數;U為隱層和標簽之間的連接權重系數;b,c,d分別為輸入層、隱層和標簽的偏置系數。

假設有訓練集Dtrain,以最小化負對數似然為目標,即最小化目標函數:

(3)

其中,p(xi,yi)為一個樣本x和一個標簽y的聯合分布。

為了最小化式(3),使用隨機梯度下降法,得到由兩個期望組成的梯度公式:

(4)

式(4)的第1項可以通過給定的xi,yi計算得到;第2項卻因為需要所有的x和y求和,不能通過直接的計算求得,可以通過逼近的方法得到。文獻[12]提出了一種對比散度方法(ContrastiveDivergence,CD),通過以(xi,yi)為起始點的有限步長吉布斯采樣來逼近所要求的期望。

1.2判別波茲曼機

生成波茲曼機能得到音頻特征與社群標簽之間的聯合概率分布,但本文關注的是社群標簽的自動標注,因此,我們的目標是對輸入音樂的精準標注,而不是概率分布,即可以將目標函數p(x,y)替換為p(y|x)。繼續考慮負對數似然,目標函數從式(4)的聯合分布變為條件分布:

(5)

通過與式(4)相似的式(6)計算梯度下降:

(6)

同生成波茲曼機一樣,在訓練判別波茲曼機時,同樣可以利用對比散度方法計算梯度,最大的區別是在計算式(6)的第2項時,由于是計算后驗概率,不需要考慮輸入xi的重構,因此將xi固定即可。

2 基于混合判別波茲曼機的音樂自標注模型

相比于生成波茲曼機,判別波茲曼機的優勢體現在訓練時數據集的量上,大量的訓練集將使判別波茲曼機發揮更出色,反之,生成波茲曼機在少量的數據集上更有優勢。

因此,為了既能適應本文音樂數據集較少的情況,又能在日后數據集足夠充足的情況下不影響性能,本文提出了一種結合兩者優勢的基于混合判別波茲曼機模型的音樂自標注模型,使得音樂標注任務在不同數量的音樂數據集上的標注結果達到比單一模型更好的效果,同時標注的準確度好于傳統的機器學習模型。

混合判別波茲曼機的目標函數由式(3)和式(5)共同組成:

(7)

其中,可調參數α表示生成模型對于整個模型的影響比重。若α較大,則更偏重于生成波茲曼機,即少量音樂數據集的情況;反之,則偏重于判別波茲曼機。在實際運用中,可以利用交叉驗證的方法調節α,以達到在不同音樂訓練集的情況下都能為新的音樂標注上準確的社群標簽。事實上,也可以將式(7)的后一項看成判別波茲曼機的正則化項。

另一方面,在機器學習訓練中,有時由于訓練數據集不充足,模型會產生過擬合問題,最終訓練得到的模型對在訓練時“未見過”數據的分類效果很差。為此,本文引入了近些年在深度模型中廣泛使用的Dropout規則化方法。

在傳統的神經網絡模型訓練過程中,層與層之間的權值和偏置都會在每一次的訓練過程里強制更新,因此可能會導致一些系數過分地共適應(co-adaption),也就是說,一些權重系數可能會收斂于某個值,而這個值可能會過分依賴于另一些權重系數所收斂的值。

在訓練過程中,Dropout將一層單元中的一部分隨機置零,也就相當于舍棄被置零的單元與下一層的鏈接,這樣便會阻止神經元間的過分的共適應。文獻[10]證實了帶有Dropout的受限波茲曼機將優于傳統受限波茲曼機。

本文將Dropout應用于混合判別波茲曼機中,使輸入音頻特征的一部分置零,以達到防止模型過擬合的效果。同時,實驗結果也證實了Dropout確實能使模型的標注準確率更高。

圖3為基于混合判別波茲曼機的音樂自標注模型的訓練流程圖。首先從原始音樂中提取出音色特征和旋律特征,然后送入混合波茲曼模型中進行訓練,以最小化負對數似然為目標函數,其中混合模型使用了Dropout方法防止過擬合。通過交叉驗證方法,調整模型中的參數使模型達到最優的效果。

與流派標注或其他的標注問題不同的是,在為音樂標注社群標簽時,一首歌曲一般有多個標簽,如一首音樂可能被同時標記為“男聲”、“搖滾”等,因此,在使用模型為測試集音樂標注時,將混合波茲曼機由softmax函數得到的一組概率值向量p(y|x),即表征模型將一首歌曲標記為某個標簽的把握程度,取其概率最大的一部分標記與真實標記進行比較來計算模型的準確率。

圖3 帶Dropout的混合判別波茲曼機的訓練流程圖Fig.3 Training flowchart of the Hybrid discriminative restricted Boltzmann machines with Dropout

3 實驗結果與分析

3.1數據集

本文實驗采用混合判別波茲曼機模型為音樂自動標注。社群標簽數據集采用Amazon.com的Mechanical Turk數據集[13]。Mturk讓用戶任意描述一段10 s的歌曲片段,用戶可以隨意去標記片段的流派、情感和樂器類型等多種多樣的標簽(例如“孤獨”、“快節奏”等語義標簽)。本實驗一共選取915首10 s片段,同時摘取最常用且有意義的25種社群標簽。

模型輸入特征采用文獻[14]中的音色與旋律特征。音色特征是音頻梅爾倒譜系數(MFCC)協方差的均值與方差,這種特征能捕捉到音頻的樂器信息。旋律特征由4個頻帶得到,能夠提取到鼓樂器成分,還能夠分離具有強烈節奏的樂曲與其他樂曲,如舞曲與搖滾民謠。上述特征都進行了歸一化預處理,具有零均值與單位方差。音色特征有189維,旋律特征有200維,將兩者合并,輸入為389維特征。

3.2實驗模型

本文實驗采用了判別波茲曼機、混合判別波茲曼機、帶有Dropout處理的混合判別波茲曼機、經典分類器——支持向量機(SVM),以及多層感知機MLP模型。

所有的波茲曼機在建立模型時都引入了高斯單元[15]以適應連續音頻特征x和二值標簽序列y,具體來說,在訓練時,通過隱層生成的可視層具有正態分布(連續值序列),通過隱層生成的標簽為二值序列。

實驗還使用了線性核支持向量機(SVM)來進行比較,由于是多分類問題,故采用一對多分類器。

3.3實驗

3.3.1 實驗1 實驗1比較了在訓練數據集與測試數據集數量不同的情況下,判別波茲曼機、混合判別波茲曼機、SVM與多層感知機MLP結果的差異。實驗結果如圖4所示。

訓練過程中,采用10折交叉驗證(10-fold validation)設置使模型最優的參數。數據集被分為10折,模型將被訓練10次,每一次的訓練都采用9折的樣本集,剩下的1折樣本子集作為測試集。這種方法能最大限度地利用整個數據集樣本,并且由于驗證集基本涵蓋了整個數據集,能最大限度考察模型的泛化能力并依據驗證集設置模型參數。最終,本實驗的波茲曼機與多層感知機的模型系數如表1所示,其中,將式(8)中的α設為0.005,以達到較為顯著的效果。

從圖4中可以看到,當訓練數據集足夠多時,混合判別波茲曼機和判別波茲曼機都能達到較為滿意的準確率,且兩者的結果非常接近且都優于SVM與MLP。當訓練數據集開始減少時,所有的分類器的準確率都開始下降,但混合判別波茲曼機的優勢開始體現出來,比判別波茲曼機準確率高2%左右。當訓練數據集進一步減少時,混合判別波茲曼機的準確率與判別波茲曼的準確率之間的差距又有了進一步的拉大。

表1 實驗1中波茲曼機與多層感知機的模型參數Table 1 Model parameters of the Boltzmann machines and the MLP in experiment 1

更多的實驗數據表明,在有足夠多的訓練數據學習時,混合判別波茲曼機與判別波茲曼的效果非常近似,當不斷減少訓練數據量時,混合判別波茲曼機的優勢逐漸體現出來,最終的差距維持在3%左右。

圖4 不同數據集樣本數量下4種分類器的準確率Fig.4 Accuracy of four classifiers in different amounts of datasets

3.3.2 實驗2 實驗2把經Dropout處理后的混合判別波茲曼機與文獻[16]中的判別波茲曼機、多層感知機(MLP)、SVM進行比較,觀察Dropout規則化處理方法的效果。訓練采用5折交叉驗證來設置參數與比較模型,其中3折是訓練集,1折是驗證集,1折是測試集,即549個訓練樣本,驗證集和測試集分別為189。同文獻[16]一樣,也采用AUC判別標準[17]。模型參數如表2所示,實驗結果如表3所示。

表2 實驗2中的模型參數Table 2 Model parameters in experiment 2

表3 實驗2中5種分類器的AUC準確率結果Table 3 AUC accuracy of five classifiers in experiment 2

實驗結果表明,Dropout確實能夠提升混合判別波茲曼機的性能,防止因為訓練樣本過少而產生的過擬合情況。在同樣的環境參數下,經過Dropout的混合判別波茲曼機比未經過Dropout的單一判別波茲曼機或混合判別波茲曼機的準確率提高了0.5%左右。

4 結束語

本文通過實驗論證了混合判別波茲曼機在音樂標注上的效果不僅好于傳統分類器,且在訓練數據集較少的情況下,效果也能優于判別波茲曼機。這一優勢在帶標注數據較少的情況下,即帶標注數據少,而未標注數據量極大的情況下很有意義。同時,為了進一步應對實驗中少量訓練集的情況,引入了Dropout方法,以解決混合判別波茲曼機模型過擬合問題。

在音樂推薦系統中,往往需要計算得到符合用戶需求的音樂,從而能夠將優秀的推薦結果呈現給用戶,而通過人工對音樂進行標注、分類等工作需要耗費大量的人力成本以及時間成本。本文研究的模型能夠在一定程度上為音樂進行自動標注,從而能為后續的推薦系統算法,包括基于內容或基于協同過濾等推薦算法提供便利。

目前的深度學習模型中,卷積神經網絡(Convolutional neural network)或是深度置信網絡(Deep belief network)的分類準確率很高,我們將把深度學習模型與本文研究的混合判別波茲曼機相結合,即可以將深度學習模型最后的線性回歸(Logistic regression)層替換為混唄判別波茲曼機,同時加上Dropout等規則化方法,試圖能夠在少量樣本數量的情況下得到更好的標注結果。

[1] TINGLE D,KIM Y E,TURNBULL D.Exploring automatic music annotation with acoustically-objective tags[C]//Proceedings of the International Conference on Multimedia Information Retrieval.Philadelphia,PA,USA:ACM,2010:55-62.

[2] SORDO M,LAURIER C,CELMA O.Annotating music collections:How content-based similarity helps to propagate labels[C]//Proceedings of the 8th International Conference on Music Information Retrieval.Vienna,Austria:DBLP,2007:531-534.

[3] LAMERE P.Social tagging and music information retrieval[J].Journal of New Music Research,2008,37(2):101-114.

[4] BERTIN-MAHIEUX T,ECK D,MAILLET F,etal.Autotagger:A model for predicting social tags from acoustic features on large music databases[J].Journal of New Music Research,2008,37(2):115-135.

[5] LAURIER C,SORDO M,SERRA J,etal. Music mood representations from social tags[C]//Proceedings of the 10th International Society for Music Information Retrieval Conference.Kobe,Japan:DBLP,2009:381-386.

[6] LEVY M,SANDLER M.A semantic space for music derived from social tags[C]//Proceedings of the 8th International Conference on Music Information Retrieval.Vienna,Austria:DBLP,2007:411-416.

[7] SYMEONIDIS P,RUXANDA M M,NANOPOULOS A,etal.Ternary semantic analysis of social tags for personalized music recommendation[C]//9th International Conference on Music Information Retrieval.Philadelphia,USA:DBLP,2008:219-224.

[8] HAMEL P,ECK D.Learning features from music audio with deep belief networks[C]//Proceedings of the 11th International Society for Music Information Retrieval Conference.Utrecht,Netherlands:DBLP, 2010:339-344.

[9] NG A,JORDAN M.On discriminative vs.generative classiers:A comparison of logistic regression and naive Bayes[C]//Advances in Neural Information Processing Systems.Vancouver,British Columbia,Canada:NIPS,2002:841-848.

[10] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.

[11] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,etal.Dropout:A simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.

[12] HINTON G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.

[13] MANDEL M I,ECK D,BENGIO Y.Learning tags that vary within a song[C]//Proceedings of the 11th International Society for Music Information Retrieval Conference.Utrecht,Netherlands:DBLP, 2010:399-404.

[14] MANDEL M I,ELLIS D P W.A web-based game for collecting music metadata[J].Journal of New Music Research,2008,37(2):151-165.

[15] WELLING M,ROSEN-ZVI M,HINTON G E.Exponential family harmoniums with an application to information retrieval[C]//Advances in Neural Information Processing Systems.Vancouver,British Columbia,Canada:NIPS,2004:1481-1488.

[16] MANDEL M,PASCANU R,LAROCHELLE H.Autotagging music with conditional restricted Boltzmann machines[C]//Asian Couference on Information and Database Systems.USA:IEEE,2012:284-293.

[17] CORTES C,MOHRI M.AUC optimization vs.error rate minimization[J].Advances in Neural Information Processing Systems,2004,16(16):313-320.

AnnotatingMusicwithHybridDiscriminativeRestrictedBoltzmannMachines

WANGShi-jun,CHENNing

(SchoolofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)

For the music annotation,the amount of unlabeled music data is often much more than the labeled ones such that the training results are usually unsatisfying.Although generation model can be suitable for the smaller training data case to some extent and get higher quality results,it may be inferior to the discriminative model in the case of sufficient training data.By combining the advantages of the generation model and the discriminative model,this paper presents a hybrid discriminative restricted Boltzmann machines.The proposed hybrid model can improve the accuracy of the music annotation tasks.The experiment results show that the hybrid model is much better than the traditional machine learning models.Moreover,it is also better than the single discriminative Boltzmann machines for the case that the amount of training data is small and can attain the similar performance to the discriminative model in the case that the amount of training data is sufficient.Besides,the Dropout method is introduced in this paper to improve the model and prevent the overfitting for the smaller training data.

annotating music; hybrid discriminative restricted Boltzmann machines; machine learning; artificial intelligence

1006-3080(2017)04-0540-06

10.14135/j.cnki.1006-3080.2017.04.013

2016-09-28

國家自然科學基金(61271349)

王詩俊(1991-),男,碩士生,研究方向為音頻信號處理。

陳 寧,E-mail:chenning_750210@163.com

TP391

A

猜你喜歡
茲曼社群音頻
社群短命七宗罪
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于Daubechies(dbN)的飛行器音頻特征提取
音頻分析儀中低失真音頻信號的發生方法
Pro Tools音頻剪輯及修正
世界頭號毒梟再次成功越獄
母嬰電商的社群玩法
VC靠邊!社群股權眾籌來了
天使進化——VC靠邊!社群股權眾籌來了
對48屆威尼斯雙年展策劃人哈若德.茲曼的訪談等
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合