?

基于殘差門控循環卷積和注意力機制的端到端光學樂譜識別方法

2022-07-29 06:17孫弘揚
計算機與現代化 2022年7期
關鍵詞:錯誤率樂譜殘差

孫弘揚,王 尚

(東華理工大學信息工程學院,江西 南昌 330013)

0 引 言

音樂是人類精神文明的瑰寶,是人類藝術的結晶,而樂譜是音樂傳承的載體,音樂家們可以通過樂譜記錄音樂作品,以便再一次演奏。即使在科學技術不斷發展的今天,要讓計算機也能“理解”樂譜,完成對文檔中音樂符號的讀取,實現樂譜的數字化,仍是一項巨大的挑戰。光學樂譜識別(Optical Music Recognition, OMR)[1]正是研究如何從樂譜圖像中解碼音樂信息的一種方法。它成為了保存音樂創作的重要工具,可促進音樂文化的持久流傳,推動音樂智能化與數字化[2]。

傳統的光學樂譜識別流程將整個識別過程劃分為4個階段[3],分別為:圖像預處理、音符識別、音樂信息重建和音符編碼表達。隨著深度學習研究的深入,學者們將深度學習方法應用于樂譜識別的各個階段以優化效果:對于樂譜圖像二值化,Calvo-Zaragoza等人[4]提出選擇性自編碼器學習樂譜圖像二值化轉換,其表現優于傳統二值化方法,但是在前景像素邊緣易發生錯誤;傳統樂譜識別流程需要對譜線進行去除或隔離,Calvo-Zaragoza等人[5]利用CNN將譜線檢測視作分類任務,通過對音符和譜線的人工注釋,在ICDAR2013譜線去除數據集上進行訓練,使識別精度達到98.87%;在音符識別階段,Pacha等人[6]使用預訓練Faster R-CNN網絡模型,針對MUSCIMA++數據集對模型進行微調,使模型對音符檢測的mAP達到80%。然而,傳統的樂譜識別流程在每個階段都被近似為單個子任務,盡管通過對每一個步驟的優化使整體識別性能提升,但由于錯誤傳遞、誤差累積存在,如譜線刪除的效果不佳容易導致譜線與音符交疊,從而給后續識別造成障礙,影響效果[7],且計算量較大,整體識別時間過長。

此外,深度學習的發展[8-9]也促進了OMR研究范式的轉換[10],學者們嘗試通過端到端的方式解決OMR問題,用單個模型取代傳統多階段的流程,避免不同階段錯誤積累。其原理主要分為2類:目標檢測和序列識別?;谀繕藱z測的方法一般先檢測出音符位置,再對音符進行分類達到識別目的。Hajic jr.等人[11]通過U-Net[12]架構對音符進行分割,結合連通分量檢測器識別符頭;Tuggener等人[13]將深度分水嶺探測器與邊框檢測結相合,可以很好地對常見音符進行識別,但對于拍號和斷音記號等不常見音符,識別精度不足50%?;谛蛄凶R別的方法直接將樂譜圖像視作序列進行處理,隨后輸入循環神經網絡進行建模,模型預測出音符識別結果。Van der Wel等人[14]最先使用卷積神經網絡(CNN)和序列到序列(seq2seq)模型對單聲部樂譜進行識別;Calvo-Zaragoza等人[15-16]采用Shi等人[17]提出的用于場景文本識別的卷積循環神經網絡(CRNN)結構,以解決OMR問題。CRNN結構由VGG結構[18]的卷積神經網絡進行特征提取,輸入循環神經網絡[19]進行序列建模,并通過連接序列分類[20]損失計算對模型進行反向傳播。但樂譜中的音符往往分布不均,并且臨時記號、附點和倚音等與其他音符間隔較近,不能有效地提取音符的特征與上下文信息。

針對上述問題,本文提出一種基于殘差門控循環卷積和注意力機制的端到端光學樂譜識別方法。殘差門控循環卷積為整個OMR系統提供更好的特征表示和更廣泛的上下文信息推導,后續的Bi-GRU負責樂譜圖像特征序列建模,并結合基于注意力機制的解碼器完成特征表示和解碼對齊操作。為評估本文所提出模型的性能,采用包含印刷樂譜圖像及變形后的圖像的Camera-PrIMuS數據集[15]進行訓練和測試。

1 模型結構

本章將對本文所提出的端到端模型中各個模塊進行詳細介紹。

1.1 殘差門控循環卷積編碼

在基于CRNN框架的樂譜識別中,樂譜的特征提取由卷積神經網絡完成,前饋模型存在只能捕獲單元中高維特征空間中的上下文信息的缺陷。本文在卷積神經網絡中引入循環連接對視覺信號處理進行上下文調制,使得網絡在高維空間也能獲得不同感受野信息輸入,兼顧不同尺度特征的提取。隨著網絡的迭代,感受野也不斷增大,可以獲取更大尺度上的視覺特征。但是對于樂譜圖像識別而言,感受野并不是越大越好。如圖1所示,當網絡識別“升號”時,循環核可能會覆蓋到右側的“二分音符”上,這會對后續識別造成干擾。因此,受啟發于Wang等人[21]運用于光學字符識別特征提取方法,本文提出一種門控循環卷積機制對神經元進行調制,以弱化來自無關上下文的信號。

圖1 感受野示意圖

門控循環卷積的原理見公式(1)。

(1)

(2)

在公式(2)中,x(t)表示網絡第t層的內部狀態:當t=0時,網絡中只有前饋輸入,與標準卷積神經網絡一致;當t>0時,門的輸出G(t)作用于網絡的循環分量,而G(t)又由前饋輸入和t-1時間步的狀態決定。sigmoid函數分布在[0,1]區間內,考慮2種極端情況:當G(t)=1時,x(t)引入完全循環輸入,與標準循環卷積層一致;當G(t)=0時,循環連接被舍棄,網絡又與標準卷積層一致。門的引入達到對上下文信息的動態調制,避免干擾。

本文提出的殘差門控循環卷積結構整合了殘差網絡[22]和門控循環卷積神經網絡(GRCNN)[21]的特點,其結構如圖2所示。1×1卷積操作[23]用于減少輸入的通道數(僅在首個單元出現),緊接著2個t=2的循環卷積單元,通過循環機制的特征積累來豐富樂譜圖像的音符特征。

圖2 殘差門控循環卷積塊結構

圖2中,門控循環卷積單元的詳細結構如圖3所示。首先,將通道縮減后的圖像作為第一個門控循環卷積單元的前饋輸入,在t=0時間步,使用大小為3×3的卷積核進行卷積,通過批標準化操作以提高模型訓練效率,采用ReLU函數進行激活;其次,引入門控循環輸入再進行2次循環卷積,不同的循環卷積層之間共享權重,最后得到門控循環卷積單元的輸出。在整個塊的最后,引入殘差網絡的跨層連接,使網絡在易于訓練的同時,防止可能出現的退化問題,從而獲得整個塊的輸出。

圖3 門控循環卷積單元展開結構

1.2 基于注意力機制的解碼

注意力機制(Attention Mechanism, AM)[24],可以理解為計算機視覺系統在模擬人類視覺系統中選擇性地關注所有目標信息的重點部分,同時忽略抑制其他無用的信息。在深度學習領域,注意力機制在語音識別[25]、場景文本識別[26]等領域得到廣泛的應用。本文采用Chorowski等人[27]提出的基于位置的注意力,它根據生成器和對齊來計算當前步的對齊,其原理見公式(3):

αi=Attend(si-1,αi-1)

(3)

其中,si-1是循環神經網絡第i-1步狀態,被稱作生成器,αi∈L為注意力權重向量,被稱作對齊。

在樂譜識別中,注意力機制與RNN結構一同作用作為預測解碼模塊。具體來說,注意力機制可以通過參考Bi-GRU單元輸出的特征向量權重,對預測結果中可能性更大的特征進行凸顯。表現在本文的樂譜識別任務中,注意力機制主要負責凸顯音符特征的隱藏狀態,并將音符特征表示與解碼步驟對齊。

1.3 端到端光樂譜識別方法

一些現有研究表明,將單聲部樂譜不進行符號分割或譜線刪除等預處理操作,而直接輸入進行端到端識別是具有可操作性的[15,28-29]。端到端的樂譜圖像識別是將輸入的樂譜視作由音符組成的序列,通過檢索每一音符概率最大的輸出路徑,完成對樂譜的識別。

圖4 端到端樂譜識別模型

本文基于對殘差門控循環卷積和注意力機制的認識,將二者結合提出端到端的光學樂譜識別方法,并依此構建網絡模型,端到端框架的樂譜識別方案如圖4所示。首先,將單聲部樂譜的圖像直接作為殘差門控循環卷積遞歸神經網絡的輸入;其次,將提取的特征表示由圖轉為序列輸入Bi-GRU中進行序列建模;接著,使用基于位置的注意力,區分同一符號在不同時刻位置的特征的不同表示,注意力機制負責將音符特征表示與解碼步驟對齊。最后,解碼器模塊由單向多層GRU組成。解碼器按照順序提供已識別的符號,在每個時間步中,解碼器GRU接收其前一時間步和當前上下文向量的連接,以預測音符。采用注意力機制的解碼器,一方面可以通過多個解碼路徑以獲得最終預測音符編碼,另一方面,采用標簽平滑提高泛化性能[30],防止過度自信的預測分布出現。

具體訓練時,將輸入樂譜圖像高度固定為128像素,寬度按等比例重新縮放[31]。然后,通過由4個殘差門控循環單元組成的骨干網絡進行特征提取。每個殘差門控循環單元由1個1×1的卷積核、2個采用3×3卷積核的門控循環卷積塊和1個窗口大小為2×2的最大匯聚下采樣算子構成,完成樂譜圖像的特征編碼。接著,將編碼結果輸出作為256個神經元的2個Bi-GRU的輸入,Bi-GRU產生離散的音樂符號序列。表1為改進后網絡的結構參數。

表1 改進后網絡的結構參數

2 模型訓練過程

2.1 實驗數據集

眾所周知,深度學習任務是由數據驅動的,模型的能力會隨著經驗數據的積累而得到不斷演化和提升。為滿足這些要求,本文的端到端識別系統采用模擬相機拍攝的單行印刷體樂譜圖像Camera-PrIMuS(Camera-Printed Images of Music)[15]數據集。該數據集包含87678張干凈樂譜圖像和相同數量的合成失真圖像,以還原真實相機拍攝的場景。實驗中將數據集劃分為3個部分,其中80%的數據作為訓練集,10%的數據作為測試集,剩余的10%作為驗證集。

對于數據集中每張圖片,有2種表現編碼方式與之對應來實現樂譜圖像的識別目的,如圖5所示。一種是音樂語義編碼,其編碼方式包含音樂意義,如圖5(c)所示,“F大調調號”被記作“keySignature-FM”。另一種是語義無關編碼,其編碼方式主要根據不同音符的圖形特點,如圖5(d)。在這種編碼方式中,“E大調調號”會被表示為4個“升號”構成的序列。

(a) 原始樂譜

2.2 訓練過程

本文中實驗環境配置為:Intel(R) Core(TM) i7-9700K CPU,16 GB RAM,Nvidia GTX2070 8G GPU, Ubuntu18.04 LTS操作系統,深度學習框架Pytorch 1.8.0版本。模型在訓練時樂譜圖像高度固定為128像素,寬度按等比例重新縮放,初始學習率設置為0.001,批處理量(batch size)設置為16,訓練輪數(epochs)設置為100,并采用Adam算法進行優化。

2.3 評價指標

樂譜識別任務和采用的具體方法,相較于其他計算機視覺領域,在評價指標上沒有形成統一的標準[11],本文采用與Calvo-Zaragoza等人[15]提出的基線方法中的音符錯誤率和序列錯誤率2項指標對模型性能進行評估。

音符錯誤率(Symbol Error Rate, Sym-ER):表示從模型預測輸出音符編碼序列到真值序列的編輯距離的平均值與真值序列長度的比例。其數學表示如公式(4)所示。

(4)

其中,編輯距離為插入(I)、刪除(D)與替換操作(S)之和,N為序列長度。

序列錯誤率(Sequence Error Rate, Seq-ER):表示模型預測輸出的錯誤序列E占全部測試序列T的比例,序列中任何一項音符識別錯誤均視作序列錯誤。其數學表示如公式(5)所示。

(5)

二者可以從2個不同維度對模型預測性能做出評判,音符錯誤率從具體譜例著眼,引入編輯距離這一常見評價參數進行差異程度的量測;序列錯誤率從整個測試集著眼,能更直觀地對整體預測識別性能提供參考。

3 實驗結果與分析

本文對不同的訓練數據與測試數據進行組合,均輸出語義和語義無關2種編碼形式結果,詳細數據比較見表2。從表2中數據可以得知,在不同的訓練與測試場景下,本文提出的方法在識別性能上均優于原CRNN模型,特別是當采用變形樂譜在原始樂譜上訓練出的模型測試時,輸出語義無關編碼的符號錯誤率和序列錯誤率由44.3%和95.1%下降至9.86%和32.8%,這也表明本文所提出的模型有較好的泛化性。

表2 各條件下本文方法與原CRNN方法的音符錯誤率/序列錯誤率對比 單位:%

由于本文模型是將樂譜識別為對應編碼序列,無法直觀地顯示識別結果。對此,本文采用Verovio軟件[32]對編碼進行渲染還原為樂譜圖像,以便從樂譜圖像層面對結果進行比較。從圖6中可以看到,當采用變形樂譜進行測試時,輸入是模糊不清的,原CRNN結構網絡錯誤地將還原記號識別為升號,而本文的方法能夠對樂譜圖中的音符準確識別,這也證明本文方法的有效性。

圖6 識別結果示例

此外,將本文方法與其他有代表性的OMR方法進行對比實驗,結果如表3所示??梢钥闯霰疚姆椒ㄔ诜栧e誤率和序列錯誤率上均具有較好效果。Tuggener等人[13]的方法在針對不同種類音符時存在較大差異,例如,它在附點等小型符號上表現較好,但對于不常見符號及交疊符號不能很好識別,Van der Wel等人[14]的方法在音符種類識別上具有較好性能,但對于音高的識別上不夠理想,且上述2種方法均無法直接將樂譜圖像轉化為數字格式,實際應用價值較低。而本文方法能夠對樂譜圖像進行端到端識別,在未來實際應用上具有可操作性。

表3 與其他OMR方法的對比

4 結束語

本文針對CRNN架構下的卷積神經網絡不能有效提取對于識別任務有用的音符及其上下文信息的問題,提出一種改進方法。首先,通過殘差門控循環卷積神經網絡,提取樂譜圖像特征,殘差門控循環卷積為整個OMR系統帶來更好的特征表示和更廣泛的上下文信息推導;其次,將提取的特征圖轉換為特征序列輸入Bi-GRU中進行序列建模;最后,通過注意力機制解碼器,使音符特征信息更受關注,并將音符特征表示與解碼步驟對齊,采用注意力機制的解碼器,不僅獲得最終預測音符編碼,也防止過度自信的預測分布出現。實驗結果表明,相比CRNN模型,本文提出的殘差門控循環卷積塊的端到端模型,在符號錯誤率和序列錯誤率2方面,均顯著地下降,且本文方法能夠直接將樂譜圖像轉化為數字格式,具有一定實用價值。

但由于實驗中僅采用生成的樂譜圖像用于模擬真實場景下的樂譜識別,且識別對象為單聲部樂譜圖像,因此,下一步的研究方向主要集中于手寫體樂譜和更為復雜的多聲部樂譜2個方面,從而提高整個OMR系統的魯棒性。

猜你喜歡
錯誤率樂譜殘差
山之高
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
基于雙向GRU與殘差擬合的車輛跟馳建模
基于殘差學習的自適應無人機目標跟蹤算法
樂譜:放飛夢想
基于深度卷積的殘差三生網絡研究與應用
小學生分數計算高錯誤率成因及對策
一毛學琴記——樂譜失蹤
正視錯誤,尋求策略
基因密碼樂譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合