?

基于隨機映射的聲紋模板保護方法*

2013-08-19 02:44朱華虹賀前華李艷雄張雪源
關鍵詞:聲紋矢量語音

朱華虹 賀前華 李艷雄 張雪源

(華南理工大學 電子與信息學院,廣東 廣州 510640)

近年來,生物識別技術的廣泛應用對生物特征模板的存儲和傳輸安全提出了較高要求.生物特征模板保護旨在解決特征模板的可撤銷性、多樣性、安全性、性能保持等問題[1],但由于生物特征數據的模糊性和生物識別技術的差異性[2],尚未有任何一種算法能夠滿足所有生物特征模板保護的要求.

目前,指紋、臉型、虹膜等圖像特征的模板保護算法研究較多[3-5],基于矢量量化(VQ)聲紋認證系統的模板保護算法也相繼提出.文獻[6]提出了傳統密碼體制下的聲紋模板保護方法,通過改進數字簽名方案并與認證協議相融合實現聲紋特征的保護,其缺點是模板庫中的聲紋特征仍然是原始特征,無法保證存儲的安全性.文獻[7]將經典的模糊保險箱思想應用于聲紋模板保護,使用雜湊點達到隱藏真實點的目的,此方法的缺陷是安全性依賴于雜湊點的數量,導致存儲效率不高、交叉匹配等問題.基于多子空間映射的可撤銷聲紋模板保護方法[8]將隨機映射應用于基于VQ 的聲紋認證系統,通過分析變換前后特征點與特征點、特征點與碼本的距離證明方法的有效性,但缺乏安全性與身份認證性能保持的深入分析和實驗證明.

鑒于VQ 適用于小語料庫的說話人識別任務,而目前主流的文本無關說話人識別模型為高斯混合模型(GMM),因此,文中在傳統聲紋認證系統基礎上采用隨機映射更為通用的形式化表示,提出一種可撤銷的聲紋模板保護方法,并就方法的安全性和認證性能保持之間的關系進行研究.最后通過仿真實驗驗證了方法的有效性.

1 可撤銷的聲紋模板保護方案

1.1 隨機映射的形式化表示

文獻[8]采用式(1)將原始特征x 隨機映射為變換后的特征y,并通過分析變換前后特征點間的歐氏距離,以其不變來證明身份認證性能得到保持.

式中:R 為正交矩陣,R∈d×n(d =n),d、n 為隨機矩陣的行列數.

模板保護技術要求在提高安全性的同時不會惡化身份認證性能[9],但實際應用中安全性和身份認證性能保持往往很難同時滿足.對于隨機映射來說,降維是提高安全性的有效途徑[10].為了便于后文對算法的安全性和認證性能進行綜合評價,定義通用形式化表示如下:

相關研究[11]表明,元素服從高斯分布的隨機矩陣R 具有正交性,尤其在高維空間中,R 中元素服從高斯分布與正交是近似統一的.在高維空間或滿足Johnson-Lindenstrauss (JL)定理降維下限的條件下,可近似認為單位矩陣[10].特別地,當d=n 時,式(2)轉化為式(1).

1.2 基于隨機映射的聲紋認證系統實現

GMM 雖然具有識別效果好、魯棒性高等特點,但其識別精度對訓練數據依賴性大,如果將變換后的聲紋特征直接存儲為模板,則認證時進行模型訓練的時間較長,無法滿足應用要求.因此,所提認證系統在模板庫中存儲的不是變換后的聲紋特征而是訓練獲得的GMM 模型參數,以提高認證的實時性.圖1為文中提出的基于GMM 聲紋認證系統的模板保護算法框圖.在注冊階段,語音經過預處理提取原始美爾頻率倒譜系數(MFCC)特征,并將原始特征映射到隨機空間后進行GMM 模型學習,存儲模型參數作為模板;在認證階段,提取的MFCC 特征和相同的隨機矩陣相乘后再與模型庫進行匹配.具體步驟如下.

圖1 聲紋認證系統框圖Fig.1 Block diagram of voiceprint verification system

注冊階段:

(1)提取注冊語音的MFCC 特征序列Xk,Xk=為d 維語音特征矢量.

(3)使用Yk訓練GMM 模型,存儲模型參數作為模板.

認證階段:

(1)提取待認證語音的MFCC 特征序列Xq,為d 維語音特征矢量;

(2)使用注冊階段的矩陣R,用式(2)對聲紋矢量進行變換得到

(3)使用Yq進行模型匹配,并決策輸出.

訓練GMM 需要較充分的訓練語音,如果在實際應用中訓練數據較少,通用的做法是采用GMMUBM 框架[12],即利用所有說話人的語音訓練通用背景模型(UBM),然后根據目標說話人的數據從UBM 自適應獲得目標說話人模型.優化GMM 性能的算法比較多[13],鑒于文中重點研究隨機映射對于傳統GMM 聲紋模板的保護有效性,故所提算法中模型訓練主要由目標說話人的語音單獨訓練得到.根據隨機映射的原理[10],對于GMM-UBM 框架,文中也可將所有說話人的數據映射至與目標說話人相同的隨機空間中進行訓練,但應用中目標說話人各自所映射的空間不同,故需要在不同變換域中進行UBM 訓練,并在目標說話人對應的變換域中進行識別.

研究[9]表明,要滿足所有生物特征模板保護的要求是很困難的.在實際應用中,這些要求往往相互制約,因此需要根據相應的應用場合作出合理的選擇.下面就所提算法在身份認證性能保持、安全性、計算復雜度等方面進行分析.

2 算法分析

2.1 身份認證性能分析

基于GMM 的聲紋認證系統中認證話音與模型的匹配程度主要通過計算聲紋矢量和GMM 模型的對數似然度獲得[14],如果在變換域聲紋特征的統計特性沒有改變,那么識別準確性不變,即系統的身份認證性能可以保持.首先分析d=n 的條件下變換前后身份認證性能是否相等.

設 代表說話人的一組GMM 模型參數,={M,wi,Ui,Σi},其中M 為混合度,wi、Ui、Σi分別為第i 個高斯的權重、均值和協方差矩陣;'代表變換后同一說話人的GMM 模型參數,' ={M,w'i,U'i,Σ'i},其中w'i,U'i,Σ'i分別為變換后第i 個高斯的權值、均值和協方差矩陣.變換前后聲紋矢量序列Xq、Yq與GMM 模型的對數似然度分別為和,其計算方法如下:

其中,

故比較式(4)、(5)是否相等需研究變換后的模型參數.聲紋特征經映射后首先采用LBG 算法獲得初始的聚類中心,計算初始權值、均值和方差,再使用最大期望估計(EM)算法估計模型參數.正交變換前后特征矢量之間的距離保持不變且特征矢量與碼字之間距離保持不變.從幾何空間上分析,即映射前后M 個類中的點集合是一致的,因而初始的權值(各個類中所包含的特征矢量的個數占總的特征矢量的百分比)也不變,而初始的均值U'i和協方差Σ'i分別變為:

其中Xl、Yl分別為變換前后第i 個高斯聚類中包含的特征矢量,m 為特征矢量個數,使用EM 算法進行迭代運算可得:

第i 個高斯的權重w'i為

第i 個高斯的均值U'i為

第i 個高斯的協方差矩陣Σ'i為

綜上所述,將式(14)-(16)代入式(4)、(5),可推導出L(Xq)和L(Yq')相等,即變換前后身份認證性能不變.但此時變換前后的原始特征或模型參數存在一一對應關系,R 一旦泄漏就可破解所有原始數據.結合后續安全性的分析,需要研究采用降維進一步提高安全性,同時保持身份認證性能的可能性.根據JL 定理[15],當滿足降維下限時歐氏空間中兩點映射至低維空間,其距離變化保持在一個小范圍內是可能的,同理GMM 均值間的距離也可以近似保持.另一方面,文獻[16]指出,d空間中的任何高斯分布映射至n 維子空間時,其超橢球體的離心率有可能變小.為便于分析,文中定義某個高斯分量的原始協方差參數間滿足β1≤β2≤…≤βd,可得變換前的離心率為變換后的協方差參數為可得:

其中rki∈R.可見變換后超橢球體的離心率小于等于從而更有利于聚類.故GMM 的認證性能相對于只考慮矢量間距離差異的算法(如VQ)可以保持得更好.

2.2 安全性分析

生物特征模板保護對安全性的要求體現在模板的變換或加密滿足不可逆性.不可逆性具有兩點重要特征[1],一是識別在變換域進行;二是即使模板被盜(泄漏),敵手也無法獲得原始數據.文中算法將聲紋特征映射至變換域進行訓練,獲得的模型參數和識別也均在變換域中,滿足不可逆性的第1 個特征.另一方面,所提方法的安全參數依賴于隨機矩陣,如果模板被盜,敵手在沒有獲得隨機矩陣的條件下很難獲取原始數據,滿足不可逆性的第2 個特征.因此,該條件下,方法滿足不可逆性.進一步放寬限制條件,假設敵手獲得了隨機矩陣R,根據QR 分解和不定方程最小二乘解的原理,只有降低R 的維度,不定方程y =RTx 才存在多個解而無法精確獲得所有原始數據.下面分析這種情況下敵手破解原始數據的可能性.

定理1 如果矩陣Q 滿足“l-安全”[17],則從Q 中選擇l+1 個非零行向量組成矩陣Λ,如果這些行向量線性無關,則線性方程組y = Λx 至少包含2l+1個變量.

證明 由于Λ 中l+1 個向量線性無關,采用消元法求解方程組的解,可獲得階梯形矩陣,Λ 中l+1階子式Dl+1=I.為了方便敘述,不妨設Dl+1在Λ 的左上角,表示為

根據矩陣Q 滿足“l-安全”的定義可知,Q 的每行中至少有l+1 個非零元素,即Q 中除了Dl+1外的子矩陣中每行至少還有l 個非零元素.因此,每行中的總元素為l+1 +l=2l+1.證畢.

從定理1 可知,當d ≥2l +1 時,線性方程組y=Λx 無法求解向量中任一元素.令n =l +1,即當時,x 中的任一元素都無法精確求出.即使R 泄漏,也無法通過逆變換求解原始模板,滿足無條件不可逆性[8],即獲得保護性能的上界.

2.3 計算復雜度分析

文中提出的方法需要將原始數據先映射至隨機空間再進行訓練和識別.相對于傳統的聲紋認證系統,計算復雜度的增加主要在于注冊和認證階段需將原始特征進行隨機變換,而此后在變換域中的模型訓練和識別與傳統方法是相同的.因此,文中只需分析特征變換產生的新增計算復雜度.對于長度為p 的d 維語音特征矢量,進行隨機變換(R∈d×n,d≥n)的計算復雜度為O(dnp).如果采用GMMUBM 框架,還需增加對所有說話人的聲紋特征(長度為p'的d 維語音特征矢量)進行變換的計算復雜度O(dnp').如果采用降維(d >n)提高安全性,則還能進一步降低計算復雜度.

3 實驗結果與分析

實驗使用863 漢語普通話連續語音識別訓練庫進行Matlab 仿真,該語料庫共有80 個說話人(男女各40 人),其中每人各有1560 條不同文本內容的語音[8].所有語音是經過挑選的標準普通話發音人在專業錄音環境下錄制,采用高質量16 kHz 采樣、16位量化精度、單聲道WAV 格式存儲.在實驗中,隨機選取每人包含不同文本內容的500 條訓練語音作為訓練集,每條訓練語音用Cooledit Pro 2.0 去靜音后的長度為4~10 s,總長度約為1 h.從剩余的語音中選取長度為1~2 min 的語音作為測試集,平均每人85 條.特征采用典型的24 階MFCC 特征,對語音進行分幀處理,幀長32 ms,幀移16 ms.

首先研究文中提出的隨機映射方法對身份認證性能的影響.文中采用誤識率(FAR)和識真率(GAR)作為評價認證性能的指標[10].由于模板保護技術要求的特殊性,一般要求FAR 極低才能夠達到有效保護模板的目的[9].表1 示出了不同映射條件下,變換前后各GMM 混合度的認證性能(FAR 均為0.62%下的GAR),其中當混合度為2 048 時,采用GMM-UBM 框架.由于文中重點研究隨機映射對傳統GMM 聲紋模板保護的有效性,故在此只初步給出GMM-UBM 在混合度為2048 時的認證性能.加有利于聚類學習,因此認證性能可以得到一定的保持.實驗進一步驗證了不同混合度下降維前后各高斯分量對應的離心率變化情況,如圖2 所示;總體上降維后的離心率包絡均小于原始維度的離心率包絡,證明了理論分析的正確性.

表1 隨機映射前后各GMM 混合度下的系統認證性能Table 1 Verification performance of system before and after random projection with different GMM mixtures

由表1 可以看出,對于傳統GMM 模型,在不同高斯混合度下,經正交變換后認證性能與映射前保持一致;當維度降為20 時,變換后各混合度下GAR的下降幅度均小于0.2%,可視為近似保持;維度降為12 時,變換后各混合度下GAR 的下降幅度均較大,在8%左右.相同映射條件下,GMM-UBM 認證性能均高于GMM 系統,其主要原因是,GMM-UBM 用大量說話人的語音訓練一個穩定的高階GMM,可以更好地擬合數據集分布,因此具有較高的性能和魯棒性[12].

下面進一步分析文中所提方法對GMM 模板保護的有效性.表2 示出了隨機映射前后各典型碼本大小下VQ 算法的認證性能(FAR 均為0.62%下的GAR).當維度為20 時,變換后VQ 認證性能的下降幅度大于8%;當維度降為12 時,變換后VQ 認證性能的下降幅度超過25%,均遠大于GMM 認證性能的下降幅度.可見在相同的降維條件下,GMM 的認證性能保持得更好,與第2 節中的理論分析一致:GMM 降維后離心率變小,即超橢球變得更圓從而更

表2 隨機映射前后不同碼本大小時VQ 算法的認證性能Table 2 Verification performance of VQ algorithm before and after random projection with different codebook sizes

圖2 不同混合度降維前后各高斯分量下的橢球體離心率Fig.2 Ellipsoid’s eccentricity corresponding to different Gaussian components before and after dimensionality reduction with different mixtures

綜上可知,對于GMM,當維度不變或適當降維時,認證性能可基本保持;當維度下降滿足無條件不可逆時認證性能有一定下降.因此,在實際應用中需要根據不同的場景要求,在安全性和認證性能之間進行折中選擇.

4 結語

文中基于隨機映射的優點,結合目前主流的文本無關說話人識別模型GMM,提出了一種可撤銷的聲紋模板保護方法.理論分析和實驗結果表明,當隨機矩陣為正交矩陣或適當降維時,變換前后身份認證性能基本保持;當滿足無條件不可逆時認證性能有一定的下降.所以說,沒有完美的生物特征模板保護技術可以滿足所有要求,需要根據相應的應用場合作出合理選擇.而且GMM 的優化算法較多,隨機映射對優化算法的有效性及針對優化算法的模板保護是今后研究的主要目標.

[1]Breebaart J,Yang B,Buhan-Dulman I,et al.Biometric template protection—the need for open standards[J].Datenschutz und Datensicherheit,2009,33(5):299-304.

[2]Hao F,Anderson R,Daugman J.Combining crypto with biometric effectively[J].IEEE Transactions on Computers,2006,55(9):1081-1088.

[3]Jin Z,Beng Jin Teoh A,Ong T S,et al.Fingerprint template protection with minutiae-based bit-string for security and privacy preserving[J].Expert Systems with Applications,2012,39(6):6157-6167.

[4]Lee H G,Beng Jin Teoh A,Jung H G,et al.A secure biometric discretization scheme for face template protection[J].Future Generation Computer Systems,2012,28(1):218-231.

[5]Karthik N,Anil K J,Sharath P.Fingerprint-based fuzzy vault:implementation and performance [J].IEEE Transactions on Information Forensics and Security,2007,2(4):744-757.

[6]Xu W H,He Q H,Li Y X.Cancelable voiceprint templates based on knowledge signatures[C]∥Proceedings of 2008 International Symposium on Electronic Commerce and Security.Guangzhou:IEEE,2008:412-415.

[7]Xu W H,Chen M Y.Cancelable voiceprint template based on Chaff-Points-Mixture method[C]∥Proceedings of International Conference on Computational Intelligence and Security.Suzhou:IEEE,2008:263-266.

[8]徐文華,賀前華,李韜,等.基于MRP 的可撤銷模板設計及其分析[J].電子學報,2009,37(12):2792-2796.Xu Wen-hua,He Qian-hua,Li Tao,et al.Design and analysis of MRP-based cancelable template[J].Acta Electronica Sinica,2009,37(12):2792-2796.

[9]李鵬,田捷,楊鑫,等.生物特征模板保護[J].軟件學報,2009,20(6):1553-1573.Li Peng,Tian Jie,Yang Xin,et al.Biometric template protection [J].Journal of Software,2009,20(6):1553-1573.

[10]Wand Y,Plataniotis K N.An analysis of random projection for changeable and privacy preserving biometric verification[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2010,40(5):1280-1293.

[11]Hecht-Nielsen R.Context vectors:general purpose approximate meaning representations self-organized from raw data [M]∥Zurada Z M.Computational Intelligence:Imitating Life.Piscataway:IEEE,1994:43-56.

[12]郭武.復雜信道下的說話人識別[D].合肥:中國科學技術大學電子工程與信息科學系,2007:27-42.

[13]何俊,李艷雄,賀前華,等.變異特征加權的異常語音說話人識別算法[J].華南理工大學學報:自然科學版,2012,40(3):106-111.He Jun,Li Yan-xiong,He Qian-hua,et al.Speaker recognition algorithm for abnormal speech based on abnormal feature weighting[J].Journal of South China University of Technology:Natural Science Edition,2012,40(3):106-111.

[14]Stolcke A,Kajarekar S S,Ferrer L,et al.Speaker recognition with session variability normalization based on MLLR adaptation transforms[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(7):1987-1998.

[15]Johnson W B,Lindenstrauss J.Extension of Lipschitz mapping into Hilbert space [J].Contemporary Mathematics,1984,26(1):189-206.

[16]Dasgupta S.Learning mixtures of Gaussians[C]∥Proceedings of IEEE Symposium on Foundations of Computer Science.New York:IEEE,1999:634-644.

[17]Du W L,Chen S G,Han Y S.Privacy-preserving multivariate statistical analysis:linear regression and classification[C]∥Proceedings of the 4th SIAM International Conference on Data Mining.Lake Buena Vista:SIAM,2004:222-233.

猜你喜歡
聲紋矢量語音
矢量三角形法的應用
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
對方正在輸入……
屏幕即指紋識別
基于矢量最優估計的穩健測向方法
三角形法則在動態平衡問題中的應用
基于數字水印的人臉與聲紋融合識別算法
色料減色混合色矢量計算
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合