?

低比特率語音流大容量分層隱寫方法

2022-12-21 03:23蘇兆品張羚張國富
中國圖象圖形學報 2022年12期
關鍵詞:碼本分析器比特

蘇兆品,張羚,張國富*

1. 合肥工業大學計算機與信息學院,合肥 230601; 2. 大數據知識工程教育部重點實驗室(合肥工業大學), 合肥 230601; 3. 智能互聯系統安徽省實驗室(合肥工業大學),合肥 230009; 4. 工業安全應急技術安徽省重點實驗室(合肥工業大學),合肥 230601

0 引 言

隱寫術是將秘密信息隱藏在用戶難以察覺的常見媒介(如文本、圖像、音頻和視頻等)中,以實現秘密信息和通訊行為的雙重隱蔽,已成為網絡空間安全的一個重點研究領域。音頻隱寫是利用人的聽覺冗余和音頻載體的統計冗余,在不損壞載體的前提下,將秘密信息嵌入到聲音載體中。早期的音頻隱寫方法大都面向WAV(windows media audio)音頻。Ahani等人(2015)利用離散小波變換(discrete wavelet transform,DWT)和稀疏分解將秘密消息嵌入到音頻信號的更高語義層中。吳秋玲和吳蒙(2016)利用人耳聽覺系統HAS(human audio system,HAS)對語音信號的中高頻信息微小變化不敏感的特性,通過調節語音段小波變換的中高頻系數,將秘密信息嵌入到小波域中。高瞻瞻等人(2017)基于漢明碼設計了適用于低嵌入率隱寫的校驗矩陣構造方法,進一步提高了隱寫效率。

隨著VoIP(voice over internet protocol)技術的發展,以VoIP語音為載體的隱寫逐漸成為研究熱點。Huang等人(2012)發現在G.723.1編解碼器中靜音幀比活動幀更適合隱藏信息,提出了不同的最低有效位(least significant bit,LSB)匹配解決方案以實現更好的隱藏效果。田暉等人(2016)通過分析參數編碼中語音幀的每個比特位對重構語音質量影響的不均衡性,提出一種基于LSB分級的自適應IP(internet protocol)語音隱寫方法。高瞻瞻等人(2018)通過分析語音編碼過程,建立了固定碼本參數的貝葉斯網絡模型,并應用矩陣嵌入技術確定載體的修改位置。上述工作均是在壓縮編碼后的語音碼流中嵌入秘密信息,大都基于LSB替換法,僅考慮隱藏在不同樣本中的比特位數,沒有考慮語音流特征,容易帶來可察覺失真,導致語音質量降級,且很難抵抗Chi-square test、RS(regular and singular)和SPA(sample pairs analysis)等混合統計分析方法的檢測。

為了解決抗檢測性問題,一些研究嘗試將秘密信息嵌入與語音壓縮編碼過程同步進行。Liu等人(2017)基于線性預測編碼過程,分別采用矩陣嵌入和量化索引調制(quantization index modulation,QIM)方法實現在G.729和G.723.1中的隱寫。吳志軍等人(2020)在G.723.1的基音預測編碼過程中,通過控制自適應碼本的搜索范圍,結合隨機位置選擇和矩陣編碼實現秘密信息嵌入。Ren等人(2018)通過將最優脈沖概率和脈沖相關性引入成本函數,并結合加性失真函數提出一種基于固定碼本搜索和非零脈沖位置相關性的自適應多碼率編碼語音(adaptive multi-rate, AMR)自適應隱寫方案。Ren等人(2019a)通過分析AMR自適應碼本搜索中非靜音和靜音段的基音延遲分布,將嵌入位置自適應地放置在靜音段中,并通過修改基音延遲來嵌入秘密消息。Yi等人(2019)提出一種通用的自適應霍夫曼編碼映射框架,首先建立失真受限的可抑制編碼空間,并基于等長熵編碼實現秘密信息嵌入,然后利用隱秘密鑰動態構建每個幀的霍夫曼編碼映射,以增強不可感知性和統計抗檢測性。Wu和Sha(2016)基于QIM方法,在互聯網低比特率編解碼器(internet low bit rate codec,iLBC)編碼過程中的動態碼本搜索階段,通過構建二叉樹的方式將碼本分為左子樹和右子樹,提出一種FCB(fixed-codebook)隱寫方法,不僅提升了隱寫容量,還提升了語音質量。Huang等人(2017)基于線性頻譜頻率(linear spectrum frequency,LSF)系數量化進行iLBC語音隱寫,用秘密信息控制碼本的搜索范圍,實現了一種QIMC(QIM-controlled)隱寫方法。Su等人(2020)提出一種iLBC語音隱寫(gain quantization based steganography,GQS)方法,通過對增益量化表的合理劃分嵌入秘密信息,在保證不可感知性的前提下,追求更好的不可感知性和抗檢測性。

上述隱寫方法雖然在一定程度上能夠提升隱寫的抗檢測性,但通常以犧牲隱寫容量為代價。這些方法沒有充分挖掘載體的隱藏潛能,很難在隱藏容量與抗檢測性之間達到很好的平衡。而且隨著基于深度學習的隱寫檢測技術的快速發展,使得基于壓縮域的語音隱寫抗檢測性能大幅下降,給音頻隱寫研究帶來新的挑戰。對此,Lin等人(2018)提出一種有效的在線隱寫分析(recurrent neural network based steganalysis model,RNN-SM)方法檢測QIM隱寫術。Gong等人(2019)針對ARM(adaptive multi-rate)在動態碼本搜索階段的隱寫方法,提出一種基于循環神經網絡和卷積神經網絡的隱寫分析器SRCNet(steganalysis based on recurrent convolutional networks),通過結合時域和空域兩方面的相關性取得了較好的隱寫分析性能。Ren等人(2019b)提出一種通用的音頻隱寫分析方案SpecResNet(deep residual network of spectrogram),利用語譜圖作為通用特征,結合深度殘差網絡進行隱寫分析。Yang等人(2020a)利用注意機制解決壓縮流中基于QIM隱寫術的隱寫分析問題,并設計一種基于多頭注意力的輕量級神經網絡快速相關提取模型FCEM(fast correlation extract model)。此外,為了滿足在線隱寫分析,Yang等人(2020b)在RNN-SM的基礎上使用一個隱藏層提取載波碼字之間的相關性,設計了一種快速VoIP流隱寫分析方法 EFSM(extremely fast steganalysis method)。

基于上述背景,本文以iLBC語音為研究對象,提出一種大容量iLBC語音隱寫分層方法,根據秘密信息量自動選擇嵌入位置,在提升隱寫容量的前提下,力求在不可感知性與抗檢測性能之間能夠達到一個較好的均衡。

1 iLBC語音隱寫位置的分層

iLBC是一種專為包交換網絡通信設計的語音編解碼器,解決了語音傳輸中網絡丟包嚴重影響通話質量的實際問題,在實時通信系統(如電話系統、視頻會議、語音流和及時消息等)領域得到了廣泛應用。

iLBC編碼支持20 ms和30 ms兩種幀長度編碼, iLBC語音隱寫通?;赒IM方法在LSF系數的矢量量化過程(Huang等,2017)、動態碼本搜索過程(Wu和Sha,2016)和增益量化過程(Su等,2020)中進行。以30 ms幀為例,在LSF系數矢量分兩組量化的各個子階段中均能嵌入3 bit,分別記為LQ_1和LQ_2;在動態碼本搜索過程,5個矢量分別進行3階段的搜索,每個階段可以嵌入5 bit,分別記為BS_1、BS_2和BS_3;在增益量化過程,同樣需要對5個矢量分別進行3階段的增益系數量化,每個階段可以嵌入5 bit,分別記為GQ_1、GQ_2和GQ_3。

圖1為iLBC編碼過程與隱寫位置分布的關系示意圖。在iLBC編碼過程中,首先進行線性預測系數(linear predictive coefficient,LPC)分析,得到的LPC系數對每一個語音的子幀計算殘差值,除開始狀態外,其余5個子幀采用基于動態碼本搜索的矢量量化方法進行編碼。在矢量量化的每個階段,在眾多的碼本中搜索與感知加權矢量最匹配的矢量后,再計算相應的增益值并對其量化。通過對iLBC編碼比特流結構的分析,發現LSF系數占據大量最敏感的第1類比特,而矢量量化模塊中的增益量化參數占據敏感比特位的數量遠少于LSF系數。眾所周知,編碼參數占據敏感比特位的數量越少,表明對該參數進行修改導致的失真影響也越小。因此,由上述iLBC編碼過程可以看出,不同隱寫位置所處的階段和起到的作用差別很大,需要進一步分析其隱寫性能。

圖1 iLBC編碼過程與隱寫位置分布的關系示意圖Fig.1 Relationship between iLBC coding process and embeddable positions

為了分析不同隱寫位置對語音不可感知性的影響,以語音主觀質量評估PESQ-MOS(perceptual evaluation of speech quality-mean opinion score)和平均梅爾倒譜失真(Mel-cepstral distortion,MCD)為評價指標,在時長為2 s、5 s和10 s的語音上進行測試,每種時長的語音均有440條。

PESQ-MOS是采用ITU-TP.862標準給出的一種客觀MOS語音質量評價方法,這是目前與主觀語音評價質量相關度最高的方法,該評價方法的結果是一個數值,取值范圍在1.0-4.5之間。PESQ-MOS值越大,表明隱寫語音的失真越小,不可感知性越好。MCD是在語音數據失真測度基礎上,利用距離準則測量隱寫前后語音的相似程度。具體為

(1)

首先,對每種時長取8個語音樣本,在不同位置進行隱寫,MCD和PESQ-MOS的測試結果分別如圖2和圖3所示??梢钥闯?,在2 s、5 s和10 s音頻上,在GQ_1、GQ_2和GQ_3位置隱寫,MCD和PESQ-MOS值均為最佳,具有最好的不可感知性;在BS_3和BS_2上隱寫,MCD和PESQ-MOS值也比較理想,不可感知性較好;在BS_1上隱寫,MCD和PESQ-MOS值適中,不可感知性較差;而在LQ_1和LQ_2上隱寫,MCD和PESQ-MOS值均為最差,不可感知性最差。

圖2 不同時長下不同隱寫位置的MCD結果Fig.2 MCD test results of different embeddable positions under different speech lengths((a) 2 s speech; (b) 5 s speech; (c) 10 s speech)

圖3 不同時長下不同隱寫位置的PESQ-MOS結果Fig.3 PESQ-MOS test results of different embeddable positions under different speech lengths((a) 2 s speech; (b) 5 s speech; (c) 10 s speech)

為進一步驗證上述分析結果,對每種時長下的440條語音進行測試,分別求MCD和PESQ-MOS的平均值,實驗結果如圖4所示??梢钥闯?,隨著音頻時長的增加,不可感知性越來越好。但綜合來看,GQ_1、GQ_2和GQ_3對隱寫最不敏感,BS_3和BS_2稍有下降,BS_3敏感性適中,LQ_1和LQ_2位置對隱寫非常敏感。

根據上述分析結果,對于30 ms 的iLBC語音幀,本文將隱寫位置分為3個層次,如圖5所示。每一行表示一種隱寫位置,每一列VQi(vector quantization)表示一個矢量量化經歷的編碼過程,每個隱寫位置的數字表示該位置在iLBC編碼過程中的先后順序,不同深淺的顏色代表隱寫位置的不同層次,顏色越淺,不可感知性越好,顏色越深則不可感知性越差。

圖4 不同時長下不同隱寫位置的不可感知性結果Fig.4 Imperceptibility test results of different embeddable positions under different speech lengths((a) average MCD; (b) average PESQ-MOS)

圖5 iLBC隱寫位置的分層模型Fig.5 Hierarchical model of iLBC embeddable positions

2 大容量iLBC語音分層隱寫方法

2.1 分層隱寫

基于QIM技術,每個iLBC幀可隱寫的最大比特數為30位。當給定隱寫比特數n,在滿足1≤n≤30時,應盡可能地將秘密信息隱寫在對語音影響較小的位置,最大程度降低隱寫帶來的失真,以保證隱寫音頻具有最佳的不可感知性?;谏鲜鏊枷?,本文設計了一種分層隱寫方法,如圖6所示。

圖6 iLBC語音分層隱寫方案Fig.6 Hierarchical steganography scheme for iLBC speech

具體來說,優先選擇第1層,其次是第2層、第3層。例如,當n=18,首先在第1層GQ_1、GQ_2和GQ_3位置上嵌滿15 bit,此時第1層稱為滿嵌層;剩余3 bit嵌入在第2層BS_2和BS_3中,由于第2層共有10個嵌入位置,不需要嵌滿,此時稱第2層為未滿層。

2.2 未滿層嵌入位置選擇

在未滿層隱寫信息時,如果嵌入位置是固定且相鄰的,則容易改變語音本身的特征,從而極易檢測出秘密信息。為此,本文提出一種基于Logistic混沌映射的嵌入位置選擇方法,在未滿層通過Logistic混沌映射隨機選擇嵌入位置,以提升未滿層隱寫的隨機性和安全性。

Logistic混沌映射是來自非線性動力系統的1維混沌系統。具體為

Xm+1=μ×Xm×(1-Xm)

(2)

式中,m表示計算混沌隨機數的次數,μ表示混沌映射公式的系數,Xm表示上一個混沌映射值,Xm+1表示由Xm計算得到的下一個混沌映射值。當μ∈(3.6,4)、X0∈(0,1)時,Logistic映射工作處于混沌狀態,其產生的序列是非周期的和不收斂的(May,1976)。

本文利用Logistic混沌映射產生的隨機序列來選擇未滿層的隱寫位置。設未滿層共有L個嵌入位置,基于Logistic混沌映射選擇k個嵌入位置的具體步驟如下:

1)為L個嵌入位置設置隱寫標簽tag(j),j=0,1,…,L-1,并初始化為0。

2)根據Xm-1和μ,基于式(2)得到隨機小數Xm,將Xm乘以1 000并取整,得到隨機整數X′m。最后將X′m對未滿層的隱寫總比特數取余,獲得該未滿層的隱寫位置索引j,即j=X′mmodL。

3)如果tag(j)=0,則在該未滿層的隱寫位置索引j處隱寫,并賦值tag(j)←1;否則m=m+1,轉步驟2)。

4)繼續上述過程,直到找到k個隱寫位置為止。

以n=18為例,第2層為未滿層,可能隱寫的位置共10個,需要從中確定3個位置進行隱寫。假設X0=0.52,μ=3.9,在此幀之前已經計算混沌隨機數49次,且X49=0.437,根據式(2),可得X50=0.959,X51=0.15,X52=0.498,由此可得嵌入位置9、0和8,對應圖5中的29、3和23這3個位置。

2.3 嵌入方法描述

本文所提的大容量iLBC語音分層隱寫方法HS(hierarchical steganography)的基本流程如下:

1)初始化。iLBC語音流S幀, 秘密信息M比特,混沌初始值X0,混沌系數μ。

2)計算每幀嵌入比特數:n=M/S。如果n>30,則通過擴展音頻幀來實現n≤30。

3)對于每一幀,如果0

4)重復步驟3),直至所有幀嵌入完成。

3 實驗結果與分析

為了驗證本文HS方法的有效性,從隱寫容量、不可感知性和抗隱寫分析3個方面與QIMC(Huang等,2017)、FCB(Wu和Sha,2016)和GQS(Su等,2020)等方法進行對比實驗。上述3個方法均可對iLBC語音進行隱寫。

測試語音采用Lin等人(2018)制作的中英文語音數據集SSD(steganalysis-speech-dataset)(https://github.com/fjxmlzn/RNN-SM),樣本格式均是8 kHz采樣、16 bit量化的標準PCM(pulse-code modulation)信號。為了對比的充分性,考慮了30 ms和20 ms兩種幀長,以及2 s、5 s和10 s這3種不同的樣本長度,每種情況下的語音各440條,共5 280條。

所有對比方法的代碼均基于C++ 編寫,并在Intel (R) Core (TM) i5-8500 CPU @ 3.00 GHz、RAM 16.0 GB、Windows 10操作系統的個人PC上進行測試。

3.1 隱寫容量分析

以30 ms幀為例,LSF系數量化有6次碼本搜索,使得QIMC方法最多可以隱藏6 bit;動態碼本搜索有15次碼本搜索,FCB最多可以隱藏15 bit;GQS在增益量化的后兩個階段嵌入,最多可隱寫10 bit; 本文HS方法將上述方法進行融合,最多可以隱寫30 bit。表1給出了不同隱寫方法在30 ms和20 ms幀格式下每幀可隱寫的最大比特數??梢钥闯?,本文HS方法顯著提高了隱寫容量,在30 ms幀和20 ms幀上均提升了1倍。

表1 不同方法的隱藏容量Table 1 Steganography capacity of different methods /bit

3.2 不可感知性測試

實驗對每種情況下的440條語音進行不可感知性測試,并計算PESQ-MOS和MCD的均值。

圖7—圖9給出了4種隱寫方法在30 ms幀長、不同語言、不同時長和不同嵌入量的不可感知性測試結果??梢钥闯?,當本文HS方法每幀嵌入約23 bit的秘密信息時,其不可感知性幾乎可以接近QIMC方法嵌入2 bit時的性能,而隱寫容量提升了10多倍。當HS方法每幀嵌入30 bit時,其不可感知性與FCB最大隱寫時的性能相差無幾,而隱寫容量提升了1倍;當HS方法每幀嵌入15 bit時,其不可感知性接近GQS最大隱寫時的性能,而隱寫容量提升了50%。

圖7 不同方法在2 s語音、30 ms幀下的不可感知性結果Fig.7 Imperceptibility test results of different methods under 2 s speech and 30 ms frame((a) Chinese speech; (b) English speech)

圖8 不同方法在5 s語音、30 ms幀下的不可感知性結果Fig.8 Imperceptibility test results of different methods under 5 s speech and 30 ms frame((a) Chinese speech; (b) English speech)

圖9 不同方法在10 s語音、30 ms幀下的不可感知性結果Fig.9 Imperceptibility test results of different methods under 10 s speech and 30 ms frame((a) Chinese speech; (b) English speech)

圖10—圖12給出了4種隱寫方法在20 ms幀長、不同語言、不同時長和不同嵌入量下的不可感知性結果??梢钥闯?,當HS方法每幀嵌入16 bit的秘密信息時,其不可感知性接近QIMC方法隱寫2 bit時的性能,而隱寫容量提升了7倍。當HS方法每幀嵌入18 bit時,其不可感知性與FCB最大隱寫時的性能相差無幾,而隱寫容量提升了1倍;當HS方法每幀嵌入9 bit時,其不可感知性接近GQS最大隱寫時的性能,而隱寫容量提升了50%。

圖10 不同方法在2 s語音、20 ms幀下的不可感知性測試結果Fig.10 Imperceptibility test results of different methods under 2 s speech and 20 ms frame((a) Chinese speech; (b) English speech)

圖11 不同方法在5 s語音、20 ms幀下的不可感知性結果Fig.11 Imperceptibility test results of different methods under 5 s speech and 20 ms frame((a) Chinese speech; (b) English speech)

上述實驗結果表明,與QIMC、FCB和GQS方法相比,本文HS方法在顯著提升隱寫容量的情況下,仍保持了較好的不可感知性,并沒有因為寫入額外秘密信息而導致音頻過度失真。

3.3 抗檢測性測試

為了檢驗本文HS方法抵抗隱寫分析的能力,實驗基于最新的深度學習隱寫分析器SpecResNet(Ren等,2019b)、SRCNet(Gong等,2019)、FCEM(Yang等,2020a)和EFSM(Yang等,2020b)進行測試。

為了對比的充分性,數據集考慮了中、英兩種語言、30 ms和20 ms兩種幀長,以及2 s、5 s和10 s這3種不同樣本長度。在每種情況下,均包含4 000條原始語音和4 000條隱寫后的語音,其中75%作為訓練集,25%作為測試集。

為了衡量信息隱寫的抗檢測分析能力,采用檢測準確率作為評價指標,即判斷正確的樣本數(樣本實際為載密音頻預測為載密音頻的個數+樣本實際為載體音頻預測為載體音頻的個數)除以測試的樣本總數。

圖13給出了4種隱寫方法在FCEM分析器上的檢測結果??梢钥吹?,對于QIMC方法,在寫入。

圖14 不同隱寫方法在EFSM分析器上的檢測結果Fig.14 Detection results of different methods on the EFSM ((a) Chinese speech; (b) English speech)

2 bit時很容易被FCEM分析器檢測出來。對于FCB和GQS兩種方法,在30 ms幀上,當每幀的隱寫比特數小于等于15時,FCEM分析器的檢測準確率為50%;在20 ms幀上,當每幀的隱寫比特數小于等于9時,FCEM分析器也很難檢測出來。而本文HS方法在30 ms幀上0-30 bit范圍、在20 ms幀上0-18 bit范圍均呈現出很好的抗檢測性。上述實驗結果表明,FCB、GQS和HS 3種隱寫方法對FCEM分析器具有很好的抗檢測性,但HS具有更高的隱寫容量。究其原因,FCEM提取的是LSF域的索引特征,無法感知到FCB、GQS和HS 3種方法的音頻特征。

圖14給出了4種隱寫方法在EFSM分析器上的檢測結果。同樣,對于QIMC方法,在寫入2 bit時很容易被EFSM分析器檢測出來。對于FCB和GQS 兩種方法,無論是在30 ms幀還是在20 ms幀上,當每幀的隱寫比特數小于等于15或9時,EFSM分析器的檢測準確率都為50%,無法區分。此外,本文HS方法在30 ms幀上0-30 bit范圍、在20 ms幀上0-18 bit范圍也呈現出很好的抗檢測性。上述實驗結果表明,FCB、GQS和HS 3種隱寫方法對EFSM分析器也具有很好的抗檢測性。究其原因,EFSM雖然在FCEM的基礎上通過精簡網絡結構提升了計算效率,但提取的仍然是LSF域的索引特征,同樣無法感知FCB、GQS和HS的音頻特征。

圖13 不同隱寫方法在FCEM 分析器上的檢測結果Fig. 13 Detection results of different methods on the FCEM ((a) Chinese speech; (b) English speech)

圖15給出了4種隱寫方法在SRCNet分析器上的檢測結果。對于FCB方法,在寫入2 bit時很容易被SRCNet分析器檢測出來。對于QIMC和GQS 兩種方法,當每幀的隱寫比特數,在30 ms幀上小于等于10,在20 ms幀上小于等于6時,SRCNet分析器的檢測準確率都為50%,無法區分。此外,本文HS方法在30 ms幀上0-15 bit范圍、在20 ms幀上0-9 bit范圍也呈現出很好的抗檢測性。上述實驗結果表明,QIMC和GQS兩種隱寫方法對SRCNet分析器具有很好的抗檢測性。究其原因,SRCNet是一種專門針對FCB隱寫的分析器,而本文HS方法整合了FCB和GQS。但需要指出的是,HS方法在隱寫容量上仍然比GQS在30 ms幀上多了5 bit、在20 ms幀上多了3 bit。

圖15 不同隱寫方法在SRCNet分析器上的檢測結果Fig.15 Detection results of different methods on the SRCNet ((a) Chinese speech; (b) English speech)

從上述實驗結果可以看出,FCEM和EFSM只能捕獲LSF系數的隱寫特征,難以檢測FCB、GQS和HS 3種方法的隱寫樣本,而SRCNet只能分析FCB和HS的一部分。為了進一步進行對比,圖16給出了4種隱寫方法在通用SpecResNet分析器上的檢測結果??梢钥闯?,對于QIMC方法,在寫入2 bit時同樣容易被SpecResNet分析器檢測出來。GQS在30 ms幀和20 ms幀上均具有很好的抗檢測性。當隱寫容量小于等于2 bit時,FCB在30 ms幀和20 ms幀上均具有較好的抗檢測性,當隱寫容量超過2 bit時,FCB在SpecResNet上的檢測準確率達到80%以上,難以抵抗SpecResNet分析器的檢測。對于HS方法,在30 ms幀上,當每幀隱寫比特數小于等于18時,HS具有很好的抗檢測性能;在20 ms幀上,HS在0-12 bit范圍內呈現出較好的抗檢測性;但隨著隱寫容量的增加,HS的抗檢測性能降低,這是因為SpecResNet提取的是語譜圖特征,只要有隱寫發生,即使是很小的隱寫量,語譜圖特征也會發生變化,所以隨著隱寫容量的增加,語譜圖特征變化越來越明顯,模型就越容易判別出隱寫的音頻樣本,致使檢測準確率不斷提升。

圖16 不同隱寫方法在SpecResNet分析器上的檢測結果Fig.16 Detection results of different methods on the SpecResNet((a) Chinese speech; (b) English speech)

綜合3種深度學習隱寫分析器的檢測,QIMC幾乎無法抵抗;GQS在30 ms幀上10 bit以內、20 ms幀上6 bit以內可以很好地抵抗;FCB在2 bit以內可以很好地抵抗;本文HS方法在30 ms幀上18 bit以內、20 ms幀上12 bit以內可以很好地抵抗。這表明本文HS方法在進一步提升隱寫容量的基礎上,保持了較好的抗檢測性。

4 結 論

音頻隱寫術是利用人的聽覺冗余和音頻碼流的統計冗余,將秘密信息隱藏于音頻文件之中而不損壞音頻的質量,以實現秘密信息的安全傳遞。但是在辨別微小失真方面,人的聽覺系統非常敏感。因此如何在隱寫容量、不可感知性和抗檢測性之間達到一個理想均衡是音頻隱寫面臨的一個難點。本文針對iLBC語音流,首先分析了LSF系數量化、動態碼本搜索和增益量化3個階段中的QIM隱寫對不可感知性的影響,分別設計了一種iLBC語音隱寫位置分層方法和一種基于Logistic混沌映射的未滿層嵌入位置選擇方法,并提出了一種大容量iLBC語音分層隱寫方法,可根據嵌入量的多少動態選擇隱寫的層次。對比實驗結果表明,本文方法可以充分挖掘iLBC的隱寫潛能,在提升隱寫容量的前提下,仍能保證良好的不可感知性和抗檢測性。

但是,本文只是針對大容量iLBC語音隱寫研究的一個初步嘗試,在未來仍有許多工作需要深入研究。首先,需要考慮所提方法的魯棒性,即需要測試在一些常規信號處理等攻擊下,能否有效提取秘密信息。其次,需要深入分析iLBC碼流結構,設計一種更加通用的音頻隱寫方法,以提升在大嵌入量下的抗隱寫分析性能。

猜你喜歡
碼本分析器比特
免調度NOMA系統中擴頻碼優化設計
基于有限域上仿射空間構造新碼本
基于Zadoff-Chu 矩陣的最優碼本構造方法
酒精分析器為什么能分辨人是否喝過酒
多邊形電極線形離子阱質量分析器的結構與性能
大規模MIMO預編碼碼本的優化設計與分析*
比特幣還能投資嗎
應用于詞法分析器的算法分析優化
比特幣分裂
比特幣一年漲135%重回5530元
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合