?

一種基于后門技術的深度強化學習水印框架

2024-01-15 08:43陳瑜霖姚志強蔡娟娟熊金波
關鍵詞:狀態動作性能

陳瑜霖,姚志強,2,金 彪,2,李 璇,2,蔡娟娟,熊金波,2

(1.福建師范大學計算機與網絡空間安全學院,福建 福州 350117;2.福建省大數據分析與應用工程研究中心,福建 福州 350117)

近年來,隨著大型數據集的可用性和硬件計算平臺性能的不斷提升,深度強化學習(deep reinforcement learning,DRL)得到了迅猛發展,并在解決各種復雜任務時表現出卓越的性能。例如機器人控制[1]、競爭視頻游戲[2-4]和自動駕駛[5]。然而,DRL不僅需要大量的計算資源,還需要進行長時間的訓練。此外,DRL的訓練還受到許多限制,因為它需要在現實環境中進行評估和測試,需要設計合適的獎勵函數來指導智能體的行為。因此,在實際應用中,人們需要考慮如何保護DRL模型的知識產權,以避免他人的侵權行為。

保護DRL模型的知識產權的一種直觀想法就是為其添加水印。水印技術是保護多媒體版權的常用方法,已被廣泛應用于保護數字圖像、音頻、視頻等多媒體產品的版權以及驗證多媒體數據的完整性[6-8]。根據嵌入提取水印的方式的不同,神經網絡可以分為2種:白盒水印和黑盒水印。2017年,Uchida等[9]提出了第一個可以用于保護深度神經網絡模型知識產權的白盒水印框架,成功地將數字水印技術從傳統的多媒體領域拓展應用到深度學習領域。需要將水印嵌入到所選層的權重中,在驗證模型的所有權時也需要獲得整個模型以得到其中的權重信息。Fan[10]采用了另一種新的思路,是基于內部結構的白盒水印方法,在神經網絡中加入新的一層來作為水印的載體,并向該層添加水印,Lou[11]直接將模型結構作為水印載體,模型的所有者生成獨特的網絡結構作為所有權的證據。Ong等[12]提出了針對與對抗網絡的模型的保護方案,將水印嵌入生成器的標準化層,Lim[13]提出了針對循環神經網絡模型的水印,使用Ong等[12]的方法將水印嵌入循環神經模型單元輸出的隱層中。然而,白盒模型存在一定的局限性,例如在驗證階段必須獲取可疑模型的內部信息,這在現實的應用中是難以實現的。在現實中,模型被盜的大多數情形是黑盒的,在黑盒情況中,模型所有者無法獲取模型的內部權重和結構,只能使用接口查詢驗證模型的所有權。黑盒水印技術利用網絡模型的冗余性,通過構建特殊的觸發集同正常樣本訓練使得使得模型對于特定的觸發數據輸出錯誤的預定義標簽[14-16],以此聲明模型的所有權。Zhang等[17]研究了使用擇與訓練數據分布無關的圖像、使用一些隨機噪聲和特定內容字符串作為觸發模式的黑盒水印。Szyller等[18]提出了DAWN的方法,通過動態更改數據訪問時的返回結果以抵抗模型竊取攻擊。Xu等[19]將后門觸發器用于GNN中從而保護GNN模型。然而,以上的工作大多是基于分類生成任務。在分類任務中,模型水印是通過觸發集中的特殊圖像使得模型輸出預定義的標簽,在生成任務中是使得模型輸出的圖像中攜帶隱藏的水印,再通過提取獲得水印。而DRL模型是在與環境的交互中不斷地學習狀態對應的動作以及獎勵值來學習到最優策略。保護DRL模型的水印方法仍然處于開始階段,為了保護DRL模型,Behzadan[20]提出一種序列觸發器水印,利用與訓練和部署環境不相關的狀態作為水印狀態,并定義新的獎勵函數和狀態轉移函數,以確保經過訓練的代理按照特定順序執行。Chen[21]提出的時間序列水印,解決了Vahid Behzadan使用額外的環境因而容易被敵手檢測的缺陷,定義了一種無損狀態,利用自然出現在訓練和部署環境中的狀態作為水印狀態,并將非關鍵狀態映射到特定動作進行識別。然而時間序列水印只記錄水印狀態自然發生時的動作,但不能保證水印狀態會發生,為了保證水印狀態的發生,Wang[22]提出了向環境的觀測值注入對抗性的擾動嵌入水印。

為了使得水印的嵌入與驗證更加簡潔,并獲得良好的水印性能,本文提出一種新的DRL模型水印框架DrlWF。DrlWF修改參與DRL模型訓練的狀態,使用原有環境進行水印嵌入。在水印嵌入時,本文通過在訓練時修改水印狀態對應的動作和獎勵值以達到嵌入水印的效果,實現簡單且在水印嵌入過程中模型不易崩潰;水印驗證時,只需通過觀察模型性能變化和水印動作執行情況,即可完成對模型所有權的驗證。

1 問題定義

強化學習決策過程可以描述為一個馬爾科夫決策過程(Markov decision process,MDP)。在MDP中,環境可以被視為一組狀態的集合,智能體可以采取一組動作來改變環境的狀態,并獲得一個獎勵或代價信號。智能體的目標是通過在不同狀態下采取不同的動作,從而最大化長期累計獎勵。一個MDP可以被描述為一個五元組 (S,A,P,R,γ),其中,S是狀態集合,每個狀態表示環境的一種可能狀態;A是動作集合,每個動作表示智能體在某個狀態下可以采取的一種操作;P是狀態轉移概率函數,表示從一個狀態轉移到另一個狀態的概率;R是獎勵函數,表示智能體在某個狀態下采取某個動作所獲得的獎勵或代價,γ是折扣因子,滿足 0≤γ≤1,用于控制即時獎勵和未來獎勵之間的權衡,γ接近1 表示代理更重視未來獎勵,而接近 0 表示代理眼光短淺,只關注即時獎勵。在一個MDP中,智能體會根據當前的狀態選擇一個動作,然后執行該動作并觀察到一個新的狀態和一個獎勵信號。智能體會不斷地根據當前的狀態和獎勵信號更新自己的決策策略,以最大化長期累計獎勵。在強化學習的過程中至少使用一個深度神經網絡,即可稱之為深度強化學習(DRL)。

圖1 DRL模型水印框架Fig.1 DRL model watermark framework

一個良好的DRL水印應該滿足以下要求:

(1)保真度。即向DRL模型中添加水印后不能影響模型在原有任務上的性能。具體地,訓練一個智能體使其在沒有觸發水印的情況下的性能與標準模型的性能相當;當觸發水印時盡可能地降低模型的性能。假設τ為一條軌跡,π為未嵌入水印模型的策略,將π作為基準策略,π*為嵌入水印模型后的策略。R(π,ε)為智能體在干凈環境ε和策略π下得到的累計獎勵值,如公式(1)[23]所示:

R(π,ε)=Eτ~p(τ/π,ε)[∑r(st,at)]。

(1)

模型所有者希望在干凈環境ε中,策略π*能夠實現與策略π相同的性能,如公式(2)[23]所示:

|R(π,ε)-R(π*,ε)|<ε1。

(2)

當環境中存在水印時,即最大化策略π在干凈環境ε與策略π*在水印環境ε*的獎勵差值,如公式(3)[23]所示:

max(R(π,ε)-R(π*,ε*))。

(3)

(2)可靠性。即要求策略π無法對水印環境ε*做出響應,意味著未嵌入水印模型的策略π對水印環境ε*不敏感,策略π在水印環境ε*和干凈環境ε下的性能大致相同,如公式(4)[23]所示:

|R(π,ε)-R(π,ε*)|<ε2。

(4)

(5)

2 方法

如圖2所示,在DRL模型的正常訓練過程中,智能體從環境中獲得當前狀態,基于當前的狀態,智能體選擇、執行一個動作并將其應用于環境中,進而導致環境的狀態發生改變。執行動作后,智能體從環境中獲得一個獎勵。智能體根據觀察到的狀態,所采取的行動和獲得的獎勵來更新智能體的內部模型,最終使得智能體學會如何在給定狀態下選擇能獲得最高累積獎勵的動作。重復智能體與環境的交互過程,不斷學習和優化其策略。

圖2 智能體與環境的交互Fig.2 Interaction between agent and environment

本文的目標是向DRL模型中嵌入后門水印,并據此保護DRL模型的知識產權。在訓練水印模型時,扮演“強攻擊者”[23]的角色,擁有模型的完全控制權,可以訪問訓練過程中組件間的交互,并能夠修改每個時間步的狀態、動作和環境獎勵?;诖?,本文可以通過更改特定狀態下的動作和獎勵,實現將水印嵌入到DRL模型中,使模型能夠在給定特定狀態時做出預期的動作決策。

DrlWF主要包括2個階段,分別是狀態水印嵌入階段和狀態獎勵修改階段。在狀態水印嵌入階段,從標準的訓練狀態中隨機選取若干狀態,向被選中的狀態中添加特定的水??;在狀態獎勵修改階段,修改帶有水印的狀態的獎勵值并且進行訓練以使得智能體能夠習得該水印。本文提出的水印嵌入偽代碼見算法1。在訓練過程中,對選中狀態進行水印嵌入,并且修改該狀態的動作為水印動作,然后將對應的獎勵值r(s,a)設置為1。

算法1水印嵌入算法

輸入:水印動作aw,水印Δ,環境env

輸出:水印模型

(1) 初始化價值網絡θv和策略網絡θ

(2) 步驟step←0

(3)While當前步驟step<最大訓練步數stepmaxdo

(4)for當前步數t←0到最大更新步數tmax:

(5)env產生狀態st

(6)if狀態st被選中then:

(7)st←Watermarking(st,Δ)

(8)at←πθ(st)

(9)if狀態st被選中then:

(10)at←aw

(11)r←r(st,at)

(12)if狀態st被選中then:

(13)r=1

(14)fort=tmaxdoneto0do

(15)Qt←rt+γQt+1

(16)At←Qt-Vt

(17) 更新θv和θ

(18)step←step+tmax

依據本文第三章實驗結果可知,提出的DRL水印框架能夠滿足第2節中所有提及的水印要求,且相較于文獻[21]的時間序列水印方案與文獻[22]的對抗擾動水印而言,本文的水印嵌入過程更加簡單,水印驗證過程更加清晰。

2.1 水印狀態嵌入

在狀態水印嵌入階段,本文通過公式(6)將一個由水印Δ和系數λ組成的水印觸發器嵌入至初始狀態s。

(sw)i,j=(1-λi,j)·(st)i,j+λi,j·Δi,j。

(6)

實驗過程中,將游戲畫面中的每個狀態的左上角3×3的區域內的λ固定為1,其他區域內的λ均為0。

2.2 獎勵修改

完成狀態水印嵌入后,接下來就是將水印嵌入DRL模型中。在此過程中,為了最大化策略π(aw/sw),本文修改狀態動作對(sw,aw)的獎勵值使得該水印狀態所對應的水印動作具有更高的優勢。具體的,首先需要在訓練過程中修改狀態對應的動作為水印動作以此來創建這些狀態動作對:當狀態s=sw時,將該狀態的對應的動作a修改為水印動作aw,即(sw,aw),同時為了使模型能夠學習到這個狀態動作對,且避免模型認為該狀態是一個良好狀態從而使其他動作都會獲得高獎勵,將狀態動作對(sw,aw)的獎勵值r設置為1;當s≠sw時,不對動作及其獎勵值進行修改。

3 實驗

為了實現向深度強化學習模型中嵌入水印,本文使用并行優勢-演員-評論員算法(PAAC)[24],并使用雅達利游戲庫[25]中的3個不同游戲(breakout、qbert、crazy climber)來評估水印嵌入效果。此外,通過魯棒性實驗對本文所提方法的魯棒性進行了驗證。實驗在一臺硬件配置為Intel 12600k CPU、32GB RAM和NVIDIA RTX 3060ti GPU,系統為Ubuntu22.04的機器上運行。

3.1 評估指標

本文主要使用性能差距以及水印動作實現比例2個指標作為評估標準。

(1)性能差距。性能差距用于衡量帶水印模型與標準模型之間的表現差異。在評估性能差距時,將帶水印模型所需交互的所有狀態設為已添加水印的狀態,讓帶水印模型根據這些水印狀態自主選擇下一步動作,同時觀察水印模型在標準狀態下的表現。游戲結束時的累計獎勵是衡量模型性能的關鍵指標。通過對比水印模型在水印狀態下的累計獎勵和標準模型在標準狀態下的累計獎勵,可以評估水印模型與標準模型之間的性能差距。這種對比有助于理解水印對模型性能的影響。

(2)水印動作實現比例。先前的工作均使用序列的一致性來驗證模型所有權。為簡化驗證流程,提出將水印動作實現比例作為強化學習模型水印的另一個評價指標。僅有性能差距的比較并不足以說明模型的所有權,因為模型性能的下降只能說明后門使得模型的性能不佳,在此基礎上若模型能夠按照指定動作執行則能更加有效地驗證模型的所有權。為了計算這一比例,首先統計帶水印模型在水印狀態下執行水印動作的比例,接著將該比例與未添加水印的模型在水印狀態下執行水印動作的比例進行比較。通過這種對比,可以得到加入水印后的模型選擇水印動作的實現比例。該指標有助于判斷水印嵌入是否成功,以及水印是否對智能體的決策產生影響。

3.2 實驗結果與分析

3.2.1 性能差距分析

圖3—圖5分別展示了breakout、qbert以及crazy climber共3個游戲模型在嵌入水印前后的性能差異。

(a )水印模型性能 (b )標準模型性能圖3 breakout游戲模型性能Fig.3 Model performance in breakout

實驗過程中,本文在8 000萬個訓練狀態中,對20 000個狀態進行水印處理,即僅使用了訓練狀態的0.025%進行水印處理。圖3—圖5中的(a)圖展示了水印模型在水印狀態和標準狀態下的累計獎勵值,當不使用水印狀態時,模型表現出優秀的性能;而在使用水印狀態時,各個模型在前40M訓練狀態前性能顯著下降,符合預期。圖3—圖5中的(b)圖展示了標準模型在水印狀態下和標準狀態下的累計獎勵值,標準模型無法識別出水印狀態,對水印狀態無法做出特定的行為,標準模型在水印狀態和標準狀態的性能基本一致。

3.2.2 水印動作實現比例

圖6—圖8分別展示了breakout、qbert以及crazy climber共3個游戲模型的水印動作實現比例。

本文將動作2設置為水印動作,圖6—圖8中的(a)圖為智能體的各個動作的分布,經過訓練后的水印模型能夠檢測出99%以上的水印狀態,并成功執行相應的水印動作。在非水印狀態下,水印模型具有正常的動作分布,這意味著水印模型不會在非水印狀態下產生異常的水印動作。圖6—圖8中的(b)圖為水印模型在水印狀態下的水印動作隨著訓練數量的趨勢,各個智能體都在前40M訓練數量中學習到了個水印。這表明本文的方法在保持模型性能的同時,成功地將水印嵌入到了DRL模型中。

3.2.3 魯棒性

水印的魯棒性指的是水印對攻擊的抵抗力,即在攻擊者嘗試修改、破壞水印的情況下,水印是否還能夠被有效地檢測和提取出來。假設敵手在獲得模型之后通過模型轉換來適應攻擊者自己的環境,本文重點考慮模型微調以及模型壓縮2種攻擊情形。

(1)模型微調是指在一個預訓練模型的基礎上,針對新的數據集(通常比原始預訓練數據集更小)調整模型參數的過程。預訓練模型通常在大規模數據集上進行訓練,可以學到優秀的特征表示,適用于多種任務。然而,在實際應用中,為了獲得更好的性能,需要針對特定任務進行模型微調。微調過程可以在預訓練模型的基礎上使用新數據集進行再訓練,或者直接針對新任務進行調整。在實驗過程中,本文針對每個游戲額外訓練了2 000萬個訓練狀態。

(3)模型壓縮是一種縮小神經網絡模型大小的技術,通常通過減少神經網絡中參數的數量或降低其表示的位數來實現。該操作有助于降低模型在存儲和傳輸過程中的開銷,從而提高模型的效率和可用性。本文采用模型壓縮的方法,將模型原來的32位浮點型參數轉換為16位浮點型參數,顯著減少模型的存儲和傳輸開銷。

表1展示了水印模型針對模型微調與壓縮的魯棒性結果,在模型壓縮和模型微調之后,水印依舊保存在水印模型之中,在使用水印狀態驗證時,模型的累計獎勵依舊會大幅下降,模型對水印狀態所執行的水印動作百分比均達到了99%~100%,與水印模型的性能基本一致,顯示了水印優越的魯棒性。

表1 水印模型針對模型微調與壓縮的魯棒性結果Tab.1 Robustness results of the watermark model to model fine-tuning and compression

4 結語

為了保護DRL模型的知識產權,本文提出了一種可用于保護DRL模型知識產權的水印框架DrlWF,通過在DRL的訓練過程中向訓練狀態中添加水印,并為該水印狀態指定水印動作與修改獎勵值,使DRL模型能夠學習到這個水印。實驗結果表明,在水印狀態下,水印模型的性能顯著下降,而在標準狀態下,水印模型與標準模型的性能與動作百分比基本一致。水印在經過模型壓縮和微調后仍然保留在模型中,進而證明了水印的魯棒性。該方法適用于所有使用圖像作為狀態的DRL模型。值得注意的是,使用圖像作為狀態的DRL模型已經成為現實世界中強化學習應用的主要方向,例如機器人控制、自動駕駛、無人機控制等。綜上所述,本文所提出的DRL模型水印框架可以在保證模型性能的前提下,保護模型的知識產權,具有廣泛的應用前景。

猜你喜歡
狀態動作性能
提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發布
狀態聯想
動作描寫要具體
生命的另一種狀態
畫動作
熱圖
堅持是成功前的狀態
Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
強韌化PBT/PC共混物的制備與性能
非同一般的吃飯動作
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合