?

自適應裁剪的差分隱私聯邦學習框架

2023-09-07 09:02王方偉謝美云李青茹王長廣
西安電子科技大學學報 2023年4期
關鍵詞:聯邦差分梯度

王方偉,謝美云,李青茹,王長廣

(河北師范大學 計算機與網絡空間安全學院 河北省網絡與信息安全重點實驗室,河北 石家莊 050024)

1 引 言

信息化時代,各種智能設備及應用每天都會產生海量數據。機器學習,尤其是深度學習,為充分挖掘數據價值提供了一件有力武器,已在計算機視覺、語音識別、自然語言處理等領域取得巨大成功。然而,頻發的隱私泄露事件引發了民眾對于數據隱私和安全的擔憂,越來越多的組織和公司不愿共享自己的數據,出現“數據孤島”問題。聯邦學習是一種分布式機器學習模式,參與模型訓練的各方不會交換彼此數據。各參與方在本地完成數據存儲和模型訓練,只需將相關訓練參數上傳至中央服務器,由中央服務器統一維護全局參數的更新[1]。聯邦學習在不共享數據的前提下由多方協作共同訓練一個深度學習模型,降低了隱私泄露風險,極大釋放了數據價值,可有效緩解“數據孤島”問題。

盡管聯邦學習對保護數據隱私有一定作用,但客戶端頻繁上傳和下載參數,仍然存在隱私泄露的風險[2]。如何設計滿足隱私要求的聯邦學習方案仍是一個挑戰。研究者嘗試將安全多方計算、同態加密和差分隱私等數據安全技術結合聯邦學習,提出一些聯邦學習隱私保護框架[3-7]。KANAGAVELU等[4]提出高效通信的多方計算支持的聯邦學習(Communication-Efficient multi-party computation enabled Federated learning,CE-Fed)算法,實現了高精度、高通信效率的聯邦學習。MA等[5]提出基于多密鑰同態加密技術的聯邦學習,旨在實現隱私保護的聯邦學習,并降低計算成本。PARK等[6]利用同態加密技術直接對模型參數進行加密,中央服務器直接對密文進行計算而無需解密。張澤輝等[7]提出一種支持數據隱私保護的聯邦深度神經網絡模型(Privacy-preserving Federated Deep Neural Network,PFDNN),通過對其權重參數實施同態加密來保障數據的隱私安全。然而,安全多方計算大多基于復雜的通信協議,同態加密涉及大量加密操作,盡管可實現數據的“可算而不可見”,但也為系統帶來了巨大的計算開銷和通信開銷。與安全多方計算和同態加密不同,差分隱私因其實現的簡單性和強大的隱私性而受到關注,已應用到多個領域以提升系統的隱私性[8]。

差分隱私應用于聯邦學習有兩種方式,即本地化差分隱私(Local Differential Private,LDP)和中心化差分隱私(Centralized Differential Private,CDP)[9]。本地化差分隱私首先使得數據擁有者完全掌握對數據的控制權,在本地對數據進行干擾,然后向服務器發送擾動后的版本,從而防止了數據的隱私泄露。TRUEX等[10]提出了本地差分隱私的聯邦學習(Local Differential Private Federated learning,LDP-Fed)算法,首先根據本地需求定制隱私預算,然后在本地對模型參數進行基于本地化差分隱私的擾動。SUN等[11]考慮深度學習模型的不同層的權重范圍差異,提出了一個權重參數自適應范圍設置方法及數據擾動方法,提升了模型性能。 ZHAO等[12]設計了一種適應于本地化差分穩私的聯邦隨機梯度下降(Federated Stochasitc Gradient Desent,FedSGD)算法,既可實現對梯度的擾動,提升模型精度,又能減少通信成本。CHAMIKAPA等[13]提出了LDPFL(Local Differential Privacy for Federated Learning)算法,通過隨機化本地模型的輸入來實現本地化差分穩私,訓練的模型在保持高精度的情況下,隱私泄露更少。ZHAO等[14]提出了一種增強聯邦學習框架,通過客戶端自采樣和自適應數據擾動機制實現本地化差分穩私。相比于中心化差分穩私,本地化差分穩私能提供更高的隱私水平,但會引入更多噪聲,從而影響模型精度。另外,本地化差分穩私不利于處理高維、稀疏數據。

中心化差分隱私主要針對客戶—服務器架構,對服務器獲取和廣播的參數提供隱私保護。為了解決隱私性與模型效用之間的權衡問題,LIU等[15]提出了自適應隱私保護的聯邦學習(Adaptive Privacy-preserving Federated Learning,APFL)算法,首先使用相關性傳播算法計算每個數據屬性類對輸出的貢獻度,然后向數據屬性中注入自適應噪聲。WU等[16]在客戶端執行本地梯度下降的過程中引入自適應學習率調整算法,提升了計算效率,并利用差分隱私有效抵御了各種背景攻擊。朱建明等[17]根據各參與方的模型質量評估結果,為中間參數添加不同程度的噪聲,從而保證本地數據的隱私安全。HU等[18]開發了一種稀疏模型擾動的聯邦學習(Federated learning with Sparsified Model Perturbation,Fed-SMP)方案,通過模型稀疏化技術實現了隱私保護水平和通信效率的提高。LIU等[19]設計了一種自適應梯度裁剪的差分隱私聯邦學習算法,根據用戶的梯度信息來動態調整每個通信輪次中的梯度裁剪閾值,減少了因裁剪閾值設置不合理對模型精度的影響。SHEN等[20]提出了性能增強的差分私聯邦學習(Performance-Enhanced Differential Privacy-based Federated Learning,PEDPFL)算法,使用正則化提升模型的魯棒性。LIAN 等[21]提出了基于層的聯邦學習(Layer-Based Federated Learning,Layer-Based FL)算法,通過比較本地模型與全局模型的相關性,在本地選擇部分模型參數進行擾動后上傳給服務器,以此來減少通信中的負載。BAEK等[22]針對聯邦學習中的用戶掉線問題,提出了一種對用戶掉線且具有魯棒性的差分穩私機制,減少了因用戶意外掉線而造成的隱私預算過度消耗。

中心化差分隱私在應用中仍面臨隱私性與模型精度之間的權衡;另外,在實現中心化差分隱私時,要求服務器是可信的,噪聲由服務器添加,一旦服務器忽略了噪聲的添加,就會導致隱私泄露風險。針對以上問題,文中提出了自適應裁剪的差分隱私聯邦學習框架,首先將噪聲添加操作由服務器轉移至本地,各客戶端完成本地更新后,向更新的模型參數中添加自適應噪聲,然后將加噪后的模型參數上傳至服務器,執行全局模型參數更新,保障了參數傳輸期間的數據隱私安全。

2 預備知識

2.1 聯邦學習

(1)

其中,Fi(ω)表示客戶端i計算得到的損失函數。

2.2 差分隱私

差分隱私的核心思想是通過向統計結果中添加噪聲,使數據集中某一條記錄的改變不會顯著影響算法的結果,從而保護數據的隱私。其定義如下:

定義1((ε,δ)差分隱私[24]) 令M:D→R為隨機算法,d∈D,d′∈D為最多相差一條記錄的相鄰數據集,若算法M在d和d′上任意輸出結果O∈R都滿足式(2),則稱算法M實現(ε,δ)差分隱私。

Pr[M(d)=O]≤eε×Pr[M(d′)=O]+δ,

(2)

其中,參數ε表示隱私保護預算,反映了算法的隱私保護程度,且ε越小,隱私保護程度越高。δ是松弛項,表示違背純ε差分隱私的概率。

定義2(全局靈敏度[24]) 對于任意查詢函數f:D→Rd,其敏感度為

(3)

其中,d和d′為最多相差1條記錄的相鄰數據集。敏感度可衡量改變數據集中任意一條記錄對于f的輸出造成的最大影響,它決定了為實現差分隱私,需要向f的輸出結果中添加的噪聲量。

實現差分隱私的一種典型機制為高斯機制,通過向輸出結果中添加服從高斯分布的噪聲Y~N(0,(Δf)2σ2)來實現,σ為噪聲乘子,且σ≥(2ln(1.25/δ)1/2/ε。

差分隱私作為一種魯棒模型,具有如下性質:

性質1(后處理免疫性[24]) 對于同一數據集D,若算法M滿足(ε,δ)差分隱私,則對于任意隨機算法A(不一定滿足差分隱私),新的算法M′=A(M(D))仍滿足(ε,δ)差分隱私。

性質2(序列組合性[25]) 假設算法M1(D),M2(D),…,Mk(D)均滿足(ε,δ)差分隱私,則對于同一數據集D,由這些算法構成的組合算法Φ(M1,M2,…,Mk)滿足(ε,δ)差分隱私保護。

3 自適應差分隱私聯邦學習框架

聯邦學習作為一種分布式機器學習模式,各參與者與服務器之間的頻繁通信使得聯邦學習面臨著巨大的計算和通信開銷。相比傳統的密碼學技術,差分隱私具有成本低、算法簡單、且能夠提供強大隱私保障的特點,將差分隱私應用于聯邦學習時并不會增加過多的計算和通信開銷,但在實現時引入的噪聲不可避免地會對模型性能產生影響。如何在隱私性與模型性能之間取得良好的權衡,成為差分隱私更好地部署于聯邦學習中的關鍵。文中從差分隱私部署的關鍵步驟(梯度裁剪)出發,提出一個自適應差分隱私聯邦學習框架(Adaptive Differential Privacy Federated Learning,ADP_FL),采用高斯機制實現差分隱私保護。在該框架中,客戶端與服務器的通信過程如圖1所示。

圖1 自適應差分隱私聯邦學習框架示意圖

3.1 自適應裁剪閾值

在差分隱私設置中,梯度裁剪至關重要,可有效防止因個別梯度過大對模型更新產生的影響。梯度裁剪閾值作為一個超參數,需要用戶仔細選擇。若梯度裁剪閾值設置過大,則會引入過多不必要的噪聲,從而影響模型性能;若梯度裁剪閾值設置過小,則會損失過多的梯度信息。梯度裁剪主要有兩種形式:①基于數值的裁剪,即梯度向量的各個值大于預設的閾值則被裁剪;②基于范數的裁剪,即梯度范數大于預設閾值則被裁剪。相比基于數值的裁剪,基于范數的裁剪實現了對梯度向量的縮放,能更多地保留梯度中的信息。目前廣泛使用的是基于范數的裁剪,這也是文中研究的內容。針對梯度裁剪閾值的設置問題,提出了一種自適應裁剪閾值選取(Adaptive Dlipping threshold selection,Ada_Clip)算法,具體為:計算每個迭代中梯度的L2范數,選取歷史梯度L2范數的p百分位數,作為當前迭代的裁剪閾值,即

Ct=[G0,G1,…,Gt]p,t≥0 ,

(4)

在自適應裁剪閾值選取算法中,較高的p值將導致較少的裁剪被應用到梯度上。若p=100,則在模型訓練期間梯度不會被裁剪;若p=0,則在每次迭代中梯度都會被裁剪到訓練過程中梯度的最小值。自適應裁剪閾值選取算法根據歷史梯度的變化趨勢,來預測當前迭代中梯度的變化,以便給出一個合理的限制,用戶只需要確定裁剪的百分比即可。百分數的引入也能夠更好地隱藏原始梯度信息。

每個訓練批次中的每個數據的梯度都將被裁剪,取該批次中所有梯度裁剪后的值再求平均,作為該次迭代中的梯度,即

(5)

算法1自適應差分隱私聯邦學習框架。

輸出:模型參數ωT

① fort=0,1,…,T-1 do

② for 每一客戶端k∈Stdo

④ fore=1,2,…,Edo

3.2 框架詳細設計

為防止聯邦學習中客戶端數據隱私的泄露,結合自適應裁剪閾值選取策略,提出了一種自適應差分隱私聯邦學習框架(ADP-FL),如算法1所示。該框架包含4個主要步驟。

步驟1 本地訓練。為減少與服務器的通信次數,參與模型訓練的各客戶端在可本地執行多次梯度下降,并對每次迭代中計算的梯度進行裁剪,梯度裁剪閾值由自適應裁剪閾值選取算法來確定。各客戶端可以自主選取梯度裁剪的百分比,文中各客戶端的裁剪百分比是相同的。梯度裁剪操作旨在限制梯度的范圍,方便后續添加噪聲。

步驟2 參數上傳。為防止客戶端數據隱私泄露,各客戶端將自己在本地訓練得到的模型參數上傳至服務器之前,需要向本地更新的模型參數中添加自適應的高斯噪聲,即

(6)

步驟3 參數聚合。每一輪選擇K個客戶端,而非所有客戶端參與模型聚合,通信中聚合的全局模型參數為

(7)

步驟4 參數廣播。服務器不重復地隨機選擇一個客戶端子集,將更新后的模型參數廣播至各客戶端。服務器無需訪問本地數據信息。每個客戶端下載服務器提供的全局模型,來更新自己的模型。另外,每一個客戶端與服務器進行通信,都需要消耗一定的通信成本。在參數廣播時,服務器選擇部分客戶端,而非全部客戶端進行參數廣播,在一定程度上可減少通信成本。

(8)

(9)

根據引理1,每個參與模型聚合的客戶端需要添加在上傳參數中的噪聲標準差為2ηtECtσt/B。

3.3 隱私性分析

定理1記總通信輪次為T,對于任意客戶端i的本地數據集Di,算法1滿足(Tε,Tδ)差分隱私。

4 實驗結果與分析

4.1 實驗設置

實驗采用兩種公開數據集。

(1) Fashion-MNIST:包含70 000張10類服飾的灰度圖片,每張圖片大小為28×28像素,訓練集包含60 000張圖片,測試集包含10 000張圖片。

(2) CIFAR10:包含10種類型的彩色圖片,標簽為飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船、卡車,每張圖片大小為32×32像素,訓練集包含50 000張圖片,測試集包含10 000張圖片。

對于Fashion-MNIST數據集,網絡結構由1個包含256個神經元的全連接層組成。對于CIFAR10數據集,采用兩種網絡結構,模型1是包含兩個卷積層和兩個全連接層的網絡,兩個卷積層使用的卷積核大小都是5×5,輸出通道數分別為64和128,全連接層包含的神經元分別為384個和192個;模型2采用VGG16網絡。3個網絡均采用SoftMax函數實現網絡輸出,并使用交叉熵計算損失函數。文中實驗中的客戶端數量均設置為50個,實驗使用PyTorch框架在 NVIDIA GeForce RTX 2080 Ti服務器上運行,結果均取5次測試的平均值,結果的方差標注在表1和表2中。

表1 在數據集Fashion-MNIST和CIFAR10上的結果(模型精度) %

表2 在數據集CIFAR10上使用VGG16在不同隱私預算下的結果(模型精度) %

4.2 性能評估

4.2.1 算法有效性評估

為驗證所提算法的有效性,設計實驗將自適應差分隱私聯邦學習算法與客戶端級的差分隱私聯邦學習(Client-level Differential Privacy Federated Learning,CDP_FL)算法[15]、使用固定噪聲的差分隱私聯邦學習(Differential Privacy Federated Learning,DP-FL)算法[16]和未經差分隱私保護的聯邦學習(Non-Differential Privacy federated learning,No_DP)算法[1]進行比較,結果如表1所示,模型精度一律采用百分數表示。實驗結果表明,所提出的自適應差分隱私聯邦學習框架能夠在保證數據隱私的前提下,提升模型精度。另外,在不同隱私水平下的實驗結果表明,隱私預算越高,所提方法對于模型精度的提升越明顯。文中還進一步嘗試使用更復雜的網絡來驗證提出方法的有效性,結果如表2所示。在隱私預算ε=6.0時,模型精度與非隱私情況相比,相差2.06%;相同隱私預算下,更復雜的網絡對于模型提升是有益的。值得注意的是,本實驗中的隱私預算均指模型在訓練期間消耗的總體隱私預算。

圖2展示了Fashion-MNIST在隱私預算ε=0.5時模型精度隨通信輪次的變化,圖3展示了CIFAR10使用模型1在隱私預算ε=4.0時模型精度隨通信輪次的變化。從兩個數據集上的實驗結果表明,未經差分隱私保護的聯邦學習算法在不同的學習任務上始終保持最高的模型精度,且訓練過程也更加穩定,這說明噪聲的引入會導致模型收斂過程中的波動,也會對模型精度產生一定程度的影響。另外,改變添加噪聲的規模對于模型精度和收斂性能的提升都是有益的。相比中心化差分隱私保護算法,文中提出的自適應差分隱私聯邦學習算法從自適應裁剪閾值選取維度來間接影響添加的噪聲規模,在提升模型精度的同時,也使訓練更加穩定。

圖2 在Fashion-MNIST上不同算法的訓練精度隨通信輪次的變化

圖3 在CIFAR10上(模型1)不同算法的訓練精度隨通信輪次的變化

此外,將ADP_FL與Layer-Based FL[24]做了比較,在兩個數據集上均進行50輪通信,實驗結果如表3所示。在該實驗中,用客戶端與服務器之間的通信輪次來衡量通信成本。兩種方法在相同通信成本下,實現了相似的模型精度,說明ADP_FL能夠提供更強的隱私保障。

表3 算法有效性比較(模型精度) %

4.2.2 本地迭代次數的影響

對于Fashion-MNIST和CIFAR10這兩個數據集,選取本地迭代次數都為E={2,3,5,7},隱私預算分別為ε=0.5和ε=4.0。圖4~6給出了在無隱私(No_DP)和使用所提方法(ADP_FL)的情況下,本地迭代次數對模型精度的影響。對于無隱私的情況,本地運行更多迭代能夠使全局模型收斂更快,有益于模型精度的提升;但對于添加噪聲的情況,更多迭代將導致模型精度的降低。原因是本地迭代次數與敏感度有關,更多的本地迭代次數將導致敏感度成倍的增加,進而增大添加的噪聲規模,從而導致模型精度逐漸降低。另外,由圖4~6也可以看出,對于給定的隱私水平,存在一個較優的本地迭代次數,能夠在保證隱私的同時,維持模型較高的精度。

圖4 在Fashion-MNIST上本地迭代次數對模型精度的影響

圖5 在CIFAR10上(模型1)本地迭代次數對模型精度的影響

圖6 在CIFAR10上(模型2)本地迭代次數對模型精度的影響

4.2.3 裁剪百分比大小的影響

對于Fashion-MNIST和CIFAR10這兩個數據集,選取本地迭代次數都為E=5,隱私預算分別為ε=0.5和ε=4.0。由圖7~9可以看出,裁剪百分比與模型精度成反比,即裁剪百分比越大,模型精度反而越低。這主要是因為裁剪閾值與敏感度有關,盡管較大的裁剪閾值能夠更多地保留梯度當中的信息,但同時也會引入過多的噪聲,導致模型精度降低。

圖7 在Fashion-MNIST上裁剪百分比對模型精度的影響

圖8 在CIFAR10上(模型1)裁剪百分比對模型精度的影響

圖9 在CIFAR10上(模型2)裁剪百分比對模型精度的影響

5 結束語

筆者重點關注差分隱私在聯邦學習中的部署,設計了一種基于自適應差分隱私的聯邦學習框架。在本地模型訓練期間,客戶端可在本地執行多次迭代,通過自適應裁剪閾值選取策略在每個迭代中對梯度裁剪閾值進行校準,僅在參數上傳時在本地完成自適應噪聲的添加。通過在Fashion-MNIST和CIFAR10兩個數據集上的實驗結果表明,該算法在為數據的隱私和安全提供強大隱私保證的同時,提升了模型性能,也使模型的訓練過程更加穩定。另外,從理論上分析了本地執行梯度下降的次數和本地訓練批次大小對模型性能的影響,并通過實驗加以驗證。

文中的隱私預算采用平均分配的策略,這樣會造成不必要的隱私預算浪費,下一步將結合更加精準的隱私損失度量方法,對迭代過程中消耗的隱私預算實現更加精準的追蹤。另外,由于數據采樣方法的差異,聯邦學習中參與訓練的各客戶端數據存在異構性問題。下一步將研究各客戶端數據異構的場景下,差分隱私如何更好地部署在聯邦學習中。

猜你喜歡
聯邦差分梯度
一個改進的WYL型三項共軛梯度法
數列與差分
一“炮”而紅 音聯邦SVSound 2000 Pro品鑒會完滿舉行
一種自適應Dai-Liao共軛梯度法
303A深圳市音聯邦電氣有限公司
一類扭積形式的梯度近Ricci孤立子
基于差分隱私的大數據隱私保護
相對差分單項測距△DOR
差分放大器在生理學中的應用
地溫梯度判定地熱異常的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合