?

面向抽水蓄能電站智能巡檢系統的聯邦學習隱私保護方法

2023-12-29 12:21黃建德羅遠林吳鵬浩
關鍵詞:聯邦差分梯度

黃建德,何 秋,宗 悅,王 斌,羅遠林,吳鵬浩,于 堯,郭 磊

(1.華東桐柏抽水蓄能發電有限責任公司,浙江 臺州 317200;2.中國電建集團華東勘測設計研究院有限公司,杭州 311122;3.東北大學 計算機科學與工程學院,沈陽 110819;4.重慶郵電大學 通信與信息工程學院,重慶 400065)

0 引 言

隨著物聯網通信技術的快速發展,智能異構傳感器被廣泛部署于抽水蓄能電站巡檢系統中,以輔助人工對發電機組設備進行多方位、全天候的巡視監控與數據采集[1]。在對巡檢數據進行處理的過程中,由于人工介入通常伴有不確定性,基于人眼和經驗識別異常情況的準確率有限,很難發現數據細微變化,面對海量行為數據不能及時地進行分析并對設備異常做出快速響應與調整,可能導致延誤設備維護最佳時機,對電站運營安全造成嚴重威脅。

利用機器學習處理和分析抽水蓄能電站中的海量巡檢數據是一種極具前景的思路。在機器學習范疇內,聯邦學習作為一種多設備與中央服務器協同組成的分布式學習技術,更適合抽水蓄能電站智能巡檢系統的實際部署[2]。然而,在面向抽水蓄能電站智能巡檢系統的聯邦學習架構中,針對設備本地模型參數的攻擊仍會造成設備個體與群體隱私泄露,嚴重威脅電站運行安全。一方面,惡意服務器可以將指定的巡檢設備與其上傳的模型參數進行匹配,發起成員推理攻擊,推斷出各巡檢設備身份、分工與工作狀態等隱私信息;另一方面,外部攻擊者可以通過竊聽各巡檢設備上傳的模型參數,發起重構攻擊,推理出設備本地訓練數據,進而獲知設備部署位置及其所監測的環境、電機機組運行狀態等信息,通過發起有針對性的網絡或物理攻擊破壞電站安全[3-5]。針對以上問題,本文提出了一種面向抽水蓄能電站智能巡檢系統的聯邦學習隱私保護方法,在服務器端和傳輸過程中增強對設備本地模型參數的隱私保護。本文主要貢獻總結如下。

1)針對惡意服務器匹配巡檢設備及其上傳參數所造成的隱私泄露問題,本文提出了一種基于隨機響應的巡檢設備選擇機制,各巡檢設備通過隨機響應參與聯邦學習訓練,使服務器無法掌握具體某個設備參與訓練的情況,避免服務器推理獲得與設備身份相關的隱私信息。

2)針對設備本地模型參數在上傳過程中的隱私安全問題,本文提出了一種自適應差分隱私方法,在給上傳參數提供差分隱私保護的同時,根據參數梯度各元素特征為其自適應添加噪聲,以提高差分隱私保護下的聯邦學習模型準確率,并減少參數上傳過程中的通信開銷。

3)安全性分析與仿真結果表明,本文所提出的方法可以在服務器端和傳輸過程中增強對巡檢設備本地模型參數隱私保護的能力,有效抵御來自服務器端的成員推理攻擊和來自外部攻擊者的重構攻擊。與現有方法相比,本文方法可以有效提升差分隱私保護下的聯邦學習全局模型準確率,并且能夠減少訓練過程中參數上傳產生的通信開銷。

1 相關工作

目前,國內外針對聯邦學習隱私保護方法的研究已經取得了一定的進展,尤其是在利用差分技術賦能聯邦學習隱私保護方面。

為防止攻擊者通過分析客戶端上傳參數泄露隱私信息,文獻[6]提出了一種基于差分隱私概念的聯邦學習新框架,通過聚合前在客戶端側給本地模型參數加入人工噪聲的方式,為本地模型參數在上傳過程中提供差分隱私保護。文獻[7]指出,在對聯邦學習的差分攻擊中,攻擊者可以通過分析分布式模型來揭示客戶端在訓練期間的貢獻以及與其數據集相關的信息。文獻[8]提出將聯邦學習和本地差分隱私相結合,以增強車聯網眾包應用中機器學習模型的隱私保護能力并降低通信成本。文獻[9]研究了在本地差分隱私約束下,針對高斯多址信道為模型的無線信道上的聯邦學習問題,提出了一種隱私無線梯度聚合方案,并對無線資源、收斂和隱私之間的權衡進行了研究。文獻[10]考慮到參與者的異構性,提出了一種具有差分隱私的個性化聯邦學習算法,在為每個參與者提供高效的個性化機器學習模型的同時保證其本地數據的差分隱私安全,并探討了該方法在準確性和隱私間的權衡。

2 系統模型

為確保巡檢設備本地數據的隱私性,本文提出了一個基于隱私保護聯邦學習的智能巡檢系統架構,如圖1所示。整個智能巡檢系統由多個巡檢設備和一個聯邦學習中央服務器組成。為保護本地模型參數在上傳過程中的差分隱私安全,巡檢設備在上傳本地模型參數之前按照差分隱私保護要求為其添加噪聲,并將加噪后的本地模型參數上傳至聯邦學習中央服務器。服務器使用參數平均算法對收集到的參數進行聚合并更新全局模型參數,并返回給參與聯邦學習的巡檢設備,至此完成一輪聯邦學習訓練。經多輪訓練直至聯邦學習全局模型收斂后,對其進行測試,并在確認各指標符合電站實際應用需求后將其部署于智能巡檢系統中。

圖1 基于隱私保護聯邦學習的智能巡檢系統架構Fig.1 Intelligent inspection system architecture based on privacy-preserving federal learning

考慮到電站巡檢任務多樣化、巡檢設備密集部署以及算力有限的問題,在一次針對特定巡檢任務的聯邦學習過程中,只需要部分巡檢設備參與即可。因此,在執行上述聯邦學習過程之前,服務器需要選擇參與聯邦學習的巡檢設備。為避免惡意服務器發起成員推理攻擊獲取設備隱私,各巡檢設備先執行隨機響應策略,服務器選擇的設備與實際參與聯邦學習的設備存在差異,故服務器無法根據自己的選擇匹配其實際收集到的設備本地模型參數。

3 聯邦學習隱私保護方法

3.1 基于隨機響應的巡檢設備選擇機制

在大多數聯邦學習應用中,客戶端身份對服務器來說是默認已知的,因此,惡意服務器可以將指定客戶端的身份與其上傳的模型參數信息進行匹配,從而對指定客戶端發起成員推理攻擊或重構攻擊,泄露其個體隱私。為阻止惡意服務的匹配行為,本文提出了一種基于隨機響應的巡檢設備選擇機制。在聯邦學習進程開始前,各巡檢設備在本地執行隨機響應判斷自己是否被選中,而非由服務器直接指定,使服務器無法知曉實際參與聯邦學習的設備身份。具體過程如下。

第1步:初始化各巡檢設備設置狀態參數θ=0。注意,θ=1和θ=0分別表示該巡檢設備參與和不參與接下來的聯邦學習訓練,初始化時各巡檢設備的θ均為0。

第2步:服務器根據本次巡檢任務的執行要求和對聯邦學習參與設備數量的要求,選擇參與聯邦學習訓練的巡檢設備,并將選中的巡檢設備狀態參數θ設置為1,沒有選中的巡檢設備狀態參數θ仍保持為0。

第3步:所有滿足本次巡檢任務執行要求的巡檢設備進行隨機響應,即以概率p保持當前狀態參數不變,以概率1-p改變當前狀態參數。經過隨機響應后,狀態參數θ=1的巡檢設備被選中參與接下來的聯邦學習訓練過程。

第4步:如果隨機響應后巡檢設備數量不滿足聯邦學習訓練數量要求,則重新進行隨機響應。

3.2 自適應差分隱私技術

傳統差分隱私技術為訓練中的機器學習模型參數(即梯度向量)添加固定強度噪聲以為其提供差分隱私保護。噪聲的添加會影響模型準確率,而要提升模型準確率通常是以削弱差分隱私保護能力為代價的。

研究發現,梯度向量的不同維度之間取值存在差異,不同維度對添加的噪聲表現出不同的敏感性。如果將強度較高的噪聲添加到取值較小的梯度向量維度中,過量的噪聲會顯著影響梯度下降速度甚至是方向,造成模型參數精度損失,模型準確率下降;如果將強度較低的噪聲添加到取值較大的梯度向量維度中,則會降低整個梯度的差分隱私保護級別。本文提出一種自適應差分技術,即根據巡檢設備本地模型梯度向量中各維度的取值大小自適應地為各維度添加強度不同的噪聲,在不降低隱私保護級別的前提下避免過量噪聲所造成的模型參數精度損失,提高模型準確率。自適應差分隱私技術的執行過程如下。

第1步:計算梯度向量每個維度敏感度Si為

(1)

第2步:計算梯度向量每個維度所需添加的噪聲標準差σi為

(2)

(2)式中:σ*為噪聲標準差;m為梯度向量維數。

(3)

根據文獻[11]中的差分隱私定理可知,若某種技術滿足(4)式,則該技術一定是差分隱私技術。

Pr[lM,D,D′≥ε]-Pr[lM,D′,D≤-ε]≤δ

(4)

(4)式中:lM,D,D′表示隱私損失變量;D和D′表示只差一條數據的相鄰數據集;ε表示隱私預算。隱私預算可以用來衡量差分隱私技術,可以為巡檢設備本地模型參數提供隱私保護級別,一般來說,隱私預算值越小,隱私保護級別越高。ε滿足的條件為

(5)

(5)式中:C1和C2為常量;q為采樣概率;T為本地模型迭代次數;δ為差分隱私失敗的概率。

下面證明本文所提出的自適應差分隱私技術滿足差分隱私定理,即證明對梯度向量各維度分別添加噪聲后的隱私損失變量滿足(4)式。

證明隱私損失變量表示為

(6)

令S=(s1,s2,…,sm)=‖f(D)-f(D′)‖2,(r1,r2,…,rm)=y-f(D),其中m表示維度,可得

(7)

(8)

故有

(9)

(9)式中,lM,D,D′服從N(η,2η)高斯分布,且

(10)

故有

(11)

同理可得

Pr[lM,D′,D≤-ε]=Pr[N(η,2η)≤-ε]=

(12)

故有

Pr[lM,D,D′≥ε]-eε·Pr[lM,D′,D≤-ε]=

(13)

(13)式對η求導可得

(14)

綜上所述,可將基于隨機響應的巡檢設備選擇機制與自適應差分隱私技術整合到智能巡檢系統聯邦學習架構中。本文提出的面向抽水蓄能電站智能巡檢系統的聯邦學習隱私保護算法流程如算法1所示。

算法1面向抽水蓄能電站智能巡檢系統的聯邦學習隱私保護算法

1.服務器初始化全局模型參數WGlobal,并將其分發給所有巡檢設備;

2.巡檢設備隨機響應階段:

3.服務器指定參與聯邦學習的巡檢設備;

4.全部巡檢設備執行隨機響應機制,以概率1-p改變其狀態參數;

5.狀態參數θ=1的巡檢設備參與聯邦學習訓練,數量表示為N;

6.巡檢設備自適應噪聲添加階段:

7.for聯邦學習訓練輪t=1,2,…,Tdo

8.各巡檢設備本地執行:

9.for batchb∈Bdo

11.end for

12.為梯度向量各維度添加噪聲:

13.fori-th梯度向量維度 do

17.else

19.end if

22.end for

23.服務器參數聚合與分發階段:

服務器收集各參與設備上傳的梯度并將這些梯度進行聚合,其中Mn代表第n個設備數據集的大小,M代表所有設備數據集總和的大小;

28.end for

4 仿真與結果分析

4.1 參數設置

為使本文提出的聯邦學習隱私保護算法具有良好的穩定性和快速收斂能力,仿真中使用的參數設置如表1所示??紤]到國家電力系統相關數據安全規定,針對抽水蓄能電站巡檢數據的敏感性,根據生產單位建議,本文使用公開數據集MNIST來驗證算法的有效性。每個設備的本地模型采用多層感知機實現,輸入層、兩個隱藏層和輸出層的神經元數量分別為784、15、15和10,隱藏層激活函數為ReLU。本文采用最先進的FedAdam算法訓練模型。

表1 仿真參數設置Tab.1 Simulation parameter settings

在差分隱私算法設計中,利用上一時刻累計梯度平方值近似估計當前梯度值的方式存在一定誤差,故使用裁剪因素β來對當前誤差進行矯正。本文將傳統差分隱私技術中的梯度向量全局敏感度計算優化為梯度向量各維度局部敏感度計算,而在局部敏感度計算中,β的取值不同會影響聯邦學習全局模型準確度。為此,本文進行了多輪實驗測試不同β值下的模型準確率,實驗結果如圖2所示。

圖2 不同β取值對聯邦學習模型準確率的影響Fig.2 Federated learning model accuracy under different values of β

從圖2可以看出,當β=11時,聯邦學習模型準確率達到峰值93.48%。為保證模型具有較高的準確率,本文后續仿真實驗中β值取11。

為驗證提出模型的性能優勢,本文選擇傳統差分隱私技術作用下的聯邦學習(簡稱傳統差分隱私方法)和無隱私保護技術作用下的聯邦學習(簡稱無隱私保護方法)作為對比方案,其中,傳統差分隱私技術給巡檢設備本地模型參數梯度各維度添加相同強度的噪聲。

4.2 模型準確率對比分析

為驗證本文方法在聯邦學習模型準確率方面的性能優勢,本節對比了3種方法在不同隱私預算下的準確率,如圖3所示。從圖3可以看出,在不同隱私預算下,本文方法準確率高于傳統差分隱私方法,但與無隱私保護方法的準確率相比略有損失。這是因為在本文方法中,自適應差分隱私技術根據梯度向量各維度取值大小自適應地為各維度添加不同分布的噪聲,從而避免噪聲添加過量而導致的模型參數精度損失,提高了準確率。而傳統差分隱私技術忽略了巡檢設備本地模型梯度各維度之間的差異,為各維度添加同分布高強度噪聲,導致模型參數精度損失嚴重,模型準確率下降。此外,為確保模型參數隱私性,添加適量噪聲將模型準確率降幅控制在可以接受的范圍內是值得的。對于抽水蓄能電站巡檢系統來說,本文方法可以為巡檢設備本地數據提供差分隱私保護,同時提供更高準確率的數據分析全局模型。

圖3 不同隱私預算下3種方法聯邦學習模型 準確率對比Fig.3 Federated learning model accuracy of the tree methods under different privacy budgets

4.3 通信開銷對比分析

為驗證本文方法在聯邦學習通信開銷方面的性能優勢,本節將本文方法作用下與傳統差分隱私方法作用下的聯邦學習通信輪數進行了比較,結果如圖4所示。由于每個參與訓練的設備數據量、批次大小、迭代次數均相同,所以每個參與訓練的設備上傳的數據總量也相同,本文通信開銷只與通信輪次有關。在不同隱私預算下,本文方法作用下的聯邦學習通信輪數明顯小于使用傳統差分隱私方法作用下的通信輪數。以隱私預算ε=45、δ=10-5為例,本文方法相較于對比方法減少了通信輪數。原因在于,本文方法減少了梯度參數精度損失,提升了聯邦學習全局模型收斂速度,從而節省了服務器與巡檢設備間的通信開銷。

圖4 不同隱私預算下通信輪數對比Fig.4 Federated learning communication rounds under different privacy budgets

4.4 多用戶場景性能對比分析

考慮到聯邦學習是一種多用戶參與的分布式機器學習技術,因此,本節重點討論了聯邦學習參與設備數量對本文方法作用下模型性能的影響,并與傳統差分隱私方法作用下聯邦學習模型性能進行了對比分析。為滿足抽水蓄能電站智能巡檢系統整體對高水平隱私保護的需求,本節為兩種聯邦學習隱私保護方法設置了一個固定且取值較小的隱私預算。不同參與設備數量下模型性能對比如圖5所示。在隱私預算固定的情況下,隨著聯邦學習參與設備數量的增加,本文方法中的聯邦學習模型準確率有所下降,通信輪數有所上升,但仍優于傳統差分隱私方法。原因在于,當聯邦學習系統隱私預算固定不變時,隨著參與設備數量的增多,分配給每個參與設備的隱私預算減少,需要給各參與設備本地模型參數添加更多的噪聲以使系統整體保持高水平的隱私保護,導致聯邦學習模型參數精度損失加劇,收斂所需的通信輪數增加,通信開銷增加。盡管如此,本文自適應添加噪聲的方式仍可以減少不必要的噪聲添加,在與傳統差分隱私技術提供相同級別隱私保護水平的前提下,本文方法可以實現更高準確率、更低通信開銷。

圖5 不同參與設備數量下模型性能對比Fig.5 Federated learning model performances of the two methods under different numbers of participating devices

4.5 安全性分析

根據隨機響應與自適應差分隱私技術分析,本文方法具有以下安全特征。

1)惡意服務器無法成功實施對特定設備的成員推理攻擊以泄露其隱私。在基于隨機響應的巡檢設備選擇機制作用下,服務器無法獲知或推理出實際參與聯邦學習的設備身份,無法將設備身份與其上傳的本地模型參數進行匹配。惡意服務器不能通過指定聯邦學習參與設備并根據模型參數差異推理出與特定設備身份相關隱私信息,導致成員推理攻擊失敗。

2)惡意服務器或外部攻擊者無法成功實施對聯邦學習參與設備的重構攻擊導致泄露其隱私。在自適應差分隱私技術作用下,對于任一設備的本地數據庫,添加或刪除一條或幾條本地數據不可通過其本地模型參數直觀地反映出數據庫的差異。惡意服務器或者外部攻擊者不能根據已獲取的模型參數通過模型重構逆向推理出具體的設備本地數據,導致重構攻擊失敗。

5 結束語

本文受國網新源公司科技項目支持,提出了一種聯邦學習隱私保護方法以解決抽水蓄能電站智能巡檢系統聯邦學習過程中的隱私泄露問題。具體來說,基于隨機響應的巡檢設備選擇機制,各巡檢設備通過隨機響應參與聯邦學習訓練過程,使服務器無法通過匹配設備身份及其上傳模型參數推理出設備隱私信息,確保模型參數在服務器端的隱私安全;自適應差分隱私技術,在傳輸過程中為設備本地模型參數提供高級別的差分隱私保護。安全性分析和仿真結果表明,本文方法可以有效防止惡意設備和外部攻擊者通過發起成員推理攻擊與重構攻擊泄露設備隱私,與現有經典方法相比,本文方法在保證模型參數差分隱私安全的同時可以使聯邦學習模型具有更高的準確率和更低的通信開銷。

猜你喜歡
聯邦差分梯度
一個改進的WYL型三項共軛梯度法
數列與差分
一“炮”而紅 音聯邦SVSound 2000 Pro品鑒會完滿舉行
一種自適應Dai-Liao共軛梯度法
303A深圳市音聯邦電氣有限公司
一類扭積形式的梯度近Ricci孤立子
基于差分隱私的大數據隱私保護
相對差分單項測距△DOR
差分放大器在生理學中的應用
地溫梯度判定地熱異常的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合