?

聯邦學習中的隱私保護技術研究

2024-03-12 09:18劉曉遷錢漢偉
信息安全研究 2024年3期
關鍵詞:參與方同態攻擊者

劉曉遷 許 飛 馬 卓 袁 明,2 錢漢偉,3

1(江蘇警官學院計算機信息與網絡安全系 南京 210031)

2(南京郵電大學計算機學院 南京 210023)

3(南京大學軟件學院 南京 210023)

聯邦學習的概念最早由谷歌提出,用于解決安卓設備的本地模型更新問題.在聯邦學習中,多個數據持有方將數據保留在本地,僅在協同訓練過程中交換訓練參數[1].McMahan等人[2]的研究證明,分布式訓練的聯邦學習模型能夠取得與集中式學習相近或更好的結果.聯邦學習基于分散計算范式收集與融合海量數據進行模型訓練,避免直接將數據暴露給不確定的第三方,對用戶數據隱私起到很大的保護作用.然而,聯邦學習模型本身存在一定的脆弱性,同時惡意攻擊者普遍存在,因此,聯邦學習中存在大量的隱私泄露風險[3].

近年來,聯邦學習中的隱私保護技術研究取得了一定的成果.目前,隱私保護研究主要以經典的加密或擾動技術為基礎,例如以差分隱私(differential privacy)為代表的數據擾動法[4]、以同態加密(homomorphic encryption)和安全多方計算(secure multi-party computation)為代表的數據加密法等[5-6].隱私保護的應用場景從最初的關系型數據發布逐漸發展到較為復雜的社交網絡、電子商務等領域[7-9].

Mothukuri等人[10]提供了聯邦學習安全攻擊和隱私攻擊方面的全面研究,并針對2類攻擊總結了對應的保護措施.但文中提到的隱私威脅較少,更專注于安全攻擊的研究,與本文側重點不同.周俊等人[11]從聯邦學習模型訓練的主體出發,將最新的保護技術按參與方和服務器的關系進行劃分.與之相比,目前的研究更多地是基于隱私保護手段的不同,將聯邦學習的隱私保護技術進行劃分[12-13].在湯凌韜等人[14-15]的研究中,依據作用階段、防護策略和技術手段的不同,將聯邦學習中的隱私保護技術分為6大類,主要包括安全聚合機制、安全多方機制、同態加密機制、可信硬件機制、安全預測機制、模型泛化機制.

本文從聯邦學習的安全現狀及現有隱私保護技術研究成果入手,通過對聯邦學習中的隱私泄露原因進行分析,揭示了易受攻擊的關鍵環節以及潛在的隱私泄露風險.同時,對國內外聯邦學習隱私保護研究的現狀進行總結,從攻擊與防御的角度歸納了聯邦學習所面臨的各種攻擊方式及對應防御方法.本文還探索了未來可能的發展方向,為研究者提供了有益的參考,以有效保護用戶的隱私安全.

1 聯邦學習中的隱私保護研究現狀

在聯邦學習中,共有n個參與方{F1,F2,…,Fn},每個參與方Fi都持有各自的本地數據集{D1,D2,…,Dn},各數據持有方不共享本地數據Di而僅共享運算參數,通過多方協作最終獲得一個全局聯邦學習模型[16].作為對比,傳統集中式機器學習模型則是將各用戶端的數據收集起來形成一個大數據集進行訓練.令MFED表示聯邦學習模型的精度、MSUM為集中式機器學習模型的精度.稱聯邦學習模型具有δ的精度損失,如果存在非負實數δ,使得以下不等式成立:

|MFED-MSUM|<δ.

通常,聯邦學習獲得的全局模型表現沒有聚合模型好,是因為在訓練過程中不可避免地存在精度損失.但聯邦學習在隱私性和運算效率等方面要好于傳統集中式機器學習.

1.1 聯邦學習中隱私泄露原因分析

雖然聯邦學習中數據保留在本地,具有更好的隱私性,但是由于模型自身的脆弱性和攻擊的頻繁出現,聯邦學習依然面臨著隱私泄露的風險.了解隱私泄露的原因有助于研究者針對性展開隱私保護并找到未來發展方向.聯邦學習隱私泄露的原因主要包括以下幾個方面:1)數據共享不當.聯邦學習中參與共享的一方數據安全措施不到位可能導致整個聯邦學習系統的數據泄露.2)不可靠參與方.半誠實或惡意客戶端極易造成隱私泄露.3)人為因素.人為失誤也有可能導致數據泄露給惡意參與方.4)未知的安全漏洞.聯邦學習系統中可能存在未知的安全漏洞.5)聯邦學習中的通信信道不安全,容易被黑客攻擊而導致數據泄露.6)模型攻擊.即使聯邦學習的過程中參數沒有泄露,攻擊者也可以通過攻擊發布的模型獲取敏感數據.

1.2 聯邦學習中的隱私攻擊分類

本文將現有的隱私攻擊依照攻擊角度分為外部攻擊和內部攻擊2大類.外部攻擊是由外部發起的,例如惡意黑客竊聽服務器與客戶端之間的通信信道;內部攻擊則是由內部人員發起的攻擊,可能出現在服務器或任意客戶端[17].

1.2.1 外部攻擊

外部攻擊包含模型反演攻擊、外部重建攻擊和外部推斷攻擊3類:

模型反演攻擊是指惡意第三方通過訪問發布的模型API接口,借助一系列查詢操作分析模型的預測輸出,借此推測模型的訓練數據或者測試數據的信息[18].在對給定模型的白盒訪問中,Fredrikson等人[19]指出,對決策樹的模型反演攻擊可以識別出敏感變量,而且沒有假陽性.

外部重建攻擊是指攻擊者依據模型輸出或者參數重建整個訓練樣本.攻擊者通過持續改變輸入使目標向預定輸出靠攏.Fredrikson等人[20]設計了黑盒模式下的外部攻擊實驗,該算法利用發布的模型和一些用戶的非敏感信息恢復出敏感基因信息.此外,Fredrikson等人[19]又設計了白盒模式下的外部攻擊實驗,攻擊者基于發布的模型參數進行深度學習模型訓練,并成功恢復了訓練集中的全部特征.

外部推斷攻擊中,攻擊者通過觀測模型的輸出結果預測某條記錄是否在這個數據集里,例如某用戶在艾滋病治療記錄中,就可能暴露該用戶的患病隱私.Shokri等人[21]在黑盒訪問的基礎上設計了外部成員推斷攻擊.該實驗中,算法基于影子模型的預測結果,設計近似樣本是否屬于訓練集的攻擊分類器進行訓練.

1.2.2 內部攻擊

內部攻擊主要包含投毒攻擊、內部重建攻擊和內部推斷攻擊3類.

投毒攻擊主要包含數據投毒和模型投毒等手段[22-23],如圖1所示.在聯邦學習中,惡意客戶端在模型訓練階段很可能將被篡改的數據或權重發送給服務器,從而影響全局模型的準確性.Jiang等人[24]設計了一種攻擊方式,通過注入錯誤樣本誘使學習模型的輸出值近似于期待的結果,破壞模型的可用性.模型投毒是指攻擊者通過傳輸惡意的本地模型參數直接對全局模型產生影響.Bagdasaryan等人[25]的實驗表明模型投毒比數據投毒更具有破壞力,只要有一個惡意參與方發送錯誤參數就可以破壞全局模型.

圖1 數據投毒和模型投毒

內部重建攻擊的主要目的是恢復中間計算結果背后特定訓練樣本中的敏感信息,分為類別重建和樣本重建2種形式.在類別重建中,攻擊者的目標是通過重建某種類別的通用樣本模式,誘導模型暴露出以往未知的敏感信息.Hitaj等人[26]在客戶端-服務器架構下,基于生成對抗網絡(generative adversarial networks, GAN)設計了一種主動重建攻擊.惡意參與方傳輸錯誤模型參數給中央服務器,誘使其他誠實參與方暴露本地信息.Wang等人[27]提出了一種mGAN-AI攻擊框架,導致聯邦學習的用戶級隱私泄露.

作為對比,樣本重建比類別重建更加精確,可以重建出某個類別中的多個樣本,獲取的敏感信息更多.對此,Zhu等人[28]提出了一種竊取梯度并重構訓練數據的深度泄露算法(deep leakage from gradients, DLG),攻擊者隨機生成1對數據和標簽參與模型運算,通過對輸入值和標簽的有限迭代優化,使得最終獲得的梯度與真實梯度值之間的差距最小化.Zhao等人[29]對DLG算法進行改進,提出了iDLG(improved DLG)算法,基于交叉熵損失計算輸出標簽概率與前一層梯度數值之間的關系,進而判別標簽的真實值.

根據攻擊的對象不同,內部推斷攻擊可分為屬性推斷攻擊和成員推斷攻擊.屬性推斷攻擊是指敵手通過分析聯邦學習模型訓練過程中的周期性更新,推斷目標終端的訓練集中是否存在某敏感屬性.在Melis等人[30]的工作中,假設敵手是中央服務器,攻擊者借助輔助集和全局參數計算生成包含目標屬性和不包含目標屬性的梯度更新向量,借此訓練屬性分類器.Zhang等人[31]設計了黑盒狀態下的推斷攻擊,攻擊者在不參與訓練的情況下,通過已訓練好的模型也可以推斷出目標樣本中的敏感屬性,進而造成隱私泄露.

成員推斷攻擊是一種推斷訓練數據集細節的攻擊,通過檢查某數據是否存在于訓練集上來竊取信息.Nasr等人[32]設計了白盒模式下的成員推斷攻擊,其中半誠實參與方主要觀察成員與非成員在模型上的梯度差異.而惡意參與方則能夠依據梯度變化推斷出該數據是否為成員數據.

2 聯邦學習中的隱私保護技術

隱私保護技術是防止敏感信息泄露的核心技術,能為隱私數據提供嚴格的量化保護.隨著研究的不斷深入,隱私保護手段也逐漸多樣化,為了更好地和前文的攻擊策略進行對應,本文將隱私保護手段分為2類,即數據擾動和過程加密.

其中,數據擾動保護的是隱私數據本身,在一定程度上能夠防御內部攻擊者對數據的竊取和推斷;而過程加密則是對數據傳輸的通信信道進行保護,使得外部攻擊者不易識別敏感信息.

2.1 數據擾動

差分隱私是當前通過數據擾動實現隱私保護的有效手段[33].用戶原本易識別的屬性記錄經過擾動會喪失獨特性,從而隱藏在大量的記錄中不被發現.根據差分隱私在聯邦學習框架中的使用位置,差分隱私可以劃分為中心化差分隱私、本地化差分隱私和分布式差分隱私.

2.1.1 中心化差分隱私

中心化差分隱私借助可信第三方,通過集中式數據存儲與擾動實現隱私保護[34],其架構如圖2所示:

圖2 中心化差分隱私

在聯邦學習的客戶端-服務器架構中,通過添加拉普拉斯噪聲、高斯噪聲或指數機制等方式隱藏數據節點.中心化差分隱私方案能夠實現用戶級隱私,也就是說不會泄露參與聯邦學習模型訓練的用戶.然而,這種機制要求必須存在可信的中央服務器,較為理想化.

2.1.2 本地化差分隱私

當不存在可信第三方或中央服務器時,隱私保護的訓練過程完全在客戶端本地實現,即本地化差分隱私,其架構如圖3所示[34-35].本地化差分隱私沒有中心服務器的參與,用戶掌控自身數據的使用與發布,利于實現去中心化聯邦學習.

圖3 本地化差分隱私

但本地化差分隱私保護中需求的樣本量極其龐大,為了提高訓練準確度,往往需要收集海量樣本數據才能實現.此外,維災難導致本地化差分隱私很難平衡模型可用性、高效性與隱私性.

2.1.3 分布式差分隱私

分布式差分隱私設置若干個可信中間節點,并預先對部分用戶數據進行聚合和擾動,傳輸給服務器的是加密處理的脫敏數據.王雷霞等人[36]提出一種安全混洗框架,該框架將加密運算盡量剝離開客戶端,保證較少的本地資源消耗,轉而設計客戶端與服務器端之間的匿名化混洗步驟,保證基于少量噪聲即實現較高級別的隱私保護.

分布式差分隱私解決方案兼具了本地化與中心化差分隱私的優勢,既不需要可信服務器,也無需在本地添加過多噪聲.但分布式差分隱私本身也有缺陷,即通信開銷高且需要可信節點.

以上3種方法優缺點對比如表1所示:

表1 差分隱私類別比較

隱私保護技術單獨使用得很少,現在更多的是混合式方法.Truex等人[37]利用差分隱私和安全多方計算訓練出可以抵御推理攻擊的學習模型,在2種隱私保護技術優勢的疊加下聯邦學習的隱私威脅大大降低.

2.2 過程加密

過程加密主要針對外部攻擊對通信信道進行保護.較為常用的過程加密技術包括同態加密、秘密共享和可信執行環境.

2.2.1 同態加密

同態加密是指針對加密后的密文數據進行運算,該計算結果和原始數據經過特定計算后得到的結果一致[38].同態加密過程如圖4所示:

圖4 同態加密機制

同態加密不同于一般加密方案,一般的加密方案注重數據存儲安全,密文結果需要妥善保管,以免導致解密失敗.而同態加密的側重點在于數據處理安全,它確保原始數據機密信息不被泄露,同時又能保證密文運算結果的有效性.

2.2.2 秘密共享

秘密共享是一種秘密分割存儲技術,是安全多方計算中的重要機制,其目的是抵御多方合謀與入侵.秘密共享的核心思想是通過特定預算,將秘密拆分,并將其分發給各參與方.常見的秘密分享方案有Shamir方案和Blakley方案等[39-40],最常使用的是門限秘密共享.

將秘密S分成n個子秘密并分配給n個參與方,只有集齊k個及以上子秘密才能還原出原始秘密S.Bonawitz等人[41]基于門限秘密共享設計了一種安全聚合方案,該方案在誠實且好奇的服務器背景下保證各參與方的數據安全.同時,計算量和通信開銷也不高,特別適合聯邦學習中的協同訓練,但是該方案無法抵御共謀攻擊.

對比以上2種手段,同態加密運算成本高,秘密共享在一定程度上可以彌補上述不足,但秘密共享需要進行多次通信,加劇了聯邦學習的通信負擔.

2.2.3 可信執行環境

可信執行環境(trusted execution environment, TEE)是一種提供可信執行環境的安全技術,該環境具備完整性、保密性和可驗證性[42],具有計算和存儲功能.TEE的使用場景有很多,其中最常見的是數字版權管理、金融支付、移動支付等方面.在聯邦學習中,TEE技術被廣泛應用于保護用戶數據隱私,但是TEE對底層硬件設施的依賴性較高,更新升級時都需要同步到軟硬件,不同廠商的TEE技術各異,行業標準也不一致,很難統一管理.

表2中,本文對比了以上列舉的幾種隱私保護手段.差分隱私計算復雜度低,通過擾動去除記錄識別性,因此可以針對性地防御成員推斷攻擊.安全多方計算除了數據傳輸,還有大量的計算和操作需要在參與方之間協同完成,因此有更多額外通信開銷.同態加密是一個較好的不共享原始數據也能進行數據分析的解決方案,但是由于同態加密需要額外計算,且存儲開銷大,使得目前階段同態加密廣泛采用的可行性并不高.

表2 隱私保護技術對比

從實際應用角度來說,各種隱私保護手段都有其局限性,需要在各個維度之間進行平衡.差分隱私需要在隱私保護和數據可用性之間進行平衡;同態加密需要在加密和解密操作的效率和安全性之間進行平衡;安全多方計算需要在參與方之間的信任關系和安全性之間進行平衡;可信執行環境需要在執行效率和安全性之間進行平衡.

3 結論與展望

本文回顧了近年來研究者對聯邦學習隱私保護的研究成果,探究聯邦學習中隱私泄露的原因以及常見的攻擊表現形式.針對攻擊特點進行分類,并針對性地提出隱私保護機制,歸納各類隱私保護技術的優缺點,為隱私保護研究提供脈絡梳理.同時,歸納了以下聯邦學習隱私保護具有前景的研究方向:

1) 平衡隱私保護和成本代價.每一種隱私保護技術都有自己的額外成本和影響,算法需要在隱私性、準確性以及運算效率之間相互權衡.探尋兼具隱私性、準確性和高效性的聯邦學習算法是未來發展中的一個重要目標.構建量化體系,依據隱私攻擊的程度量化隱私保護的程度,防止出現防御不足或過度的情況,保證隱私性和可用性相統一[43],同時考慮聯邦學習模型的公平性[44].

2) 聯邦學習的隱私保護標準化.當前聯邦學習隱私保護中亟需建立隱私泄露和隱私保護程度的度量標準:一方面,整體的安全性取決于最薄弱的一個環節,聯邦學習數據隱私泄露常常來自參與訓練的惡意攻擊者;另一方面,聯邦學習隱私保護評估標準的缺失導致研究人員難以準確評估隱私保護設計方案的實際效果,用戶也無法了解自身在系統中所受到的保護程度.因此,亟需在工業界和學術界從整體和系統角度進行隱私保護衡量標準的規范與定義.

3) 結合區塊鏈等新技術對聯邦學習分布式架構進行演化.例如,Warnat-Herresthal等人[45]結合邊緣計算和群體學習(swarm learning)方法,實現了隱私保護下不同醫療機構之間數據的整合.該架構能夠保證網絡中成員的安全、透明和公平加入,不再需要中心服務器.顯然,去中心化架構和高級別安全保障進一步保證了數據的隱私安全.

猜你喜歡
參與方同態攻擊者
基于秘密分享的高效隱私保護四方機器學習方案
基于微分博弈的追逃問題最優策略設計
關于半模同態的分解*
拉回和推出的若干注記
正面迎接批判
一種基于LWE的同態加密方案
綠色農房建設伙伴關系模式初探
HES:一種更小公鑰的同態加密算法
涉及多參與方的系統及方法權利要求的撰寫
基于IPD模式的項目參與方利益分配研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合