?

聯邦學習中的隱私保護技術研究綜述

2023-02-24 05:01黃亞鑫范藝琳
計算機應用 2023年2期
關鍵詞:參與方同態聯邦

王 騰,霍 崢,黃亞鑫,范藝琳

(1.中國電科網絡通信研究院,石家莊 050081;2.河北經貿大學 信息技術學院,石家莊 050061)

0 引言

機器學習算法在自動識別、智能決策等方面具備顯著優勢,已逐漸成為人工智能和大數據處理的技術基礎。大部分機器學習算法需要龐大的訓練數據集來保證訓練模型的性能[1],在這背后是大量的個人數據被采集,包括姓名、身份證件號碼、聯系方式、住址、賬號密碼、財產狀況、行蹤軌跡、消費狀況等,甚至還有生理特征、就醫記錄等更敏感的信息。上述信息不但被采集、利用,甚至還可能被售賣給第三方獲取利益,使個人隱私遭到嚴重的泄露。隨著個人用戶、政府部門及數據采集方對個人數據隱私的關注,國家相繼出臺各種法律法規,嚴禁非法采集公民的個人數據:2017 年6 月起,我國實施了《中華人民共和國網絡安全法》[2],2021 年9 月1日正式實施了《中華人民共和國數據安全保護法》[3],2021 年11 月1 日實施了《中華人民共和國個人信息保護法》[4]。

即使能合法采集個人數據,但個人數據大多分散存儲在不同的機構中,由于政策壁壘與存儲資源的限制,很難實現數據的集中存放。近年來,聯邦學習(Federated Learning,FL)[5]的出現成為機器學習領域的新熱點。聯邦學習的概念最早是在2016 年由谷歌提出的[6],它是一種分布式的機器學習框架,分布在多個節點上的數據集協同訓練,最終可獲取全局數據集上的機器學習模型。聯邦學習具有天然的隱私保護特質,數據不需要集中存放,僅需在數據分散存儲的節點上訓練模型,服務器無法獲取原始數據,個人數據隱私得到有效的保護。在數據隱私與安全問題備受關注的今天,聯邦學習在避免數據泄露、避免中心點數據受到攻擊等方面具備顯著優勢。此外,傳統的機器學習模型不能直接處理異構數據,利用聯邦學習技術,無需處理異構數據即可建立全局數據上的機器學習模型,既保護了數據隱私,又解決了數據異構問題[7]。聯邦學習可應用在涉及個人敏感數據的機器學習任務中,如個人醫療數據、可穿戴設備數據、面部特征數據、個人資產數據等[8-10]。

目前,許多機器學習模型已擴展到聯邦學習架構中,比如線性回歸[11]、支持向量機[12]、神經網絡[13-14]、聚類[15]、決策樹[16-17]、深度學習[18-19]等。然而,研究發現,聯邦學習架構的隱私保護度不足以完全防御外部隱私攻擊[20],具體來說,在模型訓練和模型預測階段都可能泄露數據隱私。在模型訓練階段,通常需要構建經驗損失函數,采用隨機梯度下降(Stochastic Gradient Descent,SGD)方法找到損失函數的最小值,將最小值對應的參數作為模型參數上傳給服務器。不可信服務器/外部攻擊者可能利用參與方的模型參數逆推數據分布特征,甚至逆推出具體的訓練集數據,導致參與方的數據隱私泄露。在模型預測階段,攻擊者可反復調用模型進行預測,特別是對某些泛化能力不足的模型,在預測某些訓練集中出現過的數據時,模型的表現與訓練集中未出現過的數據有較大差距,攻擊者通過這一特征可判斷某些數據是否出現在訓練集之中,如果訓練集包含敏感信息,則個人隱私泄露。

隱私保護技術經過多年的發展,逐漸形成了幾類較為成熟的方法:以差分隱私為代表的數據擾動法[21]、以k-匿名為代表的數據泛化法[22]、以安全多方計算(Secure Multiparty Computation,SMC)為代表的數據加密法[23]等。隱私保護的應用場景從最初的關系型數據發布、基于位置的服務等簡單場景,逐漸發展到較為復雜的社交網絡、電子商務、圖像識別等領域。在上述隱私保護應用場景中,數據可用性與隱私保護度是一對矛盾,研究的關鍵問題在于如何在保護隱私的前提下提高數據可用性。而在機器學習/聯邦學習場景下,隱私保護度和模型精確度是一對矛盾,隱私保護度的提升意味著模型預測精確度的下降、模型的收斂速度變慢等問題。尤其是深度學習模型結構異常復雜,且不具備可解釋性,使得隱私保護與模型可用性之間的矛盾關系無法量化。針對聯邦學習中的隱私泄露問題,需要設計新的隱私保護方案。

目前,聯邦學習中的隱私保護技術已經成為聯邦學習領域的研究熱點,研究者們發表了不少相關研究內容的綜述,如表1 所示。

表1 聯邦學習中隱私保護技術的相關綜述Tab.1 Reviews related to privacy-preserving technologies in federated learning

文獻[20]中對機器學習中的隱私攻擊和隱私保護方法進行了調研和分析,側重機器學習中的隱私保護技術;文獻[24]中對分布式深度學習中的隱私與安全攻擊模型、防御措施進行了綜述;文獻[25-27]中對聯邦學習架構中的安全攻擊與防御措施進行了綜述,側重于安全攻擊與防御;文獻[28]中重點介紹了機器學習環境中安全攻擊的類型及防御方法;文獻[29]中綜述了聯邦學習的概念及隱私保護技術,提出了聯邦學習中隱私問題的“5W”;文獻[30]中綜述了物聯網領域中,利用聯邦學習訓練基于用戶隱私數據的機器學習模型的研究現狀,重點討論了其中的隱私保護策略、通信代價和數據異構問題。

1 預備知識

1.1 隱私與隱私保護

隱私是指個人或實體不愿被外界知曉的信息。早在19世紀發表在《哈佛法律評論》上的《論隱私權》[31]中就將隱私定義為“不受打擾的權利”。隨后,各國不斷修整完善涉及隱私權的法律法規,直到2018 年5 月歐盟實施了最嚴格的隱私保護法——《通用數據保護條例》[32],要求企業賦予用戶“被遺忘的權利”。同年,數據隱私被納入計算機專有名詞,指數據中直接或間接蘊含的,涉及個人或組織的,不宜公開的,需要在數據收集、數據存儲、數據查詢和分析、數據發布等過程中加以保護的信息。敏感信息是指不當使用或未經授權被人接觸或修改會不利于國家利益、聯邦政府計劃的實行、不利于個人依法享有的個人隱私權的所有信息。隱私保護技術通過對原始數據的變換達到保護個人敏感信息不泄露的目的,同時保證能在變換后的數據上獲取信息、模型或服務。

1.2 聯邦學習

聯邦學習是一種分布式機器學習架構,由中心服務器、參與方Pi(1 ≤i≤n)及用戶構成。其中,參與方各自持有本地數據集Di,無需進行數據共享,通過協作的方式訓練在全局數據集上的模型[33]。與傳統的分布式系統不同,聯邦學習的各參與方可以是“異質”的,即參與方軟硬件配置、持有的數據格式、數據分布、模型結構等都可不同,依據不同角度可對聯邦學習進行如下分類:

1)根據參與方數量的多寡與算力的強弱,聯邦學習可分為cross-device 和cross-silo 兩類[34]:cross-silo 中參與方往往為大型組織(如醫療、金融等相關機構),數量較少但算力較強;cross-device 中參與方為個人設備,數量龐大且算力較弱,在該場景下,不是每個參與方都有機會參與每一輪訓練,通常利用采樣的方式確定哪些用戶可以參與訓練過程。

2)根據聯邦學習架構中是否存在中心服務器,聯邦學習架構可以分為中心化架構與去中心化架構,如圖1 所示。去中心化架構[35]不需要可信服務器,在每次迭代中,參與方在本地數據上更新梯度,將梯度發送到選定的一方,選定方使用其本地數據和梯度值再度更新模型,直到所有參與方都更新了模型,最后將模型廣播給所有參與方。為了保證模型的公平 性,充分利用各方數據,參與方事先約定迭代相同的輪數。

圖1 聯邦學習架構Fig.1 Architectures of federated learning

3)根據不同參與方之間的數據特征分割方式,聯邦學習又可分為橫向聯邦學習(Horizontal federated learning)、縱向聯邦學習(Vertical federated learning)和聯邦遷移學習(Transfer Federated Learning,TFL)[4]。橫向聯邦學習指數據持有方存儲了不同用戶的具有相同屬性的數據;縱向聯邦學習指數據持有方存儲了相同用戶的不同屬性的數據;聯邦遷移學習指數據持有方持有的數據中用戶和屬性重疊都較少的情況,如圖2 所示。

圖2 基于數據分割方式的聯邦學習分類[5]Fig.2 Federated learning classification based on data segmentation methods[5]

聯邦學習中參與方的參數更新方式可分為兩類:一類是基于隨機梯度的更新方法(SGD-based),另一類為基于模型特征的更新方法(Model specialized)[36]。FedSGD 和FedAVG[37]是基于隨機梯度更新的典型方法:FedSGD 指參與方將每輪機器學習的梯度值傳給服務器,服務器聚合后返回給參與方;FedAVG 方法允許參與方在服務器聚合參數之前多次迭代計算梯度值,服務器不必每次計算中間結果的均值,減少了通信輪數。FedSVRG[38]、FedProx[39]、FedNova[40]等方法對FedAVG 的參數聚合進行了改進。FedSVRG 向服務器發送的不是簡單的梯度值,而是隨機方差縮減梯度,與FedSGD 相比,FedSVRG 方法在相同迭代輪數下模型精度更高;FedProx 和FedNova 考慮到參與方數據異構的問題,以限制本地更新的次數與全局聚合的方式提高模型精確度。常用的FedAVG 聚合方式為加權平均,即:w=,其中wi表示第i個參與方的模型參數,pi表示第i個參與方的數據量占全局數據量的比例,w表示經服務器聚合后的模型參數。通過w*=計算可獲取全局數據上的機器學習模型參數。經驗風險最小化是常用的求解最優參數w*的算法,Fi(·)表示第i個參與方的經驗損失函數,通常采用隨機梯度下降求解。

另一類參數更新方式為基于模型的方法,指參與方與服務器交互參數時,不直接更新梯度值,而是依據模型特征設計更新參數,已應用于梯度增強決策樹[16]、聯邦森林[41]、線性/邏輯回歸等模型[42]。Zhao 等[16]提出了聯邦學習梯度增強決策樹的模型,參與方在本地數據上訓練決策樹,將訓練好的決策樹模型送到下一個參與方。文獻[43]中利用圖像中的相似信息通過使用位置敏感哈希建立聯邦梯度提升決策樹(Gradient Boosting Decision Tree,GBDT),通過聚集類似實例的梯度值來利用參與方本地數據。

無論上述哪種參數交互方式,參與方之間或參與方與服務器之間的模型參數的交互都必不可少,數據傳輸也會導致數據隱私的泄露。

1.3 聯邦學習中的隱私泄露問題

Papernot 等[44]提出了機器學習中的CIA 安全模型,即機密 性(Confidentiality)、完整性(Integrity)及可用性(Availability)。機密性是指未經授權的用戶無法獲取訓練數據、模型參數等信息;完整性指模型的預測結果不能偏離預期;可用性指模型在異常甚至惡意輸入的情況下,仍然可以正常使用。本文主要關注CIA 模型中的機密性。聯邦學習中數據無需集中存放,不會產生由大規模數據采集帶來的直接數據隱私泄露問題,但在聯邦學習中,模型訓練階段及預測階段可能產生數據隱私泄露的問題,具體表現為:

1)在模型訓練階段,不可信服務器可利用參與方上傳的參數進行攻擊,獲取訓練數據的敏感信息[45];或利用接收到的中間參數進行成員推斷攻擊,推測某條記錄是否出現在參與方的敏感訓練集中[46];或獲取參與方數據的分布特征后,利用生成模型重構參與方的訓練集。

2)在模型預測階段,由于訓練模型的泛化能力不足、訓練模型簡單易導致參與方數據泄露攻擊[19]。為了避免向模型訓練服務繳費,攻擊者通過部分模型結構信息和標簽信息,試圖獲取完整的模型參數信息產生模型參數提取攻擊[47]。在模型預測階段,若模型預測結果較敏感,如患某種疾病的概率等,預測結果也可能泄露數據隱私。

2 聯邦學習中的隱私攻擊

本章從聯邦學習模型的機密性保護入手,從敵手能力、攻擊目標、攻擊方式三方面對聯邦學習中的隱私攻擊模型進行歸納總結。

2.1 攻擊方式

聯邦學習中的攻擊者包括內部攻擊者和外部攻擊者:內部攻擊者指不可信的服務器或參與方;外部攻擊者指模型用戶或外部竊聽者。從攻擊能力來看,可分為黑盒攻擊(blackbox attack)和白盒攻擊(white-box attack)[33]:黑盒攻擊指攻擊者無法直接獲取模型內部參數,但可通過模型的使用觀測到輸入數據與輸出結果,依據獲取的“輸入-輸出”發起推理攻擊,通常情況下,模型用戶可以發起黑盒攻擊;白盒攻擊指攻擊者能獲取訓練過程中任一輪的模型中間參數,不可信的服務器和參與方在訓練過程中持續交互參數,可發起白盒攻擊。外部竊聽者通過監聽,非法獲取服務器與參與方之間的交互的參數或非法獲取模型結果,根據獲取數據不同可發起兩種類型的攻擊。

2.2 攻擊目標

破壞機密性的攻擊目標主要包括:1)獲取參與方數據的分布特征或敏感信息[48-49],利用生成模型重構參與方訓練集數據,從訓練數據方面破壞了模型的機密性。文獻[49]中訓練了多個參與方聯合訓練人臉識別的分類模型,參與方的訓練集圖像是參與方本人的照片,利用模型反演攻擊,采用生成模型可以重構該參與者的面部圖像。2)推測機器學習模型的參數或功能,復制出一個功能相似甚至完全相同的機器學習模型[50],從模型參數方面破壞模型的機密性。

2.3 攻擊模型

聯邦學習中的攻擊模型總結在表2 中。推理攻擊包括數據泄露攻擊(Data leakage attack)、屬性推理攻擊(Attribute inference attack)、模型反演攻擊(Model inversion attack)和成員推斷攻擊(Membership inference attack)。數據泄露攻擊易發生在簡單線性模型的訓練中。機器學習的訓練過程通常需要構建經驗損失函數,采用隨機梯度下降方法找到損失函數的最小值,將最小值對應的參數作為模型參數。在聯邦學習中,梯度值一般由學習率(learning rate)和函數微分的乘積構成,如果損失函數過于簡單,則發送梯度值大致等同于發送原始數據。此外,若機器學習模型的泛化能力較弱,則也易遭受數據泄露攻擊,如遞歸神經網絡(Recursive Neural Network,RNN)具有記憶并暴露訓練數據中敏感、特殊模式的缺點。文獻[48]中指出,谷歌鍵盤Gboard 基于用戶的歷史文本數據聯合學習文本預測模型,從而實現聯想詞智能提示功能。如果用戶的鍵盤上曾經輸入過信用卡號碼、身份證號碼等具有特殊模式的敏感信息,模型中會以某種方式包含該值,導致數據隱私泄露。

表2 隱私攻擊模型分類Tab.2 Classification of privacy attack models

成員推斷攻擊和模型反演攻擊在機器學習隱私保護技術中已有研究。Shokri 等[46]首次提出了成員推斷攻擊,利用訓練目標模型影子模型的方式,推斷某些數據是否屬于訓練集。Hayes 等[54]提出了針對生成模型的成員推斷攻擊。在目標模型生成的樣本上訓練了生成對抗性網絡(Generative Adversary Network,GAN),依靠GAN 對真實記錄和合成記錄進行分類,可區分樣本是否是基于訓練集的輸入。在聯邦學習架構下,不可信服務器通過成員隸屬攻擊可獲取參與方數據的敏感信息。在訓練過程中,攻擊者通過白盒攻擊獲取目標模型的多個版本,對多個版本的模型分別進行成員隸屬攻擊提高攻擊成功概率。聯邦學習中模型反演攻擊威脅更大,個人設備作為參與方,其數據敏感且相似(如同一個手機端的數據),經模型反演攻擊后得到的數據完全暴露了參與方的敏感信息。文獻[49]中研究了多個參與方聯合訓練人臉識別的分類器的問題,每個參與方的訓練圖像都是參與方本人的照片,利用模型反演攻擊與生成模型可以重構該參與者的面部圖像。

3 聯邦學習中的隱私保護技術

本文依據機器學習/分布式機器學習中的隱私保護技術分類,將聯邦學習中的隱私保護分為基于差分隱私的隱私保護技術、基于同態加密的隱私保護技術、基于安全多方計算的隱私保護技術及其他技術。

3.1 基于差分隱私的隱私保護技術

基于差分隱私的隱私保護技術指向數據中添加噪聲達到擾動數據、保護隱私的目的,實現技術主要包括差分隱私(Differential Privacy,DP)[21]、本地化差分隱私(Local Differential Privacy,LDP)[56]、混洗(shuffle)差分隱私[57]等。

3.1.1 基本概念

差分隱私是建立在嚴格的數學理論基礎之上的強隱私保護模型,能保證攻擊者即便在具有最大背景知識的前提下,即已知數據庫中除目標記錄以外其他所有記錄的信息,也無法推測出目標記錄的敏感信息。

定義1(ε,δ)-差分隱私。給定任意相鄰數據集D和D',對隨機算法M 及任意輸出結果S,有不等式Pr [M(D) ∈S]≤exp(ε)×Pr [M(D′) ∈S]+δ成立,則稱算法M 滿足(ε,δ)-差分隱私。

實現差分隱私的機制包括拉普拉斯機制、指數機制[58]、高斯機制[59]等。差分隱私需要有可信的第三方數據收集者,保證所收集的數據不會被竊取和泄露。在實際應用中,第三方數據收集者是否真正可信很難保證。本地化差分隱私將數據隱私化的工作轉移到用戶端,在數據發出用戶設備之前先進行擾動,避免了不可信第三方造成的數據泄露。

定義2ε-本地化差分隱私。n個用戶分別持有一條記錄,若算法M 在任意兩條記錄t和t′上的輸出結果滿足不等式:Pr [M(t)=t*]≤exp(ε)×Pr [M(t′)=t*],則 稱算法M 滿足ε-本地化差分隱私。

實現本地化差分隱私的機制主要是隨機響應技術、混洗模型[57]?;煜茨P驮诒镜夭罘蛛[私的基礎上,增加了一個可信的shuffler 部件,將用戶端發來的數據隨機打散后再發給服務器,達到匿名的效果。

3.1.2 實現原理

差分隱私技術在FL 中應用的原理是:在發布的模型參數中引入一定程度的不確定性噪聲,掩蓋任何個體用戶對訓練結果的貢獻。在集中式機器學習中,可通過輸入擾動、輸出擾動、目標擾動及梯度擾動四種方式保護訓練數據及模型參數不被泄露;在聯邦學習中,數據不集中存放,原始數據無需擾動,隱私保護主要實施在模型訓練階段及模型發布階段,保護參與方輸出的本地模型參數或全局模型參數不被泄露。

1)模型訓練階段的隱私保護。

模型訓練階段的隱私保護目的:使攻擊者無法獲知參與方的本地模型參數,聚合服務器可在擾動后的參數上計算出全局模型參數。在模型訓練階段,其采用的方法大多基于圖3 中展示的兩種架構:基于差分隱私的安全聚合及基于混洗差分隱私的安全聚合。

圖3(a)展示了基于差分隱私的安全聚合結構。參與方在本地模型的參數上添加噪聲,聚合服務器無法獲取參與方的精確參數,研究的關鍵在于:如何降低噪聲添加量,保護隱私的同時保證本地參數的可用性。Wei 等[60]對經驗風險最小化后的參數添加高斯噪聲。數據擾動的公式表示為:=是參與方上傳參數時添加的噪聲,當滿足ρ(η) ∝e-α||η||時,經驗風險最小化的過程滿足差分隱私,α是與隱私預算ε及經驗風險最小化函數敏感度相關的參數。參與方從服務器端下載參數也需添加噪聲。添加噪聲的大小取決于函數Fi(·)的敏感度,由于各參與方的函數敏感度不同,取各個參與方函數敏感度的最大值以保證安全。Geyer 等[61]同樣使用高斯機制產生噪聲數據,提出一種隨機化的參數聚合方法,該方法部署在服務器端,與文獻[60]不同之處在于,該方法可防止攻擊者識別某個參與方是否參與了訓練,而不是只保護參與方中的某條數據。在每一輪迭代中,服務器隨機選擇若干個參與方加入集合Zt,模型參數僅發送給Zt中的參與方。Zt中的參與方在本地數據上重新訓練之后,將參數傳給服務器,事先計算出參數聚合操作的敏感度,再采用高斯機制擾動。Liu 等[62]提出一種分層相關傳播算法,在訓練神經網絡模型時計算每個屬性對模型輸出的貢獻度,針對貢獻度確定隱私預算,添加自適應的噪聲滿足差分隱私,在確定輸出層的貢獻等于模型輸出之后,依次計算其余神經元的貢獻通過從數據元組中提取同一屬性的貢獻,可計算出每個屬性類對輸出的平均貢獻度,向屬性類的貢獻度中添加拉普拉斯噪聲以保護數據隱私。Hu 等[63]利用差分隱私技術解決參與方計算能力各異、數據結構異質情況下的隱私保護,提出了個性化聯邦學習中的隱私保護問題,同樣是在參與方的中間參數中添加高斯噪聲,設置了兩個關鍵參數W和Ω,W是m個參與方的參數向量構成的矩陣,Ω為表示各參與方之間參數關系的協方差矩陣,則目標函數可表示為:,求解時迭代多輪直到收斂后可求得最優模型參數。

圖3 基于差分隱私的參數安全聚合Fig.3 Secure parameter aggregation based on differential privacy

降低添加的噪聲量是基于DP 的隱私保護方法的研究要點。Liu 等[51]提出了一種基于概要(sketch)數據結構的聯邦學習隱私保護方法。sketch 用少量數據描述全體數據的特征,犧牲了數據描述的準確性,但降低了數據存儲及處理代價。sketch 僅描述數據的部分特征,達到同樣的ε-差分隱私在sketch 上添加噪聲量明顯小于在原始參數上添加的噪聲量。Liu 等[51]利用sketch 結構[64]實現cross-device 場景下參與方模型更新參數的隱私保護,提出并證明了一個重要的規則:Count-sketch 和Count-Min 在模型空間明顯較大時能實現差分隱私,因此將應用場景放在cross-device 聯邦學習場景下。利用“參與采樣+傳送參數sketch”的方法實現了參數的隱私保護,并在線性回歸、多層感知模型、循環神經網絡模型上進行了實驗,結果表明在達到ε-差分隱私的情況下,通信代價下降到傳送原始參數通信代價的10%。差分隱私還可結合安全多方計算技術減少噪聲添加量。經典差分隱私方法需添加方差為C2σ2的高斯噪聲以實現隱私保護。假設聯邦學習架構中可信成員數為t,Truex 等[65]采用SMC 技術將添加的噪聲量從N(0,C2σ2)減少到

上述基于DP 的安全聚集對隱私預算ε要求頗高,每一輪迭代所使用的隱私預算滿足順序合成定理(Sequential composition),所有迭代輪次所用隱私預算為ε,在迭代輪數不能確定的聯邦學習過程中,事先為每一輪迭代分配多少隱私預算難以估計?;诨煜茨P偷陌踩奂稍谝欢ǔ潭壬媳苊馍鲜鰡栴}?;煜茨P褪怯脕韺崿F本地化差分隱私的一種模型,是ESA(Encode-Shuffle-Analyze)模型[57]的核心思想。Shuffle 是一個介于客戶端和服務器之間的可信部件。Ghazi 等[66]使用混洗模型架構實現了聯邦學習中的安全的多方聚合,確保通過添加隨機噪聲項傳遞給聚合服務器的單個數字完全隨機,而總和是一個固定值,通常情況下可為零。零和噪聲的加入不需用戶之間的協調。每個本地混淆器(local randomizer)的輸出接近于完全隨機,對于所有可能輸入與真實輸入相同的和,可計算出與該輸入一致的多種分解形式,從而無法逆推本地混淆器的輸出。Shuffle 模型可以“放大”隱私保護度,即使用較小的本地隱私預算,實現全局數據模型上更大的隱私保護度[67]。

2)模型發布階段的隱私保護。

模型發布階段的隱私保護包括模型參數隱私保護與預測結果隱私保護。Hamm 等[68]利用差分隱私技術對聯邦學習全局模型參數進行擾動。針對分類模型,采用多數投票的方式確定全局模型的分類結果,在輸出全局模型參數上添加符 合ρ(η) ∝e-α||η||分布的噪聲數據,其中α=λε2。Jayaraman 等[69]在聯邦學習下對模型訓練階段的擾動和模型發布階段的擾動進行了對比。提出參與方在安全計算中聚合本地模型,在發布模型之前添加拉普拉斯噪聲的隱私保護方法,并證明了該方法的隱私放大效果。實驗證明該方法能夠實現與未采用隱私保護的模型十分相近的模型可用性。

Triastcyn 等[70]提出利用貝葉斯差分隱私實現模型訓練及模型發布時的隱私保護。貝葉斯差分隱私與傳統差分隱私的不同之處在于,兩個相鄰數據集相差一條符合p(x)分布的隨機變量記錄,而不是一條確定的數據記錄。添加符合高斯分布的噪聲達到貝葉斯差分隱私,但需要計算每輪迭代的隱私代價,累加各輪隱私代價后計算參數ε和δ的界限值。在參與方數據分布較相近的情況下,BDP 與傳統差分隱私相比,具有顯著的優勢。

3.1.3 總結與分析

基于差分隱私的隱私保護技術通過添加隨機噪聲或采用隨機應答機制就可實現隱私保護,不會帶來額外的計算開銷。研究的關鍵問題主要在于:1)依據添加噪聲后的數據需進行何種聚集運算,計算運算函數敏感度,量化噪聲添加量;2)在確保隱私度的前提下設法減少噪聲數據的添加量,如結合SMC 技術、使用特殊的數據結構或引入混洗機制。

基于差分隱私的方法雖然有效,但噪聲數據的引入會給模型可用性帶來影響,如增加模型收斂的迭代次數、影響運行時間和通信代價、降低模型預測的精確度等。此外,由于隱私預算的限制,差分隱私處理高維數據后的可用性有待于進一步提高;基于混洗模型的方法需要可信第三方,若參與方中存在惡意用戶,混洗模型就無法達到其宣稱的隱私保護度。

3.2 基于加密的隱私保護技術

用于聯邦學習中的加密技術主要是同態加密技術。

3.2.1 基本概念

同態加密是一種允許用戶直接在密文上進行運算的加密形式,得到的結果仍是密文,解密結果與對明文運算的結果一致。即:給定明文數據x1和x2,使用同態加密之后的密文分別表示為[x1]和[x2],則其同態性可表示為:

1)加法:[x1]⊕[x2]=[x1⊕x2];

2)乘法:[x1]?[x2]=[x1?x2]。

根據同態加密支持的運算種類和次數,又可分為全同態加密(Fully Homomorphic Encryption,FHE)[71]、部分同態加密(Partially Homomorphic Encryption,PHE)及類同態加密(Somewhat Homomorphic Encryption,SHE)[72]。FHE 支持密文上任意計算的同態性,且不限制計算次數,雖然足夠安全可靠但計算開銷太大;PHE 僅支持加法或乘法運算的同態性;SHE 介于上述兩者之間,是一種支持有限次加法和乘法運算的加密方法。AHE(Additive Homomorphic Encryption)則僅支持加法運算的同態性。由于同態加密的良好性質,可委托第三方對數據進行處理而不泄露信息。常用的同態加密算法有Paillier 加密[73]、RSA 加密[74]等。

3.2.2 實現原理

利用同態加密對本地模型參數、數據加密,服務器無法獲知參與方的模型參數,也無法獲知參與方的原始數據或預測結果,保護了訓練階段及預測階段的數據隱私。圖4 展示模型訓練階段基于同態加密的參數安全聚合過程。下面分別介紹同態加密用于模型訓練階段及模型預測階段技術。

圖4 基于同態加密的參數安全聚合Fig.4 Secure parameter aggregation based on homomorphic encryption

1)模型訓練階段的隱私保護。

模型訓練階段的隱私保護任務主要是保證訓練過程中的中間參數不泄露。Phong 等[75]基于加法同態加密方法AHE 實現了一個保護隱私的深度學習算法PPDL(Privacy-Preserving Deep Learning)。算法分別部署在參與方和聚合服務器上。每個參與方從服務器下載全局加密參數,并用私鑰sk解密后得到權重參數,進而可得權重向量wglobal。在本地數據上訓練模型,利用AHE 加密方法將參數加密為E(-α?G(i))后傳送給聚合服務器,服務器收到參與方發來的參數后無需解密,計算+E(-α?G(i))更新參數值。該方法通過理論分析與實驗,驗證了該方法犧牲了效率但不損失模型的精確度。Zhang 等[33]以同態加密和中國余數定理(Chinese Reminder Theorem,CRT)為基礎,研究了聯邦學習神經網絡訓練中的隱私保護問題與可驗證問題。在數據處理過程中,參與方Pi將神經網絡每一層的梯度值wi分成r份,聯合各個分值做線性同余運算,利用CRT 原理可得到唯一的解,表示為,隨后利用Pi的私鑰對其加密,得到[]pk,Pi利用同態哈希函數h 和雙線性聚合簽名x計算簽名值σi=(h())x,并將加密值和簽名同時發送給服務器。服務器收到加密梯度值和簽名后,直接在密文上聚合各個參與方上傳的參數,得出聚合結果。驗證階段,參與方需要檢驗服務器是否誠實地聚合了上傳的參數,先將參數解密獲得,如果公式e(g1,σ)=e(,h())成立則可驗證服務器誠實,其中,e 為雙線性映射,g1是一個隨機生成數。隨后,計算modmi得到每一層的梯度值。反復執行上述參數“上傳-聚合-下載”過程,直到模型收斂為止。

2)預測階段的隱私保護。

預測階段的隱私保護最早出現在“機器學習即服務(Machine Learning as a Service,MLaaS)”場景中。數據持有方將數據上傳給MLaaS 服務器,服務器將預測結果返回給數據持有方。在該交互過程中,數據持有者的數據及預測結果都泄露給了MLaaS 服務器。由于同態加密算法僅對加法及乘法運算有效,非線性運算仍由數據持有方完成,將中間結果加密后發送給云服務器,云服務器將計算結果返回給數據持有方,直到訓練完成[76]。顯然,這種方法把中間結果暴露給了服務器。Rahulamathavan 等[77]利用Paillier 加密技術將支持向量機(Support Vector Machine,SVM)模型的函數及分類樣本轉換為密文的形式,客戶端以加密格式將數據樣本發送到服務器。服務器利用同態加密屬性直接在加密數據上分類樣本。若部分運算不能由同態性質處理,則客戶和服務器之間基于安全兩方計算協議進行有限次交互。Xie 等[78]提出一種保護隱私預測方法Crypto-nets,將加密后的數據傳送給神經網絡模型進行預測,預測結果也同樣用加密的方式傳給用戶,可以保證在模型預測階段不泄露隱私。由于神經網絡模型的函數不是多項式函數,故一個關鍵問題是如何在密文上利用神經網絡模型進行預測。Xie 等[78]提出可以根據Stone-Weierstrass 定理構造一個逼近神經網絡函數的多項式函數,從而可使用同態加密進行預測和輸出。

3.2.3 總結與分析

基于加密的隱私強化技術可以達到較高的隱私保護度,既可以保護訓練階段中間參數的隱私不泄露,也可以保證預測階段的預測結果隱私不泄露。同時,不需多項式逼近的同態加密方法,不犧牲模型可用性,但是同態加密需要價高的計算花費及通信代價,且其不支持機器學習中sigmoid 函數、softmax 函數等非線性運算,需要利用多項式近似表示這些函數,因此在一定程度上造成模型精度的下降?;谕瑧B加密的隱私保護技術計算代價較高,不適于參與方計算能力較差的場景;但在要求較高隱私保護度的場景下,同態加密依然不失為一個最佳選擇。

3.3 基于SMC的隱私保護技術

安全多方計算(SMC)[23]可使多個參與方以一種安全的方式正確執行分布計算任務,任何一方不能獲取其他參與方的額外信息。

3.3.1 基本概念

安全多方計算的原理可描述為:有n個參與方P1,P2,…,Pn,每個參與方Pi持有1 個秘密輸入mi,在不泄露mi的情況下,n個參與方可協作計算出函數f(mi)的值。參與方Pi可能是誠實參與方、半誠實參與方或惡意參與方。

多方安全計算的協議眾多,在聯邦學習中常用的協議有安全兩方計算協議與秘密共享協議[79]。Yao[80]使用混淆電路(Garbled Circuits,GC)技術將計算函數表示為布爾電路,實現了安全兩方計算,保證在半誠實模型下的計算安全性。秘密共享協議(Secret Share,SS)包括(t,n)門限秘密共享協議[80]、Blakley 秘密共享協議[81]和中國余數定理。(t,n)門限秘密共享協議是指,用戶將某個秘密信息s分成n份,任意t(t≤n)份可以重構s,而任何t-1 份均無法重構s。

3.3.2 實現原理

基于SMC 的隱私保護技術能保護聯邦學習模型訓練階段的隱私,但無法保護預測階段的隱私。Kanagavelu 等[82]提出了一種基于SMC 的兩階段聯邦學習架構,重點保護參與方生成的本地參數wi,參與方將wi分解為n個無意義的值:前n-1 個值是隨機數,第n個值通過公式V(i,n)=(V(i)-Q計算得出。參與方之間互相秘密交換份額,每個參與方持有參數向量的一部分。參與者對秘密份額進行局部聚合,再做全局聚合得到w*。兩輪秘密份額的交換和相加之后,可以消除份額拆分的隨機性,即,該方法的參數聚合機制如圖5[82]所示。為了解決互相交互秘密份額導致通信代價過高的問題,采用兩階段聯邦學習架構,通過投票方式產生參與方委員會,委員會成員之間進行秘密份額的交換與聚合,產生聚合后的參數。

圖5 基于SMC的參數安全聚合Fig.5 Secure parameter aggregation on SMC

Bonawitz 等[83]使用一次性掩碼對本地模型參數加密。將n個參與方做全序排列,任意一對參與方(u,v)用某個隨機向量su,v作為加密參數,參與方u 的參數wu與該向量求和,參與方v 的參數wv就與該向量求差,保證服務器收到的每一對參與方的參數總和不變。但這種方法通信代價太大且容錯度較低。為了降低通信代價,Wu 等[84]提出了一種名為Pivot 的方法。該方法使用TPHE(Threshold Partially Homomorphic Encryption)和SMC 的混合框架訓練垂直分割數據的樹模型。每個客戶端在TPHE 的幫助下執行盡可能多的本地計算以降低通信代價。與之前的結構不同,Pivot方法需要一個超級參與方協調訓練過程。在初始化階段,參與方確定協作訓練某種樹模型,并對齊關聯樣本、確定參數,如密鑰、修剪閾值等。參與方共同生成門限同態加密密鑰,接收公鑰pk和私鑰ski。在模型訓練階段,超級參與方廣播加密參數協助其他參與方計算加密統計信息。然后,參與方聯合將上述加密統計信息轉換為SMC 兼容的輸入信息,也就是若干份秘密分享的值。計算當前樹節點的最佳分裂方式,并以加密形式表示。整個過程中不會向參與方披露中間信息。獲取樹模型后,整個樹以明文形式發布。內部節點的分割閾值和葉節點上的預測標簽以秘密共享的形式出現,參與方不可見,保證不會泄露除預測標簽外的任何信息。

3.3.3 總結與分析

基于安全多方計算的聯邦學習隱私保護的方法能保證較高的隱私保護度,不需要可信聚合服務器即可完成學習任務,但安全多方計算并非解決聯邦學習中隱私問題的唯一方法,這是由于:1)基于SMC 的隱私保護方法的計算代價大、通信輪數多。參與方之間的信息交互造成的通信代價可能成為整個訓練過程的瓶頸,基于SMC 的隱私保護技術的研究目標在于降低系統通信代價。2)服務器無法評估通過秘密共享產生的聚合參數是否可用。Bonawitz 等[83]指出有惡意參與方存在的情況下,此類方法無法保證聯邦學習模型的可用性。3)基于SMC 的方法僅能對訓練過程中的參數進行隱私保護,無法對預測結果進行隱私保護。

3.4 其他方法

近年來,區塊鏈技術的出現也為隱私保護技術提供了新的研究思路。區塊鏈是一個分布式的共享賬本和數據庫,具有去中心化、不可篡改、全程留痕等優點。聯邦學習中參與方眾多,分布式記賬方式不僅能保證本地模型參數不泄露,還能保證參數聚合過程是可審計的,亦可通過調整激勵策略,保證參與方對模型的貢獻/收益比是公平的。

基于區塊鏈的隱私保護以分布式事務分類賬方法為基礎,記錄學習任務的參數、參與客戶端本地及全局模型的參數更新,單獨設置一個聚合器用來聚合參與方更新的參數。更新后參數包裝在本地更新事務中,在礦工的協助下記入總賬。Awan 等[85]提出了一個基于區塊鏈的隱私保護聯邦學習框架,利用區塊鏈的不變性和分散信任屬性來保證模型更新的安全。Weng 等[86]提出使用秘密共享協議和區塊鏈技術實現訓練過程中的參數隱私保護。參與方對本地計算的梯度值分別加密并上傳,通過秘密分享協議獲得更新的參數。協同解密需要至少t個參與者提供其秘密分享片段。在梯度值收集過程中,參與者的事務包含加密的梯度值及正確性驗證值,允許第三方審核參與方是否上傳了正確加密的梯度值。另一方面,礦工通過記錄在DeepChain 中的事務來計算全局參數更新結果。參與方下載全局參數并協同驗證。任何第三方都可以審計全局參數值是否正確。此外,DeepChain 提供了一種基于區塊鏈的價值驅動激勵機制,迫使參與方正確上傳本地參數。

基于區塊鏈的隱私保護技術具備可審計、無需可信節點、安全性高等優點。但區塊鏈技術本身的局限性也限制了其在隱私保護應用領域的應用,如:吞吐量有限、可擴展性差等。因此,在大規模數據的應用場景下,基于區塊鏈的隱私保護方法的有效性一般。

4 隱私保護性能衡量標準

依據聯邦學習的過程,隱私保護程度可分為計算隱私保護(Computation Privacy)和輸出隱私保護(Output Privacy)[65]。計算隱私保護可確保在聚合參與方參數時不會泄露單個參與方的結果;輸出隱私保護,指敵手在反復查詢模型時,防止敵手推斷出訓練集中的某條記錄或部分數據的信息。依據聯邦學習的架構,隱私保護度可分為用戶數據隱私保護(Instance Level Privacy)、參與方隱私保護(Client Level Privacy)及聯合隱私保護[70]。用戶數據隱私保護目的是隱藏單個用戶的數據,更具體地說,要限制學習結果分布上的任何單個用戶暴露,模型參數的分布不能暴露單條用戶數據。參與方隱私保護指參與方上傳給服務器的中間參數不會泄露。參與方隱私保護可為用戶數據提供額外的保護層,以防不可信服務器獲取參與方的數據更新。聯合隱私保護指同時達到用戶數據隱私保護和參與方隱私保護。

依據聯邦學習中的隱私保護方法,評價標準包括隱私保護度、模型可用性、收斂迭代次數和通信代價。其中,隱私保護度的衡量標準主要有隱私泄漏率(privacy leakage)及達到的隱私模型,如(ε,δ)-差分隱私、k-匿名等。模型可用性衡量標準包括模型精度、召回率及F1 分數(F1-Score)。收斂迭代次數指模型收斂時的迭代次數上限。通信代價的主要衡量標準包括傳輸數據量、算法運行時間等。

基于差分隱私的隱私保護技術采用達到的隱私模型來衡量隱私保護度,訓練階段對模型參數的隱私保護度可以達到(ε,δ)-差分隱私。文獻[60]和[63]中分別計算了達到(ε,δ)-差分隱私時,添加的高斯噪聲參數σ的取值:文獻[60]計算得出,噪聲參數σ的取值是聚集次數T、參與方個數N與隱私預算ε的某個函數;文獻[63]得到類似的結論。文獻[51]中用泄露隱私概率衡量隱私保護度,即使服務器能完全從sketch 中恢復參數值,參數隱私泄露的概率不超過1/n,n是模型參數的維度。在模型精確度方面,差分隱私在訓練過程中引入噪聲數據,影響模型精確度或訓練的迭代次數。文獻[63]中采用模型收斂迭代次數來衡量噪聲數據對模型訓練的影響,定義了一次更新質量的概念,用以衡量每次迭代的下降率,最后計算出模型收斂的迭代次數上限。

基于同態加密的隱私保護技術能達到“不泄露任何信息”的隱私保護度,線性模型的模型精度不受同態加密的影響;但涉及機器學習中sigmoid/softmax 函數等非線性運算時,需要利用多項式近似表示這些函數,會造成模型精度的下降?;谕瑧B加密的隱私保護技術計算量和通信代價較高。文獻[32,75]計算出使用Paillier 加密方法,每輪更新的通信代價是異步SGD 方法的2.93 倍;使用基于LWE(Learning With Errors,LWE)加密方式,每輪通信代價是異步SGD 方法的2.4 倍。

基于多方安全計算的隱私保護技術在隱私保護度上可達到與同態加密相同的效果,不泄露任何隱私,但其通信代價較大。為了降低通信代價,HybridAlpha 方法[87]引入了函數加密(Functional Encryption,FE)方法和差分隱私技術降低傳輸的數據量?;赟MC 的基準方法的通信量為2mn+n,HybridAlpha 方法將通信代價降低為mn+m+n(n為參與方數量,m為聚集服務器數量)。文獻[82]先采用P2P(Point to Point)的方式選舉少量FL 參與方作為模型聚合委員會成員,參與方和委員會成員交互參數后,再將所有參與方的參數發給服務器,降低了通信代價。單純采用SMC 技術不會影響模型精度,但有些研究工作將SMC 技術與差分隱私相結合,以求降低通信代價的同時減少噪聲量,這種方式則會對模型精度產生影響。

5 總結與展望

聯邦學習為構建跨企業、跨數據、跨領域的大數據和人工智能生態圈提供了良好的技術支持。為了進一步強化聯邦學習的隱私保護特質,研究者們提出了基于加密、差分隱私、安全多方計算、區塊鏈的隱私保護技術。本文列舉了各類技術中的代表性研究工作,如表3 所示。上述四類隱私保護技術大多是在訓練階段以保護“本地模型參數”為基本任務,防止參與方與服務器在參數交互時泄露數據隱私。多數算法都在公開的數據集(如MINST、SVHN 等)上進行了實驗,評估了模型收斂率、可驗證性及通信代價等衡量標準。

表3 聯邦學習中的隱私保護方法的比較Tab.3 Comparison of privacy-preserving methods in federated learning

隨著聯邦學習研究的深入與應用領域的拓展,在研究和應用領域仍有一些挑戰性問題亟待解決。

1)隱私保護技術對聯邦學習模型可用性影響的量化研究。在聯邦學習中,模型的收斂性還沒有理論上的證明,僅有一些研究提供了近似收斂的證明。Li 等[94]研究了FedAvg在非獨立同分布數據上的收斂性,結果表明,收斂速度與局部迭代的總次數成反比。如果采用差分隱私方法提高聯邦學習的隱私保護度,在局部模型的中間參數中加入噪聲數據,亦不能保證模型的收斂性。即使模型最終收斂,添加噪聲數據后的模型性能表現不容樂觀。有研究表明,在深度學習網絡中加入人工噪聲后,模型可以收斂,但在MNIST 數據集上訓練分類模型并進行預測時,精度下降了40%左右[95]。因此,模型的收斂性和預測精度方面還有以下問題需要研究:第一,研究在理論上證明保護隱私的聯邦學習模型收斂率的方法;目前的大多數研究在隱私保護處理之后,給出了隱私保護度與模型可用性的實驗驗證,但未從理論上證明隱私保護處理后的聯邦學習模型的收斂問題;即使模型具備收斂性,收斂率和模型性能也需要量化的分析和研究。第二,聯邦學習模型的隱私保護度與模型收斂率之間的關系需要進一步的研究;定量衡量聯邦學習模型在隱私保護處理之后的精確度、通信代價、經驗損失函數的變化等問題也需要深入研究。

2)聯邦學習架構中隱私保護技術的研究。在經典的隱私保護技術,如差分隱私技術、安全多方計算及加密技術中尋求新的思路?;诓罘蛛[私的保護技術計算量小,隱私保護度較高,但目前該研究領域仍有以下問題有待探索:第一,噪聲的添加會導致全局機器學習模型的收斂速度變慢,模型性能和隱私度是矛盾的[60]。高隱私保護度會造成較低的模型可用性和較慢的模型收斂速度,隱私保護度、模型可用性、模型收斂速度之間均衡的定量關系值得研究。第二,對一定的隱私保護級別,增加參與方數量可能會提高模型收斂速度,但缺乏理論上的證明;對一定的隱私保護級別,存在最佳的聚合時間及通信輪數,也需要定量的研究。第三,當參與方數據非獨立同分布時,某一參與方對參數更新貢獻較大時,需限制其對全局參數更新的貢獻大小,防止其結果影響整個更新。

3)聯邦生成模型中的隱私保護技術研究。生成模型中也存在隱私泄露的問題,主要原因是生成模型數據集中分布在訓練數據點上,且訓練樣本很容易被記錄下來。當生成模型應用到私人數據(如用戶面部識別的圖像)或敏感數據(如患者醫療記錄)上時,會泄露個人敏感信息。目前,已有一些研究針對生成模型進行隱私保護,Xie 等[89]提出了一種滿足差分隱私的 GAN 模型 DPGAN(Differentially Private Generative Adversarial Network),直接發布Wasserstein 距離相對于訓練數據的梯度值會暴露訓練集的數據特征,在此梯度值上添加噪聲數據保護隱私。Acs 等[90]提出了一種滿足差分隱私的基于k個神經網絡的生成模型DPGM(Differentially Private Generative Model),利用隨機傅里葉特征將高維數據轉換為低維數據,利用一種滿足差分隱私的Lloyd’s 算法,將低維數據聚類。在低維數據生成的簇上訓練生成模型,在訓練過程中使用滿足差分隱私的隨機梯度下降方法,噪聲值添加到梯度更新中??梢?,已有研究工作主要是在訓練的梯度值上添加符合高斯分布的噪聲實現的,然而,生成模型往往是多層神經網絡構成的,結構非常復雜,噪聲的添加會影響生成模型的精確度。另外,為了生成更復雜的數據,例如個人照片或各種序列數據,還需要對具有多個隱藏層的深度神經網絡進行有效的隱私保護訓練,有很多內容值得深入研究。

4)聯邦學習中的參與方隱私異質性與模型可用性研究。聯邦學習的一個重要優勢在于可在參與方的數據格式各異、計算能力各異的情況下,協同多個參與方聯合訓練機器學習模型。目前的隱私保護技術可以保證結構各異的參與方達到相同的數據隱私保護度,最終獲取相同的模型參數[63]。然而,各個參與方對隱私保護度與模型可用性的需求可能各不相同,有些參與方希望犧牲一些數據隱私換取更好的模型性能,而有些參與方剛好相反。目前鮮有研究考慮聯邦學習系統中的“隱私異質性”,在差分隱私背景下,可以給參與方分配不同的隱私預算,初步解決隱私異質性問題。然而,筆者認為,該問題的關鍵在于模型參數的聚合策略,可設計智能的模型參數聚合策略區分參與方對隱私保護度和模型性能的個性化需求。

5)隱私保護度、通信代價、模型精確度之間的權衡,建立統一的隱私保護度與模型可用性衡量標準。已有的研究方法在隱私保護度、通信代價、模型精確度上難以兼得,或者犧牲隱私保護度換取模型精度,或犧牲通信代價換取隱私保護度。從研究者角度來看,需要定義一個統一的衡量指標體系,綜合考慮隱私保護度、模型精度、通信代價及計算開銷。統一的隱私保護度與模型可用性衡量標準可為各種研究方案的對比奠定基礎。

6)針對cross-device 場景下離線客戶端對隱私保護度的影響,研究隱私保護技術對系統穩定的魯棒性。上述隱私保護算法假設所有參與方在每一輪參數交互過程中都可以連接到服務器,不存在無法連接的情況。當參與方數量較多時,如cross-device 場景下,一些客戶端會由于網絡連接中斷或其他原因暫時無法連接到服務器。若采用差分隱私添加噪聲的形式實現參數的隱私保護,則客戶端的退出會導致添加的噪聲太少,無法達到要求差分隱私的隱私保護度。一種保守的方法是增加每個客戶端的噪聲量,即便存在一定比例的離線客戶端,剩余客戶端在進行安全參數聚合時仍能達到差分隱私的隱私保護度。但是當客戶端沒有掉線時,易產生大量的額外噪聲,導致模型精度下降。挑戰性問題在于如何處理大規??蛻舳藚⑴c的聯邦訓練模型,且能保證隱私保護技術在系統不穩定時的系統魯棒性。

7)面向應用領域的聯邦學習隱私保護新技術研究。由于數據隱私策略與數據孤島問題的產生,聯邦學習在未來的發展中,應用領域將越來越廣泛,諸如醫療大數據、財經大數據、個人移動設備大數據等涉及敏感數據的領域都可能使用聯邦學習聯合訓練模型。聯邦學習架構不同,其隱私保護技術所采用的方法也可能不盡相同。在cross-device 的應用場景中,更注重個性化隱私保護,需研究異質性隱私;在crosssilo 場景下,可信服務器可能難以完全可信,如何設計無可信服務器的隱私保護技術、研究在去中心化聯邦學習架構中的隱私保護方案是挑戰性問題。此外,基于應用領域的不同需求,一些安全領域的技術如機密計算等、可信執行環境等與隱私保護技術的結合也是一個值得研究的問題。

6 結語

作為人工智能的重要分支,機器學習和聯邦學習技術已經成為處理大數據不可或缺的技術手段。而人工智能領域中的倫理問題向來受到全社會的關注。數據隱私保護是人工智能面臨的重要倫理問題之一,已經成為《人工智能道德準則》[96]的組成部分。數據隱私保護技術的解決方案通常包括加密、泛化、擾動等途徑,為了適應聯邦學習或機器學習模型中強大的攻擊能力,數據隱私保護技術可能需要更強的隱私保護模型或者結合幾種隱私保護技術,設計出輕量級的隱私保護算法,在技術上探討機器學習/聯邦學習架構中的隱私保護技術,使得機器學習/聯邦學習模型的機密性、完整性、可用性三個標準完美均衡;另一方面,需要制定適當的法律法規與政策引導,技術和法規的有機結合可作為解決機器學習隱私與倫理問題的新探索。除了數據隱私與安全,人工智能中的倫理問題還包括數據透明、算法的多樣性、非歧視性和公平性等其他重要部分,同樣需要技術上的深入研究。

猜你喜歡
參與方同態聯邦
基于秘密分享的高效隱私保護四方機器學習方案
一“炮”而紅 音聯邦SVSound 2000 Pro品鑒會完滿舉行
關于半模同態的分解*
拉回和推出的若干注記
303A深圳市音聯邦電氣有限公司
一種基于LWE的同態加密方案
綠色農房建設伙伴關系模式初探
HES:一種更小公鑰的同態加密算法
涉及多參與方的系統及方法權利要求的撰寫
基于IPD模式的項目參與方利益分配研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合