?

隱私計算場景下數據質量治理探索與實踐

2022-09-18 03:54張燕楊一帆伊人羅圣美唐劍飛夏正勛
大數據 2022年5期
關鍵詞:參與方貢獻度聯邦

張燕,楊一帆,伊人,羅圣美,唐劍飛,夏正勛

星環信息科技(上海)股份有限公司,上海 200233

0 引言

隨著全球數字經濟的蓬勃發展,數據作為生產要素的重要性日益凸顯,其已滲透到人類生活的方方面面。近年來,政府及企業不斷加強對數據安全、數據資產、數據隱私的保護[1],使得數據主體之間、主體內部的“數據孤島”現象日益突出,影響了數據價值的變現。隱私計算作為一種新型數據處理技術,能夠在保護數據隱私的前提下,為跨域數據處理提供安全可靠的計算環境,實現多方協同數據處理,改變數據流通及使用的模式。隱私計算增強了數據流通過程中對個人隱私和數據安全的保護,其技術實現不僅涉及數據處理算法、處理流程的改變,還涉及數據預處理、特征工程、數據貢獻度等細分領域的改造,當前業界對隱私計算算法、流程的討論較多[2-5],對數據質量治理、數據貢獻度等方面的研究較少。

隱私計算對參與計算的數據質量有更高的要求。首先,隱私計算是一種多方協同計算,任何一方的數據質量出現問題,都很容易成為隱私計算的“短板”,“木桶效應”顯著;其次,隱私計算通過加密中間數據實現數據流通,加密以及中間數據的信息傳遞方式在一定程度上減少了有效信息量,因此對數據質量提出了更高的要求。此外,隱私計算通常是跨部門、跨組織的協作計算,且相互之間不能見到對方的數據,這提高了隱私計算前期工作溝通及協調的復雜性,特別是數據預處理工作。因此,有必要對隱私計算場景下數據質量治理的相關工作展開研究,在“數據可用不可見”的情況下,實現多方數據的數據質量評估和優化。針對上述問題,本文研究了隱私計算場景下的數據質量評估及優化方法,并提出從數據質量評估、數據質量優化、數據貢獻度評估3個方面構建隱私計算場景下的數據質量治理框架。該框架兼顧本地域及聯邦域的數據質量治理工作,從而提升隱私計算的數據質量。在此基礎上,本文還提出一種數據貢獻度衡量方法,對隱私計算的長效激勵機制進行探索。

1 隱私計算場景下的數據質量治理背景

隨著數據規模、計算模式的變化,不同時期的數據質量治理工作有不同的內涵[6-10]。在數據倉庫時代,數據大多為結構化數據,規模小且存儲在單機系統中,此時數據質量治理主要是指數據質量評估和優化[11],通常采用定量[12]或不定量[13]的方法評估數據質量,從數據源、數據預處理和元數據管理等方面優化數據質量[14]。數據倉庫時代下的數據質量治理主要圍繞數據的一致性、完整性、準確性和及時性開展,很少從數據相關性、數據價值等維度評估數據質量[15]。隨著大數據技術的出現,數據規模成倍增加,數據質量治理面臨多源、異構、海量、高時效的挑戰[16],數據質量治理的內容也因此擴展到數據標準定義、數據整合與清洗、數據質量評估、數據質量監控等數據質量管理全過程[17],通過制訂數據質量標準,定義數據質量規則庫,構建數據質量評價指標體系,制訂數據質量管理策略,實現全流程的數據質量治理[18]。但是,這種大數據質量治理的處理方式需要將多個組織的數據進行集中存儲、集中處理,不可避免地存在數據安全及隱私泄露的風險,也給數據管理引入了合規風險[19]。隨著國家、個人對數據安全和隱私保護的重視,隱私計算的應用越來越廣泛。隱私計算是一種跨密碼學、數據科學、人工智能等多學科的技術[1],多方協作進行聯合計算和聯合建模。隱私計算從機制上實現了原始數據不出庫,從根源上降低了隱私泄露的風險[1],但也提高了數據質量治理的技術復雜性和實施難度。在隱私計算場景中,聯邦特征工程是傳統特征工程算法在隱私計算環境下的重構,常用于對參與方的數據進行優化[20]。

數據貢獻度常用來衡量數據參與方提供的數據價值,是數據質量治理中必不可少的一部分。傳統的數據貢獻度評估方法通常只使用數據量維度作為數據貢獻度指標,忽略了數據質量的影響。在隱私計算場景中,為了讓數據所有者持續提供數據,公平有效地評估每個參與方的數據貢獻度至關重要。合理的貢獻評價指標可以使激勵機制公平分配聯邦收益,激勵數據所有者提供更有價值的數據[21]。當前,有專家研究本地數據質量與多方計算結果之間的影響關系,通過層次化影響分析,檢測出本地數據中的負影響數據[22]或評估各參與方數據對多方計算結果的正向貢獻[23]。也有專家將數據信息熵用于衡量數據集中包含的信息量[24],以此作為數據參與方的數據貢獻度,或從模型訓練效果和訓練成本角度確定數據參與方的數據貢獻度[25]。

目前,針對隱私計算場景下數據質量治理的研究比較零散,不同于傳統的數據質量治理方法,本文充分考慮了隱私計算場景下數據治理面臨的諸多問題和挑戰,例如如何在數據不可見的情況下實現聯邦數據質量評估?如何在保護隱私的前提下,根據數據質量評估完成數據質量優化?完成數據質量治理之后,如何評估隱私計算過程中各參與方的數據貢獻度,進而建立一種有效的激勵機制?在傳統方法的基礎上,結合隱私計算“本地計算、聯邦協同”的計算特點,本文提出從本地域和聯邦域兩個維度研究隱私計算場景下的數據質量治理問題,涵蓋數據質量評估、數據質量優化、貢獻度激勵全流程。本文構建了本地與多方兩個層級的數據質量評估體系,使用多個維度的綜合評分度量數據質量,并依據本地數據質量評估結果和聯邦數據質量評估結果,分別對數據質量進行本地優化和聯邦優化,在數據不出本地、保障數據安全的前提下,實現隱私計算場景下的數據質量評估和優化。同時,本文從建模的視角出發,通過數據集貢獻度、樣本貢獻度、特征貢獻度等多個層次來量化參與方的總體數據貢獻度。

2 隱私計算場景下的數據質量治理技術實現

隱私計算的主流技術[26-27]包括聯邦學習(federated learning,FL)、多方安全計算(secure multi-party computation,M P C)[28]、可信執行環境(t r u s t e d execution environment,TEE)[29]3種,其中聯邦學習被視為下一代人工智能協同算法和協作網絡的基礎[30],是當下研究和應用的熱點。因此,本文選擇聯邦學習作為重點場景來描述隱私計算場景下數據質量治理技術的具體實現,從數據質量評估、數據質量優化、數據貢獻度評估3個方面構建隱私計算場景下的數據質量治理框架,如圖1所示。

圖1 隱私計算場景下的數據質量治理框架

隱私計算場景下,數據質量治理需要綜合考慮本地計算及聯邦計算兩種計算過程對數據質量的要求。本文分別從本地域和聯邦域兩個維度對各參與方數據進行質量評估,前者為本地數據質量評估,后者為聯邦數據質量評估?;诒镜財祿|量評估結果可對參與方數據進行初步篩選,基于聯邦數據質量評估結果可預判多方數據對聯邦計算結果的增益。依據數據質量評估結果,指導各參與方進行本地和聯邦數據質量優化工作,進一步提升數據質量。此外,為了鼓勵更多的數據方積極參與到隱私計算中,非常有必要設計一套科學合理的貢獻度衡量標準,衡量各參與方數據的貢獻度,從而進行公平公正的聯邦收益分配。

上述方法經過少量調整可適用于多方安全計算和可信執行環境場景下的數據質量治理。與聯邦學習相比,它們的區別在于采用的密碼學算法不同。多方安全計算場景下的聯邦數據質量評估和優化一般采用不經意傳輸和秘密共享這兩種經典的多方安全計算技術和方案,可信執行場景下的聯邦數據質量評估和優化、貢獻度評估主要依賴硬件算法實現。

2.1 隱私計算場景下的數據質量評估技術實現

聯邦學習數據質量評估體系包括本地數據質量評估和聯邦數據質量評估兩個層級,質量評估的具體流程如圖2所示。

如圖2所示,聯邦學習的參與方A和B先分別進行本地數據質量評估,再進行聯邦數據質量評估。在本地數據質量評估層級,參與方A和B綜合重復值評分、缺失值評分、異常值評分和單一值評分后,得到各自的本地數據質量評分。系統可以根據上報的本地數據質量評分,判斷各參與方是否達到參與聯邦學習的標準。在聯邦數據質量評估層級,滿足參加條件的參與方先進行樣本對齊,再從數據重合度、信息量和線性相關性等維度考慮多方數據之間的相互影響,評估聯邦數據質量。最終將參與方的本地數據質量評分和聯邦數據質量評分進行加權計算,得到參與方的綜合數據質量評分。

圖2 聯邦學習數據質量評估流程

2.1.1 本地數據質量評估

本地數據質量評估包括計算重復值評分Sr、缺失值評分Sm、異常值評分Sa和單一值評分Ss4種,最終以4種評分的總分作為本地數據質量評分。4種評分的具體實現方法如下。

● 重復值評分Sr。每個參與方統計本地樣本數據中重復的樣本數量,計算重復的樣本數量與總樣本數量的比值,計算式如下:

其中,DT是參與方的本地樣本數,DR是重復樣本數(出現重復則計數加1,不是“不同的重復樣本數”),round函數將數字四舍五入到指定的位數。假設參與方A共有2 000個本地數據樣本,其中有87個重復樣本,那么參與方A的重復值評分;參 與 方B共有3 000個本地數據樣本,其中有645個重復樣本,那么參與方B的重復值評分為為。重復值評分越高,本地數據中重復出現的樣本越少。

● 缺失值評分Sm。每個參與方對本地數據的每一維度特征的缺失值進行統計處理,即統計每一維度特征中特征值缺失或數值類型為“NULL”的樣本數量占總樣本數據的比例,計算式如下:

● 異常值評分Sa。每個參與方對本地數據的每一維度特征的異常值進行統計。對于連續型數據,可以使用絕對中位差(median absolute deviation,MAD)方法(一種非參數方法)、樞軸量法(即常見的3-σ法則)、四分位距(interquartile range,IQR)方法(一種非參數方法)等進行評分。這里以聯邦學習IQR方法[31]為例,定義IQR為上75%分位數ξ75%與下25%分位數ξ25%的差值,t為閾值,將超過上限ξ75%+t× IQR 或下限ξ25%-t× IQR的值定義為異常值,其中ξ為維度特征的特征值排序集合。對于離散型數據,若數據是編碼類型的,將超出編碼取值范圍(超過上下限或者出現未定義編碼)的值定義為異常值。然后,計算特征屬于異常值的樣本數量占總樣本數量的比例,根據該比值計算異常值評分,計算式如下:

其中,DAi是第i維特征為異常值的樣本數。假設參與方A的2 000個本地數據樣本有3維特征,假設閾值t取1.5,則上限為其中第1維特 征有6 5 8個異常值,第2維特征有426個異常值,第3維特征有200個異常值,那么參與方A的異常值評分為round0.7 9;參與 方B的3 0 0 0個本地 數 據樣本有2維特征,其中第1維特征有6 6 5個異常值,第2維特征有6 4 9個異常值,那么參與方B的異常值評分為異常值評分越高,本地數據中有異常值的樣 本越少。

● 單一值評分Ss。每個參與方對本地數據的每一維度在規定量綱條件下的標準差進行統計。若某一維度特征的標準差小于閾值,則該維特征的單一值評分為0,反之為1。將所有維度特征的單一值評分的平均值作為本地數據的單一值評分,計算式如下:

其中,iv是參與方本地樣本第i維特征的標準差,ti是第i維特征的閾值。假設參與方A的本地數據有3維特征,閾值t取10-8,其中第1維特征的標準差為186,第2維特征的標準差為3 7,第3維特征的標準差為9×10-9,那么參與方A的單一值評分為參 與 方B的本地數據有2維特征,其中第1維特征的標準差為3×10-10,第2維特征的標準差為5×10-6,那么參與方B的異常值評分為單一 值評 分越高,本地數據的規范性越高。

綜合上述指標的評分,計算本地數據質量評分,本地數據質量評分=重復值評分+缺失值評分+異常值評分+單一值評分,即:(5)

各參與方可事先約定本地數據質量評分閾值(既可設定單一評分閾值,也可以是總分閾值),若參與方的本地數據質量評分低于該閾值,說明其數據質量不高,其他參與方可拒絕與之一起進行聯邦學習。

2.1.2 聯邦數據質量評估

聯邦數據質量評估旨在判斷參與方對總體數據質量是否有增益作用,具體做法為利用隱私集合求交[32-34]、聯邦IV(information value)、聯邦線性相關系數等算法,分別計算數據樣本評分、IV評分和Corr評分,綜合上述3種評分,最終得到聯邦數據質量評估結果。

進行聯邦數據質量評估時,首先利用隱私集合求交技術將所有參與方數據進行樣本對齊處理,再進行多維度評分,從而評估聯邦環境下的數據質量。其中,隱私集合求交是在不共享原始數據的前提下,實現對所有參與方數據的交集運算,達到樣本對齊的目的。樣本對齊后,就可以計算樣本評分、IV評分、Corr評分,具體如下。

(1)樣本評分Ssample

樣本對齊后,計算樣本重合比例。假設參與方A無標簽,參與方B有標簽,將A與B的數據進行樣本對齊處理,然后使用樣本重合比例計算樣本評分,計算式如下:

其中,CA表示參與方A的樣本數量,CB表示參與方B的樣本數量,表示樣本重合比例,t為給定閾值。樣本評分越高,聯邦數據中的對齊樣本比例越大。

(2)IV評分SIV

IV用于衡量特征變量的目標預測能力的大小。一般來說,IV越大,該特征的預測能力越強,信息貢獻度越高。通過計算參與方數據每一列特征的IV,對聯邦特征的信息量進行評估,同時,可以根據IV對特征變量進行篩選。在二分類場景下,IV的計算式[35]如下:

其中,ib和gi分別表示第i個分組中屬于類別1和屬于類別2的樣本數量,bT和gT分別表示屬于類別1和屬于類別2的樣本總數。

與傳統的IV計算方式不同,在聯邦學習場景下,需要通過加密條件下的數據交互來實現IV計算??v向聯邦學習場景下的聯邦IV[20]計算流程如圖3所示,假設參與方A只有特征X沒有標簽,參與方B同時擁有特征X和標簽Y,C是協調方。

圖3 聯邦IV計算流程

● C先創建密鑰對,并將公鑰發送給A和B。

● B采用同態加密方法(如Paillier算法等)加密每一個樣本i的標簽值:yi和1-yi,并得到[[yi]]和[[1 -yi]],將其與明文ID一起發送給A。這是因為A沒有標簽,需要B提供密文標簽值。

● A在本地對所有特征進行特征分箱,在接收到B的密文標簽值和ID后,對每個分箱中的I D對應的密文標簽值進行加法同態求和,得到每個分箱中的再將其連同每個ID對應的分箱發送給C。

本文針對單個特征的評分標準為:

在應用實踐中,IV小于0.02的特征變量對預測幾乎沒有效果,IV位于[0.02,0.1)區間的特征變量預測效果較弱,IV位于[0.1,0.3]區間的特征變量預測效果中等,如果IV大于0.3,那么這個特征變量的預測能力很強[20]。

本文使用的IV評分就是用聯邦IV評估數據的信息量,具體計算式如下:

其中,p是特征數,Si是第i個特征的IV評分值。

(3)Corr評分SCorr

線性相關系數表示特征變量之間的線性相關程度,計算式[36]如下:

其中,xi表示變量X中第i個樣本的值,表示變量X的均值,yi代表變量Y中第i個樣本的值,表示變量Y的均值,Cov(X,Y)表示X與Y的協方差,Var(X)表示X的方差,Var(Y)表示Y的方差。Corr為線性相關系數(簡稱Corr值),其絕對值的取值范圍為0~1。通常來說,Corr的絕對值越接近1,變量X和Y之間的線性相關程度越高;Corr絕對值越接近0,X和Y之間的線性相關程度越低。也可以將多項式回歸系數[28]作為Corr(X,Y)。

針對聯邦學習場景下的線性相關系數計算,同樣需要通過加密條件下的數據交互來實現??v向聯邦學習場景的聯邦Corr值計算流程如圖4所示,假設參與方A只有特征X沒有標簽,參與方B同時擁有特征X和標簽Y,C是協調方。

圖4 聯邦Corr值計算流程

● C先創建密鑰對,并將公鑰發送給A和B。

● A計算本地特征X的方差Var(X),使用同態加密方法(如Paillier算法等)加密Var(X),得到X的密文方差[[Var(X)]],并將其發送給B。

● B先計算本地特征Y的方差Var(Y),接收到A的特征X的密文方差[[Var(X)]]后,計算,并將結果發送給C。

● A計算本地特征X與其均值的差值Diff(X),使用同態加密方法(如Paillier算法等)加密Diff(X),得到密文差值[[Diff(X)]],并將其發送給B。

● B在本地生成隨機掩碼R,R的取值范圍為(0,1),并計算特征Y與其均值的差值Diff(Y),在接收到A的密文差值[[Diff(X)]]后,計算[[Diff(X)]]與Diff(Y)的向量內積利用生成的隨機掩碼R對Cov(X,Y)進行加密,即R( Cov(X,Y)),并將加密后的[[R( Cov(X,Y))]]發送給C。

● C接收到B的密文[[R(Cov(X,Y))]]后,進行乘法同態解密,得到R(Cov(X,Y)),計算并將結果發送給B。

● B收到R(Corr(X,Y))后,使用隨機掩碼R解密得到Corr(X,Y)。

本文利用聯邦Corr值計算Corr評分SCorr,計算式如下:

其中,p是X的特征數,Corri表示第i個特征與Y的Corr值。

基于上述指標評分,計算聯邦數據質量評分:聯邦數據評分=樣本評分+IV評分+Corr評分,即:

根據聯邦數據質量評分,判斷參與方數據對于總體數據質量是否有增益作用。各參與方可事先約定聯邦數據質量評分閾值(既可設定單一評分閾值,也可以是總分閾值),若參與方的聯邦數據質量評分超過該閾值,則說明參與方數據能提升總體數據質量;反之,參與方數據可能降低總體數據質量,需進一步排查原因。

2.2 隱私計算場景下的數據質量優化技術實現

2.2.1 本地數據質量優化

本地數據質量優化主要基于本地數據質量評估結果,從完整性、規范性、一致性、準確性、唯一性等維度,對各參與方的數據進行本地優化[37]。關鍵技術包括重復樣本去重[38]、缺失值填充[39]、異常值清除[40]、數據標準化和歸一化[41]等。

2.2.2 聯邦數據質量優化

針對本地數據質量評分較低的情況,除本地數據質量優化外,還可以進行聯邦數據質量優化。具體如下。

● 聯邦缺失值填充:針對本地數據質量評估結果中缺失值評分較低的情況,除本地缺失值填充外,還可以進行聯邦缺失值填充,具體做法是對所有參與方的數據進行聯調統計分析,計算全局均值,然后采用全局均值對缺失值進行填充。

● 聯邦異常值處理:針對本地數據質量評估結果中異常值評分較低的情況,除本地異常值清除外,還可以進行聯邦異常值處理,具體做法是對所有參與方的數據進行聯調統計分析,計算每個特征的全局IQR值,將全局IQR值的上下限作為異常值的判斷標準,并使用全局均值對異常值進行填充。

● 聯邦標準化:針對數據質量評估結果中單一值評分較低的情況,除本地數據標準化處理外,還可以進行聯邦標準化處理。標準化是指計算目標列的均值μ和標準差σ,并對該列每個元素x進行(x-μ)/σ變換。標準化的作用是使處理后的數據服從標準正態分布。與本地數據標準化相比,聯邦標準化的不同之處在于利用所有參與方的全局數據計算均值μ和標準差σ,而不僅僅是各參與方的本地數據。

針對聯邦數據質量評分較低的情況,可以采取聯邦去重、聯邦特征篩選、聯邦字符串索引進行優化。具體如下。

● 聯邦去重:在聯邦數據之間去除重復樣本或無關特征。在橫向聯邦學習中,各參與方的數據特征要保持一致,同時要求數據樣本要保持唯一性。在縱向聯邦學習中,所有參與方需要找到具有共同ID的樣本,樣本ID不重合的數據不會參與到聯邦建模中。因此,各參與方除了要在本地去除重復樣本,還需要對聯邦數據進行去重處理。隱私集合求交技術在保護數據隱私安全的前提下,完成多方數據的交集運算,實現橫向聯邦數據特征對齊和縱向聯邦樣本對齊,在實現特征或樣本對齊的基礎上,去除多余數據,直到聯邦數據質量評估中的樣本評分達到要求。

● 聯邦特征篩選:特征篩選是為了從原始特征中找出最有效的特征,幫助減少特征的維度、降低數據冗余度,從而提升模型的性能。聯邦數據質量評估中的IV評分和Corr評分可分別用于衡量特征變量預測能力以及特征變量與預測變量之間的相關程度。因此,當聯邦數據質量評估結果中的IV評分或Corr評分較低時,可以基于聯邦IV和聯邦Corr值進行特征篩選,這有助于聯邦任務發起方確保參與聯合建模的特征維度能夠有效提升模型效果。具體做法是計算每一列特征的聯邦IV和聯邦Corr值,篩選出IV或Corr值較高的特征作為聯邦特征,繼續參與聯邦建模。

● 聯邦字符串索引:字符串索引的作用是將k個不同的字符串映射到區間[0,k-1]的k個整數上,從而完成從字符串到數字的轉變。聯邦字符串索引在聯邦學習場景下找到目標列出現的所有取值,并進行從字符串到數字的映射。

完成本地和聯邦數據質量優化后,再重新評估參與方的數據質量評分,只有參與方的數據質量評分達到或超過規定閾值,才允許該參與方的數據參與到聯邦建模中。例如,若某參與方本地數據質量評估中的重復值評分低于規定閾值,則可以要求該參與方進行樣本去重,直到重復值評分超過規定閾值。

2.3 隱私計算場景下的數據貢獻度評估技術實現

本文從建模的視角出發,通過計算參與方提供的數據對模型性能的貢獻來決定收益分配。因此,本文從數據集貢獻度、樣本貢獻度、特征貢獻度等維度來量化參與方總體的數據貢獻度。

● 數據集貢獻度CData。數據集貢獻度是指從數據量、數據質量兩個維度評估參與方在訓練樣本集方面的貢獻。數據集貢獻度有助于更好地激勵參與方貢獻更多高質量數據。具體做法是使用加權法計算數據集貢獻度,計算式如下:

其中,jψ表示第j個參與方的數據集貢獻度,m表示參與方數量,Tj表示第j個參與方貢獻的數據量,mT表示所有參與方貢獻的數據總量,jφ表示第j個參與方的數據質量評分,mφ表示所有參與方的數據質量總分之和,1β和 2β分別為數據量和數據質量評分的權重。

● 樣本貢獻度CSample。樣本貢獻度將各參與方訓練數據對模型效果的提升程度作為聯邦建模貢獻的評價標準,基本做法是將參與方訓練數據中的實例樣本刪除后重新訓練模型,并計算新模型的預測效果,可使用缺失法[23]計算各參與方數據 樣本對模型效果的提升程度。具體實現如下。

假設第i個實例對模型預測結果的影響表示[23]為:

其中,n表示樣本量大小,表示第j個實

也可以使用近似法估計每個參與方對建模效果提升的影響,具體做法是先從所有參與方中去除任意一個參與方,然后評估重新訓練的模型預測效果,最后將其與之前所有參與方數據參與訓練的模型預測效果進行對比。

● 特征貢獻度CFeature。特征貢獻度通過分析樣本中每個數據特征與模型預測結果之間的關系來量化數據特征對模型預測結果的貢獻度,可用Shapley值方法等[42-43]量化各參與方數據對模型預測結果的貢獻度。對于具體實例的特征變量xj,其Shapley值是該特征在所有可能的特征組合上對模型預測結果貢獻度的加權和,計算式[44]如下:

其中,φ表示參與方總特征貢獻度,m表示參與方的特征維度,n表示參與方的數據樣本總數,表示參與方第i個樣本中第j個特征的Shapley值。參與方的特征越多,其特征貢獻度越大。

基于上述3個貢獻度可以得到參與方的數據貢獻度C,計算式為:

其中,α1、α2、α3為權重系數。

對于聯邦而言,參與方持續地參與聯邦學習進程是其成功的關鍵所在。參與方加入聯邦,構建一個機器學習模型,訓練出的模型可以產生收益,參與方可以共享收益,以此為激勵。根據本文提供的貢獻度評估標準,可有效計算出各參與方數據對聯邦模型的貢獻度,可按照數據貢獻度比例進行收益分配。

2.4 小結

第2節圍繞數據質量評估、數據質量優化、數據貢獻度評估3個方面描述了隱私計算場景下的數據質量治理技術實現。其中,數據質量評估從本地域和聯邦域兩個層面考慮,建立了本地與聯邦兩個層級的數據質量評估體系,使用多個維度的綜合評分度量數據質量。同時,依據數據質量評估結果,分別對數據質量進行本地優化和聯邦優化,在數據不出本地、保障數據安全的前提下,聯合各方數據進行數據清洗及特征工程,全面提升參與方的數據質量。為了鼓勵更多的數據方積極參與到聯邦學習中,又從建模的視角出發,通過量化數據集貢獻度、樣本貢獻度、特征貢獻度,評估各參與方數據對整個聯邦模型的貢獻度,從而制訂一種公平公正的聯邦收益分配機制。

3 應用案例

某電力公司系統經過多年的信息化建設和完善,積累了大量數據資產,為了提質增效,公司決定挖掘電力數據的潛在商業價值。該公司聯合水務部門采用聯邦學習的方式,基于用電數據和用水數據進行群租房識別,但實際效果并不理想。通過對電力公司數據和水務部門 數據的深度調研分析發現,參與聯邦學習的參與方中,每個參與方存在數據粒度不同、樣本標準不統一以及異常值、缺失值數據較多等問題,導致各參與方的數據質量參差不齊,嚴重影響聯邦建模的性能。因此,如何對各參與方進行數據質量評估,提升參與聯邦學習建模的數據質量,避免因數據質量問題降低模型性能,成為亟待解決的問題。

本應用案例基于星環科技聯邦學習平臺Transwarp Sophon FL對群租房識別模型進行聯合訓練,Transwarp Sophon FL框架如圖5所示。

圖5 Transwarp Sophon FL框架

Transwarp Sopho n FL采用分布式的數據計算與存儲管理,集成同態加密、差分隱私、秘密分享、不經意傳輸、DH(Diffie-Hellman)算法等多種加密算法,保護數據隱私安全,使用聯邦學習、多方安全計算、隱私計算、加密網絡通信等多種功能,為多方安全建模提供完整的解決方案。同時,該平臺還提供了一整套數據質量治理方法,方便用戶在聯邦框架下進行數據質量評估、數據質量優化、貢獻度評估等工作,為AI模型的訓練提供大量優質數據,大大提升聯邦模型的性能。

在聯邦建模過程中,電網公司為主動方,水務部門為參與方,采用縱向聯邦學習模式,融合用電數據和用水數據,聯合構建群租房識別模型,部署方式如圖6所示。

圖6 群租房識別應用部署方式

為了提高聯邦學習模型的性能,本應用案例從數據質量評估、數據質量優化、數據貢獻度評估3個方面對用電數據和用水數據進行數據質量治理。其中,在數據質量的綜合評分中,本地數據質量評分的權重系數為0.4,聯邦數據質量評分的權重系數為0.6。在數據貢獻度評分中,數據集貢獻度、樣本貢獻度、特征貢獻度的權重系數均設置為1/3。本應用案例先分別計算電力公司和水務部門的本地數據質量評分和聯邦數據質量評分,然后依據各參與方的本地和聯邦數據質量評估結果,分別對用電數據和用水數據進行數據清洗以及聯邦特征工程等數據質量優化工作,并使用優化后的數據進行聯合建模,最后評估訓練數據的貢獻度,并分配收益。其中,群租房識別模型的數據質量治理流程如圖7所示。

圖7 群租房識別模型數據質量治理流程

在模型訓練完畢后,雙方協同使用用電數據和用水數據進行聯合測試,生成群租房預測名單,測試流程如圖8所示。

圖8 群租房識別模型測試流程

通過對比數據質量治理前后的群租房識別模型效果,驗證了Transwarp Sophon FL數據質量治理框架在隱私計算場景下的優勢。進行數據質量治理前,群租房識別模型的模型評估指標AUC[45]是0.7349,如圖9所示;進行數據質量治理后,群租房識別模型的AUC是0.8188,如圖10所示。進行數據質量治理后,群租房識別模型的AUC較之前提升了11.4%,為政府有效排查群租房,消除群租房造成的消防安全隱患,打造和諧、安全、美麗的生活環境做出了突出貢獻。同時,在聯合建模過程中,全程明文數據不出本地數據庫,有效保護了居民用水用電的數據隱私。

圖9 數據質量治理前群租房識別模型AUC

圖10 數據質量治理后群租房識別模型AUC

4 結束語

本文對隱私計算場景下的數據質量治理工作進行了研究和探索,圍繞數據質量評估、數據質量優化、數據貢獻度3個維度構建了一種隱私計算場景下的數據質量治理框架,通過實踐證明其在保護數據隱私的前提下,可實現隱私計算場景下的數據質量評估和優化,全方位提升了參與方的數據質量,提高了計算結果的精度。本文提出的隱私計算場景下的數據質量治理框架可被廣泛應用到金融風控、聯合醫療、保險智能定價、工業聯合運維、供應鏈管理等場景中,具有廣闊的應用前景。當然本文的研究尚有不足之處,比如本文考慮的隱私計算場景下的數據質量治理涉及大量的密文計算,計算效率還有待進一步提升;如何從數據治理視角防御多方隱私計算模式中的數據毒化[46],尚缺乏完善的解決方案。這些問題也是下一階段的重點工作。

猜你喜歡
參與方貢獻度聯邦
基于秘密分享的高效隱私保護四方機器學習方案
聯邦學習在金融數據安全領域的研究與應用
國有林業產業對地區經濟發展貢獻度的動態演繹分析
一“炮”而紅 音聯邦SVSound 2000 Pro品鑒會完滿舉行
303A深圳市音聯邦電氣有限公司
基于SNA視角的PPP項目參與方行為風險研究
BT模式研究
信息通信裝備體系能力貢獻度評估方法研究
聯合作戰太空作戰力量體系貢獻度仿真分析框架研究
綠色農房建設伙伴關系模式初探
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合