?

面向大數據分析的差分隱私在線學習策略研究

2019-06-27 09:39徐紅兵
信陽農林學院學報 2019年2期
關鍵詞:數據量差分線性

徐紅兵

(萬博科技職業學院 理工分院,安徽合肥,230031)

大數據不僅僅是指數據量大,同時也意味著數據中蘊含的信息也有巨大的價值。但在研究過程中存在著數據被泄露的危險,且存在于數據交互的諸多環節中,很容易造成數據庫中用戶隱私數據的泄露,甚至被一些不法人員用來進行電話詐騙的媒介,所以大數據時代的隱私保護也成為了亟待解決的問題[1]。

在數據挖掘中最基礎、最頻繁的動作就是數據的線性查詢,因此,線性查詢在數據的隱私保護中占據著極其重要的位置,尤其是交互式線性查詢,更是增加了數據訪問過程中數據的處理量,數據量偏大使得傳統數據隱私保護模型的檢測效率往往較低[2]。本文針對大規模數據集隱私保護的需求和交互式數據訪問的特點,提出了改進的差分隱私保護模型。改進模型通過對大數據集的關聯性進行分析以減少交互式查詢過程中冗余信息的計算,采用交替方向乘子法提高負載矩陣的分解速度,最后采用自適應加噪技術生成差分隱私模型所需的噪聲數據以解決數據靈敏度問題。

1 差分隱私保護模型

上世紀60年代,Dalenius第一次提出了隱私保護的問題,隱私保護的主要思想是包含使用者和入侵者在內的任何用戶在訪問數據庫數據時都無法獲取準確的信息。隱私保護可以分為分組隱私保護和差分隱私保護,常見的有k-匿名分組保護算法、差分隱私保護算法等[3]。

數據隱私保護存在于許多領域中,數據查詢是隱私保護領域中最基礎、最常見的一個環節。線性數據查詢通常分為交互式與非交互式兩種,交互式查詢更多的用于具有保密要求的數據交互中,交互過程中會對交互數據進行處理,所以交互的開銷會受到交互的數據量量級的影響。如果在大數據的交互過程中仍然采用原始的線性查詢隱私保護策略,則會使得數據處理的時間開銷難以令人接受,所以對大規模數據集的隱私保護模型進行改進極有必要。

差分隱私保護模型的基本思路是數據集中任意個體的存在與否對用戶的查詢結果不會造成劇烈影響。設數據集為D,其中的個體數據為A,對數據集查詢的動作為f,查詢的結果用f(D)表示。如果將數據集D中的個體A刪除掉,并重復查詢動作f所獲得的結果仍然為f(D),則認為數據A存在于數據集D中與否并沒有對數據集D產生任何風險。M表示差分隱私保護的隨機算法,PM表示隨機算法M所有可能輸出的集合,如果隨機算法M對于任意的數據集D、數據集D’與結果集PM的所有SM都滿足式(1)的約束,則稱隨機算法M具備ε-差分隱私保護的能力,其中ε表示隱私保護預算。

Pr[M(D)∈SM]≤exp(ε)×Pr[M(D’)∈SM]

(1)

2 大數據環境中交互式查詢差分隱私保護模型

2.1 模型結構總體設計

差分隱私保護模型應用于大數據環境下的交互式查詢的基本思路是:(1)獲取數據間的關聯關系以減少冗余計算;(2)采用交替方向乘子法對查詢負載矩陣進行分解;(3)采用自適應的加噪算法實現數據加噪;(4)返還真實結果。改進的差分模型的結構圖如圖1所示,可以看出模型供分為三個部分,即數據關聯屬性計算、負載矩陣的高效分解、數據加噪和去噪。其流程為:(1)在數據集中查詢并獲取數據;(2)設置最小支持度和最小置信度,并通過計算負載矩陣間的關聯關系,減少冗余的數據計算;(3)對關聯關系和負載矩陣進行分解,獲取分解結果;(4)對矩陣分解結果L和數據集D添加Laplace噪聲,以實現差分隱私保護;(5)將添加噪聲的結果返回給查詢的用戶。

圖1 大數據環境中交互式查詢差分

2.2 基于關聯規則的數據篩選模型

改進的差分隱私保護模型選用FP-growth算法[4]對數據中隱藏的關聯模式進行挖掘,通過關聯模式實現冗余數據的篩選。

圖2 基于關聯規則的數據篩選模型流程圖

如圖2所示,基于關聯規則的數據篩選模型具體流程如下:

(1)全面掃描數據集,獲取頻繁項候選集;

(2)根據最小支持度minSup對頻繁項候選集進行篩選,構建FP-tree;

(3)對構建的FP-tree進行剪枝處理;

(4)利用剪枝后的FP-tree樹建構前綴路徑集合;

(5)利用前綴路徑集合獲取數據關聯模式。

2.3 基于差分隱私的自適應加噪模型ANMDP

圖3 基于差分隱私的自適應加噪模型流程圖

基于差分隱私的自適應加噪模型流程圖如圖3所示,具體流程為:

(2)利用Laplace機制對數據集L和數據集D添加ε噪聲;

(3)去掉數據的無關屬性,并對其還原;

(4)返回數據結果

3 實驗與結果分析

3.1 數據無關性分析

通過設置最小支持度,計算出數據集的關聯關系,結果如表1所示。

表1 關聯性分析表

從表1可以看出,經過處理后數據項的數量有效減少,降低了后續計算的壓力和時間、空間開銷。

3.2 隱私保護結果

表2 隱私保護結果表

表2結果為改進的差分隱私保護模型與LRM模型[5]、MM模型[6]相比較的結果,表中數值表示添加噪聲前后的數據距離。從表中結果可以看出,當ε為1.25時,三種算法的結果接近,其他情況時,改進的差分隱私保護模型結果要更好些。

4 結論

文章針對大數據交互式查詢過程中存在的差分隱私保護問題和隱私檢測效率偏低的問題,結合大數據交互式線性查詢特點和差分隱私保護特點,通過引入關聯模型減少冗余信息的計算,采用交替方向乘子法對查詢負載矩陣進行分解,并采用自適應加噪技術生成差分隱私模型所需的噪聲數據,最后采用實驗驗證了本文模型的有效性。

猜你喜歡
數據量差分線性
RLW-KdV方程的緊致有限差分格式
符合差分隱私的流數據統計直方圖發布
二階整線性遞歸數列的性質及應用
數列與差分
基于大數據量的初至層析成像算法優化
線性回歸方程的求解與應用
高刷新率不容易顯示器需求與接口標準帶寬
寬帶信號采集與大數據量傳輸系統設計與研究
非齊次線性微分方程的常數變易法
?N上帶Hardy項的擬線性橢圓方程兩個解的存在性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合