?

位置軌跡相關性差分隱私保護技術研究與進展*

2024-01-11 11:00秦呈旖魏曉超
密碼學報 2023年6期
關鍵詞:可用性差分軌跡

秦呈旖, 吳 磊,2,3, 魏曉超,3, 王 皓,3

1.山東師范大學 信息科學與工程學院, 濟南250307

2.河南省網絡密碼技術重點實驗室, 鄭州450001

3.山東省分布式計算機軟件新技術重點實驗室, 濟南250307

1 引言

在大數據時代, 隨著移動終端設備和GPS 定位技術的廣泛應用與發展, 基于位置的服務(location based service, LBS) 比如興趣點查詢、交通路徑規劃導航、社交網絡位置共享等成為日常生活中不可或缺的一部分, 給我們帶來諸多便利.基于地理位置的網絡空間以時間序列、行為軌跡以及地理上不可知信息標記相結合的方式, 幫助用戶同外部世界建立更廣泛、更緊密的連接, 增強網絡空間同地理位置之間的關聯性.同時, 位置服務提供商(location based service provider, LBSP) 也獲取和收集了海量用戶的位置[1]、軌跡信息以及其他相關時空信息, 以提高位置服務的精度和效率.然而, 由于其自身特性, 人們在享受這些便捷的同時也面臨著很多問題.其中最突出的就是隱私泄露問題.LBSP 是誠實且好奇的, 其可能是一個潛在的敵手.為了進一步獲取更有價值的用戶個人信息和商業信息以謀求利益, LBSP 會挖掘一些關于用戶的敏感信息、同一用戶在相似時刻和不同時刻的軌跡相關性, 以及多用戶之間的軌跡相關性.因此, 如何利用隱私保護技術對軌跡相關性進行保護成為一個亟待解決的難題.

基于時空的兩條相關行動軌跡可以體現或泄露單用戶的個人信息或兩個用戶之間的某些社會關系信息[2], 可以用來對用戶信息進行鏈接預測和評級預測.雖然用戶多軌跡的相關性可以對LBS 服務質量進行提升, 但也導致了嚴重的隱私問題.生活中存在大量的隱私泄露風險案例, 例如, 2016 年Uber 的隱私風波, LBSP 在乘客不使用App 時后臺持續搜索并記錄位置信息, 有員工利用權限追蹤歌手碧昂絲等名人的乘車信息, 并在乘客不知情的情況下搜集其個人信息.2017 年, GPS 追蹤公司Strava 基于用戶健身追蹤器(GPS) 位置信息繪制出一張全球范圍內用戶運動軌跡熱照片, 一位澳大利亞留學生從照片中發現這張軌跡圖曝光了美軍官兵在此活動的一些痕跡, 同時也找到了一些敏感的軍事基地輪廓.2020 年成都新冠確診女孩因其活動軌跡暴露, 這位女孩的個人信息被搜索出來發布到了網上, 并且遭到了網絡暴力.一個典型的示例如圖1 所示, 一個大型的追蹤新冠陽性患者應用程序, 假設敵手事先知道用戶A 和用戶B 的背景, 其中用戶A 是陽性確認病例, 用戶B 是其某個密切接觸者, 潛在敵手根據應用程序發布的軌跡可知他們經常在同一時間出現在同一地點, 敵手可推斷用戶A 和用戶B 是關系密切的, 可以根據相關的先驗知識來進一步確認他們的社會關系.綜上所述, 在基于位置的服務中不僅要保護用戶的基本位置信息, 還必須防止或限制用戶位置軌跡相關性的泄露, 以保護用戶之間的社會關系隱私, 從而達到完備的LBS 隱私保護.

圖1 通過位置軌跡相互性進行社會關系推理的示例Figure 1 Example of social relationship reasoning through location trajectory correlation

目前, 泛化(generalization)[3,4]、混合區(mix zones)[5]、抑制(inhibition) 以及擾亂(disturbance)是四類最常用的位置軌跡隱私保護方式.泛化和混合區均可用來保護用戶的軌跡隱私安全, 但其效果并不理想; 抑制與擾亂雖然能很好地保護用戶的軌跡數據隱私, 但是存在著一定的安全隱患.泛化是把軌跡中各時刻位置泛化為區域; 混合區更適用于車聯網, 利用路口轉換假名保護車輛信息; 抑制是依據用戶實際位置所處敏感區域大小抑制分發位置; 擾亂是給各時刻位置加上噪聲產生干擾位置分發.但是, 如果需保護的位置在敏感區域內, 在使用以上方法進行軌跡保護后, 敵手仍然可通過組合攻擊和背景知識攻擊[6]等多種類型的隱私攻擊方法獲得個人隱私信息.差分隱私(differential privacy, DP)[7]因其嚴格的數學定義以及量化標準可以彌補以上保護技術的缺陷.同時, 差分隱私技術不依賴于攻擊者所掌握的背景知識,敵手無法區分個人記錄是否包含在數據庫中.因此, 將其作為主要方法應用于用戶軌跡相關性隱私保護中[8,9]已成為當前隱私保護領域內一個重點研究方向.

近年來, 差分隱私保護技術與位置軌跡相關性隱私保護相結合的研究逐漸成熟[10], 其中, 大多相關研究工作涉及到單個用戶軌跡的位置以及運動模式等隱私泄露問題.根據用戶軌跡之間是否具有相關性, 現有的軌跡隱私保護方法可歸納為四類: 單條軌跡內無相關性隱私保護方法、單條軌跡內相關性隱私保護方法、兩條不同軌跡之間相關性隱私保護方法以及多條不同軌跡之間相關性隱私保護方法.其中, 現有研究位置軌跡相關性體現在時間上、位置上以及時空上隱私保護, 現舉例說明軌跡時間相關性、位置相關性以及時空相關性[11]存在的隱私泄露問題:

(1) 軌跡在連續時刻間可能存在某種相關性, 即使均在每個時刻對相應位置進行保護, 連續的軌跡仍然具有較大可能暴露用戶的真實位置.如圖2(a) 所示, 用戶在不同時刻的敏感位置均利用泛化技術進行擴大, 攻擊者亦根據用戶的移動模式、行為習慣等其它信息, 很大程度猜測出用戶此時此刻所處的位置(如晚上7:00 吃完晚飯, 通過這條軌跡的大約90% 的用戶會選擇去公園散步), 進而造成用戶隱私的泄露.

圖2 軌跡相關性示例Figure 2 Examples of trajectory correlation

(2) 現有隱私保護機制僅考慮單個位置的隱私泄露問題, 忽略地理空間上不同位置之間存在的相關性也會對個人隱私造成一定程度的影響.如圖2(b) 所示, 用戶所處的當前位置為A, 假設位置L 為敏感位置, 利用泛化技術將位置L 擴大到圓形區域內(敏感區域), 用戶從位置A 按照箭頭的方向出發, 由于位置A 不敏感, 因此會如實上報該位置, 經過一段時間, 用戶移動到位置B, 即使敏感位置所處的區域不會上報用戶的位置, 攻擊者根據位置A 以及敏感位置L 之間存在的拓撲關系, 較容易猜出用戶途經或停留在位置L 處, 從而泄露了用戶的位置軌跡隱私.

(3) 在連續查詢場景下, 用戶相鄰時刻的查詢請求具有時空相關性.為了保護相關性, 用戶需要在請求時間內到達下一個位置點.如圖2(c) 所示, 用戶在ti時刻所處的位置為M, 其所在的泛化區域還存在其它位置點M1,M2,M3,M4,而用戶在ti+1時刻所處的位置為N,其所在的泛化區域存在位置點N1,N2,N3,N4.M?→N 為用戶真實移動軌跡.攻擊者根據用戶的查詢間隔ti+1?ti和移動速度可推測出M4?→N2為假移動軌跡, 進而增加攻擊者猜測真實軌跡成功的概率.

在早期關于軌跡相關性隱私保護的工作[12–14]中, 研究學者基于樹重構的方式進行軌跡相關性隱私保護, 采用馬爾可夫模型[15], 在單個軌跡內實現差分隱私相關保護.此外, 利用地理和語義關聯[16]來合成軌跡, 實現軌跡隱私性和可用性的平衡.但是, 它們均不涉及用戶之間的軌跡相關性以及可推出的用戶之間社會關系的隱私保護需求.現有的方法和解決方案大多集中在單個用戶的位置軌跡隱私上, 極少考慮到多用戶地理空間以及時間上的軌跡相關性.

本文第2 節介紹了位置軌跡相關性隱私保護技術的基本概念.第3 節系統地分析了基于差分隱私的位置軌跡相關性的隱私保護方法, 對不同方案中的隱私保護方法進行分析比較.第4 節總結并展望基于差分隱私的位置軌跡相關性隱私保護技術研究中亟待解決問題和研究發展方向.最后第5 節總結全文.

2 相關概念

2.1 差分隱私基本定義

差分隱私是Dwork 等人于2006 年提出的一項隱私保護技術[7], 它將隨機干擾噪音加入到數據集中的查詢結果中, 在數據集中增加或刪除一條記錄時, 不會對查詢結果產生任何影響, 從而確保了數據的隱私性.中心化差分隱私的詳細定義如下所示.

定義1 (ε-差分隱私) 假設M是一個隨機算法,D1和D2是一組只有一條記錄不相同的相鄰數據集,對于算法M在相鄰數據集上的任意輸出O滿足不等式:

則隨機算法M則滿足ε-差分隱私.其中,ε表示隱私預算, 其值通常在ε ∈[0,1].ε越小, 表示隨機噪聲作用在相鄰數據集上得到相同結果的概率越高, 其隱私保護程度越高, 使得結果不可區分以此達到隱私保護的目的, 反之亦然.

2.2 全局敏感度

添加噪聲量大小影響保護數據的隱私性和可用性, 全局敏感度決定噪聲量的大小[17].

定義2 (全局敏感度) 假設有函數F:D ?→Rm, 輸入一個數據集D1, 輸出m維實數向量, 對于任意相鄰數據集D1和D2的全局敏感度為:

其中,‖?‖1稱為一階范數距離;F為在數據集D上執行的查詢函數.全局敏感度由查詢函數F作用在相鄰數據集D1和D2執行查詢操作的最大差異, 僅與查詢函數F本身有關, 與數據集D無關, 直接影響噪聲添加的多少.

2.3 噪聲機制

差分隱私中最常用的噪聲機制為Laplace 機制和指數機制.其中Laplace 機制通過Laplace 分布產生擾動噪聲添加到返回結果中, 使攻擊者無法分辨真實值和擾動值, 使結果滿足ε-差分隱私; 指數機制通過采用滿足一定分布的隨機抽樣來控制各種選項的輸出值來滿足ε-差分隱私, 其關鍵在于設置打分函數.然而, Laplace 機制適用于數值型數據, 具有一定的局限性, 而指數機制適用于離散型數據, 拓寬了差分隱私的應用范圍.

定義3 (Laplace 機制)[18]對于任意函數F:D ?→Rm, 其全局敏感度為ΔF, 若隨機算法M輸出的結果滿足

則算法M滿足ε-差分隱私.其中, Lap(ΔF/ε) 為服從Laplace 分布的Laplace 噪聲, 其大小與全局敏感度ΔF成正比, 與隱私預算ε成反比.

定義4 (指數機制)[19]給定數據庫D的一個效用估值打分函數u:(D,O)→R,r ∈O, 若隨機算法M滿足

則算法M滿足ε-差分隱私.其中, Δu為打分函數u: (D,r) 的全局敏感度, 打分函數越大, 表示被選擇輸出值r的概率越高.

2.4 組合性質

對于一個復雜的問題, 可以通過多個步驟來實現, 并且在滿足差分隱私的前提下, 每一個組元步驟都可以設置一個合理的隱私預算.差分隱私具有序列組合性和并行組合性兩種基本的結合特性.

定義5 (序列組合性)[20]給定數據集D, 存在n個隨機算法{M1,M2,···,Mn}, 每個算法Mi均滿足εi-差分隱私, 則Mi在數據集D上的順序操作滿足-差分隱私.序列組合性說明當有一個算法序列同時作用在一個數據集上時, 最終的差分隱私預算等價于算法序列中所有算法的預算的和.

定義6 (并行組合性)[21]給定一個數據集D, 將其分成n份互不相交的集合{D1,D2,···,Dn}, 每個集合分別對應于一個隨機算法{M1,M2,···,Mn}, 且每個算法Mi均滿足εi-差分隱私, 則Mi作用在數據集D上的并行操作滿足maxεi-差分隱私.

并行組合性說明如果所有算法處理的數據集彼此不相交, 那么該算法序列構成的組合算法提供的隱私保護水平取決于算法序列中的保護水平最差者(隱私預算最大者).

3 主要研究方向

在差分隱私模型下所保護的位置軌跡相關性的形式復雜多樣.其中, 依據相關性將位置軌跡相關性隱私保護分為三類: 單條軌跡內相關性保護、兩條不同軌跡之間相關性保護、多條不同軌跡之間相關性保護.除了嚴格的差分隱私模型外, 相對更為寬松的隱私保護需求如PufferFish 隱私[22,23]等也被采用以保護位置軌跡相關性, 以提升用戶高質量網絡服務的使用體驗.

隨著位置軌跡差分隱私保護技術的不斷發展, 位置軌跡差分隱私保護方案按照不同分類標準有著不同的分類方法, 如圖3 所示.

圖3 位置軌跡相關性差分隱私保護分類Figure 3 Classification of location trajectory correlation differential privacy preservation techniques

3.1 差分隱私模型下單條軌跡內相關性保護

在位置軌跡隱私保護工作方面, 由于軌跡中存在著不利于用戶隱私的時空相關性, 攻擊者能根據其因素進行挖掘, 推測出軌跡中存在的隱私信息以謀求利益, 但現有的隱私保護工作極少數涉及到軌跡在空間以及時間上的相關性, 故造成嚴重的隱私泄露的問題.在差分隱私模型下, 單條軌跡內相關性保護的目標是如何對軌跡在時間上、空間上以及時空結合的相關性進行凈化處理, 保證相鄰軌跡數據集的不可區分性,確保軌跡相關性隱私不被泄露.目前已有基于時間相關性、空間相關性以及時空相關性的軌跡相關性隱私保護方案.盡管它們仍對軌跡相關性的隱私保護具有較多的限制, 但是這些方法可以最大程度地提高軌跡的隱私性和可用性.

3.1.1 基于差分隱私的單條軌跡內時間相關性保護

針對差分隱私的單條軌跡內時間相關性保護方法可以分為建立相關模型和進行序列轉換兩種解決方式.第一種是通過建立相關模型來表示軌跡序列的時間相關性, 比如基于樹重構、基于馬爾可夫鏈等.第二種是序列轉換, 將位置軌跡相關性通過濾波轉換為特別的形式, 基于轉換的思想方案主要包括卡爾曼濾波、高斯白噪聲.

(一) 相關模型

建立相關模型的基本思想是通過建立相關模型來表示軌跡的時間相關性, 比如, 位置軌跡發布過程中轉移概率分布的馬爾可夫模型, 或能夠反映位置軌跡數據之間相關性的稀疏矩陣等, 在建立模型后, 這些均作為差分隱私敏感度函數的權重值, 以此來決定軌跡序列中添加噪聲的大小.

(1) 基于樹重構保護模型

一條軌跡可以抽象為按時間順序組成的位置序列, 如表1 所示.利用基于樹重構的保護模型來凈化表示軌跡的時間相關性, 顧名思義, 將軌跡數據集用“樹” 的形式表示軌跡的時序性, 再利用差分隱私保護模型對“樹” 的分支節點進行凈化調整, 以最大化提高軌跡的可用性, 最后得到重構后的軌跡數據集.其中,基于樹的保護模型包括搜索樹、前綴樹和預測后綴樹等.

表1 軌跡序列表Table 1 Trajectory sequence table

首先, 我們考慮最為普遍的、查詢效率高的前綴樹, 利用此方式來對軌跡的時間相關性進行保護.如圖4 所示, 依據表1 中的軌跡序列, Chen 等人[12,13]提出了一種基于前綴樹的數據依賴方式.如其名稱所示, 首先利用前綴樹的形式表示位置軌跡數據庫中要發布的位置軌跡數據, 以此來表示軌跡中的時間相關性, 利用差分隱私技術對軌跡數據進行修改和修正, 并根據重建的軌跡樹產生軌跡數據集, 進一步安全發布軌跡數據.

圖4 軌跡序列用前綴樹表示Figure 4 Sequence of trajectories is represented by a prefix tree

在基于前綴樹的軌跡相關差分隱私保護中, 采用了兩個階段來實現位置軌跡相關性的保護: (1) 構造噪聲前綴樹(保證了軌跡的時序特性); (2) 修正噪聲前綴樹(提高了軌跡的可用性).具體來說: 為了滿足差分隱私, 該方案需要保證從位置集合中形成的每條軌跡都有一定的概率出現在凈化的數據集中, 因此,原始軌跡數據集中的敏感信息可以被覆蓋.為了提高構建前綴樹PT 的存儲效率, 該方案采用了均分制的隱私預算劃分方法, 假設樹的高度為h, 故每個節點的隱私預算為ˉε=ε/h, 并以一種有噪聲的方式迭代地構造PT 的每個級別.對于所有的位置集合, 該方案提供了一個有效的方法: 分別處理前綴樹及軌跡中空節點和非空節點相關聯的孩子節點.對于非空節點, 如果噪聲計數≥θ, 則該節點屬于非空節點, 則保留該節點繼續擴展子節點.對于空節點, 為了提高算法的效率, 該方案設計了一個拉普拉斯機制的統計過程,遵循二項分布[24]B(m,pθ) 選取一個k值, 其中m為空節點的總數,pθ表示每個空節點隨機化后取值大于θ的概率.選取k個均勻隨機的空節點, 使得其計數值大于等于θ, 并服從以下分布:

然而, 由于差分隱私對軌跡進行保護時需要添加噪聲, 因此在軌跡發布之前, 還需對節點計數的一致性進行處理, 以此來消除由于噪聲的添加導致孩子節點的計數值之和大于父節點的計數值的情況.如果對不一致的情況未得到相應的解決, 由此產生的發布軌跡可能是無意義的, 也因此提供了較差的軌跡可用性.一致性的約束嚴格規定父節點的計數大于等于其孩子節點的計數總和.對修正后的前綴樹進行后序遍歷來生成私有軌跡發布.

以上的方案提出了一種數據依賴的解決方案, 基于現有軌跡數據遞歸來構造一個噪聲前綴樹.由于噪聲前綴樹的高度是由待發布的軌跡數據集中最長的軌跡長度所決定的, 但是隨著前綴樹的增長, 方案的數據效用變得很差.因此我們需要限定軌跡數據集中軌跡的最大長度, 對過長軌跡進行截斷處理, 這就使得有些軌跡的子片段被拋棄.因此, 為了提高軌跡數據可用性, Chen 等人[25]在2012 年首次引入n-gram模型(又稱搜索樹模型, 如圖5 所示) 作為在序列數據中實現差分隱私的有效方法, 用發布計數大于一個閾值和模型大小小于nmax的可變長度的n-gram 來對底層數據庫信息和添加拉普拉斯噪聲大小之間進行平衡.該方案開發了一系列計數來保證變長n-gram 模型下良好的效用, 包括自適應隱私預算分配方案, 閾值的正式選擇和一致性約束的執行.這些技術利用了n-gram 模型中固有的馬爾科夫假設允許減少注入的噪聲, 從而進一步提高了數據的可用性.具體來說, 在自適應隱私預算分配階段, 根據已知的噪聲計數自適應地預測一條路徑的長度hv, 在此之前, 需要依據馬爾科夫假設計算出Pmax的大小(其表示節點v向所有子節點轉移的概率最大估計值), 其定義如下:

依據公式c(v)·(Pmax)hv=θ得出剩余路徑的最大長度:

因此, 該節點v的隱私預算計算方式為:εv=ε/hv(ε為剩余的隱私預算).

由于搜索樹可能存在子節點噪聲計數總和不等于其父節點的噪聲計數, 并且一些子節點噪聲計數缺失.該方案提出一種一致性約束來解決此問題, 利用馬爾可夫假設來近似缺失的計數, 然后根據其父節點計數將子節點的計數標準化.因此n-gram 模型解決了軌跡數據應用差分隱私在其固有的序列性和高維性的問題, 提高了數據的可用性.

(2) 基于馬爾可夫鏈保護模型

人們的行為軌跡可以用一個簡單的馬爾科夫鏈很好地建模.馬爾科夫鏈是一種隨機過程, 描述了在狀態空間中從一個狀態轉換到另一個狀態的過程, 由一個有限數量的狀態組成.該過程具備下一狀態的概率分布只能由當前狀態決定的性質, 由于人類活動軌跡具有時序性, 下一位置僅與當前位置有關, 故利用馬爾科夫鏈來建模軌跡之間的時間相關性.

定義7 (α-DPT(differential privacy under temporal correlations)) 如果一個差分隱私機制的TPL小于或等于α, 我們認為該機制在時間相關下滿足α-差分隱私, 即α-DPT.

DPT是時間序列數據差分隱私的增強版本.這意味著時間隱私泄露在內是有界的.對于后向隱私泄露(BPL) 和前向隱私泄露(FPL), 設計一個多項式算法來計算.在不同的時間點上運行以進行連續的數據發布時, 在每個時間點都有一個恒定的Pi和不同的α作為輸入.最后, 設計一種有效的針對TPL 的數據發布機制, 在每個時間點仔細校對傳統差分隱私機制的隱私預算, 并提出一種新的隱私預算分配方式,在時間點1 和T分配更大的隱私預算, 在時間[2,T] 分配常量值, 以確保時間點[1,T ?1] 的BPL 是相同的, 用αBt表示, 在時間[2,T] 的FPL 相同, 用αFt表示, 使其滿足α-DPT.

由于以上方法具有差分隱私只保護用戶級別隱私的缺陷, Xiao 等人[29]提出了基于δ-位置集的差分隱私法來保護時間相關性下用戶在每個時間戳上的真實位置, 對單個用戶強制執行保護, 且合并用戶之間的時間相關性.兩個連續時間戳之間的位置變化是由通過馬爾可夫鏈建模的時間相關性決定的.因此, 為了保護真實的位置, 使用“δ-位置集” 來包括所有可能的位置(用戶可能出現的位置), 使其“隱藏” 在δ-位置集中.δ-位置集是一個包含先驗概率和不小于1-δ的最小位置數量的集合:

基于δ-位置集來定義差分隱私, 在任意時間戳t, 隨機機制A滿足δ-位置集ΔXt上的任意位置x1和x2,以下條件成立:

發布的位置zt在時間戳t上是差分隱私的, 保證了真實的位置總是在每個時間戳的δ-位置集中受到保護, 以便在時間相關性下進行持續的位置共享.

在差分隱私靈敏度的計算中, 由于l1-范數靈敏度不能捕獲多維空間中的幾何靈敏度, 提出了一種靈敏度殼的定義:

定義8 (靈敏度殼(sensitivity hull)) 查詢函數f的靈敏度殼Δf是凸包, 其中Δf是對于δ-位置集ΔX中的任意一對x1和x2的f(x1)?f(x2) 的集合,

因此, 基于δ-位置集的差分隱私框架以顯著的高效率和高效用發布不同的私有位置.

(二) 序列轉換

序列轉換方法背后的基本思想是在保持相關序列的同時將其轉化為獨立的形式, 同時保持其主要特征.例如, 可以根據人類活動軌跡中不同時刻位置的相互依賴關系, 通過構造相關函數和頻率序列來表示這些過程的特定相關性形式.這樣, 就能夠將它們轉化為特殊形式的相關性序列.該方法能提高軌跡數據的可用性.

由于軌跡在時間戳之間的相關性, 基于差分隱私發布具有序列性的軌跡數據會導致較高的擾動誤差,軌跡數據稀疏性給隱私性和可用性也帶來一定的挑戰[30].Fan 等人[31]提出了一種保護用戶不同隱私的實時框架和兩種估計算法(時間估計和空間估計).在每個時間戳中, 輸入的多維數據都受到拉普拉斯擾動機制的擾動, 以保證差分隱私.然后, 對于數據的可用性, 估計模塊對擾動數據進行后處理, 以產生更準確的版本.

具體來說, 對于時間估計, 其關鍵思想是利用頻率序列的內部時間序列模型函數, 并利用拉普拉斯噪聲擾動值估計真實的聚合值.根據道路網絡連接關系將每個單元劃分為稀疏或密集, 并為每個類別內的單元假設相同的內部模型, 對于每個單元c, 其頻率序列Xc可以用以下過程模型函數表示:

ωc被稱為過程噪聲, 它服從正態分布[32].Qc值表示相鄰時間戳之間的變化程度.

由拉普拉斯擾動機制得到的噪聲觀測結果可以建模如下:

每個單元計數的差分隱私預算是α/T, 因為總體隱私預算α被統一分配給每個時間戳.這里我們對每個單元采用v ~N(0,R) 高斯逼近, 并使用基于卡爾曼濾波的濾波技術, 對每個單元進行轉換, 之后進行后驗估計.綜上所述, 對于每個時間戳k和每個單元格c, 用預測程序推導出一個預測頻率.在接收到噪聲觀測后, 可以通過預測和觀測的線性組合, 用正確的程序得到一個后驗估計, 轉換為相關的軌跡序列, 極大地提高了每個時間戳發布數據的準確性.

對于空間估計, 依賴于簡單和實用的假設.為了應對由于數據稀疏下進行擾動導致的高相對誤差的情況, 根據空間鄰近區域將相似的單元格聚合成分區, 并在每個分區內執行估計, 假設分區內的對象均勻分布.由于四叉樹更適合于多維時間序列場景, 提出了一種基于四叉樹的自頂而下的空間劃分方法.總體來說, 假設每個分區內的單元具有相似的密度, 對于每個時間戳k, 從每個分區的單元格中聚合一個分區計數, 然后使用拉普拉斯噪聲計數來估計分區內每個單元的頻率.因此, 通過將噪聲計數均勻地分布到每個單元中, 降低了每個單元的擾動誤差.

然而, 以上方法使用的拉普拉斯噪聲具有獨立且同分布的缺點, 敵手可以通過濾波等細化方法去除相關時間序列中的獨立噪聲, 使有效性以及隱私程度低于預期.Wang 等人[33]提出了一種有效的相關時間序列數據發布解決方案(correlated time-series data publication solution via differential privacy, CTSDP),通過差分隱私,使用序列-不可區分性和相關的拉普拉斯機制(correlated Laplace mechanism,CLM)來解決上述挑戰, 并發布相關的時間序列數據.該方案定制了一種個人隱私泄露風險, 在相關時間序列中,利用差分隱私發布序列的挑戰是使得個人隱私泄露風險滿足差分隱私, 同時保持高可用性.如下所示:

如果滿足上述條件, 則認為CTS-DP 已經達到了ε-差分隱私.

CTS-DP 包括以下兩個階段: (1) 定義序列-不可區分性.然后, 導出滿足序列-不可區分性的噪聲序列的自相關函數.(2) CL 根據噪聲序列的自相關函數產生一個相關的拉普拉斯噪聲序列.CLM 通過一個特定的濾波器將四個高斯白噪聲序列進行轉換, 并輸出一個相關的高斯序列.序列-不可區分性的定義如下:如果噪聲和原始序列的歸一化自相關函數,RZ(τ) 和RXX(τ) 滿足RZ(τ) =RXX(τ), 敵手既無法區分噪聲和原始序列, 且不能利用原始序列的相關性知識來進行挖掘隱私信息以謀求利益.CLM 具體過程為:首先生成四個IID 高斯白噪聲[32,34]序列, 其參數由靈敏度函數和保護強度決定.將白噪聲級數通過一個特定的濾波器(即一個典型的線性系統), 得到了相關的高斯序列.最后, 根據從高斯級數生成拉普拉斯序列的原理, 轉換得到了一個相關的拉普拉斯序列.由于高斯白噪聲序列易于生成, CLM 可以在計算能力有限的設備上實現.

3.1.2 基于差分隱私的單條軌跡內位置相關性保護

對于單條軌跡內位置相關性保護, 我們將通過相關網絡數據的發布[35,36]來代替軌跡數據的發布進行描述.

由于網絡數據之間具有較高的相關性, 并且傳統的數據準備工作采取隨機采樣會導致較低準確性, 在保證高可用性和隱私性的前提下高效地發布網絡數據, 該研究尚未成熟.Zhang 等人[35]針對高維數據(軌跡數據) 的發布提出了一種基于差分隱私的隱私數據發布機制(PrivBayes), 該機制改變了傳統的采樣方式, 利用貝葉斯網絡建模的方式表示數據之間的相關性.PrivBayes 分為貝葉斯網絡N的構造、噪聲版本的條件分布Pr?[Xi|∏i] 以及合成發布數據集D?三個階段.k度貝葉斯網絡N的構造被建模為一個優化問題, 為輸入數據庫D中的屬性集A中每個屬性Xi選擇一個父集∏i, 最大化∑d i=1H(Xi)?H(A),

其中, 定義一個打分函數F(靈敏度很小), 將每個AP 對(X,∏)∈? 映射到一個分數:

F(X,∏)的值往往與相互信息I(X,∏)呈正相關,考慮相鄰分布之間的L1距離,其靈敏度為S(F)=1/n.受到隱私預算ε、數據庫元組總數n和噪聲邊際分布的有用性θ三個因素的影響,k的選擇應該平衡貝葉斯網絡的信息量和邊際分布的魯棒性.對于任何i ∈[k+1,d], 首先計算聯合分布Pr[Xi,∏i], 然后注入拉普拉斯噪聲(其尺度為2(d ?k)/nε2) 生成噪聲分布Pr?[Xi|∏i], 確保該過程滿足(ε2/(d ?k))-差分隱私.最后, 利用貝葉斯網絡N提供的采樣方法, 在不考慮其他隱私的情況下從條件分布Pr?[Xi| ∏i]中采樣每個Xi, 生成任意數量的元組來構建一個合成數據庫D?.從以上過程可以看出, 以貝葉斯網絡發布高維網絡數據是高效準確的, 這將為未來探索新的方向: 某些問題是否可以直接從物化模型及其參數中得到回答, 而不是通過隨機抽樣.

數據相關性的存在導致敵手區分兩個數據庫的能力有所增強.差分隱私在應用大數據相關性方面時,很容易受到數據之間相關性的影響, 進而影響差分隱私的效果.Chen 等人[36]針對數據相關性隱私保護的問題, 通過引入一個相關性參數k并結合差分隱私技術, 提出了一種相關性下的差分隱私保護機制(ε-differential privacy under correlation).給定一個隱私參數ε、一個相關參數k, 設置相關性差分隱私.

定義9 (ε-differential privacy under correlation) 如果對于具有相關參數k的任意兩個數據庫D1和D2,|D1ΔD2|=1 以及任何可能的輸出o ∈Range(A), 則機制A滿足:

由于數據之間存在相關性, 函數的輸出不僅影響單個記錄, 還影響其他所有相關的記錄, 利用group差分隱私, 在任何ε/k-差分隱私下, 也保證了k個記錄不同數據庫的ε-差分隱私.為了防止相關性帶來的隱私風險, 利用相關參數k來校準噪聲, 有以下結論:

因此, 方案在具有相關參數k的數據庫上滿足ε-差分隱私.在此基礎上, 提出了一個實用的非交互式的網絡數據發布解決方案, 可以防止對手學習到任何兩個個體之間存在的直接聯系.

3.1.3 基于差分隱私的單條軌跡內時空相關性保護

在單條軌跡內時空相關性隱私保護中, 由于軌跡在時間上、空間上存在隱私泄露的風險, 故需要對軌跡的時空相關性進行保護.關于基于差分隱私的單條軌跡內時空相關性的采樣方法除3.1.1 節中的以外,還存在基于參考系統采樣、基于自適應采樣機制等方法.

(一) 基于參考系統采樣

基于參考系統采樣的主要思想是依據人類的運動速度、運動模式、軌跡特征以及密度等因素建立一種參考系統, 對軌跡進行不同程度地映射, 形成高效用的校正軌跡, 從而實現了保護軌跡時空相關性的目的.

為了方便簡單地捕獲軌跡中時空相關性,He 等人[37,38]不再直接使用馬爾可夫模型,而是建立差分隱私軌跡(differentially private trajectories,DPT),以此建立一種新的層次參考系統(hierarchical reference systems, HRS) 模型, 該模型可以捕獲原始軌跡中不同速度范圍內的運動, 將原始軌跡按照不同速度劃分成多個軌跡片段(離散化), 較長的步長(慢速度運動) 映射到劃分更粗糙的層次參考系統, 反之較短的步長(快速度運動) 映射到劃分更精細的參考系統中.接下來, 構造前綴樹集合HRS→{T1,T2,···,TM}.前綴樹被實例化為參考系統, 每個前綴樹僅記錄某一層次系統下的軌跡段集合.為了保證差分隱私, 前綴樹節點計數中添加拉普拉斯噪聲進行擾動, 并對前綴樹進行剪枝以進一步提高軌跡數據的可用性.以上不免會造成大量誤差:

前者為前綴樹噪聲計數誤差, 后者為前綴樹剪枝造成的誤差.整體隱私預算分為ε=εs+εr, 前者為選擇樹添加的隨機噪聲分配的隱私預算, 后者為前綴樹計數添加噪聲所分配的隱私預算.因此, 為了降低誤差大小, DPT 使用一種新的模型選擇算法來設置前綴樹的高度k來提高軌跡的可用性.該算法目標是找到高度為k的最優模型F+?, 使得模型滿足以下條件:

除此之外, 為了最大程度保留軌跡的方向性, 提出了一種新的后處理策略, 該策略引入一種新的方向加權采樣方案, 該方案對相鄰的單元格進行編碼, 并采樣軌跡, 首先為軌跡的每個方向dir 設置相等的權重wdir(x) =αc(dir,x)(權重隨著采樣過程而更新), 其中,x為軌跡前綴,α是一個大于1 的權重因子.當軌跡的長度較長時, 對應窗口大小為w, 利用wdir(x)=αc(dir,x|w|)來計算方向權重.

由于He 等人[37,38]對原始軌跡采樣存在效率低的缺陷, 而且隱私評估方法僅處理較短的軌跡(位置少), 因此, Wang 等人[14]提出一種基于差分隱私的軌跡校準和發布系統(private trajectory calibration and publication system, PTCP).首先, 在考慮軌跡的特征和密度的情況下, 建立一種基于聚類的方法來提取軌跡數據庫中的特征點, 以此作為錨點, 并使用具有σ >0 尺度的拉普拉斯噪聲來擾動位置, 以此來建立基于泛化的錨點參考系統(reference system, RS) RSA= [a1,a2,···,am].接下來, 為了降低校準計算成本, 對每條軌跡進行R-tree 索引, 基于幾何圖形的校準方法將其位置點映射為錨點, 形成校正軌跡.為了保護不同隱私需求的軌跡, 提高實用性和效率, 提出了一種軌跡發布機制, 建立噪聲增強前綴樹, 利用馬爾科夫假設將噪聲增強擴展到足夠的長度.對于非葉子節點, 使用估計高度函數來估計該節點子樹hs的高度, 估計噪聲計數的大小為c′(currentnode)?Phstmm ≤θ,Xmax為前綴樹中從根節點到一個葉子節點的最大程度,hs應該限制在Xmax?i中, 因此子樹的高度為:

(二) 基于自適應采樣

基于自適應的采樣機制方法, 其基本思想是在差分隱私的保護模型下依據軌跡數據的動態變化進行動態調整隱私預算, 降低擾動誤差, 從而對軌跡數據更為準確地采樣.

現有方法大多集中在靜態數據的一次性發布, 而對于數據流來說, 其需要進行實時的收集和發布[39,40], Wang 等人[41]研究具有時空相關性的眾包數據發布問題, 提出了一種在無限流上的在線聚合監控方案RescueDP.其中, 設計了一種自適應采樣機制, 依據數據動態變化以及剩余隱私預算來調整采樣率, 為了減小誤差, 定義一種采樣間隔確定}, 使用PID 誤差δj的相對值和拉普拉斯噪聲λr= 1/εr的尺度來決定是增加還是減少采樣間隔.為了有效地分配隱私預算, 提出一種自適應隱私預算分配方式, 考慮分區p和采樣間隔I之間的關系(隨著I增大, 分區比例會緩慢增加), 讓p= Φlin(I+1) 來避免給下一個采樣點留下太少的預算, 因此, 當前時間戳所分配的隱私預算為εi= min(p·εr,εmax), 其中εmax用來限制當前時間戳分配隱私預算的最大值.為了降低較小統計量所造成的擾動誤差, 提出一種動態分組機制, 利用已經發布采樣點的統計數據來預測當前采樣點統計數據的值,利用皮爾遜相關系數[42]來度量統計學變化趨勢的相似性, 將較小統計量的區域變化趨勢的相似性歸為一組.接下來, 對每一組添加拉普拉斯噪聲對統計值進行以下擾動:

然后對每個區域的擾動統計量取平均數M(g[j]) =M(g)/φ,?j= 1,2,···,φ.由于時間序列具有豐富的時空相關性, 最終使用過濾機制(卡爾曼濾波[43]) 來提高已發布數據的準確性.RescueDP 較現有的方法, 提高了數據的準確性和可用性.

(三) 基于馬爾可夫鏈采樣

由于馬爾科夫鏈表示狀態空間中, 依據狀態轉移概率矩陣, 從當前時刻狀態到下一時刻狀態轉換的隨機過程, 利用馬爾科夫鏈對運動軌跡進行采樣, 既能模擬軌跡內的時間相關性, 也能模擬用戶真實位置軌跡內的時空相關性.

為了進一步提高軌跡數據擾動之后的可用性以及軌跡相關性保護的計算效率, Gursoy 等人[47]提出了一個具有不同隱私和攻擊彈性的可擴展的軌跡合成器(AdaTrace), 通過研究用戶的真實軌跡, 來提取四個空間和統計特征: 密度感知網格、馬爾可夫鏈遷移率模型、出行分布以及路線長度分布.為了考慮到不同隱私和攻擊彈性的因素, 可以對四個特征使用不同的噪聲機制進行特征提取和擾動.首先對旅行長度分布進行研究, 來確定軌跡合成的長度, 對于密度感知網格, 網格存在過于粗糙和細致的問題, 提出了一個具有密度自適應網格力度的網絡, 對于密度高的區域, 劃分更細致; 反之亦然.為了提高軌跡的可用性, 需要模擬軌跡的移動性, 采用馬爾科夫鏈進行移動建模.為了保存軌跡起始點和結束點之間的相關性, 需要對軌跡的行程分布進行計算, 其過程如下:

以上生成一個具有較高數據可用性以及較低計算量的合成軌跡, 并有效地抵抗不同推理攻擊[48], 以此來保護軌跡中的敏感信息.

為了進一步最大化高效地保留軌跡中的空間和時間信息, 提高隱私保護的實用性和效率, 降低所需的計算量,Ghane 等人[49]提出了一種基于差分隱私保護時空相關性的軌跡生成機制(trajectory generative mechanism, TGM), 該機制分為編碼和軌跡生成階段, 編碼階段提出一個概率圖形生成模型以精確地對軌跡中的位置進行編碼, 利用空間和時間聚合函數將軌跡T轉換為聚合域, 并擬合馬爾可夫過程來估計軌跡中下一個位置的狀態(停留、移動、終止), 其中, 轉移概率利用g(m,v,Ti) 的圖計數查詢來計算,

上式中c(v,Ti) 表示在一個特定節點v上帶有前綴Ti的軌跡數量, 其中m= 1 表示移動事件的統計, 以此來生成圖形模型G.對于軌跡生成階段, 提出一種自適應添加噪聲的算法, 該算法能夠保持任意長度的軌跡運動模式, 最大化保留軌跡的時空信息.轉移概率的計算過程中, 利用節點效用來選擇起點的位置:

3.2 差分隱私模型下兩條不同軌跡之間相關性保護

3.1 節講述了各類單條軌跡內相關性在差分隱私保護模型下的隱私保護方法, 但這些方法僅考慮干擾一個用戶的位置軌跡, 而沒有考慮多個用戶之間的位置軌跡相關性, 相關軌跡的發布可能會泄露敏感的社會關系.因此, 這些技術不能很好地抵御各種攻擊.目前, 差分隱私應用軌跡間相關性隱私保護存在以下挑戰: 保護個人軌跡的隱私保護; 保護不同用戶之間的位置軌跡相關性隱私保護.

為了在嚴格的差分隱私模型下保護不同用戶之間的位置相關性, Ou 等人[50]提出了一種基于隱馬爾可夫模型(hidden Markov models, HMMs) 的私有軌跡發布機制.該機制首先構造相鄰軌跡數據庫, 使用HMM 生成一個可能的軌跡集(probable trajectories sets, PTSs), 并利用HMM 相似性來衡量兩個用戶中間可能軌跡集合中的相關性并定義一個位置相關性系數Sij= ∑(∑Slij/t)/n, 當Sij ≥λ, 表示相關性較大; 反之亦然.選取用戶Ui和Uj中位置相關系數Sij <λ內的所有可能的位置軌跡, 并結合用戶的真實軌跡RTi, 一起構造私有候選集合(private candidate sets, PCS):Ct=ct ∈(TUi ?RTi),TUi表示用戶Ui在HMM 運動下的所有可能位置軌跡集合, 以此來構造相鄰數據集.在此基礎上, 提出了一種位置相關性保護機制, 在時間段t內, 一個隨機機制R基于PTS 滿足ε-差分隱私, 對于任何zt(要發布的位置軌跡) 都有:, 確保了兩個個體之間的位置相關性在時間t內得到了差分隱私保護.對于敏感度Sf的計算相當于一個人的位置軌跡數據可以改變查詢函數f的最大變化, 分析傳統差分隱私敏感度的計算可以得出敏感度與查詢數量ρ有關, 即Sf=ρ.最后, 提出一種軌跡發布機制, 該機制輸入用戶的真實位置軌跡RT, 輸出從私有候選集合Ct中隨機選擇的發布位置軌跡zt, 其目的是保護個體之間的位置相關性.

在凈化軌跡發布之后, 如果不對其進行處理, 則用戶將會享受較低的網絡服務質量.高效用意味著原始軌跡不會被扭曲太大.針對此問題, Ou 等人[51]在2018 年研究社會關系與軌跡相關性之間的關系, 提出了一種基于差分隱私的發布相關軌跡隱私保護機制.該機制通過嚴格的數學模型來建立一個基于軌跡距離的分數測量方法S=S(x)S(y), 以此來量化兩個用戶之間的社會關系,S越大, 說明社會關系越強, 反之亦然.針對社會關系, 依據最大不同的相鄰軌跡距離和敏感度, 提出一個n-體拉普拉斯框架D′(a,b) =D(a,b)+δ, 以此來保護社會關系免受各種攻擊.為了提高發布軌跡的可用性, 基于精確位置的服務以及基于雙用戶位置相關性的服務, 提出了兩種基于拉格朗日乘子的差分隱私方法, 即UD-LMDP和UC-LMDP, 并提出了位置相關性系數來衡量不同軌跡之間的相關性強弱, 即:

通過LM (Lagrange multiplier) 方法分別得到最優的拉普拉斯噪聲尺度參數集bud和buc, 以實現給定效用ud下的最大隱私性minε|Ud=ud以及給定位置相關效用uc的最大隱私性minε|Uc=uc.最后, 依據拉普拉斯噪聲參數集合安全地發布凈化軌跡.

以上方案均對兩條不同軌跡之間的位置相關性進行保護, 但是均未考慮時間因素, 現如今保護不同用戶之間的時空相關性研究尚未成熟.因此, 保護軌跡中時空相關性是一個亟待解決的問題.

3.3 差分隱私模型下多條不同軌跡之間相關性保護

3.1 與3.2 節所陳述的方案僅僅適用于小于等于兩個用戶的情況, 均未考慮多個用戶不同位置軌跡之間相關性.即使軌跡受到現有方法的擾動, 由軌跡相關性引起的隱私泄露仍然存在.

為了解決發布大量軌跡時, 由于軌跡相關性而導致的隱私泄露問題, Yu 等人[52]提出了一種基于差分隱私的相關軌跡發布方法(correlated trajectory publication with differential privacy, CTP).首先, 該方法分離用戶真實軌跡, 并通過拉普拉斯機制自適應網格劃分方法將地理區域離散化為網格G, 并計算每個單元格中軌跡的單元格訪問的歸一化次數, 其計算方法如下所示:

由于q(Ci) 是歸一化的, 所以q的敏感度為1, 添加拉普拉斯噪聲以確保軌跡單元的隱私性, 并得到軌跡單元訪問概率向量.

為了更好地保護軌跡相關性, 利用單元訪問概率向量量化軌跡相關性S(Tci,Tcj) = sim(Pci,Pcj), 并對其利用進化算法(evolutionary algorithms, EAs)[53]中的粒子群優化算法(particle swarm optimization,PSO) 約束優化來削弱不同用戶之間的相關性, 如公式所示:

3.4 對比分析

基于差分隱私模型的軌跡相關性隱私保護是近年來受到廣泛關注的研究內容, 其研究受到差分隱私以及軌跡隱私保護領域的影響.表2 對基于差分隱私保護的軌跡相關性進行了對比與總結.從安全性角度出發, 前述各方案采用Laplace 機制、指數機制或兩者兼并進行噪聲注入, 均滿足隱私保護要求較為嚴格的ε-DP 模型.需要注意的是, 即使隱私保護程度選擇相同的模型, 方案注入的噪聲規模也不盡相同, 導致方案可用性存在較大差異.以上方案中, 對于可用性的衡量分別采用平均相對誤差、準確率、F1-score、KL散度等指標評估隱私保護結果的可用性.表3 與表4 對現有方案中軌跡相關性主要方法的優缺點進行分析總結.總體來說, 對于單用戶軌跡內相關性隱私保護在時間相關性、位置相關性以及時空相關性方面的研究日益成熟, 在差分隱私的保護模型下實現了隱私性以及可用性之間的均衡, 但僅僅局限于單用戶的單條軌跡相關性的保護, 未考慮多個用戶軌跡之間的相關性, 在使用這些隱私保護方案對單用戶軌跡內相關性進行保護時, 敵手仍能依據背景知識進行推理攻擊, 造成巨大的隱私泄露風險.此外, 由于很難用嚴格的數學表達式來量化與兩個用戶以及多個用戶軌跡相關的社會關系, 以及很難為保證隱私保護而提高數據的可用性, 因此雙軌跡之間的相關性以及多軌跡之間的相關性研究[50–52]較少.防止通過不同軌跡之間的相關性來推理社會關系是一個具有挑戰性的隱私保護問題, 需要對相關工作進行大量研究.

表2 位置軌跡相關性隱私保護主要方法的特點對比Table 2 Features comparison of main approaches to privacy preservation for location trajectory correlation

表3 多用戶(≥2) 軌跡內相關性主要方法對比Table 3 Comparison of correlation privacy preservation methods within multi-user (≥2) trajectories

表4 單用戶軌跡內相關性主要方法對比Table 4 Comparison of correlation privacy preservation methods within single-user trajectories

4 未來研究挑戰

軌跡相關性隱私保護是一個新興的研究領域, 現有的技術方法面臨著各種挑戰, 還有很多方面值得研究人員深入研究.下面從三方面簡述可深入研究的展望供研究人員參考:

(1) 傳統差分隱私保護技術在軌跡相關性中的改進與應用

從當前差分隱私的研究成果來看, 其保護作用在大數據環境下的應用往往是被動執行的, 無法依據查詢函數的種類來主動執行, 被動執行保護會造成噪聲添加程度不合理.此外, 大多數工作均不考慮用戶的個性化保護, 僅考慮單個位置的隱私保護, 噪聲過大或過小都會對差分隱私的保護水平和數據可用性造成影響.在差分隱私軌跡相關性隱私保護工作中, 隱私預算ε的設置和分配是一項極其重要的工作.研究者應考慮多因素(用戶的時間、速度以及運動模式等) 構造高效的自適應個性化隱私預算模型, 在有效保護隱私的前提下提高數據的可用性, 盡可能在功能和效率之間尋求平衡.因此, 針對不同保護對象的類型和隱私需求, 構造智能化的主動差分隱私保護框架有待深入研究.

(2) 挖掘軌跡相關性中的其他隱私保護模型

將差分隱私框架用于實現軌跡相關性的隱私保護, 往往隨著發布軌跡的次數增加而噪聲也增加, 導致隱私預算快速耗盡, 造成發布軌跡的可用性較差.針對此問題, 現有的彌補方法有動態的局部敏感度、平滑敏感度以及滑動窗口, 旨在在發布結果的隱私性和可用性之間取得平衡.但是, 針對多個用戶之間的位置軌跡的關聯性也需要添加額外的噪聲進行保護, 在差分隱私領域, 混洗差分隱私(shuffled differential privacy)[54,55]、PufferFish 隱私[22,23]以及ρ-差分可辨性[56]等通用隱私保護模型應用越來越廣泛.前者是一種介于差分隱私和本地差分隱私之間的差分隱私模型, 用戶不需要像傳統本地化差分隱私一樣加入大量的噪聲也能實現相同水平的隱私保護效果.后者是差分隱私的推廣, 旨在解決相關數據的隱私問題.深入研究不同隱私保護模型應用于軌跡相關性隱私保護的優缺點, 選擇高效的隱私保護模型是未來軌跡相關性隱私保護領域內值得探究的重要方向之一.

(3) 軌跡相關性建模的合理設計

在基于差分隱私保護位置軌跡相關性的方法中, 單條軌跡內相關性隱私保護研究逐漸成熟, 不同用戶(兩個或三個以上) 之間的位置軌跡相關性隱私保護研究的相關研究較少, 為了在嚴格的隱私保證下保護多條軌跡之間相關性, 必須通過安全的個人軌跡發布機制來解決軌跡相關性的公開問題.軌跡在空間和時間特征的影響下, 敵手可以從中挖掘大量的敏感信息以謀求利益, 故多條軌跡之間的軌跡相關性需要進行嚴格的定義, 并提出合理高效的量化標準.目前已經有隱馬爾可夫相似性、余弦相似性、豪斯多夫距離法等若干軌跡相關性量化方法, 但如何在個人軌跡相關性合理建模中實現多隱私因子支持, 并且在軌跡相關性精準度量的基礎上, 對軌跡數據進行有針對性的技術處理, 從而實現對多條軌跡之間的位置軌跡相關性的高效隱私保護, 有待未來結合應用進一步分析與研究.

5 總結

差分隱私近年來被廣泛應用于位置、軌跡發布以及位置軌跡相關性的研究, 并取得了豐富的研究成果.本文闡述了基于差分隱私保護模型的位置軌跡相關性保護技術的基本方法和研究進展, 同時展望了未來的研究方向.總的來說, 軌跡相關性隱私保護是一個多學科結合的領域, 作為新興的研究領域現有的技術方法仍然面臨著各種挑戰, 希望本文能對本領域的研究學者有所幫助.

猜你喜歡
可用性差分軌跡
基于文獻計量學的界面設計可用性中外對比研究
數列與差分
基于輻射傳輸模型的GOCI晨昏時段數據的可用性分析
軌跡
軌跡
軌跡
進化的軌跡(一)——進化,無盡的適應
空客A320模擬機FD1+2可用性的討論
基于差分隱私的大數據隱私保護
相對差分單項測距△DOR
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合