基于生成對抗網絡反饋的社交網絡差分隱私保護方法

2024-01-09 13:20陳旭林

蘭州工業學院學報 2023年6期

陳旭林

(福建水利電力職業技術學院信息工程學院, 福建三明 366000)

社交網絡的大規模應用,讓越來越多的人參與到社交網絡的活動當中,正因如此,社交網絡中可以獲得大量用戶的隱私數據,且隱私數據涉及的領域非常廣泛,一旦被竊取,將會給用戶和社交平臺帶來極大的危險[1]。同時,對于個體而言,個人隱私被泄露,也會導致個體對社交網絡失去信心,從而減少對社交網絡的使用,阻礙社交網絡的發展。因此,如何保護隱私信息成為一個炙手可熱的話題[2]。劉曉娜等[3]利用GDK-means算法,對高校貧困生信息通過聚類處理的方式進行隱私保護。但該方法需要消耗大量的計算時間和資源。蘇晨等[4]利用差分隱私對電力客戶數據進行編碼,并將編碼后的數據進行聚類處理,通過計算數據的節點和連接點,保證數據的安全性。但GDK-means方法需要較多的迭代計算和參數調整,增加了計算和調試的復雜性。

在上述研究的基礎上,本文設計了一種利用生成對抗網絡反饋機制的社交網絡差分隱私保護方法。通過構建社交網絡隱私風險量化模型,對隱私數據進行聚類處理,從而實現對社交網絡差分隱私數據的保護。試驗結果表明該方法能夠提高隱私數據的安全性,減少因數據泄露帶來的安全問題。

1 社交網絡差分隱私保護方法設計

1.1 構建差分隱私風險量化模型

影響社交網絡數據隱私泄露的因素很多,為了實現對社交網絡差分隱私的保護,構建差分隱私風險量化模型,利用隱私風險量化模型對數據隱私泄露的風險進行量化,實現對真實數據的保護[5]。在構建差分隱私風險量化模型時,首先要根據復雜的社交網絡圖數據,計算相對應的差分隱私預算參數[6],其具體計算過程如式(1)。

(1)

式中:εi表示差分隱私的預算參數;Q表示噪聲添加參數。通過上述公式計算出差分隱私的預算參數,以此為基礎,結合對隱私數據的精確風險量化,構建差分隱私風險量化模型,模型如圖1所示。

在利用差分隱私風險量化模型量化隱私數據泄露風險的過程中,首先,將原始的社交網絡數據集進行抽象處理,接著將抽象處理后的數據集發布到社交網絡,再將發布后的數據集作為信息的接收方[7]。然后對社交網絡中用戶的數量進行統計,從而計算社交網絡的接收方和發送方所擁有的信息量,其具體計算過程如式(2)。

(2)

式中:H(G)表示發送方發送的隱私數據包含的信息量;H′(G)表示接收方接收的數據信息量;pi表示傳輸數據的概率向量;H(pi)表示數據的不確定;Vj表示數據傳輸通道中數據節點的信息量;gj表示數據通道中數據節點泄露數據信息的概率;vol(G)表示數據節點的連接權重。通過上述公式,計算出社交網絡中發送方和接收方的信息量,兩者之間的差值即為數據的隱私泄露量[8]。至此,差分隱私風險量化模型的構建完成。

1.2 基于生成對抗網絡反饋的隱私數據分類

在構建的差分隱私風險量化模型的基礎上,考慮到社交網絡中存在海量有價值且敏感的隱私信息,為了更好地實現對隱私數據的保護,利用生成對抗網絡反饋對隱私數據進行分類和判斷處理,減少數據出現泄露的可能,提高數據的安全性[9]。本文將分類過程劃分為兩個部分,一是數據分類的生成過程,二是數據分類的判別過程[10],其具體分類過程如圖2所示。

圖2 基于生成對抗網絡反饋的數據分類

由圖2可知,生成器是對輸入的初始數據集進行處理,得到生成數據集。判別器是將輸入的生成數據和真實數據進行判別,并輸出相應的判別結果[11]。在對數據進行分類時,需要對初始數據集進行計算,其具體計算過程如式(3)。

(3)

式中:H(D)表示初始社交網絡數據集的信息熵;k′表示初始社交網絡數據集在生成對抗網絡反饋的作用下,數據集分類的類別數量;Ck表示不同類別的子數據集。在此基礎上,將數據屬性作為界定數據集類別的標準,根據不同的數據屬性,計算出數據集的信息熵,其具體計算過程如式(4)。

(4)

(5)

式中:HA(D)表示隱私數據分類后的信息量;gR(D,A)表示數據信息的增益率。利用計算出的信息增益率對分類后的數據信息進行判斷,如果信息增益率能平衡分類屬性,則說明當前分類結果符合標準,如果無法平衡分類屬性,則說明當前分類結果需要重新進行[13]。至此,對隱私數據的分類完成。

1.3 實現社交網絡差分隱私保護

將GAN模型與差分隱私技術結合,通過在生成器和判別器中引入一定程度的噪聲,可以增強對個體隱私的保護,并且保持生成數據樣本的可用性,進而提高隱私保護效果,實現社交網絡差分隱私保護。其具體的隱私保護過程如圖3所示。

圖3 差分隱私保護過程

由圖3可知,在社交網絡中,當從數據發送方接收到數據信息后,用戶在傳輸數據的過程中,為保證數據的安全性,需在發送方發送數據后,對其進行加密處理,再將其傳輸到接收方。在本文中,利用差分隱私對其進行加密處理,通過在傳輸的數據中添加噪聲使得數據信息發生改變[14]。差分隱私在數據中添加噪聲后,數據的變化情況如圖4所示。在傳輸的數據中注入隨機噪聲后,數據的波動情況發生了改變,且與原本的數據有一定的偏差。在上述情況下,即便出現數據被竊取的情況,被竊取的數據也很難被解密和識別,數據泄露的情況大幅度降低。此外,在傳輸隱私數據的過程中,單一的加密方法很難保證加密的效果,因此,本文除了差分隱私加密方法外,還結合了其他加密算法共同加密,保證數據的安全。同時,隱私數據的接收方想要接收發送方發送的隱私數據時,需要先進行身份驗證,如果驗證結果沒有異常,接收方才能接收到解密后的信息。否則接收方將無法接收數據,且數據接收的異常信息也會很快反饋到發送方,提醒發送方注意信息安全。

圖4 差分隱私在數據中添加噪聲后的變化情況

2 試驗測試

2.1 試驗準備

在本次試驗中,需要使用的試驗環境和參數如表1所示。

表1 試驗環境及參數設置

根據表1設置相應的試驗參數,得到的試驗環境如圖5所示。利用數據采集儀采集相關試驗數據信息,從中選取10個數據集作為試驗對象開展本次試驗,其數據集的具體情況如表2所示。

表2 試驗數據集具體信息

圖5 試驗環境

在表2的數據集中,前5個數據集來源于twitter數據集,主要是利用twitter社交軟件在社交圈中獲得的數據資源,后5個數據集來源于Facebook數據集,包括Facebook在使用中,不同用戶對于彼此的關注信息。上述10個數據集均來自于真實的社交網絡,能夠反映出社交網絡的實際特點和狀況。同時,在本次試驗中,利用本文的方法對上述數據集進行分類處理,以數據集1為例的分類結果如圖6所示。

圖6 數據集1的分類結果

2.2 試驗結果與討論

數據集1被劃分為3個不同的類別,根據數據集的分類結果,進行相關的數據保護。本文設計的方法為方法1,文獻[5]提出的方法為方法2,文獻[7]提出的方法為方法3。為對比3種方法在實際應用中的效果,本次試驗以方法的執行時間作為評價指標,通過對比3種方法在不同數據集下的執行時間來體現該方法在進行隱私保護時的效率優劣,對比效果如圖7所示。

圖7 3種方法的執行時間對比

利用不同的方法對不同的試驗數據集進行測試,執行時間均有不同。其中,方法2在數據集10中的執行時間最長,為599.5 ms;方法1在數據集3中的執行時間最短,僅為112.3 ms;同時,在10個試驗數據集中,方法1的平均執行時間為123.2 ms,方法2的平均執行時間為498.5 ms,方法3的平均執行時間為501.2 ms,因此,本文設計的方法在實際應用中執行時間最短,在改善隱私保護性能的同時提高了數據的安全性。

3 結語

本文設計的方法在生成對抗網絡反饋的支持下,將隱私數據集進行分類處理,為后續隱私數據的保護提供更好的數據支持。然而,對于任何新的隱私保護方法,用戶的接受度是至關重要的。在推廣差分隱私風險量化模型和生成對抗網絡反饋方法時,需要考慮用戶的參與意愿以及對數據隱私保護的關注程度。此外,在差分隱私預算參數的計算過程中,由于涉及到舍入操作或近似計算,可能會引入一定的誤差。這些誤差會對差分隱私預算的準確性產生影響,并導致計算結果不夠精確。因此,在實際應用中,需要對這些誤差進行充分的考慮,并在計算過程中尋求更準確和可靠的方法。