?

數據脫敏在數據中臺產品的研究與應用

2024-03-27 16:21
現代計算機 2024年1期
關鍵詞:敏感數據掩碼中臺

鄭 祥

(1. 中國電建集團華東勘測設計研究院有限公司,杭州 311122;2. 浙江華東工程數字技術有限公司,杭州 311122)

0 引言

在今天的互聯網時代,人們離不開各種社交媒體平臺,但在享受各種便利的同時也往往存在個人信息泄露的風險。而數據中臺是企業集中管理和整合數據的核心架構,它不僅涉及用戶信息,還包括各類商業敏感數據、內部知識產權等重要資產。保護數據安全對于確保企業經營正常運轉、維護客戶信任以及遵守法律法規具有重大意義。因此,敏感數據的安全性必須得到保障[1]。

為此,數據中臺引入了數據脫敏這一方式。通過數據脫敏,可有效防止數據的泄露以及數據的濫用,即使發生數據泄露,由于數據已經脫敏,攻擊者無法直接獲取到真實的敏感信息。此外,數據中臺通常用于數據的共享和合作,不同部門或合作方可能需要訪問數據中臺的特定部分。通過對敏感數據進行脫敏處理,可以在保護數據隱私的前提下,實現數據的安全共享和合作。

綜上,數據脫敏已成為數據中臺產品不可或缺的一部分,在確保數據安全、滿足合規要求、降低風險、促進數據共享與合作、維護企業聲譽與信任等方面有著不可或缺的作用。通過有效的數據脫敏措施,可以提供一個安全可靠的數據中臺環境,為企業的數據驅動決策和業務發展提供有力支持。

1 數據脫敏的基本概念

數據脫敏按模式可以分成靜態數據脫敏(SDM)和動態數據脫敏(DDM)。其主要區別在于是否對敏感數據信息采取實時的脫敏操作[2]。靜態數據脫敏是一種傳統的脫敏方式,常常用于測試環境等數據外發場景,處理非生產環境中的靜止數據[3]。動態數據脫敏可直接應用在生產環境,比如在線上交易、客戶服務與呼叫中心、實時分析與監控、日志記錄與審計、數據共享與合作等場景。系統在該模式中不存儲脫敏之后的數據,而是識別用戶的身份、客戶端的IP 和訪問時間等信息實時地匹配脫敏規則和策略,讓訪問者根據不同的權限看到不同的數據信息[4]。

數據識別是數據脫敏的第一步。在數據脫敏之前,需要對數據進行分類和識別,找出其中的敏感信息。數據分類可以根據數據類型、數據格式、數據來源等多種因素進行,以確保敏感信息得到充分的識別,確保沒有因遺漏導致的信息泄露。在識別之后,需要建立脫敏規則管理模塊,根據不同的業務需求和安全級別,設計并選擇最合適的脫敏方式。

數據脫敏技術的實現離不開先進的技術手段,例如加密算法、哈希函數等,這些技術手段可以對敏感數據進行多種多樣的處理。但是,使用這些技術手段脫敏數據時也需要注意數據的完整性和可用性,確保脫敏后的數據仍然能夠滿足業務需求和分析要求。此外,在應用數據脫敏技術時,還需要考慮該技術的成本和效益問題,并根據具體情況采取相應的脫敏措施。

2 數據脫敏實現與應用

數據脫敏的首要步驟是對數據進行分類和分級,并建立識別規則以對各個分類和分級進行準確定位,以確定需要脫敏的字段信息。然后,根據這些識別規則,將相應的脫敏規則分配給每個字段,從而在動態或靜態脫敏過程中對匹配的字段進行有效的脫敏處理。整體流程如圖1所示。

圖1 數據脫敏整體流程

2.1 脫敏數據識別

在數據中臺中,數據識別核心功能包括數據分類、數據分級、識別規則和識別記錄。在數據識別的過程中,首先進行數據分類,即對不同類型的數據進行劃分,以便后續的識別工作能夠有序進行。同時,數據分級也是其中重要的一環,它將不同數據賦予不同的重要級別,以幫助進一步的識別和管理。

數據分類和數據分級的目的在于為后續的識別過程提供準備。通過提前對數據進行分類,可以更好地理解和組織數據,從而更有效地進行識別。將數據分級后,不僅可以更好地管理數據,還可以實現對重要信息的優先處理,提高數據治理的效率。

配置識別規則是數據識別過程中的關鍵環節之一。在數據中臺中,用戶可以根據需要配置特定的識別規則。這些規則可以利用已經建立的數據分類和分級水平,以確保識別過程的準確性和有效性。在識別規則中,存在兩種主要手段:字段掃描和數據掃描。

字段掃描通過比對字段內的內容來進行數據識別。借助智能算法和模式識別技術,數據中臺能夠針對目標字段的內容進行準確高效的識別。這種靈活的方法使得系統能夠根據預定義的模式或標準來識別數據,提高了識別的靈活性和準確性。另一方面,數據掃描通過應用正則表達式或用戶自定義規則來進行數據的識別。這種方法使得用戶可以根據其具體需求和要求定制識別過程。通過指定描述所需數據模式的規則,數據中臺可以有效地識別多個字段和數據集中的數據,滿足不同用戶的個性化需求。

識別成功后,數據中臺會生成一條詳細的識別記錄。這條記錄包含了字段的詳細信息以及相應的分類和分級水平。通過識別記錄,用戶可以更好地追蹤和管理已識別的數據,進一步提高數據治理的效果。

2.2 脫敏規則設置

數據中臺的脫敏方式包含三種,分別為掩碼、截斷和哈希。這三種方式可以廣泛應用于各種場景。

2.2.1 掩碼脫敏

它包括了保留前n后m、掩碼前n后m、保留自x至y和掩碼自x至y等方法。其中,保留前n后m的方式是指將敏感數據的前n位和后m位保留原樣,而其他位則進行掩碼處理;掩碼前n后m的方式則是將敏感數據的前n位和后m位進行掩碼處理,而其他位保持原貌;保留自x至y是將敏感數據的位置從第x位到第y位保留原樣,其他位進行掩碼處理;而掩碼自x至y則是將敏感數據的位置從第x位到第y位進行掩碼處理,其他位不變。

原始數據:手機號碼13812345678

掩碼后:手機號碼138****5678

2.2.2 截斷脫敏

它包括了截斷前n后m和保留自x至y兩種方法。截斷前n后m的方式意味著只保留敏感數據的前n位和后m位,其他位則被丟棄;而保留自x至y的方式是將敏感數據的位置從第x位到第y位保留,其他位丟棄。

原始數據:地址浙江省杭州市余杭區高教路華東勘測設計研究院

截斷后:地址浙江省杭州市

2.2.3 哈希脫敏

它通過SHA-2 算法對敏感數據進行處理,生成一串不可逆的亂碼。這樣的處理方式能夠完全遮蓋原始數據,保護數據的隱私性。

原始數據:身份證號碼31011019800101001X

哈希脫敏后:身份證號碼eaa4d47f7e05b4e4-a1c3f9b354d3a348

總結來說,以上三種脫敏方式,即掩碼、截斷和哈希,提供了多樣化的選擇,可以根據具體需求來進行數據脫敏,從而確保敏感數據在使用過程中的安全性和隱私保護。

2.3 數據脫敏處理

數據中臺支持數據的靜態脫敏與動態脫敏,不同種類的脫敏處理方式如下。

2.3.1 靜態脫敏

靜態脫敏在數據中臺中常用于數據同步,數據中臺的數據同步實現基于阿里開源的DATAX,經過優化改造,自定義transformer,在數據同步過程中,根據是否配置脫敏規則,自動生成脫敏腳本,腳本調用對應的transformer對同步進來的數據進行脫敏處理。腳本樣例如下,其中name 為自定義transformer 的名稱,columnIndex 為需要處理的字段位置,paras 為transformer的入參,樣例腳本的含義為將數據的前3 位和后4 位保留,其余位置掩碼處理,如:138****5678。

2.3.2 動態脫敏

動態脫敏常用于數據的實時查看,通過數據中臺的數據可視化交互平臺,用戶在操作界面查看數據,或者通過執行SQL 查看數據的時候,通過切面方法,在SQL 執行前會校驗用戶的權限信息,在SQL 執行后會判斷當前用戶是否有權限查看原始數據,若有直接返回原始數據,若無則查詢字段是否存在于脫敏識別的字段中,如果存在則根據脫敏規則選擇對應的脫敏方式。

基于效率及性能以及實現成本的考慮,掩碼通過字符替換的方式將需要掩蓋的位置替換為“*”,截斷則通過字符截取用戶需要保留的內容,哈希則通過SHA-2 的單向加密方式,保證了數據的不可逆性,同時兼顧了加密的效率。最后將處理后的數據返回給用戶,實現了千人千面的動態脫敏。

3 數據脫敏存在的問題與解決方案

在進行數據脫敏的過程中,遇到了以下問題,針對該問題給出了自己的解決方案與思考。

3.1 數據保護與可用性平衡

數據脫敏過程中,保護數據的同時需要保持其可用性(即數據特征),這是一個核心挑戰。解決方案之一是制定合適的脫敏策略,通過部分脫敏或模糊化技術來保護數據的隱私性,同時保留數據的可用性。

數據中臺通過內置固定類型數據脫敏規則便于用戶快速選擇,采用動態數據脫敏技術,在特定環境下實時動態地調整數據脫敏的程度,同時也保護了數據特征,以平衡數據保護與可用性之間的關系。

3.2 敏感數據發現與分類

在大規模數據集中準確發現和分類敏感數據是一項復雜且關鍵的任務。解決方案之一是利用自動化工具和算法進行敏感數據識別,結合領域專業知識進行人工審核,確保準確發現和分類敏感數據。

數據中臺基于字段識別和數據識別,可滿足大部分情況。但如果由于建表字段命名的不規范以及數據質量的不合格導致未能自動識別,采用主動添加的方式,保證敏感數據不會被遺漏。

4 結語

本文詳細介紹了數據脫敏技術在數據安全和隱私保護方面的重要性以及數據中臺的使用及實現方式。通過采用數據識別、分類和脫敏方法,如掩碼、截斷和哈希,可以有效減少敏感數據的泄露風險。當然,數據脫敏技術也面臨一些挑戰。在確定脫敏策略時,需要綜合考慮數據保護和可用性,并充分評估數據使用場景和潛在風險。此外,確保對敏感數據的準確識別和分類是至關重要的,結合自動化工具和人工審核有助于提高結果的準確性和可信度。

綜上所述,數據脫敏技術在保護數據安全和隱私方面扮演著關鍵角色。為了更好地滿足實際應用需求,我們需要不斷探索和改進。希望本文的研究成果能夠為相關領域提供有益啟示,促進數據安全和隱私保護水平的提升。

猜你喜歡
敏感數據掩碼中臺
干擾條件下可檢索數字版權管理環境敏感數據的加密方法
中臺是媒體轉型必經之路嗎?
——媒體中臺建設的特點和誤區
關于零售企業“中臺”建設的研究
實現虛擬機敏感數據識別
汽車制造企業質量中臺研究
以技術開發中心為中臺,數字化轉型之見解
基于透明加密的水下通信網絡敏感數據防泄露方法
低面積復雜度AES低熵掩碼方案的研究
基于4A平臺的數據安全管控體系的設計與實現
基于布爾異或掩碼轉算術加法掩碼的安全設計*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合