基于通用數據保護條例的數據隱私安全綜述

2022-10-14 02:45趙景欣岳星輝馮崇朋任家東張昊星伍高飛朱笑巖張玉清

計算機研究與發展 2022年10期

趙景欣岳星輝馮崇朋張靜李印王娜任家東張昊星伍高飛朱笑巖張玉清,2,3,

1(燕山大學信息科學與工程學院河北秦皇島 066004) 2(西安郵電大學網絡空間安全學院西安 710121) 3(海南大學網絡空間與安全學院(密碼學院) ?？?570228) 4(西安電子科技大學廣州研究院廣州 510555) 5(國家計算機網絡入侵防范中心(中國科學院大學) 北京 101408) 6中國信息通信研究院安全研究所北京 100191) 7(西安電子科技大學通信工程學院西安 710071)

隨著大數據時代的飛速發展，數據成為了當今世界最寶貴的資源之一.企業也紛紛進行數字化轉型，在數字經濟時代下，數據的社會價值和經濟價值不斷凸顯.然而數據的共享、加工、使用的過程又給數據的隱私安全帶來了極大的風險，數據可以產生無數的副本，且形態多樣化，如何實現數據的隱私保護成為了現今亟待解決的難題.

由于欠缺有力的監管機制，個人數據隱私遭到侵犯的事件屢屢發生，個人數據隱私時刻面臨被泄露的風險.諸如，Uber公司為掩蓋2016年60萬司機和5 700萬用戶信息失竊事件，私下向作惡者支付封口費，這項隱瞞行為也為公司帶來了巨額的罰款[1].美國互聯網公司雅虎在2017年承認公司曾在2013年受黑客襲擊并泄露了所有用戶信息(約30億用戶)[2].安全研究人員阿隆·加爾在2021年1月發現由于入侵者利用了Facebook在2019年8月修復的漏洞，來自106個國家的超過5.33億Facebook用戶的個人信息已被免費在線泄露，涉及了不少知名人士和公眾人物，還包括67萬的國內用戶[3].v.pnMentor的研究團隊在2021年8月份發現，B2B營銷公司OneMoreLead將至少6 300萬美國人的私人數據存儲在一個不安全數據庫中，該公司任由此數據庫完全敞開[4].2021年8月，美國電信巨頭T-Mobile官方確認服務器被黑客入侵，本次入侵大規模影響了大約780萬T-Mobile后付費用戶、850 000名T-Mobile預付費用戶以及大約4 000萬以前或潛在用戶，導致T-Mobile支付了3.5億美元的索賠[5].

為了更好地保障個人權利，堪稱史上最嚴格的數據隱私保護法案——《通用數據保護條例》(General Data Protection Regulation, GDPR)，于2016年4月由歐盟議會通過，并于2018年5月25日起生效.GDPR的出臺使歐盟對個人信息的保護及監管達到了前所未有的高度，并統一了歐盟成員國有關數據保護的法律法規.雖然GDPR的保護范圍只限于歐洲生活的民眾，但由于互聯網的全球性和開放性，幾乎所有的服務都會受到隱私政策的限制，所以GDPR也通過各種機制對歐盟以外的國家產生了廣泛的影響.

本文主要側重于基于GDPR的數據隱私安全工作研究，為此對自2016年到2022年6月期間的網絡與信息安全領域的四大頂級會議USENIX Security(USENIX Security Symposium)，NDSS(Network and Distributed System Security Symposium)，CCS(ACM Conference on Computer and Communications Security)，IEEE S&P(IEEE Symposium on Security and Privacy)的論文，及來自Web of Science核心數據庫、EI數據庫、arXiv、中國知網(CNKI)等國內外數據庫收錄的相關論文進行了深入調研分析，如圖1所示，相關的文獻數量正在逐年增加.同時對基于GDPR的數據隱私安全領域的現有研究成果進行了總結歸納，指出了現有研究工作不足和基于GDPR的數據隱私安全面臨的挑戰和機遇，為未來的安全研究工作指出了方向，并探討了GDPR為中國的數據隱私安全工作帶來的啟示.

Fig.1 Literature number of data privacy security based on GDPR

自GDPR出臺以來，國內外已圍繞GDPR展開了許多相關的研究工作，其中不乏針對GDPR的隱私保護綜述研究，但主要都是針對某一特定領域，如區塊鏈[6]、物聯網[7-9]等領域，或針對條例中的某部分規定[10]展開討論.本文在關注GDPR在特定領域應用的同時，還聚焦于GDPR政策本身的可讀性與完整性，不僅分析了更正權與被遺忘權的爭議，還對知情權、訪問權、數據保護影響評估等規定的合規方法進行了探討.同時從國情出發分析了GDPR對中國產生的啟示，為中國的數據隱私安全工作提出建議.

本文的主要貢獻包括5個方面：

1)分析了數據隱私安全的發展歷程與現狀，介紹了歐盟出臺的影響廣泛的數據保護法案《通用數據保護條例》(GDPR)，分析了GDPR的應用領域及其帶來的影響.

2)深入調研了近幾年國內外GDPR合規性相關的研究文獻，從GDPR合規檢測、隱私政策分析、GDPR模型框架3個方面總結了GDPR合規性研究現狀.

3)總結分析了基于GDPR的數據技術，包括數據保護影響評估和數據跨境流動2個方面，并分別探討了GDPR在區塊鏈、物聯網等具體領域的應用.

4)通過分析GDPR合規的潛在安全問題以及現有研究工作的不足，指出了基于GDPR的數據隱私安全研究中面臨的挑戰與機遇，為相關的隱私安全研究指出了未來的研究方向.

5)結合GDPR出臺后的實施情況，從6個方面探討了GDPR給中國的數據保護工作帶來的啟示.

1 相關背景介紹

1.1 數據隱私安全發展歷程

為了保護個人數據隱私，需要有一定的法律制度為處理個人信息時提供保障.早在1970年德國聯邦黑森州就通過數據保護法來保護數據隱私，瑞典在1973年通過了數據保護法，美國政府也在1973年制定了的公平信息慣例(FIPs).經合組織《1980年9月隱私保護準則》列出了8項數據處理原則：收集限制原則、數據質量原則、目的規范原則、使用限制原則、安全保障原則、開放性原則、個人參與原則和問責原則，為各國制定個人數據處理法律提供了依據[11].隨著數字經濟社會的興起，個人數據隱私問題也越來越多，于是越來越多的數據保護法條例在世界各國涌現.據美國法學教授Bertil Cottier統計，截至2020年共有142個國家發布了數據隱私立法，例如《1998英國數據保護法案》《2008年阿爾巴尼亞數據保護法》《2012年加納數據保護法》《2012美國消費者隱私權利法案》、歐盟《通用數據保護條例》(GDPR)、《加州消費者隱私法案》(CCPA)、《巴西通用數據保護法》(LGPD)、《2019年肯尼亞數據保護法》、《新加坡個人信息保護法例》(PDPA)、《中國個人信息保護法》等[12].其中歐盟出臺的GDPR影響力最大，我們在這篇論文中主要對GDPR的相關研究進行了討論.也有研究者對各國的數據保護法進行了對比和評估，文獻[11]根據經合組織指南對歐盟GDPR、《2012年加納數據保護法》和《2019年肯尼亞數據保護法》進行了比較，三者在一些原則的應用方面略有不同，加納保護法缺乏數據可移植性的權利和記錄個人數據泄露的義務，肯尼亞保護法包含了所有與個人和數據主體的權利和義務有關的經合組織修訂原則，在很大程度上復制了GDPR.本文從適用范圍、數據主體權利、數據處理者責任等要點出發，對各國出臺的數據保護法進行了對比，具體內容如表1所示.

GDPR的出臺推動了許多國家對于數據保護方面的立法進程，但由于國情與隱私文化的差異，各國相應的應對措施不盡相同.如歐洲強調個人權利，以保護人權為出發點，因此GDPR法規要求嚴格，內容全面；印度、澳大利亞紛紛依照GDPR對自己的隱私法規進行了審查和修改，增強了監管機構的權利并加大了處罰力度；巴西借鑒了GDPR的主要結構出臺了第一部綜合性的數據保護法，但在處罰方面較GDPR寬松很多；美國注重企業發展，強調數據利用，更偏向從消費者的角度對數據進行監管；我國在數據立法方面也并沒有照抄照搬歐洲立法，而是兼顧個人權利與經濟發展，探索出一條適合自己的發展道路.在數據的跨境流動中，面對更多的網絡安全威脅和不同國家數據保護法的不同要求，特別是面對非常嚴格的GDPR，世界各國也在不斷地修改并完善數據保護法.2021年1月，韓國個人信息保護委員會向社會公布了《個人信息保護法(修正案草案)》(PIPA)，并在一年內修訂了3次.2021年5月12日，日本國會通過了包括《為形成數字化社會完善相關法律的法案》在內的6部數字化改革法律案，《個人信息保護法》(APPI)修正案也作為完善法案的一部分同時生效.2021年6月，中國通過了《中華人民共和國數據安全法》.2021年8月20日，《中華人民共和國個人信息保護法》歷經三審正式通過.圖2展示了全球一些具有代表性的數據保護法案[14].

Table 1 Comparison of Data Protection Laws in Different Countries[13]

Fig.2 Global data security protection legislation(partial)

1.2 GDPR介紹

歐盟通用數據保護條例(GDPR)是關于歐盟(EU)和歐洲經濟區(EEA)數據保護和數據隱私的法律條例，是歐盟隱私法和人權法的重要組成部分.

GDPR規定了與個人數據處理以及個人數據自由流動相關的自然人保護法規，旨在尊重自然人的基本權利和自由，并重點強調其保護個人數據的權利.GDPR被譽為是最嚴格的個人數據保護和數據監管條例，適用于歐洲經濟區內數據主體產生的所有數據，無論收集相關數據的企業是否位于歐盟境內都要遵守GDPR.GDPR于2016年4月14日獲歐洲議會和歐盟理事會通過，并于2018年5月25日開始強制實施.該法規取代了1995年的《數據保護指令》(95/46/EC)(簡稱95/46/EC指令)，解決了95/46/EC指令成員國在處理個人數據時對保護自然人權利和自由水平之間的差異，具有直接的約束力和適用性[15].同時，《電子隱私指令》(2002/58/EC)旨在補充GDPR并完成協調過程，目前該法案正在通過歐盟的立法程序[16].圖3展示了GDPR從立項到實施過程中的關鍵日期和事件.繼GDPR之后，歐盟《數據法案》《數據治理法案》《數據市場法案》等一系列數據治理法規的出臺也展現了構建未來數字驅動創新生態的歐洲方案.

Fig.3 Key time points for GDPR legislation

Fig.4 The framework of GDPR

本節主要從GDPR框架、處理個人數據相關原則、數據主體的基本權利以及違規行為的補救措施、責任和處罰4個方面來具體介紹GDPR.

1.2.1 GDPR框架

GDPR框架如圖4所示.通用數據保護條例共包含十一章內容，涉及一般規定、原則、數據主體權利、數據控制者和處理者義務、向第三國或國際組織傳輸個人數據、獨立監管機構、成員國之間的合作與一致性、補救措施，責任和處罰、有關特定處理情況的規定、授權和實施法案以及最終條款[15].其中定義了與個人數據相關的3種不同實體：1)數據主體，即個人數據所有者；2)數據控制者，即收集和使用個人數據的個人或組織；3)數據處理者，即為控制者處理個人數據的個人或組織.同時，任命具有數據保護法和實踐專業知識數據保護官(DPO)，以協助數據控制者和處理者監控其法規的遵守情況.

1.2.2 處理個人數據相關原則

GDPR規定了7項處理個人數據相關原則(第5條)包括“合法性、公平性和透明度”“目的限制”“數據最小化”“準確性”“存儲限制”“完整性和保密性”的數據處理原則以及控制者責任與義務的“問責制”，具體原則內容如表2所示.并對處理的合法性進行說明(第6條)，且只有滿足至少一項原則才認為該處理是合法的：1)數據主體已經同意處理其個人數據；2)履行與數據主體的合同義務，或在簽訂合同時采取相應措施滿足數據主體要求；3)遵守數據控制者的法律義務；4)保護數據主體或其他個人的利益；5)為公共利益或數據控制者官方權力執行任務；6)在利益與被保護數據主體的利益、基本權利和自由不相沖突的情況下，保護數據控制者或第三方的合法利益.

Table 2 Principles Related to the Processing of Personal Data

1.2.3 數據主體的基本權利

GDPR詳細闡明了數據主體的基本權利，共涉及8項權利：1)知情權(第12,13,14條).數據控制者以簡潔、透明、可理解和易于訪問的形式向數據主體提供信息；2)訪問權(第15條).數據主體有權要求數據控制者告知其個人數據是否正在被處理.數據控制者必須根據要求提供正在處理的數據的目的(用途)、數據類別、存儲期限或標準并為數據主體提供一份實際數據的副本；3)更正權(第16條).數據主體有權更正錯誤的個人數據；4)刪除權(第17條).數據主體有權要求控制者及時刪除有關的個人數據；5)限制處理權(第18條).在特定場景下，數據主體有權要求數據控制者限制對他的個人數據的使用；6)可攜帶權(第20條).數據主體有權要求將自己的數據轉移到另一家數據控制者，數據控制者應當配合；7)反對權(第21條).允許個人反對出于營銷或非服務相關目的處理個人信息；8)不受制于自動化決策(第22條).數據主體有權不受基于自動化決策所做決定的影響.

1.2.4 違規行為的補救措施、責任和處罰

針對違規行為的補救措施、責任和處罰，GDPR也做出了相應的限定，要求數據控制者必須在違規行為發生后72 h內通知監管機構，依據違規的嚴重程度、違規的持續時間、受違規影響的數據主體數量以及違規造成的損害程度來處罰違規行為責任方.GDPR的出臺對其他國家及地區的個人數據相關法律產生較大的影響，成為全球個人數據保護法的典范.

1.3 GDPR的應用和影響

GDPR的實施影響了各行各業，對數據隱私的立法極大提高了公民的隱私權，在不同的領域內產生了積極影響，本節以醫療健康和物聯網為例闡述了GDPR產生的積極影響，同時也討論了GDPR的潛在風險.

現階段的醫療正在經歷數字化轉型，向個性化、預防性和精準醫療進行轉變，由于個人的健康狀態、條件和背景都是高度動態的，導致了分布式、高復雜度的業務流程，因此不可能以靜態的方式進行全局管理.隨著個人可穿戴設備數量的指數級增長，利用個人健康數據進行分析有很多的益處，比如識別醫療服務中的風險和成本、提高服務效率、疾病預防等，但同樣也帶來了更多的用戶隱私泄露風險.

GDPR擴展了個人數據的定義范圍，包括自然人身體、生理、遺傳、經濟、文化或社會身份的特定因素；進一步的，GDPR定義了對個人數據進行處理的要求，以確保在處理用戶數據過程中的合理合規，此外，由于系統環境的變化，GDPR要求處理用戶數據時進行動態的管理.在GDPR的規范下，數據的保護者變成了風險的管理者，必須積極主動地動態管理系統，這對于醫療健康類個人敏感信息的處理具有指導意義.在GDPR的驅動下，未來醫療系統對個人數據的處理應該是一個政策驅動的多領域自動化業務系統，將政策和業務流程中的數據對象進行綁定，在這個過程中保證數據處理的高透明度以保證用戶的知情權，GDPR很好地適應了醫療的數字化轉型，保護了個人健康敏感數據的隱私.

近年來物聯網設備數量呈現井噴式增長，同時也意味著設備廠商針對個人數據進行大量的存儲、分發和利用，從廠商的角度來看，分析這些數據可以更好地理解用戶的行為，及時發現消費者的行為模式和使用某類設備的關系，能夠幫助廠商對產品進行進一步的改進以提高用戶體驗，但是也存在廠商在用戶不知情的情況下將這些數據出售給第三方，或者從同一用戶的不同設備同時收集數據建立用戶畫像的情況，這進一步增加了用戶的隱私風險.

在此情況下，GDPR的實施使得信息的控制權大大地轉向了個人.首先，這些收集的用戶數據在GDPR的擴展定義中都屬于個人隱私數據，其次，GDPR要求對個人數據的收集和處理必須基于明確的用戶同意，并且用戶有權在任何時候撤銷自己的同意，否則將面臨嚴重的罰款.根據GDPR官方的處罰規定[17]，在處罰方面將有一個兩級的制裁制度，若是情節較輕的違規行為，可導致1 000萬或公司全球營業額的2%的罰款(以較高者為準)，最嚴重的違規行為可能導致2 000萬或公司全球營業額的4%的罰款(以較高者為準).因此GDPR的實施是對物聯網設備廠商極大的警告，迫使他們按照GDPR的要求重新設計隱私政策和收集用戶數據的范圍，以及必須取得用戶的知情同意.

總體來看，GDPR改善了網絡安全，網絡、服務器和其他基礎設施的安全升級是網絡安全的保障，GDPR直接影響了數據隱私的安全，鼓勵企業制定政策和升級設備來預防潛在的安全風險；其次，GDPR將數據保護進行標準化，在歐盟國家直接實施，建立了區域統一數據保護標準，而無需建立每個國家的個人數據保護法.

GDPR也帶來了一些負面的影響，比如極其嚴厲的兩級處罰措施，一旦企業因為各種原因未能保護好用戶數據導致泄露將會付出巨大代價，而中小型企業對數據的保護能力和抗風險能力本身就較弱，一旦遭遇此類事件將對企業造成很大的打擊，中小型企業的隱私保護意識也相對薄弱，根據網站superoffice[18]的統計，截止2021年5月，超過四分之一的企業尚未根據GDPR進行整改，由此可見部分企業并未意識到GDPR的重要性.嚴格的GDPR給新興的物聯網企業帶來了繁重的負擔，合規工作消耗了大量的資源，使得企業的業務運營變得更加艱難.此外，企業必須進行合規性的審計，需要招聘更多專業的隱私保護方面的人才，因此，帶來了更多成本的負擔，相對應的也給執法機構帶來了新的挑戰.而對于需要留存大量患者信息的醫療企業來說，如何實現高度敏感數據的安全存儲仍是一個十分嚴峻的挑戰.隨著全球數據隱私安全意識的增強，醫學實驗的開展也受到重重阻隔，影響了醫學科技的高效發展.

2 GDPR合規性研究現狀

通過對現有的基于GDPR的數據隱私安全研究工作進行梳理和分析，發現目前相關研究方向主要集中在GDPR合規檢測、隱私政策分析、GDPR模型框架3個方面.圖5中給出了現有研究工作文獻數量的占比情況，以便讀者有一個直觀的認識.本節將通過這3個研究方向分類闡述現有具有代表性的GDPR相關的研究工作，同時在現有研究工作基礎上，本文將對每個研究方向的具體工作進行對比分析和討論，并給出觀點，供感興趣的研究人員對該領域進行進一步研究.

Fig.5 Proportion of GDPR compliance related studies

2.1 GDPR合規檢測

自2018年5月25日起，歐盟開始實施《通用數據保護條例》(GDPR)，條例涉及個人數據處理和數據隱私保護，直接適用于所有成員國.GDPR旨在保護歐盟成員國內所有公民的個人數據隱私，并對違規行為實施嚴厲制裁.數據隱私保護網站DataPrivacyManager披露了2020—2022年歐盟國家根據GDPR對企業的數筆大額罰款[19]，如圖6所示，罰款金額從數百萬歐元到數億歐元不等，擁有越多用戶數據的企業遭受處罰的風險也更大.

Fig.6 Large GDPR fines from 2020 to 2022

2.1.1 違規案例分析

根據文獻[20]分析的277項制裁案例，違規行為主要分為4種類型：非法處理個人信息、披露個人信息、未保護個人信息和與監管機構合作不足.這些處罰主要針對違反5項主要與用戶隱私保護相關的特定條款.由此可見，違規的主要原因是企業未能充分向用戶披露他們的個人信息是如何被收集的，以及沒有明確告知用戶收集這些信息的用途，并且在利用這些數據時未適當征得用戶的同意，具體表現形式分為違規采集和傳輸、隱私政策不規范、數據濫用、網站cookie跟蹤4個方面.

1)違規采集和傳輸

文獻[21]對一些流行的健康軟件進行安全審計，結果表明被分析的應用程序大多數都沒有遵守GDPR要求的法律限制，在沒有征求用戶同意的情況下，通過不同的方式違規收集用戶的個人敏感信息，從而威脅了數百萬用戶的隱私.根據GDPR的要求，在線服務必須獲得用戶的同意才能與第三方共享用戶數據，文獻[22]通過檢測Android應用程序中事先未經用戶同意發送到互聯網的數據表明30%應用程序在未經用戶事先明確同意的情況下將個人數據發送給第三方，由此可見對于用戶數據的濫用目前在業內非常普遍.

2)隱私政策不規范

近年來隨著物聯網設備(IoT)的興起，因其涉及大量的個人隱私數據，應該具有相應的數據收集規范.文獻[23]通過捕獲物聯網設備與云之間、物聯網設備與其對應的在智能手機上的應用程序之間的數據流量，對11家物聯網制造商進行分析測試，結果顯示其中一半的物聯網制造商沒有專門針對其物聯網設備制定對應的隱私政策，對于目前大量不同類型的物聯網設備，只有大致的隱私政策框架是不夠的，需要按照不同的應用場景對隱私政策進行細分.

3)數據濫用

文獻[24]披露了在GDPR實施之前，科技企業Facebook為73%的歐盟用戶貼上了潛在敏感興趣的標簽，從而針對性地推送個性化廣告，并且惡意第三方可以以極低的成本獲取已被分配潛在敏感興趣的Facebook用戶的身份.進一步的，文獻[25]通過檢測第三方廣告和跟蹤服務發現，廣告商會在未經用戶同意的情況下，與第三方關聯公司共享收集到的數據，并且揭示了這類做法在業界已成為常態化，此類違規行為利用用戶個人數據達到其商業目的，并未征求用戶的同意.

4)網站cookie跟蹤

由于GDPR的實施，歐洲用戶幾乎在每個網站上都會遇到cookie同意選擇框.通過cookie，網站可以經用戶同意收集數據并將其傳播給第三方.文獻[26]的研究表明，即使用戶沒有做出選擇，部分網站也會默認用戶已經同意cookie跟蹤，或者用戶已明確選擇退出，部分網站也會存儲用戶同意.在測試中一半以上的網站至少存在一項可疑違規收集行為.并且，cookie跟蹤的范圍非常廣泛，文獻[27]對歐盟境內2 000多個高流量網站通過cookie實現的跟蹤進行評估，發現cookie可以在訪問數據集中90%以上的網站識別用戶，因此用戶很難避免被跟蹤.此外，根據文獻[28]對在線廣告業務的研究，出于研究用戶行為的目的，即使用戶已經選擇退出廣告，網站也會繼續追蹤用戶的瀏覽器.因此在現有的框架下，用戶缺乏可行的機制來同意或者拒絕其在互聯網上的行為被跟蹤分析.

2.1.2違規檢測方法

若應用程序或者網站需要處理用戶的個人數據，就要符合GDPR的要求，然而GDPR的隱私處理條款針對軟件的開發過程只給出了一般性原則，而非詳細的操作指南，因此現有軟件和網站中可能存在大量違反GDPR法規的情況.但是先分析隱私泄露事件，而后確定后果和罰款需要執法機構付出大量的時間和精力來評估數據收集和處理機制是否符合GDPR條款，因此使用技術手段對違規行為進行規模性的檢測和評估是十分有必要的.

移動應用程序經常訪問用戶的個人信息以滿足業務需求，由于此類信息通常很敏感，因此監管機構要求移動應用程序開發人員發布詳細的隱私政策，文獻[29]提出了一個半自動框架，建立隱私政策術語到API方法的映射集合，用于檢測隱私政策和應用程序代碼不一致的違規行為.文獻[30]在文獻[29]的基礎上，將GDPR要求的隱私政策規范進行量化分析，通過自然語言處理(natural language processing, NLP)與機器學習算法，生成6個通知分類器來檢測應用程序的隱私政策是否完整，并通過實驗證明了自動化分析隱私政策的有效性.同樣基于文本分析，文獻[31]使用語義相似性來識別不同文章對應的和特定違規類型相關的主題，用識別的特征來訓練一個長短期記憶(long short term memory, LSTM)深度學習器，可以有效識別給定文本描述的潛在違規行為.

進一步的，隱私政策的合規只是基本要求，在實際的應用場景中，還需要知道應用程序是否會收集隱私政策之外、沒有取得用戶同意的數據.文獻[22]基于字符串匹配，利用半自動化工具來檢測未經事先同意而發送到互聯網上的數據流量，并檢測了86 163個應用程序，發現有三分之一應用程序在未經用戶事先明確同意的情況下向第三方發送個人數據.

此外，許多移動應用開發者為了各種目的在他們的應用中整合第三方服務，包括應用維護分析服務、用戶參與、社交網絡整合和廣告.第三方服務訪問大量有價值的用戶數據，這些數據往往超出了它們向應用開發者或用戶提供服務的需要，并且在用戶不知情的情況下進行跟蹤.文獻[32]根據應用程序無限制收集個人信息的情況，提出了一種基于關聯挖掘的個人身份信息泄漏檢測方法，設計并實現了一個自動化系統，用于檢測APP發送的流量數據是否暴露了用戶的個人身份信息，有助于在流量數據中發現隱藏的隱私泄露.文獻[25]使用URL分類器來自動檢測流量級別的第三方廣告和跟蹤服務，使用這種技術識別出2 121項此類第三方服務，其中233項不為其他流行的廣告和跟蹤黑名單所知.第三方跟蹤服務的隱秘性和高權限使得該類行為具有較大的違規風險，一種解決隱秘性的可行方案是利用區塊鏈技術增強數據使用的透明度，文獻[33]提出了一種利用區塊鏈和智能合約技術開發符合GDPR的個人數據管理平臺的方案，該方案為服務提供商和數據所有者提供去中心化機制用于處理個人數據，確保只有指定方可以處理個人數據，并使用智能合約和加密技術將所有數據活動記錄在不可變的分布式賬本中，任何違規行為都會被永久記錄下來并自動報告，該方法也能有效地解決數據所有者無法感知服務提供商是否遵守GDPR并且有效保護了其個人數據的問題.表3整理了這5種典型的違規檢測手段，分別從違規檢測方法、分析對象以及違規行為3方面進行展示.

Table 3 Analysis and Comparison of Violation Detection Methods Based on GDPR

2.1.3 規避違規

企業使用包括企業網站、社交媒體資料、在線商店等媒介和用戶進行交互，特別是當前社交媒體已成為重要的企業平臺.由于這些媒介處理著大量用戶數據，因此企業必須考慮出臺新的數據保護和隱私保護政策以適應GDPR條例，履行GDPR所規定的義務，確保其軟件系統達到GDPR的要求.本節總結了增加隱私政策可讀性、增加數據訪問透明度及同意管理3種規避違規的手段.

1)增加隱私政策可讀性

隱私政策是用戶了解哪些個人信息被收集和使用的重要媒介，但是隱私政策的可讀性普遍較差，結合其他復雜性使其無法達到預期目的.文獻[34]引入了一種基于自然語言處理技術的隱私政策摘要工具，該方案能夠以高準確度將隱私政策進行分類以及闡明相關的風險級別.進一步的，文獻[35]提出的方法可以將相當長的隱私政策總結為簡短而濃縮的注釋，從而讓用戶更準確的辨別數據收集的范圍.

2)增加數據訪問透明度

增加數據收集中的透明度有利于數據收集安全.文獻[36]調研了谷歌工具“我的活動”，盡管大多數參與者并不關心數據收集，但是可以隨時查看數據收集情況使得大部分用戶增加了對產品的信任度.同樣的，文獻[37]介紹了一種用Web界面從不同在線服務導出數據收集和處理情況進行可視化展示，有效提高了用戶對在線服務收集數據的行為認識.

在某些情況下，服務提供商并非真正需要采集到個人敏感數據，采集的目的可能只是為了收集豐富的某項數據以滿足其分析的需求，文獻[38]提出的區塊鏈系統采用類似零知識證明的機制，允許用戶在不透露其身份的情況下證明擁有某些屬性，最大限度地在滿足服務提供商需求的情況下使得用戶提供的信息最少，因此GDPR所強調的數據最小化原則在一定程度上可以增加數據采集的安全性.

3)同意管理

由于同意通知的復雜性和動態性，必須執行合規性驗證或審計來保證數據采集的合規.采用工具進行驗證是一種有效的手段.文獻[39]提出了隱私政策和同意管理需要的機器策略語言，使用推理器進行語義合規性檢查.基于此項研究，文獻[40]提出了一種數據保護設計工具，將GDPR法規轉換為軟件代碼，從而實現自動化合規性驗證.文獻[41]認為通過確保數據處理中使用的數據集從一開始就符合同意，使用給定同意的結構化表示來“實時”生成數據集，可以增加透明度，方便用戶給予、撤回他們對系統數據處理的同意許可，減少了事后進行遵守情況分析的需要.

根據GDPR的要求，服務提供商需要告知用戶他們的數據收集情況，經過用戶允許才能收集特定的數據.文獻[42]通過對數千名參與者的調研得出，用戶普遍在服務提供商數據收集和數據使用的解釋上沒有仔細地閱讀，削弱了同意通知的作用，這表明了用戶體驗需要進一步改進.此外，對于應用程序和網站的開發人員，根據文獻[43]的研究，只有不到四分之一的專業人員能夠接觸到安全專家，而且很少有技術人員因為歐洲GDPR立法而對其軟件進行針對性的優化，因此規避違規行為還需要很長一段路由走，用戶既要提高隱私保護意識，明確GDPR賦予的權利，企業也要采取積極手段響應政策，避免受到處罰.

2.1.4 小結

2.1節主要從典型的GDPR違規案例出發，對基于GDPR的合規檢測研究工作進行了分析和討論，并給出了GDPR合規檢測研究領域的一些觀點.

討論1.本節從不同角度分析和歸納了幾種違規檢測方法，對應著不同的違規行為.從分析對象來看，違規檢測方法針對的是不同場景、不同階段下的特定行為，基本覆蓋了數據收集、處理的各個階段；從分析方法來看，目前大多數文獻主要集中于使用自動化工具進行違規識別，此類問題的解決方法大都是以機器學習技術為基礎構建的自動化工具進行分析，在各自的實驗場景中表現出了出色的檢測效果，此外，使用區塊鏈技術進行違規檢測的研究目前較少，且都是以理論框架構建為主，如何將區塊鏈和智能合約技術進行有效地應用仍然需要研究人員進一步探索.

觀點1.目前的自動化檢測的手段大都圍繞機器學習算法，實驗對象也是特定場景下的應用程序或網站，有一定的局限性.并且由于分析的對象并不相同，數據集的訓練性能有一定的針對性，能否在跨平臺跨類別的應用程序上達到相近的性能值得進一步的探討.進一步的，違規行為分布在數據收集、處理、共享、流動的各個階段，每個階段所涉及到的場景都是非常多樣的，這給違規行為檢測帶來了很大的挑戰，如何找到違規檢測在不同階段的普適性方法以及如何針對不同場景進行優化是未來的一大難點.

2.2 隱私政策分析

隱私政策是一份聲明或法律文件，它向用戶披露數據收集、使用、存儲和共享的部分或全部方式，使用戶能夠在注冊任何服務或決定是否繼續使用服務時做出明智的決定，是數據控制者和用戶之間信息傳播的主要媒介.隨著數據隱私保護成為一個重要的社會問題，不同國家和地區都制定了相應的法律法規來保證用戶數據的安全性和隱私性，其中最具有代表性的就是GDPR.但是檢測收集、處理或存儲用戶個人數據服務商的合規性是法律執行的一大困難挑戰.這個困難主要來自于2個方面：1)GDPR等法律法規是用自然語言編寫的，包含了大量的法律術語，沒有法律知識的用戶很難讀懂.2)隱私政策通常用冗長而復雜的文檔展示，用戶閱讀起來非常耗時.文獻[44]在2008年就指出，如果一個用戶要閱讀在互聯網上訪問的每一項服務的隱私政策，平均每年需要244 h.因此當前研究的主要方向是自動地發現法規與隱私政策之間的合規性問題，并為數據主體(即用戶)、數據收集方(即服務提供商)和監管當局提供直觀的結果[45].

在GDPR出現之前，已有很多對隱私政策的分類研究，大多數方法都是利用自然語言處理技術對隱私政策進行分析[46-48]，但使用的方法欠缺遷移性，在GDPR相關的隱私分析中并不適用.新興的機器學習技術越來越多地被用于輔助隱私保護，通過對隱私政策的評估與分析，使政策更具可讀性，并檢測隱私政策中的模糊內容.文獻[30]提出了一個自動系統HPDROID，通過識別應用隱私政策中聲明的數據實踐和應用代碼中的數據相關行為來彌合GDPR的一般規則和應用實現之間的語義鴻溝.該系統根據GDPR第5條相應的3個基本要求，即透明度、數據最小化、保密性，將自然語言處理技術與機器學習相結合，對796個移動健康應用程序隱私政策進行了檢測，發現其中189個沒有提供完整的隱私政策，HPDROID提高了應用程序用戶和開發者的隱私保護意識.

文獻[35]在2018年受到GDPR和機器學習技術的影響，根據GDPR第12,13條的規定提出了風險指標，并使用了樸素貝葉斯、支持向量機(support vector machine, SVM)、決策樹和隨機森林4種有監督的機器學習技術.基于風險指標對冗長的隱私政策進行了分類，簡化了隱私政策的解釋，并提醒用戶注意建議的風險指標.文獻[49]在文獻[35]的基礎上，增加了數據集的范圍，從網上爬取了1200個隱私政策，按照5項GDPR隱私政策核心要求進行標記，并增加了單詞嵌入技術與監督學習相結合，對隱私政策進行了分類，發現超過76%的隱私政策不滿足5項基本要求，因此可能不完全符合GDPR.文獻[35,49]提出的各種基于機器學習的方法在一定程度上解決了隱私政策總結問題，但是他們使用的都是美國或者歐盟網站的數據集，對其他國家的網站效率并不高.文獻[50]從GDPR和《巴基斯坦數保護法》中提取了10個隱私慣例，定義了27個類別標簽，從5個部門的巴基斯坦網站編譯了120條隱私政策的標記數據集，使用了SVM、Logistic回歸、KNN和樸素貝葉斯4個機器學習分類器對數據集進行了訓練和測試，實現了對巴基斯坦網站隱私政策的合規性檢查.

對隱私政策的大量研究都依賴于有監督的機器學習方法，這些方法需要標注隱私政策的數據集，但是這種公開的數據集很少，因此隱私政策語料庫的建立極其重要.文獻[51]基于眾包創建了一個名為OPP-115的網站隱私政策語料庫，其中包含23 000細粒度的數據實踐.文獻[52]擴展了OPP-115語料庫，增加了標記“退出選擇”的細粒度信息，該文獻專注于自動識別隱私政策文本中的用戶選擇的任務.文獻[53]引入了從GDPR條款到OPP-115注釋方案的映射，證明了OPP-115的廣泛適用性.文獻[54]建立了一個包含350條移動應用隱私政策的語料庫，并提供了一個可擴展的管道來分析帶有隱私政策的APP可執行文件的潛在合規性問題.文獻[55]提出了一種自動檢測隱私政策中模糊詞和句子的方法，通過眾包創建了一個模糊詞語料庫.文獻[35]向前邁出了一步，創建了一個包含45個手動標記的隱私政策的語料庫，專注于由專家定義的隱私政策的風險級別.文獻[45]根據GDPR第13條對隱私政策進行合規性分析，設計了一種基于GDPR的分類方案，并為此手動策劃了304個隱私政策的語料庫.對于語料庫的擴大和填充，還需要研究人員進一步努力.

除了文獻[35,49-50]對網站的隱私政策進行分析，還有許多研究對其他領域的隱私政策的分析.文獻[56]根據GDPR一般規則，采用有監督的NLP技術對基金行業的234個隱私政策進行了檢測.文獻[45]從Google Play6(應用程序商店之一)收集應用程序的隱私政策，涵蓋了22個應用程序類別，并基于GDPR第13條的分類方案注釋了一個包含304個隱私政策的語料庫.算法采用了SVM，以及基于嵌入的雙向長短期記憶網絡((bi-directional long short-term memory, BiLSTM)和基于上下文Bert網絡2種具有代表的神經網絡模型.文獻[57]采用了文本模糊解釋結構建模(textual fuzzy interpretive structural modeling, TFISM)確定了GDPR中的關鍵因素，并將它們與各種云服務隱私政策進行了比較，檢測了GDPR與服務隱私政策之間對于不同關鍵術語或因素的優先級設置的相似性.文獻[58]開發了一個集成的、語義豐富的知識圖譜來表示GDPR所規定的規則，并將其應用于云隱私政策中對比語義相似性，大數據從業者可以利用該方法根據授權文件定期更新其參考文件.

小結：2.2節從現有的基于GDPR的隱私政策合規性研究工作中，挑選和總結了5項具有代表性的研究工作，并給出了基于GDPR的隱私政策合規性研究領域的一些觀點.表4分別從分析依據、數據集、算法以及最優算法多個角度進行分析和討論.

討論2.由表4可知，1)從分析依據而言，基于GDPR第13條的要求進行合規性分析占研究的多數.2)從數據集來看，大多采用的是英文的隱私政策，數據集的范圍領域在不斷的擴大.3)從算法來看，文獻[35,45,49-50]都采用了3個及以上的算法進行對比分析，結果都得出SVM算法對隱私政策的分析領域適用性最好.

觀點2.基于GDPR的隱私政策的合規性研究能夠將隱私政策中數據收集、使用、存儲和共享的部分或全部方式直觀地展現給用戶和服務提供商，促進了數據隱私保護領域的發展，其研究意義重大.通過對比和歸納現有工作，本文發現：1)相比于深度學習算法，SVM算法在隱私政策分類上有更好的結果，這或許是因為深度學習算法欠缺專業標注的數據集，同時也缺少大量的正樣本來訓練神經網絡.2)隱私政策語料庫目前大部分涉及的是英文，多語言融合的語料庫有待研究人員進一步開發.

Table 4 Comparison of Privacy Policy Analysis Based on GDPR

2.3 GDPR模型框架

通過調研現有研究工作，目前常見的GDPR模型主要基于合規性檢測、隱私政策分析以及系統模型設計來遵循GDPR基本原則.因此，本節從這3種不同的技術角度，分別闡述了基于合規性檢測的框架模型、隱私設計的框架模型以及系統設計的框架模型的研究進展.同時，在現有研究工作的基礎上，對每種模型框架進行分析討論，并給出觀點.

2.3.1 合規性檢測框架模型

通用數據保護條例(GDPR)的合規性對組織在個人數據隱私保護上提出了更高的要求，每個組織都必須考慮適用其組織架構的框架模型，然而龐大且復雜的法律合規需求極大地限制了組織的效率，如何為組織提供良好語義化的GDPR框架仍是一項重要的挑戰.現有的研究工作主要通過合規檢查表、合規評估工具以及法律模型來實現GDPR的合規性檢測.

公共機構和公司開發構建的合規檢查表[59-61]，能夠有效支持組織檢查其對GDPR的遵守情況.文獻[59]提出了GDPR文本擴展(GDPRtEXT)，使用歐洲立法標識符(European legislation identifier, ELI)本體將GDPR公開為鏈接數據，將概念與GDPR相關文本鏈接起來.組織可引用查詢結果并鏈接至相關文本，從而記錄和衡量對GDPR的遵守情況.處理活動登記冊(record of processing activities, ROPA)是組織個人數據處理活動的綜合記錄，創建和維護ROPA是實現問責制并幫助監管機構實施GDPR合規監管的重要過程.然而，傳統的通過電子表格維護的ROPA缺乏適合構建自動化工具鏈的數據結構及語義.文獻[60]通過語義網絡將不同監管機構發布的模板合并為良好交互性的ROPA通用語義模型(common semantic model for ROPAs, CSM-ROPA)，并基于擴展數據隱私詞匯(data privacy vocabulary, DPV)為跨域法管轄合規性提供統一數據模型.文獻[61]在文獻[60]的基礎上構建使用DPV審計個人數據國際傳輸的GDPR合規性工具，并在識別數據轉移、合規性以及問責制方面有積極反饋.但受限于測試規模，該模型性能還需要進一步考量.

在合規評估方面，工具的實現往往需要基于具體的數據保護技術(例如，區塊鏈、數據挖掘技術)或集成定制滿足GDPR原則的工具實現.GDPR強調必須確保組織在用戶同意情況下使用數據，用戶同意也是執行同意機制的互操作性、正確性和完整性的基礎.文獻[62]提出了一種基于區塊鏈的合規驗證模型，確保只有獲得用戶授權的實體才能訪問用戶數據，且所有數據交互都記錄在區塊鏈上，但是該方案僅保障GDPR同意機制的實施，無法滿足GDPR整體合規驗證.此外，數據驅動型組織嚴重依賴于數據處理，存在數據交互的業務很容易違反GDPR.文獻[63]提出一種基于事件日志行為的在線流程挖掘框架以實現支持業務流程的GDPR合規性.通過前向合規技術檢測業務流程的合規性，由流程挖掘技術從事件日志中發現組織的違規行為來為流程提供用例.一致性檢查技術將觀察到的行為與業務流程期望的行為進行對比，以評估它們的偏差值，然后通過向后合規檢查技術發現不合規方面并相應地調整模型，但該框架在復雜度高、跨越組織的業務流程中存在一定的局限性.

從學術屆和產業屆方面的工作來看，許多工具和模型僅滿足特定或孤立的GDPR需求，例如透明度、問責制或數據最小化，較少存在全面支持GDPR原則的模型.文獻[64]設計了一個支持GDPR數據治理的DEFeND平臺框架，能夠有效復用和集成滿足特定或孤立GDPR異構的工具，圍繞隱私保護的設計、同意機制管理和隱私影響評估管理3個概念，幫助組織模塊化實現GDPR合規性.該方案能滿足GDPR多方面的要求，對GDPR的實施提供了完整的參考實例.然而，目前仍缺乏應用于大數據場景中多源數據、不同目的和密集型數據處理的GDPR合規性解決方案.文獻[65]提出了一個組件化框架來實現大數據場景中的GDPR應用，該框架允許對與GDPR相關的工作進行分類并集成在框架組件中，解決了大數據系統中的異構性和多源數據分析的需求，但還需要大量的測試來平衡安全解決方案和性能開銷.

除此之外，法律建模方法[66-67]建議對監管概念進行建模以實現GDPR合規性，法律文本通常包含特定領域術語的定義、交叉引用和歧義，其可解釋性對于開發人員可能具有挑戰性，公司通常使用法規評估工具來提升法律文本的可讀性，幫助組織了解其法律義務.文獻[66]提出了一個描述GDPR原則的企業架構模型(enterprise architecture models, EAM)，將GDPR法規形式化為遵循合規性原則的EAM片段并強調GDPR原則和義務之間的聯系，幫助組織積極履行法規義務.同時，該方案在企業架構的不同層次上對GDPR法規建模，解決單一方面建模的局限性.然而，現有的法律建模傾向于考慮特定法規，但在實際環境中企業將面臨諸多法規制約.文獻[67]提出了一個靈活的模塊化立法合規評估框架，該框架旨在支持多項立法，此外，該框架還擴展了開放數字版權語言(open digital rights language, ODRL)用于表達立法義務，這兩者都是邁向上下文內容相關合規系統的重要一步，使系統可以輕松適應不同的監管領域.

合規檢查表、合規評估工具以及法律建模方法都能夠在不同程度上實現GDPR合規原則檢測，為檢查合規性和理解GDPR的影響提供指導.

2.3.2 隱私設計框架模型

隱私設計是指在設計系統時需考慮到隱私問題，即在處理方法的設計階段必須已經考慮到所需的隱私保護問題，與隱私相關的問題應該在設計層面解決，而不是在實施之后.這種方法通常被稱為隱私設計.在設計隱私框架時通常需要滿足GDPR的相關原則，如主體同意原則、透明度原則、真實性和準確原則以及問責原則等，以有效保障合規性.

文獻[68-69]基于GDPR基本隱私原則設計了滿足GDPR要求的隱私設計框架，以實現在源頭滿足GDPR合規性的方法.GDPR定義了問責機制以保障個人數據的隱私，通過賦予個人對隱私數據的控制權來提升個人數據隱私權限.文獻[68]提出了一種滿足GDPR數據處理要求的隱私設計框架(privacyTracker)，該框架支持包括數據可追溯性在內的GDPR基本原則，允許用戶從任意節點以不同索引方式遍歷引用來構建跟蹤樹，即所有接收數據實體的樹狀記錄，跟蹤收集數據的披露情況，實現個人數據泄露問責的同時評估數據完整性.這些隱私設計框架雖能有效保存和處理個人數據，但僅關注了局部的隱私原則，缺乏對隱私設計問題的整體認識.文獻[69]依據GDPR基本原則為企業架構提供模式庫、集成用例來實現GDPR合規性；通過對來源的檢索、識別實體對象并分析所需的業務流程來定義用例；選擇模式對應的GDPR原則或創建新模式來確保信息系統符合GDPR.該方案能夠依據檢索模式實現滿足GDPR的隱私設計，融合多模式解決整體隱私設計問題，具有良好的泛化能力.但同時，需要不斷更新模式庫，以滿足不斷出現的隱私設計問題.

2.3.3 系統設計框架模型

GDPR的提出使得組織需要設計同時兼顧功能和隱私原則的系統模型.文獻[70-71]針對不同應用場景設計系統框架以遵循GDPR原則.

社會技術安全(science,technologhy and society, STS)是一種設計安全復雜系統的方法，其中自主參與者和機器之間建立相互依賴關系通過交互和共享數據實現目標.文獻[70]提出了一種由建模語言和推理框架構成的社會技術系統設計方法，通過建模識別參與者之間的依賴關系實現滿足GDPR的社會層面建模，并由推理框架自動驗證隱私政策合規性.

工業領域中識別或分析人類行為的算法，有助于實現和增強人機協作，但數據主體隱私與工作流程有效性之間存在沖突.文獻[71]基于自動化工業生產場景提出了符合GDPR自動化服務的分布式隱私感知軟件架構，在保證個人數據(personal data, PD)自動化感知服務隱私性的同時，規定自動化服務公司的義務和職責.但適用范圍較為局限，需要與企業資源規劃和信息安全管理系統的協同作用.

在醫療行業這種依賴個人敏感信息(病例)的系統中，需要著重考慮數據處理的安全性.文獻[72]為電子健康記錄(electronic health records, EHR)提出一種可互操作的openEHR系統架構，允許用戶實時接收數據并在同意的情況下共享數據.該模型實現系統功能層和數據可追溯性、完整性和機密性相關需求，提供了開發兼容衛生系統的完整方法.同時，文獻[73]提出一個面向患者基于區塊鏈和快速醫療互操作性資源(fast healthcare interoperability resources, FHIR)的電子健康錢包(electronic health wallet, EHW)系統，和一個兼容GDPR法規的基于健康物聯網系統數據的PHR系統框架.PHR系統可以兼顧數據隱私保護以及數據互操作性，鼓勵患者選擇性的共享數據，并以保護隱私的方式對物聯網健康數據進行分析，進一步解決了醫療系統設計中的互操作性及隱私保護問題.但是，基于系統的設計框架需要平衡系統功能的可用性和數據主體隱私之間的關系，進而有效遵循GDPR原則，針對不同系統實現模型設計的統一方案還未實現.

2.3.4 小結

2.3節從現有的基于GDPR的模型框架的研究工作中，總結了4類具有代表性的合規方法并針對每類合規方法挑選出2種及以上代表性的研究工作，具體如表5所示.表5分別從合規方法、具體方式、分析對象以及使用領域多個角度進行分析和討論.

Table 5 Comparison of Compliance Methods Based on the GDPR Model Framework

討論3.通過研究大量文獻，本節將GDPR模型框架分為合規性檢測框架、隱私設計框架以及系統設計框架3部分.其中，合規性檢測框架通過合規檢查表[59-61]、合規評估工具[62-65]以及法律建模[66-67]檢測GDPR的合規性.由文本擴展[59]、通用語義模型[60]和數據隱私詞匯[61]構成的合規檢查表通過建立概念與GDPR法規的映射關系，在一定程度上幫助組織實現合規性檢測，但其多依賴于人工實現，在實現效率和靈活度上有待考量.合規性評估工具基于數據保護技術[62-63]或滿足特定或孤立GDPR要求的工具集合[64-65]，評估GDPR的遵循情況進而保障組織合規性.法律建模方法[66-67]對監管概念建模，提高法律文本的可解釋性，以減輕組織GDPR合規性挑戰.隱私設計框架[68-69]在設計層面基于GDPR基本原則設計隱私框架以保障隱私合規.系統設計框架[70-73]針對不同場景設計兼顧系統功能可用性、效率和數據隱私的系統框架.

觀點3.針對合規性檢測框架多層架構、多源數據和不同目的數據處理的需求，隱私設計框架構建整體隱私設計框架的要求，以及系統設計框架平衡系統功能和數據隱私保護之間關系的問題，本文通過對比和歸納現有研究工作發現：1)使用集成性和自動化合規性檢測工具并通過具有明確組件的模塊化框架能夠快速解決概念合規、數據合規以及流程合規的挑戰，有效實現GDPR合規性；2)集成多種隱私設計模式方案的模式庫能夠實現整體隱私設計需求，但需要與自動化工具結合以實現高效的隱私設計；3)異構性及其功能和隱私保護等級需求不同，使得現有研究工作并沒有提出滿足異構系統的系統設計框架.

2.4 小結

建立合理的合規性檢測框架，進一步規范現有的隱私政策，并且采用普適性的高效檢測方法，才能達到GDPR的政策預期，保護公民的數據安全和隱私.本節分別從違規檢測手段、隱私政策設計和GDPR合規性模型框架等方面分析了推動GDPR政策落實的技術手段，并加以概括總結，同時指出了進一步的研究方向，圖7選擇部分代表性文獻展示了GDPR的合規性研究發展歷程.

Fig.7 The development of GDPR compliance testing

3 GDPR相關的技術應用

3.1 基于GDPR的數據技術

GDPR指導了數據控制者和數據處理者如何對數據進行合理的處置，但數據處理必然存在著一定的風險，為了降低數據處理的安全風險，需要制定相應的保護措施.逐漸增多的跨境業務也為個人數據隱私增添了一份安全隱患，跨境流動數據需要得到更有力的保護.本節將從數據保護影響評估和數據跨境流動2個方面探討GDPR相關的數據技術研究進展.

3.1.1 數據保護影響評估

GDPR第35條規定當個人數據處理的過程中可能會對個人權利和自由產生高風險時，數據控制者應提前做好數據保護影響評估(data protection impact assessment, DPIA).DPIA建立在隱私影響評估(PIAs)的基礎上，是組織和企業必須履行的一項有關GDPR數據問責制的關鍵義務，它可以幫助企業實現風險最小化，并幫助企業證明合規性.如果企業未能履行這項義務，則將面對極其嚴厲的處罰，包括高達1000萬歐元的罰款，或者高達到2%的全球年營業額.

雖然GDPR對數據保護影響評估提出了相關要求，但是GDPR只規定了實施DPIA的最低標準，并沒有涉及明確的執行方法[74].文獻[74-75]結合了德國數據保護機構采用的標準數據保護模型(standard data protection model, SDM)方法，文獻[74]設計了一種跨學科的風險評估方法，將DPIA過程分為了準備、評估以及報告和保障3個階段，并提出了可用性、完整性、機密性、不可鏈接性、透明性和可干預性6個評估要素.文獻[75]就有關如何實施DPIA框架的問題展開了討論，并通過2個案例的分析總結，實現利用SDM的數據保護目標來對風險進行結構化分析，未來也可以將這項工作納入SDM.文獻[76]在文獻[74]的基礎上對方法進行了實踐，使用文獻[74]的方法實施DPIA，與12個組織展開了合作，并分享了與公司合作實施以來積累的經驗，以及不同的利益相關者在實施DPIA時需要注意的事項.

文獻[77-78]針對特定的DPIA實施環境進行了分析.文獻[77]專門對慈善機構及中小型企業展開了研究，與其他組織不同的是，慈善機構和中小型企業通常在財務和資源方面能力有限，因此在處理特殊類型數據和個人身份數據的工作上缺乏專業性.文章展示了實施DPIA的示范過程及設計框架，并通過一家實際的慈善機構進行了驗證，該框架同樣可以應用于其他需要實施DPIA的組織.文獻[78]則主要針對IT系統，在系統開發早期通過基于模型的隱私安全分析來實現DPIA，并通過3個工業案例研究對該方法進行驗證和評估.

因為現有的DPIA方法主要由分析師來進行評估，所以很容易受到分析師的主觀影響，為了解決這個問題，文獻[79]提出了一套有明確定義的標準用來幫助分析師評估隱私風險的影響和可能性，同時使用模糊多準則決策方法來系統評估隱私威脅的嚴重程度并進行建模.文獻[80]結合數據保護影響評估(DPIA)和信息安全風險評估(information security risk assessment, ISRA)提出了一個信息安全風險評估模型pISRA，該模型為評估者提供了一個可以進行比較和重復的評估方法，但是還沒有得到具體實現.

小結：本節主要針對現有的數據保護影響評估(DPIA)方法進行了討論和分析，并給出了基于數據影響保護評估領域的一些觀點.

討論4.目前大多數研究工作都集中在構建DPIA實施框架及流程示范上，但有關DPIA框架的具體實現較少.部分研究工作針對一些特定的組織分析了DPIA實施環境，并對DPIA框架進行了驗證.除此之外分析師的主觀想法也會影響到DPIA流程，明確的標準和系統的評估能夠幫助DPIA的順利實施.

觀點4.由于GDPR沒有對DPIA的具體實施方法進行詳細說明，因此目前仍缺乏標準化的DPIA實施流程，同時每個領域需要解決的問題不同，對于DPIA流程設計的需求也不盡相同，這給DPIA的實施帶來了很大的挑戰.如何針對特定的領域設計專門的標準化DPIA程序仍需要進一步研究.

3.1.2 數據跨境流動安全

由于各國之間對于個人數據的相關法律要求不盡相同，比如歐盟的GDPR標準對于個人數據的保護十分嚴格，而中國的《數據安全法》出臺還沒多久，在個人數據的保護方面還較為薄弱，因此個人數據的跨境流動會帶來較大的安全隱患.數據跨境流動要注意數據合規性問題，合規性驗證對于保證業務流程的整個生命周期的安全性至關重要.

目前針對數據跨境安全領域的研究主要集中在政策解讀和模型架構、技術支持方案以及醫療健康數據方面.

1)政策解讀和模型架構

在數據跨境政策解讀和現有模型架構方面，文獻[81]認為GDPR不僅保護了數據基本權利，也促進了個人數據自由流動，這樣形成的分層數據保護制度的架構保障了包括研究在內的以不同的公共或經濟利益為基礎進行的數據處理活動；而文獻[82]提出了GDPR標準在如何評估第三國制度數據保護水平等問題上的缺失和不足，認為可以確定一套實質性要求以及第三國必須提供的支持性程序和執行機制來確保其數據保護水平符合歐盟標準.另外，在國內也有大量法律、金融等領域的學者和專家對GDPR進行了分析和研究，比如，文獻[83]指出GDPR客觀上對國際服務貿易規則產生了深遠而廣泛的影響，其中包含的數據跨境轉移規則造成了數字封鎖，構成了貿易障礙，企業和第三方滿足GDPR標準的數據合規要求困難重重，最終導致數據本地化是滿足GDPR合規要求的最佳選擇.文獻[84]將GDPR與當前全球其他主要經濟體的跨境數據流動政策及其實踐進行比較，分析了“數字主權”下全球跨境數據流動政策的新動向，從貿易框架探尋國際合作機制并由此提出對中國相關體系建設的建議.

不同國家和組織之間的差異是目前跨境數據流動面臨的最大問題，不同的政策措施也意味著不同的數據保護水平，因此，文獻[85]對各國及各組織在數據跨境流動問題上的現有政策和態度進行了對比解讀，分析了在APEC、CBPR以及GDPR等多個標準協定之間建立互操作系統的潛在挑戰和影響，以及站在美國角度，提出了目前在數據跨境流動問題上還需要考慮和解決的一系列事項.文獻[86]通過分析歐盟和美國的跨境數據保護政策，提出中國應該繼續保護當地居民的個人數據，同時，在考慮到互聯網帶來的巨大價值，中國應該開放非個人數據傳輸市場的建議.針對這些爭議和討論，文獻[87]提出一種通用交換數據模型(EDM)，該模型利用現有的開放式歐洲標準和技術規范作為構建塊，以更加內聚和統一的方式描述一次性跨境消息交易.文獻[88]從中外數據本地化實踐中，抽象出描述數據本地化存儲的嚴苛度模型，并以目的和手段之間的適當性和必要性為指針，構建出一套“數據本地化存儲合理界限”理論，并從該理論出發，檢視中國《網絡安全法》相關規定，給出基本評價并提出了數據跨境安全評估辦法的總體框架.

2)技術支持方案

跨境數據流動亟待解決的問題和需求已經開始催生新的技術支持方案.例如，文獻[89]引入隱私證書頒發機構(certificate authority, CA)的概念，設計了一個多個隱私CA的訪問控制層次模型，這些CA負責管理不同領域的法規，不僅可以控制不同國家的數據傳輸，還可以控制不同經濟或政治集團或城市的數據傳輸.另外，他們還將城鎮管理應用程序作為iKaaS平臺的一個用例，介紹了該訪問控制機制的工作原理.文獻[90]在GEO-TRUST項目中提出了一種稱為偏移量證明(proof of offset, POO)的創新協議，以通過地理位置、責任、數據公開最小化、數據語義注釋實現更高的控制和數據訪問限制，從而保證跨域數據重用，并提高數據保護意識，以此來促進數據交換、可信任性、同意管理、聲譽和安全的監管.

隨著時代進步和科學技術的不斷發展，區塊鏈系統提供了一個分散、不變和透明的架構，可以將數據的所有權和控制權交還給用戶，實現可信和負責的數據共享，但對于數據共享等領域，區塊鏈網絡中仍存在不同的可擴展性、安全性和潛在的隱私問題，如鏈上數據隱私、數據源身份驗證或遵守隱私法規，因此，文獻[91]提出了一種基于區跨鏈系統和密文策略屬性加密的隱私保護和用戶控制的數據共享架構ThemisABE，該方案具有一對多數據加密和細粒度訪問控制等特性，能解決數據共享的隱私安全和本地化問題.針對跨境數據共享，文獻[92]提出了一個使用區塊鏈的跨訂單可問責數據共享平臺，其中全球云構建在不同國家設置的多個安全網關之上，分別使用包括5種算法來處理數據訪問請求、數據共享、區塊鏈交易、檢測和懲罰行為不端的實體等問題.文獻[93]針對GDPR下共享數據的安全性問題部署了一種基于風險的評估方法來確定如何評估現有的數據匿名化技術，以此來與GDPR中的新數據類型相協調；還進一步開發了一個基于機器學習的隱私風險挖掘框架，該框架由兩階段聚類算法和隱私風險樹模型組成，可以用于檢測發布新凈化數據集的記錄鏈接風險；此外，文獻[93]不僅為數據控制者提出了一個隱私管理框架以提高區塊鏈技術差異私有數據共享的效用和安全性，還提出了另一個結合區塊鏈和同態加密的框架，以外包集中式匿名服務幫助數據所有者與多個數據控制者之間共享數據.除了區塊鏈技術，文獻[94]為了讓任何非結構化數據云存儲系統都必須滿足跨境數據流法規遵從性的要求，還使用深度學習模型將駐留在統一文件和對象存儲中的數據分類為個人信息，以及在集群文件系統級別實現地理圍欄功能，以此來規范分類個人信息的跨境數據流.另外，在Web服務方面，文獻[95]設計了一種測量方法，用來量化跨境的大規模跟蹤流量，測量結果顯示，大部分的跟蹤流量都會在歐盟境內終止，也就是跟蹤流量還在GDPR規則的管轄之下.文獻[96]全面總結了有關第三方網站跟蹤的政策及技術研究，來幫助決策者制定更加安全的解決方案.在移動應用方面，文獻[97]針對安卓應用程序的數據跨境傳輸制定了合規評估標準，并設計了合規性評檢測方法，并用此方法對100個常用的安卓應用程序進行了評估，發現有高達66%的應用程序存在著跨境合規問題.

3)醫療健康數據

在醫療數據方面，為了實現更好的醫療服務，患者的跨境移動、遠程醫療和醫療研究的交流都給數據安全帶來了極大的挑戰，為此文獻[98]借助私人區塊鏈搭建了用于評估的平臺，通過推薦最佳的安全策略來為業務和應用系統量身定制防御措施.文獻[99]介紹了可自動識別風險的系統安全建模器(system security modeller, SSM)，并以歐盟內部的跨國醫療數據交換為場景進行了講解，該工具可以在系統設計的同時檢測合規性，當出現不符合合規性的情況時還會計算出對整個體系結構的影響.文獻[100]針對跨境電子身份認證保護進行了討論，并建議通過假名化和選擇性披露的方法使電子身份識別的互操作性框架達到要求的數據保護級別.為實現有效的跨訂單醫療保健供應，歐盟發布了OpenNCP平臺來解決國家間衛生信息交換中的互操作性問題，針對其中存在的一些安全問題，文獻[101]在OpenNCP的基礎上進行擴展并詳細描述了KONFIDON項目方法以及如何通過結合互補的安全增強技術來部署該方法，以達到最終提高電子健康數據交換的信任和安全性.文獻[102]提出了一種實現破壞性日志記錄的新方法，即一種用于在OpenNCP上跨境交換電子健康數據的審計機制，在OpenNCP基礎設施內提供可追溯性和責任支持.文獻[103]提出一種訪問控制方案，該方案允許請求數據和服務的消息在發送方和接收方驗證安全問題后跨不同的區域或國家節點，它可以拒絕那些被檢測為惡意的訪問請求；并通過放置在發送方和接收方的威脅檢測軟件的明確反饋來抑制許可消息流，以此來提高在分布式系統如OpenNCP下運行的跨境健康數據訪問的安全性；并使用一個分析模型來評估了安全系統造成的開銷.考慮到醫院中數據和軟件使用的異構性和高度敏感性所帶來的具體限制和批評，文獻[104]提出了一種為醫療信息系統執行DPIA的方法，通過支持風險評估和管理，該方法可以應用于在醫療環境中執行DPIA以維護醫療保健信息系統的安全性.針對系統的互操作性問題，文獻[105]也給出了解決方案，它設計了用于醫療保健行業的工業4.0模型，并集成了不同的工具，如同意管理器和數據隱藏工具，來確保醫療體系的隱私性.

4)小結

3.1.2節針對現有的數據跨境流動安全領域的研究工作進行了總結和討論，并給出了數據跨境流動研究領域的一些觀點.

討論5.3.1.2節從數據跨境領域出發，分別介紹了國內外專家學者對于當前多個經濟體的政策的解讀和模型架構的分析、以及應運而生的新技術、新方法，另外也單獨從醫療數據角度出發介紹其跨境安全和現有方案.不管是GDPR對歐盟數據保護起到的積極作用，還是其掣肘發展和交流的消極影響，都說明目前各個經濟體針對數據跨境的制度和政策都有一定的局限性.此外，不管是框架還是技術方案，目前都還處于研究階段，而數據跨境安全體系建設勢必要落實到實踐中去，既要考慮其適配性和合理性，也要不斷從實踐和反饋結果中發現問題并提出解決和提升的方案.此外，目前的有效技術方案較少，層次相較于普通數據共享方案也沒有明顯的融入數據跨境需求，缺少針對性探討和研究.個人健康數據在跨境過程中的隱私性和安全性確實需要得到重視，但其他領域的數據也需要相應的研究和評估，這是目前研究領域存在的短板和不足.

觀點5.目前不同國家的數據跨境政策之間的差異較大，且安全和發展側重點不同，以至于短期內很難在全球范圍內形成統一且高效的跨境數據治理監管體系，也就無法應對未來發展帶來的大規模數據跨境安全需求問題.目前世界各大經濟體都在致力于探尋符合自身利益的數據跨境方案和界限，但缺少交流協商尋求全球共識的契機.技術工具和框架建設不應止步于個人健康數據，經濟、政治、科技等領域也是國家有序健康發展的重要動力，不同的數據擁有不同的敏感性和安全級別，相應的就會在跨境的各個環節產生不同等級保護措施的要求，中國現如今已經逐漸形成統一的數據分類分級制度，相關技術方案可以以此為研究角度進行設計、改進和升級.

3.2 GDPR合規應用場景

GDPR的出臺確保了數據主體的數據隱私安全，為數據主體、數據控制者和數據處理者之間搭建起了一座信任的橋梁，特別是數據流動頻繁、數據敏感度高的應用場景，GDPR的合規性顯得尤為重要.本節分別針對區塊鏈、物聯網、電子健康及其他領域(教育、生物特征識別)等不同的應用場景對GDPR合規性進行探討.

本文選擇區塊鏈、物聯網等應用領域進行分析和討論，主要有3點原因：1)通過對現有研究工作的梳理發現，現有的基于GDPR的數據隱私安全研究成果主要集中在這幾個領域，有必要對其進行單獨調研分析.2)目前大多數的區塊鏈應用都不符合GDPR標準，區塊鏈的永久存儲不可更改的特性使得區塊鏈的合規性變得困難.同時，物聯網設備之間傳輸的數據量大且類型復雜，其中不乏大量的用戶個人敏感信息，一旦設備遭到攻擊將可能造成十分嚴重的數據泄露事故.3)生物特征數據屬于GDPR規定的特殊類別數據，非特殊情況不得處理，因此作為當今社會重要的生產要素，生物特征數據的隱私安全不可輕視.學術研究需要用到大量的研究數據，如何確保這些數據的合規性，將在很大程度上關系到學術研究能否順利開展.但目前有關生物特征數據和學術研究領域的研究工作較少，因此本文將其歸納到其他領域進行探討.

3.2.1 區塊鏈合規領域

區塊鏈技術具有分散性、透明性、可追溯性、不變性的特性，消除了個人數據的集中化，為數據的管理和存儲提供了很大的幫助.但GDPR的出臺也為區塊鏈技術帶來了新的挑戰，為了了解區塊鏈領域是否能夠有效應對GDPR帶來的合規問題，文獻[106]對區塊鏈系統做了一項分析調查，調查包含了區塊鏈系統的開發商和服務提供商公開發布的法律文件及官方的Twitter賬戶推文.然而調查結果不容樂觀，雖然GDPR已經頒布了3年并實施了一年，但在區塊鏈領域仍然存在著如何解決GDPR合規性的嚴峻挑戰.調查顯示，在314個區塊鏈系統中只有86個(27.5%)系統涉及到了GDPR，且僅有27個(8.6%)系統有關于GDPR合規性的確切的法律文件.因此，要解決區塊鏈技術與GDPR合規性之間的問題仍然任重道遠.

本節將從數據責任和來源追蹤、數據管理和數據擦除3方面來討論區塊鏈技術為GDPR的合規性提供的助力以及其產生的阻礙.

1)數據責任和來源追蹤

雖然GDPR出臺后對擁有信息的服務提供商提出了更嚴格的要求，但服務提供商能否一直堅守高要求還是一個變數，數據的收集和處理過程仍缺乏透明度，用戶無法了解自己的數據流向了哪里，被用在何處.區塊鏈技術為此提供了合適的解決方案[33,107-110]，通過分布式賬本來記錄服務提供商的所有數據活動，這樣一旦服務提供商違反GDPR標準，他們的行為將會被記錄在案.通過區塊鏈技術可以實現數據流動的透明度，增進個人數據利益相關方之間的信任.

文獻[107]為云存儲應用設計了云數據溯源架構Provchain，該架構將數據操作的歷史記錄散列到Merkle樹節點中，并鏈接到區塊鏈上，生成防篡改的數據記錄以供驗證，實現云數據的透明性.文獻[33,108-110]則利用了基于區塊鏈的智能合約技術實現了數據來源的追蹤和記錄，通過智能合約捕獲服務提供商和用戶之間的交易條件，而無需第三方的參與，既實現了去中心化，又能夠降低成本.文獻[108]設計實現了2個具有不同粒度和可伸縮性的模型，其中第一個由數據主體為每個接受數據的控制器部署訪問控制策略，第二個則由數據控制器部署策略來讓數據主體加入.但文獻[108-110]只提出了相應的概念框架，并沒有涉及更詳細的技術細節.文獻[33]為合規的基于區塊鏈的個人數據管理平臺提供了詳細的技術機制，他們在Hyperledger Fabric區塊鏈框架之上開發了基于業務連續性的個人數據管理系統，證明了概念的可行性.

文獻[109]具體說明了如何將一組GDPR規則轉換為智能合約中的操作代碼，使物聯網設備實現對個人數據的自動驗證.該方法不僅可以應用于物聯網場景，還可應用于云系統或其他的服務場景[110].未來還可以在公共許可區塊鏈或私有區塊鏈上實現設計的抽象模型[109].

2)數據管理

GDPR規定數據主體要對個人數據的流向知情并予以同意，還要以易于理解的方式對個人數據進行控制.基于區塊鏈技術的同意管理平臺[111-118]可以幫助用戶理解同意申請并輕松地管理同意許可，確保了用戶對于其個人數據的控制權.在GDPR出臺之前，文獻[111]就針對個人數據隱私問題，將區塊鏈作為自動化訪問控制管理器，設計了基于區塊鏈的個人數據管理系統.GDPR出臺后，文獻[112-122]也利用區塊鏈技術提出了各自的解決方法.

文獻[112]針對在線社交網絡現有的同意管理機制與GDPR的規定進行了比較分析，并確定了其中存在的風險，作者建議設計基于區塊鏈的同意管理模型為在線社交網絡用戶提供所需的透明度.文獻[113]設計了一個個人數據管理系統BPDIMS，該系統以用戶為中心，最大限度地實現了用戶對個人數據的控制，并通過個人數據的貨幣化提升了用戶對于個人數據價值的認知，使用戶能夠在分享個人數據的同時獲取金錢收益.文獻[114]利用區塊鏈技術為用戶提供了一個輕量級管理系統，該系統可以顯示服務提供商有關個人數據的協議.文獻[114]通過對控制器和處理器進行識別來區分2種同意許可，解決了其他文獻并沒有將數據收集和數據處理2方面的許可區分開來的問題，未來還可以為系統增加可視化圖形界面來方便用戶的管理.

文獻[115]結合了加密技術，保證了同意管理系統的隱私性，并且為公司設計了代理應用程序，該程序會定期查詢區塊鏈，更新有關的同意狀態，并以發布-訂閱的形式告知相關的服務，使其能夠及時做出反應.該文獻首次實現了使公司服務與數據主體的動態同意許可之間保持實時同步.

文獻[112-115]僅進行了基于區塊鏈的概念設計，并沒有進行概念驗證，文獻[116-118]則分別在不同的區塊鏈上開發了相應的系統.文獻[116]借助語義網和以太坊區塊鏈構建了自動驗證數據合規性的系統，當數據分享給第三方時，該系統能夠強制執行GDPR規則.但該系統僅使用了以太坊區塊鏈，未來還可以在更多的區塊鏈框架上進行探索.文獻[117]則通過Hyperledger Fabric框架實現了概念驗證，設計了一個同意管理模型，利用區塊鏈技術為數據主體、數據控制者和數據處理者提供了交互的工具，并維護了數據主體的權力.文獻[118]提出了一個數據安全共享方案，將智能合約設置為訪問控制列表，并為不同的對象設計了4種智能合約，文中探討了哪些數據是不可變類型且可以存儲在區塊鏈的數據，并對該方案在不同區塊鏈平臺下的性能進行了測試.

不同于其他系統的單鏈結構，文獻[119]設計了一種新穎的雙層區塊鏈結構，開發了用戶權限管理系統Soteria，該系統可以同時滿足分布式系統CAP定理中一致性(C)、可用性(A)和分區容忍性(P)3個屬性，其中主鏈滿足了可用性和分區容忍性，側鏈滿足了一致性和可用性，保證了系統的透明性、可證明性和可擴展性.除了雙層區塊鏈的分布式賬本模塊，該系統還包括用戶權限管理模塊URM和審計跟蹤模塊ATS.但由于側鏈將塊散列到主鏈上的頻率會影響到整個系統的延遲和吞吐量，因此Soteria的鏈間管理策略還需要進一步的調整優化.

基于區塊鏈技術的自我主權身份(self-sovereign identity, SSI)[120]也是實現數據的完全控制的一種途徑.區塊鏈技術使得身份管理(identity management, IdM)系統由傳統的集中化的方法逐漸向開放、分散的自我主權身份轉變.自我主權身份系統通過結合分布式分類賬本技術和加密技術來創建不可篡改的身份記錄，實現了用戶對個人數據的完全控制權[121].文獻[122-124]研究了現有的自我主權身份技術方案，并對SSI系統與GDPR原則的兼容性進行了分析.

文獻[122]對現有的3種區塊鏈身份管理系統uPort,Sovrin和ShoCard進行了分析，并指出了它們存在的缺陷，提出了新型身份管理系統DNS-IdM，該系統可以通過自主身份管理實現去中心化.文獻[123]對基于公共無許可的uPort和基于公共許可的Sovrin兩種不同類型的身份管理系統進行了比較，發現Sovrin區塊鏈系統更加符合GDPR的大部分要求，因為Sovrin生態系統包含一個治理模型，且由可信組織聯盟管理.除了uPort和Sovrin系統之外，文獻[124]還分析了在公共無許可的以太坊區塊鏈上應用的Jolocom框架，并討論了SSI與GDPR標準之間的一致性.

3)數據擦除

GDPR第17條規定了數據主體的被遺忘權，即當滿足一定的條件時，數據主體有權要求刪除自己的個人數據.用戶需要合適的機制確保他們能夠選擇自己想要的服務，當他們不需要這種服務時也能夠完美地退出，例如當用戶想要退出某種服務時，服務提供商需要刪除用戶使用該服務的所有歷史記錄[113].但是區塊鏈的不變性意味著數據一旦存儲在區塊鏈上就不能再被刪除或者改變，因此如何實現區塊鏈數據的擦除成為了一項亟待解決的挑戰.在先前有關區塊鏈的GDPR合規性問題的文章中，討論的最多的問題也是有關數據刪除和修改的規定[125].文獻[125]綜合研究了有關使用區塊鏈技術進行身份管理的文獻，探討了區塊鏈在遵守GDPR的要求方面存在的優點及產生的矛盾，尤其是區塊鏈的不變性與GDPR的被遺忘權之間存在的沖突.

比較常見的方法有針對區塊鏈的離線數據存儲解決方案[126-130].離線存儲即構建鏈外數據庫用來存儲個人數據，區塊鏈上則僅保存指向對應的個人數據存儲位置的散列數據指針.文獻[126]將個人身份信息與非個人身份信息分開存儲，個人身份信息存儲在本地數據庫中，而非個人身份信息以及個人身份信息的哈希則存儲在區塊鏈中.文獻[127]詳細討論了有關區塊鏈的鏈外功能集成的方法，并提出了一個概念框架實現鏈外結構與傳統區塊鏈技術的結合.

由于區塊鏈上的數據會在許多節點被復制，導致了數據的大量冗余，因此在區塊鏈存儲個人數據是不現實的.如今分布式文件系統(distributed file system, DFS)越來越多地應用于區塊鏈技術，用來解決區塊鏈技術與GDPR中的被遺忘權之間的沖突，優異的可擴展性及內容尋址能力使DFS系統成為替代傳統區塊鏈存儲的新方向[128].文獻[129]提出了一個在星際文件系統(inter planetary file system, IPFS)中應用的匿名委托擦除協議，該協議可以輕松地集成到IPFS中，使IPFS符合被遺忘權的要求并被認可其合規性.協議規定只有原始數據的提供者或其代表才能對數據進行擦除，發出的擦除請求會傳至所有的IPFS節點，且所需的開銷并不會影響系統的性能.文獻[130]對IPFS,Sia和一種專有服務3種不同的DFS方法進行了評估，發現3種方法展現了不同的性能，當出現一定的過載情況時，專有服務的響應和可靠性會優于另外2種方法.雖然離線存儲有效地解決了區塊鏈的數據存儲問題，但此種方法實際上破壞了區塊鏈的分散性，同時也需要可信的數據管理機構[131].

文獻[132]開創了另一種可行的解決方法，利用變色龍哈希函數(Chameleon Hash)構建可編輯區塊鏈，傳統哈希函數的抗碰撞性保證了區塊鏈的不變性，變色龍哈希利用陷門可以輕松地找到哈希碰撞，從而對區塊鏈任意塊中的內容進行重寫.該系統擴展了變色龍哈希函數與區塊鏈的兼容性，可以與所有流行的區塊鏈兼容.文獻[133]在文獻[132]的基礎上結合基于密文策略屬性的加密(CP-ABE)方法，提出了新的基于政策的變色龍哈希(PCH)的概念，實現了對區塊鏈事務級重寫的細粒度控制.為了解決文獻[133]的方法可能面臨惡意攻擊的問題，文獻[134]限制了修改者重寫特權，修改者最多只能修改k次，次數由中央機構定義，除此之外加入了惡意行為懲罰機制，修改者在授權期間需要在鏈中存入押金，一旦發生任何惡意行為，中央機構可以提取押金.由于PCH機制需要一個完全可信的中央機構，文獻[135]針對這一弱點提出了去中心化的解決方案DPCH，并通過基于RSA加密算法的變色龍散列和BLS短簽名進行了實例化.

除了離線存儲和變色龍哈希的方法之外，文獻[136]提出了一種不同于側鏈的解決方法，他們采用樹的結構構建區塊鏈，根據業務上下文將交易分到線性子鏈中，這種方法的優點在于當其中一個線性子鏈被刪除時不會影響到其他子鏈.文獻[137]運用設計科學研究(design science research, DSR)的方法設計了一個概念原型解決了刪除區塊鏈數據的問題，建議在一定的時間過后自動刪除區塊鏈中的數據，來實現區塊鏈與GDPR的兼容性.但該方法的前提是需要區塊鏈所有的節點都能有足夠的誠信，而且因為刪除的時間是預定的，所以該方案并不能滿足用戶能夠隨時刪除數據的要求.相比于文獻[137]的方法，文獻[131]的方法則完全不需要修改區塊鏈，文章利用了假名數據的法律屬性，即只有當假名數據能夠與個人身份聯系起來時才能被當作個人數據.文獻[131]通過假名生成算法為安全使用日志設計了假名供應系統，該系統會為每一個新塊提供一個一次性的交易假名來保證GDPR的合規性.

4)小結

3.2.1節闡述了現有的區塊鏈GDPR合規性的研究工作進展，并對3類具有代表性的合規性問題以及相應的合規性方法進行了總結和討論，具體如表6所示.

Table 6 Compliance Issues and Approaches of Blockchain

討論6.目前有關區塊鏈合規性問題的文獻主要集中在數據問責、數據管理以及數據的刪除和修改上，其中有關數據的刪除和修改的討論最多.區塊鏈提供的智能合約、自我主權身份等技術，能夠幫助企業更好地實現GDPR的合規性.而針對區塊鏈如何進行數據刪除和修改的問題，較為廣泛的方法是離線數據存儲，將數據存儲在鏈外數據庫中，區塊鏈上保存數據的散列指針.除此之外，上下文鏈、遺忘區塊鏈、假名數據等方法也可以用來實現數據的刪除和修改.

觀點6.區塊鏈為個人數據隱私安全提供助力的同時也帶來了相應的安全風險.區塊鏈的不變性成為GDPR的被遺忘權與區塊鏈之間難以調和的矛盾，如何解決區塊鏈與GDPR之間的沖突是一個值得探索的方向.

3.2.2 物聯網平臺合規領域

物聯網中設備繁多，數據量大，數據流動頻繁，個人數據隱私時刻都有遭受侵犯的風險，因此如何實現物聯網的GDPR合規性是一個亟待解決的難題.GDPR標準在涉及較多用戶的應用領域的影響更為明顯，尤其是基于服務的物聯網場景如智能醫療、智慧城市等.文獻[138-143]致力于為用戶提供數據同意管理平臺以實現數據隱私保護.文獻[138]開發了物聯網管理平臺ADVOCATE，該平臺以用戶為中心，幫助用戶輕松管理物聯網系統中有關個人數據訪問的同意請求，同時也幫助數據控制者能夠遵循GDPR的原則進行活動.文獻[139]提出了Privysharing框架，將區塊鏈技術應用到智慧城市場景中，將數據分成不同的類型，并通過不同的通道處理數據，實現了物聯網數據的安全共享，實驗證明多通道系統比單通道系統的可擴展性更好，文章還設計了獎勵機制以激勵用戶分享個人數據.文獻[140]為物聯網智能家居平臺提供了一個同意管理器，管理器將復雜事件處理(comples event processing, CEP)與邊緣計算結合在一起，復雜事件處理負責數據流動的控制，邊緣計算則負責為復雜事件提供安全策略.

在智能醫療領域，文獻[144-145]探討了新實施的GDPR法規給醫療領域帶來的變化.文獻[144]針對移動醫療應用方面，提出了將GDPR關鍵規則集成到移動應用程序中的可視化方法，但該研究還未經過真實的場景測試.文獻[145]通過文獻計量學和科學計量學的方法對醫療領域有關GDPR研究的熱點進行了可視化分析，分析揭示了目前的研究熱詞是數據保護、隱私和大數據，區塊鏈和機器學習成為了GDPR研究的新方向.

對于更為敏感、數據交換頻率也更低的醫療數據，可以采用粒度更細的解決方案[141-143].文獻[141]針對用戶的動態健康數據設計了一個數據共享系統，該系統結合了區塊鏈技術和云存儲技術，為大型數據集提供了離線存儲的方法，解決了區塊鏈無法存儲大量數據的問題，并添加了數據質量驗證模塊來控制數據的質量.文獻[142]設計了一種用于物聯網電子健康系統的GDPR控制器，能夠讓用戶通過細粒度的訪問控制策略完全控制自己的個人數據，當非法訪問的情況發生時還能及時收到通知.文獻[143]提出了數據安全共享方案MedSBA，利用私有區塊鏈來實現云存儲醫療數據的訪問控制策略，提供對醫療數據的細粒度訪問和共享過程中的安全保障.文獻[146]在容器的虛擬化技術和分布式賬本技術的基礎上搭建了一個云服務架構，容器技術用于數據的監控；分布式賬本如區塊鏈、智能合約等則用來記錄對數據的操作，該架構在網上藥店的場景中進行了驗證，并可以推廣到更多的醫療場景.

文獻[147]分析了物聯網電子健康領域面臨的安全挑戰，并設計了一個完整的架構來為中老年人提供更加安全的醫療服務；介紹了有關環境輔助生活(ambient assisted living, AAL)和移動醫療2種應用程序的設計和實現.文獻[148]建議對醫療數據處理進行系統的風險管理和錯誤管理，以防止醫療項目因合作者沒能正確處理數據導致的人為失誤.

小結：3.2.2節針對現有的物聯網領域的GDPR合規性研究工作進行了總結和討論，并給出了物聯網GDPR合規領域的一些觀點.

討論7.3.2.2節主要從智慧城市[138-140]和智能醫療[141-148]2個應用場景分析了物聯網領域在GDPR合規性方面的研究進展.數據同意管理平臺的建立保證了物聯網系統的合規性，高效的身份驗證和細粒度的訪問控制也進一步為物聯網數據共享提供了隱私保護.一些研究工作聚焦在了將區塊鏈技術應用于物聯網的課題上，并結合數據加密、云存儲、容器虛擬化等技術為物聯網用戶數據提供安全保障.

觀點7.目前主要的研究方向主要是為物聯網開發實現數據的安全共享.通過對現有研究工作的歸納分析，本文發現：1)對于用戶眾多數據龐大的物聯網應用場景，開發一個保護用戶隱私的數據管理控制平臺是很有必要的，考慮到物聯網資源受限的設備，平臺最好能夠實現輕量化.2)區塊鏈技術為物聯網系統的合規性提供了很大的助力，未來還可以將邊緣計算引入區塊鏈系統，以減輕物聯網終端節點的維護壓力.3)目前有關物聯網合規性的研究工作大多都集中于概念架構的設計，還未能投入物聯網系統，且應用場景較為單一，如何將合規方法推廣到更多的應用場景還有待進一步探索.

3.2.3 其他合規領域

1)生物特征識別領域

GDPR引入了一種新的個人數據類別——生物數據，即通過與自然人的身體、生理或行為特征相關的特定技術處理產生的個人數據，這些數據可以確認自然人獨一無二的身份，如面部圖像或指紋.這種生物特征數據被廣泛用于考勤或門禁系統.

對于生物特征數據的立法是很有必要的，但即使在歐盟內部，成員國之間也未能在生物特征數據的使用方面達成一致意見，各國對此的法律要求各不相同，導致GDPR在生物數據方面的要求無法實現[149]，因此仍需要從法律和技術方面繼續分析這一問題.文獻[150]總結了法律界和技術界的專家們對于GDPR對語音數據影響的看法，由于目前法律界和技術界還無法達成共識，因此作者提出了分類法的方案以實現語音技術與隱私立法之間的協調.文獻[151]對智能語音設備的隱私問題進行了詳細的研究，作者對市場上流行的亞馬遜Echo設備進行了測試，發現設備存在著很大的安全風險，在沒有安全措施的情況下，用戶的個人數據很容易遭到泄露.作者在文中提出了一系列降低安全風險的建議，并指出通過語音識別的生物特征控制可以成功阻止未授權的人訪問設備數據.

除此之外，某些類型的軟生物特征如情緒反應等，同樣會帶來數據隱私方面的威脅，甚至不亞于用于識別的生物特征的威脅，但這樣的特征并不受GDPR規則的保護[152].因此關于GDPR生物數據相關的內容仍需要更加系統化的定義.

2)學術研究領域

在學術研究領域，由于GDPR的合規性引起的有關受試者的數據隱私問題，使研究人員而不得不望而卻步，甚至直接放棄有涉及到歐盟受試者的研究.尤其是數據密集型研究離不開物聯網的支持，但GDPR的出臺為研究帶來了風險，因此文獻[153]討論了如何使學術環境下的物聯網數據研究符合數據隱私標準的問題，確定了3個信任原則，并實現了一種物聯網數據研究的可信架構.教育研究領域也同樣受到了來自GDPR的影響，例如招收歐盟學生的at-scale教育項目在研究中就遇到了GDPR合規性帶來的困難[154].因此文獻[154]對他們面臨的挑戰進行了總結，并提出了一些解決方案，如了解GDPR的法律細節、及時與法律團隊合作、提前征求潛在受試者的同意等.

4 挑戰與機遇

在深入調研現階段基于GDPR合規性研究現狀，以及總結GDPR相關的技術應用研究現狀的基礎上，指出了基于GDPR的數據隱私安全面臨的十大挑戰，并給出了可用于應對這些挑戰的潛在安全技術研究方向，其對應關系如表7所示:

Table 7 Challenges and Opportunities of Data Privacy Security Based on GDPR

4.1 軟件合規性檢測

對于資源相對匱乏的中小企業來說，無論是遵守GDPR還是對已開發的應用軟件進行GDPR合規性檢測都是一個較大的挑戰.但如果有一套在軟件開發之初就能實現GDPR合規性的開發規則，以設計和默認來實現數據保護，就可以大大減少資源的浪費.文獻[155]曾提出在需求工程期間解決這個問題，并打算基于NLP的自動化方法來實現.目前，對于這方面的研究才剛剛開始，實現這種挑戰仍待安全研究人員進一步探索.

4.2 GDPR合規性審計

由于監管機構的合規性審計是不定期進行的，并且個人用戶也無法感知服務商是否有效保護了他們的個人數據，更無法感知服務商何時何處對他們同意的數據進行處理和利用.基于此類問題，一個潛在的研究方向是使用技術手段來提高企業訪問用戶數據的透明度使得用戶可以感知，并且讓違規行為不可篡改以便于監管機構進行執法.區塊鏈和智能合約技術可以在一定程度上解決這個問題，分布式賬本保證了所有的數據活動不可篡改，而智能合約可以保證觸發違規行為之后不可撤銷，違反GDPR規則的行為會被自動報告.文獻[33,156-157]將區塊鏈和智能合約技術應用到GDPR的規范中，目前智能合約技術在GDPR合規性檢測方面的應用尚處于起步階段，值得進一步的研究.

4.3 針對第三方跟蹤服務的流量分析

移動應用系統中開發者會出于盈利目的整合具有強隱蔽性的第三方服務，用戶往往無法察覺這類服務的存在，更不用說知道這些服務能夠在多大程度上收集、關聯和匯總他們的個人數據.盡管此類情況因GDPR的出臺加以改善，但是由于應用市場包含了數以百萬計的應用，很難大規模地執行這些法規，并且由于第三方跟蹤服務的不透明性和開發者的授權，很難發現和追蹤第三方服務的行為.更進一步的，GDPR只是規定了對用戶數據的收集和處理必須基于明確的用戶同意，并沒有限制這些第三方跟蹤機構對數據的共享和銷售.基于這種情況，現階段在流量層面上對應用程序進行分析，研究應用程序和第三方跟蹤服務之間的交互過程依然是非常有必要的，如何高效地對大量跟蹤流量進行精準的識別和分析依然是未來的一大挑戰.

4.4 隱私政策語料庫的擴建

對隱私政策的分析研究多采用監督學習技術，這類技術的準確度都是大量可靠的數據集訓練得來的.數據集的標注又是一個耗時耗力的工作過程，需要大量具備專業知識的人員耐心整理.業內工作者對數據集寬度與深度的持續要求，意味著要不斷投入大量人力資源.那么是否可以利用對比學習、自注意力機制等無監督學習技術降低人力的投入，達到合理有效的利用社會資源目的.這樣只需要一部分數據科學家對網上收集的大量的法律法規文件進行清理，再將這些文件用于預訓練.此外，因預訓練時的文件資料可包括多國語言信息，使用這類方法獲得的模型具備良好的多模態基礎，可通過巧妙的設置下游任務，實現多語言合規性的并行檢測.

4.5 異構系統設計框架

開發人員在設計系統模型框架時考慮GDPR原則有助于幫助企業更好的處理個人數據并保障個人數據隱私.但當前的系統框架多基于不同應用場景、基于部分個人數據保護原則設計，存在一定的局限性，并且如何平衡系統功能的有效性和GDPR隱私保護的合規性仍然是一個問題.分布式多層次的系統框架能夠實現分化隱私保護等級并兼顧多項GDPR原則，盡管現有研究已經實現了基于部分GDPR原則的分布式框架設計，但面對大數據環境下系統的異構性和多源數據，如何設計分布式多層次的系統框架組件，實現系統性能的提升以及數據隱私的保護，還需要進一步加以研究.

4.6 隱私設計框架模型

在設計隱私框架時需盡可能多的考慮GDPR相關法規原則，以實現從源頭保障組織的合規性，進而減少企業的經濟損失.然而，現有隱私設計框架雖能有效保存和處理個人數據，但僅關注部分GDPR原則問題，缺乏對隱私設計整體的認識.盡管采用構建模式庫的方法檢索模式實現滿足GDPR的隱私設計，解決了整體隱私設計問題，但需要不斷更新模式庫滿足不斷變化的設計要求.因此設計集成化隱私框架，仍然需要研究人員進一步探索.

4.7 DPIA程序設計指南

有效的DPIA方法能夠幫助企業在早期階段識別并解決問題，使企業的安全風險最小化.但GDPR只提供了DPIA的相關標準，在如何實施DPIA方面并沒有給出明確的DPIA模板.如何為每家企業提供可行的DPIA方法成為了當今的一大難題，尤其對于資源有限的企業來說，專業指導的缺失會使企業難以設計適合自身的DPIA流程，因此需要針對不同領域設計專門的標準化的DPIA程序，幫助企業建立自己的DPIA模板.

4.8 數據跨境國內外制度體系建設

我國目前在跨境數據領域的管理體系還在起步階段，相關指南和標準尚處于起草和征詢意見的階段，這不僅需要不同領域的專家和研究人員針對不同敏感程度的數據制定相應的保護等級分劃方案和具體說明來指導不同的數據操作，還需要不斷完善整個數據管理體系.此外，不同國家或組織擁有的不同的法律規制意味著不同水平的跨境數據保護水平，這在很大程度上阻礙了數據的跨境流動，因此，如何最大限度降低國家之間政策差異導致的影響以及如何在數據跨境領域形成統一的國際規制，在保障我國重要數據安全性的同時更好地促進以數據為載體的國際交流和合作是目前亟待解決的問題.

4.9 數據跨境安全技術完善升級

數據跨境相比傳統的數據操作具有步驟更加繁瑣，風險因素更加多變和復雜，安全問題影響更深和代價更大等特點，因此，傳統安全技術方案也需要得到相應的升級；另外，我國在數據跨境領域的風險評估體系也在積極建設，急需通過研究分析數據跨境流動潛在的風險因素并提前部署相關措施以便在支持數據健康流動的同時更好地保障跨境數據在整個周期的安全性.

4.10 實現區塊鏈數據擦除

區塊鏈的不變性可以為數據處理提供防篡改的記錄，增強數據處理的透明度，但區塊鏈的不變性意味著區塊鏈不允許進行任何的修改，這一點并不符合GDPR有關數據修改和刪除的規定，尤其是第17條規定的被遺忘權.現有的解決方法有離線數據存儲、遺忘區塊鏈、變色龍哈希等，但這些方法仍然需要借助可信的第三方來實現區塊鏈的合規性，無法提供完全的隱私安全保證.若想要區塊鏈技術在GDPR合規方面發揮更大的效用，則需要解決這一難題.因此如何設計更有效的方法解決區塊鏈的不變性與GDPR被遺忘權之間的沖突將會是未來的一個研究熱點.

5 對中國的啟示

GDPR作為個人數據保護領域的一部重要的法律規定，有著非常典型的示范意義.受其域外適用效力的影響，全球范圍內的眾多跨國企業的數據安全都面臨了很大的挑戰.中國在數據安全領域也同樣出臺了《個人數據保護法》等相關的法律法規及行業規則.中國出臺的法律法規與GDPR的要求具有某種程度的一致性，但也存在一定的差異.在這樣的背景下，中國應該如何更好的改進是一個值得探討的問題.本節從6個方面探討了GDPR給中國帶來的啟示.

5.1 跨境數據管控體系建設

GDPR中關于數據跨境的具體要求對歐盟來說，主要是針對從境外流向歐盟境內的數據，而關于對我國個人數據跨境流動立法，我們必須明確我國在個人數據跨境流動中的地位和立場，理清中國作為數據輸入國和輸出國所需要的不同制度要求，同時做到維護國內用戶信息數據跨境安全性以及與第三方國家進行交流和貿易的合規要求.如今我國相關立法體系還未完善，雖相較于完全的數據本地化態度和政策，當前所采用的“知情-同意”原則已經有一定的進步意義，但仍舊無法與中國互聯網企業和數字經濟大步向前邁進的趨勢相適應，目前我們仍然需要從其他經濟體的數據跨境制度和實踐中獲取經驗，探索屬于中國的高適應性數據跨境方案.

除了制度，技術也要齊頭并進，做到和跨境數據規制相互銜接.新的技術形式可能會給數據管理帶來新的潛在風險，針對其中可能出現的漏洞，不僅需要及時了解技術發展新動態，將數據跨境需求融入技術更新，還要緊密聯系技術和制度，為跨境數據管控筑牢保護屏障，從技術角度深入分析來輔助制度體系建設，以便更好地迎接挑戰.

對于我國個人數據流動的監管，不僅需要建立相應的數據監管機構和數據評估機構對其進行職能劃分，使其每個環節中的部門都明確相應的職責，更全面地對跨境數據進行評估，更好地監管數據在跨境前后以及整個生命周期中各個流程的安全性；還要積極引導企業和相關機構進行自評，因此，國家目前正在積極準備出臺的《評估辦法》和《評估指南》就需要細致化，衡量標準不宜過于籠統、模糊以及主觀隨意性太強，降低評估流程執行難度的同時提升數據保護強度；其次，各個行業應積極參與評估體系的建設，使其符合實際需求和落實條件，倡導行業自律，幫助建立可操行性強的數據跨境行業體系.

5.2 數據分類分級管理

為了應對GDPR以及各國的數據保護法，確保數據在流動過程中的安全性，對數據進行分類分級存儲，建立分類分級跨境數據流動管理體系極其重要，《中華人民共和國數據安全法》對數據的分類分級保護作出了明確的要求.數據的分類分級管理是對數據全流程、全過程進行保障的基礎，邊界防護、入侵防范、身份鑒別、訪問控制、數據加密等數據隱私防護方法如果建立在數據分類分級的基礎上，可以達到事半功倍的效果[158].2022年9月，全國信安標委完成了國家標準《信息安全技術網絡數據分類分級要求》征求意見稿，健全了《數據安全法》的數據分類分級保護規則[159].

數據分類重點在于理解數據的本質、屬性、權屬及其相關關系，清晰了解各個數據是如何被使用的，明確哪些數據屬于哪個業務范疇，分類不能太細也不能太粗獷[160].可根據監管與合規、業務體系、功能單元、項目等維度進行分類.不同的企業分類的方法和標準也可能不同，例如煙草商業行業會根據數據的來源、敏感度等進行分類，按照業務類別將數據分為營銷數據、專賣數據、財務數據、人事數據、供應鏈數據、考核數據、個人數據7個大類，然后再在大類下面細分小類，層級劃分逐步擴大[161].

數據分級主要是根據數據泄露或被破壞所造成的影響范圍、影響對象、影響程度來進行劃分.還需要依據數據的關鍵性、數據對業務的重要性、以及國內外相關法律的要求進行劃分，例如GDPR對于任何收集、傳輸、保留或處理涉及到歐盟所有成員國內的個人信息的機構組織均提出了規范要求[160].常用的數據分級步驟為首先確定分級對象，然后根據數據破壞對國家安全、社會秩序、公共利益造成的影響，數據破壞對企業利益造成的影響，數據破壞對用戶利益造成的影響，3個層面綜合評定對客體的侵害程度，最后決定數據對象的安全等級[162].數據安全法把數據分為涉密數據和非涉密數據，涉密數據分為絕密、機密、秘密3個級別；非涉密數據根據對國家安全、社會秩序、公共利益以及相關公民、法人造成的危害程度依次分為了5個級別[163].

由于數據的海量、多元、非結構化成常態，數據的分類分級難度很大，我國目前在數據分類分級準則方面還有很多欠缺.目前主要努力的方向就是在遵守安全性、可執行性、時效性、就高不就低等分類分級原則的前提下健全數據分類分級管理制度，根據各行業各領域數據資源特點、流通場景，加快制定適應本行業本領域數據流通和開發利用需求的數據分類分級標準.表8列出了中國發布和在研的數據分類分級標準.

Table 8 Classification and Gradation Standards for Published and Developing Data[162] in China

5.3 重要數據識別與保護

作為數據安全中的重點保護對象，重要數據在中國的數據安全管理制度中一直占據著極其重要的地位.2017年我國出臺的《網絡安全法》第一次提出了“重要數據”的概念，2021年出臺的《數據安全法》再次在數據分類分級保護制度中提到了對“重要數據”的保護義務，但這2部法律均未對“重要數據”作出具體定義，重要數據的定義范圍及其識別方法成為了一個關鍵的問題.在2022年發布的《信息安全技術重要數據識別規則(征求意見稿)》中，“重要數據”被定義為“特定領域、特定群體、特定區域或達到一定精度和規模的數據，一旦被泄露或篡改、損毀，可能直接危害國家安全、經濟運行、社會穩定、公共健康和安全”[164].

重要數據識別是數據安全管理工作的基石，一個企業對于重要數據的收集處理直接影響著企業數據的安全合規性.重要數據識別工作主要分為3步：1)通過掃描發現和流量檢測的方式對企業數據進行初步識別，形成企業數據資產梳理清單；2)根據行業要求對企業數據進行分類分級；3)依據重要數據識別規則對重要數據進行判定并標識，并根據重要數據的基本信息、分類、重要性及用途等信息匯總出企業重要數據清單.重要數據的識別主要包括聚焦安全影響、突出保護重點、銜接既有規定、考慮風險、定量定性結合、動態識別復評六大原則.除此之外還要針對重要數據的收集、存儲和使用采取重點保護措施，對于重要數據的數據處理者要提出更高的合規要求，這樣才能保證數據流通的合規有序，充分發揮數據要素的價值.

目前我國有關重要數據識別相關規則的建立仍在起步階段，重要數據識別總體要求《信息安全技術重要數據識別規則》仍在不斷修改中，各行業也依據標準制定行業內重要數據安全管理的相關細則，例如電信領域出臺的《基礎電信企業重要數據識別指南》及汽車領域出臺的《汽車數據安全管理若干規定(試行)》等.中國亟待健全相關的重要數據識別與保護細則，走好重要數據安全防護體系建立的第一步.

5.4 關注不同規模企業的合規義務

雖然GDPR實現了對個人數據隱私的嚴格保護，但是對于市場經濟的發展有時卻會起到適得其反的效果.尤其在市場競爭方面，由于大型企業擁有充足的資金和研發能力，能夠很好地應對GDPR帶來的一系列合規性問題，而對于中小企業來說，過高的合規成本阻礙了企業發展的腳步，因此大型企業的競爭力大大增強，市場份額不斷增加，而中小企業在這場浪潮中卻步履維艱.雖然GDPR對于中小企業有相關的特殊豁免政策，然而實際執行的過程中并未能落到實處.

因此在中國相關數據保護政策實施過程中要重點關注中小企業的發展，平衡不同規模企業之間的市場競爭利益，這樣有利于市場競爭的公平性，激發市場創新活力.對于合規性監管的過程中要避免進行一刀切管理，應對不同規模的企業賦予相應的合規責任，適當減輕中小企業的合規義務，使中小企業的特殊政策能夠落到實處.

5.5 保護個人數據的同時兼顧社會經濟發展

GDPR基于個人控制論強化了數據主體對個人信息的控制，使得主體權利凌駕于社會利益、公共利益之上，并沒有考慮個人信息的社會屬性，造成了GDPR存在巨大的內在缺陷.數據控制者及處理者針對個人數據處理以及數據再利用或初始目的之外的使用需要通過大量設置同意實現，最終導致同意的濫用.同時，使用同意的預防保護機制處理泛在個人信息將會導致社會運行成本過高.并且泛在的個人信息及數據處理導致GDPR的適用范圍無限擴大，進而引發侵害個人權利的風險，數據主體也可借助GDPR與其他眾多法律的重疊現象來選擇有利于自身的權限基礎.

因此，面對GDPR確立的個人信息保護準則正在成為全球化標桿，我們應當從我國社會實際問題及需求出發，建立符合中國特色的數據經濟制度需求.明確GDPR根植歐洲的政治和社會文化背景與我國社會經濟文化的差異性，兼顧數字化時代個人數據控制困難問題，以及緩解泛在的個人信息處理同社會運行成本間的沖突，以促進我國個人數據保護法案的進一步升級，保障個人數據權益與數字經濟的協同發展.

5.6 在數據保護的同時促進數據流通

在市場經濟中要發揮好數據這一生產要素的作用，不僅要嚴格的數據保護，還要保證數據的流通，創造數據資源的價值，不能一味地強調數據權屬，對數據進行僵化管理，讓數據失去流動性.為支持數字經濟發展，繼《通用數據保護條例(GDPR)》之后，歐盟的《數據治理法案(DGA)》《數據法案(DA)》《數據市場法案(DMA)》《數據服務法案(DSA)》等相關法規也相繼出臺，為數據流動營造開放的環境.2021年中國施行了《個人信息保護法》，它是我國的第一部個人信息保護方面的法律文件，在這之后又發布了許多數據相關立法，但主要焦點仍在數據保護監管方面，在促進數據流動和創造數據價值上中國仍需要更多的政策支持，對現有政策也需要不斷調整和優化，保證數字經濟的良好發展態勢.

6 結語

關于GDPR的數據隱私安全研究逐年的增加使得企業以及個人對數據隱私保護意識得到了很大的加強，但因其涉及領域較廣，且隨著各國數據法的不斷更新、應用場景的不斷變化，其整體還處于起步階段.本文在調研大量基于GDPR的數據隱私安全相關論文及其研究成果后，首先介紹了數據隱私安全發展歷程及歐盟GDPR法規主要內容，并將其與各國數據法進行了詳細的對比；然后通過梳理總結現有的基于GDPR的數據隱私安全的研究工作，從GDPR違規行為分析、隱私政策分析、GDPR模型框架3個方面闡述了GDPR合規性的研究現狀；之后總結GDPR相關的數據技術應用以及各種合規應用場景.通過深入分析數據隱私安全問題以及現有研究工作的不足，指出了基于GDPR的數據隱私安全面臨的十大安全技術挑戰和機遇；最后指出了跨境數據管控體系建設、數據分類分級管理、重要數據識別與保護、不同規模企業的合規義務、兼顧社會經濟發展、促進數據流通等GDPR相關研究對中國的啟示.

作者貢獻聲明：趙景欣負責設計研究方案及論文撰寫和修訂；岳星輝負責調研分析、數據統計及論文部分撰寫；馮崇朋、張靜負責論文部分撰寫及畫圖；李印負責最終版本修訂；王娜負責論文部分撰寫；任家東、張昊星、伍高飛、朱笑巖負責論文整體修訂；張玉清提出論文整體研究思路，及最終論文的審核與修訂.