?

大數據環境下用戶信息隱私泄露成因分析和保護對策

2016-12-21 23:37陸雪梅古春生
現代情報 2016年11期
關鍵詞:隱私保護成因分析大數據

陸雪梅 古春生

〔摘要〕針對大數據環境下用戶信息隱私泄露問題,論文首先分析當前用戶信息隱私保護的現狀與趨勢,并指出當前用戶信息隱私保護存在的問題;然后通過典型案例、統計分析和系統分析等手段,研究大數據環境下用戶信息隱私泄露的發生機制和成因;最后聚焦用戶信息隱私泄露的成因,分析研究用戶信息隱私保護的關鍵社會方法與技術方法,并構建用戶信息隱私保護的社會技術模型以及優化策略。

〔關鍵詞〕大數據;用戶信息;隱私泄露;成因分析;隱私保護

DOI:10.3969/j.issn.1008-0821.2016.11.012

〔中圖分類號〕G25076〔文獻標識碼〕A〔文章編號〕1008-0821(2016)11-0066-05

〔Abstract〕For the problem of user information privacy disclosure in the big data environment,the paper firstly analyzed the status quo and trends of the user information privacy protection,and presented current problems of user information privacy.Then through typical cases,statistical analysis and system analysis,the paper researched generating mechanism and causes of user information privacy disclosure in the big data environments.Finally,focusing on causes of user information privacy disclosure,the paper analyzed key social methods and key technical methods of user privacy preserving,and built social technology model and optimization strategies of user information privacy preserving.

〔Key words〕big data;user information;privacy disclosure;privacy preserving;causes analysis

大數據(Big Data)是指所涉及的數據量規模巨大以致無法通過人工在合理時間內達到收集、處理、并整理成為人類所能解讀的信息。大數據來源于物理社會和網絡社會,由運營式系統被動、互聯網系統主動、感知式系統自動3種方式產生[1]。大數據時代已經到來,據Gartner公司估計,互聯網上的數據量每兩年會翻一番,互聯網上新產生的數據量達到667EB(1EB=109GB)。

科學技術是一把雙刃劍。一方面大數據已經在商業、傳媒、政府等很多領域得到有價值的應用。2009年谷歌公司準確預測了美國甲型H1N1流感暴發是大數據應用的一個經典案例。谷歌通過分析大量用戶的搜索記錄,比如“咳嗽”、“發燒”等特定詞條,并根據查詢服務器日志的IP地址判定搜索來源,從而準確預測世界各地流感傳播趨勢,和官方機構相比,谷歌能提前14天預測流感暴發,預測結果與官方數據的相關性高達97%[2]。另一方面大數據所引發的隱私安全問題與其帶來的價值同樣引人矚目。近年來侵犯用戶個人隱私案件時有發生,如2010年360公司泄露上億用戶名和密碼、2011年谷歌泄露個人隱私事件、CSDN開發者社區泄露600萬用戶賬號及明文密碼、2012年1 200萬個蘋果設備信息泄露事件、2013年騰訊泄露7 000萬QQ群和12億個QQ號數據、2014年初春運售票首日12306網站即發生登錄串號泄露旅客信息、2015年社保系統成為個人信息泄露的重災區等等,這些事件嚴重侵犯了用戶的隱私與合法權益。目前社會公眾與政府都開始重視個人隱私問題,如2010年,德國柏林數千人參加了爭取個人數據隱私的游行;2012年美國政府號召公司在使用私人信息時將更多的控制權交給用戶;2013年“棱鏡門”事件曝光后,歐盟正在加速制定新版數據保護法案,根據該法,每個人有權要求公司清除他們自己的個人數據。

大數據已經給用戶信息隱私保護帶來巨大挑戰。由于大數據的跨域聯系性,導致匿名信息的重新身份化[3],使得人肉搜索成為可能;由于大數據的數據量大,導致一旦服務商的服務器遭到侵襲而可能導致大量用戶私人信息泄露,國內近期發生的“查開房”就是此類典型案例;非隱私數據的整合可能產生敏感的個人信息[4],如性取向、財務狀況等;大數據分析結果可能被濫用[5],如,美國大規模槍擊事件已經產生試圖確定哪些人有可能采取付諸行動的暴力沖動,這些線索被認為存在于Facebook和其他社交媒體中,與一定模式相匹配的任何人都變成了犯罪嫌疑人。

1國內外研究現狀和趨勢

用戶信息隱私保護是指任何人無權收集、加工或使用個人信息,除非經信息主體的自愿同意或從事該行為有法律上的依據。實現大數據環境下用戶信息隱私保護,較以往其他安全問題更為棘手[6]。目前解決用戶信息隱私保護問題的方案主要有社會方法與技術方法兩種。

11社會方法

111隱私保護立法

國際上已有50多個國家和地區制定了個人信息保護相關法律法規和標準,規范社會、政治、經濟活動、網絡空間中處理個人信息的行為[7]。立法保護隱私信息的代表是歐盟。問題是各國政府對個人隱私的剛性邊界難以達成共識,隱私保護標準難以統一。美國官方認為在國際范圍內保護個人隱私時,不應阻礙信息跨境流動,影響電子商務和跨境貿易發展,希望通過對隱私保護采取平衡的規制方式,創造有利于創新的最佳增長環境[8]。因此,目前要想在國別標準差異的法規基礎上制定出一套切實可行的管理規則還是異常艱難。

112企業與行業自律

自律是指信息控制人主動單方面地做出信息保護的承諾,如新浪、360、Google、Baidu等商業網站都在首頁載明了該網站的“隱私保護”政策。行業自律模式的代表是美國。美國保護個人信息行業自律模式主要有建議性的行業指引和網絡隱私認證計劃兩種。如美國在線隱私聯盟(OPA)于1998年公布在線隱私指引屬于建議性的行業指引模式,美國的Truste認證屬于網絡隱私認證計劃模式。然而,行業協會無權懲罰違規企業。

12技術方法

121基于數據加密方法

主要思想是通過對用戶數據進行加密,使得隱私信息窺探者無法通過密文推測出用戶隱私信息,包括:基于對稱加密技術方案[9],基于公鑰加密技術方案[10-11]和基于啟發式加密方案[12]。然而,加密方法的局限性在于數據使用性受到很大限制。這是因為:(1)基于對稱加密的方案在數據使用上受到很大限制,僅能支持有限功能操作;(2)盡管基于公鑰加密的方案在數據使用上不受限制,可支持任何功能操作(如全同態加密方案),但現有全同態加密方案密文膨脹率大,計算復雜性高等問題,導致現有方案在大數據中不具有實用性;(3)雖然基于啟發式的加密方案計算效率高,支持功能操作比較靈活,但方案安全性并不能證明。

122基于數據匿名與失真方法

匿名方法主要思想是攻擊者基于目標背景知識在匿名數據中無法標識出單個個體的方法。k匿名方案指攻擊者基于匿名化數據進行匹配識別時,至少有k個候選項符合,即目標用戶信息隱私泄露概率小于1/k[13]。失真方法主要思想是對于用戶數據進行隨機化修改,使得攻擊者不能準確地推測出原始真實用戶數據,從而達到保護用戶信息隱私目的[14]。盡管基于數據匿名與失真是目前隱私保護的關鍵技術,但在大數據中它存在“去身份”信息可以“重新身份”問題,如由生日、性別和郵政編碼組成的“三重標識符”能夠用來惟一標識公開數據庫中至少87%的美國公民[15]。

綜上所述,在大數據環境中用戶信息隱私保護的問題需要進一步研究與探索,依靠單一的社會方法或技術方法都不能完全解決問題。實際上,大數據環境下用戶信息隱私保護問題并不僅僅是一個純技術問題,還是一個社會問題。問題涉及到用戶個人、隱私攻擊方、網絡企業、行業協會和政府部門等多個主體,這些主體之間的利益關系非常復雜,且交互重疊。因此,研究基于社會技術理論視角,將社會與技術兩種因素綜合起來考慮與研究,這樣的研究可能會發現新的解決方案與途徑。

2用戶信息隱私泄露成因分析

基于系統論的思想,通過典型案例、統計分析和系統分析等手段,對大數據環境下的用戶信息隱私保護的發生機制進行建模。由于大數據環境下用戶信息隱私保護問題涉及到多種類型的數據、跨域數據,同時數據挖掘技術不斷發展,因此原來可能沒有隱私泄漏問題的數據經整合或重新處理變成敏感的隱私數據,所以對發生機制進行深入細致的研究非常必要。

21典型案例研究與統計分析

211典型案例研究

對大數據環境下用戶隱私問題的典型案例進行深入研究,確認用戶隱私問題發生過程中相關當事方的主要責任,歸納總結出用戶隱私問題發生的環節、信息類型、情景條件等,并界定其中所涉及到的社會因素與技術因素以及這兩種因素是如何相互影響與共同作用。

212統計分析

通過社會調研獲取樣本信息以及虛擬環境下虛擬攻擊生成的數據,對大數據環境下用戶隱私保護問題的主要形態、主要方式,以及導致問題發生的關鍵環節與要素進行統計分析,從而發現用戶隱私問題發生的統計規律。

22用戶隱私泄露的發生機制及成因分析

221隱私泄露點與發生機制研究

首先建立用戶信息隱私問題的發生機制模型,如圖1所示用戶隱私泄露點及發生機制的框架示意圖。圖1大數據環境下的用戶信息隱私問題發生機制示意圖

隱私泄露點1:是用戶在與網絡服務方交互作用時,提交或泄露了自己的隱私信息,沒有進行相應的匿名或者是失真處理。

隱私泄露點2:是網絡服務方在掌握大量用戶隱私信息的情況下,一是受到隱私攻擊主的攻擊而將信息泄露;二是網絡服務方委托大數據挖掘的第三方進行數據分析時,失真或加密處理無效導致隱私泄露。

隱私泄露點3:用戶在網絡上的行為或者是隱私信息被隱私攻擊方跟蹤與竊取,這是因為用戶自身的隱私保護意識與保護手段不力所致。

222用戶信息隱私泄露成因分析

從上述用戶信息隱私泄露點和發生機制可以發現,用戶信息隱私泄露的主要原因如下:一是用戶自身隱私保護意識不強、隱私保護技術不高,造成用戶隱私信息泄露,如隱私泄露點1、3;二是網絡服務方內部數據管理松懈,用戶隱私信息安全體系不完善,造成用戶信息泄露,如隱私泄露點2;三是挖掘第三方利用隱私保護技術本身缺陷,造成用戶信息隱私泄露,如隱私泄露點2;四是攻擊者利用隱私保護技術漏洞非法獲取用戶隱私信息,造成隱私信息泄露,如隱私泄露點1、3。

3用戶信息隱私保護對策

當前大數據環境下用戶隱私保護存在的問題是用戶隱私保護法律不完善、用戶數據的中心本身存在安全缺陷、用戶數據使用監管存在明顯隱患、用戶信息隱私保護技術不先進。針對隱私保護的問題,我們下面研究用戶信息隱私保護對策,即關鍵社會方法、關鍵技術方法、社會技術模型建構與優化、隱私保護的研究方法。

31關鍵社會方法

311隱私保護立法

借鑒歐盟針對大數據環境下的隱私保護立法的實踐經驗,研究與分析我國用戶信息隱私保護中的共性與個性問題,針對大量高發且影響嚴重的問題與環節,為制定出既有預防性質也具有救濟性質的隱私保護法律提供參考和理論依據。由于大數據環境下隱私保護具有跨時空、超國界的特點,因此在考慮我國隱私立法獨特性的同時,還需考慮到與歐盟等國家的相關立法關系,從而實現國際社會在隱私保護立法方面的協同。

312行業自律與認證

借鑒美國在此方面的成功經驗,同時分析研究世界各國在大數據環境下行業自律與認證的未來發展趨勢;針對我國相關行業與企業的特點,特別是與大數據相關的網絡服務方、數據挖掘的第三方以及其他數據涉及方的行為特征相結合,為制定切實可行與有效的行業自律或認證方案提供參考。

32關鍵技術方法

對于所涉及到的匿名與加密技術、追蹤與刪除技術以及統計識別技術等,各項技術現在都在不斷發展中,一是對現有的技術方法解決大數據環境下的用戶信息隱私保護問題的可行性進行評估;二是對其技術組合及其中的某些關鍵技術難題進行有針對性的研究,而這些都將是本文研究的重點與難點。

321匿名與加密技術

一是研究分析現有的技術方法在大數據環境下的可行性以及組合使用的可能性;二是研究現有技術方法的完善方案與改進技術。匿名技術既要能夠保護隱私信息,同時又要保證在挖掘算法中的數據可用性。加密技術主要是用于掌握用戶數據的單位將用戶數據加密后委托給數據挖掘第三方的情形。目前,全同態加密技術能夠對加密的數據在密文狀態下任意計算,但現有方案不具有實用性,所以需要進一步研究基于部分同態加密技術設計用戶信息隱私保護方案。

322追蹤與刪除技術

當用戶或者是隱私保護的第三方發現隱私信息被泄露后,相關人員能夠對此信息的泄露路徑進行追蹤,并對隱私信息泄露傳播路徑中的關鍵節點或者是數據庫進行敏感信息的刪除。此項功能既要有技術手段,同時也需要有相關的社會支持。

323統計識別技術

用戶或者是委托的隱私保護第三方通過對大數據環境下的各種信息的掃描與實時統計分析,識別可能的用戶信息隱私問題,對具有高概率的用戶隱私保護問題提出預警,從而保證相關各方能夠采取及時有效的防范措施。

33隱私保護的社會技術模型建構與優化

331社會技術模型建構與優化研究

對大數據環境下用戶信息隱私保護問題所涉及到各主體、社會要素、技術要素及其相互關系進行系統建模,整合3個隱私泄露點與4個機制,同時考慮系統目標與實現目標途徑的研究。大數據環境下用戶信息隱私保護可以采取多種機制,包括用戶的自我保護、政府保護、行業自律,也可以采取向第三方購買服務或者是購買與安裝用戶隱私保護軟件等手段來實現。所以需要對用戶隱私保護各種機制進行優化研究,在政府立法等強制措施之外,鼓勵采取行業自律與市場化解決方案。

332用戶信息隱私保護政策對策研究

基于用戶隱私保護的政策目標,進行相關對策研究。一是研究用戶信息隱私保護的立法措施;二是研究推動行業自律或認證的相關政策措施;三是促進隱私信息保護的技術開發與使用的相關政策措施。

34研究方法

本文基于社會技術理論的視角,綜合使用社會調研方法與信息技術方法進行研究,所使用的主要方法如下。如圖2所示。圖2大數據環境中用戶信息隱私保護研究方法示意圖

341典型案例研究

研究將從根據用戶信息隱私問題的社會影響程度、隱私泄露點、所涉及的技術與社會因素的復雜程度等,選擇4~6個具有典型意義的大數據環境下用戶信息隱私問題的典型案例,對用戶信息隱私泄露的關鍵環節、技術社會因素、隱私泄露的擴散、對受害人的傷害、隱私泄露的發現以及后續的情況等進行全面分析與剖析。這些典型案例研究,將為大數據環境下用戶信息隱私問題的發生機制與發現機制的建立提供依據。

342統計分析與識別

樣本主要從兩個方面搜集:(1)從各種媒體包括網絡媒體上所報道的用戶信息隱私泄露問題中搜集樣本,同時借助社會關系網絡從政府機構、法院、企業搜集能夠公開的數據,進行統計分析;(2)采取實驗室研究,建立虛擬的大數據環境,然后采取各種方法進行模擬攻擊,從而生成大量的樣本數據,從中進行統計分析,尋找關鍵環節與要素,以及建立相應的問題識別模型。

343系統建模與優化

基于系統論的思想,在案例分析與統計分析的基礎上,對大數據環境下的用戶信息隱私問題的發生機制、發現機制、預防機制與救濟機制進行系統建模,描述用戶信息隱私問題在以上4個機制中的主要因素、環節及其相互關系。由于這4個機制之間具有相互聯系性,因此還可以建構用戶信息隱私問題的系統過程模型。另一方面,由于大數據是一把雙刃劍,既帶來巨大的社會經濟利益與可能的各種機會,同時也帶來用戶信息隱私保護等問題,所以必須建立社會技術的系統優化模型。這種優化模型的目標是大數據用戶信息隱私保護的利弊平衡以及經濟社會方法的效益效率雙重目標。

344政策可行性分析

隱私保護立法、行業自律與認證雖然在歐盟以及美國都已經有相應的應用,但在大數據環境下,每個國家面臨的問題仍然具有很強的特殊性質。社會文化、經濟環境、政策法律基礎、技術發展水平等都有差異,這些差異使得相同手段可能表現出不同的社會效果,也可能需要不同的社會經濟成本的支持。因此在對隱私保護立法、行業自律與認證措施可行性分析基礎上,提出可行的改善方案。

345加密算法與模擬攻擊

對目前采用的各種加密算法進行評估,并運用全同態加密算法進行相對較為深入地研究。所以這些加密算法都將在大數據模擬環境下進行攻擊試驗,對其安全性與實際應用性進行評測,在此基礎上,提出用戶信息隱私保護的加密算法方案或者是組合方案。

4結語

無論半結構化、非結構化的大數據是來自普通用戶、企業還是政府機構,是被動、主動還是自動式產生,伴隨著互聯網的新生態,已深度滲透到各行各業的時代背景中。我們在享受大數據帶來便利的同時,也深深感受到在開放的互聯網環境下,用戶信息隱私保護的相關工作任重而又道遠。本文從社會技術理論視角對此問題的相關研究,將為網絡服務商開發基于匿名和加密技術的隱私保護方案提供思路,也為網絡用戶提高自我隱私保護提供技術支持和策略指導;為政府進行大數據環境下的隱私保護立法提供決策參考,同時也為相關行業開展行業自律或隱私保護認證提供研究支持,力求為推動相關領域構建強有力的保障體系,做出有益的嘗試和探索。

參考文獻

[1]孟小峰.大數據管理系統的發展與機遇[EB/OL].http:∥bigdata.chinabyte.com/322/13780322.shtml,2016-05-28.

[2]JGinsberg,MHMohebbi,RSPatel,LBrammer,MSSmolinski and LBrilliant.Detecting influenza epidemics using search engine query data[J].Nature 457,2009:1012-1014.

[3]POhm.Broken promises of privacy:responding to the surprising failure of anonymization[J].UCLA Law Review,2010,57:1701-1777.

[4]BLDaniels,Big Data,Big Trouble?Privacy and Legal Concerns with Big Data[EB/OL].http:∥www.sourcingspeak.com/2013/09/big-data-big-trouble-privacy-and-legal-concerns-with-big-data.html,2013-09-26.

[5]FBuytendijk and JHeiser,Confronting the privacy and ethical risks of Big Data[EB/OL].http:∥www.ft.com/intl/cms/s/0/105e30a4-2549-11e3-b349-00144feab7de.html#axzz49xNIFZAV,2013-09-24.

[6]馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報,2013,37(1):246-257.

[7]郎慶斌,孫毅.個人信息安全——研究與實踐[M].北京:人民出版社,2012.

[8]周漢華.個人信息保護法(專家建議稿)及立法研究報告[M].北京:法律出版社,2006.

[9]D Song,D Wagner,A Perrig.Practical techniques for searches on encrypted data[C].IEEE Symposium on Security and Privacy,2000:44-55.

[10]CGentry.fully-homomorphic encryption scheme using ideal lattices[C].STOC,2009:169-178.

[11]ZBrakerski and VVaikuntanathan.Efficient Fully Homomorphic Encryption from(Standard)LWE[C].FOCS,2011:97-106.

[12]蔡克,張敏,馮登國.基于單斷言的安全的密文區間檢索[J].計算機學報,2011,34(11):2093-2103.

[13]劉向宇,王斌,楊曉春.社會網絡數據發布隱私保護技術綜述[J].軟件學報,2014,25(3):576-590.

[14]CDwork.Differential privacy.ICALP,2006:1-12.

[15]LSweeney,Simple Demographics Often Identify People Uniquely.Carnegie Mellon University,Data Privacy Working Paper 3.Pittsburgh 2000.

(本文責任編輯:孫國雷)

猜你喜歡
隱私保護成因分析大數據
道路橋梁結構加固措施與方法分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合