?

數據租賃
——數據流通的新方式

2022-09-18 03:53阮雯強徐銘辛涂新宇宋魯杉韓偉力
大數據 2022年5期
關鍵詞:參與方份額秘密

阮雯強,徐銘辛,涂新宇,宋魯杉,韓偉力

1. 復旦大學數據分析與安全實驗室,上海 200438;

2. 上海市數據科學重點實驗室,上海 200438

0 引言

數據已經與資本、土地、勞動力、技術等傳統生產要素并列,成為一種新型的生產要素[1]。在數據價值的形成過程中,數據流通扮演著極為重要的角色。當前數據流通的方式主要包括政府部門或企業的數據公開、數據交易等。然而,隨著《中華人民共和國網絡安全法》(以下簡稱《網絡安全法》)、《中華人民共和國數據安全法》(以下簡稱《數據安全法》)、《中華人民共和國個人信息保護法》(以下簡稱《個人信息保護法》)的發布,涉及用戶隱私的數據難以直接在各個機構之間流通。此外,許多機構出于商業競爭的目的,可能并不愿意直接將原始數據傳輸給其他機構。目前得到較多關注的場景是如何使多個機構以隱私保護的方式對數據進行聯合利用,即每個機構均貢獻數據并且得到數據分析的結果,而如何使某個機構通過“租賃”的方式挖掘其他機構數據中蘊含的價值尚缺乏相應的研究。因此,為了促進數據價值的充分形成,本文提出了一種數據流通的新方式——數據租賃(data tenancy)。

數據租賃使數據租賃方能夠通過付費的、隱私保護的以及可審計的方式,利用數據出租方的數據完成預先約定好的計算任務(如機器學習模型訓練),并獲得計算結果,即通過“租賃”數據獲得價值。本文根據與隱私保護相關的法律法規,討論了提出數據租賃的動機及其定義,并明確了數據租賃需要滿足的5項需求。隨后,本文提出了一項基于秘密共享的數據租賃技術,使分散在各個機構的數據能夠通過“租賃”的方式更好地流通,從而促進數據價值的形成。

1 相關知識與已有研究

1.1 基于秘密共享的安全多方學習技術

安全多方學習即基于安全多方計算的隱私保護機器學習技術[2]?;诿孛芄蚕淼陌踩喾綄W習技術能夠使多個參與方共同訓練一個預先約定好的機器學習模型(訓練過程由一個布爾電路或者算術電路表示),并保證不泄露除結果模型外的其他任何隱私信息[3-5]。如圖1所示,其中,D1、D2、Dn分別表示參與方1、參與方2、參與方n的隱私數據集,在一個基于秘密共享的n方安全多方學習過程中,參與方i首先將其持有的隱私數據集(Di)分解為n個秘密份額(〈Di〉1,〈Di〉2,…,〈Di〉n),隨后將數據集的秘密份額分發給其他參與方。同時,在某些場景中,部分參與方可以不向其他參與方發送秘密份額,而只接收來自其他參與方的秘密份額。數據集的秘密份額分發完成后,所有參與方利用安全多方計算協議共同生成一個隨機化的初始模型參數,隨后進入一個基于秘密共享的安全多方計算過程,通過本地計算與交互通信,利用數據的秘密份額完成對目標模型的訓練,最終每個參與方各自得到一份目標模型的秘密份額。隨后,根據具體的場景,參與方可以選擇不還原目標模型,但在對數據進行推理時仍然通過交互完成,或者通過交換各自持有的秘密份額,將目標模型還原為明文。目前較為流行的用于安全多方學習的秘密共享技術有兩種:加法秘密共享和Shamir秘密共享。其中,加法秘密共享可以支持兩方及以上的參與方數量,Shamir秘密共享則支持三方及以上的參與方數量。

圖1 基于秘密共享的安全多方學習過程示例

基于秘密共享的安全多方學習技術具有以下4個特性:①所有參與方只能得到結果模型,而得不到其他參與方輸入的任何信息;②所有參與方共同訓練一個預先約定好的、訓練過程能夠用電路(算術電路或布爾電路)表示的目標模型;③所有參與方都需要參與訓練過程;④結果模型可以由所有參與方持有,也可以只由一個或部分參與方持有,即所有參與方將所持有的結果模型的秘密份額發送給有權恢復最終結果模型的參與方。在獲得其他參與方的秘密份額后,有權恢復最終結果模型的參與方將還原出最終的結果模型。

1.2 安全模型

本文提出的數據租賃技術采用半誠實的安全模型,即每一個參與方均會根據協議規定的步驟進行計算,并向其他參與方發送預先定義好的信息,但參與方會盡量從收到的信息中推斷其他參與方的輸入信息。由于當前參與方之間使用安全多方學習技術的目的是滿足隱私保護法律法規對數據流通的各項要求,在參與方均有共享數據的意愿的前提下,半誠實模型是一個適用于實際場景的安全模型。

1.3 相關研究工作

隨著世界各國紛紛發布與個人信息保護相關的法律法規,如歐盟于2018年發布了《通用數據保護條例》、我國于2021年發布了《個人信息保護法》等,涉及用戶隱私的數據流通受到了極大的限制。近年來,為了在合規的前提下充分挖掘來自不同機構的數據中潛藏的價值,研究者提出并實現了許多個隱私計算算法與系統,使多個數據出租方能夠以隱私保護的方式對分散在各方的數據進行聯合建模與分析,實現“數據可用不可見”的目標。當前受到較多關注的隱私計算技術包括安全多方學習技術[6-12]、聯邦學習[13-15]等。

Mohassel P等人[6]于2017年提出了第一個支持神經網絡模型訓練的安全多方學習系統——SecureML。隨后研究者提出并實現了許多安全多方學習系統,包括支持更多參與方且更加高效的ABY3[7]、Fantastic-Four[8]等,支持惡意參與方模型的SWIFT[9]、BLAZE[10]等,支持復雜模型訓練與推理的CryptGPU[11]、Falcon[12]等。在這些已有的安全多方學習系統中,每個參與方的身份都是對等的,都需要提供數據并且都能在計算完成后得到計算結果。一個機構以隱私保護的、可審計的“租賃”方式對其他機構的數據進行分析的框架和機制尚需要進一步研究。

此外,Google于2015年提出了聯邦學習的概念[13]。隨后,許多企業推出了基于聯邦學習的聯合建模系統,例如Google發布的TensorFlow Federated、微眾銀行推出的FATE(federated AI technology enabler)等。相較于安全多方學習系統,基于聯邦學習的系統具有更高的效率,但是也有更高的隱私風險,例如,參與方之間傳輸的中間結果很有可能泄露輸入數據的相關隱私信息[16-18]。同時,當前并沒有一個數學模型對聯邦學習系統的隱私風險進行量化分析。此外,基于聯邦學習的系統對各方的數據進行聯合建??赡軐Φ玫降哪P途仍斐梢欢ǖ膿p失,特別是當各方的數據為非獨立同分布時,聯邦學習會造成較大的精度損失[14]。

2 數據租賃概述

2.1 數據租賃的動機

當前數據流通的主要方式是不同機構之間進行數據交易,即數據買家通過支付一定的費用從數據賣家的手中獲得數據。向數據賣家支付一定的費用后,數據買家可以直接得到數據,并對其開展任意的分析操作。目前國內已經產生了許多數據交易平臺。盡管數據交易對于促進數據流通發揮著重大的作用,但是它仍然存在兩個限制,使得數據在一些場景中無法充分流通,具體如下。

● 需要流通的數據可能包含用戶的隱私信息,隨著《網絡安全法》《數據安全法》以及《個人信息保護法》的陸續出臺,直接轉讓或傳輸這些數據可能會給售賣數據的機構帶來嚴重的法律風險。

● 出于商業競爭等目的,持有數據的機構或個人可能并不希望直接將數據發送給其他機構,但可以允許其他機構對其所有的數據進行部分特定的、敏感程度較低的計算操作。

當數據較為敏感,無法直接在機構之間進行流通時,數據租賃可以使用一種隱私保護的、可審計的方式,使數據租賃方能夠利用數據出租方的數據完成特定的計算任務,從而促進數據價值充分形成。

2.2 數據租賃的定義

參考傳統的資產租賃的定義,并考慮數據資產特有的形態以及當前已經發布的各項隱私保護法律,本文對數據租賃的定義如下:數據租賃是指在約定的時間內,數據出租方使用其持有的數據資產完成數據租賃方要求的特定計算任務,最終數據租賃方只獲得計算結果、數據出租方獲取租金的行為。

由于數據的復制成本幾乎為零,并且涉及用戶的隱私信息,受到法律保護,當把數據作為租賃標的時,數據出租方無法像傳統的資產租賃那樣在一段時間內將數據資產直接轉讓給數據租賃方,只能通過完成數據租賃方指定的計算任務這種方式,獲得租賃數據帶來的收益。

此外,相較于定義為“讓在不同地方使用不同計算機、不同軟件的用戶能夠讀取他人數據并進行各種操作、運算和分析”的數據共享,數據租賃有以下3點不同:①數據出租方的數據無法被數據租賃方直接讀取,數據租賃方僅能獲取計算任務的輸出結果;②數據出租方能夠根據數據租賃方的計算任務對租金進行定價;③數據出租方和數據租賃方均要對計算過程進行監督,確保數據租賃交易按照事先約定的流程進行。綜上所述,相較于數據共享,數據租賃帶來了更多的要求,這些要求為實現數據租賃帶來了更多、更大的技術挑戰。

2.3 數據租賃的特征

根據數據租賃的定義,當設計一種數據租賃框架時,應當使其能夠滿足以下5項需求。

● 可計價:根據使用目標計算任務的復雜程度以及使用數據的次數等,能夠計算數據租賃方應當支付給數據出租方的租賃費用。

● 隱私性:數據出租方不直接將明文數據傳輸給其他機構。為了規避潛在的法律風險,數據出租方的數據應當保留在其本地,以防用戶隱私信息泄露。

● 有效性:數據租賃方能夠利用數據出租方的數據與數據出租方共同完成雙方事先約定好的計算任務,并且得到計算結果。在數據租賃的計算過程中,數據租賃方自身的數據也可能參與計算。值得注意的是,可能會有多個數據出租方同時向一個機構租賃數據以完成其目標計算任務。

● 計算過程可監督:數據出租方和數據租賃方應當都能對計算操作進行監督,即數據出租方和數據租賃方都應該能夠確保對方對數據執行預先約定好的計算操作。通過確保計算過程的可監督性,數據出租方能夠根據計算操作的類型和數量收取相應的租賃費用,而數據租賃方能夠確保其能利用其他機構的數據完成特定的計算任務。

● 可審計:數據出租方和數據租賃方對數據所做的計算操作應當能夠被第三方審計,從而避免計算任務完成后,雙方對于已完成的計算操作的類型和數量無法達成一致意見,導致支付租金時雙方發生糾紛。

3 基于秘密共享的數據租賃技術設計

盡管其他隱私計算技術(如聯邦學習等)能夠實現一定程度的隱私保護,然而,這些技術對于自身提供的隱私保護缺乏理論保障,而安全多方學習使用安全多方計算技術完成底層運算,能夠為計算過程提供嚴格的安全保障。因此,本文提出一種基于秘密共享的數據租賃技術,令數據出租方、數據租賃方共同參與一個基于秘密共享的安全多方學習過程,以完成數據出租方和數據租賃方預先約定好的計算任務。接下來對本文提出的數據租賃技術涉及的角色以及計算過程進行詳細的介紹,并分析該技術如何滿足隱私性、有效性、計算過程可監督以及可審計這4項需求。對于可計價需求,由于其與后續的計算過程是解耦的,且當前已經有許多與數據定價相關的研究工作[19-20],如基于博弈論的方法[20],本文對如何滿足此項需求不做過多討論。相較于已有的基于同態加密[21]的數據安全外包計算方法,本文提出的基于秘密共享的數據租賃技術使數據出租方和數據租賃方能夠通過參與計算過程的方式監督對方所做的計算操作。此外,通過引入區塊鏈技術,本文提出的數據租賃技術使第三方能夠在交易完成后對交易信息進行審計,可避免出現數據出租方或數據租賃方抵賴的情況。

3.1 角色定義

本文提出的基于秘密共享的數據租賃技術中(如圖2所示)共有3類角色,即數據租賃方、數據出租方以及租賃平臺方,具體如下。

圖2 基于秘密共享的數據租賃技術中的3類角色

● 數據租賃方。數據租賃方自身可能擁有一部分數據,并希望能夠通過支付一筆費用租賃數據出租方的數據,從而通過聯合多方的數據挖掘得到更多的有效信息。數據租賃方需要向數據出租方和租賃平臺方說明其目標計算任務,并通過基于秘密共享的安全多方學習完成該計算任務。

● 數據出租方。數據出租方對數據租賃方出租其需要的數據,并根據數據租賃方利用其數據完成的計算任務的復雜程度和使用數據的次數收取相應的費用。在一次數據租賃中,可能會有多個數據出租方參與。數據出租方通過與數據租賃方共同參與一個基于秘密共享的安全多方學習過程,完成數據租賃方的目標計算任務以及監督數據租賃方對其數據所做的計算操作。

● 租賃平臺方。租賃平臺方負責提供數據租賃的資訊平臺,并審計數據租賃交易。租賃平臺方接收并發布來自數據出租方的數據信息,同時響應數據租賃方的數據信息查詢請求,促使數據租賃交易的形成。

3.2 學習過程

在數據租賃方和數據出租方對租賃的數據類型和數量、目標計算任務以及租賃費用達成共識后,數據租賃方、數據出租方共同參與一個基于秘密共享的安全多方學習過程,以完成數據租賃交易,具體過程如圖3所示。在圖3所示的計算過程中,各方先將自身持有的數據通過秘密共享技術產生秘密份額,然后將秘密份額分發給其他參與方作為輸入,隨后各方通過一個基于秘密共享的安全多方學習過程完成目標計算任務,最后將計算結果返回數據租賃方。

圖3 基于秘密共享的數據租賃技術計算過程

具體來說,數據租賃方首先將其目標計算任務轉化為電路(由與門、或門、非門組成的布爾電路或由乘法門、加法門組成的算術電路)表示,隨后將該電路發送給其他參與方作為后續計算過程的輸入。同時,數據租賃方需要計算目標電路的數字摘要并將其上傳到區塊鏈,使得數據租賃交易完成后第三方能夠根據鏈上的數據對該交易進行審計。倘若數據租賃方自身的數據需要參與計算任務,則將自身數據使用秘密共享技術產生秘密份額后,將相應的秘密份額分發給其他參與方。而數據出租方將自身數據使用秘密共享技術產生秘密份額后,將相應的秘密份額分發給其他參與方作為后續計算過程的輸入,完成數據的“出租”。數據出租方與數據租賃方得到輸入數據的秘密份額以及計算任務的電路表示后,利用基于秘密共享的安全多方學習技術通過本地計算和通信交互利用自身的秘密份額對目標電路進行計算,該電路的輸入即各方持有的秘密份額。在計算目標電路時,各方首先根據門電路之間的依賴關系將目標電路拆解為多個電路層,每個電路層的輸入都來自前一個電路層,輸出都傳向下一個電路層。隨后,逐層計算目標電路,即依次對每一層包含的門電路進行計算,最后一個電路層的輸出即計算結果的秘密份額。其中,非門與加法門可以在本地完成計算,與門、或門以及乘法門則需要通過各方間的交互完成計算。最后,數據出租方將各自持有的計算結果的秘密份額發送給數據租賃方,數據租賃方使用收到的秘密份額還原得到計算結果,并向數據出租方支付相應的租金,完成數據租賃交易。

3.3 分析

接下來對計算過程進行分析,說明其能夠滿足數據租賃技術應當滿足的隱私性、有效性、計算過程可監督以及可審計這4項需求。

● 隱私性。數據租賃方與數據出租方的數據均使用秘密共享技術產生秘密份額后,將秘密份額分發給其他參與方,并且后續所有的計算都是使用基于秘密共享的安全多方學習技術完成的。根據基于秘密共享的安全多方學習的特性,所有參與方都無法在計算過程中獲得其他參與方的數據信息,從而保障了數據出租方數據的隱私性。

● 有效性?;诿孛芄蚕淼陌踩喾綄W習技術能夠支持多個參與方共同計算,使得數據租賃方與數據出租方能夠基于多方的輸入數據共同完成事先約定的計算任務。最終,數據租賃方得到計算結果,保障了數據租賃交易的有效性。

● 計算過程可監督?;诿孛芄蚕砑夹g的安全多方學習要求所有參與方在計算過程中都知曉計算任務對應的電路,并參與計算。因此,在上述計算過程中,所有計算都需要數據出租方和數據租賃方共同參與,從而數據租賃方與數據出租方能夠監督對方所做的計算操作。

● 可審計。如圖3所示,在計算開始前,數據租賃方將目標電路的摘要上傳到區塊鏈。在計算完成后,第三方(如租賃平臺方)可以通過查驗區塊鏈上的數據摘要的方式對已完成的數據租賃交易進行審計。

4 結束語

基于當前已發布的隱私保護法律法規,本文提出了一種新的數據流通方式——數據租賃,分析了數據租賃應該滿足的5項需求,并提出了一種基于秘密共享的數據租賃技術,旨在進一步促進數據的流通與數據價值的形成。在未來,如何使數據租賃方在租賃開始前對數據出租方的數據進行檢驗或將成為數據租賃技術下一步的發展方向,需要研究者進行更加深入的探索與研究。

猜你喜歡
參與方份額秘密
基于秘密分享的高效隱私保護四方機器學習方案
澳大利亞可再生能源首次實現供給全國負荷的50.4%
基于SNA視角的PPP項目參與方行為風險研究
BT模式研究
愿望樹的秘密(二)
綠色農房建設伙伴關系模式初探
我心中的秘密
第十三章 進化的秘密!
什么是IMF份額
父母只有一人留遺囑,效力如何認定?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合