?

數據要素流通的分賬機制研究

2021-06-19 06:46勤,周
電子科技大學學報 2021年3期
關鍵詞:數據源鏈條貢獻

顧 勤,周 濤

(1.成都大數據股份有限公司 成都610095;2.電子科技大學大數據研究中心 成都611731)

2020年4月9日,中共中央、國務院印發《關于構建更加完善的要素市場化配置體制機制的意見》(以下簡稱《意見》),明確了要素市場制度建設的方向及重點改革任務,并就擴大要素市場化配置范圍、促進要素自主有序流動、加快要素價格市場化改革等作出了部署?!兑庖姟肥状螌祿鞔_為與土地、勞動力、資本和技術并列的新型生產要素。數據作為生產要素參與分配具有突破性的意義,有望快速推動數據確權、數據交易和數據資本化。譬如技術作為生產要素地位的明確,就為技術的有價轉讓以及以知識產權作價作為股本金出資奠定了基礎。如何搭建合規且高效的數據要素流通體系,是《意見》出臺后亟待回答的關鍵問題。

數據要素的流通方式主要包括開放、共享和交易。數據開放是指向不特定主體開放的非涉密非隱私數據,一般不收取費用。某些情況下開放是面向受限主體或者有前提條件的,譬如有些科學數據的開放需要使用方提前說明使用方式并承諾不用于商業目的。數據共享是指在協議或約定條件下,數據在有限主體間共享,一般也不收取費用。參與共享的主體往往同時也是數據的提供方。其他需要支付費用才能獲得數據的流通方式,往往都被歸為數據交易。數據交易的方式很多,包括批量下載(大量數據一次性付費下載,如遙感數據)、權限使用(根據權限查閱和下載數據,一般對于線程數和下載量有限制,如高校購買的電子出版物和經濟社會數據集等)、API查詢(通過接口查詢,一般返回簡單的是否或數值,按照查詢次數付費)、API調用(通過接口進行下載,一般按照下載量付費)、沙箱服務(在約定的數據環境和數據格式下進行運算并獲取結果,不直接得到數據本身)等。如果只是簡單和傳統的生產要素做類比,通常會認為交易才是數據作為生產要素流通的方式。但實際情況并非如此,開放的數據也可以作為重要的生產要素,如疾病致病基因的發現,需要人類表型本體(human phenotype ontology)數據;又如先導藥物分子的發現,往往要用到大量開放的有機化學方程式庫。共享的數據很多也是典型的生產要素,如多家金融機構在一定的協議約定和隱私保障下,通過數據共享可以提高風險識別的準確度,提升反欺詐、反洗錢和普惠金融服務等能力。事實上,不同于一聽可樂或者一件衣服,數據很少成為最終的消費品,大部分數據的需求方都是將數據作為進一步生產的原材料,或通過對數據的利用提升決策水平、業務能力、服務效率等,這正好也是生產要素的特點。

與普通商品交易不同,隨著數據需求深度和廣度的增加,數據交易的結構可能非常復雜。如采集數據需求的平臺可能并不具備部分或者全部的數據,數據的需求可能需要多個分布于不同位置的數據源的組合才能滿足,還需要大量中介節點分解和傳遞數據需求、需求響應情況以及數據本身。在滿足數據需求的過程中,不同數據源的數據貢獻程度可能差異很大,不同數據源還可能針對同一項數據需求開展競價。如針對罕見病的研究需要不同國家地區的多個醫療機構提供病例數據,又如對企業的深入盡調需要調取在不同地區注冊的目標企業及其投資對象的多維數據。為了應對這些復雜的情境,充分發揮完成一個數據請求所涉及的多個異質主體的積極性,亟需設計一套數據要素流通的分賬機制,這也是保障數據要素有效流通的基礎性問題之一。

本文分析了典型的數據請求和響應模式,借鑒了P2P文件共享系統中請求響應的激勵機制[1]和單任務的鏈式衰減激勵機制[2],建立了包括請求端節點、中介節點和響應端節點的激勵網絡模型,設計了幾何衰減的分賬機制。在上述具有普適性的框架下,本文給出了幾種常見情況下如何分賬的具體計算過程,并將該機制推廣到了數據請求需要多數據源響應且各自貢獻不同的含權情境。文末討論了如何在此框架下包容更復雜的情況,包括如何處理不同數據源針對同一數據需求進行競價的復雜情況。

1 基本模型

一個具備數據需求分發和響應的數據要素網絡至少應該包含3類節點:1)請求端節點:用于采集需求方的具體需求,一般為功能性的平臺,允許需求方提出數據申請,如金融機構希望獲取某申請貸款企業x所有直接和間接控股的企業集合O(x),以及x∩O(x)近3年的納稅記錄;2)中介節點:根據協議和/或算法將未滿足的數據需求轉發給一個或多個其他中介節點或者響應端節點;3)響應端節點:數據源所在地,根據數據需求提供相應的數據。注意,一個節點可能同時扮演多種角色。如請求端節點可能也擁有數據源,能夠響應數據需求;而如果請求端節點不具備應對需求的完備數據,則必然也是中介節點。又如很多中介節點也是響應端節點,只是將本地無法滿足的需求分發出去。

首先考慮最基本的模型,其中請求端節點收到數據需求后,通過若干中介節點的轉發,最后由一個響應端節點滿足其需求。在基本模型中,假設所有的數據需求一個響應端就可以全部滿足,更一般化即數據需求需要多個響應端協同的情況,將在下一節討論。因此,數據需求被滿足的過程可以用一條“請求?轉發?響應”鏈條來描述,其中需求信息從請求端到響應端所需轉發的次數被稱為該鏈條的長度。記一次成功的需求響應所有節點總的貢獻為1,每個節點分賬的比例與其貢獻的比例一致。如果請求端本身就有所需要的數據,自身就可以響應,則不需要任何中介節點,鏈條長度為0,請求端節點完成了所有的貢獻1。一般情況下,鏈條的長度大于0。譬如未來公共數據的流通體系很可能是層次架構的,某城市a的企業在辦理業務時需要調用與城市b有關的數據,需求可能在城市a的平臺提出,被轉發至城市a所屬的省級行政區節點A,如果A沒有相關的數據,可能要繼續轉發到國家中心節點C,C根據尋址的規則找到b所在省級行政區節點B,然后再轉至城市b的數據中心,實現成功響應并原路回傳數據。這樣就形成了一個長度為4的鏈條“a-A-C-B-b”。圖1給出了一個按上述層次結構組織形成的長度為4的“請求?轉發?響應”鏈條示意圖。注意,即便不是按照層次結構進行組織,基本模型也是完全適用的。本文給出3種普適性很強的簡單模型。

圖1 一個層次組織的長度為4的“請求-轉發-響應”鏈條示意圖以及在3種基本模型下5個節點貢獻的比例

1)幾何衰減模型。該模型認為響應端節點的貢獻最為顯著,其次是將需求轉發給響應端節點的中介節點,再次是將需求轉發給該中介節點的中介節點,以此類推。按與響應端節點距離由近到遠,貢獻按照幾何級數衰減,而請求端節點僅僅被看作一個普通的中介節點。記“請求?轉發?響應”鏈條長度為L,衰減指數為q( 0

2)激勵動員模型。該模型最早是Pentland領銜的MIT團隊在2009年DARPA舉辦的尋找美國大陸10個紅色氣象氣球位置的社會動員大賽中使用的策略模型。利用該策略,MIT團隊以顯著優勢獲得了冠軍[2]。激勵動員模型是一個非參模型,在該模型中,響應端節點的貢獻為1/2,將需求轉發給響應端節點的中介節點的貢獻為1/4,將需求轉發給該中介節點的中介節點的貢獻為1/8,依此類推。如果“請求?轉發?響應”鏈條的長度為L,則距離響應端節點為d( 0≤d

3)固定收益模型。上面兩個模型雖然略有差異,但請求端節點分配的貢獻比例都是最少的或最少的之一。然而,在互聯網時代,流量的獲得往往起關鍵性的作用。固定收益模型認為請求端節點作為流量入口,不能僅僅被看作一個中介節點,而應該享有一個固定比例的貢獻值。在該模型中,其他節點的貢獻值分配依然按照幾何衰減模型,而請求端節點的貢獻固定為r(0

圖1給出了L=4,q=0.5,r=0.25的一個計算示例。

以上給出的是比較簡潔,具有相當適用性的若干模型,讀者在具體應用場景中還可以根據特殊需求設計更復雜的基本模型。

2 一般模型

基本模型解決的是在一條“請求?轉發?響應”鏈條上,貢獻值如何分配的問題。一般情況下,一次數據請求可能需要多個節點提供數據,且所提供的數據的價值不同。因此,對一次數據請求的響應過程可能形成多條權重不同的“請求?轉發?響應”鏈條,這些鏈條兩兩之間可以有一個或多個除請求端節點之外的重復節點。這就要求請求端節點具備將任意在其服務范圍內合法的數據請求分解成最小粒度的若干數據項需求并為每項需求賦予明確權重的能力。在此基礎上,每個響應端節點根據其所滿足數據需求的權重,把對應比例的貢獻值在相應的“請求?轉發?響應”鏈條上進行分配。分配的機制就是上一節所介紹的基本模型。一個節點的貢獻值就是所有涉及它的鏈條上其貢獻值的加和。

圖2給出了一個典型的示例,其中請求端節點將收到的數據請求拆分成10個最小粒度的需求項。假設這10個數據需求的權重相同,在轉發過程中,節點d滿足了其中2份需求,但是還不能完成所有需求,于是又繼續轉發給節點e。節點e滿足了其中5份需求。還有3份需求是節點g完成的。于是,共有3條“請求?轉發?響應”鏈條參與了對該數據需求的響應,分別是“a-b-c-d”、“a-b-c-d-e”和“a-f-g”,其對應的權重分別是0.2、0.5和0.3。按此權重,若采用激勵動員模型,則如圖2所示,7個節點的貢獻值分別為C(a)=0.13125、C(b)=0.05625、C(c)=0.1125、C(d)=0.225、C(e)=0.25、C(f)=0.075和C(g)=0.15。

圖2 一個數據請求需要多個響應端節點協同完成的示意圖,

顯然,采用不同的基本模型,上述按鏈條進行貢獻值分配并根據權重加和的框架也是適用的。

3 結束語

針對數據要素流通過程中如何分賬的問題,本文提出了一個簡單的框架,其核心組件包括:1)流通網絡由請求端節點、中介節點和響應端節點組成;2)響應端節點貢獻大于中介節點,且貢獻值按照幾何級數衰減;3)一次數據請求可以由多個響應端節點滿足,并根據不同權重進行貢獻值的分配。盡管具體模型還可以根據不同場景的需求進行變化,但以上基本思想是具有普遍適用性的,應該能在數據要素流通體系建設中發揮重要的參考價值。

本文一個隱含的假設是中介節點知道如何找到響應端節點,或者說知道如何為一個數據需求在流通網絡上尋址。對于一些簡單的情況,例如一個城市A的數據中心就掌握該城市的所有可流通稅務數據,不同數據中心按照行政所屬關系形成連接,這種情況下尋址的邏輯就非常簡單。然而,實際情況下數據的需求復雜多樣,數據的供給方信息并不完備,此時如何給出數據線索,如何尋址,在哪些情況下要采用廣播方式等等,都是值得進一步研究的問題。其中,一種更復雜的情況,就是同一個數據需求的細項,有不止一個數據源可以響應。每個得到通知的數據源原則上都可以通過網絡競價。這種情況下,如何設計競價拍賣的機制以及在該機制下如何確定競標價格,也是值得深究的問題。特別地,如果一個節點本身可以滿足數據需求,它是否還要轉發這個需求,就成了有趣的兩難選擇。一方面它的轉發會帶來新的競爭對手,造成競價成功的可能性降低或利潤空間降低;另一方面它既無法保證競價成功,又可以寄望通過它的后繼節點或后繼的后繼等競價成功而獲得相應分成。最近我們設計了一套機制,可以在社會化拍賣的過程中讓轉發拍賣信息并按照真實意愿出價恰好是納什均衡,從而提升拍賣的效率和系統整體收益[3]。這些都可能為更好實現數據要素的流通賦能!

致謝:成都大數據產業技術研究院蘭宇、清華大學廖敬儀和成都大數據股份有限公司徐忠波亦對本文有貢獻,特此感謝。

猜你喜歡
數據源鏈條貢獻
中國共產黨百年偉大貢獻
個性鏈條
為加快“三個努力建成”作出人大新貢獻
鏈條養護好幫手: 5款鏈條油推薦
產業鏈條“鏈” 著增收鏈條
Web 大數據系統數據源選擇*
貢獻榜
海洋貢獻2500億
基于不同網絡數據源的期刊評價研究
基于真值發現的沖突數據源質量評價算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合