?

“互聯網+”環境下數據可信度量方法研究

2019-09-10 07:22李阿芳
河南科技 2019年26期
關鍵詞:大數據互聯網+互聯網

李阿芳

摘 要:大數據在生產活動中扮演著越來越重要的角色,不可信數據給大數據的應用帶來了很大的麻煩,如何篩選出真實可信的數據成為大數據應用的重要課題。本文闡述了當前數據可信計算方法和模型,并分析其優缺點,提出了“互聯網+”環境下的數據可信度量方法及其評價方法。該數據可信度量方法依據發布信息的主體、數據源以及數據自身的相關屬性,計算數據的主觀可信度、全局可信度以及本地可信度。試驗結果表明,本方法在電子商務數據可信度計算方面有較好的效果。

關鍵詞:互聯網+;大數據;可信度計算

中圖分類號:TP393.09 文獻標識碼:A 文章編號:1003-5168(2019)26-0017-04

Research on Data Credibility Measurement in "Internet +" Environment

LI Afang

(Shandong College of Information Technology,Weifang Shandong 261061)

Abstract: Big data plays an increasingly important role in production activities, and untrusted data has caused great trouble for big data applications. How to filter out authentic data becomes an important topic in big data applications. This paper expounded the current data trustworthy computing methods and models, and analyzed its advantages and disadvantages, and proposed a data credibility measurement method and its evaluation method under the "Internet +" environment. The data trusted metric method calculates the subjective credibility, global credibility and local credibility of the data according to the main body of the published information, the data source and the related attributes of the data itself. The test results show that the method has a good effect on the reliability calculation of e-commerce data.

Keywords: Internet +;big data;data credibility measurement

新時代,大數據呈現出規模大、流轉快、類型多等特點,在數據生成和傳播過程中不可避免地產生數據不一致、數據缺失等問題,導致大數據的可信度受到質疑[1],低可信度[2]的數據對大數據應用造成了很大的麻煩。

針對上述問題,本文提出了“互聯網+”[3]環境下基于大數據處理技術的可信度量方法[4]。該方法依據發布信息的主體、數據源以及數據自身的相關屬性,計算數據的主觀可信度、全局可信度以及本地可信度,具體來說,通過用戶與數據源之間的交互記錄計算主觀可信度,通過數據源發布或者產生數據的交互記錄計算全局可信度,通過歷史數據來計算本地可信度。試驗結果表明,本方法在電子商務數據可信度計算方面有較好的效果。

1 數據可信度計算方法

1.1 數據可信度

在數據源可信度計算模型中,可信度包括直接和間接可信度兩部分[5],根據實際情況,人們可以對兩者分別進行加權,得到兩實體之間的可信度。假設直接可信度為[DR],間接可信度為[IDR],則兩實體之間的可信度為[wDR+1-wIDR],其中[w]表示權重,且滿足[w∈[0,1]]。權重的大小取決于兩實體之間交互記錄的多少,如果交互記錄多,則[w]值越大,否則[w]值越小。如果兩實體之間沒有直接交互記錄,需要引入第三實體,且第三實體與前兩個實體之間都需要有交互記錄,如圖1所示。

圖1中,A和B之間、B和C之間都有交互記錄,因此可以計算出兩者的直接信任度,而A和C之間沒有交互記錄,因此只能通過B來計算A和C的間接信任度。

1.2 可信度計算模型

“互聯網+”環境下,數據可信度主要包括動態和靜態兩種計算模型[6],基本可以劃分為基于交易反饋的可信模型、基于關系的可信模型和基于興趣的可信模型。

上述三種模型并非相互獨立,每種模型各有優點和缺點,在計算可信度過程中,人們經常需要運用多個模型共同計算。從上面三種模型可以看出,影響數據可信度的因素主要有三個,即主體本身、數據源和數據,因此在“互聯網+”環境下計算數據的可信度需要從上述三個方面入手。

2 大數據可信度量方法

2.1 大數據可信計算模型

大數據環境下有各種數據源和用戶,為了方便計算,人們需要將數據源和用戶分別抽象為節點,數據源和用戶之間的互動就可以抽象出5個交互數據,即用戶、數據源、時間、結果以及數據內容,分別用符號User、DS、time、Res和Data表示,結果表示用戶對該次交互的是否認可。在大數據可信計算模型中,首先通過網絡爬蟲獲取用戶和數據源的交互記錄,并對這些交互記錄進行預處理,刪除重復和無效的數據,然后對每條記錄提取交互五元組[T](User,DS,time,Res,Data),之后對五元組進行可信度的計算,具體計算流程如圖2所示。

在數據可信度計算過程中,用戶對數據源之間的交互記錄主要包括用戶對數據源發布的信息的評論,主要用于計算數據源的全局可信度,也就是說,通過分析全體用戶對該數據源的評價,獲得關于該數據源的客觀評價。主觀可信度表示單個用戶對數據源發布消息的信任度,與全局信任度不同,主觀可信度表示個人對數據源的信任程度。本地可信度是基于數據源本身特點計算的信任度,如數據源的所有者、數據源取得的認證信息、滿足的標準等。

數據可信度綜合計算就是針對主觀可信度、全局可信度以及本地可信度,采用加法原則,根據數據可信度的側重點加以權重。假設用戶User在t時刻對數據源DS的主觀可信度為[STUser,DS,t],數據源DS在t時刻的全局可信度為[GTDS,t],數據源DS的本地可信度為[LTDS],則此時數據源發布的數據D的可信度可用如式(1)計算:

[TUser,DS,D,t=αSTUser,DS,t+βGTDS,t+λLTDS]? ? ? ? ? (1)

式中,[α],[β],[λ]分別為三種信任度的權重系數,且[α+β+λ=1]。在對待不同的數據類型時,可以動態調整系數的大小。

2.2 主觀可信度計算

主觀可信度從本質上來說是一種直接可信度,是通過用戶和數據源之間的交互歷史記錄來計算的。假設用戶與數據源的交互記錄為[T],[T=T1,T2,…,Tn],其中[Ti=(Di,Si,ti)],三者分別表示交互信息的內容、交互信息是否成功、交互時間。一般來說,人們傾向于相信能夠持續提供準確信息的數據源,因此交互記錄中成功交互可以作為計算主觀可信度的依據。在數據預處理過程中,依據是否可信,人們需要將交互記錄劃分為可信子序列[CTS=ts1,ts2,…,tsp]和不可信子序列[CFS=fs1,fs2,…,fsp]。

在主觀可信度計算過程中,本文采用直接可信計算的PeerTrust算法,以記錄開始時間t為準,距離t越長的交互,即最新的交互的可信程度越高,交互次數越多,交互的可信程度越高,因此可信交互計算公式為:

[CTrustUser,DS,t=i=1peti-t×count(tsi)/n]? ? ? ? (2)

式中,[ti]為交互序列[tsi]發生的時間;[count(tsi)]為交互序列[tsi]中交互的次數。

不可信交互計算公式為:

[CNTrustUser,DS,t=i=1ll2×count(tsi)2eti-t/n2]? ? ? (3)

為了避免在交互過程中“網絡水軍”對正常交互過程的干擾,在計算可信交互和不可信交互的過程中,需要對交互的用戶主體進行評分,評分以用戶主體的個人信息完成程度為標準,如是否提供年齡、職業、通信方式等,以用戶個人信息為空和提供了完整信息為準,將用戶主體的信息完整程度歸一到[0,1]的區間,即0<[w(User)]<1,因此用戶User對數據源DS的主觀可信度[STUser,DS,t]為:

[STUser,DS,t=λUserw(User)CTrustw(User)CTrust+(1-w(User))CNTrust]? ? ? ? ?(4)

式中,[λUser]為用戶節點的獨立參數。

2.3 全局可信度計算

全局信任來自數據源與所有用戶的交互記錄,假設當前數據源與用戶和其他數據源的交互記錄為[T],[T=T1,T2,…,Tn],其中[Ti=(Vi,Di,Si,ti)],[Vi]表示數據源在網絡中的標識,其他符號與主觀可信度計算中的意義相同。由于全局可信度是由所有用戶對該數據源的信任度決定的,一般來說,對該數據源的信任度特別高或者特別低的用戶的評價通常有較強的主觀性,因此需要弱化該部分用戶的信任度在全局可信度計算中的比例。在t時刻,全局可信值用[GTrust(DS,t)]表示,則有

[GTrust(DS,t)=mi=1m1STUser,DS,t]? ? ? ?(5)

2.4 本地可信度計算

本地可信度是指數據源自身的可信度,該值的大小取決于其所有發布信息的可信度,且消息的發布時間越新,其可信度在本地可信度中占比越大。假設數據源DS發布的歷史記錄為[D=Dt1,Dt2,…,Dtn],該序列按時間順序排列,每條記錄的格式為[Dti=dti1,dti2,…,dtim],[dtim]表示記錄[Dti]的第[m]個主題,每個主題包括兩個Title和Value兩部分內容,因此本地可信度的計算公式如下:

[LTrust(Dn)=j-1n-1sim(Dn,Dj)×LTrust(Dj)j=1nsim(Da,Db)]? ? ? ?(6)

式中,[sim(Dn,Dj)]函數表示記錄[Dn]與[Dj]的相似度。相似度的計算公式為:

[sim(Da,Db)=i=1mdai×dbi(i=1md2ai)×(i=1md2bi)]? ? ? ? ? (7)

式中,[m]表示在兩個記錄[Da]、[Db]中相同主題的個數。

3 試驗仿真

本仿真試驗的目的是檢驗方法的正確性,試驗的數據集采用社會化電子商務網站Epinions.數據集,包含用戶對項目的評分信息和用戶之間的信任信息。為了方便計算,其間對數據集進行歸一化處理,將數據集的信任值使用[TTmax]轉化到[0,1]區間內,數據集的統計特征如表1所示。

計算過程中,用戶和數據源可抽象為節點Entity,實體之間的交互記錄記為Data,Data的記錄中有多個主題,涉及數據源之間的參數如表2所示。

在試驗過程中,首先根據大數據可信度計算方法計算出數據的可信值,然后通過實際的數據可信值與數據集中預先計算好的信任值進行比較。在計算過程中,根據式(1)、式(4)、式(5)和式(6)分別計算其信任值,并對比迭代次數為500和1 000的計算結果。本文采用傳統的EigenTrust算法、PeerTrust算法與本算法的計算結果進行對比,并使用平均絕對誤差MAE和均方根誤差RMSE兩種指標來衡量三種算法的性能,計算結果如表3所示。

從表3可以看出,隨著迭代次數的增加,基于大數據的數據可信度計算方法在計算準確度上明顯高于其他兩種算法,本文提出的算法在MAE和RMSE兩個指標上分別提升了13.1%和9.5%,明顯高于其他兩種算法。

4 結語

本文研究了大數據、社會學中的信任理論和各種可信度分析模型,然后提出了“互聯網+”環境下基于大數據處理技術的可信度量方法,根據實際情況,分別計算用戶對數據源的主觀可信度、數據源的全局可信度和本地可信度,然后通過權重加成的方式獲取最終的可信度。在Epinions.數據集上與其他可信度計算算法對比,結果發現,本算法在準確度上明顯高于其他算法。

參考文獻:

[1]李剛,李天琦,程曉榮,等.大數據可信性度量方法[J].計算機工程與設計,2017(3):652-658.

[2]李淑慧.C2C電子商務信用評價體系研究:以淘寶網為例[J].山西農經,2019(3):11-12.

[3]趙陽,朱全銀,胡榮林,等.基于自編碼機和聚類的混合推薦算法[J].微電子學與計算機,2018(11):52-56.

[4]戚耀元,戴淑芬,葛澤慧.“互聯網+”環境下企業創新系統耦合研究:技術創新與商業模式創新耦合案例分析[J].科技進步與對策,2016(23):76-80.

[5]林泓,辛海濤,謝嘉楠.基于直接和推薦可信度的P2P綜合信任模型[J].武漢理工大學學報(信息與管理工程版),2011(6):887-891.

[6]中國科學院信息工程研究所.一種基于動態信任模型的IP定位數據庫可信度評估方法:中國,CN201710092867.8[P].2017-08-01.

猜你喜歡
大數據互聯網+互聯網
從“數據新聞”看當前互聯網新聞信息傳播生態
互聯網背景下大學生創新創業訓練項目的實施
基于大數據背景下的智慧城市建設研究
以高品質對農節目助力打贏脫貧攻堅戰
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合