?

一種多源異構數據融合方法及其應用研究

2016-10-14 06:44姜建華洪年松張廣云
電子設計工程 2016年12期
關鍵詞:數據源異構算子

姜建華,洪年松,張廣云

(1.廣東科學技術職業學院計算機工程學院,廣東珠海519090;

2.浙江工貿技術職業學院信息傳媒學院,浙江溫州325003)

一種多源異構數據融合方法及其應用研究

姜建華1,洪年松2,張廣云1

(1.廣東科學技術職業學院計算機工程學院,廣東珠海519090;

2.浙江工貿技術職業學院信息傳媒學院,浙江溫州325003)

針對基于多源數據融合的多用戶決策問題,建立了多源異構數據融合模型,研究了基于三角模糊數的異構數據統一量化表示方法,采用有序加權平均算子融入決策者的偏好,設計了一種支持多用戶決策的多源異構數據融合算法。實際應用表明,本文設計的算法能解決多源異構數據在結構和語義上的模糊性、差異性和異構性等問題,通過在數據融合過程中考慮決策者偏好,提高了多用戶決策結果的可靠度。

多源異構數據;數據融合;三角模糊數;有序加權平均

數據融合本質上是對來自多方數據的協同處理,以達到減少冗余、綜合互補和捕捉協同信息的目的,該技術已成為數據處理、目標識別、態勢評估以及智能決策等領域的研究熱點。文獻[1]基于統計和人工智能方法,研究了多傳感器數據融合技術;文獻[2]研究了移動地理信息系統中的多源異構數據組織與管理,建立了多源異構數據融合模型;文獻[3]將無線傳感器網絡和數據融合技術相結合,提出了一種Kalman濾波分批估計融合算法;文獻[4]研究了物網聯網環境下海量多源異構數據融合方法,并成功應用于目標定位跟蹤過程中;文獻[5]研究了高鐵信號系統基于異構數據融合的智能維護決策架構,提高了決策的準確性和有效性;文獻[6]研究了數字礦山建設過程中的多源異構數據融合技術,保證了數字礦山建設中基礎信息平臺的安全穩定和高效。

數據的表示方式除了數值外,還存在著語言或符號等其他描述形式,多種描述導致了數據信息在結構和語義上的模糊性、差異性和異構性。另一方面,決策過程需要綜合考慮多方面的異構數據信息,并通過對數據信息的融合處理來制定最終決策。因此,文中從異構數據的特點出發,研究一種支持多用戶決策的多源異構數據融合方法。

1 多源異構數據融合模型

1.1多源異構數據融合方法

數據融合按操作級別分為數據級融合、特征級融合以及決策級融合。本文研究多數據源在決策級上的融合,其方法主要有權重平均法、D-S證據理論和投票表決等。

1)權重平均法

采用Σwitij計算各數據源對決策的支持度值,wi為數據源i權重,tij為數據源i對第j決策的支持度,該方法根據支持度的大小判斷決策方案的優劣,具有易操作、考慮了數據源的重要程度等特點,但權重的確定包含著主觀因素。

2)D-S證據理論

將待識別對象所有可能結果構成的空間定義

為識別框架D,其子集記為2D,?A?D,定義:

m:2D→[0,1]

其中:m(φ)=0,ΣA?2Dm(A)=1,φ為空集,則m為2D上的基本概率分配函數(BPAF),它實際上是根據證據對D的子集進行信任度分配。

實際中往往針對同一問題因證據不同而得到不同的mi,考慮所有證據后的m可通過下式得到:

D-S證據理論建立在BPAF基礎上,能處理由“不知道”所引起的不確定性,缺點是D中元素必須滿足互斥條件,且當BPAF過多時計算很復雜。

3)投票法

將各個數據源看作投票者,通過比較各決策獲得的票數以定優劣,計算方法為:

Sup(ai)=F(Supj(ai))

其中:ai為第i決策,Sup(ai)為其得“票數”;Supj(ai)為第j數據源對ai的支持度,若支持則取1,否則為0,函數F可定義為連加求和。

針對多源異構數據的BPAF難以確定,投票法不能區分票數相同的決策,在考慮決策者偏好的情況下,文中采用OWA方法對數據進行融合處理。

1.2多源異構數據融合結構

文獻[7]提出一種多數據源的融合結構,如圖1所示。該數據融合過程考慮了表達用戶需求的特征因素和信息的可靠程度,利用上下文知識和領域知識、采用投票法解決數據沖突等問題。

圖1 多源數據源融合結構

針對上述模型,本文設計了一種支持多用戶決策的多源異構數據融合結構模型,如圖2所示。模型中的數據融合引擎包括數據倉庫、決策支持度計算、OWA算子權重向量計算和數據轉換與排序4個模塊,具體描述如下。

圖2 多源異構數據融合模型

1)數據倉庫通過數據選擇、特征提取和統計等操作實現對數據的集成、消除數據的異構性和差異性,為后續的數據處理提供數據源;

2)決策支持度計算模塊根據決策屬性從數據倉庫獲取相關維度的數據,并計算各數據源對決策的支持度值sij(數據源i對第j決策的支持度);

3)OWA算子權重向量計算模塊根據決策者提供的模糊語義原則計算出OWA權重wi,模糊語義參數的選擇體現了決策者對數據源的偏好態度;

4)數據轉換與排序根據決策者提供的數據源可信度或重要度,結合OWA權重向量wi對sij進行轉換,并將轉換后的結果按大小順序排序,最后將排序后的結果與通過求和計算出最終決策值。

2 多源異構數據融合算法

2.1數據類型及其特點

對數據可以從數量和質量兩方面進行描述,數量方面通過數值表示,而質量方面通過語言變量進行描述[8]。根據數據描述方式的不同,本文將數據分為定性和定量兩類,重點研究隨機變量、二值型、語言程度和采用詞匯術語的4類描述,如表1所示。

表1 數據描述方式

大樣本情況下,隨機變量服從正態分布,記為:X~(μ,σ2),μ為期望,σ為標準差,且滿足:P(μ-3σ<X<μ+3σ)=0.9974。

二值型數據用于描述對事實的肯定或否定,取值空間大多為{1,0}或{True,False}。

表示程度的數據一般采用漢語程度副詞來表示,如很好、非常差等,程度等級大多采用7或9個標準。

基于詞匯術語的數據采用詞匯空間中規定的詞匯或術語給出事物定性的描述,詞匯個數視具體情況而定。

2.2基于三角模糊數的支持度計算

考慮到多源數據描述中存在著模糊性,可采用三角模糊數計算數據對決策的支持度值。

1)隨機性數據的轉換

設:x0=u-3σ

若隨機變量的取值越大,其對決策的支持度也越大。將區間[μ-3σ,μ+3σ]進行n等分,則隨機數據向支持度的轉換可定義為:

若隨機變量的取值越小,其對決策方案的支持度越大,則支持度定義為:

s′(x)=(1,1,1)-s(x)

2)二值型數據的轉換

二值型數據采用1或0進行描述,若數據源中取1和0的個數分別為n和m,且支持度以取值1為依據,則數據源對決策的支持度定義為:

3)程度類數據的轉換

描述對象好壞程度一般可采用7或9標準,本文采用7等級標準。程度副詞的表示分正比型(效率越高越好)和反比型(費用越高越差),則各等級對決策的支持度可量化如表2所示的數據。

表2 程度類型數據的支持度

4)詞匯術語數據的轉換

設詞匯空間w包含n個術語,對詞匯按對決策支持度從低到高排序為:w={w0,w1,…,wn-1},則支持度定義為:

2.3OWA的權重向量計算

設:F:Rn→R,有一個與F相關聯的n維加權向量w=(w1, w2,…,wn),wi∈[0,1],1≤i≤n,且使得:

其中:bi是ai中第i個最大的元素,則F稱為n維OWA算子。

OWA權向量w=(w1,w2,…,wn)由下式確定:

其中:i=1,2,…,n,f為模糊語義量化算子,定義為:

其中:x,a,b∈[0,1]。

此外,OWA算子還定義了反映決策者樂觀態度的度量算子:

2.4數據融合算法

設有n個決策:A=(A1,A2,…,An),m個數據源:S=(S1,S2,…,Sm),各數據源的可信度(或重要度)為pi,數據融合算法描述如下:

第1步:計算數據源對決策的支持度;

從數據倉庫中提取數據,根據數據的不同類型,按1.2部分將其轉換為對決策的支持度:

其中:Sij為第i數據源對第j決策目標的支持度,(aij,bij,cij)為支持度的三角模糊數表示,且:0≤aij≤bij≤cij≤1。

第2步:確定OWA算子權重向量;

根據決策者的偏好,選擇適當的模糊語義量化準則,確定式(6)中的參數和的值。模糊語義原則一般為“大多數”、“至少一半”或“盡可能多”,它們的參數值分別為(0.3,0.8)、(0,0.5)和(0.5,1),根據參數可確定出模糊語義量化算子f(x)。

根據f(x),通過式(5)求得OWA權重向量w=(w1,w2,…,wn),n為數據源個數,并按式(7)求得c的值。

第3步:根據各數據源可信度(或重要度)pi和支持度值sij對sij進行轉換;

為了利用OWA權重向量,需要根據pi與sij對各決策值進行轉換并按大小順序排序,轉換方法采用模糊判決法。

設:

定義:當c≤0.5時

當c≥0.5時

則經過轉換后的決策支持度值表示為:

第4步:依據OWA算子權重向量和轉換后的支持度對數據進行融合,并計算各決策的最終決策值;

其中:bij為中第i個最大元素。

第5步:根據實際問題按決策值大小做出決策。

3 應用實例

以某公司為了提高其產品市場競爭力,擬從同一品牌下多種型號產品中挑選一款進行重點打造為例。假設現有5種型號的產品,型號為A1、A2、A3、A4、A5,公司可搜集到的數據包括產品市場需求預測、產品使用后的反饋、產品參數、產品使用歷史狀態、產品故障以及同行專家提供的建議等數據信息。針對各型號產品從市場需求評價a1、平均年故障次數a2(μ= 3.5,σ=0.8)、最長無故障時間a3(μ=12.28,σ=2.53)、經濟性a4、用戶評價a5和專家建議a66個方面進行比較。通過對數據進行整理,得到各個指標數據信息如表3所示。

1)對表中各數據描述類型分析知:a1和a4為程度型,按表2進行變換;a2和a3為隨機變量型,按式1進行變換;n且取15;a5為二值型數據(表中數據為用戶評價為“好”的比例),按式2進行變換;a6為詞匯空間描述型,按式(3)進行變換。則對表3中統一量化處理的結果如表4所示。

2)選擇“大多數”作為模糊語義原則,式(6)中的和分別為0.3和0.8,根據式(5)和式(6)可得到OWA權重向量:w=(0,0.067,0.33,0.33,0.27,0),

計算出權重向量后,根據式(7)求得:

3)根據pi和sij結合式(9)和式(10)對表4中的數據進行轉換,轉換結果如表5所示。

4)對表5中的每列按第二個數據值從大到小排序,并根據式(11)進行計算的結果如表6所示。

表3 各產品支持度和數據源可信度

表4 各產品支持度的統一量化結果

表5 數據變換后的結果

表6 最終決策結果

5)從表6可以看出,A3產品的支持度最高,則重點考慮第A3型號產品。

4 結束語

文中建立了多源異構數據融合結構模型,研究了基于三角模糊數的異構數據量化處理方法,基于OWA算子設計了數據融合算法,實際應用證明算法是可行的和有效的。本文的研究為建立智能決策支持系統提供了一種可行的方案,對其他類似的數據處理和融合具有一定的借鑒作用。

[1]Nakamura E R,Loureiro A A F,Frery A C.Information fusion for wireless sensor networks:Methods,models and classifications[J].ACM Computer SURV,2007,39(A9):1-55.

[2]李文闖,章永平,潘瑜春.移動地理信息系統中的多源異構數據融合模型[J].計算機應用,2012,32(9):2672-2678.

[3]凌云.基于物聯網的異構傳感數據融合方法研究[J].計算機仿真,2011,28(11):138-140.

[4]胡永利,樸星霖,孫艷豐,等.多源異構感知數據融合方法及其在目標定位跟蹤中的應用[J].中國科學,2013,43(10): 1288-1306.

[5]徐田華,楊連報,胡紅利,等.高速鐵路信號系統異構數據融合和智能維護決策[J].西安交通大學學報,2015,49(1): 72-78.

[6]李國清,胡乃聯,陳玉民.數字礦山中多源異構數據融合技術研究[J].中國礦業,2011,20(4):90-93.

[7]WANG Guang-yun,LI Wei-hua,HUA Wen-jian,et al.A method for heterogeneous uncertain information fusion and its application[C].International Conference on Signal Processing Proceedings,2004(3):2253-2256.

[8]俞黎陽,王能,張衛.無線傳感器網絡中基于神經網絡的數據融合模型[J].計算機科學,2008,12(35):43-47.

Research on multi-source heterogeneous data fusion and its application

JIANG Jian-hua1,HONG Nian-song2,ZHANG Guang-yun1
(1.School of Computer Engineering&Technology,Guangdong Institute of Science&Technology,Zhuhai 519090,China;2.College of Information and Communications,Zhejiang Industry&Trade Polytechnic,Wenzhou 325003,China)

As to the multi-source data fusion based multi-user decision,a model of multi-source heterogeneous data fusion was designed.Triangular fuzzy number based uniform quantity description of multi-source data was researched.The ordered weight average(OWA)was used to deal with the preference of decision-maker and a data fusion algorithm for decision making was designed.At last,practical application shows the algorithm can solve the problems of semantic ambiguity,difference and heterogeneity of multi-source heterogeneous data,and the reliability of decision results was improved by considering data maker's preference into the process of data fusion.

multi-source heterogeneous data;data fusion;triangular fuzzy number;ordered weight average

TN01

A

1674-6236(2016)12-0033-04

2015-06-24稿件編號:201506219

姜建華(1978—),男,湖北洪湖人,博士研究生,講師。研究方向:計算機應用技術。

猜你喜歡
數據源異構算子
與由分數階Laplace算子生成的熱半群相關的微分變換算子的有界性
試論同課異構之“同”與“異”
擬微分算子在Hp(ω)上的有界性
Heisenberg群上與Schr?dinger算子相關的Riesz變換在Hardy空間上的有界性
各向異性次Laplace算子和擬p-次Laplace算子的Picone恒等式及其應用
商周刊(2019年1期)2019-01-31
Web 大數據系統數據源選擇*
基于不同網絡數據源的期刊評價研究
異構醇醚在超濃縮洗衣液中的應用探索
LTE異構網技術與組網研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合