?

基于局部加權距離和的多維指標融合計算方法

2019-09-11 05:57首照宇
桂林電子科技大學學報 2019年3期
關鍵詞:賦權不合理權重

曾 情, 首照宇, 趙 暉, 張 彤

(1.桂林電子科技大學 信息與通信學院,廣西 桂林 541004;2.桂林電子科技大學 機電工程學院,廣西 桂林 541004)

理論教學評估體系具有多元評價主體和多維評價指標復雜的特點,建立一個科學有效的評估體系首先需要處理好多元主體和多維指標之間的關系,而評價指標的衡量界限是非常模糊和難以量化的。為了解決理論教學評估中多維指標權重分配的難題,學者們提出了很多指標融合計算的方法,目前常見的主要有AHP法[1]、Dijkstra法[2-4]、粗糙集法[5-8]和信息熵法[9-11]等單一的方法及簡單的融合賦權法[12-19]等。文獻[1]采用AHP建立關于資源分配的層次結構模型,構造資源分配矩陣,從而確定各資源的權重分配系數,但由于構造的矩陣具有較大的主觀性,其判斷結果是粗糙的。文獻[5]基于改進的粗糙集條件信息熵計算各指標的權重,構建了指標體系下的改進的粗糙集-云模型,但所得到的權重只重視不同指標的表現情況,忽視了指標本身重要性的排序,其評價結果往往不太理想。文獻[12]利用模糊數學原理提出了一種新的主客觀賦權方法,采用線性組合法和乘法合成歸一法對新提出的主客觀權重進行融合,但乘法融合賦權具有較強的“倍增效應”,極易導致融合權重大的越大,小的越小。文獻[16]根據評價指標體系,利用G1賦權法和Gini賦權法構造了基于客觀修正主觀的組合賦權方法,確定了評價指標的組合權重。文獻[19]利用云模型、改進層次分析法與熵權法對膨脹土脹縮等級進行評價,根據脹縮性等級分類標準生成每個評價標準的云數字特征,建立各評價因子的云模型,計算指標融合權重值。

以上這些傳統的指標融合計算方法只注重評價指標融合的科學性,而未考慮評價過程中不合理數據的處理。鑒于此,提出一種基于加權距離和的多維指標融合計算方法,使評價指標融合更合理的同時還利用局部加權距離和的思想對評價數據進行清洗過濾,檢測并剔除可能對最終評價結果產生較大影響的不合理數據,將更科學的指標融合權重和更合理的評價數據進行全面融合,使評價結果科學化。

1 相關理論及定義

本研究用AHP確定主觀權重系數,用信息熵確定客觀權重系數,采用離差最大化的思想將主客觀權重系數進行融合,得到多維指標融合權重系數。將指標融合權重系數與經過局部加權距離和處理后的評價數據進行再次融合,輸出最終評價值。

1.1 多維指標融合

1)主觀權重系數獲取方法:AHP。根據評價指標體系的內容,考慮本層次的各個因素對上一層次指標因素的影響程度,利用1~9標度法將同層次的因素進行兩兩比較,構造n階判斷矩陣C,歸一化處理后導出主觀權重系數

2)客觀權重系數獲取方法:信息熵。假設有n個評價指標及m個評價對象,評審專家對指標進行評分,經過規范化得到數據矩陣A=(aij)m×n,若第j項屬性指標下的第i個評價對象指標值權重為

第j項指標的熵值為

則屬性指標j的權重系數

3)主客觀權重融合方法離差最大化。假設有l種具體的賦權方式對n個屬性指標計算權重系數。設第k種賦權方式計算出的權重向量值為

Wk=(w1k,w2k,…,wnk)T,k=1,2,…,l,

其中,

記融合賦權

Wc=(wc1,wc2,…,wcn)T,

令Wc=ψ1W1+ψ2W2+…+ψlWl。其中,ψk≥0,且

令分塊矩陣

Wb=(W1,W2,…,Wl),Φ=(ψ1,ψ2,…,ψl)T,

(1)

若令

為n維行向量,則目標函數J(Wc)可表示為J(Wc)=B1Wc,將J(Wc)記為F(Φ),離差最大化的指標融合賦權即可轉化為最優化問題,記為如下模型:

maxF(Φ)=B1WΦ,ΦTΦ=1,Φ≥0。

(2)

1.2 相關定義

為了更好地描述基于局部加權距離和的數據處理方法,對方法中使用的相關定義概述如下。

(3)

(4)

(5)

其中d(xi,xj)為對象xj到xi的歐氏距離。

定義3消除因子。消除因子用近鄰距離加權和來表示。對于任意自然數k,定義對象Xi的k最近鄰距離加權和為對象xi的k最近鄰距離加權求和,用F(xi)表示,計算方法為

(6)

定義4判決準則。數據對象xi的判決閾值T由其k最近鄰距離加權和F(xi)的均值和標準差來確定,計算方法為

T=δmean(F(xi))+mδstd(F(xi))。

(7)

其中:m為常數;δmean()為均值函數;δstd()為標準差函數。均值反映樣本實例的總體情況,而標準差能反映樣本的偏離程度。當數據對象xi的k最近鄰距離加權和F(xi)>T時,則將其判別為不合理數據對象。

2 基于局部加權距離和的多維指標融合計算模型

基于局部加權距離和的多維指標融合計算模型如圖1所示。評價數據經過DPLWD方法處理,剔除可能對綜合評價產生較大影響的不合理數據對象,然后利用離差最大化將AHP得到的主觀權重與信息熵得到的客觀權重進行指標融合賦權,再將處理后的數據與指標融合權重進行評價過程的融合計算,最后導出最終評價值。

圖1 基于局部加權距離和的多維指標融合計算模型

2.1 DPLWD方法及驗證

2.1.1 DPLWD方法描述

基于局部加權距離和的數據處理(data processing based on local weighted distance,簡稱DPLWD)方法主要實現對數據集中不合理數據對象進行檢測并剔除。其大致過程為:對于從高校評價體系中得到的數據集D,包含N個數據對象,即D={x1,x2,…,xN}。假設每個對象x包含n個屬性。根據初始設置的最近鄰個數k及距離矩陣確定各數據點k最近鄰集合,利用式(3)計算近鄰距離權值w,根據式(5)、(6)對數據集對象加權求和得到消除因子F(xi),通過式(7)計算出判決閾值來判定最終的不合理數據,剔除不合理數據集,并得到最終數據集D′。

DPLWD方法具體流程如偽代碼方法1所示。

方法1基于局部加權距離和的數據處理方法。

輸入:數據集D,最近鄰個數k,閾值調整系數m。

輸出:剔除后數據集D′。

初始化參數k,m

計算得到數據集D的距離矩陣M

for eachxi∈Ddo

根據距離矩陣M,得到數據點xi的k近鄰距離集合Nk(xi)

根據式(3)計算數據點xi到鄰域內其它點的權值向量w

根據式(5)計算數據點xi到鄰域內某點xj的加權距離f(xij)

根據式(6)計算數據點xi的消除因子F(xi)

end for

根據式(7)計算判決閾值T。

for eachxi∈Ddo

ifF(xi)>Cthen

剔除數據點xi

end if

end for

return 剔除后數據集D′

2.1.2 DPLWD方法驗證

1)仿真數據集實驗與分析。

為了驗證該方法可行性,采用可視化的二維和三維數據集進行驗證實驗,驗證結果如圖2、圖3所示。

圖2 二維數據集驗證

圖3 三維數據集驗證

圖2為包含1000個數據點的二維數據集,且有2個密度分布不均勻的簇。圖3為包含860個數據點的三維數據集。

從圖2(b)、圖3(b)可看出,不合理數據對象點已經被圓圈標記出,且在數據集中圓圈的半徑代表了不合理的程度,半徑越大,不合理程度越大,越有可能是不合理數據點。在圖2(a)中數據集有2個密度差異較大的簇,且簇的分布不規則,運用DPLWD方法能將被簇包圍的不合理數據點檢測出,在圖3(b)中的三維數據集中同樣也具有較好的檢測效果。

2)真實數據集實驗與分析。

通過真實數據集實驗來對比驗證DPLWD方法的性能優勢。表1為來自于UCI機器學習庫的13個真實數據集,他們具有不同的規模大小和維度。本實驗環境為Matlab R2016a、Intel CPU 2.5 GHz、內存8 G。DPLWD方法只需確定k最近鄰距離個數,利用人工干預的方法確定最佳的k值,并與經典的LOF方法[22]、ABOD方法[23]和SVM檢測方法[24]在運行時間、精確度和召回率曲線下的面積(area under the precision-recall curve,簡稱AUCPR)等性能指標進行對比,結果如表2、表3所示。

表1 實驗數據集

從表2可看出,DPLWD方法的運行時間明顯少于LOF、ABOD和SVM三種方法的運行時間。在數據集Pima、Skin、Covtype和Record中,它們是低維的數據集對象,且屬于數值型的數據集,相比于LOF、ABOD和SVM方法,DPLWD方法有更大優勢。在大規模數據集Record上,LOF和SVM兩種方法出現了計算NP問題。隨著維度的增加,如Mfeat和Isolet達到數百維時,DPLWD方法同樣能表現出好的效果,且當數據集規模較小時,本方法有明顯優勢,隨著維度的增加,同樣能夠表現出較好的效果。

表2 數據集實驗運行時間 s

表3 精確度-召回率曲線下面積(AUCPR)

表3為各方法得到的AUCPR值,AUCPR值反映了分類的好壞,AUCPR值越大,表明分類結果越好。從表3可看出,在運用DPLWD方法時,有8個數據集的AUCPR值大于其他3種方法,同時該方法的AUCPR均值也大于另外3種方法,表明DPLWD方法具有明顯優勢。

通過實驗驗證了DPLWD方法具有2個特點:1)對于小規模的樣本數據集,DPLWD有著更高的精確度;2)在保證精確度的情況下,DPLWD方法有更短的運行時間。

綜合以上實驗數據分析可知,DPLWD方法更加適用于大規模多維數據集以及密度分布不均勻的空間模型數據集,能有效地剔除不合理數據對象。

3 實例分析

為了分析基于局部加權距離和的多維指標融合計算方法的實際效果,選取某高校理論教學評價指標體系的數據。該評價指標體系包含了多元評價主體校領導、中層干部、督導和同行,每個評價主體都對應著不同的一級評價指標和二級評價指標,如同行對應的一級評價指標為教學態度、教學內容、教學組織和聽課效果,其中每項一級評價指標下還分別對應詳細的二級評價指標。

選取該評價指標體系下某教師一學期的所有被聽課評價數據共412條,校領導、中層干部、督導和同行4個評價主體的評價數據分別為43、89、138、142條。將一條評價數據看作一個四維數據點,通過運行DPLWD方法,檢測出該教師本學期被聽課評價數據中存在13個不合理數據對象,其中,校領導、中層干部、督導和同行4個評價主體的不合理評價數據分別為1、2、4、6條。特別是第223個數據點的4個評價指標評分分別為50、50、60、60分,該評價數據明顯偏離了其他合理數據點。為了避免不合理評價數據對象對融合計算結果產生較大影響,對檢測得到的13條不合理評價數據進行了剔除,以保證評價指標與評價過程融合更加科學合理。

邀請專家擔任測評者,利用AHP構造判斷矩陣確定專家主觀權重,利用信息熵對專家的評分向量進行處理,確定專家客觀權重。將主客觀權重利用離差最大化的思想由式(2)構成最優化模型進行評價指標融合計算,解出最優的多維指標融合賦權向量,其中校領導、中層干部、督導和同行4個評價主體對應的4個一級評價指標的融合權重向量分別為

(0.229,0.332,0.319,0.120)T,

(0.341,0.382,0.154,0.123)T,

(0.077,0.363,0.159,0.401)T,

(0.215,0.221,0.308,0.256)T。

校領導、中層干部、督導和同行4個評價主體的融合權重向量為(0.1,0.2,0.3,0.4)T,將剔除了不合理數據對象的399條理論教學評價數據與多維指標融合權重進行再次融合計算,可得該教師的最終評分為87.822 3分。未剔除不合理評價數據之前該教師的綜合評分為87.309 7分,相比剔除不合理評分數據之后進行融合計算的教師評分低了0.512 6分,一定程度上低估了該教師的教學水平。因此,本方法所獲得的教師綜合評分更加客觀合理,能反映出該教師的真實水平。

4 結束語

提出的基于局部加權距離和的多維指標融合計算方法不僅實現了評價指標融合,還實現了評價指標與評價過程融合,使評價結果更精確科學,且對DPLWD方法在仿真數據集上進行驗證實驗,都能達到預期的數據處理效果。在真實數據集上與經典LOF、ABOD和SVM方法進行對比分析,表明了該方法有較短的運行時間和較好AUCPR值。為快速得出更加合理的融合計算結果,今后將對k值的自適應性進行研究,并在時間復雜度上進行優化,使多維指標融合計算更科學、高效。

猜你喜歡
賦權不合理權重
論鄉村治理的有效賦權——以A縣扶貧項目為例
基于賦權增能的德育評價生態系統的構建
企業數據賦權保護的反思與求解
我院2018年抗生素不合理處方分析
權重常思“浮名輕”
試論新媒體賦權
為黨督政勤履職 代民行權重擔當
基于局部權重k-近質心近鄰算法
向“不合理用藥”宣戰
不合理上訪與信訪體制改革研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合