?

基于評估過程數據的指標體系優度評價方法

2022-11-15 06:31劉彬薛奇劉同張憲

軍事運籌與系統工程 2022年1期

關鍵詞：清晰度效度權重

劉彬薛奇劉同張憲

（軍事科學院戰略評估咨詢中心，北京100091）

1 引言

開展評估工作是督導任務開展、推進落地見效、促進管理水平提升的重要手段。高質量指標體系是開展高質量評估工作的基本條件。當前，針對各類對象建立的指標體系五花八門，各具特點，構成了龐大的“評估指標庫”。若有一套定量評價指標體系，可以幫助評估工作者從“評估指標庫”中遴選出質量較高的指標體系，將大大提升評估工作的效率。而探索構建這套指標體系，開展“對評估工作的再評估”，則是推動指標體系構建走向標準化、規范化的一個重要手段。

已有眾多研究者對指標體系的規范化設計開展過學術研究。就設計原則來看，李遠遠等認為綜合評價指標體系的構建要遵循目的性、全面性、可行性、穩定性、協調性和結合性等原則［1，2］。蘇為華、邱東等則認為在對指標體系考察時，可以從齊備性、協調性、可行性、準確性、區分度（辨識度）、冗余度（重疊度）等方面進行考量［3～5］。德魯克在《管理的實踐》一書中提出目標管理要遵循SMART原則，即準確性（Specific）、可度量性（Measurable）、可實現性（Attainable）、相關性（Relevant）和時限性（Time-bound）［6］。由此可知，目的性、全面性、可行性、準確性和協調性是目前學界普遍認可的指標體系設計原則。在“對評估工作的再評估”實踐應用方面，國內開展得還不多，近年來主要集中在教育評估和政府績效評估領域。王云峰等對河北省重點學科評估的元評估進行了實證研究［7］；嚴芳對教育元評估的理論和方法做了有益的探索［8］；王穎等設計了學校辦學質量元評估量表，并對17份省級基礎教育階段學校辦學質量的評估方案進行了評定［9］；徐夢佳等針對2018 年開展的本科審核評估，采用元評估的方法分析了審核評估的優點與不足［10］。在政府績效評估領域，盛明科等用元評估的方法分析了政府績效評估指標體系效度的評價方法［11］；吳建南等針對元評估框架、指標和方法等進行了建設性的討論［12］；周碧華等對福建某縣級市的政府績效考核進行了元評估分析［13］；黃健新等對公務員考核開展了元評估，驗證了開展元評估對提升公務員考核的必要性［14］。

從已有研究看，針對指標體系的“再評價”研究并不多，且容易陷入“自說自話，自我證明”的困境之中?！霸僭u價”的基本邏輯是：為了評價原指標體系構建一套“再評價”指標體系，借助Delphi專家評議求得指標的“質量”得分，再拿評分來證明這套“再評價”指標體系可用，其操作過程基本與原評估工作割裂，給出的優化意見也偏于表面。從各種評估實踐中可以看到，評估產生的偏差并不局限于數理統計，指標內涵不清晰、評價模型過于復雜等因素都是造成評估偏差的原因。因此，本文著眼于將可以表征指標體系“優劣”的過程信息納入優度評價過程，并借鑒數理統計中的“優度評價”概念，給出了一套定性定量相結合，但以定量為主的指標體系“質量”評價方法。

2 指標體系優度評價方法

2.1 相關概念內涵

指標體系優度評價是以指標體系為對象開展的一種綜合評估活動，其目的是衡量指標體系的“質量”，即對其預期評價目標的實現程度。優度評價的輸入為被評指標體系及其使用過程中產生的數據信息、優度評價的專家意見，輸出為代表指標體系“質量”的優度評價結果。通過優度評價，發現已有指標體系在指標設計和數據統計方面可能存在的風險偏差，給出調整建議，進而實現對原指標體系的優化。

借鑒數理統計中“優度”概念，指標體系優度包括信度（Reliability）和效度（Validity）兩部分內容。指標體系信度是指指標數值統計結果的可靠性程度，主要依托客觀數據；指標體系效度是指評估指標在多大程度上描述了評估對象的特征并反映了評估目的，反映的是用評估指標描述評估對象客觀要素的準確程度。指標效度的評定主要依托專家，通過主觀經驗判斷指標與所需測量的內容之間關系的密切程度［5］。

評估過程數據是指在評估過程中，從每個正在執行的活動中收集到的原始測量值。例如各被評單位自評活動的開始和結束日期，與評估方溝通對接的次數，提交材料中存在的缺陷數量、數據修正的次數及最終形成評估報告的時間等。在整個評估工作中可以收集到大量這樣的數據，這些數據需要結合評估任務進行分析、匯總和轉化，才能成為反映原指標體系是否“可用、好用”的信息。

2.2 指標體系構建

在文獻研究基礎上，按照二維交叉的方式構建指標全集，具體見表1。表中橫向為優度評價的原則維度，縱向為優度評價的內容維度。

表1 交叉法構建的初始指標全集

（1）指標體系目標貼合度，即原指標體系達到既定評價目的和評價要求的程度，為信度和效度綜合評價指標。信度評價方面，利用原指標體系針對評價目的設定的相關指標權重進行評價，權重分配越針對評價目的，貼合度越好；效度評價方面，可通過對專家評議結果進行數據化處理得到的平均值及聚合度來描述貼合度，取值越高，貼合度越好。

（2）評價要素覆蓋度，即原指標體系選取的評價要素占評價要素要求的比例，為信度和效度綜合評價指標。根據評估目的和要求，評估對象會被定性分解為可評價的要素全集，而原指標體系對應的要素集，則是結合實際情況（如時間限制、人員限制、統計方式、技術手段等）從要素全集中選取的要素子集，該指標通過計算要素子集中的要素個數占要素全集的百分比，定量衡量指標體系的覆蓋度。

（3）指標內涵清晰度，即指標內涵明確具體的程度，為信度和效度綜合評價指標，利用評估過程中一些關鍵統計數據的出錯率或反復修改次數進行定量計算，超過一定閾值，則認為指標內涵清晰度差。

（4）指標數據可測度，即指標體系底層定量指標占比，為信度評價指標。盡管定性指標對指標體系評價效度的作用不可忽視，但在當前指標設計尚缺標準規范的情況下，應保證指標體系有較高的指標數據可測度。

（5）指標間獨立度，即指標間信息重疊的程度，為信度和效度綜合評價指標。評價要素重復越多，指標體系的重復率越高，獨立度越低。

（6）指標體系穩定性，即不同專家在使用指標體系進行評價時意見的聚合程度，為信度評價指標。聚合程度越高，該指標體系的穩定性越高。

（7）指標賦權合理度，是指標體系中被賦予合理權重的指標個數占比，為信度和效度綜合評價指標。效度評價需要依靠優度評審專家意見。

（8）指標數據可靠度，即體系底層數據來源可證實的指標個數占同級指標總數的百分比，為信度評價指標。該指標強調指標數據有權威或有第三方說明材料輔助證明，保證指標體系有可靠的基礎。

（9）指標使用滿意度，實際上是對評估委托方的滿意度調查，為效度評價指標。

2.3 指標建模

2.3.1 指標體系目標貼合度A1

針對給定評估目標或重點關注的評估對象（要素），指標體系目標貼合度包括權重貼合度和評價貼合度2 項子指標。權重貼合度的計算基于原指標體系相關指標的權重設置，為信度指標；評價貼合度則基于專家意見的統計均值和離散度，為效度指標。

設原評估任務可分解為G項子目標，對其中的第g個子目標的貼合度bg可表示為：

式（1）中，Ug為原指標體系中與該項子目標的相關指標權重之和（這里的“相關” 主要指兩類：一是“有無相關”，二是“趨勢相關”），qg為原指標體系對第g個子目標的貼合度自適應權重，表達式為：

引入貼合度自適應權重可以同時處理以下兩類問題：若某項評估任務子目標同原指標體系中的某項評估指標對應，且該指標相對于其他指標完全獨立，則其自適應權重為1，貼合度即為指標權重；若原指標體系中有多項指標指向同一評估任務目標，且彼此間不完全獨立，則須結合自適應權重求解。

對各項子目標的權重貼合度計算完成后，可知指標體系的權重貼合度為：

評價貼合度是從效度的維度，對目標貼合度的評價意見均值、聚合度進行求解。與文獻［15］采用協調度評價相比，本文直接采用期望和方差處理，其數學含義更明確，數據實際意義更直觀。若原指標體系中有N個指標，請P個專家對指標體系目標貼合度進行評議，并將評價意見分為J檔，則P個專家對第i個指標與體系評估目標貼近程度的期望值為：

式（3）中，sij表示第i個指標第j檔貼合度的評分值；pij表示將第i個指標評為第j檔貼合度的專家人數。

評價意見的聚合度能夠反映出專家對貼合程度意見是否統一。聚合度越高，說明專家評價的意見越統一，評價期望越可信?；趯＜乙庖姅祿?，借鑒標準差的形式來描述聚合度的大小，對第i項指標的評價意見聚合度可表示為：

式（4）中，sip為第p個專家對第i個指標的評分值。一般地，若，表明意見聚合度較高。指標體系的評價貼合度可表述為：

式（5）中，Wi為該指標占指標體系權重。對權重貼合度、評價貼合度分別賦權，且，可得指標體系目標貼合度的計算模型為：

2.3.2 評價要素覆蓋度A2

指標體系的評價要素覆蓋度是衡量指標體系全面性的重要指標［16］?；谠u價目標分解出由M個評價要素形成的集合E ＝｛E1，E2，…，EM｝，由指標體系反映出的要素集為K個評價要素形成的集合E＇＝｛E＇1，E＇2，…，E＇K｝。若K ＝M，且指標不重復，表明指標體系對評價要素實現全覆蓋。

若各評價要素的重要性相同，則評價要素覆蓋率的計算公式為：

若各評價要素的重要性不同，則可以為各評價要素設定相應的權重，按照指標集反映的要素權重之和占比求解。

通常情況下，由于評估對象的內涵和外延會隨認識的深入、外界環境的變化有所調整，因此評價要素全集很難獲得，也可考慮采用負面清單式評分，按遺漏重要要素、多項一般要素、個別一般要素等劃分評分標準。

2.3.3 指標內涵清晰度A3

指標內涵清晰度同樣采用客觀數據和主觀經驗相結合的方式進行評價。一方面，該指標評分以審核發現的數據錯誤率為依據，對指標內涵的清晰度進行界定。若單項指標統計數據錯誤率超過一定閾值則認為內涵清晰度存在問題，其計算模型為：

式（8）中，Wi為該指標占原指標體系權重，ei為該項指標統計出錯次數，為該指標的樣本數。

另一方面，對單個指標的內涵清晰度劃分為“清晰”“一般”“模糊”三個等級，并分別賦值1，0.6，0.2（階梯劃分和賦值均可按照實際情況調整）。借鑒式（3）得出單個指標及整個指標體系清晰度的效度評價值

2.3.4 指標數據可測度A4

設原指標體系中指標總數為N，可量化的指標個數為Ca，則指標可測度可表示為：

2.3.5 指標間獨立度A5

指標間獨立度可以用指標體系重復率的倒數來度量。用Tm表示評價要素集的第m個評價要素被涉及的次數，則評價要素集重復的次數集為T ＝｛T1，T2…，TM｝。

若各評價要素的重要程度相同，則指標體系獨立度為：

若各評價要素的重要程度不同，評價要素集對應的權重集為W＇＝｛W＇1，W＇2，…，W＇M｝，則指標體系重復率為：

由式（13）可知A5≤1；若A5＝1，則各指標不存在重疊或交叉；A5越小，各指標重疊交叉現象越嚴重。因此，根據較少重疊性原則，A5取值應盡可能接近1。

2.3.6 指標體系穩定性A6

假設存在一組數據可以反映被評價對象的真實水平，那么不同參評者的評價結果與這組數據越“相似”，則可以認為指標的穩定性越好。通常情況下，這組真實數據無法獲得，在操作中通常選取所有參評方測評結果的平均值，或個別具有代表性參評方的結果作為“相對真實值”。

設評審專家數量為P，第p名專家的測評分為將專家測評的平均分數組作為理想數據組，其中xi為：

計算每一個參評專家的測評分與該理想數據組的差異程度ρp：

最后，對P個參評專家的測評分差異程度求平均，可得指標體系的穩定性系數A6為：

A6越大，表明采用該指標體系得出的數據差異性越小，其穩定性越高；反之，A6越小，指標體系的穩定性就越差。

2.3.7 指標賦權合理度A7

指標賦權合理度結合專家評議的方式開展。設指標總個數為N，專家個數為P，認為存在指標賦權不合理的專家意見數為L，則指標賦權合理度為：

另外需要注意的是，提出一項指標賦權不合理則意味著其他指標權重須做出相應調整，此處須留好專家意見作為后續權重調整的依據。

2.3.8 指標數據可靠度A8

指標可靠度的度量有兩種方式。當既有數據可以被權威部門溯源時，可靠度為：

式（18）中，可溯源指標數為R，相應指標權重為Wi。

若指標數據無法被權威部門溯源，則須借助專家打分法。對可靠度進行分級并設置相應分值，由專家對指標數據的可靠度進行評定。一般來說，有定量數據支撐的指標更可靠，具體指標的結果比綜合指標結果更可靠。

借鑒式（3）得出單個指標可靠度的評價值，則指標體系可靠度為：

2.3.9 指標使用滿意度A9

由委托方和參評方進行評分，分別針對指標數據統計渠道是否通暢、評估模型（含評分標準）是否合理、特殊情況是否被考慮三個方面進行評價。設委托方及參評方個數為S，第s個參評人對第i個指標的滿意度為uis，則評價模型為：

2.4 指標集成

根據前面分析的評價內容，建立指標體系“優度” 評價的目標函數Zsup：

式（21）中，Ai為各指標評價結果，wi為體系優度評價模型中各指標的權重，其值根據具體要求設定。需要強調的是，一級指標的5 個維度必不可少，9 項指標中指標體系目標貼合度、評價要素覆蓋度、指標內涵清晰度、指標數據可測度、指標賦權合理度和指標使用滿意程度6 項指標為主功能指標，建議采用相對較大權重。

3 案例研究

假設某集團對其下屬的10 家產品研制單位開展年度計劃及規劃任務執行情況評估，指標體系見表2。項目立項率、經費下達率及到賬率為集團現階段主要關注點，“競爭擇優率” 和“優勢民企配套率” 兩項指標為政策指導性指標。

表2 年度研制計劃執行情況評估指標體系

按照優度評價專家意見，對各優度評價指標分別賦權為：0.20，0.10，0.15，0.1，0.05，0，0.1，0.15，0.15。由于案例為各單位組織的自評估，評估對象差異較大，其結果的聚合度沒有實際價值，因此指標體系穩定性A6權重設為0。

3.1 計算指標體系目標貼合度A1

權重貼合度的計算：在被評指標體系中，規劃任務累計立項率B1和年度新上項目立項率B5這2 項指標與立項率直接相關，且立項率低會明顯影響當年的任務執行和經費規模，使得B6～B9指標得分偏低；B10～B12指標的設置主要針對新上項目，也會受立項率影響，由此得到與立項率相關的權重總值為0.10+0.13+0.12+0.11+0.13+0.08+0.05+0.05+0.03＝0.80；與經費下達率直接相關的指標為計劃經費下達率B7，受其影響明顯的指標為B8～B12，其相關權重總值為0.11+0.13+0.08+0.05+0.05+0.03＝0.45；與經費到賬直接相關的指標為計劃經費到賬率B8，受其影響明顯的指標為B9～B12，其相關權重總值為0.13+0.08+0.05+0.05+0.03＝0.34。將上述計算值代入式（2），可得

表3 評價貼合度計算過程數據

表3 評價貼合度計算過程數據

3.2 計算評價要素覆蓋度A2

結合評估目標，將計劃管理要素分為｛規劃、計劃、項目、合同、經費、風險、質量｝7 項，“規劃”“計劃” 分別對應一級指標下內容，“項目”“合同”“經費” 則由執行環節的指標反映?！帮L險” 由風險可控度指標反映?！百|量” 則由競爭擇優率、自主研發比例和優勢民企配套率反映。綜上，原指標體系反映的評價要素實現全覆蓋，因此A2＝100%。

3.3 計算指標內涵清晰度A3

信度評價：對10 家被評單位在自評報告中出現錯誤評分的次數進行統計，并認為出現1 次錯誤為偶然錯誤，最終發現有7項指標存在2次或2次以上錯誤，見表4。由式（9）可知指標內涵清晰度為81.6%。

表4 各被評單位自評報告中出現錯誤評分的次數

效度評價：請5 位專家對12 個指標的清晰度進行評價，過程數據見表5，可知B2＝0.877。

表5 指標內涵清晰度效度評價過程數據

3.4 計算指標數據可測度A4

被評指標體系中12 項指標均被量化，且各單位均可按要求上報量化數據，可知指標可測度A4為100%。

3.5 計算指標間獨立度A5

分別對評價要素｛規劃、計劃、項目、合同、經費、風險、質量｝進行統計，過程數據見表6，可得A5＝26.8%。

表6 指標內涵清晰度效度評價過程數據

從該指標的結果可以看出，本套指標體系的指標間獨立性不強，其主要原因是評價要素存在管理邏輯上的強關聯，規劃執行情況為計劃執行的累計，計劃執行的內容反映在項目和經費兩個途徑，項目又是通過合同開展實施，經費不到位勢必影響項目執行的風險與質量。指標間獨立度也體現出，實際評估的對象是一個系統和復雜整體，體現出很強的關聯性。

3.6 計算指標賦權合理度A7

將合理度分為“可靠”“一般”“不可靠”3 個等級，對應評分為1，0.6，0.2。評估后請5 位專家對指標賦權的合理程度進行評議，結果為無調整意見，圖1 給出了原指標體系權重與指標評價貼合度的計算結果，曲線形態基本一致，可知賦權合理度A7為100%。

圖1 原指標體系權重與指標評價貼合度的計算結果比較

3.7 指標可靠度A8

從統計數據看，項目管理機構掌握的數據有項目立項、經費的下達和到賬情況，可與被評單位數據對表，可靠度較高。但項目過程管理的相關指標，如競爭擇優率、自主研發比例及優勢民企配套率的統計數據均由被評單位上報，項目管理機構并不掌握實際情況，沒有形成數據驗證的閉環，因此無法驗證。結合式（18），B5＝（1-0.05-0.05-0.03）×100%，則指標體系的數據可靠度為87%。

3.8 指標使用滿意度A9

案例中設定的滿意度評價標準為：若評估渠道、模型合理性、特殊情況被限定三方面均達到要求，評分ui為1；若有一方面未達到要求，評分ui為0.8；有兩方面未達到要求，評分ui為0.3；均達不到要求，評分ui為0。10 位被評方代表和1 位委托方代表分別對原指標體系的使用滿意度打分，規劃任務完成率B2、規劃任務風險可控度B4、計劃任務完成率B6、競爭擇優率B10、優勢民企配套率B12等5項指標的滿意度不高，綜合專家意見打分，得出A9＝74.14%。

3.9 改進建議

綜上，結合各指標權重可得原指標體系綜合優度得分為82.88，指標體系優度良好，但仍存在問題，依據評分情況提出如下建議。

（1）明確個別指標內涵邊界。計劃經費到賬率B8、競爭擇優率B10、優勢民企配套率B12等3 項指標存在明顯內涵清晰度問題，其指標模型還須深化研究。

（2）統一評分邏輯。個別計算模型與常規評分邏輯不符，如規劃任務風險可控度B4的評分模型與得分為負相關，即計算結果越小，指標評分越高，與其他指標正相關的評價邏輯明顯不一致，多個參評單位本項指標計算出錯。

（3）評分標準需要區別。指標滿意度顯示，個別指標的滿分標準不應設定為100%，尤其對于顯示競爭擇優和優勢民企配套情況的B10，B12兩個指標，須結合產品的特殊性重新制定更為合理的評分標準。

4 主要結論

本文給出了一套考慮因素較全、評價模型較豐富的指標體系優度綜合評價方法，并給出了指標體系目標貼合度和指標內涵清晰度的定量評價模型，案例研究表明，提出的優度評價指標體系具有較好的可行性。此外，指標體系目標貼合度計算模型是一種獨特的標簽算法，具有可按特定評價目標，對不同指標體系進行模塊化選用的潛在應用價值。

猜你喜歡

清晰度效度權重

新入職護士工作價值觀、未來工作自我清晰度與心理彈性研究

醫院管理論壇(2022年8期)2022-10-14

權重望寡：如何化解低地位領導的補償性辱虐管理行為？*

心理學報(2022年5期)2022-05-16

影響攝影圖像清晰度的因素

科學與生活(2021年16期)2021-11-25

權重常思“浮名輕”

當代陜西(2020年17期)2020-10-28

為黨督政勤履職代民行權重擔當

人大建設(2018年5期)2018-08-16

權重漲個股跌持有白馬藍籌

證券市場紅周刊(2018年3期)2018-05-14

談高效課堂下效度的提升策略

課程教育研究·學法教法研究(2017年17期)2017-11-18

巧用模型法提高科學課堂教學的效度

知識文庫(2017年9期)2017-10-20

你與高分的距離，只差一個“清晰度”

求學·素材版(2016年12期)2017-01-03

大學生積極自我量表初步編制

青春歲月(2016年20期)2016-12-21

軍事運籌與系統工程2022年1期

軍事運籌與系統工程的其它文章: 期刊更名啟事; 軍事評估中一致性悖論問題研究; 面向評估可信性的概率化元評估模型; 現代化戰略指揮體系評估框架研究; 全域作戰概念研究與機理驗證; 作戰任務規劃要素的圖譜化表示方法

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合