?

軍事評估中一致性悖論問題研究

2022-11-15 06:31狄繼超張東戈牛彥杰禹明剛
軍事運籌與系統工程 2022年1期
關鍵詞:因變量辛普森匯總

狄繼超 張東戈 牛彥杰 禹明剛

(陸軍工程大學 指揮控制工程學院,江蘇 南京210007)

1 引言

現代軍事決策高度依賴數據,如果數據存在偏差悖論,基于數據的決策就會有系統性偏差。面對各類數量龐大、種類繁多的數據,指揮員與參謀人員習慣使用匯總后的數據來判斷態勢、做出決策。然而實踐發現,在“匯總”數據時,有時會出現數據分類匯總與合并匯總所獲得的結果不一致的現象,這就是辛普森悖論(Simpson's Paradox)。

1951 年Simpson E 發現了這種統計不一致的現象。這一現象具有普遍性,引發了不同領域學者對這一問題的研究興趣。Bickel 等研究了研究生招生中有關性別偏見的辛普森悖論問題[1];王艷軍等研究了軟件質量評估中的辛普森悖論現象[2];Norton 等以實例解釋了為什么會發生辛普森悖論并提出了避免措施[3];Alipourfard 等討論了在二進制因變量數據集中識別辛普森悖論的方法[4];Vilenchik 對社交媒體數據中存在的辛普森悖論進行了研究,并設計了一個統計框架去發現其中存在的問題[5]。在軍事領域目前缺乏對辛普森悖論的相關公開研究文獻。

隨著我軍現代化進程的持續推進,基于數據的各類軍事量化評估、決策越來越普遍,如何發現和處理辛普森悖論,也日益成為提升軍事評估、軍事決策可靠性和有效性的一個突出現實問題。

2 辛普森悖論產生的原因

圖1 用兩型坦克打擊目標的統計圖來說明辛普森悖論產生的原因。橫坐標表示上級安排的打擊目標數,縱坐標表示命中數,每個點對應的向量的斜率就是命中率。兩種坦克分別對一類目標和二類目標進行打擊,如果對一類目標的命中率記為k1,對二類目標的命中率記為k2,總體的命中率記為k。,則有如下計算公式。

圖1 辛普森悖論原因示意圖

對于A 型坦克:

對于B 型坦克:

命中率比較:

由式(3)可以發現,對于一類目標和二類目標,A 型坦克命中率均低于B 型坦克;但計算總命中率時,卻發現A 型坦克命中率高于B 型坦克。這種統計方法只簡單地做數量上的加法,對不同目標類型不加以區分,忽略了命中不同類型目標的難度差異,就容易造成辛普森悖論。

由此可知,就軍事評估和決策問題來說,引發辛普森悖論的因素是存在易被忽略的混雜變量,也就是數據在獲取時,存在隱形的獲取差異,導致不同條件下分組所包含的“難度權重” 信息丟失,最終得到錯誤的結論。

3 辛普森悖論檢測方法

根據辛普森悖論產生的原理,可以通過檢測變量在“匯總數據”中和“分組數據”中的趨勢變化是否一致來判斷是否存在悖論。

趨勢對比檢測法(Trend Contrast Detection,TCD)具體可以分為三步。①在混雜變量上將數據分解成同質性更好的子組。②采用線性擬合刻畫自變量和因變量之間的相關變化趨勢。③通過對比匯總數據中的趨勢與子組數據中的趨勢是否一致來判斷悖論是否存在。

3.1 基于差異分組法的數據分組

數據分組面臨的最重要的問題是分組之間的界限確定。對于定性性質的數列,例如坦克命中率對比評估,組限的確定比較簡單,只需要將打擊目標按照難易進行分組。在復雜戰場環境下,組限的確定可能會比較復雜,如射擊若按能見度、機動速度等設界,就會沒有明確的組限分割標準,此時就需要通過分析數組中數據的值來確定分組。

3.1.1 確定分組目標

假如評估目標是統計分析因變量y隨自變量x變化的變化趨勢。采集數據樣本總量為n組,x的數值集合X ={x1,x2,…,xn},y的數值集合Y ={y1,y2,…,yn}。數據統計中存在著混雜變量xc的干擾,xc的數值集合為XC ={xc1,xc2,…,xcn},混雜變量xc的值域[min(xc),max(xc)]。

根據混雜變量分區,分組內容見表1。分割混雜變量值域將數據共分成m個子組,每組依次表示為b1,b2,…,bm。在分組中p為劃分后的混雜變量的分區,它是一個混雜變量的值域空間,依次表示為p1,p2,…,pm。設sh(h =1,2,…,m -1)為各分區之間的組界,sh∈XC。ni(i =1,2,…,m)為第i個子組中的數據樣本量,xcij,xij和yij分別為第i個子組中第j(j =1,2,…,ni)個混雜變量、自變量和因變量的數值。

表1 根據混雜變量分組后的數據統計表

分組時需要考慮兩個方面的平衡:第一,每個子組都應該具有盡可能好的“同質性”,即各子組中的數據彼此之間比其他子組中的數據更“相似”。第二,有數量適當的數據點,數量過少的子組會缺乏顯著性,而數量過多的子組對于穩健趨勢判斷來說可能太不均勻。分組的目標是期望“組內差異最小化,各組之間差異最大化”,最大限度地在子組內剔除混雜變量的干擾。

3.1.2 差異分組

采用差異分組法對匯總數據進行分組,通過在混雜變量上尋找最佳分割點s,將匯總數據分割成兩個滿足組間差異最大化、組內差異最小化要求的分區,通過遞次迭代的方法,進一步尋找兩個分區的最佳分割點對分區進行分組,逐步將原來的匯總數據分割成滿足需要的子組集合。

衡量差異需要區分“組間差異” 和“組內差異”,此時可以引入總偏差平方和TSS(Total Sum of Square)來描述因變量y的差異變化,其計算公式為:

式(4)中,yi是因變量y的第i個數據值,是所有因變量y數據值的平均值。

對于混雜變量xc,可以通過拆分總平方和來量化因變量y的差異變化,總平方和=組間平方和+組內平方和。即:

式(5)中,b是匯總數據根據混雜變量分解后的子組,nb是子組b中的數據點數量,ybi是子組b中的第i個數據點,是該子組中數據值的平均值。

為了衡量組間數據差異性大小,可以定義一個組間差異系數R。組間差異系數R是分組平方和與總平方和的比例,R的大小反映了組間數據差異性的大小。

對于混雜變量xc,R取值在0~1 之間,R越大表示組間差異越大,同時組內差異越小。

對于表2 所示的匯總數據,混雜變量xc的域可以由其中某個值s分成兩個分區p1和p2:[min(xc),s] 和(s,max(xc)],同時對應的匯總數據可以分成子組b1和b2,其組間差異系數為:

簡化可得:

式(7)中,nb1是子組b1中數據點的數量,nb2是子組b2中數據點的數量。由此,在s的所有可能值中,可以選擇最大化R的值s0作為混雜變量域的最佳分割點。對于分組后的子組b1,b2,采用同樣的分解方法,進一步選擇最佳分割點s1,s2來迭代分解數據。通過這種迭代,分割混雜變量的值域,形成m個子組。理論上這個過程可以持續進行下去,直到混雜變量被分割成由單個點組成的子組。

3.1.3 避免過度分割

為了防止過度分割,可以進行某種約束,例如,設定子組中數據點一旦小于某個設定值w就不再進行分割。為方便數據統計與計算,可設定:

若數據總量n≥1000 時,;否則w=10。

3.2 趨勢擬合

為對比數據在匯總中和分組中的趨勢,采用線性模型來量化x與y之間的關系。線性模型計算上較為簡單,在數據量不大的情況下,工程上誤差可以接受。最小二乘法基本的線性回歸方法如下。

將自變量x與因變量y的數值對應的n個點記作(xi,yi),i =1,2,…,n,待確定的直線方程記作y =α+βx,誤差記作E。由此:

根據擬合出的直線的斜率β的正負值,判斷因變量y隨自變量x是遞增趨勢或遞減趨勢。為便于對比,我們采用符號函數sgn 來量化β的正負值,即β =0 時,sgn(β)=0;β >0 時,sgn(β)=1;β <0 時,sgn(β)=-1。

3.3 趨勢對比

趨勢對比就是將各子組中的變量變化趨勢分別與匯總情況下趨勢進行對比。將sgn(β1),sgn(β2),…,sgn(βt)分別與sgn(β)進行比對,不同子組的個數記為v,若v≥m/2,則視為子組內趨勢與匯總時趨勢不同,判斷其為存在悖論。

3.4 趨勢對比檢測法算法流程

趨勢對比檢測法(TCD)算法流程示意圖如圖2 所示,步驟如下。

圖2 趨勢對比檢測法算法流程示意圖

步驟1:輸入數據,n個數組,包含混雜變量xc、自變量x和因變量y。

步驟2:在混雜變量上通過差異分組法進行數據分組。將匯總數據共分成m個子組。

步驟3:基于最小二乘法擬合匯總數據中因變量y隨自變量x變化的相關趨勢,得出斜率β,進而得出sgn(β)。

步驟4:基于最小二乘法擬合各子組中y與x的關系,得出斜率β1,β2,…,βm的值,求出sgn(β1),sgn(β2),…,sgn(βm)。

步驟5:進行趨勢對比,判斷是否存在悖論。

4 示例檢驗

分析部隊兵齡層次與實彈射擊成績之間的關系。將兵齡由短到長分為1~3 檔,射擊環境能見度由低到高賦值0~4,射擊成績滿分為100 分,數據見表2。簡單統計似乎新兵比老兵成績好。然而由于數據采集時環境能見度不同,需要檢測能見度是否對分析結果造成影響。

表2 不同兵齡層次射擊成績統計表

續表2

步驟1:輸入數據,n =30,兵齡層次數值即為自變量x,射擊成績即為因變量y,能見度為混雜變量xc。

步驟2:通過劃分能見度的區間來分解數據。運用差異分組法將混雜變量的域分成4 個分區,pxc1=[0.2,0.9],pxc2=(0.9,1.6],pxc3=(1.6,2.7],pxc4=(2.7,4],然后將匯總數據按照混雜變量分區分成4 個子組。

步驟3:擬合匯總數據中射擊成績隨兵齡變化趨勢?;谧钚《朔〝M合得到線性方程為:y =-3.45x +84.233,其中β =-3.45<0,sgn(β)= -1。

如圖3 所示,匯總數據中射擊成績隨兵齡增長而降低,呈遞減趨勢。

圖3 匯總數據中兵齡層次與射擊成績關系示意圖

步驟4:在各子組中線性擬合x與y的關系,得到方程如下。

子組1:xc∈[0.2,0.9]時,線性方程為y1=4.5x1+45.5,其中β1>0,sgn(β1)=1;

子組2:xc∈(0.9,1.6]時,線性方程為y2=11.375x2+44,其中β2>0,sgn(β2)=1;

子組3:xc∈(1.6,2.7]時,線性方程為y3=4.357x3+75.357,其中β3>0,sgn(β3)=1;

子組4:x c∈(2.7,4]時,線性方程為y4=1.153x4+90.75,其中β4>0,sgn(β4)=1。

各子組趨勢圖如圖4 所示。

圖4 不同子組中兵齡層次與射擊成績關系示意圖

步驟5:對比圖4 中不同子組所擬合出的直線和圖3 中匯總數據所擬合出的直線的變化趨勢,即將sgn(β1),sgn(β2),sgn(β3),sgn(β4)分別與sgn(β)進行對比,發現在匯總數據中,因變量y隨自變量x增加呈遞減趨勢,而在各子組數據中均呈遞增趨勢。由此表明,匯總數據的自變量和因變量的變化趨勢在子組中均被逆轉,這表明混雜變量能見度對研究兵齡層次與射擊成績相關性時存在干擾,判定此數據統計分析存在辛普森悖論。在這一組數據中,如果采用不同的統計方式分析數據,就會出現不一致的結論。

5 避免辛普森悖論的幾點建議

隨著基于數據的研究和決策日益增多,軍事領域評估對象日趨復雜,多指標綜合評估時容易忽略隱形混雜變量,為避免出現辛普森悖論,提出三點建議。

5.1 數據搜集時充分考慮環境類別覆蓋面

在軍事評估數據采集時,需要選擇熟悉業務的人員參與,以專業的眼光確定評估對象需要的樣本數量和環境的多樣性。面對不同的對象、不同的應用背景,會有不同的側重,這就需要充分考慮所處的背景環境。在原始數據采集中,環境變量的類別要記錄得足夠充分,確保環境類別的覆蓋面充分。

5.2 數據分析時要注意均衡變量影響

在定量分析階段,需要時刻考慮每一個因素的權重,考慮各因素隨環境條件變化而受到的不同影響,不應該簡單地數量相加。在多指標評價體系中,由于各評價指標的性質不同,通常具有不同的量綱和數量級。當各指標間的影響水平相差很大時,如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用,導致辛普森悖論的出現。因此,為了保證結果的可靠性,要盡可能地對原始指標數據進行標準化處理,以均衡各指標變量對最終結果的影響。

5.3 綜合評估時要考慮過程性影響

在分層級的評估中,混雜變量的影響可能會由下層向上層傳導。例如一項選拔由體檢和后續考核組成,如果體檢采取一票否決制,先檢查身高再檢查視力,和先檢查視力再檢查身高相比,所篩選出的對象可能會不同。在第一輪考核合格的基礎上進行下一輪考核,其數據就不能有效反映第一輪體檢中混雜變量的影響。在樣本差異較大的情況下,這一問題會非常突出。因此在對數據進行綜合分析評判時,特別需要考慮評價程序對結果的影響。

6 結束語

本文通過對數據統計中的辛普森悖論的分析,提出了趨勢對比檢測法,用于檢測數據中的混雜變量導致的結論偏差。文中提出的趨勢對比檢測法適用于單個混雜變量,尚不能檢測多個混雜變量,多混雜變量影響檢測是下一步要研究的問題。

猜你喜歡
因變量辛普森匯總
調整有限因變量混合模型在藥物經濟學健康效用量表映射中的運用
感謝批評你的人
源流2020年目錄匯總
近兩年來國務院及相關部門出臺的促進消費政策匯總
2013—2017年市人大常委會執法檢查項目匯總
偏最小二乘回歸方法
談談如何講解多元復合函數的求導法則
精心設計課堂 走進學生胸膛
交變電流基本知識匯總
賽跑
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合