?

面向貝葉斯方法的作戰試驗樣本量估算研究*

2022-04-27 09:04廖學軍白洪波
火力與指揮控制 2022年3期
關鍵詞:樣本量貝葉斯概率

薄 云,廖學軍,白洪波,白 宇

(1.航天工程大學研究生院,北京 101416;2.中國白城兵器試驗中心,吉林 白城 137001;3.航天工程大學航天保障系,北京 102206;4.國防大學聯合勤務學院,北京 100039)

0 引言

貝葉斯方法作為一套重要的數據分析與決策支持框架,以知識更新的方式,融合了多種來源的信息,不僅利于減少試驗的樣本需求量,而且它的推理過程和推理結果比數理統計具有更加明確的概率含義,既便于理解,也便于推廣應用。但貝葉斯方法需要計算非常復雜的數學期望,因此,在計算機普及之前,它的應用通常只限于基于共軛分布的有限范圍。這也是自它創立以來,少有武器裝備試驗鑒定相關實踐的原因。

作戰試驗是我軍武器裝備試驗鑒定體制機制改革引入的新型試驗。通過組織作戰人員在模擬實戰條件下“試用”被試武器裝備,判斷該武器裝備對于既定作戰任務的完成程度和適用程度,進而輔助決策是否應當大批量采購該武器裝備,表現出高度實戰化的特征。這一方面保證了作戰和裝備管理部門可以在和平環境下,以理性的方式遴選出最適用于戰場的武器裝備,另一方面也使得作戰試驗的組織過程耗資巨大、組織艱難且具有很高的危險性。因此,以盡可能少的試驗次數,獲取足夠的輔助決策數據,即科學估算樣本量,是作戰試驗策劃中的重中之重。

考慮到貝葉斯方法在數據分析和決策支持方面的優勢,且隨著計算手段的不斷豐富,尤其是各類馬爾科夫鏈蒙特卡羅方法的引入,為貝葉斯方法在試驗鑒定領域的廣泛應用提供了可能,我軍后續的作戰試驗也勢必會增大相關應用比重,而當前的相關研究主要集中于貝葉斯方法的基本原理和應用框架的論述,比較缺乏樣本量估算方面的研究,因此,本文分析了貝葉斯方法在作戰試驗中的兩種主要應用模式,其次探討了作戰試驗樣本量估算的基本準則,接著根據準則分別給出了兩種應用模式下的樣本量估算方法步驟,最后通過算例展示了這些樣本量估算方法的有效性和可拓展性,從而可為我軍后續相關實踐提供良好參考。

1 作戰試驗中的貝葉斯方法

截止目前,試驗鑒定所依據的各類經典數理統計方法基本上都可以在貝葉斯方法中找到對應版本,而且在諸如可靠性這樣需要融合多源信息的應用場合中,貝葉斯方法的解決方案通常要優于經典數理統計。所以,本節參照經典數理統計在作戰試驗中的應用情況,概述未來貝葉斯方法在作戰試驗中的可能應用模式,并概述相應的處理過程。

1.1 兩種應用模式

當前作戰試驗分解武器裝備作戰需求形成指標體系,通過試驗獲取底層指標數據,以某種效能評估方法評估武器裝備的作戰效能和作戰適用性。在此過程中,底層指標數據的獲取是各層級作戰效能與作戰適用性評估的基礎。貝葉斯方法在作戰試驗中的應用,也聚焦于這些底層指標,具體有兩種模式。

一是推斷考核指標是否達到并超過合同規定。作戰試驗需要對照被試武器裝備的研制總要求、試驗鑒定總案和具體的試驗方案,對被試武器裝備的大量作戰效能和作戰適用性指標進行考核。其基本途徑就是根據實裝試驗數據,判斷被試武器裝備是否達到并超過合同規定。在這一過程中,應用的統計學工具主要是各類假設檢驗。

二是給出裝備參數滿足規定精度的數值估計。除了考核武器裝備是否達到并超過研制合同規定的各項指標之外,作戰試驗還有可能針對武器裝備未來的作戰應用,或是產品型號的升級改進,而對武器裝備的一些重要參數進行探索性摸底。在這一過程中,應用的統計學工具主要是區間估計。

1.2 處理過程概述

首先是推斷的處理過程。如前所述,作戰試驗在推斷武器裝備的某項指標是否達到合同規定時,通常使用的統計學工具是假設檢驗,即根據統計法則,判斷武器裝備的作戰試驗數據是否支持指標通過考核的結論。在貝葉斯的方法框架下,可以利用貝葉斯因子開展類似的推斷過程,但更直觀的處理方式通常如下頁圖1 所示。

圖1 基于貝葉斯方法的作戰試驗指標推斷過程

第1 步,確定一個指標規定值的等效區間(Region of Practical Equivalence,ROPE)。例如合同規定被試武器裝備的毀傷概率應大于0.75,試驗中,定義該指標的ROPE 為[0.745,0.755],即認為在實踐中,從0.745 ~0.755 之間的毀傷概率和0.75 的毀傷概率并沒有實質區別。

第2 步,根據武器裝備性能試驗或模擬仿真的結果,確定該指標的先驗分布和似然函數。例如beta 分布與n 重貝努利分布的分布律。

第3 步,依據作戰試驗采集的實裝數據,按照貝葉斯法則計算指標后驗分布,并在該分布中求取指定后驗概率的最高密度區間(Highest Density Interval,HDI)。例如滿足95%后驗概率的分布,且概率密度最高的區間范圍。

第4 步,比對該HDI 是否超過ROPE,且相互不重疊。如果答案是肯定的,則認為作戰試驗數據支持該指標達到合同規定要求,并且該論斷的正確概率大于95%。

其次是估計的計算過程。從推斷的計算過程可以看出,當不考慮ROPE,仍然按照上述流程組織試驗,并由后驗分布計算得出的HDI 實際上就是符合特定概率要求的指標估計。

由于經典數理統計的區間估計表達的含義是在所有按照統計模型計算得出的數值區間中,有置信概率的區間包含了真實的指標值,但當前得出的置信區間是否包含指標真值卻無從得知;而HDI 表達的含義是根據最新數據對于先驗知識的更新,指標具有最高概率的區間即為HDI,從而更加符合一般人對于指標“置信”區間的認識,因此,從這個意義上說,HDI 對于非數據專業人士的決策輔助更加直接有效。

2 相應的樣本量估算研究

2.1 估算的準則

1)基于統計功效。即假設檢驗備擇假設為真時,正確拒絕原假設的概率。由于試驗的結果受隨機性的影響,并不總能真實反映被考核指標的真實情況,所以經典的數理統計和貝葉斯方法都定義了統計功效的概念,來量化試驗結果對于真實情況的捕獲能力。文獻[12-14]論證了統計功效與結果正確性之間的交互關系,指出統計功效低下的試驗會得出具有誤導性的結論,并指出即使是國際頂級期刊,其發布的很多研究結論由于試驗統計功效低下而可能是錯誤的??紤]到實施作戰試驗的目的是通過考核武器裝備決策是否大批量采購并部署武器裝備,所以它的結論的正確性關系到戰爭的勝敗和戰士的生死。因此,考慮面向貝葉斯方法的作戰試驗樣本量的估算問題時,也應當把滿足統計功效作為選取樣本量的客觀標準。

2)區分應用模式。經典數理統計的統計功效被定義為原假設不真實時,正確拒絕原假設的概率。而在貝葉斯的方法框架下,需要區分具體的應用是上述的推斷問題還是估計問題。

對于面向推斷的貝葉斯方法來說,它的統計功效實際上是在給定先驗信息和似然函數的前提下,后驗HDI 可以超出ROPE 并不與其相交的概率。

對于面向估計的貝葉斯方法來說,它的統計功效則是在給定先驗信息和似然函數的前提下,后驗HDI 的寬度小于指定精度要求的概率。

3)投入最少原則。一般來說,可以通過3 個因素提升特定試驗的統計功效,①降低試驗的干擾因素影響;②提升數據采集的精度;③增加樣本量。由于前兩個因素在試驗開始前已經固定,所以只能通過第3 條途徑,也就是通過增加樣本量提升試驗的統計功效。而作戰試驗耗資巨大,且具有一定的危險性,所以在試驗具有一定的統計功效,可以確保數據質量的前提下,應當遵從投入最小原則,即樣本量應當盡可能地小。

2.2 估算的方法步驟

第1 步,根據性能試驗、仿真試驗、甚至是類似裝備的已有數據,確定待考核指標的驗前分布。

第2 步,根據被試裝備的最新狀態,估計待考核指標各生成參數的概率分布。

第3 步,由這些參數的概率分布,生成N 組參數的隨機值,再由每組參數的隨機值生成s 個該考核指標的模擬值。

第4 步,把這些模擬值當做實際采集的裝備數據,結合第一步確定的先驗分布,利用貝葉斯法則,計算指標的后驗分布。如果這其中有n 個后驗分布達成目標,則該試驗的統計功效約為β=n/N。

第5 步,判斷該統計功效是否達到要求,如沒有,則令s=s+1,返回第3 步,直至統計功效達到要求,此時的s 即為所求的樣本量。

3 算例演示

通過前述可以看出,作戰試驗中基于貝葉斯方法的考核在進行樣本量估算時,主要是利用仿真,模擬作戰試驗的數據采集過程,然后通過分析這些仿真結果來估算考核的統計功效,并令能夠達到統計功效要求的最小樣本量為所求的樣本量。同樣,這里的樣本量計算也需要區分考核是基于貝葉斯方法的推斷問題還是估計問題。

3.1 針對統計推斷的樣本量估算演示

假設研制總要求規定某型衛星通信終端通話質量的滿意度大于80%,則估算過程如下:

第1 步:定義為滿意度水平,利用性能試驗、仿真試驗的已有數據,確定待考核指標的驗前分布為服從形狀參數為106 與19 的beta 分布。

第2 步:通過該型衛星通信終端性能改進的最新情況,估計生成的概率分布的眾數Omega 和聚集參數Kappa 分別服從形狀參數為96、6 的beta 分布和形狀參數為2 000 、尺度參數為1 的gamma 分布,而實際生成的作戰試驗數據服從以p 為參數,以樣本量s 為規模的二項分布。

第3 步:由第2 步估計的各分布模擬生成試驗數據。通過觀察圖2 左上角的分圖,發現當模擬次數達到3 000 次時,仿真結果基本完成收斂,僅在很小的范圍內上下波動。因此,樣本量估算的數據分析皆基于3 000 次仿真模擬的試驗數據。

第4 步:結合以上信息,利用貝葉斯法則,計算后驗分布,并求得在各樣本量水平s 下每次仿真結果的HDI。

第5 步:統計各樣本量水平s 下3 000 個HDI超出ROPE 的比例,即為該樣本量水平下的統計功效,得到如圖2 右上角分圖所示的統計功效變化趨勢圖??梢钥闯?,當s≥23 時,統計功效大于0.80,即在0.8 的統計功效水平要求下,試驗的樣本量應取23。

3.2 針對統計推斷的樣本量估算演示

假設研制總要求規定在某型衛星通信終端的試驗中獲得通話質量小于0.1 精度水平的滿意度估計,則樣本量的估算過程如下:

第1 步~第4 步仍然同上。

將第5 步調整為:統計各樣本量水平s 下3 000個HDI 的長度小于規定精度要求的比例,即為該樣本量水平下的統計功效,如圖2 左下角分圖所示,進而分析可得如圖2 右下角分圖所示的統計功效變化趨勢圖??梢钥闯?,當s≥48 時,統計功效大于0.80,即在0.8 的統計功效水平要求下,試驗的樣本量應取48。

3.3 應用估算方法的特殊問題

一是仿真結果收斂性對樣本量估算的影響。本文的樣本量估算方法是基于仿真的,必定存在隨機性,為獲得相對正確的樣本量估算結果,應當確保仿真結果可收斂。即隨著仿真步數的增加,仿真結果逐漸收縮至一個相對較小范圍。如果通過觀察,發現仿真結果不具備收斂性,則需要判斷無法收斂的原因是該仿真模擬的數據生成過程與實際情況不符,還是實際上即將開展的試驗永遠無法達到規定的統計功效水平。通過觀察圖2 的左上分圖可以看出,在仿真結果可收斂的情況下,仿真的步數越多,結果變化的震蕩幅度越小,并逐漸收斂至真實值附近,但仿真的步數越多,計算的開銷越大,因此,在實際的樣本量估算過程中,應當選擇合適的仿真步數。

圖2 算法有效性驗證示意圖

二是試驗結果計算過程對樣本量估算的影響。本文給出的算例相對較為簡單,它們用到的先驗和似然分別為beta 分布和二項分布的分布律,而beta分布和二項分布互為共軛,即利用傳統的解析方法完全可以基于統計功效估算樣本量。然而當前試驗鑒定應用貝葉斯方法的主要場景是諸如可靠性指標考核這樣需要融入大量先驗信息的情況,幾乎無法使用解析方法計算試驗結果,必須利用馬爾科夫鏈蒙特卡洛這樣的仿真方法計算試驗結果。但通過分析本文提出的樣本量計算過程可以看出,在利用統計功效作為估算法則的前提下,只需要試驗結果的計算方法可生成后驗分布即可,并不區分它是利用解析方法,還是仿真方法。因此,本文提出的樣本量估算方法,可以推廣至基于貝葉斯方法開展的可靠性考核等復雜場景。

三是更多決策因素對樣本量估算的影響。本文提出的樣本量估算方法是以統計功效作為判斷標準的,即主要考慮樣本量的選擇能否滿足試驗的數據質量要求。但在實際的試驗工作中,常常還需要考慮試驗資金、日程安排、實施可行性等更多方面因素。這實際上是在樣本量的估算問題中引入了更多的約束條件。因此,如果實際的試驗工作確實需要考慮這些約束條件,還需要進一步利用最優化的規劃方法,計算得出一個試驗樣本量的滿意解。

4 結論

通過分析當前作戰試驗應用貝葉斯方法的現狀,本文指出主要有指標推斷和指標估計兩大類的應用場景,在討論了樣本量估算的準則之后,分別給出這兩類應用場景下的樣本量估算步驟。通過算例的演示和方法應用的討論,可以看出,本文提出的方法是具有一定的通用性,基本可以覆蓋當前作戰試驗基于貝葉斯方法考核的樣本量估算需求,因此,可以為我軍后續的相關試驗鑒定任務實踐提供較好的參考。

猜你喜歡
樣本量貝葉斯概率
一種基于進化算法的概化理論最佳樣本量估計新方法:兼與三種傳統方法比較*
植株樣本量對云南松子代苗期遺傳力估算的影響
臨床研究樣本量的估計方法和常見錯誤
概率與統計(1)
概率與統計(2)
租賃房地產的多主體貝葉斯博弈研究
租賃房地產的多主體貝葉斯博弈研究
貝葉斯網絡概述
貝葉斯公式的應用和推廣
抽樣調查方法在高校學生評教工作中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合