?

基于CU變換的非齊次泊松過程的統計驗證模型

2017-01-17 10:09范朝霞楊劍鋒
貴州大學學報(自然科學版) 2016年6期
關鍵詞:泊松均值區間

范朝霞,趙 明,楊劍鋒

(1.貴州大學 理學院,貴州 貴陽 550025;2.耶夫勒大學 技術與可持續發展學院,瑞典 80176;3.貴州理工學院 信息工程學院,貴州 貴陽550003)

基于CU變換的非齊次泊松過程的統計驗證模型

范朝霞1,趙 明2,楊劍鋒3*

(1.貴州大學 理學院,貴州 貴陽 550025;2.耶夫勒大學 技術與可持續發展學院,瑞典 80176;3.貴州理工學院 信息工程學院,貴州 貴陽550003)

開源軟件中故障輸入數據的非齊次泊松過程(NHPP)的檢驗和均值函數的估計是排隊論分析中重要的子問題。本文依據均值函數的連續性和緩慢變化性,把NHPP轉化為小區間泊松性的分段常數非齊次泊松過程(PC NHPP)進行研究,主要運用條件均勻(CU)變換法對數據調整變換后,驗證泊松性。本文還運用Bugzilla的錯誤報告數據對模型實踐分析,結果顯示CU變換后的驗證效果可以接受。最后運用R語言擬合參數,計算出故障輸入過程參數,為排隊論模型構造和求解奠定基礎。

NHPP檢驗;CU變換;K-S檢驗; R語言

針對軟件排錯過程中故障輸入過程的統計分析方法[1],國內目前應用廣泛的是假設錯誤輸入過程是NHPP,然后根據三類常見累積強度函數模型:線性模型、冪率模型、對數線性模型等,擬合比較最優的累積強度函數模型,求解參數,運用到可靠性分析[2]中。但是這些忽略了一個重要的問題,即研究都是提前假設了NHPP,沒有對其合理性給出證明。因為NHPP的強度函數λ(t)形式變化的多樣性和不確定性,NHPP的驗證也成了一個難題。國外針對NHPP的假設檢驗有一定程度的研究,Brown[3]提出了用PC NHPP近似NHPP的驗證方法,根據λ(t)對于時間變化的連續性和緩慢性,在一定小的區間上可以認為λ(t)不變,然后在每個充分小子區間上驗證泊松性。Kim[4]總結了四種NHPP的檢驗方法,對小區間的泊松過程做恰當的轉換,變成我們易處理的分布類型,然后進行K-S檢驗,最終驗證數據的NHPP性。

參數估計是在NHPP得到驗證后,對擬合模型的估算參數[5-6],求解均值函數和強度函數,進而為排隊論模型分析做準備??煽啃灾谐S玫氖亲訁^間上的分段函數擬合[7],但是鑒于簡潔性,本文在整區間上運用最小二乘估計。

1 常見NHPP模型

1.1 Goel-Okumoto模型

G-O模型是NHPP類軟件可靠性最基本的模型[8],該模型的適用環境較理想化,但是模型簡單,便于求解,故而應用廣泛。該模型假設故障被檢測到的概率b是恒定不變的。

強度函數為:λ(t)=abe-bt,表示的是單位時間故障輸入率的變化趨勢。

均值函數為:m(t)=a(1-e-bt),其表示的實際意義就是到時間t為止的累積頻數,故而本文中用均值函數來擬合原數據的累積頻數。

1.2 Yamada Delayed S-Shaped模型

Y-D模型是G-O模型的進一步推導,該模型適當地放寬了部分理論假設,更符合實際情況。模型假設故障被檢測到的概率b是與時間有關的函數,且檢測率隨著時間的增加、系統內故障的減少而越來越大。

強度函數為:λ(t)=ab2te-bt,

均值函數為:m(t)=a[1-(1+bt)e-bt],

a>0,b>0

1.3 Inflected S-Shaped模型

I-S模型也是假設故障檢測率b是一個與時間有關的函數,只是函數的形式發生了變化,自變量時間t與檢測率函數b(t)不再是多項式關系,變成了負指數形式的變化趨勢。

2 基于CU變換的NHPP統計檢驗模型

在呼叫中心系統中,一天24小時的呼入率是不一樣的。因此,在以往的排隊論分析中,均假設每小時的呼入率是常數,在每個時間段上建立排隊論模型,綜合分析對應指標。類似于常用的分段常數的理念,直接把NHPP的強度函數轉化為PC NHPP進行檢驗分析。

2.1 CU(conditional uniform)轉換K-S檢驗

定理1 泊松分布事件發生時刻條件均勻原理:在[0,T]時間段內,已知事件發生了n次的前提條件下,各事件發生的時刻{Ti,i∈1∶n}在不考慮順序依存關系發生的情況下,可看做相互獨立的U[0,T]隨機變量[9]。

本文的CU變換思想就源自泊松分布事件發生時刻條件均勻原理。當不考慮Ti的順序時,{Ti,i∈1∶n}~U[0,T],變形為{Ti/T,i∈1∶n}~U[0,1],則經驗累積分布函數Fn(x):

(1)

同時,由均勻分布知對應的理論累積分布函數F(x):

F(x)=x,0≤x≤1

2.2 Log(logarithmic)變換K-S檢驗

定理2 泊松分布事件發生的時間間隔Xn,n=1,2,…服從參數為λ的指數分布,且相互獨立。

由定理2知,欲檢驗小區間上的泊松性質,也可通過檢驗事件發生的時間間隔是不是服從指數分布來檢驗數據的泊松性。Brown構造了率1指數分布隨機變量的Log變換:

1{Xjlog,n≤x}理論累積分布函數F(x):

F(x)=1-e-λx,x≥0

2.3 K-S檢驗

1)掃描矢量化陜西省民政廳提供的1998年鄉級行政區域界線協議書附圖,獲取全省鄉級行政區域界線、界址點、界樁點和三交點等原始界線矢量數據,并對矢量數據進行坐標轉換,即1954年北京坐標系、1956黃海高程系轉換至2000國家大地坐標系、1985國家高程基準。

定義 Kolmogorov分布函數:

K-S檢驗是檢驗小樣本數據的泊松性。K-S檢驗分為單樣本K-S檢驗和兩樣本K-S檢驗,單樣本是檢驗一組樣本數據和已知的概率分布類型的擬合優度的。

由定理3,統計量的漸近分布為:

3 實例驗證

3.1 數據來源與清洗

Bugzilla失效數據是由Mozilla公司開發的錯誤追蹤系統Bugzilla(http://www.bugzilla.org/)在版本升級和內測期間由于系統失效而產生的一系列被詳細記錄的故障數據組成。本文數據即2010年11月Bugzilla的第四版本正式內測上線開始記錄的4.0版本歷史故障數據。統計每月接收到的故障頻數。在Bugzilla V4.0中,故障輸入時間共延續45個單位,其中12個空數據,且都集中于序列尾部,可參照圖1。這就是統計中的拖尾現象。本文采取連續兩次遇零截尾,即Freq連續兩次為零時,截去后面的數據。

圖1 故障輸入過程頻數

3.2 NHPP的檢驗

由于K-S檢驗需要隨機變量是連續的,故而針對單個到達的離散變量,可以考慮其到達時刻、到達時間間隔等連續型變量,然后采用適合于小樣本檢驗的K-S檢驗準確推導結論。

3.2.1 CU-KS檢驗

CU變換基于定理1對子區間樣本數據進行轉換。針對故障輸入時間數據。記到達時刻Opened_Day為Ti,區間長度T為31天,則根據CU變換理論,此處有Ti/T~U[0,1]。針對第四個子區間的CU變換數據整理如表1:

表1 第四個子區間CU變換數據

運用統計軟件中的R軟件結合K-S檢驗理論檢驗數據的泊松性質,運行結論如下:

>ks.test(Temp,"punif")

>D = 0.12054, p-value = 0.9453

顯然,子區間上的泊松性是明顯的。但樣本量是19,在原數據中是相對較多的,故而檢驗效果相對較好,也證明了在足夠數據量的情況下,小區間的泊松性質驗證很好。

但是在表2中有數據量Freq為1或0的情況,此時CU變換后小區間的泊松性質并不樂觀。結果說明子區間上小樣本情況下的泊松性質相對于多樣本的表現較差。同時需要注意,多樣本的小區間數據也出現有泊松檢驗效果較差的現象,分析發現,故障會有偶然聚集出現的特殊情況,這對統計量的均勻性檢驗很不利,故而出現了少有的特例情況。

表2 CU變換后各子區間上的p值和D值

但是整體來講,E(p)=0.522,E(D)=0.397,整體檢驗效果還是達到了的,已經滿足了不能拒絕原假設PC NHPP的條件。

3.2.2 Log-KS檢驗

Log變換是基于定理2對子區間數據進行的對數變換。第四個子區間Log變換后數據如表3所示,根據Log變換理論可知,數據表中的序列0,是因為前后兩個時間點一致使得真數為1造成的。無窮小量(Inf)則是因為真數趨于0所致。

表3 第四個子區間Log變換數據

針對第四子區間變換數據進行K-S率1指數檢驗,R程序運行結果如下:

>ks.test(xlog,"pexp")

>D = 0.31579, p-value = 0.04521

顯然的,同一組預處理的數據,Log變換后檢驗效果沒有CU檢驗效果明顯。這也就暗示我們Log變換的數據預處理更復雜,需要更多的細節調整。

Log變換后的整體結論是E(p)=0.378,E(D)=0.327,雖然通過檢驗,但Log變換后的數據的率1指數檢驗效果沒有CU變換好。這與數據選取的時間不是絕對連續,使得對數變換對結果的影響較大等因素有關。Log變換時,應該注意盡可能使得每個樣本數據都不一樣,避免0值和無窮小值出現,影響檢驗結果。鑒于驗證NHPP性已經達到,此處Log變換的數據處理方法不做更深研究。

3.3 參數估計

鑒于故障輸入過程NHPP性質的檢驗成立,此處用常用的NHPP類軟件可靠性模型對數據進行擬合分析。用Yamada Delayed S-Shaped(Y-D)模型擬合分析:

>nls(X$CFreq ~ a*(1-(1+b*X$time)*exp(-b*X$time)),data=X[,c(1,3)],start = list(a=200,b=0.5))

用R里的nls函數對均值函數的參數進行估計,得a=252,b=0.2044,且兩個參數是顯著性不等于0。此時的標準殘差為3.811,迭代次數為6,容差為7個分數位。

均值函數:

m(t)=252·[1-(1+0.2044·t)·e-0.2044t]

圖2 Y-D模型擬合

由圖2可以看出,Y-D模型擬合了故障輸入過程累積頻數的趨勢。分析K-S擬合檢驗結果,p值為0.9794,接近1,且D值相對較小,接受Y-D擬合。

>ks.test(X$CFreq,f(X$time))

>D = 0.11111, p-value = 0.9794

4 結論

本文運用CU變換和Log變換對NHPP檢驗,效果顯著,但是針對數據的預處理問題,本文根據數據類型和R編程難易程度選擇了大區間以月為時間單位,小區間以天為時間單位的處理方法,故而出現了小區間中有0值出現的情況,所幸K-S檢驗過關。

CU變換和Log變化是用了泊松分布的兩個特性延伸推導出的NHPP驗證方法,其實還有直接驗證法(頻數統計法),也稱為標準泊松檢驗。Lewis[11]也曾提出了比較復雜的Lewis變換對PP過程進行驗證,并給出了推導,所以選擇合適的、有效的數據變換方法針對NHPP的檢驗都會有一定的效益。

[1] Dohi T, Matsuoka T, Osaki S. An Infinite Server Queuing Model for Assessment of the Software Reliability[J]. Electronics and Communications in Japan, 2002, 85(3): 43-51.

[2] Huang C Y, Hung T Y. Software reliability analysis and assessment using queueing models with multiple change-points[J]. Computers & Mathematics with Applications, 2010, 60(7): 2015-2030.

[3] Brown L, Zhao L. Statistical Analysis of a Telephone Call Center: A Queueing-Science Perspective[J]. Journal of the American Statistical Association, 2005, 100(March):36-50.

[4] Kim S H, Whitt W. Choosing arrival process models for service systems: Tests of a nonhomogeneous Poisson process[J]. Naval Research Logistics, 2014, 61(1):66-90.

[5] Massey W A, Parker G A, Whitt W. Estimating the parameters of a nonhomogeneous Poisson process with linear rate[J]. Telecommunication Systems, 1996, 5(4):361-388.

[6] 茆詩松. 高等數理統計[M]. 北京:高等教育出版社, 1998.

[7] 徐仁佐,劉蓮君,潘志宏,等. NHPP模型擬合質量的改進[J]. 自然科學進展:國家重點實驗室通訊, 1991(6):535-542.

[8] 楊劍鋒. 復雜數據下的軟件可靠性分析方法[D].貴陽:貴州大學,2014.

[9] 張波,張景肖.應用隨機過程[M].北京:清華大學出版社,2007.

[10] 朱力行. Kolmogorov統計量的精確分布及其在Bootstrap逼近中的應用(英文)[J]. Journal of Mathematical Research with Applications, 1991, 11(2):163-164.

[11] Lewis P A W. Some results on tests for Poisson processes[J]. Biometrika, 1965, 36(52):67-77.

(責任編輯:曾 晶)

A Test Model of NHPP: Based on CU Transformation

FAN Chaoxia1,ZHAO Ming2,YANG Jianfeng3*

(1.College of Science, Guizhou University, Guiyang 550025,China; 2.Faculty of Technology and Sustainable Development,University of Gavle, Sweden 80176;3. College of Information Engineering, Guizhou Institute of Technology, Guiyang 550003,China)

The test of NHPP and the estimation of the mean function about the BUG input data in opened source software are important sub- problems in queuing theory analysis. In this paper, the test of NHPP was converted to the test of Piecewise- Constant NHPP as the continuity and slowness of the mean function, and finally problem converted to the test of the PP on subintervals firstly, and then combined to verify the NHPP on interval. The verification of PP on subinterval is mainly through the CU transformation of the data reasonablely. Also Bugzilla 's error report data was used to analyze the model, and the result shows acceptable. Finally, the parameters of the BUG input process are calculated using the R language fitting parameters, which lays the foundation for the construction and solution of the following queuing theory model.

NHPP test; CU transformation; K- S test; R language

1000-5269(2016)06-0010-04

10.15958/j.cnki.gdxbzrb.2016.06.03

2016-10-17

貴州省科學技術基金計劃(黔科合J字[2015]2064號);高層次人才科研啟動經費項目(XJGC20150106)

范朝霞(1990-),女,在讀碩士,研究方向:應用統計,Email:917855385@qq.com.

*通訊作者: 楊劍鋒,Email:jfyang1@163.com.

O211.6

A

猜你喜歡
泊松均值區間
你學會“區間測速”了嗎
基于泊松對相關的偽隨機數發生器的統計測試方法
一類帶有兩個參數的臨界薛定諤-泊松方程的多重解
帶有雙臨界項的薛定諤-泊松系統非平凡解的存在性
全球經濟將繼續處于低速增長區間
均值—方差分析及CAPM模型的運用
均值—方差分析及CAPM模型的運用
區間對象族的可鎮定性分析
關于均值有界變差函數的重要不等式
關于廣義Dedekind和與Kloosterman和的混合均值
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合