?

過度離散型數據的統計模擬與分析

2016-04-08 10:52李榮陳莉王平鮮

經濟數學 2016年1期

李榮　陳莉　王平鮮

摘要針對車險索賠次數數據經常出現的過度離散問題，采用數值模擬的方法，分別使用泊松模型（Poisson）、負二項回歸模型（NB）以及廣義泊松模型（GP）對不同程度的過度離散車險索賠次數數據進行擬合，并用均方誤差、偏差以及AIC和BIC準則對Poisson、NB、GP三種模型的優良性進行比較分析，得到了不同條件下三種模型的優良性，并針對不同的條件給出了模型選擇的建議.

關鍵詞過度離散；車險索賠次數數據；負二項模型；廣義泊松模型

中圖分類號 O212.1 文獻標識碼 A

1 引言

保險公司在進行費率厘定時，需要建立索賠次數模型與索賠強度模型，在實際應用中，車險索賠次數數據常常出現過度離散現象，亦即觀察值方差大于均值的情況.刻畫車險索賠次數數據最常用的是泊松模型，但當數據存在過度離散現象時，泊松模型不再適用，這時可以用負二項模型或者廣義泊松模型替代泊松模型，結果能從一定程度上改善過度離散問題，但不是所有的情況都適用.楊肇和朱凱旋針（2003）、郭海強等（2005）對logistic回歸中的過度離散現象，通過調整協方差以及用估計的離散參數影響參數估計和參數的標準誤來調整回歸系數的假設檢驗結果，結論得到一定的改善[1-，2]；Noriszura Tsmail和Abdul Aziz Jemain（2007）用負二項模型與廣義泊松模型作了實證研究，他們對一組特定的理賠次數找到了合適的模型[3]；同年，Richard Berk和John MacDonald對泊松模型和負二項模型進行了討論，得出，在犯罪學應用中用負二項模型去替代泊松模型不是任何情況都適用[4]；之后的一些文獻討論了過度離散現象的檢驗，也將過度離散模型運用到了不同的領域，楊娟（2013）等基于一組真實的B2C商務數據，比較了泊松模型、負二項模型、Tweedie模型對此數據的擬合效果、預測效果以及對過度離散的刻畫[5]；可見，過度離散現象在理賠次數中是普遍存在的，因此，為數據尋求合適的模型是必要的.

本文將考慮在不同過度離散程度條件下，基于均方誤差準則、偏差準則、AIC準則與BIC準則，對Poisson，NB，GP三種模型的優良性進行比較研究，為過度離散數據尋求合適的模型.

2 基本模型

2.1 泊松回歸模型

對計數數據進行分析通常采用的最基本的模型是泊松模型，設隨機變量Y服從Poisson分布，記為Y～Poisson（μ），則概率密度函數為：

3.3 結果分析

首先，在均方誤差與偏差準則下對3個模型進行比較研究，如圖1所示，當n=50，μ=1時，Poisson模型、NB模型、GP1模型的均方誤差都隨著離散程度的增大逐漸減小，且3個模型的均方誤差完全相等，其值都非常??；偏差在零的附近波動，且3個模型的偏差完全相等，其值接近于零，可以得出，3個模型對于參數估計，效果都很好，實際應用時，擇一即可.隨著樣本量n以及均值μ的增大，亦即n=50，μ=2、n=100，μ=1、n=100，μ=2的情況，結論與n=50，μ=1時類似，說明3個模型在參數估計上差別不顯著，如果只是針對參數估計，那么3個模型擇一即可.而就Poisson模型來講，針對過度離散車險索賠次數數據，雖然其參數估計值與NB模型、GP1模型差別不明顯，但它會低估參數的標準誤與增大參數的顯著性水平，所以在數據存在過度離散現象時，Poisson模型要慎用[5].

其次，對3個模型進行擬合優度檢驗，如圖2所示，當n=50，μ=1時，Poisson模型、GP1模型的AIC值逐漸減小且隨著離散程度的增大趨于平穩，NB模型的AIC值逐漸增大且隨著離散程度的增大也逐漸趨于平穩；GP1、NB模型整體優于Poisson模型；當θ<0.5時，NB模型優于GP1模型，當0.5<θ<0.8時，NB模型與GP1模型幾乎無差別，當θ>0.8時，NB模型優于GP1模型.樣本量n=50不變，均值增大到μ=2時，結論如圖3所示，可以看出，模型AIC值變化趨勢和μ=1時一致，說明數據均值變化對模型的優良性沒有影響，同樣，當n=100，μ=1、n=100，μ=2的情況，結論也類似，說明樣本量n的變化對模型的優良性也沒有影響.對于BIC值，其變化趨勢與AIC值大致相同，這里不再贅述.

4 結論

本文應用Monte Carlo模擬方法比較研究了Poisson模型、NB模型、GP1模型對于不同離散程度的車險索賠次數數據的擬合效果，并且對3個模型的優良性進行了比較研究.得出以下結論：1）從模型參數估計值來看，Poisson模型、NB模型、GP1模型3個模型之間沒有顯著的區別，如果只是參數估計，三者擇一即可，但當數據存在過度離散現象時，用Poisson模型去擬合過度離散數據會低估參數的標準誤與增大參數的顯著性水平，出現較大的模型偏差，所以Poisson要慎用；2）由模型擬合優度檢驗來看，NB模型與GP1模型整體優于Poisson模型，當θ<0.5時，NB模型優于GP1模型，此時選擇NB模型較好；當0.5<θ<0.8時，NB模型與GP1模型幾乎無差別，二者擇一即可；當θ>0.8時，NB模型優于GP1模型，此時選擇NB模型較好；并且模型選擇與樣本量n、均值μ的大小無關.

參考文獻

[1] 楊肇，朱凱旋.Logistic回歸分析中的過度離散現象及糾正[J].中國衛生統計，2003（4）：48-49.

[2] 郭海強，程大麗，黃德生，等.Logistic回歸中數據過度離散及其軟件處理[J].中國醫科大學學報，2005（2）：144-145+166.

[3] Noriszura ISMAIL， Abdul Aziz JEMAIN. Handing overdispersion with negative binomial and generalized poission regression models[C]//Proceedings of Casualty Actuarial Society Forum，2007：102-158.

[4] Richard BERK， John M.MACDONALD. Overdispersion and Poisson regression [J]. Journal of Quantitative Criminology， 2008，24 （3）：269-284.

[5] 楊娟，謝遠濤.基于過度離散廣義線性模型的來電量預測[J].統計與決策， 2013（6）：33-36.

[6] Jiewu HUANG， Hu YANG. A twoparameter estimator in the negative binomial regression model[J]. Journal of Statistical Computation and Simulation， 2014，84（1）：124-134.

經濟數學2016年1期

經濟數學的其它文章: 罕見災難事件的福利減損效應研究; 房地產產業鏈相依結構演化及其危機傳染效應研究; 互聯網金融創新與監管邊界的演化博弈分析; 均值方差準則下具有負債的隨機微分博弈; 基于人工神經網絡和隨機游走模型的匯率預測; 基于KNN和Bayes算法的組合分類器的垃圾評論識別研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合