?

基于半連續兩部模型的保險損失預測

2023-12-26 11:22魯亞會劉愛義
浙江科技學院學報 2023年6期
關鍵詞:伯努利正態伽馬

魯亞會,劉愛義

(1.浙江科技學院 經濟與管理學院,杭州 310023;2.美國國立衛生研究院,美國 貝塞斯達 20817)

保單持有人和保險公司的風險防范意識不斷增強,使得大部分保單并不會發生風險,或者保險公司與被保險人簽訂免賠償或無賠償折扣等條約,也使得在發生較輕的事故時被保險人不提出索賠[1]。這會導致一份保單或一個風險類別的累積損失數據具有下述2個特點:一是出現零過多現象,因為大部分保單在保險期間并未產生索賠,即在零點產生一個較大的概率堆積;二是非零部分可假設服從連續分布。此時,若直接采用傳統的Tweedie回歸模型[2-3]進行累積損失預測,雖然該方法不要求損失次數與損失金額滿足相互獨立,但其可能會在預測零概率值時產生較大偏差,即由Tweedie分布得到的零概率值遠小于累積損失觀察值的零概率值。雖然目前也有研究者對Tweedie回歸模型進行了改進[4],但是也只能對均值引入協變量,而不能對零概率值引入協變量??梢?Tweedie回歸模型在預測累積損失時具有一定的局限性。上述累積損失數據的2個特點其實質上就是一種半連續型數據,這是由于計量數據中包含過多零值時,除零以外的非零觀測值往往是連續的,所以被稱為半連續數據。對于半連續數據,Madden[5]指出此類型數據可以看作由混合分布產生,即可假設由零值數據(退化分布)和非零連續數據(連續分布)各占一定比例所構成的混合分布所產生[6],目前兩部模型是最常用的擬合分析方法[7-8]。對于半連續數據的兩部模型,其模型構建的基本思路是將數據看作由2個不同的隨機過程產生。第一個過程考慮零值是否出現,即表示某種行為是否發生,此過程通常被稱為數據的二元部分,此部分可假設服從伯努利分布[9];第二個過程考慮非零值的產生,此過程通常被稱為數據的連續部分,此部分可假設服從一般的連續分布,如正態分布、伽馬分布等[10]。為了進一步分析半連續數據中自變量對因變量的影響,需對二元部分參數和連續部分參數分別引入協變量,從而構造半連續兩部回歸模型[11-12]。因此,基于半連續兩部模型,本研究將提出3種不同的累積損失預測模型。即將累積損失看作2個過程進行分別處理:一是損失是否發生,假設服從伯努利分布;二是在損失發生情況下累積損失金額的分布,分別考慮正態分布、伽馬分布和逆高斯分布。對累積損失的2個過程分別引入相關的協變量進行解釋,從而對累積損失預測建立相應的伯努利-正態(Bernoulli-Normal)回歸模型、伯努利-伽馬(Bernoulli-Gamma)回歸模型和伯努利-逆高斯(Bernoulli-Inverse Gaussian)回歸模型。

1 半連續兩部回歸累積損失模型

基于累積損失數據所具有的特點,其實質上就是一種半連續型數據。在半連續兩部模型的框架下,下面將提出3種不同的半連續兩部回歸累積損失模型。

1.1 模型構建

在一個保險期間,假設X={X1,X2,…,Xn}為保單的累積損失金額,其中Xi(i=1,2,…,n)表示第i份保單的累積損失金額,n為保單總份數[13]。此時,可將累積損失X看作2個過程分別進行處理:1) 損失是否發生,假設服從伯努利分布;2) 損失發生情況下,假設累積損失金額服從不同的分布。由此可對X構建半連續兩部模型:

f(xi)=(1-π)I(xi=0)+[πg(xi|xi>0;μ,σ,κ)]I(xi>0),xi≥0,i=1,2,…,n。

(1)

式(1)中:π=Pr(X>0)為非零概率值,且0≤π≤1;I(·)為示性函數;g(X|X>0)為X>0部分選定的連續分布函數;μ為位置參數;σ>0為尺度參數;κ∈R為形狀/偏度參數。

另外,在累積損失預測問題中,研究者往往更關注零概率值。因此,記ν=1-π,并將其代入式(1)中。經過整理,則式(1)轉換為

f(xi)=νI(xi=0)+[(1-ν)g(xi|xi>0;μ,σ,κ)]I(xi>0),xi≥0,i=1,2,…,n。

(2)

式(2)中:ν=Pr(X=0)為零概率值。對非零累積損失數據的連續分布函數g(X|X>0),下面將分別采用正態分布(一般需進行對數轉換)、伽馬分布和逆高斯分布進行擬合分析。

1.2 伯努利-正態回歸累積損失模型

在半連續兩部模型(2)中,假設X>0部分服從正態分布N(μ,σ2),且考慮到X>0部分具有一定的偏態性,在實際應用中,一般需對X>0進行對數轉換。此時,g(X|X>0)分布的密度函數

(3)

將式(3)代入式(2)中,對累積損失X構建伯努利-正態兩部模型,即構建由零點的退化分布和非零的正態分布組合的混合分布,其密度函數

(4)

式(4)中:μ為正態分布的均值,是位置參數;σ>0為正態分布的標準方差,是尺度參數。

為了進一步識別風險,在伯努利-正態兩部模型式(4)中,分別對ν和μ引入相關的協變量,從而能夠分析不同因素對ν和μ所產生的影響。另外,結合邏輯連接函數和對數連接函數,得到預測累積損失的伯努利-正態回歸模型:

(5)

式(5)中:z1i=(z1i0,z1i1,…,z1iq1)T為零概率νi的q1+1維協變量向量;β1=(β10,β11,…,β1q1)T為所對應的q1+1維回歸系數向量。z2i=(z2i0,z2i1,…,z2iq2)T為均值參數μi的q2+1維協變量向量;β2=(β20,β21,…,β2q2)T為其所對應的q2+1維回歸系數向量。設定z1i0=z2i0=1,則β10和β20分別表示2個子回歸部分的截距項。另外,在實際應用中,混合比例νi的協變量z1i和均值參數μi的協變量z2i可以相同,也可以不同。

1.3 伯努利-伽馬回歸累積損失模型

在半連續兩部模型式(2)中,假設X>0部分服從伽馬分布G(μ,σ2)。此時,g(X|X>0)分布的密度函數[14]

(6)

將式(6)代入式(2)中,對累積損失X構建伯努利-伽馬兩部模型,即構建由零點的退化分布和非零的伽馬分布組合的混合分布,其密度函數

(7)

式(7)中:μ為伽馬分布的均值,是位置參數。

類似于伯努利-正態回歸累積損失模型,在伯努利-伽馬兩部模型式(7)中,對ν和μ分別引入相關的協變量,并結合邏輯連接函數和對數連接函數,得到預測累積損失的伯努利-伽馬回歸模型:

1.4 伯努利-逆高斯回歸累積損失模型

在半連續兩部模型式(2)中,假設X>0部分服從逆高斯分布N(μ,σ2)。此時,g(X|X>0)分布的密度函數[15]

(8)

將式(8)代入式(2)中,對累積損失X構建伯努利-逆高斯兩部模型,即構建由零點的退化分布和非零的逆高斯分布組合的混合分布,其密度函數

(9)

式(9)中:μ為逆高斯分布的均值,是位置參數。

同樣,在伯努利-逆高斯兩部模型(9)中,對ν和μ分別引入相關的協變量,并結合邏輯連接函數和對數連接函數,即得到預測累積損失的伯努利-逆高斯回歸模型:

2 參數估計

目前,針對半連續兩部回歸模型的參數估計方法較多,而在實際應用中,具體的參數估計方法需根據調查目的及所選用的模型而定。極大似然法是一種最常用的參數估計方法,其基本算法就是高斯-牛頓(Gauss-Newton)迭代法[16-17]。由于伯努利-伽馬和伯努利-逆高斯回歸累積損失模型的參數估計過程類似于伯努利-正態回歸模型,因此,下面只給出伯努利-正態回歸模型的高斯-牛頓迭代估計過程。

基于伯努利-正態回歸模型式(5),得到模型的似然函數

(10)

式(10)中:yi=I(xi>0)。

(11)

(12)

(13)

將式(11)~(13)代入伯努利-正態似然函數(10)中,得到其對數似然函數

(14)

式(14)中:

接下來采用高斯-牛頓迭代法分別對l1(β1)和l2(β2,σ)進行參數估計。

2.1 用高斯-牛頓迭代法估計對數似然函數l1(β1)

記參數β1的得分函數

從而得到:

(15)

記參數β1的觀測信息陣

從而得到:

(16)

2.2 用高斯-牛頓迭代法估計對數似然函數l2(β2,σ)

(17)

(18)

通過計算得到:

(19)

式(19)中:

3 實證研究

下面將本研究所提出的3種半連續兩部回歸模型和Tweedie回歸模型,在一組機動車輛第三者責任險的累積損失數據[18]中進行擬合,以比較4種回歸模型的擬合效果。

3.1 數據描述

原始數據集來源于R語言程序包“CASdatasets”,它是一組經典的保險精算數據集,共記錄著429 350條損失信息。由于多次損失會發生在同一份保單中,通過累加同一份保單的多次損失,即能夠得到累積損失數據集。此外,考慮到預測模型的穩健性,僅將累積損失小于15 000元的保單保留下來,由此共得到412 990份保單作為最終的累積損失數據來源。在這些數據中,共包含397 779份零累積損失保單,因此數據中含有大量的零值,也導致一個很大的零概率堆積。又考慮到數據的偏態性,對累積損失數據中非零值進行對數轉換。此時,分別采用Tweedie模型、伯努利-正態兩部模型、伯努利-伽馬兩部模型和伯努利-逆高斯兩部模型對累積損失數據進行擬合,并使用AIC(Akaike information criterion,赤池信息量準則)來比較它們的擬合效果。4種模型的AIC值分別為180 652、174 964、177 893和180 483,結果表明:相較于傳統的Tweedie模型,3種半連續兩部模型具有較好的擬合效果,其中伯努利-正態兩部模型又比其他2種兩部模型的擬合效果更好。

3.2 模型選擇

原始數據中包含著一些連續型和分類型解釋變量,其中連續型變量有車齡、駕駛人車齡、人口密度,分類型變量有發動機功率、汽車品牌、汽車油耗類型。各分類解釋變量的取值見表1。為了分析不同因素對累積損失產生的影響,對于3種半連續兩部模型,將數據中所有解釋變量分別引入零概率回歸模型和均值回歸模型,建立相應的伯努利-正態回歸模型、伯努利-伽馬回歸模型和伯努利-逆高斯回歸模型。但是對于Tweedie模型,只能將解釋變量引入均值回歸模型中,建立Tweedie回歸模型。對于本研究所構建的4種回歸模型,記l為對數似然函數值,p為模型的參數個數,n為樣本容量。采用AIC和BIC(Bayesian information criterion,貝葉斯信息準則)進行模型比較和選擇,其中AIC值CAIC=-2l+2p,BIC值CBIC=-2l+plnl,且AIC值和BIC值越小,表明模型具有越好的擬合效果。4種回歸模型的擬合優度統計量見表2。

表1 分類解釋變量的取值

表2 4種回歸模型的擬合優度統計量

由表2可知,3種半連續兩部回歸模型的AIC值和BIC值都小于Tweedie回歸模型,表明半連續兩部回歸模型對累積損失的擬合效果優于Tweedie回歸模型。該結果可能是由于Tweedie回歸模型只能對均值建立回歸模型,而無法對零概率建立回歸模型;半連續兩部回歸模型能夠同時對均值和零概率建立相應的回歸模型。另外,在半連續兩部回歸模型中,伯努利-正態回歸模型具有的AIC值和BIC值最小,表明伯努利-正態回歸模型的擬合效果優于其他2種回歸模型,該結果可能是由于所使用的損失數據并不具有明顯的尖峰厚尾特征。

3.3 結果分析

根據4種回歸模型的AIC值和BIC值可知,伯努利-正態回歸模型對本例的損失數據具有最優的擬合效果。因此,對于本例的累積損失數據,本節將最終建立伯努利-正態回歸模型,其中對零概率建立邏輯回歸模型,對均值建立對數回歸模型,且將原始數據中的解釋變量作為2個子回歸模型中的協變量集??紤]到連續型變量對零概率和均值產生的影響并不一定是線性的,在伯努利-正態回歸模型中,將車齡平方項和駕駛人車齡平方項作為2個子回歸模型的協變量,采用高斯-牛頓迭代法進行參數估計。伯努利-正態回歸模型的參數估計值見表3。

表3 伯努利-正態回歸模型的參數估計值Table 3 Parameter estimates for Bernoulli-Normal regression model

由表3可知,對于零概率回歸參數,在顯著性水平為5%的情況下,發動機功率、汽車品牌、油耗類型、人口密度、車齡和駕駛人車齡都對零概率具有顯著影響,即這些變量都顯著影響著損失發生的概率。其中人口密度的估計系數為負值,表明它與零概率存在著負相關,即人口密度值越大,損失發生的可能性也就越大。另外,車齡平方項和駕駛人車齡平方項對零概率也具有顯著性影響,但它們的估計符號分別與車齡、駕駛人車齡變量相反,該現象表明車齡和駕駛人車齡對損失發生概率存在非線性影響。對于均值回歸參數,在顯著性水平為5%的情況下,汽車品牌、油耗類型和駕駛人車齡都對均值具有顯著影響,即這些變量都顯著影響著累積損失的大小。油耗類型的估計系數為負值,表明它與均值存在著負相關,即汽車油耗類型為普通油時,會減少累積損失的金額。另外,駕駛人車齡平方項對均值也具有顯著性影響,且該項的估計符號與駕駛人車齡變量相反,該現象也表明駕駛人車齡對累積損失金額存在非線性影響。

4 結 語

在保險研究中,累積損失預測是厘定純保費的關鍵工作,目前最常用的模型就是Tweedie回歸模型。但是該模型只能對非零均值建立回歸模型,卻不能對零概率建立回歸模型,從而導致其對累積損失的擬合結果產生偏差。由于累積損失數據往往會出現零過多現象,本研究將該數據視作半連續數據構建模型,并考慮到數據中非零連續部分的分布類型,分別提出伯努利-正態兩部模型,伯努利-伽馬兩部模型和伯努利-逆高斯兩部模型。在這3種不同的模型中,對零概率參數和均值參數分別引入相關的協變量,從而建立預測累積損失的伯努利-正態回歸模型,伯努利-伽馬回歸模型和伯努利-逆高斯回歸模型。此外,本研究將所提出模型應用于一組機動車輛第三者責任保險的損失數據擬合中,并與傳統的Tweedie回歸模型進行對比。實證結果表明:相較于Tweedie回歸模型,3種半連續兩部回歸模型具有較好的擬合效果;其中伯努利-正態回歸預測模型又優于其他2種模型。

本研究仍存在著一些待進一步探討的問題。例如,隨著信息技術的發展,獲取累積損失數據中往往包含大量的候選解釋變量,如何在保證模型的準確性和解釋性的前提下,更好地選擇出更重要的變量子集,這在模型構建中就會產生一個變量選擇的問題。因此,半連續兩部回歸損失預測模型的變量選擇將是我們后續研究的重點之一。

猜你喜歡
伯努利正態伽馬
宇宙中最劇烈的爆發:伽馬暴
基于車載伽馬能譜儀的土壤放射性元素識別研究
Understanding Gamma 充分理解伽馬
雙冪變換下正態線性回歸模型參數的假設檢驗
一種伯努利原理研究的實驗裝置
淺談關于n重伯努利試驗概率計算問題
基于泛正態阻抗云的諧波發射水平估計
半參數EV模型二階段估計的漸近正態性
三個高階伯努利多項式與等冪和多項式的對稱等式
基于正態變換的貸款組合定價模型構建及實證
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合