?

基于機器學習的車險索賠頻率預測

2019-05-11 07:47曾宇哲吳嬡博鄭宏遠羅來娟
統計與信息論壇 2019年5期
關鍵詞:車險廣義線性

曾宇哲,吳嬡博,鄭宏遠,羅來娟

(中國人民大學 統計學院,北京 100872)

一、引言

目前,國內車險業務占非壽險保費的70%左右,隨著商車費率市場化的推進,保險公司擁有更多的自主定價權,行業競爭日益加劇。同時,車聯網的發展以及“互聯網+”和大數據等新興技術進入保險領域,保險公司可以用來定價的數據維度越來越豐富,數據量越來越大。大數據時代,數據的高維性和復雜性對統計研究者提出了新的挑戰,而針對新問題傳統的預測技術難以對其進行充分的刻畫,故需尋求更為有效的預測工具[1-2]。

當前,全球已進入數字經濟的時代,新的技術和數據的發展對精算定價方法提出了新的要求。隨著存儲資源和計算資源成本的大幅下降和性能的大幅提升,各類數字技術如物聯網、云技術使得數據的采集、存儲、分析和共享變得愈加可行且易于進行[2]?;ヂ摼W行業廣泛使用的機器學習和數據挖掘方法開始引起了精算界的關注,也已被嘗試性地應用于車險費率的定價之中。

目前,國內已經有一些將機器學習應用于車險領域的研究成果。有學者將神經網絡與車險索賠頻率預測結合起來,發現神經網絡模型的預測效果通常要優于常用的廣義線性模型;戴之遙探索了Boosting方法在車險定價中的應用場景,提出機器學習與數據挖掘方法的效果明顯優于傳統廣義線性模型,機器學習方法可以處理變量間存在交互效應、非線性關系結構、存在缺失值和異常值的數據,對原始數據預處理的要求比較低[3];孟生旺等人將支持向量機、神經網絡和集成學習等機器學習算法應用于汽車保險的損失預測,建立了索賠發生概率的預測模型和累積賠款的預測模型,并與傳統廣義線性模型中的Logistic回歸模型和伽馬回歸模型進行了比較,發現機器學習算法的優點是不依賴于分布假設,在一定程度上可以提高保險損失預測的精度,而缺陷是比較耗時、建模過程中的人為干預較多,并對使用者提出了更高的要求,且輸出結果的可解釋性不及廣義線性模型[4];在此基礎上,孟生旺和黃一凡又比較了Logistic回歸與機器學習方法在出險概率預測中的效果,并且認為XGboost方法對于出險概率的預測能力更優[5]。

在國外,Guelman介紹了梯度提升算法,認為梯度提升算法在處理車險數據的多分類變量、自變量相關和非線性特征等特點上更有優勢,對于數據的缺失和非清潔有較好的抗干擾效果,并通過對某車險數據的擬合和預測得出梯度提升算法效果優于廣義線性模型,同時用相對重要性和偏相關性進行了變量重要性排序[6];Yang等探索了如何將廣義線性模型與梯度提升方法結合起來,提出了TDboost模型并且完善了對應的程序包和支持文件,其主要思想是將廣義線性模型中常用的Tweedie分布作為提升算法的弱學習器,再用梯度提升算法估計參數,在車險賠付預測中取得了較好的效果[7];Sakthivel和Rajitha探索了人工神經網絡在車險中的應用,通過數據驗證得出神經網絡模型比零膨脹泊松模型和零膨脹Hurdle模型更優、神經網絡模型比貝葉斯信度模型更優的結論[8-9];Lee等在某車險數據上應用了一種改良提升算法的Delta提升機,并將結果與傳統的梯度提升算法加以比較,發現預測誤差的差距較小,而且沒有顯著的改善,同時在某車險數據集上測試了廣義線性模型(GLM)、廣義可加模型(GAM)、梯度提升機(GBM)、Delta提升機(DBM)和分類回歸樹(CART),并且比較了不同模型的效果[10]。

綜上所述,以上作者的成果都是基于某一特定的數據集,因部分成果比較的方法較少,較難支持機器學習優于廣義線性模型的結論。因此,本文收集了7個不同的數據集,應用目前比較流行的5種機器學習方法,包括支持向量機(SVM)、隨機森林(Random Forest)、人工神經網絡(ANN)、深度神經網絡(DNN)、梯度提升(XGboost),與廣義線性模型(GLM)進行比較。

二、模型介紹

此部分簡要介紹6種算法模型,包括廣義線性模型和5種機器學習算法。理論上,這6種算法都有非常豐富的內涵和很多改進算法,而本文主要從工程應用角度出發,通過一些常用的開源程序來進行計算比較,因此不再詳細解釋這些算法的數學模型,僅給出其基本思想、程序來源和主要參數。

(一) 廣義線性模型(GLM)

目前,廣義線性模型已被普遍用于車險定價,其優點是應用簡便,有很多統計軟件可供使用,而且可對參數估計結果進行直觀解釋,但模型需要事先確定因變量和解釋變量之間的函數關系,函數形式比較有限,實務中通常采取對數連接函數;廣義線性模型不能自動識別解釋變量之間的交互作用,這也使得建模過程比較耗時;如果分布假設有誤,基于AIC選擇的最優模型,其擬合值的誤差平方和可能并不是最小的。

本文使用R中的gamlss包進行廣義線性模型擬合,建立線性回歸、泊松回歸、負二項回歸、零膨脹泊松回歸、零膨脹負二項和泊松逆高斯模型;建立模型后,剔除不顯著的協變量,重新建模;然后比較各個最終模型的最小信息準則(AIC),再選取AIC最小的模型作為最優的廣義線性模型。

(二)支持向量機(SVM)

SVM算法在解決高維特征的分類問題和回歸問題很有效,即使在特征維度大于樣本數時依然有很好的效果,特別是當樣本量不是海量數據的時候,SVM分類準確率高,泛化能力強。同時,SVM有大量的核函數可以使用,從而可以很靈活地解決各種非線性的分類回歸問題。但是,SVM也有一定缺點:在樣本量非常大、核函數映射維度非常高時,計算量過大,不太適合使用;非線性問題的核函數的選擇沒有通用標準,難以選擇一個合適的核函數;SVM對缺失數據敏感[11]。

本文使用Python軟件sklearn包中的SVR函數對車險索賠頻率進行預測,其中涉及到兩個重要的參數C與gamma。

1.懲罰參數(C)是對誤差的寬容度,用于平衡模型復雜度和損失,默認為1.0。C越大,說明越不能容忍出現誤差,這種情況容易導致過擬合;C越小,說明越能容忍出現誤差,這種情況容易導致欠擬合。因此,參數C太大或太小都是不恰當的,一般可通過N折交叉驗證方式確定參數C。

2.gamma是選擇RBF函數(徑向基核函數)作為kernel后該函數自帶的一個參數,隱含地決定了數據映射到新的特征空間后的分布。gamma值越大,支持向量越少;gamma值越小,支持向量越多。支持向量的個數會影響訓練與預測的速度。

(三)隨機森林(Random Forest)

20世紀80年代Breiman等發明了分類樹的算法,通過反復二分數據進行分類或回歸[12]。2001年Breiman把分類樹組合成隨機森林,即在變量的使用和數據的使用上進行隨機化,生成很多分類樹,再匯總分類樹的結果[13]。隨機森林在運算量沒有顯著提高的前提下提高了預測精度。

本文使用Python軟件sklearn包中的Random Forest Regressor函數對車險索賠頻率進行預測,其中涉及比較重要的參數包括最大特征數、子樹的數量以及葉子節點最少樣本數。

1.最大特征數(max_features)。隨機森林允許單個決策樹使用特征的最大數量,默認是“None”,意味著劃分時考慮所有的特征數。增加max_features 一般能提高模型的性能,因為在每個節點上有更多的選擇可以考慮,這同時也降低了單棵樹的多樣性,進而有可能導致錯誤率增大,而且max_features過大會降低算法的速度。一般來說,如果樣本特征數不多,比如小于50,默認選擇“None”即可。

2.子樹的數量(n_estimators)。在利用最大投票數或平均值預測之前,需要建立子樹的數量。較多的子樹可以讓模型有更好的性能,但同時讓代碼變慢。在處理器能夠承受的情況下,考慮到隨機森林的隨機性,應該選擇盡可能高的值,從而使預測更好更穩定。

3.葉子節點最少樣本數(min_samples_leaf)。葉子節點最少樣本數,默認是1。該值限制了葉子節點最少的樣本數,如果某葉子節點數目小于樣本數,則會和兄弟節點一起被剪枝;如果樣本量不大,可以忽略該值;如果樣本量非常大,則推薦增大該值。較小的葉子使模型更容易捕捉訓練數據中的噪聲,一般來說應該將最小葉子節點數目設置為50以上。

(四)神經網絡(ANN)和深度神經網絡(DNN)模型

神經網絡是受人類大腦中生物神經網絡處理信息的方式所啟發的計算模型,由Mcculloch和Walter第一次提出[14]。神經網絡在語音識別、計算機視覺和文本處理方面的許多突破性表現,使得該方法已成為學界和業界研究及應用的熱點。

神經網絡中的基本計算單位是神經元,通常稱為節點或單位。神經網絡接收來自其它節點或來自外部源的輸入,并計算輸出,每個輸入具有相關的權重(ω),根據對其它輸入的相對重要性來分配權重(ω)。該節點將函數f應用于其輸入的加權和,見圖1。

圖1 神經元結構圖

上述網絡采用數字輸入X1和X2,并具有與這些輸入相關聯的權重ω1和ω2。同時,還有另一個輸入1與權重b(稱為偏差)相關聯。作用于輸入值和權重的運算和上的函數被稱為激活函數(Activation Function),經過激活函數計算后的結果作為該神經元的輸出,而當將多個神經元組合起來并具有層次結構時,就形成了神經網絡模型。

本文使用Python軟件中Keras包搭建人工神經網絡和深度神經網絡,用以擬合索賠頻率,其中對于每個數據集都進行了參數的調整,以追求其結果的相對較優。對于人工神經網絡,設置3層:輸入層、隱層、輸出層;對于深度神經網絡,設置了7層:輸入層、5個隱層、輸出層。輸入層神經元數量與樣本變量數相同,輸出層神經元數量為1,隱層神經元數量根據數據集的不同進行了調整。

人工神經網絡和深度神經網絡模型均采用梯度下降作為優化器,MSE作為損失函數,訓練集中劃分10%作為驗證集,隱層設置“RELU”激活函數,設置3個回調函數:早停、儲存最好的模型結果、學習率下降。根據每個數據集的樣本量和數據集的特點,設置學習率和相應的參數。

深度神經網絡由于隱層數量較多,具有大量可以調節的參數,其模型調參的復雜程度大大增加,同時由于缺乏相關理論研究的支撐,大多數情況下模型的設定和參數的選擇都依賴于經驗,帶有很大程度的隨機性。對于較為復雜的模型,可能會在特定數據集上達到很好的預測效果,但是由于過擬合的問題,在推廣的過程中其精確性難以保證。

(五)梯度提升算法(Gradient Boosting)

Boosting算法最早是由弱學習和強學習概念引出的,其基本思想是用一系列的弱學習器去擬合樣本數據,每次迭代是對上一次迭代得到的模型預測值與數據差異的擬合,這樣即使每一次迭代中弱學習器的效果僅比隨機猜測略好,但是當有一定迭代次數之后都會得到較為理想的模型[15]。

梯度提升算法是在Boosting的理論基礎上,針對可導的損失函數在每一次迭代時不對損失函數最小化,而是擬合損失函數對上一次迭代模型的邊際導數,從而使得每次迭代都是沿著梯度下降,而這種下降方式已被證明是在凸函數條件下最快的收斂方式。

XGboost是eXtreme Gradient Boosting的縮寫,是基于梯度提升的一種算法變種。XGboost在Gradient Boosting的基礎上做了許多改進,其中最為重要的是引入了二階導數,用一階與二階導數逼近損失函數,這樣在優化過程中有更多的信息,同時XGboost在損失函數中加入了正則項,用于控制模型的復雜度,使得模型更加簡單,降低了過擬合程度。

本文中使用XGboost方法作為梯度提升算法的代表,主要通過python中xgboost模塊實現。在XGboost中重要的參數包括迭代次數、回歸樹的最大深度和學習率,其中迭代次數和學習率有一定的替代關系?;貧w樹的最大深度決定了回歸樹的枝椏個數,當回歸樹較深但是變量相對少時,會出現某些變量過多地重復出現在節點上,可能會導致過擬合甚至對于變量重要性的誤判。對于不同的變量個數和特征,回歸樹的深度會極大地影響到模型效果;迭代次數和學習率在某種程度上是相互替代的關系,一般而言學習率決定了每次迭代的步長,當學習率較低時需要較高的迭代次數來保證得到足夠的訓練;當學習率較高,即每次迭代步長都較大時,會適當減少迭代次數以免過度擬合出現。

在實際的模型訓練中參數調整是一個較為麻煩的過程,需要在不同的參數設定情況下進行比較,因而各個機器學習方法的調參可能并不是全局最優,而僅是在某一些參數范疇之內的最佳值,這給機器學習算法留下了較大的可能性和改進空間。

三、數據介紹

本文選取7個不同的車險數據集,見表1。為了簡潔,本文不再一一列出各數據集的描述統計,僅以數據集AutoClaim和Tangshan為例給出車險數據的常見變量類型。值得注意的是,前6個數據都是散車業務,而數據集Tangshan為車險團體客戶數據,與通常的散車業務有很大的不同,即沒有從人因子,定價因素主要集中在車輛信息,同一車隊內的車輛索賠有相依關系(組內不獨立性)等。一方面,專門針對車隊業務進行的定價研究相對較少;另一方面,基于車隊的車險業務在整個車險保費中約占30%,有非常重要的實際意義。

表1 數據集匯總表

(一)數據集AutoClaim

該數據是從SAS Enterprise Miner數據庫中檢索的汽車保險數據集,是由10 296條保單和29個變量組成的數據集,數據包含的變量信息見表2。

(二)數據集Tangshan

該數據來自人保財險唐山公司,共17 651份保單,是車隊保單。車隊數據由于不包含從人因素,大部分變量都是與車有關,因而大部分都是無序分類變量,如車型和客戶群等;或者有序分類變量,如車齡和座位數等,同時變量間有較強的交互關系。數據包含的變量信息見表3,其連續性解釋變量和分類型解釋變量的描述性統計結果見表4和表5。

(三)數據預處理

由于標準化之后的數據可以避免變量量綱帶來的影響,故對上述7個數據集中自變量的數值型變量進行標準化,同時將字符型變量轉化為啞變量,對于數值型分類變量不做處理。需要注意的是,在某些車險數據集中會有暴露數作為變量出現,其含義為保單存續期,在GLM中一般會將其作為模型中的OFFSET項處理,基本思想是將不同暴露期的保單索賠折算到單位時期內的索賠次數。為保持一致,本文在機器學習模型中將折算后的單位暴露時期內索賠次數作為因變量,而不再將暴露數作為自變量加入模型。

表2 數據集AutoClaim的變量信息表

表3 數據集Tangshan的變量信息表

表4 數據集Tangshan連續性變量描述性統計分析表

表5 數據集Tangshan中分類變量描述性統計分析表

此外,機器學習中有時會對數據不平衡問題進行干預,本文中有的數據存在較為明顯的不平衡數據問題,即不索賠的保單占絕大多數的情況。針對這些數據集,本文嘗試了簡單重抽樣和SMOTE(Synthetic Minority Over-sampling Technique)方法分別對數據進行預處理,以達到索賠與不索賠保單數在同一數量級的效果,但是處理后的擬合結果并未明顯得到一致改善,故最終在預處理中對不平衡數據問題不進行干預。

四、實證結果分析

(一)各種方法的最優模型和最優參數

以下將列出6種方法在不同數據集上的最優模型和最優參數。對于廣義線性模型,采用最小信息準則作為最優模型的選擇標準,其中泊松逆高斯模型是假定損失次數服從泊松分布,而泊松分布的參數服從逆高斯分布;零膨脹模型是在基礎模型上引入零膨脹參數進行回歸。對于其它的機器學習算法,本文采用交叉驗證的方法來確定最優參數,損失函數設置為均方誤差。

本文基于交叉驗證數據建模,以避免劃分數據集導致的隨機偏差。首先,對總的樣本進行無放回地隨機抽取樣本,并將之等分為5份,依次將各20%數據集作為測試集用于檢驗和評價模型的效果,并將對應剩余80%的數據集合并作為訓練集,用于建立和修正模型;其次,通過對5次建模的均方誤差等指標進行平均,得到最后結果。

(二) 各種方法的比較分析

在比較不同模型效果時,本文主要采用均方誤差作為評價指標,即:

(i=1,2,…,n)

從表6和圖2可以看到7個數據集在6種不同方法下的預測結果,其中的變量個數是啞變量化后的變量個數。表6顯示了以廣義線性模型為基礎(設置為100%),不同機器學習方法預測的MSE與廣義線性模型的MSE比較;圖2展示了各種預測方法MSE的相對大小,由于數據集差異難以進行絕對值的比較,本文的展示方法是將柱狀圖上下兩端分別固定在該數據集上效果最好與最差的方法,其它方法按比例排布于兩者之間,從左至右按數據變量個數遞增排列。

表6 各方法與廣義線性模型的MSE比較表

對比各種方法在不同數據集上的表現,可以看出:

(1)XGboost的預測效果最好,在5個數據集上的預測效果均最優,在所有的數據集上一致地優于廣義線性模型,具有很強的穩健型;廣義線性模型的表現比較平庸。

(2)在同一個數據集上,大多數機器學習方法預測的MSE差距較小,不同方法可能已經達到了相對較優的預測效果。

(3)DNN的預測效果均優于ANN,隱層數量較多的神經網絡體現出了比較明顯的優勢,但是參數調節的過程會花費大量時間。

(4)變量數量較多時機器學習算法均優于廣義線性模型,說明當數據集的變量較多時,機器學習體現出了明顯優勢,同時機器學習算法在面對數據量較大的數據集時并沒有體現出特別明顯的優勢。

(5)隨機森林模型善于處理分類數據的優勢在數據集Tangshan上得到了體現,并在自變量幾乎全部都是分類變量的情況下取得了最好的效果。

(6)支持向量機的預測效果在大多數數據集上弱于其它機器學習方法,但是當變量數增多時仍然會優于廣義線性模型。

從統計學角度而言,當樣本數目已經足夠大時,新增加的樣本并不會額外提供太多的信息,額外的樣本可以被視為已有樣本的某種重復,特別是在車險數據中大部分的自變量是分類變量,即只是某種標簽,某一類標簽的樣本可能會反復出現,因而機器學習的結果并不會進一步改善;而當變量增多時,可以提供額外的信息或分類標準,但是多變量導致的復雜相關關系難以被廣義線性模型揭示;從圖2中可以看到,當數據集按照變量數從小到大排列時,在變量數較少的數據集Claimlong和Swedish上,廣義線性模型仍然會優于大多數模型,而當變量數達到10以上時,廣義線性模型的表現就顯著地弱于大部分機器學習模型了。

同時,本文也基于平均絕對誤差和Gini系數對模型進行評判,平均絕對誤差(MAE)為:

(i=1,2,…,n)

Gini系數由Frees等提出,主要用于評價保險中的風險分割,取值在-1~1之間,詳細計算方式可見文后附錄。一般而言,Gini指數越大,風險分割效果越好,從而保險評分和基礎統計模型越好。需要注意的是:Gini系數用于衡量模型對于風險的識別效果,當預測值(或者風險評分)的序完全反映了對應真實投保人的索賠記錄時(本文中指索賠次數),Gini系數越接近于1,即當預測模型的結果在所有預測值中的相對位置排序與真實值的排序位置相近時,Gini系數的表現越好;但同時,Gini系數的缺點在于其只關注了風險區分,即預測值的以序為代表的相對大小,因而不一定與MSE等指標相一致。本文提供平均絕對誤差和Gini系數的簡要結果見表7和表8所示,以此作為模型評價參考。

表7 各方法與廣義線性模型的MAE比較表

表8 各方法與廣義線性模型的Gini系數比較表

從表7表8可以看出,平均絕對誤差與均方誤差的結果類似,且XGboost方法一致地優于廣義線性模型;大部分數據集上XGboost和隨機森林的Gini指數最大,超越了廣義線性模型,但是廣義線性模型表現最為穩定,其風險區分效果較好。

五、結論

本文使用了7組不同的數據集,比較了廣義線性模型和5種機器學習算法在預測索賠頻率上的效果。盡管6種方法都存在很多種改良的途徑,對于精通某類模型的學者而言,該方法的預測效果可以超越本文顯示的情況,但從工程應用角度出發,通過一些常用的開源程序就可以達到商業的要求,大大減少了建模成本,是非常好的選擇。因此,本文的目的是從商業實用的角度,兼顧模型的可實現性和效果而進行比較。

本文結果顯示:機器學習算法不亞于廣義線性模型的表現,并且XGboost算法能夠在所有數據集上都一致地優于廣義線性模型;機器學習算法在面對變量數較多的數據時,預測效果相對更好。

本文的不足在于只考慮了較為基礎的廣義線性模型,未能對各個數據的特征進行進一步的研究,如使用copula或者將變量間相互組合再作為新的變量加入模型。

在實務中,廣義線性模型由于預測準確度高以及運行速度快,被大量地應用于車險定價中。但是,廣義線性模型是建立在各種分布假設之上,而實際的損失數有時可能難以滿足這些分布假設,進而有可能造成預測結果不準確。本文的結論為車險定價提供了一種新的思路:經過嚴格參數調整的機器學習算法能夠獲得比廣義線性模型更優的預測結果。由于機器學習算法不需要基于一定的分布假設,沒有對變量取值的限制,在方法的適用性上要優于廣義線性模型,并且在面對變量較多、數據量較大的數據時,能夠有更好的預測效果。

機器學習模型也有其自身的劣勢,比如模型難以解釋、運行時間過長等。保險公司為了提高定價的準確性,為了更精確的模型而舍棄了可解釋性和運行速率是可以接受的,機器學習算法在車險定價中仍然具有廣闊的前景,并待以挖掘。

附錄:有序Lorenz曲線和Gini系數及其計算方法。

Frees等定義了有序Lorenz曲線(Ordered Lorenz Curve)和對應的Gini指數,主要應用于保險中的風險分割和模型選擇[19]。

定義一份保單的保險損失為y,保費為P(X),且假設損失y和保費P都依賴于保單持有人的特征變量X。損失y的分布在0處有較大的概率堆積,且尖峰后尾,從而很難直接比較損失的分布和保費的分布。所以,引入另一個變量R,即相關度(Relativity)。

給定樣本集合{(xi,yi),i=1,2,…,n},其中xi表示與第i份保單有關的解釋變量,yi表示第i份保單的損失,則保險人在i保單的凈損失為l(xi,yi)=yi-P(xi),期望損失為:

EΙ(i∈A)l(xi,yi)

=ExEy|xΙ(i∈A)(y-P(xi))

=ExΙ(i∈A)(m(xi)-P(xi))

其中m(x)=E(y|x)是回歸函數,而A集為某些保單集合,使得凈損失的均值為負,即:

i∈A?m(xi)

因而選擇一個分數s(x)作為m(x)的近似值,當m(xi)

其中R越小,表示保險人在收取單位保費時承擔的風險越小。假設當R=R(x)≤s時,保險人愿意承保。定義保費P(x)的分布函數和經驗分布函數分別為:

同理可得,損失的分布函數和經驗分布函數為:

圖3 Lorenz曲線示例:Car數據集與GLM方法圖

在實際中,不同方法的有序Lorenz可能會出現交叉,為避免這種情形,Frees等建議使用基尼系數指標,定義為有序Lorenz曲線與盈虧平衡線之間面積的兩倍,或以積分形式定義:

一般而言,Gini指數越大,風險分割效果越好,從而保險評分和基礎統計模型越好。經典的Gini指數在0,1取值,此處的Gini指數的取值范圍擴展到了-1,1,其中取負數的情況是由于對根據相關度排序的保單未能真正反映對應的風險,即有序勞倫茲曲線折向對角線上方的情形。同樣,由于有序Lorenz曲線有其“隱性邊界”存在,Gini系數有理論最大值,即有序Lorenz曲線與對角線所圍成最大面積的兩倍。

在本文中,由于數據集中沒有保費信息,借鑒Qian等的方法[20],在計算Gini指數的時候將保費函數看做常數,即P(·)≡1,則相關度為:

此處,用預測值作為E(y|x),即根據預測值的結果得到序,然后將實際值按照預測值的序進行排序,進而畫出有序Lorenz曲線,并計算得到Gini指數。

需要特別注意的是:由于各模型的預測值只起到了排序的作用,可以理解為某一保單在所有預測值中的序與實際損失(本文中指索賠頻率)的序越接近,則有序Lorenz曲線越接近“隱性邊界”,因而對應的Gini系數值越大,效果越好。通俗地說,有序Lorenz曲線和Gini系數表現得好則意味著模型越能識別各保單的風險高低,然而這種以序體現的在所有保單損失預測值中的相對大小,并非與均方誤差等度量預測值和實際損失值偏離程度的指標相一致。

猜你喜歡
車險廣義線性
基于博弈論的我國UBI車險發展趨勢研究
L-拓撲空間廣義模糊半緊性
基于改進DeepFM的車險索賠預測模型的研究
廣義仿拓撲群的若干性質研究*
線性回歸方程的求解與應用
車險監管力度加大,24家機構被叫停商車險
從廣義心腎不交論治慢性心力衰竭
二階線性微分方程的解法
一類特別的廣義積分
非齊次線性微分方程的常數變易法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合