羅心藝, 彭作祥
西南大學 數學與統計學院,重慶 400715
設{Xn,n≥1}為獨立同分布的隨機變量序列, 其公共分布函數為F(x).若存在常數an>0,bn∈R使得對所有1+γx>0, 有
(1)
(2)
當分布函數F未知時, 對極值指數γ的估計是極值理論的一個重要組成部分, 受到了學者的廣泛關注, 常用于金融、保險、自然災害等領域.在分布函數形式未知的情況下, 文獻[1]提出了著名的Hill估計量, 推斷分布函數的尾部表現; 文獻[2-4]在一定條件下證明了Hill估計量的相合性和漸近正態性; 文獻[5]提出了矩率估計量, 并給出了其分布表示; 文獻[6]提出了一系列基于二階參數的外部估計得到的漸近無偏估計量, 并證明了其漸近性質; 文獻[7]證明了包含Hill估計量和矩率估計量在內的一系列尾指數估計量的漸近正態性.關于尾指數估計量的更多研究, 見文獻[8-10].
在大數據時代, 估計極值指數時, 常常會遇到被分開存儲的數據, 例如分析來自不同保險公司的保險索賠時, 為了保護客戶的隱私, 保險公司不能向外部分享具體的數據, 甚至不能分享任何索賠結果, 此時前文所提的Hill估計量和矩率估計量等都不可用.與大部分尾指數估計量的相關文獻一樣, Hill估計量等只使用了一部分秩序較高的統計量.文獻[11]和文獻[12]基于塊方法提出了DPR估計量.當數據被分組儲存且每組只有少數幾個最大的樣本可用于分析時, DPR方法是可行的, 但是它僅使用了每塊中最大的兩個樣本, 很可能并不是尾指數的充分統計量.
(3)
受文獻[13]啟發, 本文基于矩率估計量提出如下分布式矩率估計量
(4)
(5)
(6)
其中
(7)
定理1的證明由文獻[14]的定理B.1.9知, 對x>1和t≥t0有,
(γ-ε)log((1-ε)x) (8) 則 (γ-ε)2(log((1-ε)x))2<(logU(tx)-logU(t))2<(γ+ε)2(log((1+ε)x))2 (9) 由(10)式和(11)式可得 (12) 由文獻[15]的引理3.4知 其中{Ej(i),i=1, …,d}服從獨立同分布的標準指數分布,j=1,…,k.因此 (13) (14) 對定理2的證明, 我們需要下面這個輔助引理. 引理1令Z(1)≥…≥Z(m)表示服從Pareto(1)分布的獨立隨機變量{Z1, …,Zm}的次序統計量, 則對任意ρ≤0, 有 證見文獻[13]的引理S.3. (15) (16) (17) 對ρ<0, 存在δ>0使得ρ+δ<0, 應用不等式 可以得到 對于I2, 記 故 其后的證明方法與ρ<0的情況類似, 此處省略, 定理證畢. 本文提出了分布式矩率估計量, 下面將其與分布式Hill估計量進行有限樣本表現的比較.以γ=1,ρ=-1, 機器數量一定時, Burr分布的表現為例, 其分布函數為F(x)=1-(1+x)-1.隨機生成n個來自Burr分布的樣本, 存儲在k個機器中, 每個機器有m個觀測, 對每一個機器, 從m個觀測中選取d個超過數(d為自變量), 分別計算分布式Hill估計量和分布式矩率估計量的估計均值和均方誤差, 每個實驗重復s次并取平均值. 設置n=1 000,k=20,m=50,s=100,d的取值范圍為1,…,30, 模擬結果如圖1所示. 圖1 Burr(1)的分布式Hill估計量和分布式矩率估計量的估計均值及均方誤差3 模擬研究