熊賢祝, 周培欽
(福州大學數學與計算機科學學院, 福建 福州 350116)
函數型數據分析的基本思想, 是把觀測到的數據看成一個整體也就是將數據看作無窮維函數空間中的元素來進行處理和分析. 隨著測量技術的發展, 在諸如醫學診斷、氣象預報、心理學、經濟學以及生命科學等領域中都出現了函數型數據的統計問題, 函數型數據的分析方法在科學研究中顯得越來越重要. 關于函數型數據的分析方法和最新進展可參考文獻[1-3], 本研究主要考慮條件分位數. 眾所周知, 對于重尾的誤差分布以及異常值而言, 條件分位數是穩健的. 當數據是有限維時, 條件分位數的統計問題已經被很多文獻所研究, 而在函數型數據下卻較少研究. Ferraty 等[4]考慮了條件分布函數的NW估計, 建立了估計的完全收斂性并將結果應用到條件分位數.在獨立和相依函數型數據下, 文獻[5-6]均得到了條件分位數的核估計的漸近正態性并構造了正態逼近的置信區間.
就構造置信區間而言, 經驗似然方法得到了很多的應用, 該方法由文獻[7-8]提出, 與正態逼近方法相比有許多的優點(見文獻[9]). 比如, 由數據來決定置信區間的形狀, 而用正態逼近方法時, 其置信區間是對稱的, 需要特別指出的是, 該方法不用估計漸近方差. 所以經驗似然方法被廣泛地用來構造各種未知參數的置信區間(見文獻[10]). 在有限維數據下, 秦永松等[11]在有附加信息及沒有附加信息時應用經驗似然方法分別研究了條件分位數置信區間的構造, 隨后Liang[12]把文獻[11]的結果延伸到左截斷模型.
本研究將文獻[11]的結果延伸到函數型數據情形即在函數型數據下應用經驗似然方法來考慮條件分位數的置信區間. 在適當的條件下得到了經驗似然比統計量漸近服從χ2(1).
?y∈,
對固定的p∈(0, 1), 給定X1=x條件下Y1的p分位數θp(x)為
如果F(y|x)關于y連續, 那么F(θp(x)|x)=p.
在后面的條件A1)、A2)和A3)下, 由文獻[5]的引理2可知
由此可設經驗似然的得分函數
經驗似然比定義為
經驗似然比統計量為
其中:λ(θp(x))滿足
A1) 存在三個函數g(·)、φ(·)(設單調不降, 且φ(hn)→0)和ζ0(·)使得
Ⅰ)Fx(hn)=g(x)φ(hn)+o(φ(hn)), 其中g(x)>0.
A2) 核函數K是一密度函數, 其緊支撐為[0, 1]且在[0, 1)上一階導數連續. 其中,K(0)>0,K(1)>0, 且對?t∈[0, 1],K′(t)存在且K′(t)<0.
A3) Ⅰ) 存在兩個正數β和ν使得, ?(y1,y2)∈2, ?(x1,x2)∈U(x)×U(x), 有其中U(x)是x的某個領域,Cx是與x有關的一個正常數.
Ⅱ) ?t∈,H′(t)存在且有界,∞.
注1這里的條件A1)~A4)與文[5]中的A1)~A4)完全一樣. 條件A1)中 I)反映了函數型隨機變量Xi分布的集中程度, 在函數型數據下的非參數回歸分析中起著重要的作用. 另外, 文獻[13]列舉了一些滿足條件A1)的例子. 條件A2)和A4)是關于核函數和窗寬的條件, 在函數型數據下的非參數回歸分析是常見的.文獻[4]用到了條件A3)的 I), 另外由常見的核函數所得到的分布函數會滿足條件A3)的II).
主要結果如下.
定理1如果條件A1)~A4)成立. 那么
注2設zα滿足P(χ2(1)≤zα)=1-α, 0<α<1. 由式子(9)可知θp(x)的名義置信水平為1-α的漸近經驗似然置信區間:
首先引進一些引理.
引理11) 設條件A1)~A4)成立. 則對?y∈, 有
其中
及
2) 設條件A1)~A4)成立. 則
注3式(11)成立可由文獻[5]中定理1推得, 而式(12)成立則由文獻[5]中的引理2和引理3推得.
引理2設條件A1)~A4)成立. 則
證明 1) 由式子(11)和F(θp(x)|x)=p可推得
由式子 (12)、(16)和Slutsky定理可得
即式子(13)成立.
2) 分解式子(14)的左邊項
設對?u∈,Q(u)=, 其中則(u)du=1. 因此函數Q(·)也是核函數, 且Q滿足核函數K的條件A2), 所以由引理2可得:
即
同理由引理1中1)可得
其中
又H2也是分布函數且滿足分布函數H的條件A3)中的Ⅱ), 所以由引理1可得
由式子(19)~(20)可得
也就是
由條件A4)中I)可推出nφ(hn)→∞, 所以,
再由式子 (17)~(22)可得
最后由式子(17)、(23)可推得式子(14)成立.
3) 對?ε>0,
類似于文獻[5]中引理1的證明可得
1) 先證
那么
由式子(13)可得
由式子 (14)~(15)以及式子(27)~(28)可得
2) 證明
由式子 (8)可得
設Ui=λ(θp(x))ωni(θp(x)), 1≤i≤n. 由式子(15)和(26)可得
由式子 (14)、(15)、(26)和(31)可推出式子(30)右邊第三項的上界為
因此, 由式子(14)、(30)和(32)可推得式子(29)成立.
3) 由式子(31)可得
這里ηi滿足: 存在C>0使得
由式子 (14)、(15)和(26)可得
注意到Ui=λ(θp(x))ωni(θp(x)), 1≤i≤n, 由式子(7)、 (26)、 (28)、 (29)以及式子(33)~(35)有
最后, 由式子 (13)、(14)和(36)推得定理1.
[1] RAMSAY J, SILVERMAN B W. Functional data analysis[M]. New York: Springer -Verlag, 2005.
[2] FERRATY F, VIEU P. Nonparametric functional data analysis: theory and practice[M]. New York: Springer-Verlag, 2006.
[3] FERRATY F, ROMAIN Y. The Oxford handbook of functional data analysis[M]. New York: Oxford University Press, 2011.
[4] FERRATY F, LAKSACI A, VIEU P. Estimating some characteristics of the conditional distribution in nonparametric functional models[J]. Statistical Inference for Stochastic Processes, 2006, 9(1): 47-76.
[5] EZZAHRIOUI M, OULD-SAID E. Asymptotic normality of the kernel estimators of the conditional quantile in the normed space[J]. Far East Journal of Theoretical Statistics, 2008, 25(1): 15-38.
[6] EZZAHRIOUI M, OULD-SAID E. Asymptotic results of a nonparametric conditional quantile estimator for functional time series[J]. Communications in Statistics-Theory and Methods, 2008, 37(17): 2 735-2 759.
[7] OWEN A B. Empirical likelihood ratio confidence intervals for a single functional[J]. Biometrika, 1988, 75(2): 237-249.
[8] OWEN A B. Empirical likelihood ratio confidence regions[J]. Annals of Statistics, 1990, 18(1): 90-120.
[9] HALL P, LASCALA B. Methodology and algorithms of empirical likelihood[J]. The International Statistical Review, 1990, 58(2): 109-127.
[10] CHEN S X, KEILEGOM I V. A review on empirical likelihood methods for regression[J]. Test, 2009, 18(3): 415-447.
[11] 秦永松, 蘇淳. 條件分位數的經驗似然置信區間[J]. 數學年刊, 2000, 21(2): 231-240.
[12] LIANG H Y, UNA-ALVAREZ J D. Empirical likelihood for conditional quantile with left-truncated and dependent data[J]. Annals of the Institute of Statistical Mathematics, 2011, 63(2): 267-289.
[13] FERRATY F, MAS A, VIEU P. Nonparametric regression of functional data: nference and practical aspects[J]. Australian and New Zealand Journal of Statistics, 2007, 49(3): 267-286.