?

響應變量缺失下變系數部分線性模型的參數估計

2017-11-04 03:45歐玉蓮袁永生
重慶理工大學學報(自然科學) 2017年10期
關鍵詞:參數估計線性小麥

歐玉蓮,袁永生,李 磊

(河海大學 理學院,南京 210098)

響應變量缺失下變系數部分線性模型的參數估計

歐玉蓮,袁永生,李 磊

(河海大學 理學院,南京 210098)

基于兩步法思想,對響應變量隨機缺失下的變系數部分線性模型中的參數進行了估計,并通過模擬證明了改進后的兩步法對此類問題的解決是簡單有效的。實例分析了矮抗58小麥乳熟期抗倒伏情況。實例分析表明:對于小麥的抗倒伏性研究有一定的指導意義,說明了所提方法的合理性與可行性。

缺失數據;變系數部分線性模型;兩步法

1 背景

通常情況下,實驗終止、數據遺漏等各種人為及偶然因素均會導致數據缺失,這就使得對于數據缺失的處理變得十分關鍵。因此,對缺失數據的研究已成為統計學的一個熱點問題,并取得了一定的研究成果[1-3]。其中,響應變量缺失的情況更為常見,如楊宜平等[4]考慮響應變量存在缺失時部分線性模型的經驗似然推斷,給出了參數部分與函數部分的置信域和逐點置信區間。趙培信[5]研究了響應變量缺失下變系數部分線性模型的經驗似然估計,有效克服了在縱向數據中構造經驗似然比函數面臨的困難。趙麗棉等[6]考慮響應變量隨機缺失下的變系數部分線性模型,給出了參數分量的置信域,證明了其漸近服從標準卡方分布。

縱觀以上研究,關于響應變量隨機缺失的變系數部分線性模型的研究大都停留在對模型中參數分量的估計及其性質的討論,而且在估計參數時對于系數函數部分要求2階可微,而這在實際生活中往往很難滿足。本文放寬了2階可微這一條件,在條件期望存在時,使用多變量下的兩步法,考慮變系數部分線性模型,估計出模型中的參數部分與非參數部分,并通過模擬證明與實例分析,進一步說明了該兩步法在此種情況下使用的合理性,有一定的推廣意義。

2 估計方法

對于變系數部分線性模型,其一般形式為

Y=XTβ+ZTV(T)+ε

(1)

其中:Y是響應變量;X,Z以及T是協變量;β=(β1,β2, …,βp)T是p×1維的未知參數向量;V(·)=(V1(·),V2(·),…Vq(·))T是q×1維未知函數;ε是隨機誤差項,且ε與協變量間(X,Z,T)不相關,即E(ε|X,Z,T)=0,其中為了避免維數災害問題,通常假定T為單變量。

假設{(Yi,Xi,Zi,Ti),i=1,2,…,n}是來自模型(1)的一個不完全隨機樣本,它們獨立同分布。

(2)

這里的{(Xi,Zi,Ti)}是可以觀測到的數據集,但Yi是存在隨機缺失的。引入關于Yi的缺失指示函數δi,當δi=1時,Yi是可以獲取的;δi=0時,Yi是缺失的。在此假定Yi隨機缺失,固有

P(δi=1|Yi,Xi,Zi,Ti)=

P(δi=1|Xi,Zi,Ti)=π(Xi,Zi,Ti)

(3)

式(3)暗含在給定Xi,Zi,Ti的情況下,δi與Yi是獨立的,即缺失的概率只與能完全觀測的部分有關,而與存在缺失的部分無關。該假定是統計分析中常用的,且在實際應用中也是合理的。下面對響應變量缺失的情況進行討論。

將式(2)左右兩邊同時乘以示性函數δi,則有

i=1,2,…,n

(4)

類似地,采用兩步估計法,取關于Z,T的條件期望,可以得到

E(δiYi|Z=z,T=t)=

E(δiXi|Z=z,T=t)Tβ+

E(δi|Z=z,T=t)ZTV(T),

i=1,2,…,n

(5)

將式(5)左右兩邊同時除以E(δi|Z=z,T=t),有

i=1,2,…,n

(6)

對式(6)進行簡化,有

i=1,2,…,n

(7)

從而有

V(T)=V1(T)-V2(T)β

(8)

其中:

V1(T)=(ZZT)-1·Z·g1(Z,T)

V2(T)=(ZZT)-1·Z·g2(Z,T)

(9)

(10)

根據文獻[7]可對參數β進行估計,有

(11)

對V1(T)和V2(T)進行估計時,需得到g1(z,t)和g2(z,t)的估計,可考慮使用多變量核函數對其進行估計。因X,Z相互獨立,則有Kh1,h2(z,t)=Kh1(z,t)·Kh2(z,t)。

從而有

(12)

(13)

其中:Khi(·)=K(·/hi)/hi,K(·)為核函數,hi,i=1,2分別對應窗寬。

3 模擬研究

本節通過數據模擬研究所提方法在有限樣本下的表現,考慮如下半參數變系數部分線性模型:

Y=3X1+2X2+1.5X3+Z·V(T)+ε

(14)

數據產生如下:

在表1中給出了在兩步法下參數β估計的絕對偏差的平均值、標準差及均方誤差。

對于參數β的估計,從表1可以得到如下結論:1)對給定的缺失概率,隨著樣本量的增加,估計量的偏差雖有所波動,但總體趨勢在減小,且絕對誤差與均方誤差都極??;2)對給定樣本,隨著缺失比例的增加,該估計方法給出的估計量的絕對偏差、標準差和均方誤差均有所增加;3)即使是樣本個數比較小時,缺失概率有所增加,但參數估計的偏差、標準差以及均方誤差都很小,說明該法下估計的參數結果精良。

表1 兩步法下參數估計的偏差(Bias)、標準差(SD)和均方誤差(MSE)

續表(表1)

圖1 系數函數估計(a)、函數值估計(b)

對于非參數函數部分的估計,從圖1(a)可以看出:估計的系數函數與真實函數雖有一定的誤差,但除去部分異常點,估計的整體效果良好,誤差在±0.2內波動。此外,由圖1(b)可以看出:即使非參數部分的估計存在誤差,但對函數預測的影響極小,也進一步說明了該種方法的合理性。

4 實例分析

由文獻[11]可知:小麥的抗倒伏指數與自身的各指標間可建立一個半參數變系數模型,對于完整數據集假設響應變量存在隨機缺失,并利用本文所提的方法做相應的參數估計,結果表明該方法可有效預測小麥的抗倒伏性指數,這對提高小麥的產量研究有一定幫助。

本文選取2007 年矮抗58品種小麥的幾個不同時期生理指標作為研究對象,包括小麥各節長度、粗度,單個小麥的重心高度、莖稈壁厚、穗重等對小麥抗倒伏性研究較為重要的指標。具體數據見2011年數學建模中的c題中有關矮抗58 乳熟期數據。因機械強度是衡量小麥抗倒伏性的重要指標,故在此規定機械強度為響應變量,而其他的11個變量均為影響小麥抗倒伏性的重要因素。因其之間具有很強的相關性,因此通過因子分析對其進行降維處理。由spss的輸出結果可知,前3個成分的累積貢獻率可達76.369%,故在此主成分個數設置為3,取這3個主成分進行分析。通過繪制Y與這3個主成分之間的散點圖知,小麥機械強度與第1成分有較為明顯的線性關系,而與第2、3 成分沒有具體的函數形式,故對影響小麥抗倒伏因素的3個主成分與小麥的機械強度之間建立半參數變系數模型是合理的。

首先,建立模型為Y=Xβ+Z·V(T)+ε。其中:響應變量Y代表小麥機械強度;X代表第1主成分,即F1、Z、T分別代表第2、3主成分(F2,F3)。樣本數n=20較小,假定缺失概率為0.1,由模擬中隨機產生δ;再使用本文所提到的兩步法做參數估計,并利用估計的結果對Y進行預測。

圖2 函數預測值

由圖2可知:響應變量存在缺失數據情況下的改進兩步法估計(*)與完全數據下估計(o)的大部分估計值符合實際情況。對于一些突出的點,可能與源數據存在奇異情況有關,可忽略。以上實例很好地說明了在半參數變系數部分線性模型的協變量缺失數據的情況下,改進的兩步法在保證一定的精確度時使用起來更為簡單。

5 結束語

基于半參數變系數部分線性模型,考慮了響應變量存在數據缺失的情況,同時放寬對未知函數部分2階可微的條件限制,使用多變量下的兩步法對其中的參數部分及函數部分進行了估計。在保證參數估計精度的前提下,本文算法較以往的方法更為簡單,且適用面更廣。存在的不足是對未知函數的估計不是很穩定,不過這對最終函數值的預測影響并不大。最后通過模擬驗證與實例分析矮抗58小麥乳熟期的機械強度與其自身影響因素的關系,對于今后小麥的抗倒伏性研究有一定的指導意義。采用的實例較好地說明了這種改進兩步法的可行性與實用性。

[1] 方匡南,謝邦昌.基于聚類關聯規則的缺失數據處理研究[J].統計研究,2011(2):87-92.

[2] 于力超,金勇進.含非隨機缺失數據的面板數據參數估計方法[J].統計研究,2016(1):95-102.

[3] 龐新生.缺失數據處理中相關問題的探討[J].統計與信息論壇,2004(5):29-32.

[4] 楊宜平,薛留根,程維虎.響應變量存在缺失時部分線性模型的經驗似然推斷[J].高校應用數學學報A輯,2010(1):43-52.

[5] 趙培信.半參數變系數部分線性模型的統計推斷[J].中國科學:數學,2013(7):635-646.

[6] 趙麗棉,趙培信.響應變量隨機缺失下變系數部分線性模型的借補經驗似然推斷[J].應用數學,2011(2):2.

[7] WANG Q H,LINTON O,H?DLE W.Semiparametric regression analysis with missing response at random[J].Journal of the American Statistical Association,2004,466:334-345.

[8] 劉遠龍.核密度估計中的窗寬選擇方法[D].合肥:中國科學技術大學,2013.

[9] WANG Q H,SUN Z H.Estimation in partially linear models with missing responses at random[J].J Multiva-riate Anal,2007,98:1470-1493.

[10] 趙培信,薛留根.響應變量隨機缺失下的變系數部分線性模型的經驗似然推斷[J].工程數學學報,2010(5):771-780.

[11] 劉鋒,王利兵,徐振樞.基于半參數變系數部分線性模型的小麥抗倒伏性分析 [J].重慶理工大學學報(自然科學),2013,27(4):121-126.

(責任編輯楊黎麗)

ParameterEstimationforVaryingCoefficientPartiallyLinearModelwithMissingData

OU Yulian, YUAN Yongsheng, LI Lei

(School of Science, Hohai University, Nanjing 210098, China)

The modified two-step method is used to estimate the parametric and nonparametric components and the simulation results show that the improved two-step method is used well to the problem of the absence of response variables in partially linear models. In the end, we analyzed the relationship between the mechanical strength and the other effects of Aikang 58 wheat in the milk stage, which has a certain guiding significance to the research on Lodging resistance of wheat, and it also illustrates the rationality and feasibility of the proposed method.

missing data; semiparametric varying coefficient partially linear model; improved two-step method

2017-02-26

國家自然科學基金資助項目(11201116)

歐玉蓮(1993—),女,碩士研究生,主要從事統計學研究,E-mail: 790547365@qq.com。

歐玉蓮,袁永生,李磊.響應變量缺失下變系數部分線性模型的參數估計[J].重慶理工大學學報(自然科學),2017(10):211-215.

formatOU Yulian,YUAN Yongsheng,LI Lei.Parameter Estimation for Varying Coefficient Partially Linear Model with Missing Data[J].Journal of Chongqing University of Technology(Natural Science),2017(10):211-215.

10.3969/j.issn.1674-8425(z).2017.10.034

O212.7

A

1674-8425(2017)10-0211-05

猜你喜歡
參數估計線性小麥
主產區小麥收購進度過七成
漸近線性Klein-Gordon-Maxwell系統正解的存在性
基于新型DFrFT的LFM信號參數估計算法
孔令讓的“小麥育種夢”
葉面施肥實現小麥畝增產83.8千克
線性回歸方程的求解與應用
一種GTD模型參數估計的改進2D-TLS-ESPRIT算法
哭娃小麥
二階線性微分方程的解法
Logistic回歸模型的幾乎無偏兩參數估計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合