?

基于無截斷Bartlett核估計的函數重構方法及其應用

2021-06-29 07:08李氣芳蘇梽芳
關鍵詞:相依協方差重構

李氣芳 ,蘇梽芳,馬 翠

(1.閩南師范大學數學與統計學院,福建漳州363000;2.華僑大學經濟與金融學院,福建泉州362021;3.漳州第一職業中專學校,福建漳州363000)

大數據時代,隨著科學技術的發展和存儲技術的提高,越來越容易收集到函數型數據(Functional Data)[1].函數型數據分析(Functional Data Analysis,FDA)已經成為統計分析的一個研究熱點,廣泛地應用到氣象[2]、生物[3-4]、金融[5-8]等領域.

函數型數據分析的第一步,也是非常重要的一步,是如何利用平滑技術準確的把收集到的函數型數據重構成函數曲線,函數曲線重構的好壞直接影響到模型估計、預測等相關統計分析.函數重構的方法一般分為兩種:一是利用給定的外生基函數(如樣條基、傅里葉基等),把函數曲線重構成某種外生基函數的線性組合[9-10];二是利用內生的譜分解方法,對協方差函數進行分解,得到正交特征函數(函數主成分),再利用K-L 展開式來重構函數曲線[11-12].外生基函數的重構方法與數據本身無關,而內生的函數主成分方法是數據本身驅動的,所以該方法越來越受專家學者青睞.

然而,實際的數據分析中,經常會收集到一些函數型數據,由于系統慣性或時間上的延續性等原因,它們之間具有一定的相依性,比如經濟金融等領域的高頻數據.此時,樣本協方差函數不再是總體協方差函數的一致估計量.如果還利用獨立同分布下的協方差函數計算得到的函數主成分來重構函數曲線是不夠準確的,也會導致后續的統計分析出現偏差.針對這種函數型數據,Hormann 等[13]、Kokoszka 等[14]提出可以利用長期協方差函數代替協方差函數來修正.但是長期協方差函數的估計面臨著核函數和最優窗寬的選擇問題.如果核函數和最優窗寬選擇不合適,同樣會造成一定的估計誤差.

于是,本文把Kiefer[15]研究多元回歸模型中長期協方差估計的方法推廣到函數型數據情形,提出基于無截斷Βartlett 核的函數重構方法,該估計方法是基于無截斷Βartlett 核的,不需要選擇核函數和窗寬.從理論上講,它比傳統的長期協方差函數估計方法要簡便、合理,避免了選擇核函數和窗寬的人為主觀因素.最后,通過Monte Carlo模擬和實例進行了對比分析.

1 函數重構

1.1 基于協方差函數的函數重構

設Xi(t)(i= 1,2,…,n)為滿足如下條件的函數型數據,即當h≠0時,有

它的均值函數和協方差函數分別為

協方差函數滿足特征方程

從特征方程中解出正交的特征函數(函數主成分)?k(t)和特征值λk,代入K-L展開式可以得到重構函數為

其中(ξik,k≥1 )是獨立的隨機變量序列,E(ξik)= 0,var(ξik)=λk.函數主成分得分為

實際問題分析中,當收集到觀測數據后,可以計算樣本協方差函數

其中K是由方差比例(累積貢獻率)決定的,一般選取δ≥0.90.

1.2 基于長期協方差函數的函數重構

當收集到的是金融等領域中的函數型數據時,因為金融系統慣性,數據之間具有相依特征,即當h≠0時,有

此時的樣本協方差函數不再是總體協方差函數的一致估計量.Hormann 等[13]、Kokoszka 等[14]等提到可以利用長期協方差函數代替協方差函數來修正.

長期協方差函數定義如下:

其中Γ0= c(s,t),Γh(s,t)為自協方差函數

當收集到觀測數據后,利用核函數法對長期協方差函數進行估計:

雖然長期協方差函數可以很好的刻畫相依的函數型數據,但是對于長期協方差函數的估計面臨核函數和最優窗寬的選擇.常用的核函數是Newey-West估計

利用Newey-West估計得到樣本長期協方差函數后,就可以計算得到對應的主成分函數(t)和特征值,那么函數可以重構為

1.3 基于Βartlett核估計的函數重

Kiefer 等[15]研究了k元回歸模型中長期協方差估計的問題,構造一個基于無截斷Βartlett 核的長期協方差估計統計量,不需要選擇核函數和窗寬.長期協方差的具體表達式為

式(1)是直接對自變量向量進行估計得到長期協方差矩陣,我們把向量推廣到無窮維的函數.如果只討論時點變量s和t之間的長期協方差,有

那么,樣本長期協方差函數的估計式可推廣為

利用式(2)對長期協方差函數進行估計后,就可以計算得到對應的函數主成分?(t)和特征值,進而求得函數主成分得分,最后把函數重構為

2 數值模擬與分析

利用Monte Carlo 模擬的方法對三種方法的函數重構效果進行比較分析.選取積分平方誤差平方根(XRISE)來評價函數重構效果,具體公式如下:

2.1 數據生成

為保證生成的函數型數據是相依的,借鑒Kokoszka等[14]的做法,數據由一階函數自回歸模型FAR(1)產生.其中誤差項εn(t)為標準正態分布,t在區間[0,1]上等間隔取101 個點.樣本容量n取30、50、100、200、300,每個樣本容量下模擬200次.

為了保證方法的穩健性,回歸系數函數選擇兩種形式:

1)借鑒Kokoszka等[14]的做法,令β1(s,t)= 0.5st;

2)借鑒Horváth等[16]的做法,令β2(s,t)=

具有的數值模擬步驟如下:

步驟1:利用標準正態分布生成(n+30)*101個隨機誤差數據,由FAR(1)模型生成(n+30)*101個自變量數據.

步驟2:為保證數據的客觀性,去掉前30條曲線數據,訓練集選取n*101個樣本數據.

步驟3:不考慮樣本的相依性,利用獨立同分布條件下的協方差函數得到函數主成分,然后利用函數主成分進行函數重構得到(t).

步驟4:考慮樣本的相依性,利用Newey-West估計式來估計長期協方差函數,然后利用函數主成分進行函數重構得到(t).

步驟5:考慮樣本的相依性,利用本文基于無截斷Βartlett核的方法估計長期協方差函數,然后利用函數主成分進行函數重構得到(t).

步驟6:計算積分平方誤差平方根(XRISE),并重復步驟1-5共200次,計算平均的XRISE.

步驟7:替換回歸系數函數β2(s,t),重復上述步驟.

2.2 結果分析

模擬結果見表1 和表2.FPC 表示獨立同分布條件下基于協方差函數的重構方法,NW 表示基于Newey-West 估計式的長期協方差函數重構方法,WTΒ 表示基于無截斷Βartlett 核的長期協方差函數重構方法.

表1 β1(s,t)下積分平方誤差平方根(XRISE)的均值Tab.1 Mean of XRISE under β1(s,t)

表2 β2(s,t)下積分平方誤差平方根(XRISE)的均值Tab.2 Mean of XRISE under β2(s,t)

從表1可以看出:1)每個樣本容量下,三種函數重構方法的誤差很接近;2)每個樣本容量下,考慮樣本相依性的估計方法NW 和WTΒ 比沒有考慮樣本相依性的方法FPC 的函數重構誤差要??;3)隨著樣本容量的增加,三種函數重構方法的誤差都有上升的趨勢.

同樣,從表2 也可以看出:1)每個樣本容量下,三種函數重構方法的誤差很接近;2)每個樣本容量下,考慮樣本相依性的估計方法NW 和WTΒ 比沒有考慮樣本相依性的方法FPC 的函數重構誤差要??;3)隨著樣本容量的增加,三種函數重構方法的誤差都有上升的趨勢.

綜合表1 和表2,每個樣本容量下,本文提出的基于無截斷Βartlett 核的長期協方差重構方法WTΒ 比現有的其他兩種函數重構方法的誤差要小,具有一定的穩健性.

3 實例分析

本文選取2018年滬深300 的5 分鐘數據,一共有242 個交易日,每個交易日有48 個數據.數據來源銳思金融數據庫(RESSET).每天共48個數據可以看成是由隨機函數曲線生成的函數型變量Xi(t)的一個樣本,基于R語言,對數據取對數,分別選取200、220、242天數據利用前文介紹的不同方法進行函數重構,函數重構誤差見表3.

表3 數據重構誤差均值Tab.3 Mean of data reconstruction error

從表3可以看出,隨著樣本容量的增加,三種函數重構方法的重構誤差都在增加.在每個樣本容量下,本文提出的基于無截斷Βartlett核的長期協方差重構方法WTΒ比現有的其他兩種函數重構方法的誤差要小,其他兩種方法的函數重構誤差幾乎一樣.

函數重構誤差小,說明方法利用觀測到的離散數據重構的函數更加準確,基于更加準確的重構函數進行的函數回歸分析、函數假設檢驗等也會更加可靠.

4 結論

本文把基于無截斷Βartlett 核的長期協方差估計方法推廣到函數型數據情形,提出了基于無截斷Βartlett核的函數重構方法,并通過兩種Monte Carlo模擬和2018年滬深300高頻數據進行了對比分析.數值模擬和實例分析均表明:1)三種函數重構方法的誤差很接近;2)提出的基于無截斷Βartlett核的長期協方差重構方法WTΒ比現有的其他兩種函數重構方法的誤差要??;3)隨著樣本容量的增加,三種函數重構方法的誤差都有上升的趨勢;4)方法具有一定的穩健性和有效性.

猜你喜歡
相依協方差重構
“雙減”能否重構教育生態?
長城敘事的重構
高鹽肥胖心肌重構防治有新策略
一種改進的網格剖分協方差交集融合算法?
相守相依
血肉相依
投資組合中協方差陣的估計和預測
基于子集重采樣的高維資產組合的構建
用四維的理念重構當代詩歌
相依相隨
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合