?

一元線性回歸模型的參數估計法的誤差分析

2014-07-20 11:54唐薇馮長煥
宜賓學院學報 2014年12期
關鍵詞:平方和穩健性參數估計

唐薇,馮長煥

(西華師范大學數學與信息學院,四川南充637002)

一元線性回歸模型的參數估計法的誤差分析

唐薇,馮長煥

(西華師范大學數學與信息學院,四川南充637002)

對橫向距離平方和最小法與最小二乘法的誤差進行分析,發現二者的誤差大小與擬合直線的斜率有關.這兩種方法的參數估計表達式與最小距離平方和法的參數估計表達式有相應的關系.通過舉例比較和討論了這三種數據擬合方法的優劣,并分別給出了較合理的應用控制條件.

參數估計;橫向距離平方和最小法;最小二乘法;回歸分析

數據擬合的原理是:給定一組觀測數據(或散點等)(xi,yi)(i=1,2,3,…,m),在某一類曲線中尋找一條最佳曲線y=φ(x),使該曲線擬合這些數據,曲線的選取要靠經驗和對數據的直觀分析,因此有時稱為經驗公式,最佳的標準是使總體誤差最小.如果采用絕對誤差,數學上采用微積分知識求最小值不容易處理,因此通常采用最小二乘法來處理[1].

橫向距離平方和最小法跟最小二乘法一樣是一種將距離簡化處理的方法,它們分別采用橫向(x向)和縱向(y向)離差代替綜合離差(x向和y向),降低了運算的復雜程度,但同時帶來了一定的誤差.

1 兩種方法的誤差分析

1.1 兩種方法的參數估計準則

最小二乘法是給出一條直線,使得每個樣本點離這條直線的縱向距離的平方和達到最小[2].其縱向距離平方和為

從式(1)可以看出最小二乘法屬于單方向(縱軸y向)的數據擬合,即用表示待擬合點(xi,yi)到擬合直線的距離.顯然di縱不是點到直線的垂直距離(最小距離),因為它只是單方向(y向)擬合.最小二乘法所得參數a,b的估計值為:

橫向距離平方和最小法是給出一條直線,使得每個點離這條直線的橫向距離的平方和達到最小[3].令橫向距離平方和為

從式(2)可以看出橫向距離平方和最小法屬于單方向(橫軸x向)的數據擬合,即用表示待擬合點(xi,yi)到擬合直線的橫向距離.同樣di橫不是點到直線的垂直距離(最小距離),因為它只是單方向(x向)擬合.橫向距離平方和最小法的參數a,b的估計值為:

1.2 圖形分析兩種方法的誤差

現通過圖示來進一步分析前兩種簡化處理的方法和全最小二乘法的差別.如圖1,設擬合的曲線為y=a?+b?x,其與x正方向的夾角為α,則有tanα=b.過任一待擬合點(xi,yi)分別作出其到擬合直線的最小距離di、縱向距離di縱、橫向距離di橫.顯然存在幾何關系di=di縱cosα=di橫sinα.令

當||b=1時,Δ縱=Δ橫,最小二乘法和橫向距離平方和法的誤差相等,兩種方法求得的擬合直線相同.當||b>1時,Δ橫<Δ縱,應采用橫向距離平方和最小法精確度更高.當||b<1時,Δ縱<Δ橫,應采用最小二乘法精確度更高.

圖1 橫向距離平方和最小法與最小二乘法的差別

雖然這兩種方法有一定的擬合誤差,但它們是一種十分重要的簡化處理手段.最小二乘法是假設自變量沒有觀測誤差,橫向距離平方和最小法是假設因變量沒有觀測誤差.從誤差分析來看,最小距離平方和法即全最小二乘法可以改善這些問題.為所有樣本點(xi,yi)到直線y=a+bx的垂直距離的平方,因為,所以使上述(1)式和(2)式的和M+N達到最小即是使樣本點到直線的垂直距離的平方和最小,即:

通過這次活動,山西省孝義市中和路小學將遵從傳統儀規,以禮樂致敬先賢,吟誦經典,傳承禮儀,在中和這片沃土上,人人爭做“中允明德,和協至善”的好少年!

設(xi,yi)到擬合直線的距離為di,則使

為全最小二乘法的準則.當模型中難以區分因變量和自變量時,即所有變量都有不可忽略的誤差時,使用經典的最小二乘法已經不再合適.這就需要使用考慮了所有變量誤差的全最小二乘法.與經典最小二乘法相比全最小二乘法得到回歸參數與真實模型參數更為接近[4].

對b求偏導,得:

一個表達式與橫向距離平方和法求得的一致,另一個表達式與最小二乘法求得的擬合直線是互相垂直的關系,說明最小距離平方和法的斜率參數應小于或等于橫向距離平方和法的斜率參數.

最小距離平方和法的斜率參數的選擇可根據擬合結果y倚x是正相關還是負相關.計算線性回歸分析中的相關系數,當r>0則選擇,當r<0則

2 三種參數估計方法的應用控制條件

運用國家統計局公布的關于中國1994-2004年旅游年總收入數據,自變量t是年份序號,因變量y是旅游總收入,建立一元線性回歸模型(表1).

表1 1994-2004年我國旅游年總收入Table1 1994-2004 annualgross incomeof tourism

根據最小二乘法、橫向距離平方和最小法、最小一乘法、全最小一乘法四種方法的原理,利用SPSS和LINGO軟件建立的一元線性回歸方程分別為:

利用全最小二乘法得到的回歸方程為:

前四種方法的殘差平方和分別為556 366.8、112 376.6、658 827.6、659 987.4,而全最小二乘法的殘差平方和僅為34 748.42,表明全最小二乘法更符合實際,它的參數估計精度較高.但不能忽略橫向距離平方和最小法在大斜率時擬合效果好且容易求解的優勢.

為檢驗各種方法的穩健性,采用前后均值法把2003年的旅游收入用2002年與2004年的數據的平均值4 294.535取代,并假設是在不受異常點影響下建立的模型.通過SPSS和LINGO軟件重新根據四種方法的原理對模型的參數進行估計,獲得的公式分別為[3]:

此時利用全最小二乘法得到的回歸方程為:

穩健性是指當個別點變化時,最優直線也發生變化,其強弱由參數相對變化率反映[6].參數的相對變化率越小,說明此種方法的穩健性越好.表2給出了不同方法下參數的變化率.

表2 不同方法下參數的變化率[3]Table2 The rateofparameters changeunder differentmethod

通過比較可以發現全最小二乘法參數b的穩健性很好,參數a的穩健性不好.因為ˉ,異常值處理方法不當使得差異很大,引起參數a的穩健性不好.但該方法的穩健性高于最小二乘法.

全最小二乘法考慮的是綜合離差,該方法所得直線方程不會因為坐標系選取的不同而改變.盡管全最小二乘法可減少數據擬合的誤差.但不能忽略橫向距離平方和最小法在大斜率時擬合效果好且容易求解的優勢.

4 結論

為了兼顧各種方法的優點,根據它們的應用控制條件,得到如下結論:

(3)全最小二乘擬合精度高但計算較為麻煩,并且它的解不適合作預報[8].前兩種方法求解的方程為回歸方程,并非相關方程,原因是它要求相關的兩個變量一個為因變量一個為自變量,且假設其中一個變量沒有觀測誤差.前兩種方法帶來的誤差并不能保證雙向(x向和y向)同時相關,所以在求解相關方程時只有采用全最小二乘法才能得到滿意的相關關系.

[1]周浩.線性時間擬合方法的誤差分析及其改進應用[J].大學數學,2013(1):70-76.

[2]曹昭.一元線性回歸中的相關系數與回歸直線斜率探討[J].統計與決策,2009(9):147-148.

[3]唐薇,馮長煥.參數估計的新方法——橫向距離平方和最小法[J].綿陽師范學院學報,2013(8):9-14.

[4]王福昌,曹慧榮,朱紅霞.經典最小二乘與全最小二乘法及其參數估計[J].統計與決策,2009(1):16-17.

[5]WuW L,Zhang Y,Fu ZQ,etal.A new leastsquaremethod on linear fitting[J].Scientific Journalof Electrical Engineering,2013,3(1): 8-12.

[6]楊桂元.最小一乘法在建立預測模型中的應用[J].江蘇統計, 1998,(5):17-19.

[7]楊述武,趙立竹,沈國土.普通物理實驗(力學及熱學部分)[M].第4版.北京:高等教育出版社,2007.

[8]張洪俄,黃勁東,范文雷.全最小二乘法及其在參數估計中的應用[J].1995(1):40-47.

【編校:許潔】

Error Analysisof Parameter Estimating Method in Single Variable Linear Regression

TANGWei,FENGChanghuan
(CollegeofMathematicsand Information,ChinaWestNormalUniversity,Nanchong,Sichuan 637002,China)

Theminimum sum of lateraldistance square and the leastsquaremethod were analyzed,finding that theirerror are related to the slope of the fitted line and that the parameter estimating expression of the twomethods are associated with the expression of the least distance squaremethod.Through comparison,the advantages and disadvantages of the threemethodswere discussed and reasonableapplication control conditionsweregiven.

parameter estimation;theminimum sum of lateral distance square;the leastsquaremethod;regression analysis

O212.1

A

1671-5365(2014)12-0018-04

2014-05-27修回:2014-07-09

唐薇(1989-),女,碩士研究生,研究方向為統計學理論及應用

馮長煥(1972-),女,教授,碩士生導師,研究方向為統計學理論及應用

時間:2014-07-11 09:33

http://www.cnki.net/kcms/detail/51.1630.Z.20140711.0933.002.htm l

猜你喜歡
平方和穩健性參數估計
基于新型DFrFT的LFM信號參數估計算法
一種GTD模型參數估計的改進2D-TLS-ESPRIT算法
費馬—歐拉兩平方和定理
會計穩健性的定義和計量
利用平方和方法證明不等式賽題
會計穩健性的文獻綜述
勾股定理的擴展
Logistic回歸模型的幾乎無偏兩參數估計
關于四奇數平方和問題
基于競爭失效數據的Lindley分布參數估計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合