?

統計學教學中有關方差分析問題的探討

2024-01-25 05:16楊冰清王海亭
關鍵詞:因變量方差分數

張 俠,楊冰清,王海亭

(阜陽師范大學 信息工程學院,安徽 阜陽 236037)

方差分析是常用的統計方法,已被應用到各學科各領域當中。方差分析是統計學和概率論與數理統計中非常重要的章節。在科學研究與生產實踐中,一個事物常常受許多錯綜復雜的因素影響[1]。方差分析主要通過數據分析探究對該事物顯著影響的因素及其交互作用,或影響因素的最佳狀態。變量間關系可以分為函數關系和相關關系,函數關系是多對一或一對一的映射,如產品銷售額與銷售量的關系。相關關系是一對多的映射,如子女身高與父母身高間的關系。函數關系和相關關系可以相互轉化,函數關系是相關關系的特例。當兩個變量有相關關系,并不代表有因果關系,判斷兩個變量是否具備因果關系的統計方法主要有兩種:參數統計法,如檢驗和方差分析;非參數統計法,如Kruskal-Wallis 分析和Friedman 分析[2-3]。實際問題中,往往需要判斷一個變量對另一個變量是否具有因果關系。這就需要方差分析來解決。

本文主要圍繞“提出問題,分析問題和解決問題”的思路展開分析。首先,探討方差分析概念、解釋其基本思想、分析其優勢,探尋方差分析和回歸分析的關系;其次,詳細解釋方差分析計算步驟和求解方法。最后,強調掌握統計思想和統計方法的應用,引用兩個案例,詳盡探究方差分析的實踐應用過程。

1 方差分析的基本問題

1.1 概念及基本思想

方差分析在經濟學、社會學、醫學、商業和農業等諸多領域的數量分析中,發揮著極其重要的作用。方差分析是推斷統計中一種非常重要的統計方法,它表面上是檢驗多個總體的均值是否相等,其本質是檢驗分類型自變量對數值型因變量的影響[4-5]。如檢驗行業對被投訴次數是否有顯著影響,檢驗顏色對商品銷售量是否有顯著性影響等。依據分類型自變量的個數,將方差分析分為單因素方差分析和雙因素方差分析。本文僅探討單因素方差分析。其基本思想:自變量對因變量沒有顯著影響,組間均方等于組內均方;反之,組間均方遠大于組內均方[6]。

1.2 方差分析的優勢與不足

方差分析的優勢:方差分析是假設檢驗的延續。相較于t檢驗,在檢驗多個總體均值相等與否時,方差分析不僅能提高檢驗的效率,還將所有樣本信息融合在一起,減少犯α錯誤的概率,排除了錯誤累積的概率,增加了分析的可靠性[7-8]。

當然,方差分析有其不足之處:當檢驗結果拒絕原假設時,表明總體均值不全相等,方差分析不能得出均值大小的結論[9]。

1.3 方差分析與回歸分析的關系

現有文獻對于方差分析和回歸分析二者關系少有深入分析,回歸分析使用到方差分析思想,體現在方差分解上,總方差分解為回歸方差與殘差方差。正如參數顯著性檢驗是方程顯著性檢驗的特例,方差分析是回歸分析的特例。二者既有區別又有內在聯系,詳見表1 所示。

表1 方差分析與回歸分析的關系

2 方差分析的基本方法

2.1 直觀描述

如何判斷自變量對因變量是否有顯著影響?畫出因變量與各因素的箱線圖,使用中位數線將各因素對應的因變量中位數聯系起來。通過箱線圖進行直觀判斷[10-11]。

2.2 方差分解

本文僅考察單因素方差分析,即一個自變量對一個因變量的影響。X表示自變量,Y表示因變量。檢驗X在不同水平的變動對Y是否有顯著影響。單因素方差分析數據結構見表2 所示。

表2 單因素方差分析數據結構

xi(i=1,2,3,…,k)代表水平,分別來自于k個不同總體,yij表示第i個水平第j個觀測值。從不同總體中抽取樣本分別為n1,n2,…,nk[12]。

方差分析的基本步驟包含提出假設、構造統計量F和依據決策規則作出統計決策。下面分別進行詳細具體的分析:

2.2.1 提出假設

假設是對一個問題的看法,分為原假設和備擇假設。方差分析首先提出原假設H0:μ1=μ2=…μk,表示自變量對因變量無顯著影響;備擇假設H1:μ1,μ2,…,μk不全相等,表示自變量對因變量有顯著影響。

2.2.2 構造統計量F

2.2.3 作出統計決策

為檢驗自變量X對因變量Y是否有顯著影響。比較統計量與臨界值Fα(k-1,n-k) 大小即可,若F≥Fα(k-1,n-k),拒絕原假設,表明總體均值有顯著差異,說明自變量對因變量有顯著影響。若F<Fα(k-1,n-k),沒有充分理由拒絕原假設,表明總體均值沒有顯著差異,說明自變量對因變量沒有顯著影響。方差分析的一般形式,詳見表3。

表3 方差分析一般形式

3 方差分析應用案例

前面詳細探討了方差分析的概念、基本思想和求解步驟,為深入理解方差分析在實踐當中的應用,接下來通過兩個實踐案例分別梳理方差分析的詳細求解過程。

案例1:某高校財務管理、國際商務和中韓財管等3 個專業學生統計學筆試考試分數(原始數據略),試分析專業對統計學分數有無顯著影響。

各專業統計學分數描述統計分析如表4 所示。

表4 統計學成績描述統計分析

3.1 直觀分析

這是一個探討分類型自變量(專業)對數值型因變量(統計學分數)的影響,方差分析正是解決這一類問題的。首先直觀分析,詳見箱線圖1 所示。

圖1 不同專業統計學成績的箱線圖

從圖1 可以看出,不同專業的統計學成績具有顯著差異,即便同一專業,不同學生統計學分數也明顯不同。具體來看,財務管理專業中位數較高(80),中韓財務管理專業中位數較低(64),箱線圖呈現的是專業與統計學分數之間有一定關系,否則的話,中位數應該大致相同。

直觀分析不能充分證明不同專業的統計學分數有顯著差異,需要進一步借助精確的方法即方差分析來解釋,下面進行方差分解的贅述。

3.2 方差分解

接下來按照上面三個步驟提出假設、構建統計量、作出統計決策來進行方差分解:

第一,提出假設。

原假設H0:μ1,μ2,μ3,即專業對統計學分數無顯著影響;備擇假設H1:μ,μ2,μ3不全相等,即專業對統計學分數有顯著影響。

第二,構建統計量。

組間方差、組內方差分別除以各自對應的自由度,即得組間均方

和組內均方

最后,構建統計量

查F分布表F0.05(2,73)=3.1 221。

第三,作出統計決策。

由統計量F=14.7 612,查分布表,臨界值F0.05(2,73)=3.1 221,即F>F0.05(2,73),因此拒絕原假設H0,說明均值不全相等,說明專業對統計學分數有顯著影響,這和事實吻合,究其原因:統計學學科的學習要以高等數學為基礎[13-15]。

綜上,方差分析表如表5 所示。

表5 方差分析表

軟件實現:打開方式使用office打開,依次點擊文件、選項、加載項、數據分析工具庫、確定。在菜單欄中點擊數據分析,選定輸入區域和輸出區域后確定,即出現方差分析列表,如圖2 所示。其優勢是實現數據個數多、數據復雜、手工計算相對困難的情況使用軟件實現,可以提升計算的效率和準確性。

圖2 EXCEL 方差分析的輸出結果

案例2:凱恩斯消費理論:隨著收入的增加,人們的消費支出會增加。那么,收入與消費之間具體數量關系是怎樣的?試考察安徽2000-2016 年城鎮居民人均消費y隨城鎮居民人均可支配收入x的變動規律[16]。

要判斷城鎮居民人均消費y隨城鎮居民人均可支配收入x的變動規律,回歸分析可以解決,在進行回歸分析之前,首先繪制散點圖,通過散點圖進行直觀判斷,如圖3 所示,直觀判斷二者大致呈現線性關系[17-18]。

圖3 人均消費y 與人均可支配收入x 關系的散點圖

則估計的回歸方程為:

回歸模型未必可靠,需要進一步進行檢驗,其中在回歸分析模型的檢驗中,需要進行方程整體顯著性檢驗,借用了方差分析的思想,因此,國內教材多把方差分析安排在回歸分析之前[19-21]?;貧w分析中借用方差分析的思路為,總方差分解為回歸方差(x解釋的部分)與殘差方差(x未解釋的部分),為檢驗x對y是否有線性影響,構造如下檢驗統計量。F=~F(1,n-2),SSR為回歸方差,1 為自由度,SSE為殘差方差,n-2為自由度??梢杂肍檢驗的理論來檢驗線性模型是否成立。

計算回歸方差SSR=411 168 034.8 233,殘差方差SSE=2 921 237.5 182,回歸均方

計算統計量

常用置信水平下,F0.05(1,15)=4.5 430 。F>F0.05(1,15),拒絕不存在線性關系的原假設,表明人均可支配收入對人均消費存在線性影響,模型通過方程的顯著性檢驗,即模型通過線性關系檢驗,說明回歸模型能合理解釋實際問題。

人均消費y隨城鎮居民人均可支配收入x的變動規律是:人均可支配收入每增加1 元,人均消費支出平均增加0.6 351 元。這符合凱恩斯消費理論,并且與經濟事實相符。

4 結語

本文探討統計學教學中方差分析相關問題,闡釋了方差分析的概念、基本思想和分析方法,并詳細給出其求解步驟,深入解析方差分析與回歸分析的關系,為更好地對方差分析有個深刻的理解,學以致用,真正掌握和應用方差分析解決現實問題。本文通過兩個案例進行一一具體分析,并將方差分析和回歸分析結合起來,為熟練掌握和應用方差分析打下堅實基礎。

猜你喜歡
因變量方差分數
方差怎么算
調整有限因變量混合模型在藥物經濟學健康效用量表映射中的運用
概率與統計(2)——離散型隨機變量的期望與方差
分數的由來
無限循環小數化為分數的反思
計算方差用哪個公式
適應性回歸分析(Ⅳ)
——與非適應性回歸分析的比較
可怕的分數
方差生活秀
偏最小二乘回歸方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合