從效應量應有的性質看中介效應量的合理性*

2016-02-05 21:02溫忠麟范息濤葉寶娟陳宇帥

心理學報 2016年4期

溫忠麟范息濤葉寶娟陳宇帥

(1華南師范大學心理應用研究中心/心理學院,廣州 510631)(2澳門大學,澳門)(3江西師范大學心理學院,南昌 330022)

國際上對心理學和其他社科領域的方法研究有重要影響的期刊Psychological Methods(2014年影響因子7.34)發表了Preacher和Kelley(2011)的論文討論中介效應量,經過一番評長論短,對當時已有的中介效應量都有不滿,最終推薦的是他們新提出的κ作為中介效應量。從此κ在國際上流行開來,不僅有論著介紹(Athay,2012;方杰,張敏強,邱皓政,2012;Field,2013),而且有許多實際應用(例如,Koletzko,Herrmann,&Brandst?tter,2015;Labelle,Lawlor-Savage,Campbell,Faris,&Carlson,2015;Rivera&Fincham,2015),在互聯網上也有κ的計算器(如http://stats.myresearchsurvey.com/kappasquared/),很方便使用。然而,Wen和Fan(2015)通過邏輯判斷和數學推演,證明了κ不僅計算錯誤,而且從定義開始就有問題。他們的研究結果終結了κ作為中介效應量的合法性。κ的問題出在哪里、又是如何被發現的？這要從效應量的作用和性質尋找答案。本文首先介紹效應量的相關知識,如何根據統計顯著性和效應量作出統計結論;接著討論效應量應當具有哪些基本性質;然后根據這些性質檢視包括κ在內的主要中介效應量的合理性;最后,討論了如何報告中介效應量以及有待研究的問題。

1 效應與效應量

1.1 顯著性檢驗不能滿足需要

盡管爭論不斷,零假設顯著性檢驗(NHST)仍然是大多數統計分析不可或缺的重要環節,至少“顯著性”的結果能告訴我們,效應(effect)不太可能是由樣本的抽樣誤差而產生的,提高了對研究假設(即備擇假設

)的信心(溫忠麟,吳艷,2010)。不過,單單一個“顯著性”的結果,所得結論是很弱的。以通常的兩組差異檢驗為例,差異顯著說明“差異在統計上可以分辨出來”,但并沒有指出差異有多大(溫忠麟,侯杰泰,2008)。再以相關分析為例,相關顯著說明“相關系數不是零”,但并沒有指出相關有多高。這就不難理解,諸如檢驗測驗信度系數(如重測信度)的顯著性那樣的統計分析是沒有意義的,因為人們感興趣的是“信度有多高”,而不是“信度是否為零”。

為了彌補顯著性檢驗的不足,在統計分析結果中報告效應量(effect size)受到重視(Fan&Konold,2010;Thompson,2007;Wilkinson,1999),不僅多數國際期刊要求報告效應量,國內不少重要期刊也要求報告效應量。

1.2 效應通常缺少可比性

研究者不滿足于效應顯著與否,還想知道效應有多大。每種統計分析都會有一個或多個我們感興趣的量,稱為效應。例如,通常的兩組差異分析,效應是兩組均值差異;在一元回歸分析中,效應是回歸系數,反映了當自變量變化一個單位時,因變量變化了多少個單位;方差分析中,感興趣的效應可能包括因素的主效應和交互效應,通常由效應平方和來衡量。

任何一個效應本身就是一個數量,如果涉及的變量有公認的量尺和測量單位,如長度測量使用米尺、抽煙數量以每天抽煙支數計算,則效應本身就是現成的效應量。例如,“男女身高均值差異為0.1米”、“男員工比女員工平均每天多抽2.5支煙”,意義就相當明確,同類的不同研究之間也有可比性。而且,這個基于原始測量單位的效應量與其他變換后的各種效應量相比,不僅簡單,而且更加容易理解。

在物理測量中,通常都有公認的測量單位,就算測量單位不同,也可以彼此等值轉換(如1米 =100厘米)。然而,心理測量通常不像物理測量那樣有通行世界的公制單位,不同的測量之間也難以等值轉換。因為不同的研究可能使用不同的量表,有不同的測量單位,所以基于原始測量單位的效應缺少可比性。例如,研究一項英語培訓方法的效果,有研究者用雅思(IELTS)測試成績,發現培訓后平均增加了1.2分;另有研究者用托福(TOEFL)測試成績,發現培訓后平均增加了9.5分。這時,既不知道IELTS提高1.2分或者TOEFL提高9.5分算是效應高還是低,也不知道兩個研究者的培訓效應誰的較高。這時,需要一種與測量單位無關(scale-free)的指標——效應量,來衡量效應的大小。

1.3 常見效應量

這里我們回顧一下常見統計方法的效應量,方便后面引用。在兩組差異分析中,最常用的效應量是Cohen(1988,p.67)的d：

在一元回歸分析中,最常用的效應量是復相關系數平方(squared multiple correlation coefficient)R(Cohen,Cohen,West,&Aiken,2003)：

在方差分析(ANOVA)中,最常用的效應量是η(Cohen,1973;Olejnik&Algina,2000):

其中SS是感興趣的效應平方和,SS是總平方和。

2 效應量與效應的顯著性

給定顯著性水平(通常是0.05),對一個效應檢驗結果要么顯著,要么不顯著。先看效應不顯著的情形：

(1)如果效應量小,說明效應既無統計意義也無實際意義,通常都可以認為效應不存在。

(2)如果效應量達中上大小,需要看檢驗力高低,如果檢驗力高,可以認為效應是由抽樣誤差引起;否則還不能下結論,應當增加被試提高檢驗力,重新做統計分析。一般地說,對于中等以上的效應量,只要樣本容量足夠大(因而檢驗力足夠高),效應都會顯著。

再看效應顯著的情形：

(1)如果效應量小,除非有理由說明小的效應量也會引起嚴重后果,否則通常都認為沒有實際意義。就是說,效應量小的時候,顯著也沒有實際意義。

(2)如果效應量達中上大小,已經有理據做出結論,效應在統計上和實際上都有意義。

效應量多大算小、中或大,要看具體的效應量是什么,在不同的研究領域通常會有約定俗成的大致標準。例如Cohen(1969)提出,d=0.2、d=0.5和d=0.8分別對應于小、中、大的效應量,是心理學科很多人引用的標準。不同研究可能考慮的效應量可參考鄭昊敏、溫忠麟和吳艷(2011)的文章。有關檢驗力與效應量、樣本容量的關系,可參考吳艷和溫忠麟(2011)的文章。

表1總結了如何根據檢驗的統計顯著性與效應量得出統計結論。不論檢驗結果是否顯著,計算和報告效應量總是需要的,結合顯著性和效應量才能得到適當的統計結論。但并不是任何時候都要考慮檢驗力。當檢驗結果是顯著時,不用考慮檢驗力高低,因為此時可能犯的錯誤是第一類錯誤。只有當檢驗結果是不顯著時,才需要考慮檢驗力(相當于報告第二類錯誤率)。不過,如果效應量小,通常都沒有必要看檢驗力高低,可以直接作出沒有效應的結論;如果效應量中上,檢驗不顯著會令人懷疑是檢驗力不夠高所致,文章投稿難以被接受,此時適當增加樣本容量,通常都會得到顯著結果。所以,雖然研究者需要有檢驗力的概念,知道增加樣本容量是提高檢驗力的途徑,但是可以說在文章中是不必報告檢驗力的。

表1 根據統計顯著性和效應量作出統計結論

3 效應量應當有的性質

一個統計量應當具有哪些性質才能成為一個效應量呢？目前似乎未見有文獻做專門的討論,盡管Kelley和Preacher(2012)在極其寬泛的效應量定義下,提到了好的效應量應當有的性質(也見Preacher&Kelley,2011)。他們說的性質是針對一個效應量好不好而言,而本文說的效應量應當有的性質,是針對一個統計量能不能作為效應量而言。這里我們嘗試從引入效應量的動機和效應量的作用思考效應量應當有的性質。

3.1 與測量單位無關

在基于原始測量單位的效應之外,還要引入效應量的一個動機是避免測量單位的影響,所以,“與測量單位無關”應當是效應量的重要性質,缺少這個性質的效應量就算被定義出來,遲早會被別的有這個性質的效應量取代。

怎樣知道一個效應量與測量單位無關呢？如果一個效應量用原始分數和Z分數(與測量單位無關)計算結果相同,那么這個效應量就與測量單位無關。有兩種做法都可以產生與測量單位無關的效應量,一種做法是對效應進行標準化,Cohen的

屬于這一種。另一種做法是將效應量定義為一種比例,回歸分析和方差分析中的效應量屬于這一種。

3.2 相對于效應而言具有單調性

效應量是用來衡量效應的大小的,如果保持其他條件不變,效應(絕對值)越大,效應量(絕對值)也應當越大。就是說,相對于效應而言,效應量應當具有單調性(monotonicity)。缺乏了這個性質的效應量會難以理解,也不符合邏輯。所以單調性是一個效應量應當有的性質。

如何判斷一個效應量具有單調性呢？如果一個效應量與效應(研究者感興趣的量)成正比,那么該效應量有單調性。一般地,如果一個效應量(絕對值)是效應(絕對值)的單調上升函數,那么該效應量有單調性,下面看幾個例子(Wen&Fan,2015)。

在回歸分析中,當

和

保持不變時,由公式(3)可知,

是|

與–

效應相同,方向相反)的單調上升函數,所以,效應量

有單調性。在方差分析中,當總平方和

保持不變時,由公式(4)可知η顯然與

成正比,所以η有單調性。

3.3 不受樣本容量的影響

此處所說的影響是指系統影響。設想一下,如果一個統計量會隨著樣本容量的增加而不斷增大(或減小),或者波動起伏太大,那么這樣的統計量難以衡量效應大小,不能作為效應量。根據定義,統計量都難免與樣本容量有關系,連簡單的樣本均值和樣本方差都不例外。但樣本均值和樣本方差分別是總體均值和總體方差的無偏估計,隨著樣本容量的增加,它們分別在總體均值和總體方差附近波動,不受樣本容量的影響(independent of sample size)。但有的統計量會系統地受到樣本容量的影響,例如兩組差異分析,獨立樣本的

檢驗統計量為

為兩個樣本的混合標準差。

統計量受到樣本容量的影響。為了容易理解,看看

的特殊情形,此時

可見隨著樣本容量的增加,

會系統地變大,只要被試人數足夠多,很小的差異都會得到顯著性結果,這是很多讀者都知道的事實。因此,

不能作為效應量,這是在有了與測量單位無關的

值后,還要定義和報告效應量的原因。怎么知道一個效應量不受樣本容量的影響呢？以

為例,一方面是通過統計知識可以推理出來,因為由公式(1)可知,分子是兩組均值之差,分母是總體的混合標準差的估計,都不受樣本容量的影響。另一方面是大量的經驗可以知道,

不像

那樣會隨著樣本的增加而系統地變大。在回歸分析中,

作為相關系數的平方,不受樣本容量的影響。在方差分析中,η可以由統計量

轉換得到(Cohen,1965)：

其中

是組數,

是各組被試總和,

的自由度是(

–1,

–

)。大量經驗告訴我們,η不受樣本容量的影響。

3.4 效應量的其他性質

除了上面討論的效應量應當有的性質外,還可以考慮是否有如下性質：非負性、有界性和正規性。如果一個效應量是非負的數,則該效應量有非負性。如果一個效應量的絕對值有界,則該效應量有有界性。如果一個效應量取值范圍在[0,1]上,則該效應量有正規性。顯然,回歸分析中的

和方差分析中的η都有非負性、有界性和正規性,但差異分析中的效應量

有可能是負值、也可能無界、更沒有正規性?？紤]到非負的效應量容易理解,在不考慮效應的方向或者將方向另外考慮后,總可以將效應量定義為非負值,一個簡單的方法是只考慮效應量的絕對值,這也是通常默認的做法,例如Cohen(1969)提出,

=0.2、

=0.5和

0.8分別對應于小、中、大的效應量,顯然只是考慮絕對值。只要一個效應量有有界性,總可以通過一個線性變換將其變到[0,1]上,成為有規范性的效應量。但效應量

做不到這一點,因為它是無界的。

4 中介模型和常用中介效應量

4.1 中介模型簡介

考慮自變量

對因變量

的影響,如果

通過影響變量

而對

產生影響,則稱

為中介變量(Baron&Kenny,1986;Judd&Kenny,1981;溫忠麟,葉寶娟,2014)。為了簡便起見,假設所有變量都已經中心化(均值為0)或者標準化(均值為0,標準差為1),可用下列回歸方程來描述變量之間的關系(圖1是相應的路徑圖)：

其中方程(9)的系數

為自變量

對因變量

的總效應;方程(10)的系數

為自變量

對中介變量

的效應;方程(11)的系數

是在控制了自變量

的影響后,中介變量

對因變量

的效應;系數

￠是在控制了中介變量

的影響后,自變量

對因變量

的直接效應;

～

是回歸殘差。對于這樣的簡單中介模型,中介效應等于間接效應(indirect effect),即等于系數乘積

,它與總效應和直接效應有下面關系(MacKinnon,Warsi,&Dwyer,1995)：

圖1 中介模型示意圖

4.2 常用中介效應量及其性質

在中介分析中,研究者感興趣的中介效應就是間接效應

。最常用的中介效應量是間接效應占總效應的比例(Alwin&Hauser,1975;MacKinnon,2008;MacKinnon&Dwyer,1993;Preacher&Kelley,2011)：

通過將所有變量做標準化變換,不難驗證

與測量單位無關。因為

只涉及回歸系數,所以不會受到樣本容量的影響。如果只考慮絕對值,當總效應

固定時,

與

成正比,因而有單調性。傳統中介模型中,間接效應

與直接效應

￠有相同的符號(即所謂的一致中介模型,consistent mediation model),因而都與總效應有相同的符號,此時

不僅有界,還是正規的,取值在[0,1]上。對于不一致中介模型(inconsistent mediation model,MacKinnon,Krull,&Lockwood,2000),間接效應

與直接效應

￠有相反的符號,此時

雖然還是有單調性,但是無界的(Preacher&Kelley,2011)。順便說明一下,有文獻將一致中介模型稱為互補中介模型(complementary mediation),而將不一致中介模型稱為競爭中介模型(competitive mediation models,Zhao,Lynch,&Chen 2010)。

另一個簡單的中介效應量是間接效應與直接效應之比 (MacKinnon,2008;Preacher&Kelley,2011;Sobel,1982):和

一樣的是,

也與測量單位無關,而且不會受到樣本容量的影響。不同的是,

只對傳統中介模型有單調性。在傳統中介模型中,不妨假設所有系數都是非負的,當總效應固定時,由

￠可知,隨著

的上升,

￠下降,因而

是

的單調上升函數。但對于不一致中介模型,

沒有單調性。例如,假設給定

=0.3,當

分別等于–0.2,0.4和0.6時,對應的

￠分別等于0.5,–0.1和–0.3, 結果是

分別為–0.4,–4,–2。所以當總效應固定時(

=0.3),無論是

還是其絕對值,都不是

的單調函數(Wen&Fan,2015)。不難看出,無論是傳統的中介模型還是不一致中介模型,

都是無界的。

5 中介效應量κ2的問題

5.1 κ2的定義和性質

Preacher和Kelley(2011)對當時已有的中介效應量做了回顧,并討論了它們的性質,發現已有的中介效應量都存在不足。他們在文中新提出了兩個中介效應量,一個是基于殘差定義的指標,用于衡量中介變量(

)和結果變量(

)的變異解釋率。但這個指標相當復雜,他們最后并未推薦,而是建議作為補充指標使用。另一個是κ,定義為間接效應與間接效應的最大可能值之比：

這個最大可能值

(

)是在給定總效應

后,在

、

和

的相關矩陣是非負定的條件下,間接效應

的最大值。κ是他們最終推薦使用的中介效應量,具有如下性質：(i)非負,(ii)取值在[0,1]上,(iii)與測量單位無關,(iv)可以構造bootstrap置信區間,(v)不受樣本容量的影響(Preacher&Kelley,2011)。

5.2 κ2缺乏單調性

細心的讀者或許已經注意到,上面列出的κ的多個性質中,缺少了重要的單調性。Wen和Fan(2015)正是通過考察κ的單調性發現它有問題。為了展示κ沒有單調性,他們使用兩個數據例子。

在第一個例子中,固定總效應為

=0.190,

=0.291,

=0.478,

￠= 0.051,

=(0.291)(0.478)=0.139,κ=0.143。在第二個例子中,還是固定總效應為

=0.190,

=0.250,

= 0.545,

￠=0.054,

=(0.250)(0.545)=0.136,κ=0.146(Wen&Fan,2015)。上面兩個數據例子中的總效應相同,都是0.190。但當中介效應

從0.139降到0.136時,κ卻從0.143升至0.146。這說明,κ沒有單調性。

5.3 κ2沒有單調性的原因

按理說,

(

)是滿足某種條件下的最大值,是與

無關且與

也無關的一個常數,因而κ應當與

成正比。為什么κ沒有單調性呢？Wen和Fan(2015)發現,問題出在Preacher和Kelley(2011)錯誤地用

(

)

(

)來計算

(

),其中

(

)是給定

和

后系數

的最大值;

(

)是給定

和

后系數

的最大值。因而,在給定

后,

(

)與

有關,而

(

)與

有關,結果是

(

)

(

)與

和

都有關,說明

(

)

(

)是不成立的。隨著

的上升,

(

)

(

)可能上升也可能下降,導致κ沒有單調性。Wen和Fan給出一個簡單的數據例子,用來說明為什么κ沒有單調性。

5.4 κ2的定義不當

既然

(

)

(

)不成立,那么

(

)該如何計算？Wen和Fan(2015)用初等代數證明了

(

)其實是無窮大(可以理解為比任何一個正整數都大),這一點肯定出乎Preacher和Kelley(2011)的意外。因為任何數除以無窮大等于0,所以κ的定義本身就有問題,就是說,在定義中將

(

)用來做分母是不對的。

6 R2型中介效應量的問題

前面的討論說明,Preacher和Kelley(2011)提出的κ該徹底停用了。我們只好回頭看看其他中介效應量。檢視文獻上出現的中介效應量,除了傳統的中介效應量

外,值得考慮的是

型中介效應量,其他一些定義復雜、計算繁瑣、解釋困難的中介效應量則不擬涉及。

其中

表示

與

的相關系數(平方后就是

的方差被

解釋的比例),

表示

對

和

的回歸(11)得到的

(即

的方差被

和

解釋的比例),

表示在消除了

影響后

與

的偏相關(partial correlation)系數。De Heus(2012)提出了改良版的

,將偏相關系數

用部分相關(part4.6correlation)系數

代替：

但是,上面幾個

型中介效應量全部都沒有單調性(Lachowicz,2015;Wen&Fan,2015),并且也不像

那樣可以理解為方差被解釋的比例(Lachowicz,2015;Preacher&Kelley,2011)。

在一元回歸分析中,將標準化回歸系數(就是相關系數

)平方后(就是

)作為效應量,就是因變量的方差被解釋的比例,有明確的統計意義并且方便推廣到多個自變量的情形。但現在將中介效應進行平方,解釋上已經成問題,推廣到多重中介模型更加難以解釋,還不如直接使用標準化的中介效應大小容易解釋和推廣。

7 同時報告多個指標對中介效應做出評價

究竟應當如何報告中介效應量呢？傳統的中介效應量

有單調性,但如果僅僅報告

其實反映不出來中介效應的大小。例如,如果一個研究的總效應

=0.6,另一個研究的總效應

=0.3,那么同樣都是

=0.5,前一個研究的中介效應比后一個研究的強多了。所以,單單看一個

,研究之間缺少可比性。另一個常見的中介效應量

沒有單調性,所以不建議用作中介效應量,但作為一個統計結果還是可以報告的,讓讀者了解間接效應與直接效應的相對大小?？梢哉f沒有一個現有的中介效應量能令人滿意,或者說,沒有哪個單個的中介效應量能擔當衡量中介效應大小的作用。那該如何報告中介效應量呢？Wen和Fan(2015)的建議是同時報告多個統計量。首先應當同時報告總效應的原始估計(如果有意義)和標準化估計(與測量單位無關)。前者反映了當

變化一個單位時,

將變化多少個單位。后者反映了當

變化一個標準差時,

將變化多少個標準差。然后報告間接效應

和直接效應

￠的原始估計和標準化估計。當

和

￠符號一致時,報告

是有意義的,說明了中介效應占總效應的比例。例如,如果

=0.5,間接效應

=0.2,直接效應

￠=0.3(都是標準化估計),可以做如下解釋：當

變化一個標準差時,

將變化0.5個標準差,其中0.2是

通過中介變量

對

起作用,而余下的0.3則是

直接對

起作用。中介效應占了總效應的40%(=0.2/0.5)。上述這些統計量,不僅容易計算,而且容易解釋?？傊?只要

和

￠符號一致(此時

不超過總效應

),事情就好辦,在有了標準化估計的

和中介效應量

后,中介效應的絕對大小和相對大小都已經明確了。對于不一致的中介模型(

和

￠符號相反),標準化估計的

是沒有界的,

也沒有界。此時,無論看著標準化估計的

還是中介效應量

,對中介效應大小可能都沒有譜,不知道多少算大,多少算小?；蛟S通過同類研究的元分析,可以提供中介效應大小幅度的一個參照系(Wen&Fan,2015)。除了報告標準化估計的

和

外,是否還有什么指標可用來作為中介效應量呢？如果有,是否也可以作為不一致的中介模型的中介效應量？都是有待研究的問題。Alwin,D.F.,&Hauser,R.M.(1975).The decomposition of effects in path analysis.

American Sociological Review,40

,37–47.Athay,M.M.(2012).Satisfaction with Life Scale(SWLS)in caregivers of clinically-referred youth: Psychometric properties and mediation analysis.

Administrationand PolicyinMentalHealthandMentalHealthServices Research,39

,41–50.Baron,R.M.,& Kenny,D.A.(1986).The moderator–mediator variable distinction in social psychological research:Conceptual,strategic,and statistical considerations.

Journal of Personality and Social Psychology,51

,1173–1182.Cohen,J.(1965).Some statistical issues in psychological research.In B.B.Wolman(Ed.),

Handbook of clinical psychology

.New York:McGraw-Hill.Cohen,J.(1969).

Statistical power analysis for the behavioral sciences

.New York:Academic Press.Cohen,J.(1973).Eta-squared and partial eta-squared in fixed factor ANOVA designs.

Educational and Psychological Measurement,33

,107–112.Cohen,J.(1988).

Statistical power analysis for the behavioral sciences

(2nd ed.).New York:Erlbaum.Cohen,J.,Cohen,P.,West,S.G.,&Aiken,L.S.(2003).

Applied multiple regression/correlation analysis for the behavioralsciences

(3rd ed.)

Mahwah,New Jersey:Lawrence Erlbaum Associates,Inc.De Heus,P.(2012).R squared effect-size measures and overlap between direct and indirect effect in mediation analysis.

Behavior Research Methods,44

,213–221.Fairchild,A.J.,Mackinnon,D.P.,Taborga,M.P.,&Taylor,A.B.(2009).

effect-size measures for mediation analysis.

Behavior Research Methods,41

,486–498.Fan,X.,&Konold,T.R.(2010).Statistical significance versus effect size.In P.Peterson,E.Baker,and B.McGaw(Eds.),

International encyclopedia of education

(3rd ed.,Vol.7,pp.444–450).Oxford:Elsevier.Fang,J.,Zhang,M.Q.,&Chiou,H.J.(2012).Mediation analysisand effectsize measurement:Retrospectand prospect.

Psychological Development and Education,28

,105–111.[方杰,張敏強,邱皓政.(2012).中介效應的檢驗方法和效果量測量:回顧與展望.

心理發展與教育,28

,105–111.]Field,A.(2013).

Discovering statisticsusing IBMSPSS statistics

(pp.408–419).London:SAGE.Judd,C.M.,& Kenny,D.A.(1981).Processanalysis:Estimating mediation in treatment evaluations.

Evaluation Review,5

,602–619.Kelley,K.,& Preacher,K.J.(2012).On effectsize.

Psychological Methods,17

,137–152.Koletzko,S.H.,Herrmann,M.,&Brandst?tter,V.(2015).Unconflicted goal striving:Goal ambivalence as a mediator between goal self-concordance and well-being.

Personality and Social Psychology Bulletin,41

,140–156.Labelle,L.E.,Lawlor-Savage,L.,Campbell,T.S.,Faris,P.,&Carlson,L.E.(2015).Does self-report mindfulness mediate the effect of Mindfulness-Based Stress Reduction(MBSR)on spirituality and posttraumatic growth in cancer patients?.

The Journal of Positive Psychology,10

,153–166.Lachowicz,M.(2015).

A novel measure of effect size for mediationanalysis

(Unpublished master's thesis).Vanderbilt University.MacKinnon,D.P.(2008).

Introduction to statistical mediation analysis.

Mahwah,NJ:Erlbaum.MacKinnon,D.P.,& Dwyer,J.H.(1993).Estimating mediated effects in prevention studies.

Evaluation Review,17

,144–158.MacKinnon,D.P.,Krull,J.L.,&Lockwood,C.M.(2000).Equivalence of the mediation,confounding and suppression effect.

Prevention Science,1

,173–181.MacKinnon,D.P.,Warsi,G.,&Dwyer,J.H.(1995).A simulation study of mediated effect measures.

Multivariate Behavioral Research,30

,41–62.Olejnik,S.,&Algina,J.(2000).Measures of effect size for comparative studies:Applications,interpretations,and limitations.

Contemporary Educational Psychology,25

,241–286.Preacher,K J.,&Kelley,K.(2011).Effect size measures for mediation models:Quantitative strategies for communicating indirect effects.

Psychological Methods

,93–115.Rivera,P.M.,& Fincham,F.(2015).Forgivenessas a mediator of the intergenerational transmission of violence.

Journal of Interpersonal Violence,30

,895–910.Sobel,M.E.(1982).Asymptotic confidence intervals for indirecteffects in structuralequation models.In S.Leinhardt(Ed.),

Sociological methodology

(pp.290–312).Washington,DC:American Sociological Association.Thompson,B.(2007).Effect sizes,confidence intervals,and confidence intervals for effect sizes.

Psychology in the Schools,44

,423–432.Wen,Z.,&Fan,X.(2015).Monotonicity of effect sizes:Questioning kappa-squared as mediation effect size measure.

Psychological Methods,20

,193–203.Wen,Z.,&Hau,K.-T.(2008).Cutoff values for testing:How great the difference between the true and the false makes them distinguishable?

Acta Psychologica Sinica,40

,119–124.[溫忠麟,侯杰泰.(2008).檢驗的臨界值:真偽差距多大才能辨別?

心理學報,40

,119–124.]Wen,Z.,&Wu,Y.(2010).Misuses and misunderstandings in statistics by psychologists.

Journal of South China Normal University(Social Science Edition),

(1),47–54.[溫忠麟,吳艷.(2010).屢遭誤用和錯批的心理統計.

華南師范大學學報(社會科學版),

(1),47–54.]Wen,Z.,&Ye,B.(2014).Analyses of mediating effects:The development of methods and models.

Advancesin Psychological Science,22

,731–745.[溫忠麟,葉寶娟.(2014).中介效應分析:方法和模型發展.

心理科學進展,22

,731–745.]Wilkinson,L.(1999).Statistical methods in psychology journals:Guidelines and explanations

.American Psychologist,54

,594–604.Wu,Y.,&Wen,Z.(2011).The statistical analysis procedure involving null hypothesis significance testing.

Psychological Science,34

,230–234.[吳艷,溫忠麟.(2011).與零假設檢驗有關的統計分析流程.

心理科學,34

,230–234.]Zhao,X.,Lynch,J.G.,&Chen,Q.(2010).Reconsidering Baron and Kenny:Mythsand truthsaboutmediation analysis.

Journal of Consumer Research,37

,197–206.Zheng,H.,Wen,Z.,&Wu,Y.(2011).The appropriate effect sizes and theircalculationsin psychologicalresearch.

Advances in Psychological Science,19

,1868–1878.[鄭昊敏,溫忠麟,吳艷.(2011).心理學常用效應量的選用與分析.

心理科學進展,19

,1868–1878.]