改進的認知診斷模型項目功能差異檢驗方法
——基于觀察信息矩陣的Wald統計量*

2016-01-09 23:03劉彥樓李令青劉笑笑

心理學報 2016年5期

劉彥樓辛濤, 李令青田偉劉笑笑

(1北京師范大學發展心理研究所,北京 100875) (2中國基礎教育質量監測協同創新中心,北京 100875)(3泰山學院教師教育學院,山東泰安 271000)

1 引言

認知診斷模型可以提供關于受測者知識或技能掌握程度的細粒度的、多維診斷性反饋信息,因此,引起了學生、教師、心理測量學家以及認知心理學家等的關注(Greeno,1980;Leighton &Gierl,2007),是當前心理測量領域研究的熱點之一。迄今為止,研究者提出了許多認知診斷模型,這些模型可以被分為一般性的認知診斷模型框架以及特殊的認知診斷模型。一般性的認知診斷模型框架,主要包括von Davier (2005)的一般診斷模型(

General Diagnostic Model,

GDM)、Henson,Templin 和 Willse (2009)提出的對數線性認知診斷模型(

Log-Linear Cognitive Diagnosis Model,

LCDM)以及 de la Torre (2011)的G-DINA模型,常見的特殊的認知診斷模型有決定性輸入,噪音與門模型(

Deterministic Input,Noisy And Gate,

DINA) (de la Torre &Douglas,2004;Haertel,1989;Junker &Sijtsma,2001),補償的重參數化統一模型(

Compensatory Reparameterized Unified Model,

C-RUM) (e.g.,Hartz,2002)等。

從統計上來講,以上這些一般性的認知診斷模型與特殊的認知診斷模型都屬于有約束的潛在類別模型(von Davier,2009)。這些“約束”主要是通過Q矩陣來實現的。Q矩陣是一個設計矩陣,其中的元素一般是“0”與“1”,雖然有研究(Chen &de la Torre,2013)已經將 Q矩陣擴展為多級的,但在絕大多數的實際應用中仍假定其是二分的,因此本研究仍假定Q矩陣是二分的。在認知診斷模型中一般將受測者的知識或技能統稱為潛在屬性,簡稱屬性。Q矩陣的功能在于設定認知診斷測驗中項目與屬性之間的對應關系,Q矩陣中元素取值為1代表正確作答某一項目需要某一對應的屬性,取值為0則代表不需要。將認知診斷模型與Q矩陣在項目水平上進行組合,可以反映出研究者對于受測者在作答項目時的潛在認知過程或操作的假定。

在使用認知診斷測驗對于受測者的屬性掌握狀況進行診斷的時候,研究者面臨的一個重要的理論及現實問題是如何進行項目功能差異(

Differential Item Functioning,

DIF)檢驗。因為當測驗中含有功能差異的項目時,不僅會產生測驗公平性的問題,而且也會影響到受測者屬性掌握模式的判別(王卓然,邊玉芳,郭磊,2015)。在認知診斷模型中一個被廣泛接受的 DIF定義是不同組中具有相同屬性掌握模式的受測者正確作答某一項目的概率不同(Hou et al.,2014;Li,2008)。當前研究者們提出了一些不同的方法用于檢驗認知診斷模型中的DIF (Hou et al.,2014;Li,2008;王卓然,郭磊,邊玉芳,2014;Li &Wang,2015;Zhang,2006)。Zhang (2006)提出使用 MH法(Holland &Thayer,1988;Mantel &Haenszel,1959)以及SIBTEST法(Shealy &Stout,1993),用受測者的測驗總分以及屬性掌握模式作為匹配變量去檢驗 DINA模型中的 DIF。Zhang (2006)所提出的方法中的不足之處在于：目標組以及對照組的項目參數以及屬性掌握模式參數是作為一個整體被同時估計出來的,因此會導致其估計值不準確;另外,MH法以及SIBTEST法只能檢驗一致性DIF。Hou(2013)的研究中指出邏輯斯蒂克回歸法(

Logistic Regression,

LR) (Swaminathan &Rogers,1990),MH法以及 SIBTEST法的統計檢驗力都受到測驗中DIF項目比例的影響。Li (2008)使用改進的高階DINA模型(de la Torre &Douglas,2004)去檢驗DIF,然而,Li研究的不足之處在于：在某些模擬條件下,經驗一類錯誤率(指的是在實際模擬中所觀察到的一類錯誤)過高或者過低;另外這一方法只適用于高階模型而非一般性的模型。Hou等人(2014)提出使用 Wald統計量檢驗項目功能差異,并且認為Wald統計量的檢驗方法的效果接近或者是優于MH以及SIBTEST方法,然而,Hou等人所提出的Wald統計量存在以下不足：首先是一類錯誤率過高,不符合預先設置的顯著性水平;其次,統計功效研究中,正確拒絕率是使用的每個模擬條件下的10,000次重復所獲得統計量的經驗分布來計算的,這使得其研究結果無法推廣到一般性的模型以及實際應用中。另外,需要指出,Hou等人(2014)在計算Wald統計量時使用的是de la Torre (2009,2011)所提出認知診斷模型信息矩陣的計算方法。王卓然等人(2014)的研究發現盡管 Wald方法的檢驗力要高于LR法與MH法,但是也存在一類錯誤率膨脹的問題。Li和Wang (2015)比較了使用馬爾可夫鏈蒙特卡羅(

Markov chain Monte Carlo,

MCMC)法計算項目參數時,LCDM-DIF方法以及Wald方法在評價項目功能差異時的表現。Li和Wang發現,他們所使用的LCDM-DIF方法以及Wald統計量具有較好的一類錯誤控制率(僅有稍許的膨脹),并且當被比較的組數為 3時,Wald統計量的統計功效要優于LCDM-DIF。

通過以上文獻綜述我們可以發現,盡管研究者們一致地認為Wald統計量在檢驗DIF時有著高的統計檢驗力,但是不同的研究對于 Wald統計量的一類錯誤控制率的表現卻有著不同的結果。澄清不同的方法構建的Wald統計量為什么在一類錯誤控制率的表現不同這個問題,不僅在理論上具有重要意義,而且對于測驗實踐也有重要意義。Hou等人(2014)以及王卓然等人(2014)所使用Wald統計量,均是基于de la Torre (2009,2011)所提出的項目參數的經驗交叉相乘信息矩陣而構建的,而非基于全部的模型參數(即模型中所有自由估計的參數)。然而,相關研究指出(Tian,Cai,Thissen,&Xin,2013;Paek&Cai,2013)通過對信息矩陣求逆計算誤差—協方差矩陣時,信息矩陣應該包括全部的模型參數,而非僅僅是項目參數;并且研究發現當模型的參數是通過EM (Expectation-Maximization)方法(de la Torre,2009,2011)所估計獲得時,應該通過對觀察信息矩陣(基于樣本觀測數據所計算的信息矩陣,有些研究中也將其簡稱為觀察矩陣)求逆的方法計算誤差—協方差矩陣(Kenward &Molenberghs,1998;Louis,1982)。已有研究發現在項目反應理論中觀察信息矩陣的逆可以很好的漸近誤差—協方差矩陣(Paek &Cai,2013)。

針對以往研究中Wald統計量構建方法的局限,解決在認知診斷模型中更加準確地估計Wald統計量這一重大理論問題,促進認知診斷測驗在實踐中的運用,本研究擬將觀察信息矩陣的計算方法引入到認知診斷模型中,期望獲得一個好的誤差—協方差矩陣的估計方法,從而改進 Wald統計量在檢驗DIF時的表現。研究包括主要包括以下3個部分：首先,介紹用于檢驗認知診斷模型中 DIF的 Wald統計量的構建,重點強調誤差—協方差矩陣在構建中所起的重要作用;其次,介紹認知診斷模型中經驗交叉相乘信息矩陣以及觀察信息矩陣的計算方法;第三,采用模擬的方法,探索本研究所提出的改進后的Wald統計量在計算DIF時的一類錯誤控制率以及統計檢驗力的表現,并且與通過經驗交叉相乘信息矩陣而構建的Wald統計量所獲得的結果進行比較;為了更好的說明本研究中的研究結果,我們也將本研究的結果與其他采用相同實驗設計的研究的結果(如,Hou et al.,2014;Li &Wang,2015)進行了直接的比較。

2 改進的Wald統計量的計算方法

在本研究中,我們將使用LCDM作為例子,說明在認知診斷模型中如何應用改進后的Wald統計量進行DIF檢驗。LCDM是一個廣義的認知診斷模型,對于其中的參數進行約束,便可以獲得一些特殊的模型,如DINA以及C-RUM等(Henson et al.,2009)。

LCDM 假定在給定屬性掌握模式α的條件下,受測者

在各個項目上的作答是獨立的,其反應向量X的似然函數,可以表示如下,

反應向量X的邊際概率,可以表示為：

在公式(5)中,

（α）是屬性掌握模式 α的概率,在LCDM中,所有屬性掌握模式的概率之和為1。為滿足這一約束,本研究參考 Rupp,Templin和 Henson(2010)所使用的概念,設η=(η,…,η)′為模型的結構參數(

structural parameters

),用以描述任一受測者來自特定屬性掌握模式的概率,使用以下表達式,

并且對結構參數η施加約束,固定其中任一參數為0,一般而言,可以選擇固定最后一個模型參數η為0。

再進一步假定,受測者之間的作答都是獨立的,因此所有受測者作答X的似然函數為可以用如下公式來表示,

從公式(8)可以發現方差—協方差矩陣估計的準確性,對于 Wald統計量會產生重大的影響,這也就是說LCDM中信息矩陣的估計會對Wald統計量的計算產生重大影響。

EM算法(Dempster,Laird,&Rubin,1977)對于心理測量學產生了非常大的影響,它將復雜的計算非完整數據似然函數最大值問題轉換為較為簡單的一系列偽完整數據問題,在認知診斷模型分析軟件中得到了廣泛的應用。然而,在通過EM算法計算參數時,信息矩陣(或者是其逆方差—協方差矩陣)并不是伴隨產生的,因此,需要去進行專門的計算。研究發現,當使用期望—最大化算法去計算模型的極大似然估計值時,使用觀察信息矩陣能夠很好的去漸近模型的方差—協方差矩陣(Louis,1982),感興趣的研究者可以參考 Kenward和 Molenberghs(1998)的研究。對于 LCDM 而言,包含所有自由估計參數的經驗交叉相乘信息矩陣的公式可以表達如下：

3 方法

3.1 研究設計

采用 Monte Carlo的方法進行研究,受測者的作答反應、模型的參數估計以及Wald統計量的計算均采用

語言(R Core Team,2015)編程實現。每種實驗條件均重復1000次,以獲得穩定的結果。為了便于與以往研究結果進行直接的比較,本研究所采用Hou等人(2014)所設計的實驗條件,這些實驗條件也被Li和Wang (2015)所采用。與Hou等人(2014)研究不同的是,本研究中 Wald統計量的計算是通過包含全部模型參數的觀察信息矩陣或者是經驗交叉相乘信息矩陣所計算獲得的。

本研究中所采用Q矩陣中包含30個測驗項目,5個屬性,并且限制每個項目所包含的屬性數量最多為3。Q矩陣采用平衡設計,每個屬性被項目所測量的次數相等,同樣使包含 1、2、3個屬性的項目數量也相等即包含1、2、3個屬性的項目分別有10個。具體的Q矩陣設計見表1。

為方便與以往研究結果進行直接對比,本研究設計中的數據生成模型也同樣采用DINA模型,對照組中的猜測以及滑動參數設置為相等,且有三個水平：0.1,0.2以及0.3,猜測以及滑動參數值設置的越小,說明項目越能夠區分出受測者是否掌握了所測的屬性(Templin &Henson,2006)。DIF類型有兩個水平：一致性DIF以及非一致性 DIF。一致性 DIF指的是對于某一個組而言,正確作答某個項目的概率在所有可能的屬性掌握模式下均一致性地高或者是低;非一致性DIF指的是正確作答某個項目的概率在一些屬性掌握模式下高,在另外一些屬性掌握模式下低,或者是相反,即正確作答的概率具有非一致性。DIF大小有兩個水平：0.05與0.1,當項目參數值為0.1時僅考慮了0.05這一水平的DIF大小,以防項目參數值等于 0。樣本大小有兩個水平：500與1000。在認知診斷模型中樣本的大小會對模型參數估計值的精確性產生影響,進而也會影響到Wald統計量的計算,因此,樣本大小也是一個需要考慮的重要因素。

表1 Q矩陣

3.2 評價指標

本研究中所采用的評價指標為經驗一類錯誤率以及統計檢驗力。經驗一類錯誤率是通過 1000次模擬中,錯誤地檢驗出每個項目出現DIF的百分比,然后參照以往研究結果的呈現方式(Hou et al.,2014),分別對包含一個、兩個以及三個屬性的項目求平均。統計檢驗力指的是在這1000次循環中正確拒絕原假設的比例。當認知診斷測驗中不存在 DIF時,如果我們所構建 Wald統計量是漸近卡方分布的,那么它觀察到的一類錯誤率應該符合預先設置的理論上的一類錯誤控制率,如0.05;如果在認知診斷測驗中存在 DIF,那么 Wald統計量正確拒絕的比例越高,說明它能夠檢驗出DIF項目的能力越強。

4 研究結果

4.1 經驗一類錯誤率

表2呈現了各個實驗條件下的使用觀察信息矩陣估計方法的Wald統計量獲得的平均經驗一類錯誤率。計算一類錯誤控制率所使用的參照分布為自由度為2的卡方分布。通過表2可以發現當項目的猜測以及滑動參數都比較小的時候,即項目能夠較為有效的區分受測者是否掌握所測屬性的時,一類錯誤控制率能夠很好的接近預先設置的顯著性水平。隨著樣本量的增大,一類錯誤控制率的表現也越好。另外,不論是包含一個、兩個還是三個屬性的項目,其觀察一類錯誤率均能較好的接近0.05這一顯著性水平。另外需要指出的是,盡管在當樣本量較小(

=500)且項目的猜測參數以及滑動參數較大的情況下(

=0.3),平均的經驗一類錯誤率表現較差,但根據 Bradley (1978)的健壯寬松準則(當顯著性水平為 0.05時經驗一類錯誤控制率在0.025與 0.075之間),仍然可以認為是得到了較好的控制?？梢园l現,本研究中所提出的改進的Wald統計量計算方法所獲得的結果并不存在過度膨脹的現象,這與 Hou等人(2014)以及王卓然等人(2015)的結果恰好相反,說明本研究中所提出的Wald統計量的計算方法明顯優于以上兩個研究所使用的 Wald統計量的計算方法。通過比較表2與表3中的一類錯誤控制率可以發現基于觀察信息矩陣計算的Wald統計量的表現要優于基于經驗交叉相乘信息矩陣而計算的Wald統計量?；诮涷灲徊嫦喑司仃嚩@得的Wald統計量的一類錯誤控制率較為保守,但是表3的結果同樣顯示包含一個、兩個以及三個屬性的項目的一類錯誤控制率仍大致相等。Li和 Wang (2015)在 MCMC框架下采用LCDM-DIF以及Wald統計量對于DIF檢驗方法進行了研究,在其研究一中同樣采用了 Hou等人(2014)的研究設計,因此本研究的研究結果同樣也是可以直接與 Li等人的結果進行比較。通過對比研究結果可以發現,本研究中所提出基于觀察信息矩陣計算的Wald統計量與Li等人的研究中所使用的LCDM-DIF以及Wald統計量均具有較好的一類錯誤控制率。一個非常有意思的現象是在本研究中的一些實驗條件下(見表2)Wald統計量一類錯誤率有細微的保守而Li等人研究結果中的LCDM-DIF以及 Wald統計量在某些實驗條件中一類錯誤率卻有稍許膨脹。從公式(8)中可以發現Wald統計量的準確性,依賴于模型參數估計值的準確性。當受測者數量較少(如

=500時)或者是模型中的“噪音”過大時(如項目的猜測與滑動參數均為 0.3時),模型參數估計值的準確性會受到相對較大的影響,因此,在本研究的

=500以及

=0.3這兩種條件下Wald統計量一類錯誤率有細微的保守。

表2 基于觀察信息矩陣的平均的經驗一類錯誤率(α=0.05)

表3 基于經驗交叉相乘信息矩陣的平均的經驗一類錯誤率(α=0.05)

4.2 統計檢驗力

表4中呈現的是當認知診斷測驗中存在一致性DIF時的考察一個、兩個以及三個屬性項目在1000次循環中的基于觀察信息矩陣計算的 Wald統計量的平均經驗拒絕比例,所使用的參照分布同樣為自由度為2的卡方分布。從表4中可以看出,隨著DIF的增大,Wald統計量的統計檢驗力也會隨之增大,并且當項目的猜測以及滑動參數都為 0.2的時候,總平均的拒絕率要大于同為0.3時的項目參數值的條件。這是由于同項目參數值0.3相比,DIF大小為0.1時,這一值對于項目參數值0.2而言相對更大。隨著樣本量的增加,Wald統計量的統計檢驗力也在變大,即樣本量的大小對用于檢驗DIF的Wald統計量而言也是一個重要因素。因為隨著樣本量的增加,模型參數估計值的準確性也會增加,進而會使得參數估計值的標準誤變小,因此,在對照組與目標組項目參數差異相等的情況下,更傾向于獲得一個大的Wald統計量的值。另外,通過觀察平均值可以發現,當目標組具有負向的 DIF時,同正向 DIF相比,Wald統計量的統計檢驗力更大。比較表4與表5,可以發現基于觀察信息矩陣的Wald統計量的統計檢驗力均要明顯優于基于經驗交叉相乘信息矩陣的Wald統計量的統計檢驗力。這也說明基于經驗交叉相乘信息矩陣的Wald統計量存在保守的問題。

表4 基于觀察信息矩陣的一致性DIF的平均經驗統計檢驗力(α=0.05)

表6中呈現的是非一致性DIF條件下采用觀察信息矩陣的Wald統計量的1000次模擬結果,計算統計檢驗力所使用的參照分布同樣為自由度為2的卡方分布。從表6中同樣可以發現隨著DIF的增大,Wald統計量的統計檢驗力也在增大。隨著樣本量的增加,Wald統計量的統計檢驗力同樣是在增大的。而且在DIF大小相同條件下,當項目的猜測以及滑動參數相對較小時,Wald統計量的統計檢驗力會相對較大。比較表6與表7同樣可以發現,在非一致性DIF條件下,采用觀察信息矩陣計算的Wald統計量的統計檢驗力均高于采用經驗交叉相乘信息矩陣而計算獲得的Wald統計量的統計檢驗力。

表5 基于經驗交叉相乘信息矩陣的一致性DIF的平均經驗統計檢驗力(α=0.05)

表6 基于觀察信息矩陣的非一致性DIF的平均經驗統計檢驗力(α=0.05)

表7 基于經驗交叉相乘信息矩陣的非一致性DIF的平均經驗統計檢驗力(α=0.05)

5 討論

認知診斷模型能夠提夠關于受測者屬性掌握模式的較為詳盡的診斷性信息,它不僅能為老師的教以及學生的學提供有針對性的建議,而且也有助于教育者深入理解受測者的認知心理。在使用這一模型來解釋受測者的作答之前,研究者需要確定認知診斷測驗項目的參數對于所有受測者都是不變的,否則會對受測者的屬性掌握模式的估計帶來不良的影響(王卓然等,2015),進而導致錯誤的診斷性信息。DIF檢驗可以用以確認不同組的受測者在同一個項目的作答上是否存在差異,即除了屬性掌握模式外,受測者所在的組會影響到他們對于項目的反應。為保證測驗的效度,在使用認知診斷模型來擬合受測者的作答數據前,需要進行DIF檢驗。先前研究者發現Wald統計量在檢驗DIF時,有著許多其他統計量所不具備的優點,然而前人研究中對于Wald統計量在檢驗DIF時的一類錯誤率的表現,存在明顯的結論沖突。如,Hou等人(2014)以及王卓然等人(2014)的模擬研究發現 Wald統計量會存在一類錯誤控制率膨脹的問題,Li和Wang (2015)的模擬研究卻發現,其研究中所用的 LCDM-DIF以及Wald統計量在使用MCMC計算時有著良好的一類錯誤控制率。本研究采用Hou等人以及Li等人研究中所使用的同等條件通過模擬發現,這些差異主要是由于 Wald統計量計算方法的差異引起的。因此,我們認為本研究提出的改進的 Wald統計量的計算方法解決了 DIF研究中一直困擾研究者的Wald統計量在檢驗DIF時的一類錯誤率的表現不同這一重要問題,具有重大的理論意義。

5.1 Wald統計量在檢驗DIF時的一類錯誤控制率

在模型正確設定的前提下,如果統計量能夠很好的服從漸近分布,那么,它的一類錯誤控制率應該能夠較好的接近預先設定好的顯著性水平。本研究中所提出改進的 Wald統計量的計算方法具有這一特征,從結果中可以發現,本研究的一類錯誤控制率均較好地接近預先設定的 0.05這一顯著性水平。因此,我們認為在Hou等人(2014)以及王卓然等人(2014)研究中所產生的 Wald統計量一類錯誤膨脹的問題,是由于不恰當的信息矩陣估計方法而引起的。本研究的這一結果明確地解釋了為什么 Wald統計量在不同研究中有不同表現的問題,對于認知診斷模型的理論發展有一定的推動作用。另外,相對于MCMC參數估計方法,MMLE/EM具有運算量小、耗時短等優點,本研究所提出的改進的 Wald統計量正是基于 MMLE/EM,因此,本研究不僅具有重大的理論意義,而且對于認知診斷實踐也具有重要的現實意義。

5.2 Wald統計量在檢驗DIF時的統計檢驗力

當確認統計量的一類錯誤控制率能夠較好的接近預先設定的顯著性水平后,接下來所要考慮的另外一個重要問題是當認知診斷測驗中的項目中存在 DIF時,這一統計量能否有效地拒絕不存在DIF的原假設而選擇備擇假設。通過表4與表6中的結果,可以發現在樣本量較大時(

=1000),改進后的Wald統計量在檢驗DIF時的統計檢驗力均明顯的高于樣本量比較小時(

=500)的統計檢驗力。因此,本研究建議在應用Wald統計量進行DIF檢驗的時候,如果想要達到較高的統計檢驗力,應保證較大的樣本量。因為Hou等人(2014)發現,其研究中所采用的 Wald統計量計算方式,會導致一類錯誤率膨脹,因此,在計算統計檢驗力的時候,她們采用了兩種方式進行。第一種方式是直接用 Wald統計量的理論分布即自由度為2的卡方分布的理論值來計算,由于其開發的 Wald統計量的計算方式的一類錯誤率膨脹會使得原本不存在 DIF的項目被誤判為存在 DIF,因此計算結果不夠可靠;她們所采用的第二種方式是計算當不存在 DIF項目時Wald統計量在每種實驗條件組合下10,000次模擬的經驗分布,然后通過獲得的顯著性水平的臨界值,來計算Wald統計量的統計檢驗力,這種計算方式雖然保證了模擬實驗結果具有較高的可靠性,但是不具備現實的可操作性,因此,對于其研究目的而言只能算是一種不完整解決的方案。因為Hou等人(2014)的第二種計算方式具有較高的理論上的結果可靠性,因此可以作為研究結果的一個參考。通過研究結果對照我們發現,本研究所采用的自由度為2的卡方分布理論值所計算獲得的研究結果與 Hou等人(2014)的第二種計算方式所獲結果具有很高的一致性,這也能夠間接的表明,本研究所使用的改進后的Wald統計量計算方式具有準確性及可靠性的特點。

5.3 以后的研究方向

由于本研究關注的重點在于,在EM算法框架下提出一個恰當的 Wald統計量的計算方式,用以準確有效地來檢驗認知診斷測驗中可能存在的DIF項目,澄清以往研究中所用de la Torre (2009,2011)所提出的信息矩陣方法計算Wald統計量時所產生的令人困惑的結果。因此,本研究僅采用了Hou等人(2014)的研究設計,通過結果對比的方式來證明本研究所提出的改進的Wald統計量在檢驗DIF時具有準確性可靠性等特點。具體而言,研究者可以就以下幾方面進行后續研究：首先,樣本大小對于 Wald統計量有重要影響,因此,后續研究中可以使用本研究中所用Wald統計量考察這一因素對于DIF的影響;其次,目前的研究中普遍采用 DINA或者是高階DINA作為例證模型,本研究出于結果比較的因素考慮,也是以DINA模型為例,在其他認知診斷模型中Wald統計量用以檢驗DIF時的表現,也是一個非常有意思的研究方向。由于本研究所采用的是對于LCDM模型進行約束而獲得的DINA模型,因此,可以很方便的進行擴展;第三,本研究所采用的項目數量為 30,且受測者組的數量為 2,在不同項目數量下以及不同的受測者組數量數下,Wald統計量的表現也值得研究者關注;第四,在認知診斷模型中,除了Wald統計量可以進行DIF檢驗之外,還有一些其他的統計量也可以進行 DIF檢驗(Li,2008;Sünbül &Sünbül,2015,July),雖然目前研究表明,Wald統計量在檢驗DIF時,具有一些其他統計量所不具有的優點,但是,在另外的應用情景中,這些DIF檢驗方法的優缺點,仍然值得研究者的關注。

6 結論

本研究中所提出的改進的 Wald統計量的計算方法,在認知診斷測驗中不存在DIF項目時,有著良好的一類錯誤控制率,能夠較為準確地接近預先設定的顯著性水平,即當認知診斷模型為DINA時,改進的Wald統計量服從自由度為2的卡方分布;在認知診斷測驗中存在DIF時,改進的Wald統計量能夠準確有效的鑒別出存在DIF的項目。本研究同樣發現樣本量對于 Wald統計量的一類錯誤控制率及統計檢驗力存在重要影響。另外,我們建議認知診斷模型的研究者與使用者,當采用EM算法進行參數估計時,在確認認知診斷模型正確設定后,使用本研究中所使用觀察信息矩陣的方法計算項目參數的標準誤。

Bradley J.V.(1978).Robustness?.

British Journal of Mathematical and Statistical Psychology,31

,144-152.Chen,J.S.,&de la Torre,J.(2013).A general cognitive diagnosis model for expert-defined polytomous attributes.

Applied Psychological Measurement,37

,419-437.de la Torre,J.(2009).DINA model and parameter estimation：A didactic.

Journal of Educational and Behavioral Statistics,34

,115-130.de la Torre,J.(2011).The generalized DINA model framework.

Psychometrika,76

,179-199.de la Torre,J.,&Douglas,J.A.(2004).Higher-order latent trait models for cognitive diagnosis.

Psychometrika,69

,333-353.Dempster,A.P.,Laird,N.M.,&Rubin,D.B.(1977).Maximum likelihood estimation from incomplete data via the EM algorithm.

Journal of the Royal Statistical Society,Series B,39

,1-38.Greeno,J.G.(1980).Trends in the theory of knowledge for problem solving.In D.T.Tuma &F.Reif (Eds.),

Problem solving and education: Issues in teaching and research

(pp.9-23).Hillsdale,NJ：Erlbaum.Haertel,E.H.(1989).Using restricted latent class models to map the skill structure of achievement items.

Journal of Educational Measurement,26

,301-321.Hartz,S.M.(2002).

A Bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality

(Unpublished doctorial dissertation).Department of Statistics,University of Illinois at Urbana-Champaign.Henson,R.A.,Templin,J.L.,&Willse,J.T.(2009).Defining a family of cognitive diagnosis models using log-linear models with latent variables.

Psychometrika,74

,191-210.Holland,P.W.,&Thayer,D.T.(1988).Differential item functioning and the Mantel-Haenszel procedure.In H.Wainer &H.I.Braun (Eds.),

Test validity

(pp.129-145).Hillsdale,NJ：Lawrence Erlbaum.Hou,L.K.,de la Torre,J.,&Nandakumar,R.(2014).Differential item functioning assessment in cognitive diagnosis modeling：Applying Wald test to investigate DIF for DINA model.

Journal of Educational Measurement,51

,98-125.Junker,B.W.,&Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.

Applied Psychological Measurement,25

,258-272.Kenward,M.G.&Molenberghs,G.(1998).Likelihood based frequentist inference when data are missing at random.

Statistical Science,13

,236-247.Leighton,J.,&Gierl,M.(2007).

Cognitive diagnostic assessment for education: Theory and applications

.Cambridge：Cambridge University Press.Li,F.M.(2008).

A modified higher-order DINA model for detecting differential item functioning and differential attribute functioning

(Unpublished doctorial dissertation).University of Georgia.Li,X.M.,&Wang,W.C.(2015).Assessment of differential item functioning under cognitive diagnosis models：The DINA model example.

Journal of Educational Measurement,52

,28-54.Louis,T.A.(1982).Finding the observed information matrix when using the EM algorithm.

Journal of the Royal Statistical Society,Series B,44

,226-233.Mantel,N.,&Haenszel,W.(1959).Statistical aspects of the analysis of data from retrospective studies of disease.

Journal of the National Cancer Institute,22

,719-748.Paek,I.,&Cai,L.(2013).A comparison of item parameter standard error estimation procedures for unidimensional and multidimensional item response theory modeling.

Educational and Psychological Measurement,74

,58-76.R Core Team (2015).

R: A language and environment for statistical computing.

R foundation for statistical computing,Vienna,Austria.Retrieved July 2,2015,from http：//www.R-project.orgRupp,A.A.,Templin,J.,&Henson,R.A.(2010).

Diagnostic measurement: Theory,methods,and applications

.New York,NY：Guilford.Shealy,R.,&Stout,W.(1993).A model-based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DTF as well as item bias/DIF.

Psychometrika,58

,159-194.Sünbül,?.,&Sünbül,S.?.(2015,July).

Evaluating performance of differential item functioning detection methods for DIF data in DINA model

.Paper presented at the meeting of the annual meeting of the International Meeting of the Psychometric Society,Beijing,China.Swaminathan,H.,&Rogers,H.J.(1990).Detecting differential item functioning using logistic regression procedures.

Journal of Educational Measurement,27

(4),361-370.Templin,J.L.,&Henson,R.A.(2006).Measurement of psychological disorders using cognitive diagnosis models.

Psychological Methods,11

,287-305.Tian,W.,Cai,L.,Thissen,D.,&Xin,T.(2013).Numerical differentiation methods for computing error covariance matrices in item response theory modeling：An evaluation and a new proposal.

Educational and Psychological Measurement,73

,412-439.von Davier,M.(2005).

A general diagnostic model applied to language testing data (ETS Research Report RR-05-16).

Princeton：Educational Testing Service.von Davier,M.(2009).Some notes on the reinvention of latent structure models as diagnostic classification models.

Measurement:Interdisciplinary Research and Perspectives, 7

,67-74.Wang,Z.R.,Bian,Y.F.,&Guo,L.(2015).The impact of DIF on estimating accuracy of cognitive diagnostic test.

Psychological Exploration,35

,272-278.[王卓然,邊玉芳,郭磊.(2015).項目功能差異對于認知診斷測驗估計準確性的影響.

心理學探新,35

,272-278.]Wang,Z.R.,Guo,L.,&Bian,Y.F.(2014).Comparison of DIF detecting methods in cognitive diagnostic test.

Acta Psychologica Sinica,46

,1923-1932.[王卓然,郭磊,邊玉芳.(2014).認知診斷測驗中的項目功能差異檢測方法比較.

心理學報,46

,1923-1932.]Zhang,W.(2006).

Detecting differential item functioning using the DINA model

(Unpublished doctorial dissertation).University of North Carolina at Greensboro.

改進的認知診斷模型項目功能差異檢驗方法——基于觀察信息矩陣的Wald統計量*