?

使用似然比D2統計量的題目屬性定義方法*

2015-01-23 07:43喻曉鋒羅照盛高椿雷李喻駿王鈺彤
心理學報 2015年3期
關鍵詞:測驗成功率矩陣

喻曉鋒 羅照盛 高椿雷 李喻駿 王 睿 王鈺彤

(1江西師范大學心理學院, 南昌 330022) (2亳州師范高等??茖W校, 亳州 236800)

1 引言

我國中長期教育改革和發展規劃綱要(2010-2020年)明確提到:要注重因材施教, 要改進教育教學評價, 探索促進學生發展的多種評價方式。要做到因材施教, 首先就必須深入地了解學生的認知特點, 對其長處和短處進行診斷性分析, 即實施認知診斷評價(也簡稱認知診斷)。相對于其它的評價形式, 認知診斷評價不但能提供被試在測驗上的總體評價指標, 而且能提供被試在測驗領域上的詳細的診斷報告。著名的“分數減法”數據(Tatsuoka,1990)中包含 20個題目, 界定了將整數化為分數、從帶分數中分離出整數、在減法運算前進行化簡等8個屬性。如果某被試的屬性掌握模式為[1 0 0 0 0 0 0 0], 表明該被試只掌握了第1個屬性(即將整數轉化為分數), 對其他7個屬性都沒有掌握。有了診斷性分析報告, 就可以進行有針對性的補救教學和學習。由此可見, 認知診斷報告中可提供豐富的信息,對被試的學習、教師的教學和教學效果的評價都有很重要的參考作用。

屬性是指測驗所考察的被試的潛在特質, 包括知識、技能、策略等(Leighton, Gierl, & Hunka,2004)。Q矩陣(Tatsuoka, 1983)描述了測驗中的所有題目和屬性之間的關聯關系, 通常用1來表示題目考察了某屬性, 用0來表示題目沒有考察某屬性。丁樹良等人對 Q矩陣理論進行了深入研究(丁樹良,羅芬, 汪文義, 2012; 丁樹良, 毛萌萌, 汪文義, 羅芬, Cui, 2012; 丁樹良, 汪文義, 羅芬, 2012; 丁樹良, 汪文義, 楊淑群, 2011; 丁樹良, 楊淑群, 汪文義, 2010)。Q矩陣的建立包括題目屬性的定義和題目屬性向量的驗證。被試在測驗屬性(通常有多個)上的掌握情況就構成了被試的屬性掌握模式。

認知診斷模型借助Q矩陣, 以作答數據為基礎去推斷被試的屬性掌握模式。題目屬性(在本文中,如無特別說明, 題目屬性是指題目的屬性向量)的定義和認知診斷模型對認知診斷評價很重要。測驗中題目屬性向量(即Q矩陣)的定義是否正確對于認知診斷模型的識別和被試的分類都是十分關鍵的(Rupp & Templin, 2008)。通常情況下, 題目屬性是由領域專家根據自己的知識或經驗進行定義的, 但這容易受到專家主觀因素的影響, 從而導致題目屬性的定義出現偏差。上述“分數減法”測驗(Tatsuoka,1990), 直到今天, 其題目屬性定義仍然存在爭議??梢? 題目屬性的定義是一件非常困難和關鍵的工作。

Q矩陣的建立包括題目屬性的定義和題目屬性向量的驗證。一方面, 研究者們研究了測驗題目固定(即每位被試作答的項目相同)時 Q矩陣的修證。de la Torre (2008)提出了一個基于經驗的驗證Q矩陣的方法, 即δ法, 該方法研究了題目屬性向量取不同值時, 通過該題目的猜測參數和失誤參數的變化情況(設置閾值)來進行判斷題目屬性向量的正確性; 涂冬波, 蔡艷和戴海琦(2012)研究了基于DINA模型的 Q矩陣修正方法, 即γ法, 通過對猜測或失誤參數過大(設置閾值)的題目進行檢驗, 來判斷該題目是否考察了某屬性。上述研究在確定正確題目屬性向量的標準時存在主觀性。DeCarlo(2011, 2012)利用貝葉斯方法來識別 Q矩陣中存在的錯誤, 但是該方法沒有為存在錯誤的題目提供建議的屬性向量。Liu, Xu和Ying (2011, 2012)提出從作答數據中推導Q矩陣的方法, 構建了評價Q矩陣的統計量, 并建立了相應的理論基礎, 這為客觀地推導Q矩陣邁出了重要的一步。模擬實驗結果表明,Liu等的方法有比較好的估計準確率, 但是 Liu等的方法在執行上比較費時。Xiang (2013)在Liu等人(2011, 2012)的基礎上, 將 Q矩陣中的元素當作連續變量進行估計, 通過截斷點轉換成0, 1數據, 但是相對于Liu等人(2011, 2012)的方法, 這種方法在準確率上并沒有優勢。

另一方面, 也有研究者們研究了計算機自適應測驗形式下題目參數和題目屬性向量的估計。汪文義等人(汪文義, 丁樹良, 2010; 汪文義, 丁樹良,游曉鋒, 2011)研究了在給定“新題(即題目屬性未知的題)”的題目參數以及被試在“舊題(即題目屬性已知的題)”和“新題”作答的基礎上, 使用極大似然估計方法、邊際極大似然估計方法以及交差方法來估計“新題”的屬性向量。陳平和辛濤(2011a)研究了“新題”參數的在線標定技術, 他們將“新題”隨機或自適應分配給被試, 通過被試在“舊題”上的作答,估計出被試的屬性掌握模式和題目參數, 然后條件估計“新題”的題目參數。陳平和辛濤(2011b)研究了基于“新題”和“舊題”作答數據聯合估計“新題”的題目參數和屬性向量。上述研究都是在得到被試的屬性掌握模式之后, 或者已知題目的屬性向量來估計題目的參數, 或者已知題目的屬性向量,“在線估計”題目的參數, 或者是以在線的方式聯合估計題目的屬性向量和題目參數。

在現代教育和心理測驗中, 需要對所選擇的項目反應模型與作答反應數據進行擬合檢驗, 來評價所使用的模型與數據之間的擬合情況。通常是把模型的預測值(比如期望得分)和實際觀察值(比如實際得分)之間的殘差作為統計量, 這個殘差的不同計算方法就構成了不同的擬合統計量, 常用的有Bock的卡方統計量(Bock, 1972), Yen統計量(Yen,1981), 似然比 G統計量(McKinley & Mills, 1985)等。

本研究受項目反應理論(Item Response Theory,IRT)中題目和數據擬合檢驗方法的啟發, 提出本研究的邏輯假設:在認知診斷評價中, 測驗中的題目屬性定義與作答反應數據的擬合情況, 應該也是可以按照類似IRT中的模型—資料擬合檢驗的方法進行檢驗的, 選擇擬合指標最好的題目屬性向量作為當前作答反應數據所對應的題目屬性定義?;谶@種邏輯假設, 本文提出一種簡單易懂的定義和驗證題目屬性向量的方法:即使用似然比統計量來對被試的屬性掌握模式、題目參數和題目的屬性向量進行在線的聯合估計。

2 IRT下的模型擬合度評價方法

一般來說, 數據與模型的擬合優度可評價觀察結果與期望結果之間的一致性程度(McKinley &Mills, 1985; Orlando & Thissen, 2000)。在IRT框架下, 通常評價每個題目作答反應數據與模型的擬合性的過程如下:

(1)在作答數據和所選擇的 IRT模型的基礎上,估計題目參數和能力參數;

(2)根據被試的能力估計值構造能力分組, 通常按能力分組的組數是一個比較小的整數, 比如10, 在同一組內的被試的能力值接近;

(3)根據能力估計值和作答數據, 為每個能力組被試計算觀察得分分布, 即計算每個能力組被試對題目實際的正確作答概率;

(4)根據能力估計值、選定的IRT模型, 計算各被試組在題目上的期望得分分布, 即計算各能力組被試對題目的期望正確作答概率;

(5)比較觀察得分分布和期望得分分布之間的差異。

其中第(5)步中通常采用某種卡方統計量來進行比較, 這里只介紹與本文相關的似然比G統計量。

這里的g是題目j在能力全距內將被試所分的組的個數,p和π分別是第i組被試在題目j上的實際正確作答概率和期望正確作答概率。N和r分別是第i組被試的總人數和其中實際正確作答題目j的人數, 并且有公式(2)成立。

π是根據第i組被試的能力平均值計算出來的正確作答概率(期望正確作答概率)。當采用邊際極大似然估計方法來估計題目參數時, G服從自由度為 g的 χ分布(du Toit, 2003)。

3 使用D2統計量來估計題目屬性向量和Q矩陣

本文在G統計量的基礎上進行修改得到D統計量, 并采用 D統計量檢驗題目屬性與作答反應數據之間的擬合度, 進一步確定合理的題目屬性向量。這里以DINA模型為例來說明估計題目屬性向量的具體過程, 該方法可以很容易地擴展到其它認知診斷模型上。

3.1 DINA模型

“確定性輸入, 噪音‘與’門” (Deterministic Inputs, Noisy And “gate”, DINA )模型(de la Torre,2008, de la Torre, 2009, Junker & Sijtsma, 2001, Rupp& Templin, 2008)是近年來受到廣泛關注的認知診斷模型之一。DINA模型是一個非?!肮澥 钡哪P?每個題目只有兩個參數, 分別是失誤參數(slipping parameter, s)和猜測參數(guessing parameter, g)。失誤參數s表示被試掌握了題目所考察的屬性, 但是錯誤作答的概率; 猜測參數g表示被試未完全掌握題目所考察的屬性, 但是正確作答的概率。DINA模型是一種“連接”的、非補償的模型?!斑B接”是指在不考慮猜測和失誤的情況下, 被試必須完全掌握題目所考察的屬性才能正確作答題目, 這種情況下的作答稱為理想作答, 用η表示。

公式(3)表示被試i (屬性掌握模式為α)在題目j (屬性向量為q)上的理想作答。當已知題目j的參數分別為s和g, 則被試i在題目j上的正確作答概率可表示為公式(4)。

3.2 DINA模型下的D2統計量

式(5)中, K是測驗考察的屬性個數, DINA模型不考慮屬性之間的相互關系, 測驗將被試分成 2組。η表示在第i組被試在題目j上的理想作答(即不考慮猜測和失誤時的作答), 取值0或1。N是第i組被試的總人數, r是 N中正確作答題目 j的人數。 s和 g分別是題目j的失誤參數和猜測參數。p是第i組被試中實際的正確作答題目j的人數比例, p的計算見公式(2)。

3.3 Q矩陣和題目參數的在線估計算法

為方便介紹, 將采用 D似然比統計量的在線估計(Likelihood Ratio Online Estimation)算法命名為LROE算法。假設測驗共考察K個屬性, 不考慮屬性之間的相互關系(即假設屬性之間的層級結構是獨立型), 則一共有 2種屬性掌握模式(即有 2類被試), 每個被試屬于其中的一類。如無特別說明,本文用大寫字母 Q帶下標的方式表示題目的屬性向量集合, 用小寫字母q帶下標的方式表示某個題目的屬性向量。

假設已經有少部分題目屬性被正確定義, 稱這部分題目的集合為“基礎題”, 記為Q。屬性向量未定義的題目集合為“新題”, 記為 Q, Q中的題目屬性向量需要借助于 Q中的題目來界定。這里采用“增量”的方式每次從“新題”中選擇一個題目(記為 q)累積加入到 Q中, 然后聯合估計Q的題目參數、q的屬性向量和題目參數, 直到所有新增題的屬性向量和參數都被估計。

下面介紹詳細的估計過程, LROE算法的過程包括兩大步驟, 具體內容如下:

第一步:估計所有新增題目的屬性向量和題目參數, 包括以下幾個具體步驟:

(1)從 Q中選擇一個題目, 記為 q, 將 q加入到Q中, 并且把q作為第1個題目。

(2)以 Q、q和作答數據為基礎, 使用MMLE/EM算法(de la Torre, 2009)聯合估計題目參數和被試的屬性掌握模式。

對每個新增題目的估計過程, 需要計算 D統計量和調用MMLE/EM算法的次數都為2-1次。

第二步:對所有題目的屬性向量和題目參數進行校正, 包括以下幾個具體步驟:

(7)算法結束, 得到Q矩陣的最終估計值。

以上第一步對每個題目進行估計時, 每次是“增量”式地選擇一個新題進行估計, 當包含的“基礎題”較多時, 這種方法會有利于對每個新題的估計, 因為此時數據中包含較多有用的信息和較少的噪音信息。但是當“基礎題”的數量較少時, 即數據中包含的信息不足以對某些新題進行估計, 可能會導致出現偏差。

第二步會在第一步估計得到的 Q矩陣基礎上(此時的Q矩陣中包含的錯誤較少)對每個題目進行第二次“校正”, 相當于使用數據對題目進行了雙重“校正”。因此, 整個LROE算法包含兩個步驟:先基于第一步算法對每個新題完成估計, 然后對整個Q矩陣進行校正。在第二步中, 算法每完成從步驟(5)到(10)的一次執行稱為一次迭代, 為了防止估計程序執行時間太長或不收斂, 可以通過設置最大迭代次數來避免(當“基礎題”較少或被試人數較少時可能會出現程序執行時間較長或不收斂的情況)。

4 模擬研究

為了研究本文所提出的算法在不同條件下的表現, 考慮的因素有三個:屬性個數、作為基礎的題目個數和被試人數。

4.1 研究設計

4.1.1 Q矩陣的模擬與初始Q矩陣

Q矩陣的真值與Liu等人(2012)相同, 一共有三個, 分別記為Q、Q和Q, 如圖1所示。Q、Q和Q中的屬性個數分別為3, 4和5, 題目個數都是20。

圖1 模擬的真實Q矩陣(引自Liu等(2012))

4.1.2 題目參數的模擬

題目參數

s

g

按均勻分布模擬, 取值區間為[0.05,0.25]。

4.1.3 被試的屬性掌握模式和作答的模擬

被試總體按均勻分布模擬, 即每種屬性掌握模式的人數相近, 分別產生 400、500、800和 1000人, 共四種情況。使用公式(4), 在題目參數、題目屬性向量和被試屬性掌握模式的基礎上模擬被試作答, 即將正確作答概率與均勻分布的隨機數比較,當正確作答概率大于隨機數時為正確作答, 否則為錯誤作答。

4.1.4 基礎題和初始Q矩陣

基礎題的個數一共有8, 9, 10, 11, 12共5種情況, 基礎題的選擇方式是從Q矩陣中隨機選取。初始Q矩陣是作為估計程序的輸入, 第一次迭代時的初始Q矩陣只包含基礎題, 之后的初始Q矩陣都在前一次的基礎上增加一個新題。

本研究中三個因素(Q矩陣、基礎題的個數和被試人數)的水平分別為3, 5和4, 一共有3×5×4=60種情況。

4.1.5 評價指標

因為由

K

個屬性組成的屬性向量有 2種, 在定義錯誤的情況下, 題目的屬性向量有 2-2(不能是全0向量和正確的向量)種可能。對于結果的評價采用與Liu等(2012)中相同的方式, 即從100批模擬數據中算法恢復正確 Q矩陣的次數作為評價指標,恢復次數越接近100, 表明算法恢復的成功率越高。

具體的研究過程如下:

(1)分別在 Q, Q和 Q下, 模擬題目、被試和作答;

(2)針對每種不同個數的“基礎題”, 產生100個只包含“基礎題”的初始Q矩陣(即每次從20個題目中隨機抽取預定個數的題目作為“基礎題”, 這樣使得100個初始

Q

矩陣中包含的基礎題個數相同, 但是具體題目不同。從而產生不同的初始Q矩陣, 以此作為估計算法的出發點, 下一次迭代的輸入總是在前一次初始Q矩陣的基礎之上加入一個新題);

(3)使用 LROE算法的第一步, 每次選擇一個需要估計的新題q, 補充到初始Q矩陣Q中, 作為算法的出發點去估計q, 直到所有的新題都被估計。

(4)使用 LROE算法的第二步對包含所有題目的Q矩陣進行校正。

(5)計算算法從 100個初始 Q矩陣中的估計成功率。估計成功是指估計的 Q矩陣(包含基礎題和新題)與真實Q矩陣完全相同。

4.2 研究結果

表1是LROE算法的估計結果, 圖2、圖3和圖4描述了LROE算法對Q, Q和Q的成功次數變化曲線。表2列出了LROE算法在各種情況下成功估計的平均運行時間, 表3列出了LROE算法在各種情況下基于真實Q矩陣和估計矩陣Q時, 模式判準率(Leighton et al., 2004)及其變化情況。

表1 使用LROE算法估計Q矩陣的結果

圖2 LROE算法對Q1矩陣成功次數變化曲線

圖3 LROE算法對Q2矩陣成功次數變化曲線

圖4 LROE算法對Q3矩陣成功次數變化曲線

從表1的結果來看, LROE算法有較高的Q矩陣估計成功率, 即使是“基礎題”和“被試人數”都較少時。比如, 當被試為400人, Q下, “基礎題”為8個時, 估計的成功率達到95%。當“基礎題”達到10個, 被試人數為400或更多, 就可以100%的恢復上述指定的正確的

Q

矩陣。對于Q和Q, 當“基礎題”只有9個, 即使是人數達到1000, LROE算法的成功率也較低, 分別只有 83%和 79%, 當“基礎題”增加到12個時, 估計的成功率都達到98%。這說明,當 Q矩陣中的屬性個數增多時, 相對于被試人數,“基礎題”的個數顯得更加重要, 比如對于Q, 當被試人數為400, “基礎題”從8逐漸增加到12, 成功率分別增加 18%、20%、8%和 16%, 每增加一個“基礎題”, 成功率平均增加15.5%; 當“基礎題”為8個,被試人數從400增加到1000, 估計成功率分別增加18%、7%和13%, 每增加100人, 成功率平均增加6.3%。

從表1中還可以看出, 當被試人數為 500或800時, “基礎題”達到9個或以上時, LROE算法對Q的估計成功率低于 Q的估計成功率。直觀的理解會認為在相同被試人數、相同基礎題目條件下,算法對Q的估計成功率應該要高于Q的估計成功率。為什么會出現這種反常的現象?通過檢查模擬程序在各次迭代的中間結果和 Q矩陣的估計值發現:在錯誤估計Q的情形下, 通常是由于對最后兩個題目的估計不準確所導致的。不同于Q和Q, Q的最后兩個題目都是考察了所有的屬性(下面稱“全屬性題目”), 而Q中只有一個“全屬性題目”, Q中沒有“全屬性題目”, 當真實矩陣中包含多個“全屬性題目”時, 算法更容易出現錯誤估計的情況。

表2是使用LROE算法在100批數據中, 成功估計時的平均使用時間。這里只統計成功估計的時間, 主要是由于估計不成功時, 模擬程序達到收斂條件需要經過很多次迭代, 不同批次數據的執行時間差異較大。在LROE算法的執行過程中, 在第二步的(6)處設置最大執行次數, 在成功的估計過程中, 第二步的(6)執行次數一般都不超過 10次, 因此, 可以設置第二步的(6)執行次數達到 20次時,強制結束算法的執行。

表2 使用LROE算法成功估計Q矩陣的平均執行時間(單位:秒)

從表2的結果來看, 基礎題個數和被試人數共同影響著算法的執行時間。固定被試人數時, 增加基礎題; 或者固定基礎題, 增加被試人數都可以降低算法的運行時間。當被試人數和基礎題個數都較少時, 比如400人, 8個基礎題, 在三個Q矩陣下,算法都需要最多的時間, 因為此時算法成功估計需要的迭代次數較多。表2中還可以看出, 當測驗中考察的屬性個數增加時, 會導致算法的執行時間急劇增加, 比如三個Q矩陣, 400人, 8個基礎題時的執行時間分別為:230.321秒, 1631.775秒和2983.422秒, 這是因為每增加1個屬性, 會導致每個題目可能的屬性向量個數翻一番。

表3是基于作答數據和LROE算法估計得到的Q矩陣, 采用DINA模型進行分析得到的平均屬性掌握模式判準率。從中可以看出, 模式判準率的變化反映了LROE算法的估計成功率, 即算法的估計成功率越高, 采用Q矩陣估計值和真實Q矩陣得到的模式判準率就越接近。對于真實的Q矩陣, 無論是在 Q, Q或 Q下, 被試人數的增加與屬性模式判準率之間沒有必然的聯系, 這一點可以從表3中的第3列數據可以看出。對于采用LROE算法估計得到的Q矩陣, 平均模式判準率會隨著“基礎題”的增加而增加, 這是因為增加“基礎題”會提高算法的估計成功率。固定被試人數, 隨著“基礎題”的增加,平均模式判準率會更接近于基于真實 Q矩陣對應的模式判準率。

4.3 統計檢驗

為了考查Q, Q和Q下, LROE算法的估計結果在不同被試人數或“基礎題”個數下是否有差異, 進行基于“被試人數”或“基礎題”的單因素方差分析。

從表4的分析結果可以看出, 不論是Q, Q還是 Q, 在顯著性水平為 0.05時, 不同“被試人數”(實驗中涉及到的4種樣本量)下的Q矩陣估計成功率之間不存在顯著差異, 但是不同“基礎題”個數(實驗中涉及到的5種個數)下的Q矩陣估計成功率之間有顯著差異, “事后多重比較”的檢驗結果如表5所示。

從表5中檢驗的結果可以看出, 在Q下, 8個“基礎題”與9, 10, 11和12個“基礎題”的估計成功率都有顯著差異; 而9, 10, 11和12個“基礎題”的估計成功率之間兩兩不存在顯著差異。在Q下, 8個“基礎題”與9, 10, 11和12個“基礎題”的估計成功率也都有顯著差異; 而9, 10和11個“基礎題”的估計成功率之間兩兩不存在顯著差異, 9個“基礎題”與12個“基礎題”的估計成功率之間有顯著差異。在 Q下, 8個“基礎題”與9, 10, 11和12個“基礎題”的估計成功率都有顯著差異; 而9與10個“基礎題”的估計成功率之間沒有顯著差異, 9個“基礎題”與11和12個“基礎題”的估計成功率之間有顯著差異。

表3 基于真實和估計Q矩陣的模式判準率

表4 LROE算法估計結果的統計檢驗分析

表5 Q1, Q2和Q3下, LROE算法在不同“基礎題”條件下估計成功率的事后多重檢驗

5 總結與討論

題目屬性向量的定義對于認知診斷評價是十分重要的, 采用似然比

D

統計量對 Q矩陣進行估計, 可以基于“基礎題”, 對“新題”實現在線估計,進一步對測驗中的所有題目進行“校正”, 這樣即使是“基礎題”較少時, LROE算法都可以有較高的估計成功率。相對于本文中提到的其它題目屬性定義方法, LROE算法有一些優點, 主要表現在:(1)實現了被試的屬性掌握模式、題目屬性向量和題目參數的在線聯合估計; (2)即使當“基礎題”個數較少,被試量較小時, 有較高的估計成功率; (3)更簡單和省時。

D

統計量比Liu等(2011, 2012)的

S

統計量執行效率更高, 在相同的條件下(屬性個數, 被試人數和題目個數都相同)下, LROE更省時, 比如, 采用 matlab 編寫程序, 當人數為 1000, 屬性個數為3, 20個題目中有3個錯誤題目, 在CPU為Intel 酷睿i7 2600, 8G內存的臺式計算機上, 在成功估計時,LROE算法需要 40.059秒, 而 Liu等算法需要408.954秒, 從時間上來看, LROE算法不到Liu等算法的1/10。這是因為Liu等人的方法中涉及到

T

矩陣和β向量的計算, 即使是屬性個數為 3時, 題目個數為 20,

T

矩陣和β向量的行數也是一個“巨大”的數字, 雖然Liu等對算法中

T

矩陣中的行數進行了壓縮, 但是算法仍然很費時。從結果上看, 使用

D

統計量來估計題目的屬性向量, 對樣本量要求不高。即使是400人, 當“基礎題”達到10個, 估計算法在Q上的估計成功率是100%, 這樣一來, 使得本方法有很好的實用性?!霸诰€估計算法”需要通過兩步完成, 第一步是增量估計需要估計的題目, 第二步是對所有的題目進行“校正”, 從而對題目實現了“雙重校正”, 可以保證“在線估計”的成功率。并且, 如果Q矩陣中只有少部分題目存在疑問或錯誤時, 也可以直接使用LORE算法的第二步進行被試的屬性掌握模式、題目參數和題目的屬性向量進行聯合估計。因此,LORE算法可以較好的處理兩種情況:一是專家界定的Q矩陣(作為初始的Q矩陣)質量較好, 只包含少部分錯誤, 可以直接使用第二步進行聯合估計;二是只有少部分題目已經正確定義, 有更多的題目需要定義, 則可以使用LORE算法先進行增量式在線估計, 然后進行所有題目的整體聯合估計。使用

D

統計量進行 Q矩陣估計時, 從統計檢驗的結果來看, 為了獲得較好的估計成功率, “基礎題”數量最好取8個以上。LORE算法對被試人數有一定的要求, 當被試人數少于400時, 比如200或300, 算法的估計成功率會很低。需要特別注意的是,當被試人數達到 1000甚至更多時, 算法的估計成功率并不會有明顯的優勢, 因此, 使用D統計量進行Q矩陣估計的理想被試人數應該是800到1000。本研究中所采用的Q矩陣相對比較簡單, LORE算法對于更復雜的情況下的表現如何值得更進一步研究。

當然, 以上結果都是基于模擬數據下的結果,D統計量的在線估計算法還需要在實際測驗中去驗證。

Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37(1), 29-51.

Chen, P., & Xin, T. (2011a). Developing on-line calibration methods for cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(7), 710-724.

[陳平, 辛濤. (2011a). 認知診斷計算機化自適應測驗中在線標定方法的開發. 心理學報, 43(6), 710-724.]

Chen, P., & Xin, T. (2011b). Item replenishing in cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(7), 836-850.

[陳平, 辛濤. (2011b). 認知診斷計算機化自適應測驗中的項目增補. 心理學報, 43(7), 836-850.]

de la Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications. Journal of Educational Measurement, 45(4),343-362.

de la Torre, J. (2009). DINA model and parameter estimation:A didactic. Journal of Educational and Behavioral Statistics, 34(1), 115-130.

DeCarlo, L. T. (2011). On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes,and the Q-matrix. Applied Psychological Measurement,35(1), 8-26.

DeCarlo, L. T. (2012). Recognizing uncertainty in the Q-Matrix via a bayesian extension of the DINA model.Applied Psychological Measurement, 36(6), 447-468.

Ding, S. L., Luo, F., & Wang, W. Y. (2012). Extension to Tatsuoka’s Q matrix theory. Psychological Exploration,32(5), 417-422.

[丁樹良, 羅芬, 汪文義. (2012). Q矩陣理論的擴展. 心理學探新, 32(5), 417-422.]

Ding, S. L., Mao, M. M., Luo, F., & Cui, Y. (2012). Evaluating the consistency of test items relative to the cognitive model for educational cognitive diagnosis. Acta Paychologica Sinica, 44(11), 1535-1546.

[丁樹良, 毛萌萌, 汪文義, 羅芬, Cui, Y. (2012). 教育認知診斷測驗與認知模型一致性的評估. 心理學報, 44(11),1535-1546.]

Ding, S. L., Wang, W. Y., & Luo, F. (2012). Q matrix and Q matrix Theory in cognitive diagnosis. Journal of Jiangxi Normal University (Natural Science), 36(5), 441-445.

[丁樹良, 汪文義, 羅芬. (2012). 認知診斷中Q矩陣和Q矩陣理論. 江西師范大學學報(自然科學版), 36(5), 441-445.]

Ding, S. L., Wang, W. Y., & Yang, S. Q. (2011). The design of cognitive diagnostic test blueprints. Journal of Psychological Science, 34(2), 258-265.

[丁樹良, 汪文義, 楊淑群. (2011). 認知診斷測驗藍圖的設計. 心理科學, 34(2), 258-265. ]

Ding, S. L., Yang, S. Q., & Wang, W. Y. (2010). The importance of reachability matrix in constructing cognitively diagnostic testing. Journal of JiangXi Normal University (Natural Science), 34(5), 490-494.

[丁樹良, 楊淑群, 汪文義. (2010). 可達矩陣在認知診斷測驗編制中的重要作用. 江西師范大學學報, 34(5),490-494.]

du Toit, M. (2003). IRT from SSI: bilog-mg, multilog, parscale,testfact. Scientific Software International.

Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258-272.

Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka's rule-space approach. Journal of Educational Measurement, 41(3), 205-237.

Liu, J. C., Xu, G. J., & Ying, Z. L. (2011). Theory of the self-learning Q-matrix. Prepriint, 19, 1790-1817.

Liu, J. C., Xu, G. J., & Ying, Z. L. (2012). Data driven learning of Q matrix. Applied Psychological Measurement, 36(7),548-564.

McKinley, R. L., & Mills, C. N. (1985). A comparison of several goodness-of-fit statistics. Applied Psychological Measurement, 9(1), 49-57.

Orlando, M., & Thissen, D. (2000). Likelihood-based item-fit indices for dichotomous item response theory models.Applied Psychological Measurement, 24(1), 50-64.

Rupp, A. A., & Templin, J. L. (2008). The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model. Educational and Psychological Measurement, 68(1), 78-96. doi: 10.1177/0013164407301545

Tatsuoka, K. K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement, 20(4), 345-354.

Tatsuoka, K. (1990). Toward an integration of item-response theory and cognitive error diagnosis. In N. Frederiksen, R.Glaser, A. Lesgold, & Safto, M. (Eds.), Monitoring skills and knowledge acquisition (pp. 453-488). Hillsdale, NJ:Erlbaum.

Tu, D. B., Cai, Y., & Dai, H. Q. (2012). A new method of Q-Matrix validation based on DINA model. Acta Psychologica Sinica, 44(4), 558-568.

[涂冬波, 蔡艷, 戴海崎. (2012). 基于DINA模型的Q矩陣修正方法. 心理學報, 44(4), 558-568.]

Wang, W. Y., & Ding, S. L. (2010). Attribute identification of new items in cognitive diagnostic computerized adaptive testing. Paper presented at 9th cross-strait conference on psychological and educational testing, Taiwan.

[汪文義, 丁樹良. (2010). 計算機化自適應診斷測驗中原始題的屬性標定. 第九屆海峽兩岸心理與教育測驗學術研討會, 臺灣.]

Wang, W. Y., Ding, S. L., & You, X. F. (2011). On-line item attribute identification in cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(8), 964-976.

[汪文義, 丁樹良, 游曉鋒. (2011). 計算機化自適應診斷測驗中原始題的屬性標定. 心理學報, 43(8), 964-976.]

Xiang, R. (2013). Nonlinear penalized estimation of true Q-Matrix in cognitive diagnostic models. Unpublished doctorial dissertation, Columbia University.

Yen, W. M. (1981). Using simulation results to choose a latent trait model. Applied Psychological Measurement, 5(2),245-262.

猜你喜歡
測驗成功率矩陣
成功率100%,一顆玻璃珠入水,瓶子終于坐不住了!
院前急救心肺復蘇成功率的影響因素研究
優化急診護理流程對提高急診患者搶救成功率的影響
堅持
多項式理論在矩陣求逆中的應用
兩個處理t測驗與F測驗的數學關系
數字測驗
矩陣
矩陣
矩陣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合