?

概化理論和EduG在教育測量研究中的應用
——以試題難易度分析為例

2016-04-13 02:19王天劍彭中梅
文山學院學報 2016年6期
關鍵詞:難易度普通班試題

王天劍,彭中梅

(1. 貴州財經大學 外國語學院,貴州 貴陽 550004;2. 貴州財經大學 圖書館,貴州 貴陽 550004)

概化理論和EduG在教育測量研究中的應用
——以試題難易度分析為例

王天劍1,彭中梅2

(1. 貴州財經大學 外國語學院,貴州 貴陽 550004;2. 貴州財經大學 圖書館,貴州 貴陽 550004)

概化理論是一種重要的現代教育和心理測量理論。它整合了方差分析與傳統的真分數理論,形成一種新的測量信度評價技術。為了掌握概化分析技術,討論了概化分析中的基本概念,并以一個試題難易度測量程序研究為例,介紹了利用軟件EduG進行概化分析的基本程序和方法。

概化理論;EduG;教育測量

概化理論(Generalizability Theory, GT)是評價行為測量信度(reliability)的理論[1]。它整合了經典測量理論(Classical Test Theory)與方差分析技術(Analysis of Variance),形成一種現代測量評價理論[2-4]。依據經典測量理論,觀測分數是真分數與隨機誤差之和(X = T + E)。真分數是測量特質的真值,隨機誤差是測量中的所有偏差[4]。隨機誤差源于哪些因素?為探索這一問題,概化理論整合了方差分析的概念,將隨機誤差區分為不同的來源成分,估算各自所占權重,并計算信度系數,反映測量的精準度[5]?;诟呕治?,研究者不僅能評價既有測量程序之優劣,也可以探索測量程序優化之方案。概化理論在國外教育與心理測量中極受重視。美國心理學協會、教育研究協會和教育測量委員會聯合頒布的《教育和心理測量標準》(Standards for Education and Psychology Testing,AERA,2002)明確要求,在建立觀察和測量程序的信度與效度時,需依據概化理論[6]。根據對2000-2014年間8種SSCI期刊的綜述,邱均平等指出,美國教育評價理論研究的三個熱點中含有概話理論(其余兩個是項目反應理論和經典測量理論)[7]。

學校的一般測試都屬于教育測量范疇。近年來,國內已有學者開始借助概化理論進行相關研究。徐鷹等使用概化理論,考查了高考英語聽說模擬測試和CET作文評分程序的信度[8-9];關丹丹從概化分析視角,研究了閱讀理解測試的信度[10];基于概話理論,溫紅博等檢查了義務教育階段學生識字量測試的信度[11]。這些研究披露了測量程序中存在的各種缺陷,對于改進測量設計具有重要參考價值。

教育測量貫穿教學的始末。從平時測試、期末測試、升學測試,到各種競賽測試等,無不需要采用具有較高信度和效度的測量程序。利用概化理論對測量數據進行分析,對于提高測量信度具有重要意義。鑒于國內關于概化理論應用方法和操作入門的研究尚且有限,本文在描述概化分析基本程序的基礎上,以試題難易度分析為例,簡要介紹利用工具軟件EduG進行概化分析的步驟(EduG系瑞士教育專家Jean Cardinet指導下開發的概化分析免費軟件,可從如下網頁下載:http://www.irdp.ch/ edumetrie/englishprogram.htm)。

1 概化分析的基本程序

1.1 確定觀察設計與估計設計

概化分析涉及的變量(測量的對象以及構成測量條件的因素)統稱側面(facets)。觀察設計是指側面之間的結構關系,主要包括交叉關系、套嵌關系及其各種組合派生的復雜關系。交叉關系是指每一個側面的每個水平,與其他任一側面的每個水平均存在接觸。套嵌關系是指一個側面的不同水平僅與另一個側面的一個水平結合。當有三個或者更多側面時,會存在復雜的交叉套嵌關系,如先交叉后套嵌,先套嵌后交叉,或者層層疊加套嵌。例如測量中的被試為10名學生(S),評分者為2名教師(R),這時學生和教師就是兩個側面,其水平分別為10和2。倘若每個學生均需要接受每個評分員評分,即S和R的各個水平均有結合,則兩側面構成交叉關系(表示為S×R,或者SR)。這樣可以產生10 × 2 = 20個數據。倘若5名學生接受一名評分員評分,其余5名學生接受另外一名評分員評分,即S的5個水平與R的一個水平結合,S的其余5個水平與R的另一水平結合,這時兩個側面存在套嵌關系,S套嵌于R之內(表示為S:R)。這樣可以產生1× 5 + 1×5 = 10 個數據。如果再介入一個試題側面I,則會存在SRI(三側面完全交叉),S:RI (RI交叉,S套嵌于RI),SR:I (SR交叉,SR套嵌于I),或者S:R:I (S套嵌于R,R進一步套嵌于I) 等復雜關系。

估計設計是指規定各個側面是以多少個水平估計多大的總體(Universe)。它包括三種類型:(1)側面總體固定,總體的各個水平全部出現在研究中;(2)側面總體固定,以隨機方式抽取的總體的部分水平出現在研究中;(3)側面總體無限大(INFINITE,或者INF),以隨機方式抽取的總體的部分水平出現在研究中。不同的估計設計研究結果具有不同的概化程度。第一種類型的研究結果僅適用于研究中涉及的側面的特定水平,這類模型叫做固定模型;第二種和第三種類型的研究結果在理論上可以概化到總體的所有水平中,這兩類統稱隨機模型。一個研究程序中可以同時容納不同類型的設計成分,這樣的模型叫做混合模型。

1.2 確定測量設計

測量設計是指確定哪些側面是區別側面(Differentiation Facet),哪些是工具側面(Instrumentation Facet),測量性質是相對的,還是絕對的。區別側面是測量的對象,工具側面是構成測量條件的因素。在教育研究中,一般情況下區別側面就是學生,我們傾向于關注學生的測試結果是否穩定可靠。其他因素大多屬于工具側面,它們是為學生的測試服務的。但是基于研究興趣,我們也完全可以將區別側面和工具側面調換位置。例如,在一個由學生(S)、評分者(R)和試題(I)組成的交叉設計(SRI)中,如果旨在考查學生的成績是否可靠,則區別側面為學生,其余因素構成工具側面(表示為S/QR);如果旨在檢查學生在不同試題上得分高低的穩定性,則區別側面是試題,評分員和學生變成工具側面(Q/ SR);如果旨在檢查不同評分員給分差別是否穩定,則評分員成為區別側面,學生和試題構成工具側面(R/SQ)。

為了將學生(或其他研究對象)排名進行的測量叫做相對測量,為了考查學生(或其他研究對象)是否達到既定標準的測量叫做絕對測量。例如競賽、拔尖、擇優之類的測試均為相對測量,目標測試、掌握性測試、過級測試、畢業測試等一般均視為絕對測量。之所以確定測量的性質是相對的還是絕對的,目的在于選擇對應的信度系數計算方法,并對結果做出正確的解釋。

2 概化研究舉例

借助軟件進行概化研究非常簡便?,F以一組試題難易度分析為例,展示利用軟件EduG進行概化分析的方法。

2.1 問題描述

現有從題庫中隨機抽取的10道英語語法題,為了確定其相對難易度,校方進行了一項測試研究。受試者為80名初三學生,其中40名隨機抽自普通班,40名隨機抽自重點班。為了控制試題的順序效應,10道試以兩種版本(A卷和B卷)呈現,其間唯一的差別是隨機排列順序不同。重點班和普通班各有一半(20名)學生做A卷,一半學生做B卷。每道題做對計1分,做錯記0分。每道題的難易度以通過率為考查指標,通過率越高越容易。例如,80名受試者中,有70名作對的題目,難易度為:70 / 80 = 0.875。由于每個學生都要完成10道題,80個學生可產生800個原始數據。試根據這些數據,利用概化理論回答如下研究問題:

1)哪些因素對試題得分影響較大?

2)這種測量程序是否能準確估計不同試題的難易度?

3)重點班與普通班在10道題上的平均得分是否類似?

4)試題呈現順序對難易度有影響嗎?

5)試題的難易度順序在重點班與普通班之間是否有別?

如上問題中,最核心的是測量程序能否準確估計不同試題的難易度,其他屬于附帶性問題。

2.2 問題分析

2.2.1 觀察設計

本例共有四個側面:班級(Class或C),試卷版本(Version或V),試題(Question或Q)和學生(Student或S)。試題同班級、版本和學生等三個側面構成交叉關系,因為同樣的試題被包含在不同的版本中,提供給每個班級的每個學生;班級同版本也構成交叉關系,因為每個班級都要接觸不同版本的試卷;學生套嵌于班級和版本內(Student within Class and Version,S:CV),因為班級和版本交叉后構成四種條件:重點班-A卷,重點班-B卷,普通班-A卷,普通班-B卷,每種條件內“套嵌”20名學生。整個測量的觀察設計為:(S:CV)Q,即班級和版本交叉,學生套嵌于班級和版本的交叉單元內,學生、班級和版本同試題構成交叉關系。

2.2.2 估計設計

本例中班級為固定側面,水平為2,全域為2,因為研究者面對的班級類型僅有兩個水平:重點班和普通班,且兩個水平均進入了測量程序。試卷版本水平為2,全域為無限,因為兩個版本僅代表兩種試題排列順序,實際上10道試題通過不同的排列組合,可以組成大量(1010)的可能版本,由于數量過大,版本全域可視為無限。試題的水平為10,全域為無限,因為10道試題僅為樣本,它們取自題庫,而題庫可視為一個無限總體。學生盡管有80名,但套嵌于每個“班級-版本”單元內的水平數為20。因為學生是從無限總體中抽取的,其全域為無限。表1呈現的是觀察和估計設計結構。

表1 觀察和估計設計表(INF = Infinite)

2.2.3 測量設計

本例著重考查測量程序對試題難易度測量的準確度,因此試題是區別側面(即研究對象),班級、版本和學生為工具側面(測量的條件因素),這種關系可以表示為Q/CVS。由于研究者關注的焦點是程序對試題難易度測量的準確度(各道題測出的通過率是否準確可靠),測量是絕對的(解釋結果時,需要觀察絕對指標)。

2.3 輸入程序指令

為了利用EduG進行概化分析,需打開軟件,并在界面中按如下方式填寫指令(見圖1)。

圖1 概化分析指令界面

完成如上指令的具體步驟包括:

1)確定文件名稱與保存位置。運行軟件,依次點擊File和New,在彈出的界面中填寫文件的存儲名稱和位置(本例名稱取“Analysis of question difficulty”,保存位置為F盤)。

2)打開文件,在界面中填寫相關指令。

ⅰ在Title后填寫文件的標題(這是分析報告中使用的標題,本例仍然用“Analysis of question difficulty”;

ⅱ在Number of facets后選4,表示分析涉及四個側面;

ⅲ參照表1,在Observation and estimation designs之下填寫各側面的英文名稱(EduG不能準確識別漢字),名稱的字母代碼(C,V,S:CV,Q)。填寫各側面的水平(2,2,20,10),各側面的全域容量(無限表示為INF);

ⅳ在Measurement design 后填寫測量設計代碼(Q/CVS);

ⅴ在Reports下勾選RTF(表示輸出的結果以Word表格形式呈現);

ⅵ其他選項保持默認值①。

ⅶ插入數據。點擊Insert data,選擇scores,即彈出數據錄入界面(圖2)②。第一列表示的是班級序號,第二列是版本序號,第三列是學生序號,第四列是問題序號。前四列是軟件根據觀察設計自動生成的,第五列(Data)是需要我們錄入數據的位置。原始分數共計800個,可以依次錄入表中(從重點班內,做A卷的第一個學生,在第一道題上的得分開始,循序錄入)。

2.4 查看結果

錄入如上程序指令和數據后,點擊Compute,即可查看結果。如下部分將結合研究問題呈現相關結果。

1)哪些因素對試題得分影響較大?

表2是輸出的方差分析結果。各列依次表示對試題總分變異具有潛在影響的因素(側面及其交互)、平方和、自由度、均方、隨機效果模型方差成分、混合效果模型方差成分、Whimbey’s矯正的方差成分、各矯正成分的百分比及各隨機效果模型方差成分的標準誤。根據表2第一列和第八列可知,有四個因素對試題總分變異影響較重:

SQ:CV(學生、試題的交互作用)為61.6%;Q(試題)為17.0%;S:CV(學生)為 13.6 %;C(班級)為6.6%。

學生和試題的交互作用意味著,不同學生在不同問題上得分或失分的傾向存在反差。需要注意的是,未知因素和隨機因素的影響與SQ的交互作用是混合在一起的,所以其分量較大(61.6%)。試題和學生對總分變異的影響居中(分別為17.0%和13.6%),班級類型的影響較低(6.6%)。需要注意的是,當方差成分接近零時,在計算中會出現負值(理論上的無效值),這些數值在后續處理中視為0。表2中的V、CVQ的方差成分均屬此類情況。

2)這種測量程序是否能準確估計不同試題的難易度?

表3呈現的是概化研究表(G-Study Table)。其中第一列是研究對象,即區別側面(本例是指試題),第二列是區別側面的方差(相當于經典測量中真分數解釋的變異,這里可理解為 “試題可以解釋的得分變異”),第三列是潛在的誤差來源,第四、五列為相對誤差方差及其百分比,第六、七列為絕對誤差方差及其百分比(注意:由于班級C為固定側面,不存在隨機抽樣誤差,故該側面及其交互作用對測量誤差的影響為零)。各列數據是進一步計算概化系數(相當于信度系數)的基礎。當系數大于或等于0.80時,一般認為測量結果準確度比較理想[12-13]。

由于本例屬于絕對測量,需要根據絕對概化系數( Coef_G absolute)判斷測量的準確度。這里Coef_G absolute = 0.94 > 0.80,表明測量結果可靠準確,即程序能夠準確估計不同試題的難易度或者通過率。這里的0.94也意味著,使用該程序測量試題難易度,誤差造成的影響僅有6%(誤差可解釋總分變異的6%)。

表2 方差分析表

表3 概化研究表

3)重點班與普通班在十道題上的平均得分是否類似?試題呈現順序對難易度是否有影響嗎?

回答這兩個問題,需要觀察有關方差分析結果和均分。方差分析結果(表2)顯示,班級(C)的均方(MS)為 14.31,對試題總分變異的影響權重為6.6%,版本(V)的均方為0.10,對試題總分變異的影響權重為0。據此可以初步推斷,班級側面對試題得分有一定影響,但試題呈現順序對試題得分(難易度)影響不顯著。

不同班級和版本的均分(Mean)差別是否顯著?為了獲取均分,需在EduG軟件指令界面中,點擊Mean,在彈出界面中選擇C(班級),或者選擇V(版本),然后點擊Compute,即可獲得重點班、普通班、A卷和B卷的平均分(見表4)。過率為39 %)。A卷和B卷的平均分差別不明顯:A卷的均分約為0.51(通過率約51 %),B卷的均分約0.54(通過率約54 %)。

綜合上述方差分析和均分結果可以推論:班級側面對試題得分有一定影響,重點班的均分明顯高于普通班;不同的呈現順序對試題得分(難易度或者通過率)影響不明顯。

3 結語

表4 不同班級或版本均分

概化理論是將方差分析與傳統的真分數理論整合發展而來的信度理論,它是現代教育和心理測量的重要理論之一。利用概化理論,我們可以對考試中的不同因素(如試題、受試者、評分者、考試條件等)進行研究,了解不同因素對測量結果和測量準確度的影響,評價測量程序的可靠度和測量結果的穩定性。本文簡要討論了概化分析中的觀察設計、估計設計、測量設計等基本概念,并以試題難易度測量程序研究為例,介紹了利用軟件EduG進行概化分析的步驟,以及對輸出結果的解釋方法。囿于篇幅,只能涉及部分功能和用法,希望有助于概化分析技術的推廣。

平均分是指每人每題平均得分。由于做對一題得1分,做錯得0分,每人每題的平均分介于0~1之間。全部做錯均分為0,通過率為0 %;全部做對均分為1,通過率為100 %。根據表4可知,重點班和普通班在十道題上均分差別明顯:重點班均分約0.66(通過率約66 %),普通班均分為0.39(通

注釋:

① Number of decimals 表示結果中小數位數;Decimal separator 表示小數的分隔符號;Estimate of Phi用于絕對測量;Optimization和G-Facets analysis用于優化設計研究。如關心均值,需點擊Mean并勾選相應側面。

② 如有現成的原始數據(或平方和),點擊Import file with raw data(或Import sums of squares);如需瀏覽或編輯既有數據,點擊Brows/Edit data;導出數據點擊Export data;刪除數據點擊Delete data。

[1] Shavelson R.J., Webb N.M. Generalizability theory: A primer [M]. California: Sage Publications Inc., 1991: 1-55.

[2] Cronbach, L. J., Rajaratnam, N., & Gleser, G. C.. Theory of generalizability: A liberalization of reliability theory[J]. British Journal of Mathematical and Statistical Psychology, 1963(2):137-163.

[3] Cronbach, L. J., Gleser, G. C., Nanda, H., et al. The dependability of behavioral measurements: Theory of generalizability for scores and profiles[M]. New York:Wiley, 1972:7-43.

[4] Brennan, R. L.. Generalizability theory[M]. New York:Springer, 2001:3-14.

[5] Cardinet, J., Johnson, S., Pini, G.. Applying generalizability theory using Edug[M]. New York, NY: Taylor & Francis Group, 2010:6-20.

[6] American Education Research Association (AERA), American Psychological Association(APA), National Council on Measurement in Education (NCME). Standards for education and psychology testing[M]. Washington,DC:American Psychological Association, 2002:15-17.

[7] 邱均平,歐玉芳. 美國教育評價研究的知識基礎與熱點[J]. 中國地質大學學報(社會科學版),2016(3):142-149.

[8] 徐鷹,曾用強. 基于概化理論和多層面 Rasch模型的計算機化英語聽說考試評分研究[J]. 電化教育研究,2015(3): 89-95.

[9] 徐鷹. 概化理論和多層面R asch模型在CET- 4作文評分中的應用研究[J]. 西安外國語大學學報,2016(1):91-95.

[10]關丹丹. 閱讀理解測試的信度研究: 來自概化分析的視角[J]. 心理學探新,2016(1):70-74.

[11]溫紅博,等. 基于概化理論的識字量測驗測試用字數研究. 語言文字應用,2016(1):74-84.

[12]靳雪蓮,滕金生,楊德山. 網絡論壇公共事務討論語言的修辭特征和成因[J].重慶郵電大學學報( 社會科學版),2014(5):117-123.

[13]翟洪昌,徐小霞,俞園. 房產銷售人員職業錨類型與工作滿意度的關系研究[J]. 文山學院學報,2013(3):72-77.

The Application of Generalizability Theroy and EduG to Measurement in Education: Illustrated with a Study of Test Item Dif fi culty

WANG Tianjian1, PENG Zhongmei2
(1. School of Foreign Languages, Guizhou University of Finance and Economics, Guiyang 550004, China; 2. Library, Guizhou University of Finance and Economics, Guiyang 550004, China)

Being one of the most important modern measurement theories in education and psychology, generalizability theory combines ANOVA and traditional True-Score theory, and develops a new technique for the evaluation of reliability. To help readers grasp the skill of generalizability analysis, this paper discusses the fundamental concepts in it, and employs an example of test item dif fi culty study to illustrate the basic steps involved in generalizability analysis with the software EduG.

generalizability theory; EduG; application

G449

A

1674-9200(2016)06-0088-06

(責任編輯 楊愛民)

2016-03-10

貴州省科學技術廳、貴州財經大學軟科學研究聯合基金資助項目“貴州省軟件產業進入國際市場的終端用戶許可協議設計研究”(黔科合LH字〔2014〕7262)。

王天劍,男,河南南陽人,貴州財經大學外國語學院教授,博士,碩士生導師,主要從事教育測量學研究;彭中梅,女,河南南陽人,貴州財經大學圖書館館員,主要從事圖書資料管理研究。

猜你喜歡
難易度普通班試題
2021年高考數學模擬試題(四)
“破境”而出,向上生長
2019年高考數學模擬試題(五)
《陳涉世家》初三復習試題
2019屆高考數學模擬試題(二)
淺談初中課堂教學中的情境創設
關于課堂提問的再思考
若想成功,就別把路堵上
數學課堂中如何把握提問的科學性
高職院校學生對英語習語的理解研究探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合