?

計算機輔助口試評分穩定性歷時研究
——以PRETCO口試為例

2021-04-30 08:38楊志強李志芳董曼霞
外國語文 2021年2期
關鍵詞:分數段口試評分標準

楊志強 李志芳 董曼霞

(1.重慶科技學院 外國語學院,重慶 401331/廣東外語外貿大學 外國語言學及應用語言學研究中心,廣東 廣州 510420;2.陸軍軍醫大學 基礎醫學院外語教研室,重慶 400038;3.四川外國語大學 商務英語學院,重慶 400031)

0 引言

外語口語能力是外語水平的直接表現。隨著英語口語越來越受到重視,參加口試的考生逐年增多,人工實考及評分已經無法滿足操作需求。近20年來,計算機技術和測試理論的不斷發展及融合,突顯了計算機輔助考試的優勢,如信度高、節約費用、考試時間靈活、便于組織等(曾用強, 2011)。因此,該技術已廣泛應用于大規??荚噷嵺`中(金力,2011),包括TOFEL機考、CET口試、TEM口試以及高等學校英語應用能力口語考試(Practical English Test for College-Oral,簡稱PRETCO口試)等。PRETCO口試是由國家高等學校英語應用能力考試委員會于2005年開始實施的口語考試,該考試是以人機對話方式進行的計算機輔助考試(劉鴻章 等, 2010)。由于計算機輔助口試自動評分技術還不成熟,目前仍采用人工評分。人工主觀評分容易出現誤差,所以有必要對評分的信度進行研究(Myford et al., 2004)。此外,評分員的評分可能隨著時間的進展發生變化(Myford et al., 2004),而且評分的穩定性直接關系評分的質量、評分員的遴選,以及考試的信度、效度和公平性等(趙海燕 等, 2018),因此,對評分員的穩定性進行研究具有重要的實際意義。雖然近年來有關口語測試評分信度展開的研究日益增多(何蓮珍等, 2008;劉建達, 2010;Attali, 2016;Kang et al., 2019)但這些研究都只對單次的評分作了分析,沒有對評分的穩定性進行歷時研究。為此,本文擬基于PRETCO口試連續五次的評分結果,調查評分員評分的穩定性,以期為PRETCO口試的評分提供一些啟示,同時為其他高風險計算機輔助口試,如CET口試、TEM口試的評分或評分培訓提供一些參考。

1 文獻回顧

國外有關口語測試的研究起步早,覆蓋廣,如口語測試的構念(Luoma, 2004)、口語測試的效度驗證(Knoch et al. 2018)、口試的任務(Frost et al., 2020)、口試評分標準(Fulcher, 1996; Khabbazbashi et al., 2020)、受試的特征(Nakatsuhara, 2011)、評分培訓及評分員對考生口試表現的影響(Kang et al, 2019)、口試的評分效度研究(Lumley et al., 1995;Elder et al., 2005;Attali, 2016),等等。其中,有關口試評分的研究占多數。雖然評分員的評分是動態變化的(Myford et al., 2004),但大部分研究只對單次的評分進行了分析。目前,僅有個別文獻采用現代測試方法,比如基于項目反應理論的多層面Rasch模型,對口試評分進行了歷時分析(Lumley et al., 1995;Bonk et al., 2003;Kim, 2015),然而這些研究的結果存在差異。Lumley 等(1995)分析了四名評分員三次職業英語口試(Speaking subtest of Occupational English Test)的評分結果,發現評分員評分的嚴厲度隨著時間發生了變化,且寬嚴度變化的趨勢不盡相同;Bonk等(2003)基于對某校本英語口試兩輪評分結果的分析,發現評分員的嚴厲度差異較大,而且不穩定,評分員的內部一致性隨著其評分經驗的積累不斷加強;Kim(2015)通過采用定性的研究方法,對比了新、中、老口試評分員的三次評分行為,發現三組評分員歷次的評分能力存在差異,新評分員改進較慢,中評分員通過不斷培訓得以不斷改進,老評分員則相對較為穩定。

雖然國內有文獻對口語測試的評分進行了研究(何蓮珍 等, 2008;劉建達, 2010),但這些研究同樣只對評分員某次的評分進行分析。截至目前,國內尚無文獻從歷時的角度探討口試評分的穩定性。因此,本文將以此為出發點,基于多層面Rasch模型和Myford等(2009)寫作評分漂移研究的框架,從評分員嚴厲度、準確度以及集中趨勢三個方面對PRETCO口試的評分穩定性進行分析與研究。其中,評分員嚴厲度是指評分的寬嚴度,評分員準確度是指相對于其他評分員評分均衡性,集中趨勢是指評分員高頻率使用中間分數段(Myford et al., 2004)。

2 研究方法

2.1評分員及閱卷量

由于本研究中PRETCO口試閱卷點每次評閱的數量不統一,評分員的數量不定,一般在10--20人之間,評分員分別來自15所不同的高校。本研究所選取的五次PRETCO口試閱卷結果共涉及到6525份,其中第一次為1493份,第二次為1356份,第三次為1351份,第四次為870份,第五次為1455份,參加閱卷任務的評分員共45名。每位考生的口語由兩名評分員進行評分,因此總閱卷數為13050份。本研究評分員R0、R1和R2連續參加了五次閱卷任務,評分員R4、R5和R6連續參加了前四次閱卷任務,其具體信息見表1:

表1 評員基本情況

2.2 PRETCO口試及其評分標準

RRETCO口語考試形式為人機對話,主要由朗讀、問答、翻譯(漢譯英)以及口頭陳述四部分任務組成,整個考試過程約為20分鐘(《高等學校英語應用能力考試大綱》修訂組, 2016)。每次PRETCO口試會采用2--4套平行試題,每項任務總分為4分,采用七級記分制(0,1,2,2.5,3,3.5,4),為方便計算,本研究將其轉換為1,2,3,4,5,6,7七個等級?!袄首x”主要從語音、語調以及流利程度三方面進行評分(見表2);“問答”“翻譯”和“陳述”主要從內容、表達、語言三方面進行評分(見表3)。兩位評分員分別獨立對考生四項任務的表現進行評分,然后再根據每個任務的得分算出口試總分。如果兩者評分出現等級差異,由第三位高級評分員(評分組長)進行仲裁,重新進行整體評分。

表2 朗讀任務評分標準

表3 陳述評分標準

注:(1)由于FACETS要求使用整數數據,所以本文將所有原始分數換算成相應的七個等級(1,2,3,4,5,6,7);(2)囿于篇幅,而且考慮到問答、翻譯和陳述都是從內容、表達、語言三方面進行評分,故只列出其中一種評分標準

2.3 數據分析依據

本研究基于多層面Rasch模型,采用FACETS軟件(版本3.71.3)(Linacre, 2013)對歷次PRETCO口試評分結果進行分析。模型包括四個層面,考生能力、評分員、口試的四項任務以及評分次序。鑒于PRETCO 四項任務具體的評分標準不一致,所以本研究采用多層面Rasch模型中分部記分模型(Partial Credit Model)(Bonk et al.,2003)。此外,以往研究忽略了數據鏈接(connectivity)的重要性(Wind et al.,2018)而探究評分員歷時評分的穩定性需要鏈接(link)歷次評分的數據。本研究中評分員R0五次評分的各項指標,比如嚴厲度和加權均方擬合度都在合理的范圍,所以選用該評分員的總體評分作為鏈接數據,以觀察另外五位評分員(R1、R2、R3、R4和R5)評分的穩定性。同時,本研究借鑒Myford和Wolfe(2009)對于評分員寫作評分漂移研究的框架,從評分員嚴厲度、準確度以及集中趨勢三個方面對PRETCO口試的評分穩定性進行歷時分析與研究。

首先,對于嚴厲度的穩定性,傳統方法是采用分離模型和交互模型計算各個時間段的嚴厲度logit值,然后進行顯著性檢驗(Myford et al., 2009)。然而,由于交互模型存在混合測量誤差(Dobria, 2011),所以本研究未采用該方法計算評分員嚴厲度穩定性的偏差,而是將評分員在每次評分中視作不同的評分員,可以根據評分員的logit值直接觀察評分員嚴厲度的變化。其次,關于評分員評分準確度的歷時變化,可以基于評分員的點二列相關系數(rSR-ROR,即Point-biserial Correlation或 Point Measure)進行判斷(Myford et al., 2004)。檢驗評分員準確度的變化趨勢需要根據公式(一)將相關系數轉化為Fisher’s Z值,然后再通過Z檢驗(公式二)來判斷評分員評分準確度的穩定性是否具有統計意義上的顯著性(Myford et al., 2009)。

公式(二)

最后,關于集中趨勢的穩定性,歷次評分閾值(Threshold)的標準差可以用作判斷集中趨勢穩定性的參數。所謂閾值是指相鄰分數段概率曲線的交叉值(Bond et al., 2015)。本研究基于Rasch的混合模型(Hybrid Model 2)(Myford et al., 2004),通過計算單個評分員每次評分中對各項任務評分標準的使用情況,然后根據評分員每次評分閾值的標準差來判斷其評分集中趨勢的波動情況。分數段之間閾值離散程度越大,表明評分越集中。本研究在評分結束后對評分員進行了半結構式訪談,主要問題為“你是如何閱朗讀/問答/翻譯/陳述任務的?”“你認為你歷次的評分是否穩定?”“哪些因素可能會影響評分的穩定性?”等。研究者對訪談錄了音并轉寫為文字,最后根據Given(2008)的歸納法對訪談內容進行分析和歸納。

3 研究結果

文章從評分員的嚴厲度、準確度和集中趨勢三個方面報告評分員歷次評分的穩定性。

3.1 評分員嚴厲度的穩定性

為了探討評分員嚴厲度的穩定性,本研究分別將評分員R0的評分作為鏈接數據,以觀察另外五位評分員的評分表現。通過FACETS的運算,五次評分總體評分嚴厲度logit的均值為0.41,標準差為0.43logits。評分員R2在第四次出現了明顯的偏差,logit值為0.53,而第五次的logit值為-0.41(見圖1),相差0.94logits,大于兩個標準差。其次,評分員R3第一次和第二次評分的偏差較大,分別為0.55logits和1.06logits,相差0.51logits,大于一個標準差。

圖1 評分員評分嚴厲度的穩定性對比(logit)

評分員R1、R4和R5評分的嚴厲度較為穩定,波動較小,嚴厲度最高值和最低值之差分別為0.27logits、0.38logits和0.36logits,均小于1個標準差(S.D.=0.43logits)。

3.2 評分員準確度的穩定性

表4中rSR-ROR為評分員每次評分的點二列相關系數值,ZSR-RORc,SR-RORb為檢驗評分員準確度穩定性的Z值。rSR-ROR可以判斷評分員的評分與其他評分員評分的一致性,如果評分員rSR-ROR的值越大,則表示該評分員的一致性越好,不存在隨機性(Myford et al., 2004; 劉建達 2010)。

表4 評分員準確度穩定性相關數據統計

由表4可知,評分員五次評分的rSR-ROR值位于0.59-0.81之間,評分員歷次評分中和其他評分員一致性較好,但所有ZSR-RORc,SR-RORb值中,大于1.96或小于-1.96的次數為五次,其中評分員R3評分的準確性波動不明顯,Z值均小于1.96或大于-1.96(p<0.05);評分員R1、R4和R5各出現一次顯著性的波動(Z值分別為4.04、11.68和2.93,p<0.05);評分員R2出現兩次波動,第三次評分準確性明顯高于第一次,而第四次評分又明顯低于第一次(Z值分別為6.52和-8.18, p<0.05。由此可以看出,所有評分員歷次評分的準確性均不穩定,其中四位評分員出現了五次明顯的波動,僅占評分員閱卷總次數的22.7%。

3.3 評分員集中趨勢的穩定性

相鄰閾值的差一般要求大于1.0 logit,但不超過5.0 logits (Linacre, 2002)。由表5可見,大多數評分員評分閾值的差位于1.0-5.0 logits 之間,閾值的標準差位于2.1-4.0logits之間。歷次PRETCO口試的總體評分較為穩定,多數評分員總體不存在明顯的集中趨勢。然而,評分員R5第一次評分沒有使用分數段1和分數段7,而且分數段3、4、5的使用率達到90%,因此該評分員第一次的評分較為集中;評分員R3歷次評分中分數段3、4、5之間的閾值差較小,均小于1.0 logit;評分員R2第二次、第三次和第五次評分中分數段5、6、7之間的閾值差較小,同樣小于1.0 logit。這兩位評分員可能對上述幾個分數段難以把握或理解出現偏差。

表5 評分員四項任務總體閱卷量(%)及閾值(logits)

通過對單項任務的分析可知,評分員閱讀任務歷次評分中閾值的標準差位于3.9-8.6logits之間(見表6),明顯高于其四項任務總體評分閾值的標準差。以評分員R1為例,其朗讀任務歷次評分的閾值標準差分別為6.8、5.3、8.6、7.4和5.4 (logits)。評分員R1、R2、R4和R5的歷次評分都過多地使用了分數段4和分數段5,評分員R3則過多地使用了分數段5和分數段6,比例多數超過70%,評分員R3第三次的使用頻率甚至達到90%。由此可見,評分員在閱讀任務的歷次評分中都存在明顯的集中趨勢。

表6 評分員朗讀任務閱卷量及閾值

對于評分員其他任務的歷次評分,問答任務都不存在集中現象。翻譯和陳述任務歷次評分中,個別評分員偶爾會出現集中趨勢現象,比如評分員R1在第一次的陳述評分中出現了集中趨勢。需要指出的是,評分員在五次翻譯和陳述評分中,分數段7的使用率非常低,平均每次的使用率為0.13次和0.33次。

4 討論

4.1 評分員嚴厲度穩定性

數據顯示多數評分員評分嚴厲度的總體趨于穩定,評分員歷次評分中寬嚴度變化的趨勢卻不盡相同,這與Lumley等(1995)的研究發現相似。評分員評分嚴厲度總體波動不大,原因可能是:(1)評分員不斷熟悉評分標準,比如評分員在每次評分前都接受培訓并認真學習評分標準;(2)評分員評分時結合了教學和評分經驗,比如評分員R1根據考生的語音、語調、斷句和流利度推斷考生的口語水平。但數據同樣顯示,評分員R2和R3分別在第四次和第二次評分中出現了明顯的波動,這與Kim(2015)的研究結果不一致,即使是有經驗的評分員,其評分也可能會出現波動。雖然評分員R2閱卷經驗豐富,而且每次都認真接受評分培訓,但依然在第四次出現了明顯的偏差。通過對評分員R2的訪談得知,該評分員的歷次評分都嚴格按照評分標準進行閱卷,不應該存在明顯的波動。為了究其原因,研究者同時對比了相鄰兩次考試的評分結果(第四次和第五次)。第四次評分的總量較少,當時考試只使用了兩套試題,評分員R2只評閱了第一套試題的考生,其余評分員所閱考生均使用了兩套試題。通過對兩套試題的分析得知,其難度存在顯著差異,比如第一套試題朗讀任務的易讀度為76.5,明顯比第二套(易讀度為65.6)(1)*根據Flesh易讀度參考量表,易讀度值越高,篇章難度越低。*簡單,所以試題難度不同可能會影響評分員評分的穩定性。對于評分員R3,其評分的嚴厲度也出現了較為明顯的波動。通過訪談得知,該評分員第二次閱卷時除了正常教學和承擔一定的行政工作外,還要準備博士研究生的考試,當時閱卷出現波動可能和壓力大、身心疲憊有關。由此可見,“平行試題”中某些題型可能存在難度差異,影響評分員評分的嚴厲度。評分員評分時的身心狀態也會影響評分結果。

4.2 評分員準確度穩定性

評分員單次評分和其他評分員的一致性較好,但歷時來看,五位評分員的準確度都不太穩定,其中四位評分員共出現五次明顯的波動。評分員R2出現兩次顯著的波動,評分員R1、R4和R5分別出現一次顯著的波動。原因可能來自兩方面,首先評分員閱卷隊伍不穩定性。雖然每次閱卷員的數量為10—20名左右,但參加五次評分的評分員只有三名,即評分員R0、R1和R2,連續參加四次評分的評分員也只有三名,即評分員R3、R4和R5。出于公平性和實際情況的考量,閱卷員來自不同的高校,而且每次可能會有個別新評分員加入評分隊伍。由于評分員評分的準確度涉及和其他評分員評分的一致性,故評分員隊伍不穩定可能會導致評分員準確度出現波動;其次,評分的準確度的穩定性可能和考生的水平相關。由于每次報考PRETCO口試的學校和學生存在變化,不同批次考生的口語水平會存在一定的差異,從一定程度上可能會影響評分員評分的穩定性。

4.3 評分員集中趨勢穩定性

評分員歷次的總體評分不存在明顯的集中趨勢,但評分員R5第一次評分的集中趨勢較為明顯,分數段3、4、5的使用次數占其評分總數的90%。該評分員可能第一次參加PRETCO口試評分,對評分標準的把握不準確,四項任務均沒有使用分數段1和分數段7。由此可見,新評分員隨著評分經驗的積累,其評分會逐漸改進(Kim, 2015)。雖然歷次總體評分的集中趨勢不明顯,但所有評分員朗讀任務的歷次評分卻均呈現明顯的集中趨勢,主要集中在分數段4、5、6。一方面,原因可能是朗讀任務的評分標準存在問題。Linacre(2002)指出,如果某分數段的使用頻率低于10次,那么該分數段需要修改或者與相鄰分數段合并。另一方面,評分員評分時可能結合了評分標準以外的參數,比如教學或閱卷經驗。以評分員R1為例,該評分員在評閱朗讀任務時會根據考生能否讀準較難詞匯(比如單詞circumstances)來判斷其朗讀水平是否屬于高分數段。問答任務歷次的評分都不存在集中趨勢,這可能和該題型的計分方式有關,問答任務的答案相對“封閉”(《高等學校英語應用能力考試大綱》修訂組, 2016),只需計算考生答對的數量即可,該題型沒有翻譯或陳述任務“開放”。翻譯和陳述任務對分數段7的使用頻率非常低,這可能和評分員對該分數段描述語的理解偏差有關(楊志強 等, 2016)。通過訪談得知,由于分數段7為最高分數段,象征各項任務的最高水平,評分員認為考生的回答需要接近完美才能獲得該分數,因此評分員在翻譯和陳述任務的評分中對該分數的使用較少。

5 結語

本文采用定量為主,訪談為輔的方法對PRETCO口試連續五次的評分進行分析,探討了評分員的嚴厲度、評分準確度以及集中趨勢三個方面的穩定性及其背后的原因。結果發現:多數評分員歷次總體評分的嚴厲度比較穩定,其中一位評分員某次評分的嚴厲度波動明顯;所有評分員歷次評分的準確度均不穩定,但顯著波動的次數占比不高;評分員歷次總體評分不存在明顯的集中趨勢,雖然新評分員第一次的總體評分較為集中,但隨著該評分員評分經驗的不斷積累,其評分質量逐漸改進;評分員個別口試任務,比如“朗讀”任務的歷次評分均呈現集中趨勢,且朗讀、翻譯和陳述三項任務個別分數段使用次數過少,比如陳述任務分數段7,這些評分標準本身可能存在問題,需要改進?;诖?,本研究對計算機輔助口試以及PRETCO口試的評分及其改進提出一些參考性的建議。

(1)使用有經驗的評分員并保持評分員隊伍的穩定性。無論是計算機輔助口試還是PRETCO口試,其評分都應盡量使用有教學經驗和評分經驗的評分員,他們能夠結合多方面因素進行綜合評分,以保證評分的內部一致性。此外,應保持評分員隊伍相對穩定,以增強評分的外部一致性,提高歷次評分的信度和穩定性。(2)加強對評分員的培訓。如果是新評分員,應充分利用評分培訓加強其對評分標準和所評考生總體水平的把握,同時增強新老評分員之間的交流,幫助新評分員改進評分質量。即使有經驗的評分員,也有可能出現評分偏差。每次閱卷前,無論是經驗豐富的評分員還是新評分員,都需要認真接受培訓。另外,在閱卷過程中可以組織閱卷員結合考生的答題情況和評分標準進行討論,從而加強閱卷員對評分標準的理解。(3)提高口試試題的效度。通過對PRETCO口試題目的分析可以看出,試題的難度可能不一致。為了確保歷次考試的公平性,需要對平行試題進行質量分析,比如計算朗讀任務的易讀度,或者通過專家判斷以及試測,降低其他口試任務難度的差異。(4)改進評分標準中描述語的質量。評分標準是考試構念的體現,評分標準描述語須簡單、明了, 沒有歧義(曾用強, 2011)。本研究發現,歷次評分中朗讀任務第一個分數段、翻譯和陳述任務第七個分數段的使用頻次極低。鑒于現實評分的需要,不能簡單將這些分數段和相鄰的分數段合并。因此,有必要對這些分數段的描述語進行改寫,以確保評分員理解的準確性和一致性,防止出現理解偏差(楊志強 等, 2016)。

猜你喜歡
分數段口試評分標準
基于DOPS評分表細化體格檢查評分標準的應用研究*
2021年對口升學部分專業類考生分數段及院校投檔線
貴州省體育高考100米跑新評分標準制定研究
2019年對口升學部分專業類考生分數段及院校投檔線
我省將于7月25日前公布高考成績及錄取分數線
2018年對口升學部分專業類考生分數段及院校投檔線
永遠的格紋
初高中英語作文評分標準初探
一本:制高點爭奪之戰
BEC加試:口試成了成敗關鍵
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合