?

大規??荚嚲W上評卷中趨中評分的成因探析

2017-01-28 04:26
中國輕工教育 2017年5期
關鍵詞:評卷評分標準主觀題

范 鵬

(天津市教育招生考試院,天津 300387)

大規??荚嚲W上評卷中趨中評分的成因探析

范 鵬

(天津市教育招生考試院,天津 300387)

趨中評分是一種不明顯的評分誤差,在主觀題評卷中普遍存在,在施行網上評卷后,這種趨勢更加明顯,找到趨中評分的成因是解決主觀題評卷中人為誤差的關鍵。本文分析了趨中評分的幾點成因并提出了解決思路。

趨中評分;網上評卷;誤差

考試作為選拔和評價的重要手段,已經有上千年的歷史。作為考試結果量化的手段,評卷成了重中之重。而只要有評卷就會有誤差的存在。在多年來的紙筆評卷模式中,盡管人們使用了眾多手段來規避,但評卷誤差依然存在。一般來說,評卷誤差多出現在主觀性較強的題目中,是指評卷教師由于掌握評分標準的不同而產生的差異,這種差異既有與自身前后評卷的不一致,也有與其他評卷教師的不一致。這種差異導致了考生答題的結果與其應得的真實分數有差距,也就是說評卷的結果沒有完全真實的反應考生的真實水平。

一、什么是趨中評分

在主觀題評卷中,經常會發現這樣一種趨勢,就是分數的分布往往會呈現出趨于集中的表現形式。隨著網絡技術和快速成像掃描技術的發展,越來越多的考試都開始采用網上評卷的方式。網上評卷較之傳統的紙筆評卷有節省人力物力、評卷效率高、評卷質量好以及便于統計分析等優勢。在一些大規??荚囍?,如高考、中考、大學英語四六級考試等,網上評卷這種形式已經占據了主導地位。在施行網上評卷后,統計分析更加便利,我們發現這種情況并沒有因為評卷模式的改變而發生改變,相反有愈演愈烈的趨勢。

這種趨勢我們稱之為趨中評分,就是評出的分數高度集中在中部偏上的狹小區間內,在這個區間內,評分擺動幅度過小,這是一種評卷員評分的集體性誤差。趨中評分在主觀題評卷中普通存在,用比較通俗的話來說就是“打中間分”。個體評卷教師習慣在平均分、基準分上下給分,既不給太高的分,也不給低分。這樣做不能客觀的反應出學生的真實水平,“打中間分”是產生評分誤差的重要原因之一。以高考作文評卷為例,高考評卷是一種典型的大規??荚嚨闹饔^題評卷,作文成績作為一個分值較大、獨立性較強的主觀題,其成績應符合正態分布的要求。但實際工作中我們發現,二類文和三類文的數量占了總數的80%以上,比正常情況超出了十幾個百分點。這就說明,高考作文閱卷存在趨中評分現象。人們經常說,高考作文拉不開分數,就是這種現象的體現。

二、產生趨中評分的原因

經過研究,我們認為是由以下幾個方面的原因造成的。

1.集中評卷的要求

一般來說,大規??荚嚨脑u卷多采用集中評卷的方式。一方面為了評卷過程保密,另一方面也為了更好的控制評卷進度,提高效率。從管理的角度來說是好事,但有限的時間內完成大量工作,每個評卷教師工作強度都很高,工作壓力很大。再加之管理者的工作態度,對評卷教師的管理和約束,評卷教師的疲勞、精力分配等因素,一定程度上造成了評卷教師不自覺的忽略了評分的控制要求,導致出現趨中評分。一些老評卷教師對于評卷流程更加熟悉,到了評卷中后期,精神疲勞,責任心下降,比新評卷教師更容易產生趨中評分。

2.評分機制缺陷

目前施行的網上閱卷模式,大多使用多評/仲裁的體系,這種體系主要的缺陷體現在以下兩點。

(1)專家組作用發揮有限

專家組的評分具有一定的權威性,可以指導普通評卷教師的評卷,對整體閱卷水平具有控制作用,能夠避免出現整體偏差,意義十分重大。但就目前評卷實際來看,專家組的作用除正式評卷開始前對試評卷進行研究制定評分細則外,多數為處理一些異常試卷,如0分卷、滿分卷、多評差異較大的試卷等,以及一些日常監控和管理工作。目前專家組更多的是通過抽樣的方式來對個別評卷教師進行管理,無法對整體評卷控制發揮作用,導致趨中評分的評分隨著評卷工作每日推進逐漸增多。

(2)多評機制的缺陷

現在的主觀題評卷多采取三評的評卷方式,如果打分與其他兩個評卷教師的評分差距過大,會使自己所評的試卷成為無效卷。在網上評卷中,考評評卷教師的主要指標就是評卷量和有效卷率。而無效卷數量被認為是衡量一個評卷教師評分水平的一個重要指標,無效卷數量多被認為是評分標準沒有掌握好,評分水平低。于是,在既要保質又要保量這個大前提下,打中間分則能做到在保證評卷速度的前提下,還不會出現無效卷,不會增加整個組的三評率,進而增加工作量?;谝陨蟽蓚€原因,原來不想打中間分的評卷教師也會被迫去打中間分。例如當雙評差值設置為7分的時候,若一個評卷教師打了60分,而第二個評卷教師打了46分,第三個評卷教師打了48分,那么按照現行的評分規則,第一個評分成為無效分,該題的最后得分是取46分和48分的平均值47分;而如果第一個評卷教師打49分,第二個和第三個評卷教師仍然打46分和48分,那么該題的最后得分應是49分和48分的平均值48.5分,比打60分時所得的47分多出1.5分。想打高分,最后卻得了低分;而想打低分,最后卻得了高分。為了使自己的意見得到一定程度的認可,也給考生一個相對公正的評價,敢打高分或低分的評卷教師在其他人開始打中間分時,也不得不放棄了自己的判斷,改打中間分。

3.評卷教師個人素質

評卷教師的個人素質包括責任心和個人習慣兩個方面。

評卷是由評卷教師來完成的,是一項對人員素質要求很強的工作。不僅要求評卷教師具有較高的專業素質,也要求其有較好的工作態度。首先就是要端正態度,樹立很強的責任心,否則會出現嚴重的評分誤差。一旦工作態度出現問題,隨意打分,評分結果必然受到影響。

這些年社會上也有一些關于高考、中考評卷的報道,其中比較尖銳的就是關于評卷教師的給分速度,批評一些評卷教師評卷過快,評閱作文題目時90秒評一篇,引起社會一片指責。其實,一些大規??荚嚨脑u卷過程中,類似現象屢見不鮮,也確實存在部分評卷教師閱讀不夠仔細,草草打分,遮蓋了考生的“閃光點”或因考生卷面整潔、字跡工整就給了高分,還有的是為了完成任務,盲目提高評卷速度,保險起見就開始打中間分。做一個好的評卷教師,既要正確理解評分標準,又要把握好評分尺度?,F在大多主觀題評分都是用評分量表,如果對量表的理解有偏差,不能把握好不同分級之間的差異,也容易造成趨中評分。

就大規??荚嚨拈喚韥碚f,為了減少趨中評分的評分誤差,不僅要改變、端正個別評卷員的態度和責任心,還要提高整個評卷員群體的業務水平,避免出現趨中評分。

此外,評卷教師的個人習慣也會導致趨中評分的增高。在日常的考試測試中,教師在評卷時一般不習慣打不及格分,而是大多在百分制的70分左右,這是有一定的合理性的。而到了大規模的考試評卷過程中,還是以作文為例,滿分60分,大多數老師都是一線的高中教師,這種習慣已經形成了強大的心里干擾因素,他們習慣性的就會打42分(70%)左右,這也無形中增加了趨中評分出現的幾率。

4.評分標準的局限

仍以大規??荚嚨淖魑臑槔?,近幾年所使用的評分標準都是描述式評定標準量表。這種量表是把學生的作文與規定的評分標準相對照,從而評定學生的成績,作用相當有限,并有以下缺點。

(1)評分標準比較抽象

評分的細目分項越多,越不利于評卷員掌握,出錯的可能性越大;評分項目多,在分項評分時,會降低評分速度;評分項目少,則其概括性越強,抽象性也就越強。評卷員對評分標準中同一等級內容與標準的理解肯定有所不同,在不能平衡時,就會選擇打中間分來保持評分的穩定性。

(2)評分標準自身缺陷

評分標準中的寫作測評因素基本上包含和體現了寫作能力因素,體現著人們對不同類型、不同階段寫作側重點的認識。參照量表的要求,找到水平近似的樣篇,上下略作浮動來評定考生的成績,這樣的評分本身就存在一定的模糊性,考生的答題與量表的樣本之間難以十分精確的比較。此外,對于描述量表的語言理解因人而異,在不同的評卷教師頭腦中的印象不盡相同,也會造成一定的模糊和偏差。再者,評卷教師對于量表的記憶是流動的,隨著時間的流逝,標準也可能有細微的偏差。

三、解決思路

根據以上分析,我們針對性的提出一些解決思路。

1.引入專家卷和專家評分曲線

產生趨中評分的一個重要原因就是專家組作用的缺失。因此,在正式評卷開始前,專家組先對預先按照一定規則抽樣的部分試卷進行試評討論。由這些經驗豐富的命題和評卷專家挑選出的能夠代表每個分數等級的典型試卷。每天的評卷過程中,通過評卷系統將這些試卷隨機分發給普通評卷教師,針對返回的評分數據與專家評分進行對比,進而判定評卷員是否存在趨中評分。這種方法簡單、直觀,但由于不是全程的、實時的整體檢查,因此可能會出現漏判的情況。因此,可以引入專家評分曲線。讓專家組每天也進行一定數量常規評卷,根據評卷結果和專家卷的結果生成專家曲線,監控評卷員個體、組、全體與該曲線的趨勢的差別,一旦發現問題,及時糾正。

2.加強培訓與試評力度

培訓和試評對于評卷工作至關重要,專家組應該在這個階段對評卷教師做足夠的指導和提醒。主要包括評分細則的理解、試題的學習以及評卷操作等,為正式評卷做充分的準備。在培訓和試評階段,要為評卷教師詳細說明不同分數等級之間的區別,挑選不同類型的具有代表性的專家卷供評分教師仔細研究、反復揣摩,體會評分量表和評分標準,尤其是高分段、中間分數段和低分段的差異。專家組可以拿出一部分專家卷來讓評分員試打分,只有與專家評分差值較小的評分員才能通過試評。這樣既可以知道評卷教師是否理解了試題、是否準確的把握了評分標準,也能提前了解到哪些評卷教師對標準掌握有差異,進而繼續關注指導。如果有評卷教師始終不能通過試評,專家組應對其進行調整,以免后期正式評卷產生不良后果。

3.使用技術手段

在正式評卷開始前,對主觀性較強的題目設置“最低瀏覽時間”,如規定每篇作文的評卷時間不得低于120秒,以此來限制那些不認真閱讀,草率打分的評卷教師,從而提升閱卷質量。此外,專家組可以采用定時抽檢結合和個人復評相結合的方法進行監控,收集分析評卷教師的評分與自身、與專家卷之間的差異,差異過大時,說明該評卷教師評分波動過大,需要及時停止評卷并進行糾正。由于趨中評分多出現在評卷的后半程,因此對評卷中后期應重點監控。

4.改變評分機制

改變以往過多關注無效卷的方式,更多的監控評卷教師評分與專家卷之間的差異。優化薪酬方式,按數量計酬確實有利于提高評卷員的積極性,提高評卷效率,但也更容易滋生趨中評分。

主觀性試題的趨中評分由來已久,在紙筆評卷中已初現端倪,施行網上評卷后,尤其在大規模的考試評卷中,這種現象愈發顯著。是得益于統計測量手段的進步,這種現象更加直觀了?還是網上評卷的模式更刺激和助長的它的發展?這其中的關鍵還是在于參與評卷的人。不論是專家還是普通評卷教師,都是參與的個體。 強化專家組的作用,增強對評卷教師的培訓,規范評卷教師的行為,每個個體做好自己的本職工作,才能逐漸減少和規避趨中評分這個整體、系統的誤差。

[1]陳志國,芮南.高考作文網上閱卷雙評過程中的質量監控[J].中學語文教學,2009(6).

[2]趙海燕,芮南.雙評作文題網上閱卷評卷教師評卷水平評價維度的確定[J].中國考試,2009(2).

[3]張昌應.高考網上評卷誤差控制的方法與實施[J].高教探索,2003(3).

[4]高丙成,秦旭芳.成人高考網上閱卷的評分者差異研究[J].烏魯木齊職業大學學報,2007(4).

[5]婁慶華.高考作文評分“趨中傾向”探因[J].教學與管理,2008(3).

(責任編輯:姚歆燁)

Analysis of Reasons for Centralized Rating in Net-based Scoring of Large-scale Examination

FAN Peng
(Tianjin Municipal Educational Admission and Examination Authority,Tianjin 300387,China)

Centralized rating does not lead to obvious errors,which exists widely in subjective question scoring.In the implementation of net-based scoring,this trend is more obvious.Finding the reasons for centralized rating is the key to solve the problems in subjective question scoring.This paper analyzed the reason for central rating,and put forward some solutions.

Centralized rating;net-based scoring;error

G647

范鵬(1982—),男,助理研究員,研究方向:教育管理。

猜你喜歡
評卷評分標準主觀題
淺談高中政治“認識類”主觀題答題技巧
極坐標方程主觀題考點分析
高考政治主觀題對學生思維能力的考查
貴州省體育高考100米跑新評分標準制定研究
2019年對口升學考試網上評卷考生答題注意事項
永遠的格紋
“畫?!痹u卷
初高中英語作文評分標準初探
高考文言文翻譯四步法
高考評卷豈能草菅人命
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合