?

效度視域下的情境測評

2021-05-30 10:48蔣遠橋
語文建設·上 2021年7期
關鍵詞:測評高考效度

蔣遠橋

【關鍵詞】情境,測評,效度,高考

隨著時代的發展,社會對教育、對人才有了新的要求,人們對學習、課程、測評也有了新的理解?!蛾P于深化考試招生制度改革的實施意見》《關于新時代推進普通高中育人方式改革的指導意見》《關于深化教育教學改革全面提高義務教育質量的意見》《深化新時代教育評價改革總體方案》等文件的陸續發布正是新時代、新要求、新理解的體現。

具體到語文學科,新課程標準即《普通高中語文課程標準(2017年版2020年修訂)》(以下簡稱“ 課程標準”)既是這一進程中的重要成果,也是新教學、新測評的綱領性文件。課程標準從學習目標、學習內容、學習方式、課程結構、課程方式、測評內容、測評方式各個方面提出了新要求,“任務”“活動”“情境”是貫通整個系統的三個重要概念[1]。關于依憑情境開展活動、完成任務以達到提升核心素養的理論研究與教學實踐,已經廣泛而熱烈地展開,基于情境進行測量評價,也已經在過程性評價乃至大規模高利害考試如中高考中普遍施行。關于情境在考試中的運用,眾多學者和考試從業者已經作出了有益的探索[2],本文將基于這些討論,以高考為主要討論對象,從效度視域理解情境測評,探究情境測評有效和有限的程度,討論情境測評的實現路徑和提升情境測評效度的關鍵策略,以期對情境測評在大規模高利害考試中的實踐運用有所幫助。

一、效度視域下情境測評的必然性

教育測評以如下心理假設為基礎:人的心理特質是客觀存在的;這些心理特質具有相對穩定性;這些心理特質雖然抽象,但可以通過一定的外部刺激作出的反應得以測量評估;測評的結果可以類推得到心理特質的整體特征和水平。這些心理特質稱為構念(construct),具體到語文測評,就是“構成語文能力的理念”。測評就是要通過外部情境的刺激,讓考生作出反應,并依據反應推測考生素養的特征和水平,即基于考生反應推斷所測構念的特征和水平。效度(validity)就是一個測評項目在多大程度上達到了測評目的,即在多大程度上準確反映了所要測評的構念。

在20世紀90年代,Messick 以構念效度(construct validity)為效度問題的核心提出“一元效度(unified validity)”理論,將構念效度置于評判一個測評項目的頂端,認為其中包括內容、實體、結構性、概化、外推、后效六個方面。[3]這六個方面都與所測評的構念息息相關,與本文討論的情境測評關系最為緊密的是構念效度的內容、實體、結構性、概化四個方面。

效度理論的發展基于測評理念的發展,而任何測評改革都不會僅在測評領域內發生,正如前文所言:時代、教育、人才、學習、課程、教學的發展,要求測評也要有相應的發展。情境測評正是社會主義新時代的人才需求,以及核心素養的教育理念、學習內容、學習方式方面改革在評價領域中的一種反映。正因為新時代要求社會主義建設者和接班人具備應對21 世紀各種復雜的、綜合的、不確定的現實生活環境的品質,教育教學應以培養學生的這種關鍵品質為目標,這種關鍵品質即核心素養。因為核心素養是應對復雜、綜合的真實情境的品質,所以它也更適宜在復雜、綜合的情境中得到培養。

課程標準在“ 命題原則”中要求“ 以語文學科核心素養為考查目標”,也就是要求測評的構念是“核心素養”,那么要想提高核心素養測評的效度,依據構念效度理論則需要:測評內容必須是語文學科核心素養中具有強相關性和代表性的一部分;實體方面則要求考生在答題過程中的作答行為能夠反映核心素養的特征并得到證據的足夠支持;結構性方面則要求試卷的各部分構成及其構成比例能夠真實反映核心素養的各部分及其比例;概化方面則要求關于核心素養的分數解釋適用于其他各種不同的語境情景、交際任務;外推方面要求考試結果具有高相關性,能夠得到外部證據的支持,如考試分數與學生日常生活表現出來的實際使用語言的能力具有高相關性等;后效方面則要求分數解釋的依據、考試結果的使用所產生的后果有利于核心素養的發展和提升。

也正是基于這樣的邏輯鏈條,課程標準在“學業水平測試與高考命題建議”中提出“考試、測評題目應以具體的情境為載體”。因為“ 真實、富有意義的語文實踐活動情境是學生語文核心素養形成、發展和表現的載體”,所以當且僅當“以情境任務作為試題載體”,在復雜多樣的情境中完成不良結構的真實任務,才能“呈現學生語文素養的多樣化表現”[4],然后才能依據學生的表現對其語文學科核心素養進行評估。

二、效度視域下的測評情境和“語境”

課程標準中的“ 命題建議”在提出“ 以具體情境為載體”時對情境作了如下說明:“ 真實、富有意義的語文實踐活動情境是學生語文核心素養形成、發展和表現的載體。語文實踐活動情境主要包括個體體驗情境、社會生活情境、學科認知情境?!盵5]學者揭示了情境和語境理論的緊密關系,指出情境化教學是語境理論在教育領域中的運用。[6]不過課程標準對“語境”和“ 情境”兩個詞語的使用并無清晰明確的分工。課程標準中“語境”一詞出現在“語言建構與運用”相關學習任務群的學習目標和內容中,以及相應的五個等級的學業質量水平“ 質量描述”中,體會“語境”的用例,可以判斷課程標準是在“ 具體的語言使用的場景環境”而非“ 語篇內的上下文”的意義上來使用“ 語境”一詞的。而課程標準在闡述“ 語言建構與運用”時對相關要點的表述則使用了“情境”一詞,即“ 發展在具體語言情境中正確有效地運用祖國語言文字進行交流溝通的能力”,如果課程標準在闡述核心素養的內涵、學習的目標與內容、學業質量的表現時是系統而一貫的,則可以知道它在使用兩個詞時并未明確區分。

“ 語境”(context)一詞常見于語言學和邏輯學領域,指言語行為所發生的環境,一般包括文內因素和文外因素,前者指向話語行為中的前后語或上下文,后者指向話語行為的“情景”和“ 背景”[7]。狹義的“ 語境”常常指口語中的前后語、書面語中的上下文,即文內語境。廣義的語境則可以無所不包,如維特根斯坦的語言使用理論、奧斯汀的言語行為理論、斯特勞森的日常語言邏輯等,乃至巴赫金、克里斯蒂娃的互文理論也都是語境理論的組成部分。比照課程標準關于情境的分類詮釋,可以看出語境和情境有千絲萬縷的聯系:無論哪一種情境下開展的語文實踐活動都要考慮三種類型的語境,即文本語境、情境語境、背景語境,這樣才能準確地理解和表達意義、思想,達到語文活動行事取效的意圖。

不過從理論來源及側重看,二者又有著區別。課程標準對情境的分類主要基于實踐活動的主體和客體,基于活動的目的和意圖,這種情境含義明顯受到建構主義和情境認知理論的影響。情境認知理論把知識視為個人與情境之間的交互關系的副產品,把學習視為個人、知識、情境之間的交互作用的副產品,重在基于情境的認知過程和學習過程。情境認知理論正是為消除學習脫離情境的弊端而提出的:傳統的正式的學習因孤立于獲得意義的情境,而僅能收獲靜止的、刻板的、未完成的、膚淺的理解。[8]

與傳統的教學類似,傳統的測評多注重文內語境即上下文,也會關注到背景語境,如歷史文化背景,這在以紙筆為載體的終結性考試如高考中尤為明顯,這也是與高考把識記、理解、概括、分析等能力作為測評構念是一致的。以傳統學習掌握的知識如果能讓學生通過傳統的考試,卻不能將同樣的知識運用于真實情境解決實際問題,那么說明傳統的考試是低效度的。正是為了提高測評效度,所以課程標準提出了情境測評。

正如語境理論強調話語行為的行事取效的意圖,我們也應該這樣理解課程標準格外強調語言運用的環境場景,格外強調“真實、富有意義的語文實踐活動情境”的意圖。因此,試題應當做到以個人、社會、學科三種情境為載體,在語境的運用上,需要格外強調情境語境,實現情境測評,這樣才能有針對性地消除原有考試的弊端,提高測評的效度。

三、效度視域下“真實”的測評情境

對“ 真實”的一種常見理解是現實性,即學習和測評所利用的情境與現實的生活情境應當是吻合的,某個測評情境越能原汁原味地再現目標情境中該任務的情形、要求和實施條件,該情境就越是真實的?;谶@樣的理解,“ 真實”的測評情境應當重現各種身份、行業,如作家、學者、商人、科學家、管理者、設計師等通常面對的各種挑戰或要求。[9]當然,真正的現實情境任務及其實施條件是無法完全重現的,正是在這個意義上,在以紙筆考試為基本方式的大規模高利害考試如高考中,“ 直接測試”或“真實測評”甚至可以看成一個偽命題。[10]

既然絕大多數現實性情境難以復制,那么命題者能做的是使測評情境和任務盡量模仿現實、靠近現實,根據測評需要,模仿現實生活情境,考生則模擬完成任務,任務結果和成品當然也不會真正投入使用,這也正是目前的高考試題情境化的常見做法。在這種理論傾向下,我們需要額外注意以下問題。

一是情境任務的典型性、代表性?,F實性情境測評歸根到底針對的是考生在完成某一特定真實任務中的表現。楊向東指出,這樣的測評關鍵在于“ 判斷當前評價任務的領域代表性”,即“如何確定所采用的評價任務是所要推斷的目標情境或任務范圍的一個代表性樣本”[11]。具體到高考,這一問題在寫作測評中更為突出。課程標準中的寫作內容十分豐富,有作品評介、調查報告、文學作品、雜感、隨筆、評論、研究論文、研究報告、文學評論、學術性小論文等,而高考由于考試時長的限制,往往只能要求完成一個寫作任務,這就需要對高考寫作任務的典型性和代表性格外留意。也正是在這樣的考量下,課程標準對測評情境任務的典型性提出明確要求:典型任務是指“ 為評價學生語文素養水平而選取的具有代表性價值的語文實踐活動”,考生通過典型的實踐活動,“ 體會典型的思維過程與方法,體驗典型的情感,呈現典型的成果”。[12]

二是評價標準的可類推?,F實性的情境任務往往有很多特定要素,這些要素無法涵蓋其他任務的特征,也無法代表一般性的整體素養??忌谕瓿涩F實性情境任務中的表現必然受到這些特定特征的影響,甚至越優秀的考生會越注意某一現實性任務的“區別性特征”,而這些特征對考試目標來說卻可能是邊緣性的。評價標準如果不對這些邊緣特征加以關注,則測評不容易準確;如果關注這些邊緣特征,評價標準又很難類推到其他情境任務中去。這讓現實性情境測評陷入兩難的境地。

三是分數和分數使用的可解釋?!督逃c心理測量標準》的效度定義反復強調分數解釋的“ 預定用途”,如“ 效度是指證據和理論支持為了某一預定用途而產生的測試分數解釋的程度”,“效度驗證過程是積累相關證據為某一特定用途的分數解釋提供可靠科學的依據”,“基于指定用途所作的特定分數解釋可以作為效度的證據”,甚至認為效度必須與分數使用關聯:“ 測評效度應當是指向預定用途的特定解釋,不加預定用途的限制而泛泛地說‘ 測評效度是不正確的”。[13]具體到高考,其基本功能是“為不同類型的高校選拔出符合要求的新生”,“ 服務選才不僅是高考制度建立的目的、存在的依據,也是高考的基本功能和使命”[14],其分數解釋指向核心素養,其分數使用的解釋指向“高校選才”,二者是契合的。高考分數是考生進入高校最重要、最直接的依據,所以基于情境測評得到的分數及其使用也應當指向高校學習,指向國家選才。在這樣的前提下,測評情境應當適應高校對人才培養的要求,適應國家經濟社會發展對多樣化、高素質人才的需求,這對現實性情境來說是很艱難的任務。

四是測評的準確度,即構念是否受到干擾而“測不準”。一個測評項目可以描述為“成績需求—項目開發—項目實施—閱卷評分—成績使用”這樣的流程,任何一個環節出現差錯都會導致效度的降低?,F實性測評情境追求復雜多變的時空和社會條件,對命題必然提出更高的要求。如2020年高考全國Ⅰ卷的寫作試題,要求考生基于“ 班級計劃舉行讀書會,圍繞上述材料展開討論”的情境寫一篇發言稿。所謂“ 討論”,指就某一問題交換意見或進行辯論,一般是有來有往而往復推進的,那么班級同學在讀書會上發表的觀點就成為現實情境中極為重要的一部分,他們的觀點和意見應該是“我”思考和發言的起點,“我”的“感受和思考”理應包括與同學的商量、辯駁,而這種動態語境在紙筆考試中是很難呈現的。

另外,命題還要避免那些阻礙考生答題的無關因素,如與本試題測試目標無關的本學科的其他知識或外學科知識、能力的需求。前述試題要求就“ 齊桓公、管仲和鮑叔三人,你對哪個感觸最深”寫發言稿,那么考生對這三人性格人品、事跡經歷的了解,自然成為“ 感觸”的生發點,關于這三人的事跡在現實性任務中提供了極其有限的資料,對該三人事跡的了解甚至可以看成與寫作能力相關性不強的干擾因素。

還有閱卷信度的問題。仍以作文為例,考生寫完一篇作文,其語言能力的表現已經完成,按理說閱卷者應當給出準確的分數,但要做到這一點并不容易?,F實性測評情境對閱卷提出了更高、更為細致的要求,在現實性情境下,閱卷者不僅要看考生寫作的內容形式,還要看考生能否全面考慮到某言說者以什么身份、在什么場合或平臺、為了什么目的、以什么文體、對誰說了什么,并且要對這些現實性情境的要素在賦分上作出符合效度的分配,這對目前的閱卷現實提出了巨大的挑戰。

把“ 真實”理解為“ 現實性”,容易只關注測評情境的現實程度,而忽視情境與所測建構間的聯系。對測評情境現實性的追求不是增高而是降低了構念效度,這是我們需要警惕的?;谛Ф纫曈驅ΜF實性測評情境的考量,越來越多的研究者對“ 真實”的這種理解尤其是對大規模高利害考試中的“ 現實性情境”的應用有了自覺的反思。今年高考作文試題中,現實性交際情境的寫作任務比往年有所減少,可能也是對現實性測評情境反思的體現。

四、效度視域下“有效”的測評情境

王寧教授在談到對“ 真實”的理解時指出,所謂“ 真實”是“ 這種語境對學生而言是真實的,是他們在繼續學習和今后生活中能夠遇到的,也就是能引起他們聯想,啟發他們往下思考,從而在這個思考過程中獲得需要的方法,積累必要的資源,豐富語言文字運用的經驗”,她把“ 真實情境”概括為“ 從所思所想出發,以能思能想啟迪,向應思應想前進”。[15]如果“ 真實”一詞容易引起誤會,我們可以在教學中突出課程標準在詮釋三類情境時使用的“ 有意義”這一語詞。類推到測評中,則只要測評情境不違背基本的日常邏輯,能有效地服務于測試構念,達到期待的測試效果,這樣的情境都可以稱為“有效”的情境。

這種效度視域下對測評情境“ 有效”的追求,強調在情境中解決評價任務所需的思維方式或素養與目標情境中的思維方式或素養的相似性,而不強調情境或任務本身的相似性。以文言實詞解釋的測評為例,以下幾種測評情境的設置在效度上都是可接受的。

1. 寫出“ 民用不擾,而物生亦遂”中的“ 遂”字在句中的意思。

2. 為“ 民用不擾,而物生亦遂”中的“ 遂”字選擇釋義正確的一項是( )

A. 通達B. 因循C. 稱心D. 長成

3. 為“ 民用不擾,而物生亦遂”中的“ 遂”字選擇釋義正確的一項是( )

A. 通達?!痘茨献印罚骸澳苤筚F,何往而不遂?”

B. 因循。南朝梁丘遲《與陳伯之書》:“ 若遂不改,方思仆言?!?/p>

C. 稱心。唐杜甫《羌村三首》之一:“ 世亂遭飄蕩,生還偶然遂?!?/p>

D. 長成?!秶Z》:“犠牲不略,則牛羊遂?!?/p>

4. 小明在讀到所給文本“民用不擾,而物生亦遂”一句時無法理解句中的“遂”字便去查字典,字典呈現如下,請你為小明推薦一個恰當的義項。

A. 通達?!痘茨献印罚骸澳苤筚F,何往而不遂?”

B. 因循。南朝梁丘遲《與陳伯之書》:“若遂不改,方思仆言?!?/p>

C. 稱心。唐杜甫《羌村三首》之一:“世亂遭飄蕩,生還偶然遂?!?/p>

D. 長成?!秶Z》:“犠牲不略,則牛羊遂?!?/p>

完成例題1 所需的思維與“ 通過文言文閱讀,梳理文言詞語在不同上下文中的詞義和用法”相似,完成例題2 所需的思維與“ 學生借助工具書獨立研讀文本”相似,例題3 呈現了接近借助工具書研討文本的現實生活的情境,例題4則是對現實生活情境的全真模仿。四道題所設置的情境在現實性即與現實生活的距離上各有不同,卻都能有效測評對文言文詞語的理解。李衛東指出,簡單情境、良性結構的問題和任務雖然不能促成深度理解和運用,但也是不可缺少的,是認知學習的基礎[16]。在測評中,簡單情境也是可接受的,是不可缺少的,這與高考以文字來呈現情境并要求考生在有限的時間內完成任務的特點也是一致的。

不過,既然測評構念是核心素養,而核心素養是應對復雜、綜合的真實情境的品質,所以它也更適宜在復雜的綜合的不良結構的情境中加以測評。不良結構的情境任務沒有暗示確保取得成功的策略或方法,這類情境是模糊的,在解決方案提出前需要進一步定義或明確。因此,這類問題或疑問更多需要的不是知識,而是良好的判斷力和想象力,這也更多地指向核心素養[17]。因此,評判測試情境質量高下的關鍵是情境的復雜或綜合程度,而不是情境的現實性程度。

高考是大規模高利害考試,涉及的人數眾多,影響范圍廣,對考生個人命運和社會發展都有極其重要的影響。這要求高考有較高的效度。效度視域下高考中的情境測評應當具有以下特點:以核心素養為測評構念,情境的設置應當有助于而非干擾核心素養的準確測評,情境相關的要求應當在評價標準中得以體現并在實踐中可操作;高考的目的是為高校和國家選才育才,所以高考的分數解釋應當以此為既定用途,分數的使用應當與高校和國家對人才的要求一致;注重情境的典型性、代表性,完成情境任務所用思維特質可類推到其他情境;注重情境的復雜性、綜合性,完成情境任務所用思維應該有質和量的保障,并且追求這些思維特質的綜合貫通。

猜你喜歡
測評高考效度
慈善募捐規制中的國家與社會:兼論《慈善法》的效度和限度
測評一款LED成像燈
西藏職業技術學院學生綜合素質測評系統的設計與實現
社會治安防控體系建設中的公民參與度測評研究
被看重感指數在中國大學生中的構念效度
外語形成性評估的效度驗證框架
算錯分,英“高考”推遲放榜
復雜圖形測驗對區分阿爾茨海默病與非癡呆的診斷效度
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合