?

基于證據的評價
——以學生綜合素質評價為例

2023-03-12 09:48柳夕浪
課程教學研究 2023年11期
關鍵詞:證據素質測量

文∣柳夕浪

有效的評價當然要考慮政治需求、倫理準則、人文傳統甚至個人偏好等,然而證據乃是這一切的基礎和起點,任何人、任何組織在發表意見、做出評判的時候,都必須提供相關證據,否則評價有可能演變為一場沒有證據支撐的、無休止的意見之爭,使決策和后續行動處于危險之中。

一、證據在教育評價中的缺失及其原因

在今天這個充斥著網絡欺詐的時代,證據容易被各種意見甚至毫無根據的謠言所取代,評價活動更容易演變成缺乏證據的意見之爭。以學生綜合素質評價為例,常見的評價程序是這樣安排的:依據綜合素質發展指標體系,組織學生自評、同學互評、教師再評價,然后加權匯總,形成評價等級(有的還予以賦分)。在這里,評價依據是分級表達、含糊不清、缺乏共識的“指標體系”,證據的收集和使用未直接納入評價過程之中,評價者往往基于平時關于某人的主觀印象做出判斷。如此,評價活動到底有什么價值呢?有研究人員于2017年在14個國家向12000人(一般都受過高等教育,有的是諾貝爾獎得主,對有關問題有關注、有興趣)進行調查。調查的問題共13題,結果,除氣候變化問題外,對其他12個問題,沒有一個人得到滿分,只有一個人答對了11題,絕大多數人答錯了絕大部分題目,15%的人答錯了所有的問題。這“不僅僅是錯誤,而是系統性的錯誤”“絕大多數人對這個世界的理解都是錯誤的”[1]。研究者指出:“當人們思考的時候,人們會持續并本能地通過他們的世界觀來猜想和理解這個世界”,“情緒化的本能和過分情緒化的世界觀”使人們把事實丟在一旁。世界銀行《2015年世界發展報告——思維、社會與行為》基于數百篇關于人的決策的實證論文指出:日常生活中“人們的大多數判斷和選擇都是自動做出來的,并未經過深思熟慮”“人們根據自動涌入頭腦中的材料,迅速評估不同的選項。人們鮮少綜合考慮所有的選項。盡管人們通常非常善于更審慎的分析,人們本能上僅僅使用一小部分相關信息做出結論”。[2]僅根據有關要求基于直覺、聯想,自動、迅速做出判斷,基于自己對某個人的零星印象(很可能是偏見)填補缺失的信息,這樣的評價顯然是不可靠的。

證據在教育評價活動中的缺失主要有兩個方面的原因:

一是關于評價本質的認識偏差。從理論上看,學術界傾向于把評價視為一種價值判斷過程,如認為它“與認識世界是什么的認知活動不同,它是一種以把握世界的意義或價值為目的的活動,即它所要揭示的不是世界是什么,而是世界對人意味著什么,世界對人有什么意義”[3]。強調評價不同于一般的科學認知是對的,但不能因此而忘記了評價是建立在對事實有把握的基礎上,建立在科學認知的基礎上??茖W認知以“對象、客體的外在尺度”為根據,注重反映客體的本性、規律性,獲得超越主體、不以人的意志為轉移的客觀性,讓人懂得世界“有什么”或“沒有什么”,“是什么”或“不是什么”,“可能怎樣”或“不可能怎樣”,提供實踐活動的必要基礎;而評價還要依據“主體的內在尺度”,具體指主體目的、需要、利益、能力等內在規定性,使人們懂得什么是有意義或沒有意義,什么是值得的或不值得的,什么是必要的或不必要的,提供實踐的必要性、方向、動力。關于人的評價必須遵循著外在、內在兩個尺度,促進需求與可能、必然與自由、存在與意義、現實與理想的連接。在社交媒體制造的“后真相”時代,所謂“訴諸情感和個人信念比客觀事實更加有效”[4]的情況下,我們尤其要關注評價的事實根基,建立尊重事實、實事求是的世界觀和方法論。

二是評價改革重心的偏差。從實踐上看,世界教育評價改革有所謂一代、二代、三代之分,目前開始進入第四代評價[5]。20世紀初,教育測驗運動在美國發端,推動基于考試的評價,其核心是用分數進行定位,在技術上追求客觀,從命題到分數導出都力求技術化、規范化。本來測驗就是個系統地收集關于學業成就證據的過程,但由于過于追求量化而遭到了批評。于是有了目標導向的第二代評價(泰勒的目標導向模式),強調教育目標是評價的依據,評價就是看學生受教育后與目標的距離有多大。第二代教育評價中,衡量學生發展與教育目標的距離還是以考試為主要依據的。不過到了第三代教育評價,主導理念變成了“評價不是為了證明,而是為了改進”,完全超越了考試。它在反對用考試分數給學生排位的同時,把基于事實的“證明”丟到一旁。既然無須“證明”什么,那么事實也就變得可有可無了。而當教育評價把“證明”與“改進”對立起來的時候,評價活動拿什么來推動“改進”呢?也許就是憑空鼓勁唄。這讓人想起小學課堂上學生一個勁兒地喊著“你真棒!你真棒!”,至于“棒”在哪里不重要。而第四代評價“追求最大的效益”,“被評價者要最大可能地接受評價結果,也就是說,被評價者只有對評價結果真正地接受了,認同了,才能全心全意地改進”[6],于是評價改革的重心轉移至“價值觀的協調”上,協調與被評價者在行為和認識上的分歧,從而轉變對評價結果的看法,最后形成大致一致的評價結果。不難看出,教育評價理論不斷舶來的過程,就是證據在評價活動中不斷淡化、退隱的過程,這將把教育評價引向何方呢?

二、基于證據的教育評價模型

引入證據之后,關于人的評價模型由下列三個層次構成:

圖1

(一)第一個層次:圍繞事實問題展開

該層次主要關注評價對象發生了什么,有些什么關鍵事件或表現;這些經歷或事件是從什么時候開始、經歷了哪些環節、如何結束的;有沒有什么相對固定的慣例、周期;等等。要注重把握客觀事實??陀^事實是有據可查的,已經發生的事件總會留下可考證的物品、行為痕跡等,是經得起第三方檢驗的,不會因人而異?,F代測評技術使人們遠遠超出直接經驗的范圍,“創造”出許多自然界很難觀測到的實驗現象,如波義耳的空氣泵、威爾遜的云室等,但這并沒有改變事實的客觀實在性質。在認識論的歷史上,不少人都試圖對客觀實在性進行解構,如:以玻爾為代表的“哥本哈根詮釋”(量子力學詮釋)[7],霍夫曼等認知科學家的“知覺界面理論”[8]等,以至于如“疫苗會引發自閉”“服用消毒水可以殺死新冠病毒”之類與客觀證據明顯不符的言論也占有一定的市場,而評價活動中無視證據客觀性的狀況更為普遍。認真嚴肅地正視這類問題,遠比如何量化、如何進行數據挖潛之類的測評技術問題更為迫切,也更為重要。

基于證據的評價,首要的是改變先入為主的思維方式,擱置過往印象,有如現象學所說的“懸置”,把主要精力放在收集整理關于評價對象多方面的信息,弄清事實真相。首先是把事實和看法分開?!澳橙耸歉咭?五)班的班長”,這是關于事實的陳述,它是客觀的、可以查證的;“某人是個負責任的班長”,這是來自某些人的看法,它是主觀意見,憑借相關事實并經過充分論證后,可在一定程度上得到確認。任何看法、意見都必須經過證明、推論才能得到一定程度的確認;同時,再優秀的辯論家也只能證明看法的合理性,而不能把一個“看法”論證為不容置疑的“事實”。教育評價界一些人炒作“誰熟悉誰評價”,實際上是在為評價者的先入為主尋找理由,與評價的科學性要求相背離。對情況熟悉可能更容易發現問題,提出獨到見解,但這些見解仍然是主觀的,且情況越熟悉越有可能站在所屬群體的立場發表偏見。其次,多渠道獲取事實材料。從多個角度或立場搜集關于評價對象的測驗、觀察記錄,包括被評者本人的陳述、利益相關者和利益無關者反映的有關情況:正式的與非正式的、考試情境與非考試情境、指定性的與非指定性的、文字記錄與非文字記錄;等等。不同角度或立場所觀察的材料可以相互補充、佐證,更加全面地反映活動或事件狀況,防止以偏概全,忽略了重要內容。綜合素質評價更要求貼近真實自然。如果為了評價刻意尋找某些事例,評價活動就會失去應有的常態而沒有了意義。最后,關注多樣中的同一性。一般來說,多次行為表現的一致性,由此所反映出來的行為特征與個性品質才可以得到一定程度的確認。對一致性的考察分這樣兩種情況:一是不同時期行為表現的一致性。對學生某些行為特質的確認需建立在對其行為數月甚至數年連續性的觀察記錄的基礎上。只有那些在數月、數年之后仍然保持發展的連續性的個性特質,才有一定的可信度。二是不同情境中行為表現的一致性。較長時間的追蹤觀察記錄為行為特質把握提供了證據,而在不同情境中保持行為的一致性表現則更為重要。這些不同的情境包括他人在場與獨處、課內與課外、預先設定的與偶發性的、順境與逆境或所謂壓力情境,等等。譬如孩子對人的態度,不只是看其對待熟悉的長輩,而且需看其如何對待陌生人、對待弱勢群體。

(二)第二個層次:圍繞動機問題展開

該層次主要關注評價對象為什么會這樣,他或他們這樣做的理由是什么;思考或行動的“預設”是什么,所堅守的信念是什么。評價活動基于行為但不能止于行為,還必須對人的行為做進一步的解釋,形成關于人的主觀世界的認識。這是關于人的評價不同于對物的鑒定的地方。通常的教育測驗通過建立標準參照或常模參照來賦予分數以意義,即將個人得分與由測試本身所決定的參考標準相對照,或者將個人得分與其他測試對象的表現進行比較,來說明分數的意義。這兩個維度的比較只是說明了分數意味著什么,仍不足以解釋考生為什么會這樣。目的、意圖或者說行動的理由,對理解、引導人的行動具有核心意義,對于把握人的素質至關重要。理由不同于一般的原因。在因果關系中,因在前,果在后。而理由是行動的意圖、目標,“是那些給人們帶來信念和欲望,讓他想象未來并據此行動的東西”,是“前瞻意志”,“即一種由于考慮到此行動可導致的未來可欲結果,于是按照這種信念而行動的意愿”[9],它是亞里士多德所說的“目的因”,一種特殊的原因。

如何把握行動理由呢?一是收集評價對象的自我陳述報告,特別是他的思想言論,他自己有關內心世界的表白,作為分析判斷的重要參照。相對于評價者來講,評價對象的言論也不是可以任意揣測和篡改的,不應該摻雜評價者自身的經歷和感受,有研究者稱這類“通過自身判斷所反映出的事實”為“主觀事實”[10]。二是基于事實的推理。它有兩種推理方式可選擇。第一,演繹式,其推理過程如下:

公理:如果有A事件,那么就有C結果。

經驗斷言:A事件發生。

結論:出現C結果。

演繹式推理從公理出發,尋找特定事件發生的理由,整個推理過程是基于公理,從可觀察的事件中預言不可觀察的理由,努力為特定的事件提供合理化的解釋。第二,溯因式,其推理過程如下:

結果:某個成長事件C被觀察到。

規則:如果A真的發生了(是正確的),則C將是理所當然的。

事件:我們有理由懷疑A真的發生了(是正確的)。

溯因式是對成長記錄的關鍵事件尋求解釋性假設的方法。它不同于演繹式,不是用規則(公理)和事件(應用性假定)去產生一個結論(可供檢驗的結果),而是根據可見的結果和相應規則推出不可見的緣由,使之變得可理解,主要目的是為已發生的成長事件提供充分理由,同時也是對未來發展的可能性做出相對可靠的預測。上述確認行動理由的過程即為“診斷”過程。

(三)第三個層次:圍繞反饋問題展開

該層次主要關注評價對象種種事件、行為對我們來說意味著什么,對我們的教育、對學生的成長將產生怎樣的影響;如何轉達觀察或測驗結果?要不要進行干預、怎樣干預?評價活動的核心追求在于提供有效反饋信息,使決策者(行動者)做出價值選擇,形成更為準確、更加恰當的決定。在教育評價活動中,有些決定是關于課程的,有些決定是關于教學的,還有些決定是關于選拔的。綜合素質評價主要是提供關于個人生涯問題的決策參照:如何選課規劃學業及課外實踐活動,如何選考規劃復習備考,如何選擇專業規劃升學、就業渠道,等等。人生十字路口的抉擇不只是知其然,還得知其所以然。一個分數、一段經歷有助于判斷我們被某大學錄取或某用人單位錄用的概率,只有在有一定把握的情況下申請者才會提出申請,或者招生(招聘)者才會錄取(錄用)。當然,在很多情況下有把握也不一定申請或招聘,做出決定不只是基于事實,還基于一定的價值觀。許多人的價值觀是不確定的,甚至是矛盾的。這就要求評價者進一步澄清自己的價值立場和標準,做出抉擇并以適當的方式做出反饋。在第三個層次上,要注意兩類評價主體的差別:一是實踐者、參與者、當事人。在當事人的視野中,評價對象不是與己無關的客體,不是已成的定局,而總是與己榮辱與共、休戚相關的,是行動中有待親近、觀照的另一個“我”。評價者與被評者之間是積極互動的共生關系。既是演員,同時又自己觀照自己、反思自己,但這不同于觀眾的“在我看來”,難以“抽身”出來客觀審視,而只能是一種反思和內省。二是旁觀者,在學校教育情境之外觀看正在發生的教育教學行為。有研究者認為,“作為旁觀者,你能從理解演出和完成演出的那些人后面的角度來觀察某東西”,“你能理解演出所包含的真理,不過,你必須付出的代價是不參與演出”[11]。旁觀者有可能排除個人情感因素的影響,尊重客觀事實,公開評價過程,接受同行的審查,避免“王婆賣瓜,自賣自夸”。有研究者(如著名測量與評價專家克朗巴赫)認為,對評價對象價值的評判不是外部評價者的職責,而是評價對象或事件當事人的權利,評價人員的職責在于系統考察,提供有關特征、證據[12],而把價值判斷、行動選擇的權利交給當事人。

從上述三個層次的評價模型中不難看出,“基于證據”的評價是依據客觀事實和主觀事實所做出的科學評價,既不同于主觀評價(非科學評價),只依據個人的經歷、感受、印象下結論,只根據個人頭腦中的標準,而不是根據社會公認的事實和標準下結論;也不同于“證據為本”的實證主義,后者“把人類社會生活數據的科學研究態度完全等同于物理學或生物學”,為達至可問責/可記賬(accountable)的一種 “科學證據為本”(scientific-evidence based)教育政策取向,搜尋可觀察、可測量、可數量化和可重復驗證的客觀資料/數據(data)。[13]

三、有關問題的討論

1.評價證據的基本特征

事實和證據有聯系,也有區別。當事實用來說明某種看法,這時候的“事實”也就不是單純的現象描述,而成了證明某種觀點的事實材料,即所謂“證據”。用來評價的證據必須有下列三個基本特性:

一是真實性,即證據的客觀性和確實性。證據不以某些人的主觀意志為轉移,其所反映的內容是真實的、客觀存在的,是在一定時空發生的,并且通常不是孤立的。正因為如此,我們才可以從多方面加以考證其真偽。如某學生參加社團活動記錄,可以通過社團活動作品、活動現場相關資料、該社團其他成員一切活動的記錄等加以考證。盡管客觀實在為人的意識所反映,提取并確定什么東西作為證據,離不開人的目的意圖,離不開采取的特定認知手段,但它始終是可證實、不可隨意否認的。針對評價活動中存在的關系至上、權力尋租、無中生有、隨意篡改數據等問題,評價必須注重系統收集證據,并對其真實性進行不斷驗證。

二是公開性,指公開證據獲得過程,便于他人考證。證據獲得過程公開與否,直接關系到證據的可靠性、可信度。只有在提供證據的同時,公開證據獲得過程,他人才可能重復操作驗證,并有可能對證據提出質疑。對于沒有公開過程的所謂“證據”,應保持必要的警惕。與公開性相關的是合法性,即要求使用合乎相關政策法規的程序、方式、手段來收集事實材料。要尊重當事人本人意愿,注意公開的范圍,保護他們的隱私。

三是多維性,指證據反映評價對象多方面特征,形成結構化證據鏈。從本體論的角度來看,自然世界與社會世界都是不斷生成、發展著的連續整體和過程;沒有靜止、孤立的事實或證據,單個證據的延展和簡單疊加無法達到真正的客觀現實。關于人的發展情況應考慮這樣幾個維度:第一,知行維度——不僅關注知道什么、認同什么、期望什么,還要關注能做什么、實際做了什么、做得怎么樣,特別是關注客觀紙筆測驗、態度調查以外的勞動實踐、科學實驗、藝術創作或表演等多種行為表現。知行合一情況是把握思想品德、個性潛能、人格修養的關鍵所在。第二,過程與結果維度——不僅關注行動結果,還要關注行動過程,關注結果是怎么來的。人的思想觀念、意志品質、思維方式等都蘊含在行動過程之中,只有充分關注到有關行動過程的證據,才能對人的綜合素質做出比較準確的判斷和分析指導。一些地區和學校的學生綜合素質檔案成了榮譽證書、獲獎證書、發表論文的堆積,不只是導向有問題,還會誘發越來越多的弄虛作假、暗箱操作。綜合素質評價要求還原到真實場景和過程之中,不只是編幾道問卷題目就可以獲得有充分說服力的證據。第三,人與情境互動維度——不只是關注人的活動表現,還應關注活動發生的背景,為發現和找出人與背景、情境之間高度關聯的具體變量或需要優先考慮的重要變量提供基礎,為恰當地評價人的素質提供佐證材料。

2.量化證據

量化證據即數據,它可以充分說明問題,也可以迷惑人。說它可以迷惑甚至欺騙人,主要是因為它的獲得過程——測量不一定可靠。一般來說,測量有三個元素:(1)對象事物或謂物理體系,可以進行某種操作,如運用量尺測長度;(2)此體系有可以觀察的特質,其數值可借由此操作來決定;(3)操作有量具。而社會科學中的測量卻沒有這樣嚴格,它所依據的“最廣泛接受的測量定義由史蒂文斯(Stevens)提出:‘根據規則,將數對應為物,或事件’”[14]。根據物理學的定義,唯一的測量之屬性是那些擁有能維持比率的結構,而史蒂文斯的定義完全不同于物理學。在他看來,測量的是物體和事件,不是物體或事件的性質(它們之間的關系);測量與數字符號(numeral)相關,而與數字(number)不相關。數字符號是用來指示數字的符號,而數字是量化屬性量值之間的關系(如比率)。將數字誤當成數字符號,就如同將一頓飯誤當成一份菜單。測量所涉及的是數字符號和物體或事件之間的對應關系,是一種試圖認知某物或某事的方式。

在教育研究百年來的發展歷程中,它的基礎理論不斷變化,先后涌現出實證科學范式、理解闡釋的人文學科范式以及批判社會科學范式,三種范式與教育領域特定的研究問題相適應,彼此不能相互替代,我們更不宜把某種方式方法如考試測量強調到唯一地步?!熬窀拍畈⒉荒鼙焕斫鉃閾碛辛炕?、數學的結構”[15],在越來越多的證據面前,或許我們不得不接受“人的諸多心理、社會屬性不可測量”這個令人沮喪的結論。故而在教育評價領域,考試也好,測量也罷,應慎重使用之。

綜合素質評價中的數字很多情況下只是作為標簽或認定的標記,或者最多表示序列或程度差別的性質程度的位置,而不是用來表示諸性質間的數量關系,它還達不到也不需要達到物理測量所要求的那個量化精度,本質上屬于定性范疇。綜合素質量化評價是有限度的,對于綜合素質評價的科學性來講,不是越精確越好,那些看起來十分精確的評價,可能問題會更多。從根本上來講,個人的成長并不是一個可以測量的實體,它是個人飽經磨難的結果,與眾不同的發展結果,既無法依據任何尺度或任何課程來加以統一安置,也無法將之與其他人的成就進行比較。在這樣一種關于“成長”的學習中,人只有在富有想象力的努力中同他人合作,也同他人競爭,走自己的路,而不是一味地仿效他人,這樣的學習乃是無法測量的再創造行為。

3.評價指標

評價活動構建一套指標,把評價內容轉化為一套可以看得見、摸得著的標志和標度,以此替代評價活動中觀察、推斷、論證、解釋等具體過程,既可以使評價活動變得十分簡便,也可以避免因人而異。如同打靶,可以不必去仔細觀察射擊者如何握槍等具體動作、細節,而可從子彈射在不同的環上直接判斷被評者的射擊水平。顯然,這樣一套指標體系是建立在關于外在顯現標志與內在測評變量之間必然聯系的反復考量、論證、檢驗基礎上,有著充分的證據和廣泛的共識。

學術界可以證明血壓計中不同水銀高低會隨著動脈中血壓的不同而變動,白細胞含量是指示身體感染的指標,紅細胞是監測組織發炎的有效工具,而呼吸中的酒精含量能相對準確地顯示飲酒量。它們基于已被廣泛接受、注重細節的理論模型而產生,其廣泛測量所表現出來的差異恰與身體內部機制差異相吻合。而關于人的素質研究還缺乏相關理論,對其中所謂個人差異之本質則眾說紛紜。人的綜合素質構成要素如家國情懷、人格修養、學習品質、實踐能力等大多數屬于心理學概念范疇,這些要素單方面的測量就面臨著一堆闡釋不清的理論問題,基礎脆弱,而把它們合在一起綜合性地加以考慮,將面臨更多的困境。特別是綜合素質結構中所包含的變量豐富多樣、各不相同,即使它們可以分別加以測量,因為其實際內涵不同,分類或分層角度不同,更不可能等距或有相同的測量單位(如某學科的測驗分數,這個學生的跳高成績、身高體重等)。本來這類測評是各自獨立地進行的,彼此并不相干,“不管測量多么精細或考慮得多么周到,它本身所觸及的總是片面的、部分的。如此一來,倘若人的行為或社會現象基本上是一種‘完形’的話,那么,我們期待著對種種屬性的測量值加以某種加總的方法,來表現‘完形’的整體狀態,理論上是不可行的,也是不可得的。易言之,對屬性加以測量,本質上即拆零方法的運用,乃是與‘完形’的整體想象是不兼容的”[16]。綜合素質評價現實中那套流行的指標體系經過了怎樣的檢驗呢?可以肯定地講,目前尚缺乏構建基于日常行為表現與綜合素質本質對應關系模型和指標體系的必要研究基礎,指望通過一套簡單便利,甚至可由計算機操作的指標體系去替代費時多且專業性強的、直接面對每個人的綜合素質評價活動,這是不現實的?;蛟S目前我們能做到的就是對個人某些必要成長經歷及其表現(主要是課程方案和課標所規定的)的觀察、記錄與意義解讀,盡管我們不能說有某些成長經歷就一定形成相關素養,但我們可以肯定的是如果缺乏某些必要成長經歷,學生就不具備相關素養;同時,基于對學生成長經歷及其表現的解讀,我們能更加有效地對其成長過程進行引導,如此而已。

猜你喜歡
證據素質測量
把握四個“三” 測量變簡單
滑動摩擦力的測量和計算
高鐵乘務員的素質要求及其養成
滑動摩擦力的測量與計算
對于家庭暴力應當如何搜集證據
素質是一場博弈
什么是重要的素質
手上的證據
“大禹治水”有了新證據
測量
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合