?

ETS講席制度對我國教育考試機構內涵式發展的啟示

2019-05-29 11:43戴一飛
中國考試 2019年1期
關鍵詞:效度考試機構

戴一飛

(教育部考試中心,北京 100084)

黨的十九大報告指出,建設教育強國是中華民族偉大復興的基礎工程,必須把教育事業放在優先位置。當前,我國教育改革框架的“四梁八柱”已經搭建,教育改革進入“全面施工內部裝修”階段[1],教育轉向內涵式發展。改革開放之后,我國各級教育考試機構逐漸從教育行政機關脫離,向專業化機構轉型發展,在考試招生制度改革等一系列重大教育改革舉措中發揮著重要作用。30多年來,各級教育考試機構在專業化程度上有了較大提升,尤其是在命題、考務、信息和評價4個主要業務環節[2],已基本實現“讓專業的人做專業的事”,落實了考試招生制度改革中“加強考試管理,完善專業考試機構功能,提高服務能力和水平”[3]的要求。我國正在從教育大國向教育強國邁進,人民對教育質量和教育公平有更高期待,教育信息化水平在不斷提升,這些都要求教育考試機構進一步加強專業化建設,注重內涵式發展,把握新時代的機遇。

美國教育考試服務中心(Educational Testing Service,ETS)是世界著名的專業化教育考試評價機構,在考試技術的運用和教育評價觀念的引領方面一直處于領先水平。該機構于2000年設立了首個研究講席(Research Chair),開啟了在教育考試機構內部建立講席,推進和確??荚嚠a品有效公平且具備創新性的管理模式和學術傳統。截至目前,ETS共設立了5個研究講席,研究方向各有側重。本文擬通過介紹ETS設立的研究講席及講席專家,剖析將研究型大學基層學術活動組織形式——講席制,應用于專業化考試機構的合理性,以及這種制度設計對于我國教育考試機構建設和評價事業發展的啟示。

1 ETS講席制度的緣起:建立向現代測量學致敬的首個講席

講席制(Chair System)是以教授為核心的權威型學術活動組織運行機制,萌芽于中世紀,因使用教師授課的座椅(Cathedra)隱喻講席教職(Professional Chair)而得名。19世紀初,以德國柏林大學為代表的現代研究型大學,將講席制繼承下來,并發揚光大。這種以教授為學術工作中心的高等教育內部組織機制,對于包括美國在內的西方各國的大學產生了深遠影響。2000年,為歡迎教育測量學家霍蘭德(Paul W.Holland)重返ETS工作,ETS為其設立了首個研究講席,并以現代測量學之父——洛德(Frederick M.Lord)的名字命名,稱之為洛德講席(Frederic M.Lord Chair)①洛德于2000年去世,該講席的設立也有緬懷這位測量學巨擘之意。。從此,以設立研究講席的形式,表彰和致敬為ETS的考試與評價事業作出卓越貢獻的研究者及其成就,被作為一項傳統建立起來。通過設置洛德講席,ETS向外界釋放出一個強烈信號,即該機構對于測量與統計理論的高度重視,在其看來,將測量與統計應用于教育考試與評價是專業化考試機構安身立命的根基所在。

霍蘭德之所以能夠成為ETS歷史上首位講席專家,在于他直接影響和塑造了ETS今日所秉持的測試理念與工作機制。他曾于1986年被ETS任命為首席杰出科學家,隨后執教于加州大學伯克利分校的教育研究生院(Graduate School of Education)和統計學系?;籼m德將統計學思維運用到考試產品的研發和應用當中,其在社會網絡(social networks)、因果推理(causal inference)、項目反應理論(Item Response Theory)、等值以及項目功能差異(DIF)等方面的理論建樹,至今仍在指導教育測量界的實踐[4]。

霍蘭德退休4年后,洛德講席的殊榮授予了馬里蘭大學的榮譽教授梅斯雷弗(Robert J.Mislevy)。梅斯雷弗是ETS“以證據為中心的測試框架”(Evidence-Centered Design,ECD)的主要設計者和提出者②ECD起初是ETS于1997年設立的一個研發項目,由梅斯雷弗(Robert J.Mislevy)、斯坦伯格(Linda S.Steinberg)以及阿蒙德(Russell G.Almond)3人負責。該項目最直接的理論基礎來自梅斯雷弗本人。,該測試框架的最大貢獻在于實現了用完整而清晰的證據推理取代長期“統治”命題環節的經驗與直覺(hunch)[5]。梅斯雷弗早年間曾在洛德研究團隊工作,參與過美國國家教育進展測評項目(National Assessment of Educational Progress,NAEP),認知科學與心理測量學對其影響巨大。梅斯雷弗一直致力于將認知心理學、測試設計原理、統計方法、證據推理以及軟件開發等結合起來開展研究,以應對計算機技術發展對新測試環境提出的挑戰。目前,ECD已成為美國教育評價領域主要的應用模型之一,也是指導ETS開發和實施具體考試評價產品的平臺[6]。

2 ETS專家講席制度的發展

2.1 關注公平性與有效性的講席設置

公平性與有效性是衡量一項考試設計水平的2個重要方面,二者相輔相成??荚囀且婚T關于公平與公正的學問,好比法官斷案,須以事實為根據、以法律為準繩。作為西方法律文化符號之一的正義女神,之所以要被“蒙眼,因為司法純靠理智,不靠誤人的感官印象”[7]??荚?,尤其是一些高利害的教育考試,決定著考生的前程,考試本身的公平與否,關乎切身利益。效度,是一項考試究竟能否以及能夠在多大程度上測量出人們想要測出的東西,如同在法庭上講事實、擺道理,當事人到法院,討的是一個“說法”,法官只能依據確鑿的證據和完整的因果證據鏈,明理斷案,讓當事人感受到司法的公正。對于考生而言,成績單好比是“判決書”,只有有效地反映“當事人”的心理狀態,才能體現出考試的公平。因此,公平性與有效性是考試的基本屬性,缺一不可,這也正是ETS繼洛德講席之后設立戈登講席和梅西克講席的原因。

ETS于2003年設立了第2個講席——戈登講席(Edmund W.Gordon Chair),以著名非洲裔心理學家戈登(Edmund W.Gordon)的名字命名。戈登本人被譽為“本時代心理學界的領軍人物”“最杰出的黑人心理學家”[8],他是美國啟智計劃(Head Start)的創始人與設計者,是1965年美國初中級教育法案(the Elementary and Secondary Education Act of 1965)的起草者,他為推動美國的教育平權作出過巨大貢獻。ETS設立戈登講席是為了改善教育質量與教育公平。首位擔任戈登講席的專家是ETS政策評估與研究中心(Policy Evaluation&Research Center)的高級副主席、兒童早期教育研究中心的負責人奈特斯(Michael T.Nettles),他是著名的教育政策研究專家,關注教育評價、學生表現與成就、教育公平等政策方面的研究。他本人曾親歷美國種族問題的變遷,著名的蓋爾案(Geier v.University of Tennessee)①一位名為蓋爾(Rita Sanders Geier)的非洲裔教師,因不滿田納西大學在聯邦政府宣布廢除種族隔離之后,仍在納什維爾市中心建立隔離校區,將學校告上法庭,要求法院終止這種二元教育體制。歷史上,田納西大學是美國唯一一所由州政府資助的黑人大學,其本部幾乎全部是非洲裔學生,建立隔離校區其實是給白人學生劃出一片“特區”。蓋爾案直到2001年才以雙方簽署同意判決書的形式宣告結束,州政府付出了7 700萬撥款的代價,用來提升田納西州高等教育學生與教員的多元化。就發生在奈特斯本科時就讀的田納西大學。他擅長通過長期的證據收集形成關于教育公平與質量的研究報告。奈特斯目前最為關注的是,如何通過科學研究推動教育公平,減少針對少數族群的不利因素,彌合因地位和種族處于弱勢的兒童群體的成就差異。

2008年,為紀念梅西克(Samuel J.Messick)這位在ETS工作30余年的教育心理學家,ETS設立了以其名字命名的第3個講席——梅西克講席(Samuel J.Messick Chair)。梅西克1993年獲桑代克獎,是測試效度領域的世界級權威,他在效度“三分說”理論的基礎上,提出效度整體觀,深刻地影響了當今教育測量界對效度的認識,以其名字命名講席,體現了ETS對考試效度問題的高度關注。凱恩(Michael T.Kane)是首位梅西克講席專家,他同時也是梅西克思想衣缽的傳承者。第四版《教育測量》(Educational Measurement)中理論與原則部分的開篇作者正是凱恩,他以“效度驗證”(validation)為標題,闡釋效度理論,而第三版《教育測量》撰寫此部分的專家就是梅西克,只是當時還是以“效度”(validity)為標題?!靶Ф闰炞C”是對“效度”理論的發展和完善,凸顯了2位學術權威在效度理論方面的傳承關系。梅西克把效度問題落腳到“評價”(evaluation),凱恩則強調證據收集的過程,提出以論證為基礎的效度驗證路徑(The Argument-based Approach to Validation),并對效度驗證所包含的2種論證——解釋性論證(interpretative argument)和效度論證(validity argument)作了區分,指出效度驗證不是一個封閉體系,而是不斷收集多種證據,在結論與證據之間來回審視的過程。

2.2 關注將認知心理學應用于教育考試評價的講席設置

2010年,ETS以已故測量學家弗雷德里克森(Norman O.Frederiksen)的名字命名了第4個講席——弗雷德里克森講席(Norman O.Frederiksen Chair)。弗雷德里克森是建構性題型(構答反應)的積極倡導者,同時也是選擇題(multiple choice)的堅決反對者,他認為選擇性題型對于課堂教學產生的反撥效應是負面的,并試圖將認知心理學應用于測試當中,設計能夠對個體以及學校產生積極影響的評價方式。在ETS工作的40多年里,弗雷德里克森始終在找尋測量知識與技能的替代性方案,倡導對傳統考試的革新。

貝內特(Randy E.Bennett)是首位ETS弗雷德里克森講席專家,他本人目前擔任國際教育評價協會(IAEA)的主席,也是美國國家教育測量協會(NCME)的主席。貝內特早年曾有一段在社區學校教授英語的經歷,他在結束短暫職教之后,進入哥倫比亞大學師范學院攻讀碩士,研究閱讀與學習障礙問題,隨后繼續攻讀博士學位,關注教育測量和特殊教育。早年的經歷使貝內特成為了一名有著豐富基層教學經驗的教育測量學家,他參與研發了ETS首個基于計算機的測試(CBT)——1986版的以計算機為基礎的分班測驗,這在當時是將計算機技術用于測試的革命性成果。隨后,貝內特將關注點持續放在科技、認知心理學與測試相結合的領域,并于2007年啟動了CBAL計劃(the Cognitively Based Assessment of,for and as learning),該計劃關注基于理論的終結性與形成性評價,其主要目的是運用30年來學習科學的研究成果設計測試,讓人們看到未來的標準化考試是怎樣的。

2.3 關注考試評價回歸教育屬性的講席設置

在5個研究講席之中,新近設立的是2012年的泰勒講席(Ralph W.Tyler Chair)。泰勒(Ralph W.Tyler)被譽為“美國教育評價之父”(the father of educational evaluation and assessment),現代教育評價(evaluation)這一概念就是泰勒于1929年提出的,以區別于傳統的測驗(testing),他指出評價是一種過程,用來發現學生已經學了什么及所具有的價值[9]。1963年,泰勒又提出“評量”(assessment)①評量,為臺灣地區學者譯法,大陸學者多采用“評價”,為與“評價”(evaluation)有所區分,筆者在此處采用“評量”。一詞,指一種特殊的評價,即對于不同年齡、不同背景兒童團體的整個學習狀況的評價,以區別人們常用的測驗(testing)和評價(evaluation)概念。泰勒曾是7位美國總統的教育顧問,是美國國家教育進展測評的創立者。

目前,泰勒講席授予了大規模測試的倡導者與實踐者基爾希(Irwin S.Kirsch)?;鶢栂S?984年起在ETS工作,曾在馬里蘭大學主修心理學,后又拿到了特拉華大學測量與評價的博士學位。他一直致力于讀寫能力(literacy)的研究,并因此進入ETS。一開始他負責調研如何將測試與教學相結合的項目,后來逐漸產生對于讀寫能力測試的研究興趣,并開始接觸一些國家級的大規模測試,他還與加拿大的專家合作,分析研究他本人開發的針對讀寫能力的測試方法是否適用于加拿大的雙語環境。2005年,基爾希與來自加拿大統計局(Statistics Canada)的代表,帶著建立一個全新的國際成人測試的想法,共赴世界經合組織(OECD),并最終促成了國際成人能力評估項目(The Program for the International Assessment of Adult Competencies,PIAAC)的誕生?;鶢栂K鶇⑴c的大規模測試研究,并非升學或是選拔意義上的,而是體現了測試的診斷功能和矯正功能,目的是促進教學和協助教育水平的橫向比較,是在國際背景下追求測試的意義——促進教育和學習,通過國際間協作設計出的大規模測試,回應泰勒對于評價(evaluation)的認識,基于這一點,由基爾希擔任泰勒講席專家,實至名歸。

表1歸納了上述5個講席的創設時間和講席專家。

3 ETS講席制度對于我國教育考試機構的啟示

ETS的創始人昌西(Henry Chauncey)在機構創建時,曾明確提出將科學研究放在事業發展的核心位置,允許和鼓勵學術自由,包容針對ETS考試的獨立見解和批評。他制定政策,要求在不影響考試安全的前提下,公開發表所有圍繞ETS考試產品的研究結果[10]10。在ETS專家講席制度的發展中,交織著3條線,一是人,二理論,三是考試評價服務產品。人,指的是被授予講席的諸位業界權威。ETS吸引和挽留了大批世界一流的教育家、心理學家、測量學家、統計學家,這些專家和學者的存在確保了ETS考試產品始終保持著較高的理論性、科學性和創新性?,F任ETS研發部高級副總裁勞倫斯(Ida Lawrence)坦言:“創設這些講席,為的是吸引更多的學術大師,為的是留住那些優秀的研究者?!薄笆沁@些講席專家,讓我們始終保持與未來同步,他們是ETS最寶貴的財富?!盵11]由于這些供職于ETS的業界權威同樣也是教育測量領域重大理論的提出者和發展者,他們可以直接將新理論應用于教育考試評價工作當中,ETS的實踐又進一步深化了他們對于理論的理解,使得ETS成為一個能夠讓理論與實踐相統一的場域。教育考試評價產品是ETS提供的公共服務,而這些產品背后是多年的研究開發。5個講席的每位專家都與目前ETS的考試評價服務有著直接關聯,例如,洛德講席的統計測量思想是ETS考試評價產品的重要分析工具,梅西克講席則通過深化測試效度的理解,進一步提升考試評價產品的品質。由于這些世界級權威的存在,使得ETS能夠深度參與世界教育考試評價活動,并在其中有著較大的話語權。我國教育考試機構脫胎于行政機關,盡管一直在完善專業化建設,但其行政色彩依舊存在,長期以來的工作傳統使得我國教育考試機構長于管理和執行,政治意識和安全意識較強,但在專業化方面的確還有很多提升的空間。因此,ETS的講席制度至少可以從以下3個方面給予我國教育考試機構的內涵式發展一些啟發。

表1 ETS設立的5個講席的創設時間和講席專家

3.1 重視專業人才培養:形成由權威專家引領教育考試機構事業發展的機制

ETS研究講席的獲得者本身就是ETS事業發展的領航者。ETS每個測試產品或服務的研發與創新都離不開權威專家的指引。這些曾經的或是現任的講席專家不僅是測量理論的締造者、教育測量界的執牛耳者,而且是教育考試一線的實踐者,左右著世界教育測量學的走向。目前,國內的教育考試機構雖已初步實現在核心業務領域的人員專業化,但供職于機構內部的業界權威鳳毛麟角,更談不上引領世界教育測量的理論與實務。伴隨我國教育學與心理學領域研究水平的提高,國內不少高等院校都開設有專門的教育測量課程,教育測量學方面的專家也有不少,每年能夠培養一定數量的教育測量專業研究生,教育考試機構應該盡可能地利用這些資源,引進專家進入機構內部或者建立長期的合作機制,與此同時,還應建立人才培養機制,例如與高校建立相關學科在讀學生的實習平臺,盡早培養專業人才。

近年來,我國高等院校中教育測量的科研資源豐富、成果豐碩,但理論聯系實踐不足;教育考試機構忙于日常工作,留給思考與研究的時間有限,造成了理論和實踐“兩張皮”的問題。鑒于此,筆者建議:第一,國內教育考試機構應該盡快形成權威專家引領事業發展機制,通過與國內外業界權威建立聯系,創設客座教授講席,在一些高利害考試的研發方面,積極聽取專家意見;第二,與世界著名教育考試評價機構建立長期的人員培訓機制,促進業務溝通和學術交流;第三,與國內有教育測量專業的高校建立長期實習合作機制,搭建教育人才培養平臺。

樹立由權威專家引領教育考試機構事業發展的觀念,其本質是與以行政思路管理教育考試機構相區別,后者在頂層設計和追求實效方面的確有優勢,但要實現教育內涵式發展,專業化教育考試機構離不開權威專家的引領。

3.2 重視理論創新:確立由理論驅動教育考試機構事業發展的理念

教育考試評價領域的每一次重大理論創新,都在不斷提升人們對于教育考試評價問題的認識。19世紀末至20世紀中葉,心理學和統計學的理論融合使數據統計與應用成為教育測量主要的研究范式。20世紀初,圍繞相關和回歸分析技術的第一代測量理論——經典測量理論迅速發展起來,教育測量逐漸演變為帶有濃重數理統計色彩的應用學科[12]。20世紀后半葉,項目反應理論和概化理論的提出,擴充了教育測量理論,并直接服務于教育測量形式的變化,即利用計算機技術讓計算機輔助測試成為可能。在認識論層面,評價理論的提出也大大擴展了人們對于教育測量的理解。20世紀70年代,教育評價理論進入“第四代評價”,著重強調評價的民主協商和主體參與性,對評價存在的“排斥價值的多元性”“過分推崇科學范式”“官僚主義傾向嚴重”作出修正,認為評價應該為促進被評價者的發展服務[13]。當前,認知心理學、社會心理學與教育測量的結合也在加深,考試評價機構開始避免向分數的使用者僅僅提供一個“總分”,而是提供描述性的成績報告,并為此開展認知診斷方面的研究[14]。

當前,計算機技術和網絡技術迅猛發展,對現有的教育測量手段和方式都提出了新的挑戰,教育考試評價領域充滿著不確定性,既有理論如何升級換代是擺在所有教育考試機構面前的難題??陀^地講,教育考試評價此前的幾次重要理論飛躍,我國教育考試機構的參與度并不高,這與當時我國教育整體水平落后的實際情況有一定關系;然而,大數據時代的到來,或為我國的教育考試機構提供后發優勢。大數據技術的運用將幫助教育考試從單一考試向多元評價躍升。有關專家指出,未來的招生評價將不再是基于某一時間橫斷面的信息,借助于大數據和云資源,招生機構可以收集到考生各方面的資料,從而獲得申請者全方位的、立體的信息,這些信息無疑將成為決策更可靠的依據[15]。過去10年,我國的互聯網發生了翻天覆地的變化,大有引領世界互聯網發展之勢,其背后是高度發達的互聯網技術及對大數據處理的強大能力。這些客觀條件將成為我國各級教育考試機構彌補考試數據分析利用這一短板,加快大數據和教育考試深度融合,搶占未來考試與評價事業戰略制高點的強大助力。當然,要抓住機遇,理論必須先行,教育考試機構需要盡快形成由理論驅動教育考試服務水平升級的理念。

3.3 重視價值引領:樹立通過考試評價實現教育目的的觀念

1937年,在ETS即將創立之時,測試界權威專家布雷漢姆(Carl Campbell Brigham)表示出強烈反對,一度令ETS的創立中斷。身為美國“高考”——學術潛能考試(Scholastic Aptitude Test,SAT)之父的布雷漢姆認為:“設立一個強大的(考試)機構……將嚴重扼制科研,挫傷創新積極性,會把現有的測試方法,甚至現有的測試形式,想當然地作為正確的做法加以貫徹……如果老師都要求自己的學生圍著這些新出現的考試打轉,如果教學遭到相關繁文縟節的綁架,教育無疑會受到考試的嚴重干擾?!盵16]他進一步指出,任何一所機構的建立,只要其擁有實施考試的權力,都將不可避免地把注意力放在市場推廣,而非客觀公正地研究考試的有效性,實實在在推動教育的進步。布雷漢姆在《錯誤研究》(A Study of Error)一書中指出,學生在解答試題時所犯的錯誤將為改善教學提供依據和基礎[10]9,而他提倡建立的,正是如今被大家所熟知的形成性評價(formative assessment)。時隔70多年,這段教育考試史上的小插曲依舊耐人尋味。布雷漢姆的發難極具針對性,而且直指教育考試機構的核心問題——機構的合法性、科學研究的動力、創新的價值、測試方式方法的選擇以及教育考試機構存在的依據。他提出了一個非常重要的觀點——“考試的使命在于促進教育的進步”。他早已發覺教育考試機構存在的意義,不是充當職業的分配器和幫助人們追逐“遠大前程”的捷徑,而是服務教育本身,成為教育的一部分。在西方民主教育的觀念中,教育的目的是使人成為更好的自己,解放和實現自我。ETS創立之初所設計的著名測試,如SAT、GRE、LSAT等,的確順應了那個時代的要求,完成了打破當時美國階層固化的任務。之后,ETS也在不斷探索如何能夠更好地服務教育,并逐步實現從服務高校選拔精英到服務申請者和招生者的第三方考試評價平臺,再到關注學習診斷,改善教學,促進終身學習的評價方式提供者。ETS不斷地使自己的考試評價更加接近教育本身。

我國的教育考試機構要為建設中國特色現代考試招生制度服務?!秶鴦赵宏P于深化考試招生制度改革的實施意見》指出:“堅持育人為本,遵循教育規律。把促進學生健康成長成才作為改革的出發點和落腳點,扭轉片面應試教育傾向,堅持正確育人導向,踐行社會主義核心價值觀,深入推進素質教育,培養德智體美全面發展的社會主義建設者和接班人?!边@其中就蘊含著我國考試招生制度應當遵循的價值內容:“育人”是根本,立德樹人是核心任務。與西方國家有所不同的是,我們需要解決好“為誰培養人,培養什么人,怎樣培養人”的問題,需要將社會主義核心價值觀融入到考試評價工作當中。過去,在世界教育考試評價的舞臺上,西方發達國家所確立的價值觀長期占據主要地位,也左右著教育測量理論和實踐的走向。未來,伴隨我國教育事業的進一步發展、教育強國地位的確立,我國教育考試評價能否實現世界范圍內的價值引領,也將成為我國教育考試機構在內涵式發展過程中所面臨的挑戰。

猜你喜歡
效度考試機構
效度驗證模式系統整合與效度研究發展策略
《廣東地區兒童中醫體質辨識量表》的信度和效度研究
慈善募捐規制中的國家與社會:兼論《慈善法》的效度和限度
Japanese Artificial Intelligence Robotto Take Entrance Examinations
一周機構凈增(減)倉股前20名
一周機構凈增(減)倉股前20名
一周機構凈增倉股前20名
一周機構凈減倉股前20名
你考試焦慮嗎?
準備考試
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合