?

從追蹤學生的答題眼動軌跡積累內容效度證據

2024-04-18 22:04余航
考試研究 2024年2期
關鍵詞:內容效度

[摘 要] 效度如何得到有效的評估是教育測量中的一個重要問題。為了有效評估中高考等高利害考試的試題效度,以語文學科為例,在學生作答往年試題過程中采用紅外線眼動儀,追蹤學生審讀題目要求和作答的思維軌跡,為學生答題思維過程畫像。眼動儀監測答題過程的一系列心理反應數據和后期學生訪談記錄生成作答的心理反應樣本。將這些數據樣本與命題人所期待的測量目標進行對比后發現:有部分試題所希望測量的知識點、能力點與學生實際的心理反應偏差較大。建議依據被試面對不同刺激材料時的眼動軌跡和心理反應的有關數據,建立一個相對完善的試題效度檢測系統,從而在試題設計上減少“噪聲”;并在日常教學中以被評價者視角增強“評價對焦”。

[關鍵詞] 眼動軌跡;心理反應;高考語文試題;內容效度

[中圖分類號] G424.74 [文獻標識碼] A

[文章編號] 1673—1654(2024)02—052—010

一、利用眼動的心理機制評估試題效度

視覺系統作為人類最重要的感官系統,獲取外界的大部分信息[1]。近年來,將眼睛的運動軌跡作為一種研究視覺系統信息處理機制的重要手段,已經形成廣泛共識,且在醫學、心理學、工業等領域得到了廣泛的運用。在被試運用視覺觀察刺激對象時,將眼睛的中央凹瞄準刺激信息的過程稱為“注視”,通過注視可以把視覺對象固定在視網膜的中央凹上,從而完成視覺攝入信息的加工。

眼動被認為是一種研究視覺信息加工的有效手段[1]。眼動的過程實質是“視覺—眼動系統”在面對刺激下的輸出反應。這種反應是客觀真實的原始材料。刺激背景和刺激材料不同,引發的眼動反應也不同。運用紅外線眼動儀可以捕捉被試在觀察刺激材料時的信息加工過程。而信息加工過程的本質是被試面對刺激材料的心理反應,基于此可以把眼動過程看作被試加工刺激材料的心理過程。

這項追蹤技術始于19世紀末20世紀初,心理學家利用簡單的眼動儀記錄個體在文字閱讀及圖形掃描中的眼動軌跡,并探究其與視覺信息加工之間的關系。直至20世紀中期前,許多用于心理學研究的眼動追蹤技術還存在誤差大、操作難和被試眼動負擔大等缺點。20世紀中期后,隨著攝像技術的引入,特別是計算機技術的快速發展推動了高精度眼動儀的研發,極大地擴展了眼動追蹤技術應用。當前的眼動研究多使用現代化大型精密眼動儀,擁有集光學技術、攝影技術、計算機硬件技術和計算機軟件技術為一體的眼動追蹤記錄系統。

目前學術界對眼動的研究成果主要表現為:眼動在人機互動領域的運用[2];眼動在認知和心理決策領域的體現[3];眼動作為證據對閱讀行為和結果的監測[4]。這些文獻涵蓋了眼動追蹤技術在不同領域的應用和研究,包括游戲、情感分析、文本閱讀理解、智能家居、駕駛行為和交通情境認知等。這些研究領域具有廣泛的應用前景,可以為人們提供更便捷、更高效的交互方式。但目前,將眼動研究應用于中高考等高利害考試評價仍是空白。

上述過程可以借鑒到考試評價的效度評估中,即將眼動追蹤所反映的心理過程監測用于試題的作答過程監控。試題作為基于特定情境的刺激材料,考生作為被試,眼動過程則是作答試題的思考過程,也是考生面對試題刺激材料的心理軌跡。被試考生關注測試材料時會注視材料的關鍵點,將關注點停留在主觀上認為重要的位置,眼睛的關注點隨著主觀注意和心理反應、思維活動而移動或停留。因此,從眼動的過程可以逆推被試解讀測試材料的心理軌跡。利用紅外線眼動儀監測考生答題的眼動過程,進而搜集判讀眼動數據就可以獲得特定試題在考生心理上產生的刺激效應,不同的答題心理軌跡刻畫了不同試題的刺激效應。

心理層面的刺激效應外顯化就是特定試題的效度。試題效度指考試的準確性,它反映的是考試內容與課程標準及考試標準的吻合程度。效度高的試卷,能夠較準確地測試出學生掌握和運用所學知識和所具備的學科能力素養的真實度。通過還原法來評估,考生展現出符合試題所期望考查的學科知識和能力素養的心理刺激反應,則可以認為這道試題具有較高的效度。反之,考生答題的心理刺激反應與試題期待考查的知識和能力素養不符合,則可以認為這道試題的效度較低。

長期以來,對中高考試題的效度評估一直處在“事后評價”和“場外評價”的狀態。所謂“事后評價”,是指考生已經完成試題作答,并且評卷工作已經完成后,評價者依據考生的得分來評估試題的效度;所謂“場外評價”,是指非過程性評價,脫離考生實際作答的現場和考生答題的心理視角,從考場以外的角度展開評價。這樣的評價必然制約了評價者獲得考生答題的第一手資料,難以從作答試題的心理過程準確評估試題的效度。

本文旨在探討運用眼動儀監測考生的答題過程,改變“事后評價”和“場外評價”,從考生答題過程獲得第一手樣本以真實評估試題的效度。從學生的實際作答樣本來反觀試題的效度,是一個較準確的評估方式。

二、實驗設計

(一)被試選擇

2022年初,從Z市選取60名分數呈正態分布的高三畢業班學生。學生均來源于該市不同級別的普通中學。全部學生分為兩組,每組30名。

(二)研究工具

選取瑞典生產的“tobii近紅外眼動儀”。計算機上運行Eyeso Studio分析程序。眼動儀通過紅外線捕捉搜集學生的眼部移動軌跡,通過分析程序形成數據和圖表再現答題過程的心理軌跡。

(三)測試方式

提供兩道往年高考語文試題(一道為高考作文題和一道為高考文言文翻譯題)對兩組高三學生分別作模擬測試。學生閱讀試題之后口頭作答。作文試題由每位學生用2分鐘口頭講述各自對題意的理解以及寫作構思,文言文翻譯題由學生直接進行口頭翻譯。

依據高考正常答題時間分配為標準,設置本次實驗的考生答題時間。

1. 文言文翻譯題:考生在考場上完成一道文言文翻譯題(從讀題到動筆完成作答)的時間為5~6分鐘,本次實驗省去考生動筆作答改用口頭講述,因此將時間限定在3~4分鐘。

2. 作文審題構思:考生在考場完成一道作文題的審題構思時間為5~6分鐘,本次實驗省去考生實際動筆草稿寫出構思的過程改用讀題后口頭講述,因此將時間限定在2~3分鐘。

題1:2017年高考(全國卷)作文試題

閱讀下面的漫畫材料,根據要求寫一篇不少于800字的文章。

要求:結合材料的內容和寓意,選好角度,確定立意明確文體,自擬標題;不要套作,不得抄襲。

題2:2018高考(全國卷)文言文翻譯題。

將文中畫橫線的句子翻譯成白話文。

謝弘微(謝弘微:宋代名人)少孤,事兄謝曜如父,兄弟友穆之至,舉世莫及也。弘微口不言人短長,而曜好臧否人物,曜每言論,弘微常以它語亂之。

【標準答案】而謝曜喜愛褒貶人物,謝曜每每發表議論,弘微常說其他的事岔開話頭。

【評分參考】譯出大意給3分;“臧否”“亂”兩處,每譯出一處給1分。

(四)數據統計

紅外線眼動儀全過程捕捉學生的眼動軌跡,通過Eyeso眼動軟件追蹤系統生成一系列數據統計圖和統計表。

三、實驗結果分析

(一)高考(全國卷)作文試題

1. 熱點圖與總注視時間分析

本次審題過程追蹤將熱點圖的分析與被試在特定區域的總停留時間結合。熱點圖綜合了30位學生的眼動軌跡關注點,圖中顏色越深,表明關注度越高。如圖1:

由熱點圖可見,被試的關注點數量“人臉”多于“數字”,且關注55分和98分的“人臉”多于100分和61分的“人臉”。

基于熱點圖數據,在55分的“巴掌印”和98分的“巴掌印”兩個區域對全體被試的總注視時間(說明:總注視時間是30位被試在詞語上注視時間的總和)進行統計:55分的巴掌印區域總停留時間是22323ms,98分的巴掌印總停留時間是34906ms。如圖2:

上述兩個統計圖表明:被試更關注人臉的表情而非抽象的數字,關注“懲罰”的信息多于關注“獎賞”,對負面信息更敏感。

2. 注視點轉換次數分析

注視點轉換次數是指被試在不同關注區域間的切換,例如被試從“98分”上的“掌印”切換到“55分”的“掌印”。轉換過程描述了被試關注點軌跡的變化頻率和掃視的方向的變動。如表1:

AOI是指眼動實驗中的“興趣區”。即在對眼動數據進行分析的過程中,可以在測試材料上畫出一個包含實驗關鍵對象的區域,這個區域稱為“興趣區”(Areas of Interest,AOI)。AOI Group是依據實驗需要對興趣區進行的分組。由表1可見,對于不同的“興趣區”而言,98分到55分轉換為14次,55分到98分為4次。前三組圖的轉換次數差均不多于4次,但這兩組圖的轉換次數差高達10次,表明被試正在努力建立“98分”與“55分”兩個圖中要素間的聯系。

綜上所述,被試存在四個“思維動作”:

第一,對人臉上的表情關注重于對分數的關注;

第二,相比100分和61分的人臉,被試更關注98分和55分的人臉;

第三,最關注98分被打臉的圖;

第四,被試以98分這幅圖作為關注中心關聯其余三幅圖。

進而可以總結被試面對試題刺激材料有三個突出特征:

第一,關注具有異常色彩且負面的信息,如98分雖是高分卻被打臉;

第二,關注形象化的信息,如人臉的表情;

第三,建立概念關聯的過程傾向于從局部出發,從點到面,而不是優先建立全局認識。

3. 作文試題與構思的過程性思維特征

被試在進行作文試題的審題構思過程中,其思維特征主要表現為以下兩個方面:

第一,關注直觀和感性的信息;

第二,忽略影響全局的隱蔽信息。

(二)高考(全國卷)文言文翻譯題

1. 典型個案分析

被試對該句的口頭翻譯為:

謝曜喜歡好的和壞的人物,謝曜每次說話,弘微常常認為他的語言混亂。

(1)思維過程描述

被試將“好”理解為“喜歡”,“臧否”理解為“好的和壞的”,“以它語亂之”理解為“認為他的語言混亂”。

如果割裂開前后文語境,孤立觀察這個句子,或直接看被試對具體字詞的解釋,似乎存在著一定的“合理性”。這個合理性是被試“邏輯自洽”的合理性,而非試題情境下的準確理解。被試深層的認知上已經形成了一個脫離前后文語境而“自圓其說”的封閉系統。在這一系統中,被試潛意識“自信地”對每個關鍵字詞給出了“規范的解釋”。具有這類思維特征的被試可以概括為“割裂語境,自我封閉”型作答者。

(2)眼動行為觀察

從總注視時間、注視點數量、平均注視時間(說明:注視點數量是該名被試在詞語上的掃視點數目,平均注視時間是該名被試在每個詞的平均停留時間)三個維度觀察被試對前文影響句子理解的三個關鍵詞的加工情況。

為了讓實驗結果趨于完善,另選取了三個詞語補充上面的觀察結果。這三個詞語為“少孤”“如父”“舉世莫及”。這三個詞語與要求翻譯的句子內容關聯性較小,屬于邊緣詞語。但能有效觀察到被試更加全面的思維過程。

從總注視時間、注視點數量、平均注視時間三個維度觀察被試對前文語境中非關鍵的“邊緣詞語”的加工情況。

兩組數據對比可以得出:被試雖在影響句意的核心詞語上思考得更多,但在“少孤”和“舉世莫及”這兩個詞語上也分散了較多的注意力,注意力分散行為意味著被試沒有將關注重點很好地對準語段的核心詞。

2. 典型案例“畫像”

依據前述實驗結果,給“割裂語境,自我封閉”型作答者“畫像”:

第一,能在試題要求翻譯的句子前后文找到有助于作答的關鍵詞,并且給予較多的思維聚焦。

第二,雖然完成了思維聚焦,但沒有得到切合文章本意的準確解釋,在文言文向白話文轉換的過程中出現加工障礙。

第三,相比準確作答的被試,分散較多注意力資源關注前后文語境中的非關鍵性詞語,導致信息纏繞,自我干擾,最終難以得出正確的理解。

四、實驗結果分析及啟示

(一)命題構念與學生實際答題之間的契合度分析

1. 作文試題分析

高考命題人在《高考文科試題分析(2017年版)》(教育部考試中心編寫)對這道試題的構念解釋為:“本題重點考查考生寫作能力”。[5]

命題人對“寫作能力”的考查內涵進一步展開解析:“從作文材料的漫畫內容看,漫畫中的人,考生可以想到自己,也可想到某類群體,甚至可以抽象為人類這一集合概念;人物手舉的分數,不僅能理解為學業成績,也能理解為工作成績乃至團體、社會或國家的進步程度;人物臉上的唇印、掌印,除了可看成親吻、掌摑之外,還可視作一般意義的表揚與批評;而成績浮動與獎懲變化之間的多重反差對比,足以引發考生對進步與退步、表揚與批評、起點與程度、數量與質量等問題形成自己的思考與判斷”。

首先,進步與退步、表揚與批評是涉及價值判斷的核心問題。所謂價值觀,就是人們對于政治、經濟、道德、金錢等所持有的總的看法。試題作為一種特殊的教育材料,就應該讓學生思考:什么是應該肯定和贊揚的,什么是必須反對和否定的。其次,起點與程度,涉及理想信念和奮斗目標的問題。因此,這道題“看得懂、感受深、易接受”,引導學生思考、認同、踐行社會主義核心價值觀。

由于隱去原漫畫題目,材料更加直觀,避免了觀念上的直接導引,可選擇性較強。材料與學生的生活經驗緊密勾連,能切合學生的寫作實際。材料本身豐富的張力、寓意中包含的思辨色彩,尤其是“結合材料的內容和寓意”的任務要求,容易激發考生的寫作欲望,也有利于考查考生的邏輯思維能力和探究能力??梢哉f,試題力求為每一個學生都提供寫作空間,不僅考慮到不同層次、不同地域的學生,也考慮到每一個學生的寫作優勢,有利于學生寫作能力的全面考查。

按漫畫標注的組別,從上往下看,第一組,一人因得滿分受到表揚,另一人因不及格而受到批評,這是教育乃至整個社會中非常普遍的現象,并無特別之處;漫畫的意趣來自第二組的比照,第二組并非高分就表揚,低分就批評,而恰是相反。這樣,寓意就出來了,人們總是以某一尺度去衡量評價,達到最高標準就獲得高度肯定,達不到最低標準就會受到批評;人們往往又將這種標準固定下來,要求高分者恒高,低分者不斷進步;這種機械化且不切實際的思維方式需要反思,正如唯分數論的評價體系必須批判。

如果忽略組別,從左往右看漫畫,右邊人的分數由55到61,雖只有6分的進步,但由批評轉為表揚,左邊人的分數由100降為98,卻由表揚變為批評:低分者取得進步值得表揚,但滿分者變為98分就遭受批評,這就提供了另一思考角度,事物起始階段都有發展空間,但到一定高度后,其提升空間就會越來越狹小。如何看待事物達到一定高度后的發展態勢,并為其提供更好的發展可能,這需要具體問題具體分析。寫作的重點還可以放在如何辯證看待進步與退步上,而如果敢于突破,這個立意還可以寫成記敘文或小小說。

甚至也可以交叉地看漫畫。100分和61分得到表揚,98分和55分受到批評,前者我們能夠接受,因為分別達到了最高標準和最低要求,但98分就受批評則毫無道理,因為機械地拿同一個標準去衡量處于不同發展階段的事物,這是不應該的?!盵5]

綜上所述,可以將這道高考漫畫作文題的考查構念凝練為三個方面:價值判斷;分析抽象概念;辯證解讀概念關系。

但從前面的實驗結果可以發現,被試考生更多地關注了漫畫上的人臉信息,集中關注了漫畫上“98分被打臉”的信息,而沒有將“98、61、100、59”四個抽象數字綜合聯系,更缺乏將四個抽象數字與漫畫上“打臉”和“親吻”的符號進行辯證關聯。造成這種偏差的內在原因有兩個。第一,命題者以成年人的理性視角高估考生的認知水平。這在前文引用的《高考試題分析》中已經有明確的體現:“如果忽略組別,從左往右看漫畫,右邊人的分數由55到61,雖只有6分的進步,但由批評轉為表揚,左邊人的分數由100降為98,卻由表揚變為批評:低分者取得進步值得表揚,但滿分者變為98分就遭受批評,這就提供了另一思考角度,事物起始階段都有發展空間,但到一定高度后,其提升空間就會越來越狹小?!边@段話表明命題者以分數值這一抽象概念作為分析漫畫的出發點。第二,考生雖然處于步入成年階段的臨界點,但其思維的成熟度還遠遠未達到完成理性分析問題的階段,更多的思考方式仍然以感性認識作為基本的出發點。

綜上所述,命題者構念的三個方面所生成的三個測試點與被試考生的思維特征不能準確對接。由于在被試接受刺激材料后的反應與試題期待的考查點發生偏移,導致這道試題的內容效度較低。如圖3:

(二)高考(全國卷)文言文試題分析

高考命題人在《高考文科試題分析(2018年版)》對這道高考試題的命題立意解析是:“本題考查考生對文言文的理解和翻譯的能力?!盵6]命題人對此進一步展開解析:“理解是文言文翻譯的基礎,而對文意的理解又取決于對文中關鍵詞語的理解?!}中的關鍵詞語有‘臧否‘亂兩處?!胺裨干茞?,引申為褒貶人物、評論優劣,‘亂是干擾、擾亂,文中指用其他的話,岔開話題”。[6]由此可見這道試題的構念為:對文言文語段大意的理解和對文言語段中關鍵詞語的理解。

從前面的實驗結果可以看到:被試能依據所翻譯任務從前文語境中找到有價值信息作為理解所譯句子字詞的憑借,但對文意的理解出現了較大的偏差,表明被試解釋刺激材料的關鍵信息時出現了錯誤。此外,被試對句子中關鍵詞的理解也出現了明顯的錯誤,這表明甄別與整合材料關鍵信息的環節上沒有順利完成任務。如圖4:

從命題構念上看,本道試題所考查的兩個方面:對文意的理解和對文中關鍵字詞的理解,均很好地對應了考生作答時的反應。被試考生的答題失誤恰恰體現出了在這兩方面暴露的能力缺陷。因此可以認定這道試題具有較高的效度。

綜上所述,提升試題內容效度切實可行的路徑是對考生進行“回測”,對答題過程進行模擬的過程性觀察,從而發現被試考生面對特定試題刺激材料的反應與試題考查點、試題構念是否對應。

(二)改進建議

1. 試題設計上減少“噪聲”

將高考(全國卷)作文試題與高考(全國卷)文言文翻譯題對比,可以發現:文言文翻譯題的試題材料設計更簡潔,考查目標更集中,試題要求更明確。而作文試題則由于漫畫呈現形式導致命題初衷與考生實際反應相背離。為了提升試題的內容效度,建議命題者在試題材料設計上著力于減少“噪聲”。

以作文試題為例。由上述實驗結果可知,被試首先關注的是人臉,而非試題中隱藏的抽象概念。正因被試的這一思維特征導致其他命題構念難以有效實現。因此提升試題效度可以將漫畫變為兩段文字材料:

甲同學說:我這次考了98分,比上次退步了兩分,被批評了。

乙同學說:我這次考了61分,比上次進步了兩分,被表揚了。

這樣修改后減少了圖像直觀信息的干擾,讓不同層次的考生都能關注材料中的基本概念:“98,61”,“進步,退步”,“批評,表揚”,從而與試題的命題構念:“價值判斷;分析抽象概念;辯證解讀概念關系”密切對應。

綜上所述,減少試題“噪聲”提升試題內容效度的路徑為:從命題構念出發,推測考生面對試題材料可能產生的偏離表現,從而簡化試題材料使考查測試點清晰呈現,確保答題要求能準確對應試題構念的基本組成要素。

2.在日常教學中以被評價者視角增強“評價對焦”

將上述實驗結果推廣到教師的日常教學中。如能更多依據學生模擬測試的過程性數據,以及過程性數據形成的有價值的經驗沉淀來調整評價者的視角,從而達到評價者與被評價者“對焦”,應是提升評價精準度的有效路徑。

以前文所述的高考(全國卷)漫畫作文試題為例。如果將這道試題作為日常教學的練習題,為提升評價精準度,“首先在教師這一端需要用批判性思維審視自己的理念、自己的教學設計”[7]。教師在施測前應考慮:“教師的‘教學腦所形成的教學信念、教學邏輯是否有值得修正和完善之處?教師在指導學生運用批判性思維展開閱讀和寫作的過程中,是否有‘值得批判之處?教師的教學設計是否能夠在充分研究學情、彌合認知落差的基礎上優化?”[7]

帶著這樣的思考,教師對被試學生的認知視角做出預測,同時也可以搜集學生的答題個案,先進行模擬測試,以驗證自己的預測。這樣做的目的是修正脫離學生認知視線的“成人化”設計。仍以這道作文題為例,教師基于過程性評價視角可以將評價點確定為:

要素提?。簩W生描述并比較人臉上的表情變化;

要素含義:學生分析受到獎懲后的喜和悲,以及對每幅畫中人自我認識產生的影響。

這兩個評價點從最直觀的信息“人臉上表情變化”入手,并提取出最直接的含義“喜和悲”從而深入挖掘對自身的認識。將學生普遍關注的人臉信息作為思考的起點,將對人臉表情變化背后的個體影響作為思考的落點,符合學生的認知視線。由此,在切合學生認知視角的前提下,讓試題本身的考查點能與之“對焦”。

綜上所述,教師在日常教學評價中,應更多考慮學生的思維生成過程與評價材料之間的互動關系,找到學生認知視角與評價材料測量目的之間的契合點,從而設計出符合學生認知視角的評價方案。

參考文獻:

[1] 汪亮.人類視覺的眼球運動機制[J].高??萍?,2014,(20):185.

[2] 萬春蓮.基于交互指標工作負荷的垂直碰撞風險模型[J].濱州學院學報,2016,32(02):20-21.

[3] 郭明濤.不同工作記憶輔導員對情緒面孔的注意偏向[J].文學教育(下),2016,(10):152-153.

[4] 劉麗萍,劉海健,胡笑羽等. SWIFT-Ⅱ:閱讀中眼跳發生的動力學模型[J].心理與行為研究,2006,(03):230-235.

[5] 教育部考試中心.高考文科試題分析:2017年版.語文數學英語分冊[M]中國版本圖書館CIP數據核字(2016)第286981號.北京:高等教育出版社,2016:38-39.

[6] 教育部考試中心.高考文科試題分析:2018年版.語文數學英語分冊[M]中國版本圖書館CIP數據核字(2017)第277275號.北京:高等教育出版社,2017:25.

[7] 余航.中學語文答題診斷術:作文教學探案集[M].中國版本圖書館CIP數據核字(2019)第107020號.福建:海峽文藝出版社,2019:27.

Accumulating Evidence of Content Validity by Tracking the Eye Movements of Students' Answers:A Case Study of Chinese Test in College Entrance Examination

Yu Hang

Fujian Hua'an Zhengxing School,Zhangzhou,Fujian,363000

Abstract:How to evaluate the validity effectively is an important issue in educational measurement. In order to effectively evaluate the validity of high-stake examinations such as high school entrance examination and college entrance examination,taking Chinese subject as an example,the infrared eye tracker was used in the process of students answering the questions in previous years to track the requirements of students' reading questions and the thinking track of students' answering,so as to portray the thinking process of students' answering questions. The eye tracker monitors a series of psychological reaction data in the process of answering questions and later student interview records to generate psychological reaction samples for answering questions. These data samples are compared with the targets expected to be measured by the proposer(taking the college entrance examination Chinese as an example). After comparison,it is found that there is a large deviation between the knowledge points and ability points expected to be measured in some test questions and the actual psychological reaction of students. A relatively perfect testing system for the validity of test questions is established from the relevant data of the subjects' eye movement tracks and psychological reactions when they are faced with different stimulus materials. Based on the study of data samples,the paper puts forward some suggestions for the optimization and improvement of test questions.

Key words:Eye Movement Track,Psychological Reaction,Chinese Test of College Entrance Examination,Content Validity

(責任編輯:陳暢)

作者簡介? 余航,高級教師,福建省華安正興學校。福建省漳州市,363000。

猜你喜歡
內容效度
COSMIN方法介紹:評價患者報告結局測量工具內容效度的評分系統
新高考下浙江高考英語聽力與新托福聽力的對比研究
2015—2017研究生英語入學考試(一)閱讀部分內容效度研究
廣西普通高中學生學業水平考試英語書面表達內容效度研究
TEM4閱讀題型的內容效度研究
英語專八閱讀理解部分內容效度的歷時對比研究(2009—2017年)
英語專業八級考試閱讀理解的效度研究
大學英語新四級閱讀理解內容效度研究
基于新課標的高考英語寫作題型內容效度研究
浙江省2008—2012年高考英語完形填空測試內容效度研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合