?

基于COPES 理論預測網絡學習中的鉆牛角尖*

2024-01-02 14:30龔科劉玉張藝紅李俊一
應用心理學 2023年6期
關鍵詞:解釋性鉆牛角尖元認知

龔科 劉玉 張藝紅 李俊一

(四川師范大學心理學院,成都 610066)

1 引言

1.1 鉆牛角尖定義

堅持性、盡責性和自我控制通常被認為是優秀學生的必備品質。它們與學生的學業成績、創造力以及未來收入呈正相關(Credé et al.,2017)。然而,并非所有的堅持都有效,有些學生努力學習卻不見成效。Beck 和Gong(2013)最早在智能導學系統(Intelligent Tutor System,ITS)中發現了一種無效的堅持行為,并取名為wheel-spinning。我們將其意譯為鉆牛角尖,指學生花費大量時間在某個知識點的學習上,但始終達不到掌握,他習慣不假思索地連續答題,既不停下反思,也不尋求幫助。對鉆牛角尖的操作定義有很多,如Beck 和Gong(2013)在ASSISTments 平臺上,將學生連續答題十次以上卻沒有掌握該技能的行為標記為鉆牛角尖,并發現約38%的學生存在鉆牛角尖。對于“達到掌握”的標準,ASSISTments 平臺將連續正確回答3 次問題視為“達到掌握”。在一款名為Cognitive Tutor 的ITS 中,通過貝葉斯知識追蹤(Bayesian Knowledge Tracing,BKT)對學生的知識掌握情況進行推算,熟練度大于95%則視為“達到掌握”。無論采用哪種操作定義,鉆牛角尖都普遍存在,且常伴隨學業不良現象。該行為不僅影響學習效果和自我效能感,且學生更難進入大學深造(Adjei et al.,2021)。本研究則將鉆牛角尖定義為學生在某個問題集(problem set)上回答十次或以上,仍未達到掌握且不向系統求助。根據本文所用ITS 特性,一個問題集對應十個問題,故將十次設為臨界點;該定義也是沿用領域內對鉆牛角尖的經典操作定義。

1.2 鉆牛角尖預測研究

為幫助學習者達到更好學習效果,提升自學能力,許多人試圖實現鉆牛角尖的自動預測。Kai 等(2018)運用決策樹對學生在ITS 中的答題行為序列進行建模,最終模型的AUC(評價模型效果的主要指標,越接近1 預測效果越好)達到0.684,發現較少使用系統提示功能的學生更可能鉆牛角尖。Zhang 等(2019)發現學生的答題速度、注意力與鉆牛角尖關聯很強,學生不愿停下反思而是不斷答題,導致無法掌握知識點。雖然前人運用機器學習預測鉆牛角尖的精度和速度逐步提高,但這些研究尚存在諸多問題。首先,前人更加注重模型預測效果,忽略了模型可解釋性;導致不清楚鉆牛角尖的內在機制,無法開展有針對性的干預。其次,特征工程未充分考慮特征的可操控性(actionable features),無法用于進一步的干預工作。最后,大多數研究是以問題集為水平(problem-set level)進行建模,沒有考慮學生的個體特征。

1.3 鉆牛角尖潛在心理機制

造成以上問題的重要原因是以往研究通常是數據驅動,缺乏心理學理論指導。Beck 等人(2014)認為鉆牛角尖的內在機制可能與學生的認知/元認知有關。在元認知領域,Winne 和Hadwin 提出的COPES模型(1998)得到廣泛認可。該理論將學習過程簡化為四個階段:任務定義、目標設定和計劃、學習策略使用及元認知適應。每一階段又包含五個內部過程,即條件(conditions)、認知操作(operations)、產物(products)、評估(evaluations)和標準(standards)。每一階段都處于元認知監控之下。即元認知監控處于核心地位,并主導著學生的自我調節。

鉆牛角尖的學生鍥而不舍地投入認知資源,卻難以獲得更多的學習收益。盡管他們顯示出一定程度的自我調節(受挫后繼續),但收效甚微。我們認為可能的機制之一是COPES 模型中的認知操作不當導致元認知監控水平降低,在行為上表現為刻板地調用某種學習策略。龔德英等(2008)的研究表明元認知能力較強的學生其遷移能力更強,能更順利地調用學習策略實現自我調節,并進入元認知適應階段。

學業水平較高的學生其學習前后的認知評估都能準確預測其成績,而學業水平較低的學生學習前進行的認知評估對其成績的預測能力明顯低于學習后進行的認知評估(Hacker et al.,2000)。因為學生在認知評估時,是基于COPES 理論中條件形成的任務感知與信念(Greene &Azevedo,2007),這表明COPES 理論中的條件對認知操作有著重要影響。實際上,認知操作過程是SMART 過程(Winne,2022),即當學生接收到外界材料刺激時,他們的腦海中會提取相應的陳述性知識和程序性知識(task conditions),以形成對任務的感知,進而制定目標和學習策略。例如,當項目難度提升時,元認知監控能力明顯下降(Kai et al.,2018)。學生可能難以提取或錯誤提取完成當前項目所需要的條件,這使得他們的元認知監控能力受到顯著影響??傮w來說,鉆牛角尖的潛在機制可能是認知操作不當導致元認知監控下降,條件起到了重要的調節作用。

1.4 Reasoning Mind

雖然COPES 理論已得到問卷調查和實驗研究的支持,但來自教育大數據的證據相對較少,其生態效度需進一步提升。我們在一款名為Reasoning Mind 的ITS(如圖1)收集實際教學的大數據以開展鉆牛角尖預測研究并檢驗COPES 的生態效度。該系統針對美國小學生的數學教學,每年有超過10 萬名學生在學校課堂中使用它進行混合學習并取得良好成效(Slater et al.,2018)。Reasoning Mind 內置多個功能模塊,例如:(1)Guided study,主要用于課堂教學的模塊;(2)Game room,類似游戲競賽的速度測驗;(3)Mail box,學生與教學代理互動的郵件系統。一般來講,參與正常教學的學生在整學年中會使用Reasoning Mind 至少84 個小時,每周約2 小時。

1.5 小結

綜上所述,前人研究尚存在機器學習模型可解釋性差、特征可操控性不強、未充分考慮學生的個體特征以及缺乏理論支撐等問題。對此,本研究以學生為水平對日志數據進行操控性較強的特征工程,提取與認知/元認知有關的特征,以增強模型可解釋性。并基于COPES 理論對模型結果進行解釋,使未來的干預研究有理論基礎且具備較好操控性。

2 方 法

首先,收集并清洗學生在ITS 中的日志數據;其次,根據對鉆牛角尖操作定義(見2.2 部分)對學生出現鉆牛角尖的次數進行標記;然后,以學生為單位將與認知/元認知監控相關的特征數據化;最后,采用機器學習的回歸類算法和交互驗證,構建預測學生鉆牛角尖次數的模型。

2.1 數據來源

所用日志數據來源于Reasoning Mind。它包含多個學習模塊和一個虛擬游戲社區,提供課堂教學、鞏固練習、奧數、家庭作業布置和教學代理支持等功能。我們收集了來自229 所學校二至六年級小學生從2016年8 月至2017 年6 月的原始日志數據。數據包含學號、操作行為、時間戳、答題記錄、是否使用提示和提示的粒度數等,共包含29483 名學生產生的197530625 條記錄。

2.2 數據預處理

首先,根據鉆牛角尖的操作性定義,即在一個問題集中回答十次問題仍達不到掌握,剔除回答次數少于十次的無效問題集,剩余26593 名學生的174579250 行記錄,包含227 所學校的7876 名二年級生,7105名三年級生,6634 名四年級生,4812 名五年級生和166 名六年級生。其次,通過BKT算法,根據學生在每個知識點的首次作答情況,推算學生“達到掌握”的概率(Corbett&Anderson,1995),便于后續提取與認知/元認知有關的特征。

2.3 特征工程

特征工程優先考慮模型可解釋性和特征的可操控性,參考前人研究、理論和系統特性提取了25 個特征(附錄1),包括但不限于任務完成時間、提示次數和求助后停留時間等。其中,“二次嘗試”“觸底提示”“嘗試難題”“回避求助且答對”“回避求助且答錯”“求助后短停留和長停留且答對”“求助后短停留和長停留且答錯”“答錯后停留時間”“超50 詞郵件”“超過6s 且答錯”等特征不僅與元認知監控過程和學習策略使用階段密切相關,還受到條件和認知操作的影響。例如,學習者根據自身知識水平(條件)判斷當前題目難度并選擇相應學習策略,根據元認知監測結果調整認知操作,重新制定學習策略(如“二次嘗試”“嘗試難題”“回避求助”等)。另外,鉆牛角尖的重要表現是拒絕反思,我們據此納入了6 個可能標示學習者進行反思的特征(即“求助后長/短停留且答對/答錯”“答錯后停留時間”“超50 詞郵件”)。此外,答題時間、答題正確率、裝飾花費、連續正確回答和電子書花費等特征具備較好可操控性,后期干預可以從這些特征入手。

2.4 建模過程

以往研究通常按鉆牛角尖的出現與否對學生進行簡單分類,這將偶爾鉆牛角尖和經常鉆牛角尖行為的學生混淆在一起,容易出現樣本不平衡,即絕大部分學生會被判定為鉆牛角尖群體,因為鉆牛角尖僅1 次的學生也會被歸為該群體。這種簡單二分法不利于對鉆牛角尖的深度理解和干預。因此,我們采用回歸法預測學生鉆牛角尖的次數。

通過Python 的scikit-learn 進行機器學習建模。為保證模型可解釋性,未涉及深度學習,而采用教育數據挖掘常規算法,即線性回歸、隨機森林回歸、梯度提升決策樹回歸(gradient boosting regressor)、嶺回歸、Lasso、決策樹和極限樹預測學生的鉆牛角尖次數。用十折交叉驗證對模型進行訓練和評估,即把數據隨機分割為10 份,其中9 份用于訓練,剩余1 份用于評估;據此迭代10 次,得到10 份模型的評估指標,隨后對這10 份評估指標進行平均,獲得模型最終評估指標。最后,選用R2,MSE(均方誤差),RMSE(均方根誤差)和MAE(平均絕對誤差)作為模型評價指標。

3 結果

將元認知監控相關特征和可操控性特征分為兩組計算兩兩相關,圖2 和3 呈現了經過False discovery rate 程序校正后的結果。對元認知監控特征,“超過6s 且答錯”“求助后長停留且答錯”“求助后短停留且答錯”“鉆牛角尖次數”有高相關。對可操控性特征,系統使用的“總時長”“總操作數”“答題時間總和”“鉆牛角尖次數”有高相關。這和鉆牛角尖的定義相似。

圖2 元認知監控特征之間的相關熱力圖

圖3 可操控性特征之間的相關熱力圖

另外,將學生在Guided study(課堂教學使用的主要模塊)的答題正確率按前后27%分為高低學業成就組,對比兩組學生在所有元認知監控特征和鉆牛角尖次數上的顯著差異(附錄2)。結果發現,高成就組的鉆牛角尖次數顯著少于低成就組,在回避求助和答題后停留等特征上兩組也存在顯著差異。

表1 呈現了鉆牛角尖模型的預測效果,線性回歸、隨機森林回歸、梯度提升決策樹回歸、嶺回歸和Lasso 的各項指標表現較好,且較為接近。其中,嶺回歸的預測效果最好,擁有最大R2和最小RMSE、MSE,而決策樹和極限樹的預測能力較差。

表1 鉆牛角尖預測模型的效果

進一步對排名前五的模型進行性能分析,將鉆牛角尖次數的實際值與預測值進行可視化(如圖4)。設置散點圖的橫軸為預測值,縱軸為實際值。散點越接近斜45°線,代表誤差越小,預測效果越準確。五種模型預測結果分布類似,誤差在可接受范圍之內,都可進行有效預測。

圖4 回歸模型性能可視化

為探究哪些特征對鉆牛角尖的影響最大。通過scikit-learn 的內置函數計算了各模型的特征重要性,并列出了表現較好的五個模型中的前五個重要特征(附錄3)。重點關注在所有模型均占據重要位置的特征,便于后續對模型解讀。

4 討論

基于26593 名小學生在ITS 中的日志數據,用機器學習對學生在ITS 中的鉆牛角尖進行了預測。嶺回歸的預測效果最佳,但線性回歸、梯度提升決策樹回歸、隨機森林和Lasso 的各項指標也表現良好且接近,經交叉驗證的R2均值接近0.68~0.7。在多個模型中反復出現的重要特征有“二次嘗試”“連續5 次答對(跨問題集)”“超過6s且答錯”“超50 詞郵件”“嘗試難題”。

4.1 模型預測效果與可解釋性

以往研究常使用分類模型,達到了很高的預測準確率和速度(Wang et al.,2020),并實現了自動反饋(Mu et al.,2020);但將學生簡單貼上“鉆牛角尖”和“不鉆牛角尖”標簽,可能導致教師或學生就接受了模型賦予的標簽,產生期望效應;也有把偶爾鉆牛角尖的學生認定為“差生”的風險。故本研究選擇回歸類方法避免上述問題,也達到較好預測效果,最佳模型的R2較高,各誤差指標也處于較低水平。

另外,教學實踐對模型預測速度和精度有很高要求,但其可解釋性難免會被犧牲,這也是領域“重數據輕理論”的現狀,鉆牛角尖心理機制始終無法明晰。雖然本文未直接運用實驗法對鉆牛角尖心理機制進行因果關系探究,但從特征工程到建模結果皆注重COPES 理論指導,以提升模型可解釋性。不過這也使得我們沒能嘗試深度學習這類預測精度可能更高的算法,削弱了模型預測效果??傊?,如何在理論與應用,或者模型可解釋性與預測效果之間取舍權衡值得未來探討。

4.2 基于COPES 的建模結果解釋

以往研究考察了不同情境下學習者的表現,如有時間壓力時他們傾向選擇容易項目,無時間壓力時則學習困難項目(Winne&Jamieson-Noel,2003)。在COPES理論看來,時間壓力和項目難度是調節學習行為的條件之一,學習者能在不同條件下選擇適當學習策略意味著元認知監控成功。本文則關注元認知監控失敗。Almeda等(2017)指出學習者在面對難題時,元認知監控下降,更愿采取不間斷學習的策略(Lisa&Son,2004)。這反映困難項目與元認知監控有負向關系。本文結果顯示,學習者的“嘗試難題”占比越高,越可能鉆牛角尖,面臨元認知監控失敗風險。

答題“超過6s 且答錯”可能反映學習者先驗知識不足,它正向預測鉆牛角尖。前人研究已證實先驗知識不同的人在認知加工策略上的差異,如專家使用深層策略、新手使用表面策略(Alexander et al.,2004)。作為COPES 中的認知條件,先驗知識影響著學習任務的難度判斷,進而干擾認知操作和元認知監控(表現為鉆牛角尖)。我們發現,高低學業成就組在“回避求助且答錯”和“鉆牛角尖次數”等變量上均存在顯著差異。同時,“超過6s 且答錯”也正向預測鉆牛角尖,支持了前人結論(Wan &Beck,2015)。

反思或審視學習過程是COPES 中元認知監控過程和元認知適應階段的重要功能,也是鉆牛角尖學生的短板?!岸螄L試”和“超50 詞郵件”在所有模型中均占據重要位置,且和鉆牛角尖呈負相關,可能反映了反思或審視功能。有學者發現準確進行學習判斷(元認知監測指標)的學生更愿意花時間重新學習錯題(Robey et al.,2017),記憶信息的重編為元認知監控提供了學習判斷的依據(Zawadzka et al.,2018)。再次嘗試做錯的題也是重新學習,由COPES 中的元認知評估過程負責。我們發現,高成就學生向教學代理寫的“超50 詞郵件”顯著多于低成就學生,可能表明高成就組的反思過程更多。不過,低成就組的“二次嘗試”顯著多于高成就組,這可能因為我們劃分高低成就的依據是學生在課堂中使用Guided study 模塊的正確率,正確率低的學生自然就會被教師要求對錯題進行二次嘗試,可能并不表明低成就學生的反思能力強于高成就組。如果以學生的期末成績為劃分依據的話,可能有不同結果。

給教學代理寫郵件是涵蓋反思、求助和總結等過程的自發行為。從元認知適應角度,Winne 和Hadwin(1998)認為學習者需要整合學習階段信息用來調整先前經驗下的認知和元認知操作形式,更好應對未來相似的任務。從元認知監控角度,反思幫助學習者有效利用資源(Chen et al.,2017),善于利用資源求助的人自我調節能力通常更強(Ryan&Shin,2011);不善于求助的兒童元認知監控水平通常較低(Nelson &Fyfe,2019)。上述研究表明反思和求助行為與高元認知監控相關。本文結果顯示給教學代理寫“超50 詞郵件”負向預測鉆牛角尖,也支持COPES 理論。

4.3 研究局限與貢獻

盡管本研究發現與元認知監控有關的特征能夠很好地預測鉆牛角尖,但存在一些局限:第一,部分特征無法很好地從認知/元認知角度解釋為何會對鉆牛角尖造成影響。第二,模型效果還有待提高。第三,以學生為水平的建模不能夠開展實時監測。第四,元認知可能隨年齡發展而提升,但我們未對不同年級學生單獨建模,故模型效果可能略有不同。但也有研究表明童年中期已擁有與成年期相當的元認知能力(Liu et al.,2018),且本研究高年級生(五至六年級)占比不足20%,不同年齡群體的元認知差異可能對建模結果影響有限。未來可嘗試通過深度學習,實現快速而精準的檢測;還可提取更多與元認知監控相關的特征完善模型的可解釋性。

雖然存在以上局限,但本文也從以下方面對領域做了貢獻:第一,從“理論驅動”視角嘗試鉆牛角尖的建模與解釋,避免以往研究“重數據輕理論”導向。第二,以實際教學生成的教育大數據驗證COPES 理論,提升生態效度;第三,以往研究通常以幾十至數百人的日志數據建模,而本文數據體量是以往研究的數十倍甚至百倍,提升了建模結果穩健性。第四,不再以二分類模型簡單對學生貼上“鉆牛角尖”和“不鉆牛角尖”標簽,而運用回歸方法預測鉆牛角尖的程度,避免后期讓教師和干預實施者對學生產生期望效應。

5 結論與展望

嶺回歸能最佳預測鉆牛角尖,與認知/元認知有關的特征與鉆牛角尖密切相關,支持了COPES 理論。

未來研究和設計者應重視學生的元認知監控,目前國內外少有ITS 專門針對學生的元認知能力進行訓練。ITS 設計可以增加鉆牛角尖的預警和干預模塊,實時監測便于及時干預。如通過系統推送和教師干預來引導學習行為。也可針對ITS 的求助提示和答題思路開發教程,避免鉆牛角尖?;蛘弋攲W生鉆牛角尖時,系統可以更換當前的習題集,避免學生陷入困難,使其一直處于最近發展區中。

致 謝

賓夕法尼亞大學的Ryan Baker 教授、Jaclyn Ocumpaugh、Stefan Slater 博士以及Reasoning Mind 的Mattthew Labrum 提供了本研究數據,在此表示誠摯的感謝。

猜你喜歡
解釋性鉆牛角尖元認知
基于元認知的數學焦慮研究
論行政自由裁量的“解釋性控權”
英漢互譯中的認知隱喻翻譯探究
元認知策略在高中英語閱讀教學中的應用
破綻百出的敘述
融媒體時代解釋性報道的發展之路
瀟灑才年輕
非解釋性憲法適用論
瀟灑才年輕
元認知在大學英語教改中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合