?

面向個性化學習的認知診斷模型及其應用綜述

2021-11-22 08:56黃卓軒唐文勝
計算機技術與發展 2021年11期
關鍵詞:主觀題分組建模

馬 華,黃卓軒,唐文勝

(湖南師范大學 信息科學與工程學院,湖南 長沙 410081)

0 引 言

教育大數據背景下針對學生特點進行個性化教育以實現因材施教,是當前智慧教育研究的一個重要方向。近年來在線教育和各大在線學習平臺發展迅猛,推動了在線學習的大規模普及[1-2]。隨著在線學習平臺中學習資源的日益豐富,如何為學生提供個性化的學習服務變得日益重要?;趯W生的在線學習數據,借助教育數據挖掘(educational data mining,EDM)的技術手段對學生進行學習狀況的分析,針對學生的實際特點進行個性化學習的準確推薦,以實現因材施教,是當前的一個重要研究熱點[3]。為了實現對學生的個性化學習指導,首先需要鑒別學生當前的學習狀態[4]。傳統的教學方法依靠教師經驗進行判斷,不僅需要耗費大量的時間和精力,也難以保證評價結果的準確度,更不適合在線學習環境下學生規模急劇增加的應用場景。

為此,研究者嘗試引入教育心理學中的認知診斷(cognitive diagnosis,CD)方法刻畫學生的學習狀態。認知診斷的關鍵是構建反映學生問題解決過程的Q矩陣并選用適當的認知診斷模型(CD models,CDMs)對學生進行建模。由于能夠較好地從知識點層面分析學生的認知狀態,CDM已在國內外受到廣泛關注,研究者對傳統的CDM,即項目反應理論(item response theory,IRT)[5]和DINA(deterministic inputs,noisy and-gate)模型[6]進行了深入分析,并針對其不足提出了HO-DINA[7]、P-DINA[8]、FuzzyCDF[9]和R-FuzzyCDF[10]等改進模型。

借助于CDM來準確鑒別學生當前的認知狀態,是實現個性化學習指導的前提。為更好地幫助學生開展個性化學習,國內外學者結合在線學習背景進行了認知診斷模型在實際教學中的應用研究,目前已在學生考試成績預測(predicting examinee performance,PEP)[9-10]、個性化學習資源推薦[11]和協同學習小組構建[12]等方面進行了諸多探索。

現有成果對于推動智慧教育環境下針對學生特點進行個性化教育以實現因材施教具有重要的現實意義。因此,通過文獻分析,文中梳理了當前面向在線個性化學習的認知診斷模型及其應用的研究進展,分析了認知診斷模型在個性化學習中的未來研究方向,以期為相關研究者提供借鑒與參考。

1 認知診斷模型的研究進展

心理與教育測量中,對個體的認知過程、加工技能或知識結構的診斷評估被稱為認知診斷[4]。在認知心理學和心理測量學理論基礎上,人們提出了具有認知診斷功能的心理計量模型,即CDM。CDM可分為離散型和連續型兩種類型,各自最具有代表性的是IRT和DINA模型。其中,IRT[5]將學生的認知狀態描述成一維的能力值,并結合難度、區分度等試題參數對學生進行建模。而DINA模型[6]結合Q矩陣使用一個涉及多維知識點的向量來描述學生實體。

1.1 項目反應理論

IRT假設每個學生都有一種獨特的“潛在特質”,即每個學生都有自己的潛在能力。通過學生在具有區分度、難度等特征的試題上的做題情況,IRT可以將學生建模為一維的連續能力值。該理論的雙參數反應模型表達式[5]為:

(1)

其中,P(Xij=1|θ)表示潛在特質水平為θ的學生i答對試題j的概率;a為知識點區分度參數;b為知識點的難度參數;D是經驗參數,通常取值為-1.7[13]。

IRT構建于嚴謹而復雜的數學模型之上,在一些大型考試和傳統的智力測驗中得到推廣應用,但是,IRT也存在明顯不足,例如單維性(即測驗測量的是單一潛在特質)假定難以滿足、計算復雜、對測驗條件要求較嚴格(即需要較大的樣本容量、較廣的被試能力分布范圍、較多的試題數量)等。

1.2 DINA模型

不同于IRT,DINA模型不僅將學生在試題上的作答情況作為輸入,同時結合試題知識點關聯矩陣(Q矩陣),將學生建模成一個在多維知識點上的掌握向量,其中Q矩陣表示試題與考察的知識點的關聯矩陣。具體地,在已知學生i的知識點掌握向量αi={αi1,αi2,…,αik}的情況下,可根據式(2)計算學生i對試題j的掌握程度:

(2)

其中,qjk表示試題j是否考察了知識點k(1代表已考察,0代表未考察),ηij=0表示學生i無法正確回答試題j,ηij=1則認為學生i可以正確回答試題j。

然而,傳統的DINA模型也存在一定缺陷,為全面掌握學生的學習情況,以有效指導學生的個性化學習,近年來國內外研究者對DINA模型進了多種改進探索。

1.3 改進的DINA模型

現有改進的DINA模型主要可分為以下三類:

(1)改進評分機制的DINA模型。針對DINA模型僅適應于包含0分和滿分的兩級0-1評分機制的不足,徐冬波等人[8]開發了支持多級評分的P-DINA模型,可適應從0分到滿分區間內共(滿分+1)種不同的評分類別,計算公式如下:

P(Yij=t|αi)=P*(Yij=t|αi)-

P*(Yij=t+1|αi)

(3)

其中,P(Yij=t|αi)表示學生i的認知狀態為αi時在試題j上恰得t分的概率,P*(Yij=t|αi)表示學生i的認知狀態為αi時在試題j上得t分及t分以上的概率,P*(Yij=t+1|αi)表示學生i的認知狀態為αi時在試題j上得t+1分及t+1分以上的概率。

針對P-DINA模型下學生的得分可能被推向0分或滿分兩個極端,蔡艷等人[14]提出了rP-DINA模型,通過學生的認知狀態α和試題與知識點的關系向量qj對學生的理想得分進行重新構造,可支持從0分到滿分的各種理想得分。具體計算公式如下:

(4)

(2)增加主觀題診斷的DINA模型。傳統DINA模型只針對客觀題進行診斷,即答案只有對和錯兩種結果,未考慮學生在主觀題上的答題情況。針對傳統DINA模型無法有效診斷主觀題的問題,Wu等人[9]提出了一種面向學生個性化學習的模糊認知診斷分析框架(fuzzy CD framework,FuzzyCDF)。首先利用IRT的雙參數反應模型表達式計算學生對于知識點的認知狀態,即將學生對于知識點的認知能力表示為模糊集合的隸屬度(即一個[0, 1]范圍內的實數),之后采用模糊交和模糊并來建??陀^題和主觀題的認知作答模式。具體地,FuzzyCDF[9]認為學生對客觀題和主觀題的掌握程度分別是連接型(conjunctive)和補償型(compensatory)。對于客觀題,學生只有掌握了試題考察的所有知識點才能掌握該試題,而對于主觀題,學生掌握的知識點越多,其對主觀題的掌握程度也就越高,進而在主觀題上的得分也就越高,計算公式如下:

(5)

(6)

其中,ηij表示學生i在試題j上的掌握程度,αk(i)表示學生i在知識點k上的掌握程度,qjk表示試題j是否考察了知識點k,1代表已考察,0代表未考察,∩和∪分別表示模糊理論中的模糊交和模糊并,具體的計算公式如下:

(A∩B)(x)=min(A(x),B(x))

(7)

(A∪B)(x)=max(A(x),B(x))

(8)

其中,式(7)針對客觀題,式(8)針對主觀題。

李憂喜等人[10]在FuzzyCDF的基礎上提出R-FuzzyCDF模型,它在知識點的掌握程度中引入了知識點重要性因子,將知識點的重要程度與其后繼知識點的個數以及相關的試題數量關聯起來,具體計算公式如下:

(9)

此外,R-FuzzyCDF還重新定義了學生對于主觀題掌握程度的計算公式,具體如下:

(10)

其中,ηij表示學生i在試題j上的掌握程度,i(k)表示學生i對于知識點k的掌握程度,qjk表示試題j是否考察了知識點k(1代表已考察,0代表未考察),∑i1≤k≤K,qji=1(k)表示學生i對試題j所涉及到的所有知識點的掌握程度的和,分母表示試題j考察的知識點數量。該模型進一步提升了認知診斷模型的準確率,但增加參數數量加重了計算負擔。

(3)高維CDM。為描述CDM中多個潛在特質之間可能存在的結構關系,研究者們開發了高階認知診斷模型。針對CDM中被測試者對屬性的掌握可能受到一個(或多個)更高階的潛在特質的影響且為減少參數估計的數量,De la Torre和Douglas[7]提出了高階潛在結構模型,將它與DINA相結合可得到高階DINA(HO-DINA)模型。鑒于HO-DINA模型只能處理包含二階潛在結構的數據,為實現對包含三階潛在結構的測評,詹沛達等人[15]提出了一種多階認知診斷MO-DINA模型。

傳統的DINA模型大多基于小樣本數據,當面對類似像2020年新冠疫情背景下的大規模在線學習所產生的海量數據時,DINA模型收斂速度慢,導致診斷效率大大降低。針對此,王超等人[3]提出了結合增量算法和最大熵方法的DINA加速方法,有效改善了DINA模型的計算效率。

1.4 其他CDM

隨著計算機性能瓶頸的突破,深度學習技術得到快速發展,人工神經網絡(artificial neural network,ANN)已經成為人工智能領域研究的熱點。它是一種模擬人類的大腦神經系統處理外界復雜信息機制的數學模型,目前在模式識別、自然語言處理、圖像分割等領域得到廣泛應用。Song等人[16]針對IRT在稀疏數據上診斷效果差的問題,提出了DIRT模型,利用神經網絡對挖掘試題的文本信息并對傳統IRT公式中的參數進行估計,增強了模型的魯棒性。Wang等人[17]通過神經網絡應用與教育認知診斷,提出了NeuralCDM,它不僅利用了學生得分矩陣和試題知識點關聯矩陣,還通過神經網絡挖掘試題的文本信息對試題知識點關聯矩陣進行修正,借助神經網絡對學生、試題、學生與試題的交互過程三者進行建模,提高了模型的學習能力。

2 基于認知診斷分析的應用研究

以下介紹CDM在學生考試成績預測、個性化學習資源推薦、協同學習小組構建等方面的應用研究工作。

2.1 學生考試成績預測

通過分析學生的歷史學習數據來診斷學生對于知識點的掌握程度,可用于預測學生未來的考試成績[9-10]。學生考試成績預測的研究,可為學業狀況預警[18]和學生個性化輔導(例如協同學習小組構建[12,19]、個性化學習資源推薦[20-21]等)等研究提供決策依據。

2.1.1 典型的預測方法

CDM以學生在試題上的作答情況作為輸入,對學生進行個性化的認知建模,以得到學生的潛在知識水平的掌握情況。通常很難直接評估CDM得到的學生認知狀態的準確性,但利用得到的認知狀態進行PEP,通過評估預測得分的準確性可間接評估CDMs的性能。因此,DINA模型[6]引入試題失誤率(slip)和猜測率(guess)來建模學生的答題情況。計算公式如下:

P(Xij=1|ηij,sj,gj)=(1-sj)ηijgj(1-ηij)

(11)

其中,Xij表示學生i在試題j上的得分,取值為0或1,ηij=1表示學生i掌握了試題j考察的所有知識點,ηij=0表示學生i沒有掌握試題j考察的全部知識點,sj為失誤率,表示掌握了試題j考察的所有知識點但做錯的概率,gj為猜測率,表示未掌握試題j所考察的所有知識點但通過猜測做對的概率。

為預測學生在主觀題上的得分,FuzzyCDF[9]給出了計算公式,并基于傳統DINA模型[6]的得分預測公式,提出了新的客觀題得分預測公式,具體如下:

P(Rij=1|ηij,sj,gj)=(1-sj)ηij+gj(1-ηij)

(12)

P(Rij=1|ηij,sj,gj)=N(Rij|[(1-sj)ηij+

gj(1-ηij),σ2])

(13)

式(12)和式(13)分別表示學生答對客觀題和主觀題的概率。在式(12)中,(1-sj)ηij表示學生i掌握了客觀題j考察的所有知識點并正確解答的概率,gj(1-ηij)表示學生未掌握題j考察的所有知識點但仍然正確解答的概率。在式(13)中,σ2表示學生在主觀題上的標準化分數的方差,N(·|μ,σ2)表示一個均值為μ,方差為σ2的高斯分布概率密度函數。

此外,Song等人[16]和Wang等人[17]則利用深度學習中的神經網絡對學生的認知狀態進行建模并預測學生在客觀題上的得分。不過,由于神經網絡本身可解釋性差,在小規模數據情況下容易出現過擬合等問題,因此,基于ANN的方法應用于智慧教育領域時仍具有明顯的局限性。

2.1.2 數據稀疏情況下的預測優化方法

針對數據稀疏情況,矩陣分解(matrix factorization,MF)等方法經常被用于預測優化。MF已被廣泛應用于推薦系統[22],并可用于優化PEP,它通過構造學生和試題的低維矩陣,刻畫學生和試題在低維空間中的表現程度,并據此實現PEP。例如,Tscher等人[23]利用奇異值分解對考生進行建模;Thai-Nghe等人[24]利用MF對考試成績進行預測,并將預測結果與回歸方法進行比較,對比結果表明MF有效提高了預測的精度。

然而,傳統的矩陣分解算法存在解釋性較差的問題。例如,通過矩陣分解模型得到學生的潛在因子和試題的潛在因子,然后利用兩種因子進行PEP,由于潛在因子不能直接指明學生和試題的具體特征,因此得到的預測結果難以解釋。

2.2 個性化學習資源推薦

作為一種基于計算機通信技術的學習方式,在線學習可以最大限度地利用網絡教學資源,學習者在學習過程中不必受到時空環境的限制,隨時隨地根據自身需要進行自主學習。然而,由于學習資源數量龐大,學生要在有限的時間內學習完所有的學習資料是不現實的。因此,如何幫助學生在龐大的資源庫中快速準確地找到適合的資源是一個重要的問題。

2.2.1 基于認知診斷的個性化試題推薦

試題或習題是在線學習中使用頻率很高的學習資源。朱天宇等人[11]將推薦系統與認知診斷結合在一起,提出了PMF-CD(probabilistic matrix factorization-cognitive diagnosis)模型,利用DINA模型獲得學生的認知狀態。然后,在已知學生知識點掌握程度的情況下,通過將已觀測到的學生答題情況和試題對應的知識點作為先驗,計算學生在每道試題上的實際掌握水平(即排除猜測和失誤后的學生真實水平)。在獲得學生的試題掌握水平后,再計算學生和試題的先驗得分情況,并將其應用于概率矩陣分解。最后,模型根據所需試題的難度范圍,篩選出合適的試題并形成推薦試題集。經過PMF-CD模型的處理,每個學生會得到結合自身的知識點掌握情況和相似學生答題情況共同生成的個性化試題推薦結果。

2.2.2 結合協同過濾和內容的個性化學習資源推薦

對于廣義上的在線學習資源,許多研究者利用傳統的基于協同過濾和內容的方法進行推薦。為了克服傳統推薦算法存在的冷啟動等問題,Soulef等人[25]設計了一種新的推薦系統NPR-EL,結合學生的偏好、背景知識以及記憶能力等特征,實現了多元的個性化推薦。黃冉等人[20]在傳統的基于內容的推薦算法的基礎上結合word2vec模型進行物品建模以及物品相似度計算改進,提出一種基于內容和word2vec的慕課推薦算法,提高了傳統的基于內容的推薦算法的性能。

2.2.3 其他的個性化學習資源推薦

劉忠寶等人[26]綜合利用興趣圖譜、本體理論、云計算和信息推薦等技術,對學習者建模與個性化推薦方法展開研究。在深入分析用戶行為數據的基礎上,利用興趣圖譜對學習者進行建模,研究興趣圖譜的生成、演化與反饋方法,建立云環境下的個性化推薦系統。

劉敏等人[27]從學習風格、在線學習偏好、學習者知識結構以及學習者在線學習行為及結果等方面進行學習分析,對學習資源的內容、類型、資源的推薦時間以及頻次等進行個性化的推薦設置。不同于傳統的將學生的學習風格分類為單一的類型,Chen等人[28]提出了基于在線學習風格的增強學習資源推薦模型,利用學習風格向量刻畫學生的學習風格,并以此為基礎,結合聚類和協同過濾算法,實現對學生個性化學習資源的推薦。

2.3 協同學習小組構建

在線學習系統中構建科學合理的學習小組,讓學習者能以團隊方式進行協作學習,不僅可以幫助學生獲得更快的能力提升,也能夠顯著減少教師的工作量,對于改善在線學習體驗、提高學習效果具有重要意義[29]。目前,在線協作學習的分組構建模式主要分為以下三種。

2.3.1 異質分組方法

異質分組即將性質相異的學習者劃分到同一小組,這樣有利于發揮學習者的互補優勢。Agrawal等人[30]將協同學習小組分組問題分為兩類:一類是從學生中找到最優學習效果的組(1-GROUP問題),另一類是將學生均分成小組,保證小組學習效果之和最優(L-GROUP問題)。劉玉蘋等人[12]將認知診斷應用至協同小組構建,先提出連續化的DINA模型,即Soft-DINA(SDINA);然后基于學生認知狀態,分別提出基于學生差異的分組算法(uniform k-means based,UKB)和基于收益的學生分組算法(balanced gain based,BGB)。Ullmann等人[31]提出了基于粒子群的異質分組算法,用于提高學生在線互動的質量,并通過實驗驗證了該方法形成的小組比與隨機分組在學習中取得了更好的成績。

2.3.2 同質分組方法

同質分組即將性質相同的學習者劃分到同一小組,部分學者認為同質群組在學習者實現特定目標上比較有效。Nin等人[32]提出了一個動態感應學生成績的框架,從學術背景、學習風格、學習態度、個性特征等方面對學生進行建模,并自適應地對學生進行分組,以便于教師給學生提供更加個性化的學習指導。Luisa等人[33]討論了在MOOC環境下,學生以群體形式進行課程學習的必要性,提出了根據學生行為記錄(瀏覽數、提交作業次數和評論數)的同質分組方法,并將該方法應用在真實的MOOC環境中與隨機分組比較效果,實驗表明同質性程度較高的組具有較高的任務完成率和互動率,此外,同質性程度較高的組的學生對自己群體的滿意度更高。

2.3.3 混合分組方法

實際上,單一的同質分組或異質分組都各有利弊。因此,有學者將這兩種分組模式結合起來,提出了混合分組方法。羅凌等人[34]在構建學習者多維特征模型的基礎上,設計了基于模糊C均值的在線協作學習混合分組算法,首先基于學習風格、知識水平、學習目標和興趣愛好實現同質分組,然后完成基于活躍度和性別的異質分組。這樣既保證了學習風格、知識水平、興趣愛好和學習目標具有相似性學習者劃分到一組,同時考慮到了活躍度和性別差異對小組學習的影響,使得小組劃分更加合理。Zheng等人[35]將學習分組問題的所有要求轉化為一個數學模型,并提出一種改進的遺傳算法來求解獲得最優的學習群體,以滿足不同教育情境的分組要求。

3 結束語

文中系統地闡述了在線學習環境下國內外認知診斷模型及其應用的研究進展。詳細介紹了認知診斷模型及其在學生考試分數預測、個性化試題推薦和協同學習小組構建等方面的應用研究現狀。隨著在線學習的不斷發展和完善,面向個性化學習的認知診斷模型及其應用研究將可能在諸多方面實現技術突破[36]。未來的工作可從以下兩個方面進行:

(1)學生的動態認知建?!,F有的模型大多根據學生在某次考試中的成績對學生進行認知建模,然而學生對不同知識點的認知狀態會隨著時間的變化而變化,例如:學生剛掌握某一知識點時可以答對考察了該知識點的試題,但是,經過一定長度的時間后,學生淡忘了該知識點,可能就無法答對他先前答對的試題或其他類似試題。因此,根據最初的學生得分表現建模得到的學生畫像與當前學生畫像是不匹配的。應根據學生的實時表現對學生進行動態的認知建模,以更準確地了解學生實際的學習狀態。

(2)跨學科的知識遷移學習分析。當前數據挖掘中針對學生認知診斷的工作通常圍繞某一門獨立課程的學習行為相關數據展開。然而,學生所學的不同課程(如數學、物理等)之間并不完全獨立,相互之間可能存在知識轉移現象。因此,利用遷移學習等技術,挖掘不同學科、不同課程之間的共有特征,以實現對學生的跨學科認知狀態建模,對于全面了解學生的學習狀態、進行更精確的個性化學習輔導具有重要意義。

猜你喜歡
主觀題分組建模
淺談高中政治“認識類”主觀題答題技巧
極坐標方程主觀題考點分析
物理建模在教與學實踐中的應用
高考政治主觀題對學生思維能力的考查
在經歷中發現在探究中建模
聯想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
求距求值方程建模
分組搭配
怎么分組
分組
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合