?

面向在線學習的學習成效早期預測模型*

2022-05-09 09:24黃江濤

南寧師范大學學報(自然科學版) 2022年1期

關鍵詞：社科類學習者預測

黃江濤，謝穎

(南寧師范大學計算機與信息工程學院;廣西人機交互與智能決策重點實驗室，廣西南寧 530001)

0 引言

近年來，一些學者基于傳統機器學習方法開展了在線學習成效預測研究工作，包括邏輯回歸、馬爾科夫模型、支持向量機、決策樹、隨機森林等[3-8]。這些方法在相同的在線課程歷史數據分析中可以獲得較好的預測性能，但一般需要從海量的在線學習行為數據中提取特征，導致其預測性能在一定程度上取決于研究者的領域知識和經驗，實際應用的成效甚微。

鑒于深度學習可以直接處理原始數據，且其最近十余年在計算機視覺、語音識別和自然語言處理等領域取得了巨大成功，一些研究者開始基于深度學習開展在線學習行為分析與預測研究。伍斯特理工學院和哈佛大學的研究者[9]通過構建一個含5個隱藏層的全連接前饋深度神經網絡進行輟學預測，獲得了比一般線性模型更優的性能。清華大學Feng等[10]在一個統一的框架下融合分析在線學習者和課程信息，提出了上下文感知特征交互網絡(CFIN)深度學習模型，在學堂在線歷史數據集分析中取得了良好的性能。

以上方法雖然有助于提高輟學預測結果的準確性和提升在線學習成效，但沒有側重關注早期輟學群體的分析研究。一些研究發現，大部分的輟學開始于在線課程的前幾周，例如，文獻[11]發現75%的輟學發生在課程的前幾周，如課程的前3個單元?？紤]到早期輟學預測存在數據不充分、不平衡和稀疏的問題，提出一種改進的長短時記憶神經網絡模型——差分循環神經網絡(Differential Recurrent Neural Network based on LSTM，DiffLSTM)，利用在線學習行為周期統計信息和相鄰周期學習行為變化信息學習不同學習行為習慣下在線學習者的異常。構建差分循環神經網絡主要基于：雖然不同認知水平和學習習慣的在線學習者的在線學習行為數據存在較大的差異，但他們的學習行為的時間周期是相似的。若存在輟學風險的在線學習者，則在線學習行為的時間周期易發生突變情況，差分數據分析更易也能更快地學習和捕捉到該異常，可以有效提升在線學習成效早期預測的性能。

1 在線學習成效預測

在線學習，特別是MOOCs之所以能獲得如此快速的發展，得益于在線學習平臺的優質資源，包括世界一流大學提供的優質課程、入學限制的取消、成本低、時間不受限制、空間不受限制等。但是，其較高的生師比和師生交流的異步性，導致在線學習者的輟學率一直居高不下，嚴重阻礙了MOOCs的發展。在線學習與傳統課程教學的學習與交互過程存在著較大的差異，如圖1所示。在傳統課堂教學中，教師與學生同一時間，在同一教室進行面對面的教學活動，教師能夠實時了解學生的表現，并可通過評估或者經驗感知不同學生的課堂學習成效，及時有效地采取相應對策為存在學習成效不佳的學生提供輔導。在線學習則主要通過在線學習平臺遠程開展教學活動，在線學習者眾多且來自世界各地，在線學習者與線上教師的比例非常高，且在線學習為異步進行，線上教師很難實時、全面地了解和評估每位在線學習者的學習成效，難以及時開展有效的教學干預?？上驳氖?，在線學習平臺收集了在線學習者基本背景信息和海量的在線學習行為細粒度數據信息，為在線學習行為分析與在線學習成效預測等提供了可能的途徑。

圖1 在線學習與傳統課程學習的差異

當前在線學習成效預測主要聚焦于輟學預測，擬通過輟學預測及時發現存在潛在學習風險的在線學習者并施以相應的教學輔助。在這些研究工作中，輟學定義一般可劃分為從時間維度分析和從時間維度與最終學習成效綜合分析兩類。從時間維度分析，常劃分為3類：(1)在接下來的一周內沒有參與在線學習；(2)在接下來的任意一周均未參與在線學習[12,13]；(3)在最后一周沒有參與在線學習[14]。從時間維度和最終學習成效綜合分析在考慮在線學習者某段時間內未參與在線學習的同時，綜合考慮其是否完成最終課程測驗進行判斷[15,16]。早期基于傳統機器學習方法開展輟學預測的研究中，研究者常把在線學習輟學預測問題視為序列預測或分類問題，先從原始的活動記錄數據抽取特征，然后按固定時間間隔，如一周，構建特征向量，最后通過監督學習方法或半監督學習方法實現分類或預測。然而，特征提取需要對在線學習行為源數據深入理解，此外，不同在線學習平臺采集的行為記錄也存在著差異。因此，基于傳統機器學習方法的準確性和可靠性容易受到這些因素的影響從而魯棒性(魯棒性亦稱健壯性、穩健性、強健性)不強。近年來基于深度學習開展的相關研究直接在原始在線學習行為數據上進行分析，更易于發現潛在特征，獲得了較好的預測性能?；谏疃葘W習方法在時間維度和最終學習成效綜合分析的輟學定義上開展早期輟學預測研究，構建了在線學習成效早期預測模型(Early Learning Performance Prediction Model，ELEPP)。

2 在線學習成效早期預測模型

在線學習成效預測的目的更多地在于及時掌握在線學習者的學習成效，發現學習上存在困難的學生，因材施教，及時給予適當的教學干預，減少在線學習中途輟學率。研究者發現輟學發生在在線課程早期的可能性更大，然而，在線課程早期特別是開課的前幾周，在線學習平臺收集到的在線學習行為數據十分有限，難以準確地預測在線學習成效以便及時發現潛在的有教學輔導需求的在線學習者?？紤]到學習能力較強的在線學習者只需花較少的時間或只需查閱在線教學資源即可掌握在線課程內容，而學習能力較弱或基礎知識較為薄弱的在線學習者需花費較多的時間和精力和進行較多形式的在線學習活動，將在線學習行為時序分析的注意力集中在在線學習行為周期的差異上，以便減少不同學習能力的群體在在線學習行為數據上的差異對學習成效預測所帶來的影響，更魯棒地發現有學習意愿卻學習受阻的在線學習者。

2.1 問題描述

工業建筑設計整體化與住宅設計整體化有著相似之處，作為城市內部建設的重要組成部分，工業建筑不僅要注重自身的整體性，能夠滿足工業生產多方面使用需求，還需要能夠與城市發展規劃相一致。由于工業建筑所涉及的內容較多，在設計過程中要重點關注工程質量目標，同時還要采用科學的手段提高建筑經濟效益、環境效益與社會效益，這樣才能滿足新時期和諧社會發展要求，實現人與自然的和諧共融。由此可見，在工業建筑設計中堅持整體性原則是優化建筑環境的重要手段，能夠降低工業建筑對環境各方面造成的破壞。

構建一個模型f(.,.|θ)，然后通過在線課程的歷史數據信息學習模型參數，最終實現當前課程在線學習者的實時學習成效預測或輟學預測。具體過程可描述為：

(1)

(2)

2.2 DiffLSTM模型構建

圖2 差分循環神經網絡模型

融合兩層LSTM模塊編碼的循環神經網絡模塊通過構建更新門和重置門實現，實現過程詳見表達式(3)至式(6)。

(3)

(4)

(5)

(6)

2.3 在線學習者個人信息編碼

為了彌補在線學習行為早期分析中數據量貧乏的問題，考慮到不同背景和不同認知能力的在線學習者在在線學習行為上存在著一定的差距，綜合分析在線學習者的個人背景信息有希望進一步細化不同在線學習行為模式，提升在線學習成效早期預測模型的預測性能。具體實現過程為，首先提取、清洗、轉換在線學習者個人背景信息，然后通過獨熱編碼進行編碼，最后構建多層感知機模型進行訓練學習，并獲取有助于早期預測的隱藏特征，即：

fd=(W×D+b)

(7)

其中，D是學生個人背景信息的獨熱編碼，是非線性激活函數，W是權重矩陣，b是偏置矩陣。

2.4 在線學習成效早期預測模型構建

在線學習成效早期預測模型(ELEPP)將經DiffLSTM分析在線學習者在線學習行為時序數據的結果和經多層感知機分析在線學習者個人信息編碼的結果串連起來作為其輸入，然后構建一分類器實現最終的分類，完成在線學習成效早期預測，模型架構如圖3所示。

圖3 在線學習成效早期預測模型

3 實驗及結果分析

3.1 數據集

本研究使用開放大學學習分析數據集(Open University Learning Analytics Dataset，OULAD)[17]進行實驗分析。OULAD數據集收集了虛擬學習環境(Virtual learning environments，VLEs)上在線學習者的個人信息(如性別、學歷背景等)和所有在線學習互動行為記錄。該數據集包含22個開放大學課程，涉及2013年和2014年兩年開設的課程，詳見表1。在線學習者有32593名，在線學習交互行為記錄共有10655280條。鑒于存在部分在線學習者申請課程后并未進行學習的情況，即個別學生未產生選修課程的任何在線學習交互行為記錄，通過數據預處理過濾了該部分在線學習者，形成了表1的各門在線課程的實際學生人數。同時，每一年開設的在線課程根據開課的月份設置了不同的編碼(類似于學期，如二月份開設的課程，編碼后綴為“B”)，同一在線課程在不同時間開設存在著一定的差異，包括時長和內容。OULAD數據集標注了課程類型，包括人文社科類課程和自然科學類課程。每個學生學習課程會有一個最終評估成績，包括優秀、及格、不及格和輟學四類。

表1 實驗中使用的OULAD數據集

本研究從支持教師及時發現存在學習困難的學生并及時實施干預的角度出發，以提升整體在線學習成效為目的，將優秀和及格的在線學習者劃分為一類，不及格和輟學的在線學習劃分為另一類進行實驗分析。

3.2 數據預處理

3.3 實驗設置

實驗通過PyTorch包[18]實現。ELEPP模型訓練時，批量大小設置為100，每次模擬運行5000步，學習率設置為0.001。

考慮到人文社科類課程和自然科學類課程差異較大，本研究將在線課程劃分為人文社科類和自然科學類后分別進行實驗分析。實驗從現實應用需求角度出發，基于歷史在線課程進行訓練，用實時在線課程測試。具體在OULAD數據集實驗中，使用2013年的在線課程作為訓練集，2014年的在線課程作為測試集。因為OULAD數據集的在線課程，即使同一課程，不同學期在課程時長、課程模塊與流程設計上均可能存在一定的差異，這可以很好地模擬現實應用中新開設在線課程的實時在線學習成效預測。同時，從2013年在線課程中隨機抽取20%的樣本作為驗證集，已提取更優的參數。

本實驗使用邏輯回歸(LR)和支持向量機(SVM)作為基線方法。在這些基線方法中，輸入為每位學生當前課程在線學習行為輸入向量和個人背景信息輸入向量的串連，即基線方法的輸入向量包括n周在線學習行為向量和學生個人信息獨熱編碼。鑒于實現在線學習成效早期預測的目標，實驗分別進行前10周(n≤10)的在線學習行為分析，測試課程時長達34～39周的在線課程的學習成效早期預測。評價指標使用準確率(Accuracy)和F1值(F1 score)指標。

3.4 實驗結果分析

研究社科類課程和自然科學類課程的在線學習成效早期預測性能比較(表2、表3)。在同一類型課程的預測性能實驗中，包含了多門不同課程，例如，自然科學類包含了CCC、DDD、EEE、FFF 4門不同的課程；而且同一課程不同學期也存在差異，例如，DDD課程在2013B學期時長為35周，在2014J學期時長為38周。同時，有個別課程2013年未開設，2014年開設，如，CCC課程，屬于新開設課程的在線學習成效早期預測性能測試。

表2 在線學習成效早期預測性能比較(人文社科類課程)

表3 在線學習成效早期預測性能比較(自然科學類課程)

從表2可知，LR、SVM和本研究提出的ELEPP模型在人文社科類課程在線學習成效早期預測準確率上均能獲得良好的性能。從整體性能上來看，ELEPP模型更加穩定，能獲取比LR和SVM更優的準確率性能。如前所述，研究者發現在線課程輟學在早期發生的概率較大，該部分在線學習者在線學習行為記錄數存在驟降或明顯減少現象，容易被檢測出來，所以能夠在課程早期就可以獲取良好的預測準確率。另一方面，基礎扎實且學習能力強的在線學習者的在線學習行為記錄數也相對較少，容易被誤檢，所以，召回率同樣是重要的考量指標。良好的召回率性能可以在提升決策支持教師實施教學干預的同時，減少教師錯誤干預帶來的時間損耗。從綜合分析了精確率和召回率的F1值來看，ELEPP模型的性能更優，隨著學習周的不斷推進，F1值穩步提升，更契合現實情況。ELEPP模型在第10周的F1值達到80.4%，比LR提升5.48%，比SVM提升3.99%。

從表3可知，ELEPP模型比LR和SVM方法在準確率和F1值均能獲得更優的性能。ELEPP模型在第1周的準確率分別比LR和SVM方法提升0.74%和0.94%，F1值分別比LR和SVM方法提升5.2%和6.66%。同時，3種方法隨著學習周的推進，性能均得到穩步提升，但ELEPP模型性能提升得更快，一定程度上反映了該模型能夠更有效地捕捉到在線學習行為的時序異常。到第10周時，ELEPP模型同樣獲得最優的性能，在準確率上分別比LR和SVM提升了9.16%和6.29%，在F1值上分別比LR和SVM提升了12.91%和10.16%?？梢悦黠@地發現，在第10周時ELEPP模型比基線方法在學習成效預測性能上的提升比第1周時更加突出。

比較表2和表3可以發現，人文社科類在線課程的預測性能整體優于自然科學類在線課程，主要是因為自然科學類課程在教學模塊設計和教學流程等方面相互之間差異更大，同時，OULAD數據集自然科學類存在2014年新開設課程，人文社科類未存在2014年新開設課程。同時也可以發現，雖然自然科學類在線課程學習成效預測性能整體上弱于人文社科類，但ELEPP模型仍然獲得了較好的預測性能，特別是隨著學習周的不斷推進，ELEPP模型能夠及時地獲取在線學習行為的時序差異信息，并有效地提升模型早期預測性能，體現了較好的魯棒性，在存在大量新開設課程的現實應用中明顯要優于傳統方法LR和SVM。

4 結語

針對在線學習成效早期預測容易因在線學習行為數據稀缺而難以獲得較好的預測性能問題，提出了一個差分循環神經網絡模型DiffLSTM，旨在挖掘不同學歷背景、不同學習習慣、不同學習能力的潛在在線學習行為規律，緩解分類預測模型的過程擬合現象。在此基礎上，構建了在線學習成效早期預測模型ELEPP，融合在線學習行為和在線學習者背景信息的分析結果，進一步提升在線課程早期學習成效預測性能?；贠ULAD公開數據集的實驗結果表明ELEPP模型能夠在在線課程學習成效早期預測上獲得較好的預測性能。同時，實驗也表明了ELEPP模型有更好的魯棒性，在處理跨課程、新開設課程學習成效早期預測上也能獲得較理想的準確率和F1值，能夠支持教師及時有效地實施教學干預，具有一定的應用前景。

猜你喜歡

社科類學習者預測

黃河之聲(2022年10期)2022-09-27

選修2-2期中考試預測卷（A卷）

中學生數理化(高中版.高二數學)(2022年4期)2022-05-25

選修2-2期中考試預測卷（B卷）

中學生數理化(高中版.高二數學)(2022年4期)2022-05-25

藝術品(2020年9期)2020-10-29

你是哪種類型的學習者

學生天地(2020年15期)2020-08-25

藝術品(2020年5期)2020-08-07

十二星座是什么類型的學習者

意林·少年版(2020年2期)2020-02-18

藝術品(2018年9期)2018-10-23

不必預測未來，只需把握現在

中學生數理化·八年級物理人教版(2017年11期)2017-04-18

漢語學習自主學習者特征初探

海外華文教育(2016年4期)2017-01-20

南寧師范大學學報(自然科學版)2022年1期

南寧師范大學學報(自然科學版)的其它文章: 基于多源輔助信息的推薦算法研究*; 《駱越演義》知識關系可視化系統設計與實現*; 一種VR摘西瓜游戲制作技術*; 一種VR摘西瓜游戲制作技術*; 光譜法研究氯喹與人血清蛋白的相互作用*; 汞離子熒光生物傳感器的構筑及性能表征*

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合