?

大學初期學業表現與學生傾向性指標的相關性研究
——基于機器學習的預測及可解釋性分析

2023-12-30 08:44梅盛旺趙慧芳萬洪芳侯英杰
關鍵詞:學業特征指標

梅盛旺,趙慧芳,萬洪芳,侯英杰

(1.江西農業大學南昌商學院 招生就業處,江西 九江 332020;2.江西農業大學 教務處,江西 南昌 330045)

一、引言

學生學業表現不僅影響著學生未來的職業發展[1](P350-366),而且也是評價教育質量和教師教學能力的重要指標[2](P5-8)。學者們通過問卷調查法、觀察法、實驗法等方法,對大學生學業表現影響因素進行了深入研究[3](P1460-1479)。通常將學業表現的影響因素分為兩類指標[4](P5-15,44,79):一是傾向性指標(靜態指標),即學生進入學習環境時自身已經帶有的一些屬性,如學生的個人特性[5](P1-16)、家庭背景[6](P189-214);二是行為表現指標(動態指標),即學生在學習過程中體現的動態指標,如學校因素[7](P1-8)、社會性活動或聯系[8](P2117-2127)。在學習初期,傾向性指標對學業表現的預測能力往往要強于行為表現指標[9](P65-86)。

從已有的研究來看,影響學生學業表現的因素錯綜復雜,并且很難從單一的因素明確預測學生的學業表現。長期以來,教育學的研究大多基于小數據,以傳統統計法為主,研究模式相對單一。絕大部分學業表現的相關研究數據是通過問卷調查和自我報告獲取,樣本數據量相對有限,并且傳統的統計分析方法在揭示變量之間復雜關系的能力方面受到限制。當前隨著機器學習方法在各領域廣泛應用,在社會科學研究領域也受到廣大學者的關注和應用[10](P1-8)。算法時代的到來,改變了教育學研究的范式,從以往的“設計式研究”轉變成“全量式研究”。在評估影響學生學業表現因素方面,機器學習的優勢明顯,其更擅長處理大數據并提取傳統方法可能遺漏的隱藏的內在聯系,有利于重塑教育定量研究的取向和功能期望,助推教育定量研究乃至整個教育研究的范式實現突破[11](P35-44)。最近,支持向量機(SVM)、隨機森林、深度神經網絡(DNN)、XGBoost等監督機器學習方法已經開始解決教育學研究領域的分類和預測問題[12](P881-889),如大學生行為規律性等行為模式對學習成績的影響[7](P1-8)、學生自殺率因素的預測模型建立[10](P1-8)等。

雖然機器學習模型在分析結果上表現很優異,但它的黑箱算法和模型內部運行機制(特別是深度模型、集成樹模型等復雜模型)很難理解。而可解釋的機器學習使機器學習系統的行為和預測更易理解。SHAP(Shapley Additive exPlanations)使用來自博弈論及其相關擴展的經典 Shapley value將最佳信用分配與局部解釋聯系起來,是一種基于游戲理論上最優的 Shapley value來解釋個體預測的方法[13](P4768-4777)。

不同的家庭背景[14](P129-148)、個人特征[5](P1-16)、大學入學標準考試成績[15](P74-80)、對教育的期望或專業滿意度[16](P70-76)以及目標期望[17](P1-15) [18] (P121-160)對學生的學業表現都有著重要影響。而這些信息屬于傾向性指標,并且能夠從學生入學信息中提取出來,因此,本研究以學生傾向性指標信息為基礎,利用機器學習算法(隨機森林、XGBoost、樸素貝葉斯、邏輯回歸)識別影響學生大學初期(大學一年級)學習成績的重要因素,并建立模型來反映這些因素對不同學業表現學生的影響程度(如圖1所示),以便于學校和教師能夠提前關注學業成績存在風險的學生。同時,基于SHAP方法分析模型的可解釋性,以確保結果易于理解并在實踐中應用。

圖1 研究流程

二、 數據和方法

(一) 數據收集

研究數據為江西省一所地方院校2020年和2021年入學的共計4 273名學生的信息和數據,其中,2020年入學學生1 934名,2021年入學學生2 339名。依據學者們的相關研究和典型應用,選取關鍵傾向性指標(見表1),包括高考錄取投檔信息、在校表現、個人信息、家庭背景、錄取期望、目標期望等。其中,特征變量說明見表2。所使用的學生數據均匿名,不涉及個人隱私。

表1 關鍵傾向性指標

1.個人信息、家庭背景信息及學生高考錄取投檔信息

一是個人信息,從該校招生錄取系統中獲取,包括性別、政治面貌、民族、地區、年齡等信息。二是家庭背景信息,通過問卷調查方式獲取,包括獨生子女、父母最高學歷、家庭收入情況等信息。三是高考錄取投檔信息,包括投檔分數、語文成績、數學成績、外語成績、考生類別、錄取志愿、考試科類、招生省份、錄取院系、外語語種、考試類別、批次、科類、特長、獲獎情況等信息。其中,高考成績變量由于不同省份高考本科分數線不同,為公平地衡量學生高考成績,本研究中采取分控比形式,即考生投檔分數與生源省份當年本科省控線的比作為該生生源質量的賦分,以及語文、數學、外語成績;考生類別,包括農村應屆、農村往屆、城市應屆、城市往屆4個類別;錄取志愿,即學生被錄取的專業是其報考專業志愿順序數。

2.錄取期望和目標期望信息

數據由對學生的問卷調查方式獲取,本文使用錄取到本專業意愿、錄取到本學校意愿、對專業的滿意度、對學校的滿意度、畢業去向的初步想法等字段,并對這些字段進行特征化處理。

3.在校表現信息

包括大學一年級的GPA、參加比賽獎勵分、操行表現分等。GPA越高,說明該學生在大學初期學業表現越好。參加比賽獎勵分按照學校學生守則中的規定進行賦分,根據比賽級別和獲獎等級情況進行累加賦分,代表學生的在?;顒颖憩F情況,分數越高說明學生在學?;顒又斜憩F越優秀;操行表現分是指在校操行表現、參加課外活動情況所得的分數,分數越高說明學生操行表現越好。

(二)方法

1.模型訓練

利用機器學習算法對大學生學業表現進行分類預測。GPA數據作為分類標簽,并做以下規定:分為3.0以下(低GPA 組)、3.0~3.5(中GPA 組)以及3.5以上(高GPA 組)三組,其中3.0以下為學業表現一般,3.0~3.5為學業表現良好,3.5以上為學業表現優秀。學生的GPA分布情況如圖2所示,將近55%的學生屬于學業表現一般,將近40%的學生屬于學業表現良好,而將近5%的學生屬于學業表現優秀。由于高GPA組的樣本偏少,采取重復增加高GPA組數據至20%的方式,便于訓練模型。

圖2 GPA頻率分布圖

采用隨機森林、XGBoost、樸素貝葉斯、邏輯回歸等四類機器學習的算法,利用網格搜索驗證法優化以上模型的參數配置。其中,利用機器學習工具Scikit-Learn隨機分隔數據,將數據的80%作為訓練集,20%作為測試集,分別對機器學習模型進行訓練和驗證評價。對缺失字段的數據樣本進行刪除。

分類模型在測試集上的性能用準確度、精確度、混淆矩陣、召回率、F1分數、Jaccard分數和海明損失等評價指標來衡量。

2.可解釋SHAP模塊

使用SHAP度量數據特征重要性并進行解釋。①基于合作博弈中SHAP理論的歸因分析方法, 計算機器學習模型中各因素的重要性估計值貢獻g(x′)用式(1)表示,其中,x′為M個特征的簡化輸入,φ0為平均貢獻值,φj為貢獻特征j的Shapley值。當φ0為模型輸出期望E(f(x))時,SHAP輸出值與模型的真實輸出值相接近[19](3386-3404)。

f(x)(i.e.φ0)=E(f(x))。

(1)

(三) 特征工程處理

1.獨熱編碼

對于分類特征變量,特征值不連續,呈現出離散、無序狀態,采取獨熱編碼(One-Hot Encoding)進行處理。獨熱編碼是將離散變量的特征取值擴展到歐式空間,將分類數據進行二進制化向量表示。本研究中對招生省份、錄取院系、外語語種、性別、民族、考試類別代碼、批次代碼、科類代碼、政治面貌、地區、特長代碼、高中獲獎代碼等12個分類變量進行獨熱編碼,共獲得2 421個特征。

2.Lasso特征選擇

Lasso是一種采用L1正則化的線性回歸算法[20](P273-282),利用絕對系數函數作為懲罰函數,通過加入L1正則懲罰項來縮減變量的系數至0,從而達到特征選擇的目的[21](P1-49)。通過Lasso變量選擇,最終確定130個特征作為機器學習的變量。

三、結果分析與討論

(一)部分特征工程描述

1.高考成績

高考總成績與GPA呈現兩段式變化,第一段是分控比值≤1.04時,隨著分控比值升高,GPA值呈上升趨勢;第二段是分控比值>1.04時,隨著分控比值升高,GPA值整體有下降趨勢。分控比值主要是集中于1.03~1.05,而分控比值≤1.04的學生占比較大,為67.2%。

以5分為區間取得的語文、數學和外語成績相應的GPA平均值(如圖3所示),高考分控比(圖3(a))、高考語文成績(圖3(b))、高考數學成績(圖3(c))和高考外語成績(圖3(d))與GPA的分布情況。高考語文(R2=0.22,Pearson=0.47)、數學(R2=0.57,Pearson=0.76)和外語(R2=0.63,Pearson=0.83)成績擬合的曲線斜率為正值,對GPA表現都呈現出正向影響,其中外語成績的影響最為明顯,曲線斜率最大,擬合程度最好。

圖3 高考成績與GPA關系圖

2.考生類別

將考生類別分為城鎮應屆、農村應屆、城鎮往屆和農村往屆4類,進一步分析4類學生的GPA分布情況。如圖4所示,由農村應屆—城鎮應屆—農村往屆—城鎮往屆的GPA平均值和中值呈現出輕微依次遞減的趨勢,表明城鄉應、往屆類別與學業表現存在一定的聯系。這與其他學者的研究結果一致,即城鎮和農村學生的學業表現是存在差異的[22](P353-372)。

圖4 不同考生類別的GPA箱型圖

3.在校表現

獎勵分數與GPA關系如圖5、圖6所示。操行獎勵分數、比賽獎勵分數與GPA呈線性關系。如熱力圖所示,操行獎勵分<5分的學生密度較大,比賽獎勵分<20分的學生密度較大。其中,比賽獎勵分和GPA呈強烈的正相關性(R2=0.92),而操行獎勵分和GPA的相關性相對較小(R2=0.59),說明學生在校的表現與學業表現是存在關系的。

4.目標期望

學生畢業的初步目標包括自主創業、目前還沒想法或暫不考慮就業、自由職業、直接就業、參軍入伍和繼續升學等6個目標。據表3和圖7顯示,畢業去向目標與學生的學業表現存在一定的聯系,其中想繼續升學的學生的學業表現最優,明顯要優于其他目標意愿的學生,而自主創業意愿的學生學業表現最差。

圖5 操行獎勵分與GPA熱力圖

圖6 比賽獎勵分與GPA熱力圖

表3 畢業目標期望分布情況

圖7 畢業目標期望頻率分布關系

(二)分類模型比較:模型效果的分析與比較

模型的測試集結果評價指標如表4、圖8所示。模型評價的參數包括準確度、精度、召回率、F1分數、Jaccard score和Hamming loss。表4和圖8是這四類機器學習模型的評價指標具體值,顯然隨機森林分類模型的各項評價指標相對最好,XGBoost、邏輯回歸和樸素貝葉斯模型評價指標則相當,模型表現次于隨機森林。隨機森林的F1分數和Jaccard分數最高,Hamming loss最低,對本研究的分類預測和特征抽取具有重要意義。

表4 模型評價指標

圖8 模型評價指標柱狀圖

隨機森林、XGBoost、樸素貝葉斯和邏輯回歸4種算法模型的測試集混淆矩陣結果顯示(如圖9所示),高GPA組和低GPA組分類模型的預測效果相比中GPA組要更好,對三類學業表現組的分類效果排序:隨機森林>XGBoost>樸素貝葉斯>邏輯回歸。因此,隨機森林算法模型對這三類學業表現組分類效果最佳。

(三) 模型結果解釋:基于SHAP可解釋性方法的學業表現重要特征因素評估

基于上述模型比較,選擇最優模型,根據SHAP算法解釋隨機森林的重要特征,進一步討論影響學業表現的因素,SHAP值越高的變量對模型的貢獻越大。SHAP算法是一種方便的基于樹的模型工具,可用于估計每個分類特征的相對重要性,即一個特征的SHAP值表示它通過減少損失來影響模型預測的程度[23](P1-22)。使用隨機森林模型實現Tree Explainer來計算每個特性的SHAP值。在多類問題的特征重要性堆疊條形圖(如圖10所示)中,特征是根據其降序的平均SHAP值或重要性排序的。由圖10可知,學生在?;顒拥谋憩F情況以及高考數學成績、外語成績等入學成績對學生大學初期學業表現的影響較為明顯,錄取的專業和系別以及學生對本專業的滿意度也存在影響,性別、民族、生源省份、考生類別等學生個人信息對學生學業表現的預測結果有較為明顯的影響。

圖9 模型混淆矩陣圖

圖10 特征絕對值排序圖

使用SHAP算法計算測試集每一個樣品對輸出結果的影響,用以評估各特征對模型的貢獻。SHAP概要圖(如圖11所示)中一個點代表一個特征,正SHAP值代表該特征對模型的影響是正向的,而負SHAP值代表該特征對模型的影響是負向的,其中藍色表示該特征的貢獻是負數,紅色則表示該特征的貢獻是正數。SHAP值依賴圖(如圖12所示)用以說明特征變量對模型預測結果的邊際效應,能夠反映出預測結果與特征之間呈現出的相關關系。

圖11 高、中、低GPA組樣本SHAP值分布圖

1.高GPA組

在隨機森林分類算法預測模型中,高考外語和數學成績的紅色數據點主要位于坐標軸右側,其SHAP值為正值時對模型的正向影響明顯。依賴圖12(a)—12(f)中顯示出與SHAP值正相關的特點,高考外語和數學成績能夠正向影響學生的學業表現,這與其他學者的研究結論一致[15](P74-80)。同時,選擇專業的意愿和對未來畢業后的期望對學生的學業成績具有正向影響(如圖11(a)所示)。換而言之,在高GPA組中,學生對專業選擇和未來規劃有明確想法,其學業表現也相對更出色。此外,從圖12(j)可以明顯看出,考生類別與SHAP值呈負相關關系,表明在學業表現優秀的學生中,應屆生的表現要好于往屆生,農村學生要好于城市學生。比賽獎勵分對模型具有重要影響。圖12(c)中,比賽獎勵分特征紅色數據點主要位于坐標軸右側,其SHAP值為正值時對模型的正向影響明顯,圖12(f)中也顯示出比賽獎勵分與SHAP值呈現正相關關系,這說明學生的比賽獎勵分越高,其學業表現越好。操行表現分呈現出與比賽獎勵分相同的特點,說明高GPA組學生參加比賽表現和在校操行表現越好對學業表現越有積極作用。

圖12 變量與SHAP值依賴圖

2.中GPA組

與高GPA組的影響特征相似,比賽獎勵分、高考數學成績特征對中GPA組模型的影響較大,而操行獎勵分對模型的正向影響程度要低于比賽獎勵分,但考生類別對中GPA組的學生影響不明顯(如圖11b所示)。

3.低GPA組

高考外語成績、數學成績、比賽獎勵分和操行表現分對低GPA組呈負向影響。如圖11(c)所示,高考外語成績、數學成績、比賽獎勵分和操行表現分特征紅色數據點主要位于坐標軸左側;而特征藍色數據點主要位于坐標軸右側,說明特征值較小時,其SHAP值為正值,表明學生的高考外語成績、數學成績以及比賽獎勵分數越低,其GPA值也可能表現出上升的趨勢(圖12(c)和圖12(d))。依賴圖(圖12(i)-(j))中也顯示出比賽獎勵分與SHAP值呈現負相關關系,這意味著低GPA組學生的比賽獎勵分數越高,其學業表現反而不好。錄取專業的意愿、對未來畢業后的想法呈現出與比賽獎勵分相似的特點,即藍色數據點位于坐標軸右側,紅色點位于坐標軸左側(如圖11(c)所示)。實際上,低GPA組的學生往往目標不明確或者渴望自主創業,這一類學生學業上表現較為一般。圖12(l)中,考生類別與SHAP值呈正相關關系,說明學業表現一般的學生組中,往屆考生對模型的影響要大于應屆考生。

四、結論與建議

(一)結論與研究局限

1.結論

本文利用機器學習模型對大學生初期學業表現的傾向性影響因素進行了探討,基于SHAP方法解釋了模型特征的貢獻程度。通過上述的分析發現,影響大學生初期學業表現的傾向性指標特征是復雜的,不能單獨用某個因素解釋??傮w而言,歸結為以下四個方面。

第一,特征SHAP值反映了個體屬性,如性別、民族、年齡、家庭結構等學生個人信息,對學生大學初期的學業表現有明顯影響。以性別特征為例,學業表現呈現出性別差異,女生在大學初期學業表現要好于男生,這與梁耀明等[24](P55-59)的研究結論一致。男女生的生理和心理成長具有一定的規律性,他們在智力潛能、自覺意識覺醒過程方面存在差異,男生往往具備“后發優勢”。而家庭背景因素,如城鎮/農村生源性質(考生類別)、是否獨生子女、父母學歷以及家庭經濟狀況與學生學業表現情況也存在著一定關系。

第二,對于不同學業層次的學生,影響他們學業表現的因素是有區別的??傮w上看,高考數學成績、外語成績、比賽獎勵分、操行表現分的影響較大。高考成績是初始知識技能指標,對之后的學習具有一定的延續影響。而學生的校園行為模式,如參加活動或比賽的積極性、在活動或比賽中的表現與學業表現是存在相關性的。但是這種相關性并不是簡單的線性關系,在不同學業層次的學生中,學生的校園行為模式的影響是存在差異的。

第三,學生的個人期望對大學生初期學業表現影響相對突出。一方面,錄取專業和系別是否符合學生的入學期望影響著大學初期學生的學業表現,通常錄取專業符合學生期望,則正向促進學業成就;另一方面,具有明確畢業目標期望的學生學業表現往往較好,學生通過追求學習目標,持續獲得驅動學業成就的動力,對學業表現有正向影響。

第四,相較于高、中、低GPA組的學生存在更大的學習困難風險,其影響特征具有一定的可識別性。低GPA組學生的高考數學、外語分數以及在?;顒颖憩F相對較差,并且城鎮學生比農村學生具有更大的學業風險,部分學生目標定位不明晰、自我認知不足。

此外,雖然高考總分數比值對模型結果有一定程度的影響,但由于該學院的高考錄取分數相對集中,學生間高考總分的分差小,呈現扁平化特點,因此在本模型中高考總分對預測結果的貢獻程度有限。而對專業和學校的錄取意愿、對未來畢業后的想法、考生類別等因素對模型的影響則相對明顯。

2.研究的局限性

本研究的局限性主要有兩點:第一,本研究僅是觀察了一所地方院校的學生,數據涵蓋面不夠廣,不能夠很好地建立系統的、具有很強代表性的模型。第二,本研究所采用的數據變量存在一定局限性,當前中國不同層次高校的生源結構已經呈現較為明顯的差異分化特點。本文的研究對象是地方院校的學生,實際上地方院校的生源結構已經固化,如家庭背景因素,在這所院校中父輩的教育程度90%為高中及以下學歷,機器學習模型難以訓練并評估父輩教育程度對學業表現分類的重要性。

(二)建議

1.構建學業預警機制,引入有效預測指標

學業預警機制對降低學生學業風險有重要作用。干預措施不能僅限于事后,應提前關注和介入,篩查出潛在的“學困”學生。傾向性指標,如性別、年齡、民族、家庭背景、高中學業成績等對學生的初期學業表現有較為顯著影響。此外,學生的行為表現、生活和學習的規律性、自律程度、日常出勤率等數據指標都能預測出學生的學業表現。對于剛步入大學的一年級新生,以學生的高考成績作為一項觀測指標,可對新生的專業興趣和未來目標等進行調研。通過綜合預警指標,建立學生學業預警機制,及時干預學業表現相對較弱的學生。

2.建立學業幫扶模式,提前關注學業預警學生

對學業表現可能存在危機的學生重點進行引導,建立學業幫扶模式。以專業課老師和輔導員為主體,激發學生的學習動力,幫助剖析造成學生學業困難的原因,遏制學生學業繼續惡化的情況[25](P43-50)。一方面,積極的求職或求學目標對學業有著正向的影響,因此可以通過引導學生樹立積極的價值觀、學業觀和就業觀,正向促進學生學業進步。另一方面,學生對專業的滿意度和興趣度也是影響學業成績的一個重要因素,缺乏專業興趣的學生往往很難取得良好的學業成績。創新專業課程教學方法,改革傳統課程模式,培養學生學習興趣,將案例分析、小組討論、游戲活動等方式引入課堂。改革和創新教學方式方法,增強學生對專業學習的興趣,幫助學生提升自我效能感,改善預警學生的“學困”程度。

3.加強學生心理引導,融通“校師家”育人

在學業表現變化過程中存在邊緣化軌跡:心理變化—結構邊緣—心理邊緣[26](P112-119),一旦不良學業表現結果形成,學生的消極應對行為將使學業成績陷入惡性循環。從學校角度,應建立學業預警機制,設置學生心理疏導中心、學業幫扶工作室;從教師角度,應提前介入學業預警學生的學習生活,著重關注學業表現存在困難的學生,傾聽學生的聲音,從心理上正向引導;從家長角度,應主動與學校溝通,適當參與并引導子女的學習方式、幫助他們建立積極的學業觀。學校、教師、家長三方共同育人,協同促進學生學業進步,改善“學困”學生的不良狀況。

注 釋:

①本文使用的機器學習模型訓練過程和SHAP方法都是利用Python語言編寫。

猜你喜歡
學業特征指標
一類帶臨界指標的非自治Kirchhoff型方程非平凡解的存在性
艱苦的學業
音樂提升學生學業表現
樹起學業擔當之心
如何表達“特征”
不忠誠的四個特征
最新引用指標
莫讓指標改變初衷
抓住特征巧觀察
Double圖的Kirchhoff指標
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合