?

基于大數據分析的高校貧困生精準資助策略研究

2020-09-02 01:22歐陽鐵磊葉玲肖
計算機應用與軟件 2020年8期
關鍵詞:特困生貧困生次數

歐陽鐵磊 葉玲肖

(浙江工商大學網絡信息中心 浙江 杭州 310018)

0 引 言

對高校來說,判定貧困生沒有統一的標準?,F在一般采取自主申報的方式,有些同學由于自尊心等因素,即使經濟困難也不去申報。有些家庭即使不貧困,也能開出貧困證明?,F行辦法存在一定弊端,主觀依據多,客觀依據少。

現在高校普遍采用的校園卡,又叫“一卡通”,記錄了學生生活學習的各方面情況,其中包括在食堂就餐消費的數據。判斷貧困生的關鍵是選取特征變量以及確定分組點?,F有研究的觀點包括:通過已經認定的貧困生得到相應的貧困標準線,比較每名學生與貧困標準線的偏離程度[1];采用月消費金額,通過聚類算法分組[2];對常規變量作處理,用消費金額比上平均消費金額作為貧困指數[3]。但上述研究仍存在弊端:(1) 認定的貧困生名單中可能有誤差,存在少部分虛假貧困生,不能直接采用這份名單中統計分析出來的數值作定量分析,但是可以統計總體消費特征做定性分析;(2) 選取的判斷貧困生的變量,需要算法檢驗,找出最能區分貧困生的特征變量。

基于這些考量,本文判定貧困生的思路是:統計貧困生認定名單和非貧困生兩類學生的消費特征;根據消費特征,研究分析出消費特征變量之間的相關性和內藏的消費觀點。通過研究結果,嘗試導出更能區分貧困生的派生變量,與其他常規向量一起,通過CHAID算法,檢驗找到最佳分組變量和最佳分組點。

1 數據處理及特征分析

1.1 數據處理

采樣某高校在校學生的校園卡食堂消費原始數據,還有一份相關部門給定的貧困生名單,即通過自主申報方式評出的貧困生,以找出貧困生與非貧困生不同的消費行為特征以及內部隱藏的規律。

首先對數據進行獲取和預處理,從數據庫查詢計算每個學生在校期間的消費情況,諸如月消費總次數、三餐平均消費額等。按照相關部門給的名單,將學生分為貧困生和非貧困生,統計其消費特征。圖1和圖2分別列出了三餐平均消費金額和就餐次數兩個消費變量。

圖1 貧困生與非貧困生三餐平均消費金額對比

圖2 貧困生與非貧困生月就餐次數對比

可以看出,貧困生區別于非貧困生的兩個特點:一是在食堂的平均消費次數高于非貧困生,二是在食堂的平均每餐消費金額低于非貧困生。

1.2 特征分析

深入分析消費次數和消費金額之間的內在關系,發現派生變量x與y之間存在如下線性關系:

y≈3x

(1)

x=(m0-m1)/m1

(2)

y=(n1-n0)/n0

(3)

式中:x表示非貧困生平均消費金額超出貧困生的百分比;y表示貧困生月消費次數超出非貧困生的百分比;ni表示一個月中i類學生消費次數;mi表示i類學生的平均消費金額,i取0或1,0表示非貧困生,1表示貧困生。實驗結果如圖3所示。

圖3 x與y線性關系

式(1)表明非貧困的平均消費金額每超出貧困生1個百分點,貧困生就餐次數就會超出非貧困生3個百分點。早餐是三餐中次數相差最大的,中餐、晚餐次數相差不大。經過對食堂飯菜品種價格等進行調查,發現早餐品種豐盛、價格實惠,中餐和晚餐葷素價格相對比較固定,飲食需求基本為一葷一素。對比學校外同等程度的飯菜,食堂價格要低一些,所以貧困生更傾向在食堂吃飯,尤其是早飯。因此價格對貧困生來說成為決定是否在食堂吃的重要因素。貧困生偏向用更少的錢,滿足自己的基本飲食需求。

根據統計和分析結果,推測出貧困生特征的三種情況:

1) 兩種消費特征都滿足,就餐次數高,平均消費低;

2) 滿足其中一種消費特征,就餐次數高,但是飲食需求大,在食堂的平均消費可能會偏高;

3) 滿足其中一種消費特征,平均消費低,但是有可能在食堂就餐次數少。

2 基于CHAID算法的群體分組

卡方自動交互診斷器(CHi-squared Automatic Interaction Detector,CHAID)由Kass等在1980年提出,是一種決策樹算法。其核心思想是:根據給定的輸入變量和輸出變量對樣本進行最優分割,按照卡方檢驗的顯著性進行多元列聯表的自動判斷分組。利用卡方自動交互檢測法可以快速、有效地挖掘出主要的影響因素,它可以處理非線性和高度相關的數據,能克服傳統的參數檢驗方法在這些方面的限制。在CHAID技術中,可以直觀地看到在樹的分割變量和相關因子之間的關系。決策樹或分類樹的展開,始于確定作為根節點的目標變量或因變量。為了找出最優根節點,引入特征變量W=月消費次數/平均每天消費金額,加入常規變量中,作為CHARID算法的輸入變量。

2.1 輸入變量預處理

根據模型特點,輸出變量為分類型,0表示非貧困生,1表示貧困生,輸入變量均為數值型,包含W、早餐平均消費金額、中餐平均消費金額、晚餐平均消費金額、早餐月消費次數、中餐月消費次數、晚餐月消費次數、日平均消費金額,月消費總金額等。采用ChiMerge分組法,其特點是:輸入變量所具備的對輸出變量的解釋能力,不會因分箱處理而減弱。舉例W變量處理過程如下:

1) 將變量W按變量值升序排序,定義排序后的輸入變量取值w1,w2,…,wi,wi+1,…,wn,定義相對應的輸出變量取值Y1,Y2,…,Yi,Yi+1,…,Yn。

2) 以相鄰兩個輸入變量中間值Qi為組限,使每個數據均單獨落入初始區間中。

3) 得到分組區間與Y值的交叉表,如表1所示。

表1 相鄰兩區間與Y值的交叉表

4) 計算該交叉表的卡方值。

(4)

式中:r表示行的個數,這里是相鄰兩組數[Qi,Qi+1]與[Qi+1,Qi+2],所以值為2;C表示列的個數,這里是目標變量是否貧困,分為Y=0和Y=1兩類,所以值為2。

5) 將卡方值與臨界值進行比較。該模型中選擇自由度為1、顯著性水平為0.05的卡方臨界值3.841。如果卡方值小于臨界值,則兩組輸入區間可以合并為[Qi,Qi+2],若卡方值大于臨界值,則不能合并。

ChiMerge方法是一種在輸出變量指導下的分組。它注重從分組結果與輸出變量的相關性角度實施分組。這樣的分組結果減少了輸入變量的取值個數,但并不影響對輸出變量的分析。

2.2 確定最佳分組變量

對數據完成預處理之后,進行最佳分組變量的選擇,計算輸入變量與輸出變量相關性檢驗的統計量的概率P值,即卡方值對應的P值,P值越小,說明輸入變量與輸出變量的關系越緊密,應當作為當前最佳分組變量。當P值相同時,應該選擇檢驗統計量觀測值最大的輸入變量,也就是卡方最大的輸入變量。實驗結果顯示,變量W的P值為0,χ2=566.171最大,選取該變量為最佳分組變量即根節點,如表2所示。

表2 與輸出變量關系最緊密的前5個輸入變量

CHAID算法將變量W從低到高分組。貧困生在每組的占比隨著W的增加而增加。根據實際需要并結合其他節點的分組情況,適當進行剪枝,給出最終的判定貧困生標準:

1)w>2.194,中餐平均消費≤8.05。這部分貧困生在食堂消費次數高,消費水平微低于非貧困生,說明經過資助,消費水平已經接近正常水平,稱為一般貧困生。

2)w≤2.194,1.9<早餐平均消費<3.58,中餐月消費額≤107。這部分貧困生早餐多買一點當作午餐吃,午餐花費相對少,稱為消費困難生。

3)w≤2.194,早餐平均消費≤1.9,中餐平均消費額≤7.41。這部分貧困生消費次數少且消費水平低于貧困生的平均水平,稱為消費特困生。

2.3 驗證結果

在統計結果中有消費記錄的學生為15 747名,一日三餐都有消費記錄的為10 649名,其中在認定貧困生名單里的有1 703名,其他非貧困生有8 946名。

(1) 驗證貧困生名單情況。在貧困生名單里符合一般貧困生特征的有1 053名,符合消費貧困生特征的有320名,符合消費特困生特征有99名。貧困名單中按貧困規則判定的貧窮生占86.4%。調查發現在13.6%的疑似非貧困生中仍然存在少部分的貧困生。實驗誤差主要受在外實習、點外賣、學校周邊小吃店多以及自身食欲、體重等多種因素影響。

(2) 驗證非貧困生名單情況。一般貧困生經過學校資助后,消費水平接近于非貧困生,用這種消費特征作為判斷貧困生的標準會有誤差,這里使用消費困難生和消費特困生的特征來判斷貧困生。符合消費困難生特征的有862名,符合消費特困生特征的有314名,占非貧困生名單的13.1%。對判定的疑似貧困生進行調查分析,發現有部分學生家里比較富裕,但生活比較節儉。另外一部分家里確實比較困難,但因為各種因素,沒有申報成為貧困生。

3 結 語

本文建模得到的結果,基本符合預期的貧困生消費特征。兩種消費特征都滿足的占了大多數。少部分貧困生的消費特征是在食堂平均消費低,且次數低。食堂消費次數多、消費額偏高的情況并不顯著,表明大家的基本飯量和胃口差不多,對飯菜的要求不一樣。

分析貧困生的消費特點,兩類學生值得關注:消費困難生和消費特困生。消費困難生經濟上比較拮據,為了節省費用,中飯就吃早餐買的一些食物,給予資助可以改善他們的伙食。消費特困生不僅需要經濟的幫助,還需要心理的輔導。走訪調查發現這類消費特征的學生不在學校食堂就餐的消費金額,要比在食堂就餐還低。他們往往克扣自己的伙食費,沒有達到基本的生活飲食需求,對身體、學習都存在不利影響。學校應引導他們改變消費觀念或給予更多的經濟補助。

本文研究了用貧困生判斷規則檢驗貧困生名單的情況,以及在非貧困生中找疑似貧困生的方法,并闡釋了誤差產生的原因。這些研究分析數據可以輔助學校進行貧困生資助工作,資助那些真正需要經濟幫助的學生。盡管高校貧困生精準資助是個系統和復雜的問題,但隨著高校信息化的發展,大量采集多維度高質量的數據,并采用科學的評判方法,就一定能夠取得令人滿意的結果。

猜你喜歡
特困生貧困生次數
2020年,我國汽車召回次數同比減少10.8%,召回數量同比增長3.9%
最后才吃梨
俄羅斯是全球閱兵次數最多的國家嗎?
高校貧困學生的心理健康狀況及其對策
144名貧困生的愛心爺爺——余祖堂
“貧困生班主任”李金林
108名特困生有了“代理媽媽”
有心育才是前輩 矢志報國看后生:顏正明與二百五十八個特困生
莫與貧困生“搶飯吃”
大學特困生的心理問題及疏導教育
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合