?

DDTR:大數據背景下的學生就業率預測模型

2018-12-07 05:25席菁
中國教育信息化 2018年21期
關鍵詞:就業率結點決策樹

席菁

(蘇州市教育科學研究院,江蘇 蘇州215004)

一、引言

近年來,伴隨國際產業形式的調整及我國經濟結構的不斷深化,有效應對經濟新常態對于人才的需求成為教育行業的首要任務。而其中,就業環節作為評測人才供給與人才需求的核心,已成為關鍵。2017年,黨的十九大報告指出:“就業是最大的民生。提高就業質量,要堅持就業優先戰略和積極就業政策,實現更高質量和更充分就業”。另一方面,全國應屆畢業生人數在逐年增加,這給學生就業前景增加了更多的不確定性?!盎ヂ摼W+”時代的來臨,將不可避免更深入地促進產業結構的調整。因此,分析研究就業率的變化趨勢,把握新經濟形勢下社會發展的脈搏,將有利于高校、學生準確地進行專業、就業定位,評價自身能力,從而能更從容地適應新產業形勢下的機遇和挑戰。

基于此,本文通過大數據的分析方法,以高校真實數據為例,建立了利用自學習模式的就業率預測模型DDTR,有效地對就業前景進行預測。

二、DDTR系統架構

就業率是學校用于評價教學質量和應屆學生能力的指標,對于學校和社會間良性作用的程度具有客觀的反映。影響畢業生就業的因素具有多樣性,通過對畢業生和招聘單位的調查,學生的學業成績是就業率一個非常重要的影響因素,

本文旨在建立一種基于學生學業成績的就業率預測模型,通過歷史數據的比對,審查和規劃學校的發展。同時,通過產生可能就業困難學生名單,學??蓪@些學生進行針對性指導,幫助學生就業?;诔煽兊木蜆I率預測框架DDTR(data normalization-dimension specification-decision tree-employment rate)是一個自學習系統,如圖1所示,每一次預測后,預測報告都要和真實報告進行分析匹配并最終給出反饋意見,進一步修改和完善預測模型。

圖1 就業率預測框架DDTR

三、DDTR模塊分析

DDTR中的學生成績主要來自于課程成績,基于此,本文將學生的課程成績作為模型的訓練樣本。系統的功能模塊如圖2所示,由3大模塊組成,其中決策樹模型模塊負責將輸入的數據根據相應算法進行分析后生成預測文件;原始數據處理模塊負責將學生的課程成績處理成預測模型需要的數據格式;測試與分析模塊則負責將預測后的數據進行分析,以便進一步改善預測模型。[1]

圖2 就業率預測模型功能模塊

1.決策樹模型

決策樹[2]是一種由結點和有向邊組成的層次結構,樹中每個終端結點被賦予一個類標號,非終端結點包含屬性測試條件。每個待預測條目,從根結點往下,根據結點中的屬性測試條件,選擇相應TOPDOWN方向,進入子結點,再次測試,一直重復迭代遞歸,直到到達葉子結點。葉子結點代表了一個特定的類標號,帶預測條目從根節點往下抵達葉結點的過程就是決策樹分類的過程。

DDTR模型采用貪心選擇策略,將訓練樣本記錄相繼劃分為較純的子集,以遞歸的方式進行建立。屬性測試條件和決策樹的結點關聯,用以將記錄集劃分為較小的子集,對于測試條件的每一個輸出,創建一個孩子結點,根據測試結果將結點中的記錄分布到創建好的孩子結點中。模型使用Weka提供的J48決策樹工具來實現,其中決策樹算法采用的是C4.5的實現。

Weka[3]是使用Java編寫的開源機器學習工具和數據挖掘軟件。作為公開的數據挖掘平臺,集合了數據預處理、分類、回歸、聚類和關聯規則等算法。決策樹模型生成過程如下:首先進入explorer功能,使用preprocess選項卡導入轉換好格式后的Weka輸入文件,轉至classify選項卡選擇tree分類器下的J48工具,填入自定義的決策樹參數。這里使用參數J48-C0.25-M2,點擊Start,Weka將訓練模型生成決策樹模型,如圖3所示。

其中每一個屬性的數據類型都是numeric,對于這種連續的屬性,決策樹需要找到相應的劃分點,將實數軸上的區域進行二分。如圖3中的0.54、0.38這些數值,即選取劃分點,從而對于連續屬性而言,屬性測試條件變成了具有二元輸出的比較測試。二元劃分父結點,產生一棵二叉的決策樹。

圖3 決策樹模型

2.原始數據處理

根據上文中預測模型需要的輸入文件格式,需要對數據進行預處理[4],首先進行數據清洗,剔除缺失數據和無用信息,然后對數據進行歸一化處理,利用相似性度量對課程進行歸類,將同一類下的課程成績利用學分進行合并,最終將所有課程劃分為13個聚類,聚類內科目成績關于學分的加權平均作為此聚類的得分。聚類作為分類器的輸入屬性,聚類得分/表現作為屬性下的值并以此作為訓練決策樹分類器的輸入。

(1)數據清洗

在實際應用中,數據往往不夠“干凈”,需要通過一系列步驟來對“臟”數據進行清洗,首先填補缺失值,然后確定并刪除“噪聲”數據,以確保數據質量。如果有些重要的屬性由于各種原因導致沒有數值,那么在數據清洗時要對這些空缺屬性值按照約定進行處理:如果一條記錄中多個屬性值空缺,或者關鍵屬性值空缺,則將這條記錄忽略;如果屬性值相對比較重要,并且空缺值不多,則可以根據相關經驗將空缺值補充完整;如某位同學的多條成績信息未知,那么則對這條數據進行整體刪除;同時,原始數據的所有屬性不一定都在數據挖掘中使用,應該選擇合適的屬性進行挖掘,刪除不必要的屬性。在本預測框架中,以信息與計算科學專業為例時,將《大學語文》、《中國近代史綱要》、《大學體育 (一)》、《大學體育(二)》課程進行了刪除,保留了所有專業課內容以及大學英語課程。

(2)數據歸一化

由于課程的難易程度和給分標準不同,要對學生的成績進行歸一化處理,在歸一化處理之后,歸一化后的值代表了該學生的成績在整個班級分數里所占的名次。假設某學生某門課程的成績為X,則歸一化后的成績為:

其中代表歸一化后的成績,Xmin表示該門課程的最低成績,Xmax表示該門課程的最高成績。

(3)維度規約

根據上文建立的預測模型,若直接將每門課程的成績作為屬性帶入具體的算法中運行,系統會因屬性過多而導致性能下降,在不影響預測效果的基礎上,本文對歸一化后的數據進行了維度規約。維度規約的方法依據數據的相關性,采用如下兩條原則:

原則一:若A和B相關系數大于0.5,則認為A和B相關。

原則二:若A和B相關,B和C相關,A和C相關,則認為ABC相關。

本文采用公式(2)對兩兩課程之間的相似性度量,其中xi、yi分別表示課程A、B的每位學生歸一化后的成績,分別表示課程A、B的成績平均值。

其中r為Pearson系數,取值范圍為[-1,1],用來反映課程之間相關性的強弱,若r的值為[0,0.3),表示兩課程弱相關;若r的值為[0.3,0.5),表示兩課程低度相關;若r的值為[0.5,0.8),表示兩課程中度相關;若r的值為(0.8,1],表示兩課程高度相關。

圖4 數據相關性分析

以《大學英語(一)》與《大學英語(二)》和《大學英語(一)》與《概率統計》為例,前者的Pearson系數為0.81,后者的Pearson系數為0.14,如圖4所示,其中《大學英語(一)》與《大學英語(二)》之間各位同學基本保持了班級排名不變,兩課程間是高度相關關系,《大學英語(一)》與《概率統計》之間是弱相關關系。通過對37門課程之間Pearson系數的分析,最大Pearson系數產生在《大學英語(一)》、《大學英語(二)》、《大學英語(三)》、《大學英語(四)》之間,值在0.8附近。數據結構與離散數學的Pearson系數為0.75,兩門課程相關程度比較高,體現了計算機與數學在深層次中的關聯。

根據維度歸約原則,若ABC相關,則將ABC分在同一類中,本模型將37門學科分成了13個聚類,并且根據聚類中的每科得分,計算出每類課程的最終得分。經過數據預處理之后,其數據結果形式如圖5所示。

圖5 維度歸約矩陣

四、模型測試與分析

本文使用模型準確度來評價模型的好壞。對于輸入的樣本,很容易出現過擬合的現象。采用10折交叉驗證有助于防止或減輕這種情況。本文利用得到的混淆矩陣分析來測試模型的準確度。

本預測框架DDTR得到的混淆矩陣如表1所示。

表1 混淆矩陣

混淆矩陣可以反映算法性能,其每一列代表預測值,每一行代表的是實際的類別,用于表明多個類之間是否有混淆。表1中a表示的是不就業0,b表示的是就業1。有9+25=34個樣本被準確分類,有8個樣本被誤分,正確劃分的實例樣本比例是80.95%。

對于 b,其 TPR(True Positive Rate)為 25/(25+4)即0.862,其 FPR(False Positive Rate)為 4/(4+9)即 0.308,其余參數列表如表2所示。

表2 參數列表

根據 TPR、FPR、Precision、Recall,框架的預測結果是有預測意義的,模型的分類效果在當前42個輸入實例樣本的表現是正常的??紤]到整體的樣本數比較少,預測框架的性能將隨著以后訓練樣本數的增加而提升,隨著輸入樣本的增加,預測模型的準確度將大大提升。

五、結束語

本文通過決策樹算法建立一個就業率預測模型DDTR,將數據歸一化和維度規約后的數據作為輸入來預測學生的就業情況,并通過10折交叉驗證來驗證預測模型的正確性。旨在通過此預測模型,輔助學校對課程體系進行規劃,幫助學生就業。

猜你喜歡
就業率結點決策樹
LEACH 算法應用于礦井無線通信的路由算法研究
基于八數碼問題的搜索算法的研究
決策樹和隨機森林方法在管理決策中的應用
2017屆畢業生就業率高職高專超本科
基于決策樹的出租車乘客出行目的識別
基于模糊關聯規則和決策樹的圖像自動標注
基于肺癌CT的決策樹模型在肺癌診斷中的應用
本科新聞專業在京就業率較低
數據
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合