基于校友數據的大學生就業影響因素加權隨機森林模型

2023-05-30 06:37王小龍穆蕓菲朱玥祺寇子若謝佳美李涓涓郭曉明

電腦知識與技術 2023年1期

王小龍　穆蕓菲　朱玥祺　寇子若　謝佳美　李涓涓　郭曉明

摘要：為了更好地分析利用校友經濟新形勢下的就業數據，建立了影響大學生就業因素的加權隨機森林模型。首先對影響就業的因素進行排序，然后通過加權隨機森林模型，準確預測在校生未來就業情況，在此基礎上充分利用校友資源并搭建平臺為學生就業創造機遇，加強與校友之間的聯系，有效推進大學生就業工作。以某大學部分校友數據為實例，得到構建的模型預測準確率為82.3%。

關鍵詞：校友資源；加權隨機森林；算法實現；就業預測；小程序

中圖分類號：TP311? ? ? 文獻標識碼：A

文章編號：1009-3044（2023）01-0081-04

在當今就業形勢越發嚴峻，及我國社會主義市場經濟體系下，高校也逐漸形成以市場為向導、畢業生與用人單位之間的雙向選擇[1]。在校生就業經驗不足，且信息素質較低，如何判斷信息真偽性、有效性及如何分析整合信息，對在校生是巨大考驗，而畢業校友分布于各行各業中，恰好能夠提供高效資源[2]。為充分利用校友資源，考慮互聯網成本低、及時性、范圍廣的特點，采用網絡作為交流手段，為高校人才交流大大降低成本[3]。

如何提高校友數據利用水平，對于高校人才培養和發展建設，校友關系網建設與學校的可持續建設具有重要的現實意義。近幾年關于大學生就業預測的研究中，主要使用的方法有Logistic回歸模型[4]、基于決策樹算法[5-6]、數據挖掘技術[7-8]和層次聚類等機器學習方法[9-10]，對就業影響因素進行一系列分析，為在校學生的發展和畢業去向提供可靠參考。

受上述方法啟發，本文收集到某高校4000份畢業生就業數據，通過數據處理后分析其中553名畢業生特征及就業情況，在隨機森林算法的基礎上，提出采用加權隨機森林對大學生就業因素進行分析及預測，可有效提高預測準確率，并搭建小程序平臺，將預測結果與校友資源聯系，提供高效資源，拓寬就業途徑。

數據挖掘任務可以是描述性的或預測性的，描述性數據挖掘通常使用關聯規則挖掘、聚類等技術來發現及分析隱藏在大數據集中的信息，幫助智能決策；預測數據挖掘使用規則集、決策樹、神經網絡和支持向量機等構建模型來預測新數據集的類別。

本文通過建立校友的信息庫，包括學籍、專業、成績及科研競賽能力指標及就業等信息智能動態[4]，利用邏輯推導、機器學習、分析量化，完善數據庫中的校友信息，同時對校友的專業、從事行業及薪資目標等相關信息行為進行挖掘與需求分析，構建出符合在校學生需求的行為模式，對其可能從事的工作及活動進行預測，并基于預測結果進行精準校友信息推送。

1 數據處理

本文以西安某高校部分畢業生的就業數據和基本信息為研究對象，從2000—2020年畢業生中按年份隨機抽取，再對數據進行清理，消除缺失值的數據，更正不一致的數據，識別異常值以及刪除重復數據后，共提取553條有效記錄。主要使用學位、學校類型、專業類型、成績及科研競賽能力、家庭背景、戶口性質、單位類型、發展前景、是否專業對口、是否達到薪資期望10類對擇業影響較大的屬性。

由于數據項目各屬性間不是簡單的映射關系，因此為了便于模型的建立，將定性數據均改為數值型數據?？紤]到本文中屬性種類較多，因此采用一種比one-hot法更為緊湊的編碼方式，如對于學歷屬性， 00表示學士學位、01表示碩士學位， 10表示博士學位。根據上述規則，處理所有屬性的結果如表1：

其中，專業類別描述如表2：

同理，對于戶口性質：A7=0表示該學生為農村戶口，A7=1表示城市戶口。對于家庭背景：A8=0表示該學生家庭背景較差即家庭人均年收入1.5萬元以下，A8=1表示家庭背景較好即家庭人均年收入1.5萬元以上。對于成績及科研競賽能力：A9=1表示該學生成績處于專業前50%或在各類競賽中取得過較高獎項，A9=0表示成績較差且不曾在科研競賽中取得成果或獎項。

對于即就業情況屬性進行定義及處理：

其中，專業對口描述如下：

基于行業和專業的定義，判斷從事行業或職位于專業是否相關，即學生在學校學習的專業類別與之后從事行業所需要專業技能，是否存在直接相關性。例如，本科學習的是信息技術類專業，之后進入計算機行業從事技術開發人員便為行業與專業相關，反之若進入經濟行業，從事工商管理工作，則為行業與專業不相關。即R1=0表示該學生就業后從事行業或職位與專業不相關；R1=1表示從事行業或職位與專業相關。

發展前景描述如下：

發展前景是一個崗位能賦予個人提升的空間，依據當下普遍情況對所收集數據中的崗位進行劃分，例如，某中小企業普通員工或管培生，該崗位能賦予個人提升的空間較小，因此定義為發展空間較小。即R2=0表示該生所在行業為或職位可發展空間較??；R2=1表示所在行業為或職位有較好前景。

單位性質描述如下：

龍頭企業是指對于同行業其他企業具有深刻影響力、召喚力、一定示范作用和指導作用，并對本地區、本行業、本國做出較為突出貢獻的企業。例如，數據中的京東物流、華為技術有限公司等。反之，通過企查查及天眼查等平臺調研，將營業收入500萬元以下的定義為小微型企業，例如，數據中某西安留學機構或某小型自媒體公司。即R3=0表示該學生從事自由職業或所在單位為小型公司，較不穩定；R3=1表示所在單位為國企或某行業龍頭企業，較為穩定。

薪資期望描述如下：

預期薪資則是新人在步入行業之初，對于因向所在的組織或企業提供勞務而獲得的各種形式的酬勞的期望，如果所給薪資達到或者超于期望，則表示預期薪資達標。即R4=0表示不能達到預期薪金期望；R4=1表示可以達到預期薪金期望。

2 加權隨機森林模型

在基于機器學習模型的研究中，關于數據分類及數據挖掘的研究有很多，但針對將高校學生求職相關行為數據與校友資源聯系的探討較少。在查閱相關文獻后，通過對基本分類算法的對比和分析[15]，發現隨機森林（Random Forest，RF）模型對于本研究數據集具有較優的分類準確率。

梯度提升技術常被用于機器學習中的回歸和分類問題，其原理為：如果預測模型每個步驟的損失函數都是基于梯度產生的，那么它每個步驟產生預測模型稱為弱預測模型（例如決策樹模型），然后將弱預測模型以集合的形式再次生成預測模型，該過程稱為梯度提升技術。即如果一個問題有一個弱預測模型，那么通過升級技術可以得到一個強預測模型[16]。

本文主要采用基于Bagging策略的加權隨機森林算法[17]，其原理為：首先，用Bootstrap采樣法從樣本集中生成n個訓練樣本集，并分別在每一個訓練樣本集中隨機選擇K個屬性，其次從這K個屬性中選擇出最佳的 [k≤K]個屬性作為分割屬性，以這些選出的分割屬性為節點，創建決策樹（單訓練樣本集的結果如圖1所示），最后由n棵決策樹生成隨機森林。由于在隨機森林構建的過程中，各決策樹之間沒有相關關系，所以對每棵決策樹的葉節點進行加權處理，再并行處理上述步驟，直至可以形成權重達標的隨機森林模型。

3.1 加權隨機森林預測過程

本文將根據分類能力設定相應決策樹的權重，通過二次訓練構造改進的加權隨機森林模型。其訓練流程圖如圖2所示。

加權隨機森林的構建流程為：首先將訓練樣本集引入，并用Bootstrap自助法在這些訓練樣本集中有放回隨機抽取k個樣本集，組成k棵決策樹，同時，若存在未被抽取的樣本，則用其構建單棵決策樹；如果最終形成的決策樹個數等于集合數，則對該決策樹進行二次訓練，否則選擇新的決策樹個數，再重復上述步驟直至個數達標。二次訓練時，首先設置每個葉節點的投票權重初始值為0.5，隨后將一組完整訓練樣本集輸入到每個決策樹中；當樣本到達葉節點后，再根據正確樣本數與總樣本數的比值再一次調整葉節點權重；重復上述步驟直至葉節點權重達標。最后由生成的決策樹及其達標權重構成加權隨機森林，再運用生成的加權隨機森林對待分類樣本進行分類或預測。

3.2 結果分析

本文對于專業類別、學歷、戶口性質、家庭背景及成績及科研競賽能力五個學生自身屬性利用隨機森林算法進行計算，其中樹的數量這一參數設置為1000，得到特征重要性評分：專業：0.120961；學歷：0.345027；家庭背景：0.223205；戶口性質：0.078136；成績及科研競賽能力：0.226671。其類似決策樹回溯的取值，從葉子收斂到根，根部重要程度高于葉子。

可以看出特征選擇分數從高到低排列為學歷、成績及科研競賽能力、家庭背景、專業類別、戶口性質，將各特征重要性結果進行可視化后得到圖3。

首先對數據進行預處理，使得數據更加有效的被模型或者評估器識別。按照特征重要性進行排序，此處選擇前三的特征，并將每個特征值歸一化；將原始數據進行線性變換到[0，1]區間，進行標準化處理以加速收斂，并開始對模型進行訓練。根據其特征對專業對口、薪金期望等利用RF算法進行預測。將處理后的576組數據劃分訓練、實驗、測試集進行訓練后，得到模型的準確率為： RandomForest： 0.823，即輸入個人特征后，通過該加權隨機森林模型得到的未來就業屬性具有82.3%的準確率。

通過上述模型得到結論：首先，學生的學歷對于未來就業時所在單位類型、能否專業對口、具有良好發展前景且達到薪資期望影響最大，具體來說，學歷越高則越有可能在專業對口領域就業于國企或龍頭企業，且具有良好發展前景容易達到薪資期望。其次，成績及科研競賽能力和家庭背景的影響較大，良好的成績或優秀的科研競賽經歷更容易爭取到優質就業崗位，而良好的家庭背景在學生就業抉擇時可以給予一定的外部支持和機遇；然后，專業對于未來就業影響所占比重較??；最后，戶口性質影響最小。

隨著后續數據量的增加，預測的準確率也將逐步提升。例如，輸入個人特征：新傳類專業、碩士學歷、城市戶口、家庭背景較好、成績及科研競賽能力較強，則通過模型訓練得到就業屬性的預測結果：未來能夠在專業對口領域就業、達到薪資期望，所在單位更可能是國企或龍頭企業，具有較好發展前景，其結果如圖4。

通過實驗分析及結果可以看出，基于加權隨機森林的分析方法完成了對學生就業情況的預測，結果與現實情況較為符合，學生可以根據自身的屬性得到自己未來最有可能的就業情況，有針對性地進行自我提升。

3.3 加權隨機森林模型評價

對于分類問題，應用隨機森林不僅可以評估各個特征在分類問題上所占權重，即反應各屬性的重要程度，而且數據中的異常值或缺失值對隨機森林的影響并不明顯，具有較好的分類結果；但當訓練數據噪聲較大時，容易產生過度擬合現象。本論文使用了加權隨機森林算法，通過引入二次訓練對投票權重進行修正，進而使得分類器的分類性能更加高效，具有更高的準確率。

為直觀展示本文中加權隨機森林方法的預測性能，隨機森林方法及決策樹方法進行對比，采用三種方法的預測高校學生就業屬性的準確率如圖5。對比結果有效驗證采用加權隨機森林方法的結果相比于另兩種方法與實際情況更接近，具有更優越的預測性能。

3.4 校友行為大數據關聯及交互

此外，還可以根據校友特征進行數據挖掘，以此實現更加精準的推薦和校友關系網的相關構建；并且采用聚合的方法提取較復雜校友信息中的主要特征，然后對這些特征進行深層次、多屬性的聚合和挖掘，構建校友關系網絡；同時還可以將相關企業的人事招聘信息、產品信息以及優秀畢業校友的相關活動信息及時地并且精準地推薦給用戶。未來還可以進行針對性的引導、消息推送和跟蹤服務，增強校友之間工作的廣度和深度。

通過初期的需求分析，平臺選用了微信小程序這一成熟的體系開發，同時建立相應的微信公眾號來方便平臺推廣和用戶使用。該平臺在前端交互頁面設有條件篩選、質量分析、校友互通、趨勢研判這四大核心功能模塊，用戶可以提供學號、入學畢業年份、姓名等個人信息完成初始化，以此使用相應的信息智能篩選、分析和預測服務。其中趨勢研判模塊可以基于用戶的初始化信息來預測未來的發展前景、就業單位是否穩定以及能否獲得期望薪資。

與其他類似平臺相比，本平臺基于微信小程序、公眾號這一套成熟的體系開發，既方便積累用戶和快速傳播，又降低了開發和維護的成本。與一般就業平臺相比，本平臺基于機器學習對海量校友資源信息進行智能分析并訓練預測模型，提高了用戶搜尋信息的效率，還可以讓用戶評估個人狀態，預測未來就業狀況，幫助用戶明確當下的學習和發展的方向，提高未來的就業成功率。就平臺發展性而言，本平臺會在用戶允許的前提下收集信息，擴充校友資源數據庫增強評估的全面性，并訓練相應模型提高預測的準確率。就平臺影響而言，本平臺可以充分調動和利用校友資源為學生就業創造機遇，加強在校生與校友之間的聯系，提高學校的知名度和影響力，前景可觀。

4 結論

現有的大學生就業預測較少有使用隨機森林算法，且沒有與校友資源聯系并進一步通過平臺實現。本文采用加權隨機森林模型，提高了算法預測準確性，對就業影響因素進行一系列分析，為在校學生的發展和畢業去向提供可靠參考。同時并搭建小程序平臺，將預測結果與校友資源聯系，提供高效資源，拓寬在校生就業途徑，促進在校生求職方向的明確。

未來將通過小程序平臺繼續收集信息，進一步擴充校友資源數據庫，通過增加屬性標簽改進模型預測精度，增強評估的全面性。

參考文獻：

[1] 沈華榮，林琰旻.新形勢下構建母校與校友發展共同體促進就業新模式探討——以浙江大學校友企業總部經濟園為例[J].科教文匯（下旬刊），2020（4）：15-16.

[2] 楊敬超，楊彩霞，楊旻諦，等.大數據背景下校友資源智能共享平臺建設[J].辦公自動化，2020，25（18）：62-64.

[3] 封志彬.基于發揮校友作用拓寬就業途徑的思考[J].產業與科技論壇，2022，21（1）：212-213.

[4] 鄭蘭，劉翎雁，秦昔蘭.基于Logistic回歸模型的數學專業大學生擇業就業對比分析[J].考試周刊，2016（55）：55-56.

[5] 桑海風，姜鳴地，路鐘喬，等.基于決策樹的大學生職位晉升影響因素數據挖掘算法[J].北華大學學報（自然科學版），2019，20（6）：836-840.

[6] 張光榮.基于決策樹算法和關聯規則分析方法的學生就業數據分析[D].西安：陜西師范大學，2014.

[7] 李亞東.數據挖掘技術在高職院校學生就業指導中的應用研究[J].創新創業理論研究與實踐，2019，2（17）：149-150.

[8] 黃博宇.數據挖掘的大學畢業生就業預測研究[J].微型電腦應用，2021，37（11）：171-173.

[9] 谷月.基于機器學習算法的高校學生就業去向預測[J].微型電腦應用，2022，38（2）：172-175.

[10] 李路瑤.基于層次聚類的大學生就業去向短期預測系統[J].吉林大學學報（信息科學版），2022，40（1）：64-70.

[11] 宋家琦，邵忠剛.“校友推薦”就業平臺的研發及其前景分析[J].信息通信，2018，31（11）：263-264.

[12] 楊敬超，楊彩霞，楊旻諦，等.大數據背景下校友資源智能共享平臺建設[J].辦公自動化，2020，25（18）：62-64.

[13] 熊露露，王方士.高職學生就業因素分析與就業預測模型構建[J].現代計算機，2021，27（33）：39-43.

[14] 羅雪梅，韓存鴿，卓杰.關于高校就業預測模型應用研究[J].長江信息通信，2021，34（11）：102-104.

[15] 徐秀娟，白玉林，徐璐，等.惡劣天氣情況下基于隨機森林算法的交通流量預測[J].陜西師范大學學報（自然科學版），2020，48（2）：25-31.

[16] 王宇燕，王杜娟，王延章，等.改進隨機森林的集成分類方法預測結直腸癌存活性[J].管理科學，2017，30（1）：95-106.

[17] 楊飚，尚秀偉.加權隨機森林算法研究[J].微型機與應用，2016，35（3）：28-30.

【通聯編輯：李雅琪】