?

加權樸素貝葉斯模型在高校學科評價中的應用

2016-03-25 06:13夏燕徐娜舒健馮暉
微型電腦應用 2016年1期
關鍵詞:學科分類評價指標數據挖掘

夏燕,徐娜,舒健,馮暉

?

加權樸素貝葉斯模型在高校學科評價中的應用

夏燕,徐娜,舒健,馮暉

摘 要:學科評價是高等教育評估的重要內容,是加強高校學科建設的重要手段。如何采用科學的方法開展學科評價,客觀地對學科進行分類,遴選優勢學科和潛力學科在學科建設中至關重要。提出了一種基于加權樸素貝葉斯模型的高校學科分類方法,依據不同權重的學科評價屬性和互信息量計算綜合權重,構造高校學科分類器,實現了一個自動化的高校學科分類預測系統,并對上海高校學科樣本進行應用分析。實驗結果表明,應用基于加權樸素貝葉斯模型的高校學科分類預測系統對學科進行預測分類,準確率達到86.67%,為高校學科綜合評價提供了基本依據,為新一輪學科發展戰略的制定奠定了基礎。關鍵詞:數據挖掘;樸素貝葉斯;評價指標;學科分類;學科評價

0 引言

學科是高校的基本組成單位,學科建設是高校各項建設的核心,是提高學校人才培養、科學研究和服務社會能力的基礎。目前中國大部分高校已基本完成學科布局調整,確定學科結構規模,將進入提高學科建設質量、培育學科特色、形成學科優勢、促進學科發展的階段[1]。在這一階段,積極發展高校的優勢學科和潛力學科極其關鍵。因此,如何采用科學的方法開展學科評價,客觀地遴選優勢學科和潛力學科至關重要。目前,高校學科評價的指標體系,由師資隊伍與資源、科學研究水平、人才培養質量、學科聲譽等4大方向組成。借助權威數據庫對各方向的客觀數據進行分析,通過數據挖掘的方式確定優勢學科和潛力學科是學科建設過程中常用的方法。目前,常采用的數據挖掘方法為文獻計量法,通過與論文相關的各指標對學科進行評價,確定優勢和潛力學科。但是,僅從科學研究水平中論文的視角進行評價,難以真正實現科學全面的學科評價[2]。因此,建立一套基于客觀數據的學科評價體系,科學地對高校學科進行分類,使教育主管部門和學校便捷地了解學科發展的現狀,促進我國高等教育的健康快速發展,已成為高等教育研究的一個熱點課題。

本文提出了一種基于加權樸素貝葉斯模型的高校學科分類方法,依據不同權重的學科評價屬性和互信息量計算綜合權重,構造高校學科分類器,實現了一個自動化的學科分類預測系統。探索了數據挖掘技術在高校學科評價中的應用,為高校學科建設提供了基本依據。

1 相關工作

優勢學科和潛力學科是世界一流學科發展的基礎,它們在學科集群化發展過程中擔當主體學科,利用學科間的優勢互補,帶動相關學科共同發展。目前可通過學科評價的方式確立優勢和潛力學科。高校學科評價的研究工作,可分為以下幾類?;诖髮W專業排名的學科評價,如英國泰晤士高等教育排名(THE)[3],美國新聞與世界報道排名(USNWR)[4],中國教育部學位與研究生教育發展中心學科排名(CDR)[5]?;诳茖W映射的學科評價,如荷蘭萊頓大學科學研究中心(CWTS)啟動的“基于映射的文獻計量”項目[6]?;诎l展態勢研究的學科評價,如法國科學研究中心(CNRS)長期以來對高校學科進行的價值評價[7]?;诳茖W基金管理的學科評價,如英國生物技術與生物科學研究理事會(BBSRC)對其資助的生物類學科開展的評價工作[8]。以上各類學科評價主要采用傳統的專家評價法和文獻計量法相結合的方式,對高校學科進行評價,存在評價流程復雜,評審結果容易受到主觀性影響等缺陷。

為了解決目前學科評價工作中存在的問題,本文提出了一種基于加權樸素貝葉斯模型的高校學科分類方法,構建了一個自動化的高校學科分類預測系統,并對上海高校學科樣本進行應用分析,為教育主管部門和高校進行學科綜合評價和制定學科發展戰略提供基本依據。

2 基于加權樸素貝葉斯模型的高校學科分類方法

基于加權樸素貝葉斯模型的高校學科分類方法,依據學科評價屬性的權重和互信息量計算綜合權重,構造高校學科分類器。

2.1 基本定義

其中sik 是評價屬性Ak中具有值xk 的類別屬性Ci 的樣本數,si是樣本數據集S中類別屬性為Ci的樣本數為公式(7):

定義6 考慮到不同評價屬性對分類的影響不一致,對評價屬性按其重要性賦予不同的權值,未知數據樣本X的目標類別定義擴展為公式(8):

其中,wi表示評價屬性的權重。權重越大,該評價屬性對分類決策的影響越大。

定義7 評價屬性Ai的權重wi定義為公式(9):

其中,λi可依據高校學科評價指標體系中不同評價指標的權重進行度量。δi可根據評價屬性Ai與類別屬性Cj的互信息量計算,

2.2 方法流程

根據上述相關定義給出基于加權樸素貝葉斯模型的高校學科分類方法,流程描述如方法1所示:

方法1: 基于加權樸素貝葉斯模型的高校學科分類方法DCM-WNBM (Discipline Classification Method based on Weighted Naive Bayes Model)輸入:訓練樣本集Samples,評價屬性集E_Attributes,類別屬性集C_Attributes輸出:加權樸素貝葉斯分類器方法:DCM-WNBM(Samples, E_Attributes, C_Attributes) Begin掃描訓練樣本集Samples,統計類別屬性集C_Attributes中各屬性的概率概率學習:根據式(5-1)和(5-2),對評價屬性集E_Attributes中各屬性計算所有劃分的先驗概率權重值學習:根據式(7),對評價屬性集E_Attributes中各屬性計算權值生成加權樸素貝葉斯模型的概率統計表和權重值統計表。調用概率統計表及權重值統計表中數據,根據式(6),生成基于加權樸素貝葉斯模型的高校學科分類器。End

3 基于加權樸素貝葉斯模型的高校學科分類方法的應用

3.1 高校學科評價指標體系

本文以教育部學位與研究生發展中心頒布的2012年學科評估指標體系[10]為依據,選取相應指標作為評價屬性。學科評價指標體系如表1所示:

表1 教育部學位與研究生發展中心頒布的2012年學科評估指標體系

3.2 高校學科評價指標數據選取

為確保數據的真實性、可靠性和權威性,與指標體系相關的原數據,可直接或間接從教育主管部門信息數據庫、高校行政部門信息數據庫、第三方電子文獻數據庫中獲取,主要包含可度量的三級指標。將數據集成到數據庫的高校學科基本信息表中,表結構如表2所示:

表2 高校學科基本信息表結構

共定義了76個評價屬性。另需設置概率統計表和權重值統計表,存儲評價屬性的概率大小和權重值。

從源數據庫中獲取的數據,易受到空缺、不一致、冗余等現象的影響,需要對數據進行清理、集成、變換、規約,做好預處理工作[11][12]。

3.3 高校學科分類預測系統

3.31 高校學科分類預測系統架構

基于加權樸素貝葉斯模型的高校學科分類預測系統的架構如圖1所示:

圖1 高校學科分類預測系統架構圖

基本過程如下。

建立模型:應用DCM-WNBM方法,在已知樣本集上進行訓練,構造高校學科分類器;

優化模型:對于已構建的分類器,采用測試樣本進行評估分析和優化。

應用模型:利用優化的分類器,對新數據樣本進行分類。

3.3.2 設定高校學科分類訓練樣本集

本文將研究重點放于上海高校學科評價上,對上海高校各學科進行分類。依據教育部學位與研究生教育發展中心2012年學科評估結果,將上海高校學科分為4類,頂尖學科、優勢學科、潛力學科、一般學科,在數據庫中設立類別屬性。對于極少量未參加2012年學科評估的學科,由上海教育行政部門專家,根據該高校歷年學科建設的基本數據和2012年學科評估指標體系,進行綜合評價,判定其類別屬性。

上海高校學科分類訓練樣本集示例,如表3所示:

表3 上海高校學科分類訓練樣本集示例

表3中選取了上海26所高校的98門學科作為樣本,其中,屬性,為“高校學科基本信息表結構”中定義的評價屬性。將應用DCM-WNBM方法對上海高校學科分類樣本集進行訓練,生成基于加權樸素貝葉斯模型的高校學科分類器。

3.3.3 建立高校學科分類器

運行高校學科分類預測系統,分類預測模型從數據庫表文件“上海高校學科分類訓練樣本集示例”中選擇并抽取樣本,應用DCM-WNBM方法,構建基于加權樸素貝葉斯模型的高校學科分類器。高校學科分類器預測的部分評價屬性的重要性以及評價屬性A1的先驗概率,如圖2所示:

圖2 高校學科分類器預測的部分評價屬性重要性及先驗概率

其中,左側紅色為類別屬性結點,右側藍色為評價屬性結點。運行分類器后,使用不同深淺藍色標記評價屬性的重要性高低。點擊評價屬性結點后,顯示其先驗概率。分類器預測的部分評價屬性重要性的三維分布圖及投影圖如圖3所示:

圖3 高校學科分類器預測的部分評價屬性重要性的三維分布及投影

3.3.4 評估并優化高校學科分類器

評估分類器的準確性非常重要。需使用測試樣本集,對基于加權樸素貝葉斯模型的高校學科分類器進行評估。將分類器的預測結果與實際結果進行比較,當準確率達到80%以上,表明使用該分類器進行高校學科分類,是可行和有效的。

選取2012年上海高校一流學科數據作為測試樣本集,包含22所高校的161門學科[13],從數據庫中抽取典型的60條記錄作為測試樣本。應用基于加權樸素貝葉斯模型的高校學科分類預測系統,導入測試樣本,運行分類器,對預測結果的準確率進行分析,如圖4所示:

60條測試樣本中50條樣本預測正確,預測準確率達83.33%。重合矩陣比較了各類別屬性預測值和實際值的差異,置信度報告說明了預測值的精準度。

對基于加權樸素貝葉斯模型的高校學科分類器進行評估分析后,為進一步提高分類器的準確性,可對權重計算公式的權重系數進行微調,得到優化的貝葉斯分類器。經高校學科分類預測系統評估分析后,其準確率提高到86.67%,如圖5所示:

圖5 優化后的高校學科分類器評估結果

3.4 應用高校學科分類預測系統對高校學科進行動態評價

基于加權樸素貝葉斯模型的高校學科分類預測系統通過對客觀數據的讀取,預測高校學科的類別屬性,為構建基于客觀數據的學科質量評價體系奠定了基礎。對于首次進入數據庫的上海高校學科樣本進行初始化和分類,對于已進入數據庫的高校學科樣本進行動態監測和評價。通過對學科的動態評價,教育主管部門能更便捷地了解上海高校學科的布局結構和發展現狀,為今后拓展發展性評估奠定基礎。

4 總結

在對現有的高校學科評價方法進行廣泛調研、認真分析的基礎上,我們提出了一種基于加權樸素貝葉斯模型的高校學科分類方法,構建了高校學科分類預測系統,并對上海高校學科樣本進行應用分析。此方法的研究和應用,有助于揭示高校學科的發展趨勢及所處的發展階段,預測未來可能取得的進展和突破,為教育主管部門和高校制定新一輪的學科發展戰略提供基本依據。

在未來工作中,希望根據高校學科的特點,進一步開展貝葉斯網絡在高校學科分類中的研究,對高校學科進行更科學合理的評價。

參考文獻

[1] 韓文瑜,梅士偉.把握學科規律培育學科文化促進學科發展[J].中國高等教育,2011(7):22-24.

[2] Hood W.W, Wilson C.S. The literature of bibliometrics, scientometrics,and informetrics [J]. Scientometrics, 2001, 52(2): 291-314.

[3] Marijk van der Wender. Ranking and Classification in Higher Education: A European Perspective [J]. Higher Education, 2008(23): 49-71.

[4] Jamil Salmi, Alenoush Saroyan. League Tables as Policy Instrument: Uses and Misuses[J]. Higher Education Management and Policy(OECD), 2007, 19(2): 24-62.

[5] 教育部學位與研究生教育發展中心.學科評估工作簡介[EB/OL].

http://www.chinadegrees.cn/xwyyjsjyxx/xxsbdxz/ 276985.shtml, 2013-12.

[6] Moed H F. Bibliometric Rankings of World Universities [R]. The Netherlands: Centre for Science and Technology Studies (CWTS), Leiden University, 2006.

[7] Center national de la recherche scientifique. Missions [EB/OL]. http://www.cnrs.fr/en/aboutCNRS/overview.htm, 2014-10.

[8] Aghion P, Dewatripont M, Hoxby C, et al. The governance and performance of universities: evidence from Europe and the US [J]. Economic Policy, 2010, 25(6): 7-59.

[9] Jiawei Han, Micheling Kamber, Jian Pei. Data Mining: Concepts and Techniques [M]. 3rd ed. Morgan Kaufmann, 2011: 390-395.

[10] 教育部學位與研究生教育發展中心.2012年學科評估指標體系 [EB/OL].

http://www.chinadegrees.cn/xwyyjsjyxx/xxsbdxz/ 277134.shtml, 2013-3.

[11] Carlo Batini. Data Quality: Concepts, Methodologies and Techniques [M]. Springer-Verlag Berlin and Heidelberg GmbH & Co. K, 2010: 133-143.

[12] CAI Z, Identifying product failure rate based on a conditional Bayesian network classifier [J], Expert Systems with Applications, 2011, 38(5): 5036-5043.

[13] 上海市政務門戶網.上海高校一流學科名單公布[EB/OL].http://www.shanghai.gov.cn/shanghai/no de2314/node2319/node12344/u26ai33230.html, 2012-9

Application of Weighted Naive Bayes Model in Discipline Evaluation

Xia Yan1, Xu Na2, Shu Jian3, Feng Hui1
(1.Shanghai Education Evaluation Institute, Shanghai 200031, China; 2.Shanghai Municipal Education Examinations Authority, Shanghai 200235, China; 3.Shanghai General Motor, Shanghai 201206, China)

Abstract:Discipline evaluation is an important part in higher education evaluation. It plays a significant role in discipline construction in colleges and universities. It is significant challenge how to adopt scientific discipline evaluation to choose advantageous disciplines and newly-emerging ones. This paper proposes a discipline classification method based on Weighted Naive Bayes model. It establishes Discipline Classifier according to weighted discipline evaluation attributes and mutual information. An automatic discipline classification system is implemented, verifying the method and analyzing data from universities in Shanghai. Experimental results show that the used scheme can achieve about 86.67% accuracy in forecasts. It provides advice and guidance for discipline evaluation, and establishes foundation for discipline development strategy.

Key words:Data Mining; Naive Bayes; Evaluation Indicator; Discipline Classification; Discipline Evaluation

收稿日期:(2015.11.02)

作者簡介:夏 燕(1981-),女,上海市教育評估院,工程師,碩士,研究方向:數據挖掘、高校學科評價等,上海,200031 徐 娜(1982-),女,上海市教育考試院,工程師,碩士,研究方向:軟件工程、教育信息系統等,上海 200235 舒 ?。?982-),男,上海通用汽車有限公司,工程師,碩士,研究方向:數據挖掘、自動化控制等,上海,201206 馮 暉(1970-),男,上海市教育評估院,副研究員,博士,研究方向:系統評價、高等教育管理等,上海,200031

基金項目:上海市教育委員會上海高校青年教師培養資助計劃(編號:ZZPGY14002)

文章編號:1007-757X(2016)01-0015-04

中圖分類號:TP181

文獻標志碼:A

猜你喜歡
學科分類評價指標數據挖掘
探討人工智能與數據挖掘發展趨勢
高校二級學院科研管理模式研究
基于并行計算的大數據挖掘在電網中的應用
審計學成為一級學科可行性研究
第三方物流企業績效評價研究綜述
基于UML的高校思想政治教育工作評價系統的分析與研究
公共文化服務體系評價指標的國際經驗與啟示
資源型企業財務競爭力評價研究
中醫藥信息學教育發展歷程回顧與學科發展現狀分析
一種基于Hadoop的大數據挖掘云服務及應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合