?

基于決策樹算法在學生成績上的應用

2019-04-10 07:01薛亞楠楊曉東
科技資訊 2019年36期
關鍵詞:數據挖掘

薛亞楠 楊曉東

摘 ?要:決策樹是從一組無規則并且無次序的數據集中求解分類問題的重要技術。決策樹不僅是從數據集中生成分類器的有效方法,同時也是數據挖掘技術中一個活躍的研究領域。通過決策樹挖掘可以對數據進行分類。該文以學生學習態度、完成作業情況、考勤等為因素,利用決策樹技術分析影響學生成績的因素,對學生成績的影響因素加以探討。

關鍵詞:數據挖掘 ?決策樹方法 ?學生成績

中圖分類號:G64 ? 文獻標識碼:A 文章編號:1672-3791(2019)12(c)-0083-02

在數據挖掘和數據分析中,決策樹起著非常重要的作用,其可以構建一個決策系統,對數據進行預測。決策樹的結構類似樹型結構,利用樹的結構將記錄進行分類,樹的一個葉結點就代表某個條件下的一個記錄集。并根據記錄字段的不同取值建立分支,以此重復,便可生成決策樹。根據決策樹的結構對數據集中的屬性值進行測試可以對未知數據對象進行分類識別。決策樹的常用算法包括:ID3算法、C4.5算法、CART算法、CHAID算法等。

1 ?決策樹方法的特點

決策樹因其形狀像樹。所以特點包括:(1)一個決策樹由一系列節點和分支組成。(2)節點和子節點之間形成分支,節點代表著決策過程中所考慮的屬性,不同屬性值形成不同分支。

基于CLS算法思想和Quinlan的ID3算法思想,改進的決策樹學習算法如下。

(1)生成一顆空決策樹和一張訓練樣本表。

(2)若訓練樣本集T中的所有樣本都屬于同一類,則生成結點T,并終止學習算法。

(3)根據最大信息增益的原則,先從訓練樣本屬性中選擇信息增益最大的屬性,并生成測試性結點,即根結點A。

(4)若A的取值為a1,a2,…,am,則根據A取值不同,將 T劃分為m個子集T1,T2,…,Tm。

(5)對每一個Ti(1≤i≤m),轉步驟(2)。

2 ?實證分析

該研究用例是采用某大學學生期末數學成績數據作為挖掘對象,數據來源于網絡。通過挖掘分析,找出影響學生成績的主要因素。該文采用基于ID3算法的改進算法建立決策樹。建立決策樹,應從以下屬性考慮:(1)學生對數學課的感興趣程度;(2)學習態度;(3)出勤情況;(4)獨立完成作業情況。

如表1所示,經過數據處理后的數據成績信息的訓練集,將考試結果分為4類。具體為:A(優秀)、B(良好)、C(及格)、D(不及格)。我們的輸出結果是A、B、C、D,一共30條記錄。其中,取值為A的記錄有17個,取值為B的記錄有9個,取值為C的記錄有2個,取值為D的記錄有2個。則樣本S記為:S1=17,S2=9,S3=2,S4=2。

根據熵的計算公式,得到:

下面計算信息增益:分別以“對數學課感興趣的程度”“學習態度”“課堂考勤”等作為根結點,計算其信息增益。以屬性“對數學感興趣的程度”作為根節點。取值為感興趣的記錄有17個,其中有14個A、2個B、1個C,0個D;取值為一般的記錄有11個,其中有3個A,7個B,0個 C,1個D;取值為不感興趣的記錄有2個,其中1個D,1個C,0個A,0個B。

計算其相應的熵:

然后計算其相應的信息增益:

同理,我們得到了以上4個屬性相應的信息增值Gain(對數學的感興趣程度)=0.511972,Gain(學習態度)=0.708688,Gain(課堂考勤)=0.395689,Gain(獨立完成作業情況)=0.77499。

最后按信息增益最大的原則選 “獨立完成作業情況”作為根結點,并將樣本分成3個部分,然后對每一棵子樹按照遞歸的方法計算,并且進行剪枝,最后得出的決策樹如圖1所示。

從研究得到的決策樹發現,考試結果多數是A(優秀)的學生在作業完成時,獨立完成作業情況很好,對數學感興趣的學生往往考試結果也較好,多數為A(優秀)或B(良好);而相反,獨立完成作業較差或對數學不感興趣的學生,往往考試結果都不理想。另外,學生的學習態度也是一個不容忽視的因素。

3 ?結語

該文通過一個實例表述了數據挖掘技術在學生成績分析中的應用,通過決策樹方法能夠分析影響學生學習成績因素的原因,獨立完成作業情況,課堂考勤以及學習態度都對學生成績有著相互影響,通過分析影響學生成績的因素,從而制定相應的措施,達到提高教學質量的目的,同時對于學校和教師來說可以通過決策樹分析重點管理學生,幫助有效提高學習成績。

參考文獻

[1] 朱迪茨.實用數據挖掘[M].北京:電子工業出版社,2004.

[2] 魏萍萍,王翠茹,王保義,等.數據挖掘技術及其在高校教學系統中的應用[J].計算機工程,2003(11):87-89.

[3] (英)漢德(Hand,D.),著.數據挖掘原理[M].張銀奎,譯.北京:機械工業出版社,2003.

[4] 王名揚.基于數據挖掘的決策樹生成與剪枝方法[J].計算機工程與科學,2005(11):19-20.

[5] 楊清.基于決策樹的學習算法[J].湘潭師范學院學報,2005(3):24-25.

[6] 黃芳.基于數據挖掘的決策樹技術在成績分析中的應用研究[D].山東大學,2009.

猜你喜歡
數據挖掘
近十年國內教育數據挖掘領域的應用技術分析
數據挖掘技術在內河航道維護管理中的應用研究
數據挖掘技術在物流企業中的應用
數據挖掘過程模型及創新應用
數據挖掘綜述
軟件工程領域中的異常數據挖掘算法
基于R的醫學大數據挖掘系統研究
電子政務中基于云計算模式的數據挖掘研究
數據挖掘創新應用
數據挖掘的系統構成與發展趨勢
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合