?

關聯規則算法在計算機等級考試成績分析中的應用

2021-05-14 13:57鄭秀月
開封文化藝術職業學院學報 2021年3期
關鍵詞:總成績數據挖掘題型

鄭秀月

(福州黎明職業技術學院,福建 福州 350001)

一、關聯規則

(一)關聯規則

關聯規則作為數據挖掘過程中不可或缺的算法規則,是當前在數據挖掘領域被普遍采用的甚至有可能是使用最為頻繁、應用范圍最為廣泛、研究最為深入的數據挖掘手段之一。

關聯規則的挖掘一般可以通過兩步程序來完成。第一步,定義高頻項和高頻項集合。高頻項為所有出現頻率相對高的項;所有高頻項的集合即為高頻項集,也就是支持度大于用戶給定的最低支持度的所有項的集合[1]。第二步,尋找高度關聯的規則。即從高頻度集合中找出確信度高的規則,也就是確信度比用戶給定的最低確信度大的規則[2]。

(二)Apriori 算法

Apriori 算法的重要之處在于其能影響高頻度集合的產生的準確度,是人們在運用數據挖掘技術尋找關聯規則時最早使用的算法之一。通過采用對支持度按照相應規則進行“剪枝”的技術,可以達到減少候選高頻度集合產生的目的。

該算法通過逐層剖析的方法尋找出關聯規則,基本思想如下[3]:

第一步,規則A->B 是高確信度且B 只含一個項,則將類似的所有規則均提取出來。

第二步,將通過前一步驟篩選出來的規則的結果進行整合后重新生成候選規則。

第三步,刪除確信度低于最低確信度的規則,以達到滿足高度關聯規則的原則。

二、改進的Apriori 算法

Apriori 算法是在分析支持度和確信度的基礎上運算得出結論的,并未考慮所找出的不同規則對用戶的影響程度,所找到的很多規則往往對用戶的影響并不大,因此,這里引入了第三個參數影響度。

具體操作過程如下:對根據Apriori 算法產生的規則分別計算確信度和影響度,對于規則X->Y,影響度(RI)的公式如式1 所示。

其中,P(X )、P(Y )、P(XY )分別表示X、Y 以及X 和Y 同時出現的概率,經改進后挖掘出的關聯規則除滿足支持度和確信度分別大于它們相應的最小閾值外,還應滿足影響度大于最小影響度閾值。

三、改進算法的應用

由于考試中部分題型是平時的練習原題,這里不加以考慮,本文以福州黎明職業技術學院2017—2019 學年部分學生在福建省計算機一級等級考試中的成績和學生是否為學生干部、理論知識、操作能力(Word、Excel、PowerPoint)、錄入題的得分情況為研究對象,采用關聯規則中著名的Apriori 算法對它們進行挖掘計算,得出以上各因素對總成績優秀率的影響。生成的成績表中列字段分別為姓名、性別、專業、年級、準考證號、理論知識、Word 得分、Excel 得分、PowerPoint 得分、錄入題得分、是否為學生干部和總成績等數據。

(一)數據預處理

本文運用以下方法對上述收集到的成績表數據進行預處理:一是將成績表中少量屬性值為空的記錄采用平均值填充法;二是將缺考學生的數據剔除;三是將表中對挖掘結果不產生影響的字段剔除,如姓名、性別、專業、年級。經過預處理后,剩下2500 條記錄。

(二)數據轉換

將上述預處理后學生的成績數據轉換為0、1、2 表示。具體的轉換規則如下:

計算機等級考試成績的證書分為兩個級別:優秀、合格??偡执笥诘扔?5 分為優秀用2 表示,60到84 分之間的為合格用1 表示,小于60 分的不達標用0 表示。

將是否為學生干部、理論知識、Word、Excel、PowerPoint、錄入題等題型的得分情況也參照總成績正確率大于85%為優秀,正確率在60%~85%為合格,否則為不達標的方法進行等級劃分。劃分后選擇題的3 個檔分別為:25.5~30、18~24 以及小于24;理論知識3 個檔分別為22~26、16~21 以及小于16;Word 和 Excel 的 3 個檔分別為 12~14、9~11 以及小于9;PowerPoint 的 3 個檔分別為劃分 9~11、6.5~8 以及小于8;錄入題的3 個檔分別為5、3~4、0~2。查找高頻度集合時,用布爾型0與1表示更為方便,因此,將字段理論知識、Word、Excel、PowerPoint、錄入題、是否為學生干部、總成績分別用A、B、C、D、E、F、G 表示,A0 表示理論知識為不達標,A1 表示理論知識為合格,A2 表示理論知識為優秀;運用同一方式表示B、C、D、E、G;F0 表示非學生干部,F1 表示學生干部。經轉換后最終生成的學生成績如表1 所示。

表1 經處理后的學生成績表

(三)實施數據挖掘

通過預處理上述2500 名學生的成績數據,事先假定確信度為0.5,假定影響度為1.2,假定最低的支持度為0.2,對上述轉換后的數據實施關聯規則挖掘。

首先,為找出影響成績優秀的關鍵原因,從表1 中篩選出成績優秀的記錄,刪除其余的記錄。

其次,分析上一步驟產生的成績優秀的數據,分別運算得出各種影響因素不同等級的支持度計數填入1-集合的數據表F1 中。這里只將支持度高于最低支持度的記錄添加到F1 表中。

再次,對F1 表進行自然連接分析并按規則制作出候選1-集合,并根據相應的支持度運用“剪枝”技術制作出2-集合。以次類推制作出高頻率K-集合[4]。

最后,計算根據上述步驟產生的各高頻度集合的非空子集的支持度、確信度和影響度,并與事先假定的最低的支持度、最低的確信度和最低的影響度分別進行比較,保留滿足最低的支持度和最低的確信度的記錄[5],最終產生高度關聯規則。經過數據挖掘得到關聯規則如表2 所示。

表2 關聯規則表

(四)結果分析

由表2 可以得出:理論知識和Word 得分同時為優秀時,總成績有75%優秀的可能性;理論知識、PowerPoint 的得分優秀同時為學生干部時,總成績有95%優秀的可能性;理論知識成績為合格、Excel 得分為優秀時,總成績有90%優秀的可能性;理論知識、Word 和Excel 得分均為優秀時,總成績有80%優秀的可能性;Excel 和總成績優秀時,理論知識優秀、PowerPoint 得分良好的可能性有80%;Excel 得分優秀時,Word 和錄入題得分同時優秀的可能性為90%;總成績優秀而且為學生干部時,理論知識為優秀同時PowerPoint 得分為合格的可能性為95%;總成績為優秀時,理論知識為合格同時Excel 得分優秀的可能性為92%。

通過上述數據挖掘過程,找出隱含在其中的一些有意義的規則,如不同題型間得分的關聯,是否為學生干部對Word、Excel、PowerPoint得分的影響,某些題型得分的優秀對總分的影響程度。針對如何提高優秀率,提出以下建議:

首先,理論知識掌握的優良程度對總分是否優秀起著決定性作用。因此,教師在教學過程中要重視理論知識的教學并提示學生予以正確對待。

其次,學生干部經常會幫助院部、系部整理一些文檔,Office 部分的三種題型相對掌握都挺好,能直接決定成績的優良,所以要鼓勵學生課后對課堂所學的操作知識多加練習,做到熟能生巧。

再次,Excel 作為試卷中最難的一部分,此題的得分情況能客觀體現學生的計算機操作水準。數據挖掘的結論顯示,如果學生對這部分知識掌握較好,Word 和PowerPoint 得分也相對較高,其總成績基本是優秀的。教師通過觀察學生對Excel 的掌握程度就能快速找出基礎薄弱的學生,并可針對其理論缺陷加以重點輔導。同時,可以提醒在該環節中得分高的學生要重點關注理論知識的學習,爭取在等級考試中獲得更突出的成績。

(五)結果評價

將總成績為優秀的100條數據用于測試,得出結論是否為學生干部、理論知識、Excel 得分是影響總成績的關鍵因素,從而驗證了上述Apriori 算法產生的高度關聯規則是可信的。

結語

本文主要針對Apriori 算法中未考慮所產生的規則對用戶影響程度的問題,提出了影響度閾值的改進算法。并將改進的算法應用到計算機一級等級考試成績分析中,從試卷題型等因素與總成績之間的關系角度進行數據挖掘,找出影響學生成績的關鍵因素,為教師改進教學方法提供參考,以此實現提高教師教學質量并提高學生的計算機等級考試成績優秀率的目的。

猜你喜歡
總成績數據挖掘題型
改進支持向量機在特征數據挖掘中的智能應用
離散型隨機變量??碱}型及解法
常見數列創新題型歸納
巧妙構造函數 破解三類題型
探討人工智能與數據挖掘發展趨勢
基于事故數據挖掘的AEB路口測試場景
全國高水平后備人才基地舉重錦標賽順利舉行
隨機抽樣題型“曬一曬”
軟件工程領域中的異常數據挖掘算法
謝文駿與劉翔110m欄分段成績與總成績的灰色關聯度對比分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合