?

基于聚類技術的網絡學習行為數據分析研究

2017-05-19 03:30陳萍
電腦與電信 2017年4期
關鍵詞:點數數據表平均值

陳萍

(廣東青年職業學院計算機工程系,廣東廣州 510507)

基于聚類技術的網絡學習行為數據分析研究

陳萍

(廣東青年職業學院計算機工程系,廣東廣州 510507)

在“互聯網+”時代,網絡學習已經成為學校教育教學的重要組成部分。文章選取某高職院?!队嬎銠C應用基礎》網絡課程為分析對象,運用聚類技術對高職院校學生在線學習行為進行數據分析,建立學生特征分類模型,為教師優化教學提供決策參考、為學生推送學習建議,以提高網絡教學的效果。

聚類技術;網絡學習行為;計算機應用基礎;數據分析

1 引言

隨著移動互聯網、云計算、大數據為特征的新一代信息技術的快速發展,學生獲取知識的方式也與時俱進,結合在線學習和面授教學的混合式學習方式正在高職院校日益興起。作為一名高職教師,作者積極參與學院的網絡教學資源建設,運用網絡信息技術手段進行教學。同時,在教學實踐中產生了一些困惑:學生的考試成績與其在線學習行為、特征是否有關聯呢?什么樣的學習行為是有效的?教師該如何優化網絡課程,為學生提供更具有個性化的教學服務?同時,發現學院的教學管理信息系統、網絡自主學習平臺積累了大量的教學數據,比如學生的基本信息、登陸數據、闖關學習、測試及學習交流等數據。因此,希望借助聚類技術等數據挖掘方法,對學生在線學習數據進行分析,探索問題的答案。

2 聚類技術挖掘和K-means聚類算法

2.1 基本概念

數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的,但又潛在有用的信息和知識的過程[1]。近年來,信息化引領著教育模式不斷創新,在線學習系統、智能手機應用、社交網絡、MOOC課程等提供了大量的數據,教育數據挖掘及分析也成為教育領域的熱點。

聚類分析是數據挖掘應用的主要技術之一,可作為發現數據分布和模式的獨立工具。例如,在保健業,聚類分析腰椎間盤突出患者有哪些不良的生活習慣,可以幫助預防和保??;在證券業,可以聚類分析客戶的投資熱點板塊。聚類分析屬于動態分類的方法,分類的數目是未知的,把數據集分為若干不同類別,使同類數據盡可能相似,異類數據盡可能相異。

2.2 K-means聚類算法

聚類分析包含許多算法,其中基于距離的方法最直觀,劃分聚類算法就是其中的一種,劃分聚類算法中最常用的方法是K-means聚類算法,其他許多方法都是在此基礎上演變的。聚類算法K-means是一種被廣泛應用于科學研究的經典算法,許多統計分析工具軟件包都使用它來進行聚類分析。算法的核心思想是通過迭代,把數據集劃分為聚類性能最優的不同類別。算法主要步驟如下:

(1)在包含m個數據對象的數據集中,任意選p個作為聚類中心的初始點。

(2)計算每個數據對象與聚類中心初始點的距離,并把它劃分到距離最近的初始點所表示的類別中。

(3)重新計算每個有變化聚類的均值。

(4)循環執行(2)到(3)直到每個聚類比較穩定,即誤差平方和標準函數的值為最優。

(5)輸出聚類的最終結果。

3 學生網絡學習行為的聚類分析

3.1 確定挖掘目標

近幾年,高職院校的《計算機應用基礎》課程普遍采用“網絡自主學習平臺+線下課堂教學”的混合式教學模式,課堂教學的學時大量縮減。作為公共必修課,學院往往要求非計算機專業學生要通過計算機I級考證,而學生個體之間存在較大的差異性,因此,要提高考證通過率,教師要引導學生有效地進行網絡自主學習。

已有研究,網絡學習行為與網絡學習效果有密切相關[2]。因此,通過網絡學習平臺獲取學生的學習行為數據,應用聚類技術,建立學習者特征模型,有利于教師掌握學生的學習特征,從而優化教學策略。

3.2 數據采集

本研究選取某高職院?!队嬎銠C應用基礎》網絡自主學習平臺2015級新生的數據作為數據源,保存為excel格式,格式如表1所示;選取由廣東省高等學校教學考試管理中心提供的學生期末考證成績表,保存為excel格式,如表2所示。

表1 自主學習情況表

表2 考證成績表

3.3 數據預處理

根據原始數據表,采用Microsoft SQL Server 2008建立數據庫。數據表包括:

(1)自主學習情況表(study_student),該數據表主要包含的字段有student_ID(學號)、name(姓名)、major(專業)、class(班級)、cgcs(闖關次數)、cgds(闖關點數)、passds(通過點數)等信息。

(2)考證成績表(score_student),該數據表主要包含的字段有department(系別)、major(專業)、class(班級)、student_ID(學號)、kzcj(考證成績)等信息。

為了有效挖掘,需要對以上數據表進行數據清理,避免出現包含噪聲、不完整、不一致的數據。例如采用忽略元組法將缺考、休學、退學、轉學學生的相應記錄刪除;個別學生由于某些原因,沒有正確錄入分數的,把分數補錄正確。通過數據預處理,采集到1359條有效數據記錄。

根據聚類分析挖掘需要,把自主學習情況表(study_student)和考證成績表(score_student)結合生成一張新的數據表,并根據經驗選擇網絡學習行為,將對分析影響較小的一些冗余字段(如姓名、考試時間、考場、系別等)和意義相似的重復字段(如闖關點數)刪除,得到挖掘目標數據表。kmeans聚類算法不適合處理離散型屬性,因此數據集采用連續性描述屬性,建立挖掘模型結構如表3所示。

表3 學生網絡學習行為聚類分析的建模數據結構

3.4 聚類分析的應用

采用Microsoft SQL Server 2008 Analysis Service(SSAS)的K-means算法進行挖掘,算法運行的硬件平臺:Intel Core I3-3220、4G內存,軟件平臺:Windows7、SQL Server 2008。將考證成績(kzcj)作為主要預測對象,闖關次數(cgcs)和通過點數(passds)作為輸入對象,建立聚類挖掘模型。

用K-means聚類算法進行數據挖掘,得到網絡學習行為的主要分類,如圖1所示。在分類剖面圖中,每個分類屬性以及屬性的分布顯而易見,列標題處顯示各分類的統計數據。菱形圖顯示連續屬性,表示每個分類的平均偏差和標準偏差。在7個分類中,學生人數最多的是分類1、分類2、分類3。分類1中網絡學習行為cgcs和passds的值適中,分類2中cgcs和passds的值較大,分類4中cgcs和passds的值偏低。

圖1 聚類挖掘分類剖面圖

3.5 聚類挖掘結果分析

通過分析學生網絡學習行為分類剖面圖,歸納出以下幾種存在顯著差異的網絡學習行為特征:

A類:學習積極型。此類的典型代表是分類2,人數較多;學生在學習方面積極追求上進,闖關次數和通過點數非常高,考證成績優良。分類2的特征表現為:闖關次數(cgcs)的值介于89到135之間,平均值為112.01;通過點數(passds)的值介于80到93之間,平均值是88.6;考證平均成績為81.23分。

B類:學習中等型。此類的典型代表是分類1,人數最多;學生在學習方面表現一般,各項指標適中,考證成績也一般。分類1的特征表現為:闖關次數(cgcs)的值介于36到76之間,平均值為55.69;通過點數(passds)的值介于27到64之間,平均值為45.59;考證平均成績為72.07分。

C類:學習危機型。此類的典型代表是分類5和分類6,學生的闖關次數和通過點數偏低,學習效率偏低,考試不及格率偏高。分類5的特征表現為:闖關次數(cgcs)的值介于13到33之間,平均值為23.1;通過點數(passds)的值介于9到26之間,平均值為17.71;考證平均成績為64.43分,考試不及格率較高,達到40.24%。分類6的考試不及格率次高,達到33.9%,具體特征為:闖關次數(cgcs)的值介于28到41之間,平均值為34.62;通過點數(passds)的值介于24到32之間,平均值為28.25;考證平均成績為66.65分。

D類:學習消極型。此類的典型代表是分類4,學生學習積極性非常低,闖關次數和通過點數非常低,考試成績不及格可能性最高,達到70.95%。具體特征表現為:闖關次數(cgcs)的值介于0到17之間,平均值為8.89;通過點數(passds)的值介于0到12之間,平均值是6.11;考證平均成績為52.52分。

通過學生網絡學習行為特征的分析,教師可及時發現學生學習上的問題并“因材施教”。

(1)針對A類層次學生,給予高度的贊揚,向他們推薦一些與專業結合的,注重能力和技能的培養的綜合實訓案例,甚至推薦拓展學習課程,比如計算機二級課程辦公軟件高級、Photoshop圖像處理等。

(2)針對B類層次學生,找準切入點,適當給予激勵。中等生往往有“比上不足,比下有余”的心理,教師要善于發現他們身上的閃光點,也是激勵他們進取的切入點,引導學生進行自主學習與協作學習,注重實踐動手能力的提高。教師可提供反應學科前沿的相關案例,激發學生思考;提供綜合能力測試題,鼓勵他們多做多練,爭取穩中有提升和突破。

(3)針對C類層次學生,要增強他們的危機意識,避免考試不及格。教師需要定期檢查和督促他們的學習進度,向他們推薦一些重點知識點,提供重點習題、重點復習資料,傳授學習方法與技巧,爭取提高考試通過率。

(4)針對D類層次學生,給予嚴肅的批評教育,并提供課程導學資料、基礎練習和復習資料,安排優秀學生給予“一對一”學習幫扶,幫助學生逐步建立學習的自信心。

通過觀察四類學生特征,可以預見:加強網絡自主學習、加強知識點的在線闖關測試對學生考證所起的積極作用較大。

有學者指出:網絡課程結構體系相對完整,學生網上學習時間和次數就會增長[3]。因此,教師要優化網絡平臺的學習資源,設計分層次學習資源,以滿足不同層次學生的學習需求;跟蹤學科動態,增強課程的吸引力,提高學生學習興趣;設計計算機水平摸底考試,幫助學生認識自己的信息技術起點水平,制定學習目標和計劃,選擇合適的學習方法,有計劃地自主學習;激勵學生爭當積極型學習分子,及時發現和解決疑惑知識點,切忌臨考抱佛腳。

4 結語

本文采用了聚類分析方法對學生網絡學習行為進行分析,讓教師更深入地了解學生,為“因材施教”提供決策參考,輔助修正學生不良的網絡學習行為,向學生推薦好的網絡學習策略、學習資源。數據挖掘的方法很多,在實際應用中,還可以用其他方法或者多種方法結合起來進行分析研究。實踐表明,對大量的數據進行挖掘和分析,可以幫助我們更好地提升網絡教學效果。

[1]Han,M Kamber.Data Mining:Concepts and Techniques[M].San Mateo,CA:Morgan Kaufmann,2001.

[2]傅鋼善,王改花.基于數據挖掘的網絡學習行為與學習效果研究[J].電化教育研究,2014(9):53.

[3]孫瑩,程華,萬浩.基于數據挖掘的遠程學習者網上學習行為研究[J].中國遠程教育,2008(5):44-47.

Analysis of Network Learning Behavior Data Based on Clustering Technology

Chen Ping
(Guangdong Youth Vocational College,Guangzhou 510507,Guangdong)

tract】 In the era of"Internet+",online learning has become an important part of school education.This paper takes the course of Foundation of Computer Application as the analysis object;uses the clustering technology to analyze the online learning behavior data of higher vocational college students;establishes the classification model of student characteristics,to provide decision-making reference for teachers and learning advice for students,to improve the effect of network teaching.

words】 clustering technology;network learning behavior;foundation of computer application;data analysis

TP311

A

1008-6609(2017)04-0031-03

陳萍(1976-),女,廣東湛江人,碩士,講師,研究方向為數據庫應用、計算機教育等。

廣東青年職業學院校級科研項目,項目編號:Y B 201401。

猜你喜歡
點數數據表平均值
平均值的一組新不等式
由時變Lévy噪聲驅動的隨機微分方程的平均值原理
湖北省新冠肺炎疫情數據表
基于列控工程數據表建立線路拓撲關系的研究
看不到的總點數
畫點數
多核并行的大點數FFT、IFFT設計
圖表
平面圖形中構造調和平均值幾例
基于電流平均值的改進無功檢測法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合