?

基于R語言的Moodle平臺數據挖掘技術的研究

2016-12-27 21:06崔新偉李家森沙嘉祥
科學與財富 2016年29期
關鍵詞:R語言數據挖掘

崔新偉+李家森+沙嘉祥

摘要:本文利用R語言對Moodle平臺的數據進行分析研究。對平臺模塊訪問總體情況、學生學習時間分布統計、師生交互網絡等進行圖形化的直觀展示。該研究有利于教師掌握學生學習的總體情況,有針對性的指導和督促學生。

關鍵詞:R語言;Moodle;數據挖掘

一、引言

隨著近年來網絡課程、在線學習等應用的興起,學習平臺逐漸積累了大量的用戶基本數據、行為數據、網絡痕跡數據等信息。而"用數據說話"、"用數據決策"等已經成為信息時代倡導的未來發展基石。因此,如何利用大量的數據挖掘出有價值的信息,成為研究者重點要解決的問題。

二、R語言簡介

R語言是一種為統計計算和圖形顯示而設計的語言環境,是貝爾實驗室(Bell Labortory)的Rick Becker、John Chambers和Allan Wilks開發的S語言的一種實現,提供了一系列統計和圖形顯示工具。它是一套開源的數據分析解決方案,由一個龐大且活躍的全球性研究型社區維護。本文主要應用R語言的如下優勢:

(1)R可以輕松地從各類型的數據源導入數據,包括文本文件、數據庫管理系統、統計軟件,乃至專門的數據倉庫。它同樣可以將專門的數據輸出并寫到這些系統中。

(2)具有高效的開放性,R不僅提供功能豐富的內置函數供用戶調用,也允許用戶編寫自己定義的函數來擴充功能。

(3)R擁有頂尖水準的制圖功能。如果希望復雜數據可視化,那么R擁有最全面且最強大的一系列可用功能。

R是一個體系龐大的應用軟件,主要包括核心的R標準包和各專業領域的其他包。R在數據分析、數據挖掘領域具有特別優勢。

三、R語言數據分析

1.moodle平臺模塊總體訪問情況研究

首先利用爬蟲爬取到Moodle平臺用戶訪問數據兩萬余條,部分數據展示如表1所示:

利用R語言提取moudle列數據,即平臺模塊列,并對提取數據進行詞頻統計,得出各模塊的詞頻數如表2所示:

利用R語言強大的繪圖功能,使用ggplot()函數對各模塊訪問詞頻數繪制圓形餅狀圖,這樣可以直觀地展現用戶對各模塊訪問情況,繪制出Moodle平臺模塊訪問總體情況餅狀圖如圖1所示:

在該課程學習的過程中,師生訪問平臺模塊的頻次統計餅狀圖,用以找出學生更熱衷于哪一版塊的學習內容。從圖1可更加直觀的看出,師生最常訪問的模塊是forum(26.3%)論壇區,課堂的討論參與的人次數較多。其次是course(24.5%)課程模塊,再次是assignment(22.6%)作業模塊,然后是resource(16.1%)資源模塊??梢?,學生在該平臺的訪問行為,都是比較集中地圍繞學習活動進行的。

2.學生學習時間分布統計

熱力圖是一種非常常用的統計圖形,該圖將兩個變量(一般是離散變量)的交叉匯總信息以顏色的形式展現出來,而映射給顏色變量的是連續型數值變量,下面就以例子說明熱力圖的優勢:

熱力圖可以通過stats包的heatmap()函數繪制,也可以通過ggplot2包中的geom_tile()函數或geom_raster()函數繪制,本文使用ggplot2包中的函數實現。

首先將所需數據進行提取,分別提取出月份、小時、分鐘信息,部分數據展示如表3所示:

通過對ggplot2包的調用,調用geom_tile()函數,繪制學習時間分布熱力圖,如圖2所示:

進一步按照月份進行分類,分析學生學習訪問時間是否與月份有關。在按照月份進行分類的同時,按上、下午進行分類,分析學生學習訪問時間是否與上、下午有關。進而細化到時間點,分析學生學習訪問時間黃金時段。利用R語言繪制學習時間分布圓餅圖如圖3所示:

由圖3可看出學生學習時間安排與月份無關,多數學生更偏向于下午學習,而每日學生學習的黃金時段為上午八點到十點,下午兩點到四點。進而通過此信息,可在此時段保證各科均有老師在線答疑,而其他時段,可輪流值班的安排方案,最大限度的提高教師指導學生的效率。

3.師生交互網絡分析

從Moodle平臺獲取的師生交互數據如圖4所示:

例如id=2的用戶,他發了id=5的留言。在圖4中有8個回復,分別是用戶id=2、30、92、66、89、49、69、2這幾個用戶。說明id=2的用戶,跟id=2、30、92、66、89、49、69、2的這幾個用戶有交互。去掉其中自己跟自己的交互,可將用戶的交互用圖5表示:

首先做數據篩選,整理出交互數據部分如表4所示:

利用R語言做交互分析,繪制師生交互網絡圖,如圖6所示:

圖6中線的透明度代表交互的強度,具體來說就是回帖的數量越多,線的顏色就越深。其中2號代表老師,用紅色表示。其他代號為學生,用藍色表示。從圖中可直觀看出學生與學生,老師與學生之間的交互情況,進發現哪些學生平時思考較多,哪些學生平時思考較少,從而使教師更加有針對性的教學。例如128、158號學生與大家交互較多,積極交流課程學習內容,而在圖中沒有出現的學生與大家交互很少,基本沒有交流課程內容。

四、結論

通過對研究樣本的詳細分析,實現Moodle平臺數據挖掘的研究。利用R語言,對平臺模塊訪問總體情況、學生學習時間分布統計、師生交互網絡等進行直觀展示。從而,發現哪些模塊學生關注度較高、哪些時間段是學生學習的黃金時段、哪些學生在平臺上的交互頻繁等情況,幫助教師更加有效的進行教學與輔導。本文的研究成果,也為類似網絡課程的學習與效果評價等提供參考。

參考文獻

[1]侯亞軍.R語言在數據挖掘中的運用[J].應用技術研究,2013

[2]李明.R語言與網站分析[M].北京:機械工業出版社,2014

[3]Matthew A.Russell.社交網站的數據挖掘與分析[M].北京:機械工業出版社,2015

作者簡介:

崔新偉,女(1980.9-),漢族,河北唐山人,碩士,講師,研究方向:數據挖掘

項目資助:中央基本科研業務費資助項目(JSJ1201,3142012053);2014年華北科技學院教研基金資助(計算機相關專業網絡編程課教學研究);河北省物聯網數據采集與分析工程技術中心建設項目

猜你喜歡
R語言數據挖掘
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
基于GPS軌跡數據進行分析改善城市交通擁擠
數據挖掘技術在中醫診療數據分析中的應用
基于R語言的湖南產業結構對其經濟增長貢獻分析
注重統計思維培養與應用為主導的生物統計學課程建設
人民幣匯率的均值回復檢驗及Hurst指數計算
一種基于Hadoop的大數據挖掘云服務及應用
R語言及ggplot2在環境空氣監測數據可視化中的應用
數據挖掘的分析與探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合