?

基于大數據應用技術的學情分析系統架構分析與設計

2018-08-15 10:01李強趙晨杰羅先錄
軟件工程 2018年5期
關鍵詞:平臺設計大數據技術數據挖掘

李強 趙晨杰 羅先錄

摘 要:目前基于信息化、體驗式的教學線上和線下課堂,可通過移動端、網頁端、嵌入式設備端等捕獲大量的學情行為數據。如何采集這些線上線下產生的各種學情數據,利用采集數據的特點結合主流的大數據應用技術進行處理、分析和挖掘,并對受教育者或教育機構提供有用的決策信息成為很多研究機構的研究主題。本文基于目前學情分析系統的發展,引入大數據技術,設計了以Hadoop為核心的學情分析系統,提出了基于學情分析系統的數據挖掘并行算法分析平臺設計,實現了一種基于數據的智慧校園平臺。

關鍵詞:學情數據;大數據技術;數據挖掘;平臺設計

中圖分類號:TP301 文獻標識碼:A

1 引言(Introduction)

隨著信息技術的發展,數據無時無刻不在產生,特別是教育大數據,已經成為推動教育行業的提升和變革的強大力量?;谛畔⒒?、體驗式的教學線上和線下課堂,可通過移動端、網頁端、嵌入式設備端等捕獲大量的學情行為數據,這些數據符合大數據4V特性:海量(Volume)、多樣性(Variety)、時效性(Velocity)和有效性(Veracity),給傳統的教育數據存儲、分析和處理都帶來了極大的挑戰。在與其他行業相比,教育界對大數據的廣泛接納比其他成熟行業稍晚。但如今大數據已經慢慢走進教育的各個角落。產生了更多的教育機構和企業開始對教育大數據深入研究并構建可交互的大數據平臺。教育的大數據不僅影響學校內部治理的改革,而且會驅動整個教育領域的變革,利用大數據平臺構建每一位受教育者的用戶畫像,針對每一位受教育者給出合理的建議,從而使得教育和關愛每一個孩子成為可能。

“大數據”這一概念已經在各行業的應用獲得了極大的成功,也應運而生了“數據科學”這一嶄新科學領域,通過大數據理論基礎和框架技術可解決教育和大數據融合中所產生的問題。本文提出了教育大數據背景下運用大數據技術處理和分析教育行業數據的技術架構,并基于Hadoop技術生態圈設計了學情分析系統的技術架構及數據挖掘平臺,將其應用于學院教學質量監控。

2 學情分析概述(Overview of academic behavior

analysis)

學情分析指的是學生在學習方面有何特點、學習方法怎樣、習慣怎樣、興趣如何,成績如何等。其設計理念包括教學方法、學法指導和教學設想,根據獲取的數據研究者可以從高校創新創業教育改革、創新創業人才培養、基于產業發展需求的專業結構調整研究、學生學習行為分析、教師教授行為分析,以及個性化推薦等角度展開研究[1]。對教育大數據進行分析,需要從大量數據中進行提取與挖掘,在這個過程中包括數據的清洗、數據選擇、數據變換、數據挖掘、模式評估和知識表示等。這些分析環節的每個構成都應成為數據分析研究的重要內容,從而最大限度地保持與還原客觀事實[2]。

在如今的學校教育中,數據已成為教學改進最為顯著的指標,而更多科學決策也是基于數據而產生的。在學校的數據種類不僅僅指考試成績,也包括入學率、出勤率、輟學率、升學率等。對于具體的課堂教學來說,數據應該是能說明教學效果的,比如學生考試成績、作業正確率、上課出勤率、積極參與課堂科學的舉手次數,回答問題次數、時長與正確率,師生互動的頻率與時長等。

根據以上綜合分析,基于大數據應用技術的學情分析系統平臺研究和建設是有著重大的意義,廣東東軟學院作為全國應用型大學的典范,我們更加注重課程實踐性和學生動手能力,根據大數據分析和挖掘技術可以更加合理調整學院的學科專業、教師教授方式和學生學習方式等。同時,該平臺的建立會完善廣東東軟學院的大數據應用實踐教學體系。因此,建立和完善學情分析平臺可促進和深化學院學生的學習、教師教學實踐,以及幫助相關部門提供更加合理的計劃和建議。

3 研究現狀(Current research situation)

國外對學習和學情分析的研究起步較早,從2011年起已經積累了很多的理論基礎,近年來已經由純粹的理論概念階段發展到具體的實際應用階段,涌現出很多已經處于實用階段的學習和學情分析系統。與國外相比,國內到目前為止主要還是停留在理論探索和分析階段,或者是在理論和概念上的拓展,對于具體的學習分析工具和系統的實際應用的研究和開發較少[1-3]?;诖髷祿眉夹g的學情分析系統平臺是廣東東軟學院在學習和學情分析領域的實際應用,利用通用大數據和互聯網技術對教育數據進行多維分析。

通過大數據技術和數據挖掘技術結合能夠更好為各階段學生提供更有價值的信息,如“希維塔斯學習”就是一家專門聚焦于運用預測性分析、機器學習從而提高學生成績的公司[1]。加拿大的一家教育科技公司“渴望學習”(Desire 2 Learn)已經面向高等教育領域的學生,推出了基于他們自己過去的學習成績數據預測并改善其未來學習成績的大數據服務項目[2]?!翱释麑W習”的產品通過監控學生閱讀電子化的課程材料、提交電子版的作業、通過在線與同學交流、完成考試與測驗,就能讓其計算程序持續、系統地分析每個學生的教育數據。老師得到的不再是過去那種只展示學生 分數與作業的結果,而是像閱讀材料的時間長短等這樣更為詳細的重要信息,如此老師就能及時診斷問題的所在,提出改進的建議,并預測學生的期末考試成績。紐頓的創辦人、首席執行官何塞·費雷拉和培生高等教育分公司的總裁格雷格·托賓合作研發將大學數學、大學統計學、大學一年級作文、經濟學和科學等領域納入教育產品中[3]。

在學習和學情分析系統建設方面,其研究成果主要涉及多個不同的教育系統。

基于Web的學習系統:Pardos等學者在基于Web的數學教學平臺AssisTments上,花了兩年時間,跟蹤分析1393名8年級學生在該平臺上的數學學習行為數據,研究學習中體現的情感如厭倦、專注、困惑、挫折等與最終的學習結果之間的關系[4]。Kizilcec等學者針對Mooc教學中低完成率的問題,提出根據學生與Mooc學習課程的交互,對不同的學習者進行分類,該研究對Mooc未來的教學指導設計有一定意義[5]。

基于學習管理系統(LMS),許多學習分析研究是基于LMS記錄的教育數據。Lonn等針對密歇根大學一二年級工程系學生,開發了M-STEM Academy作為早期學業預警系統,研究了如何挖掘LMS數據,以及將這些數據轉化成警示數據每周提供給導師,以方便導師對學生進行有針對性的支持[6]。Garcia-Solorzano等指出LMS環境和面對面教學環境不同,教師在線監控學習較困難,許多LMS提供的學生跟蹤數據難以理解。針對這個問題,他們設計了一個基于瀏覽的圖像化教學監控工具,幫助教師洞察學生表現,并及時發現潛在問題[7]。

基于Web 2.0或社會學習系統:Gunnarsson和Alterman分析了班上107名學生的博客,使用學生之間互動的相關博客數據,特別是某學生對其他學生博客內容的推介,建立了一個模型來識別有價值的內容和對教師的意義[7]。Southavilay等學者研究了大學生使用云計算工具Google Docs進行合作寫作的案例,提出三種可視化方法分析寫作進程,包括校訂版本演化、主題演化圖、主題合作網絡來探索學生的思維、能力表現,目的是讓團隊中的每一個學生的寫作更有成效[7]。在社會學習分析方面,英國學者Ferguson和Buckingham做了全面的分析,提出了五種方法研究正式和非正式的教育環境數據源,注重從社會維度如情感、性格、學習網絡所反映出的學習者的學習狀態。

基于實時學習系統:傳統教學環境中,教師通過分析學生表現如出勤率、考試、教室內的行為等傳統數據來幫助學生?,F在利用信息和通信技術(Information Communication Technology),可以將教室中的交互情境數字化,從而使數據更加多源。Blikstenin提出多情態交互分析系統,數據包括視頻、音頻、文本、姿勢、生物傳感信息(如眼球跟蹤)等[6,7],研究者可以探究過去不可能獲知的學生學習活動,進行更全面的分析。

通過上述分析,目前基于教育大數據的數據分析和數據挖掘仍處于發展的初期,特別是在國內的研究與實施仍處于起步階段,在實際的應用中仍然不能依靠數據提供的有價值信息促進學生學習。因此,利用不同的數據源產生的分布式教育數據,建立一個集成和開放的學情分析系統是很有必要的。

4 基于大數據技術的學情分析系統框架(Framework

of academic behavior analysis system based on

big data technology)

基于大數據應用技術的學情分析系統平臺研建是大數據技術與教育行業結合的一種實際應用的體現,通過平臺提供的功能來改善學生的學習行為,為教師提供更好的教學方案,為職能部門提供合理的管理方案等?;谥髁鞯腍adoop技術搭建大數據平臺,提供了數據的清洗、過濾及匯總操作,根據業務需求選取合適的大數據框架進行大數據分析。在大數據平臺之上構建了數據挖掘并行算法處理平臺,挖掘更加有價值的數據信息,為學生推薦更加科學合理有用的學習資源或其他資源。

4.1 系統開發的目標

基于大數據應用技術的學情分析系統研建是將大數據技術、數據挖掘技術和機器學習技術等計算機技術應用于教育行業數字化和信息化的重要方面,可以通過平臺幫助學生更好的學習、幫助老師更好的教學,為學校管理層和決策層提供更加科學的決策依據。區別于其他行業,教育行業逐漸被認為是大數據可以大有作為的一個重要領域,利用大數據技術促進和完善教育教學改革。此項目的建立將會更加加快高校信息化建設的速度和質量。

4.2 系統開發的可行性分析

根據教育行業業務需求,設計了合理的大數據處理與分析平臺和數據挖掘并行算法處理平臺,項目重點為利用Hadoop平臺對大數據日志進行存儲、分析、處理,對采集的數據進行分析,完成相應日志的入庫、處理、分析、實時查詢等主要功能。對經過處理后的數據進行數據挖掘,挖掘出有價值的信息,給用戶推薦更好的資源。按照實施計劃部署相應的大數據系統平臺,根據平臺的數據處理量,初步規劃Hadoop集群的數量為5—10臺。

4.3 系統開發數據來源

數據來源于學院學生信息管理系統、招生就業系統、校園考勤系統、圖書管理系統平臺、教務等真實數據,同時從輔助教學平臺上抓取有價值的可信度高的數據,如發帖數據(貼吧等)、學習者調查、用戶資料、網絡社交媒體等獲取相關數據,從而形成學情分析系統大數據平臺的數據集。

4.4 系統開發過程及關鍵技術

首先根據數據集的數量級(PB或TB)確定集群數量,確定選擇在線大數據平臺還是本地建立服務器集群搭建大數據處理與分析的分布式平臺。

對數據源進行初步整理和分析,學校相關信息系統需要與相關職能部分溝通數據中有價值或權重較高的字段或描述,從其他網站采集的數據需要經過討論分析后確定技術可行性和評估數據源價值。

將采集到的各數據源通過大數據技術提供的Sqoop(主要用于在Hadoop(Hive)與傳統的數據庫(Mysql、Oracle等)間進行數據的傳遞)和Flume(日志采集工具)技術將數據源導入或推送到HDFS分布式文件系統中,對未來可能開發并投入使用的管理信息系統通過Log4G日志的形式記錄,每天或每周定點通過大數據日志收集工具Flume向大數據平臺的HDFS分布式文件系統推送記錄數據。

對存儲在HDFS中的數據進行數據的ETL(清洗、過濾、匯總),大數據分析部分采用Hive與Impala結合方式,對查詢速度要求較高的采用基于內存的迭代式框架Spark技術框架,此時經過大數據分析后的數據可直接通過Web系統作統計數據的頁面展示。

處理之后的數據可以作為數據挖掘平臺進行聚類、分類、關聯和回歸等數據挖掘算法的并行化處理媒介,從而得到學生行為分析的重要信息,最后通過推薦系統為學生推薦合理的資源信息。

4.5 集群環境搭建方案

根據業務需求搭建集群10臺左右的大數據處理和分析平臺, 項目中需要Hadoop集群能夠商用,并且要求穩定,性能沒有瓶頸。所以針對于Hadoop服務器,需要做一些操作系統級別優化(CentOS6.4),以使得集群獲得最優的性能和穩定性能[8]。

當Hbase提供服務速度難以保證情況下,使用Impala替換HBase、Impala StateStore和Impala Catalog Server安裝到HBase master所在機器,HBase Region所在機器安裝Impala Daemon。JobTracker機器變為ResourceManager,TaskTracker變為NodeManager。

以上集群安排是根據數據和業務進行預估暫定集群數量在10臺以下,如果后期集群數量增加應該重新調整各節點的配置。

管理服務器是平臺的主節點,負責管理計算和任務分配等,節點1—4和剩余節點機都屬于從節點,從節點負責執行主節點分配的存儲和計算的任務。要求數據節點盡可能放在一起利于數據的本地化,加快數據查詢速率,這里的HRegion由HRegionServer存放和管理本地節點,主要用于讀寫HDFS,管理Table中的數據,因為應該將HRegion與HDFS中的DataNode安裝在同一個從節點服務器中。HA采用管理服務器1和服務器2互備。

項目根據預期的數據和業務需求搭建集群在10臺以下的大數據處理和分析平臺,項目中采用穩定、性能瓶頸小的Hadoop集群。同時針對于Hadoop服務器,需要做一些操作系統級別優化(CentOS6.4),以使得集群獲得最優的性能和穩定性能。

4.6 架構設計

基于大數據應用技術的學情分析系統平臺架構分為大數據處理與分析平臺和數據挖掘并行算法分析平臺組成。其中大數據處理與分析平臺主要對數據源進行ETL過程,滿足一部分的數據查詢需求,以及圖形化展示需求。數據挖掘并行算法分析平臺主要對經過大數據處理后的數據挖掘出潛在有價值的信息,為學生的學習、生活等方面提供個性化的推薦和意見等[9,10]。

4.6.1 學情分析系統的大數據平臺架構設計

學情分析系統的大數據平臺架構設計如圖1所示。

學院信息網站數據和由外部網站采集的數據均以壓縮形式上傳HDFS對應的目錄,相應的Mapreduce直接從HDFS上獲取原始數據進行數據處理和分析。Mapreduce主要包含三種類型:匯總部分(過濾、清洗、匯總)。使用分布式存儲系統HBase存儲一些數據量級較大的數據和進行一些簡單的統計分析,同時,將Mapreduce處理后的數據存儲在Hbase中,之后使用Thrift服務與Web進行交互顯示。Spark分析部分主要利用SparkSql、SparkMLlib、Graphx三大組件進行復雜的批量處理、基于響應速度要求高的交互查詢、基于實時數據流的查詢。Mapreduce匯總部分的結果加載到Hive中并且使用Impala提供Web端的查詢。需要做進一步分析和關聯的部分使用Sqoop導出到Oracle或Mysql中,由Oracle或Mysql來完成Web端復雜圖形的展現[11,12]。

4.6.2 學情分析系統數據挖掘并行算法分析平臺設計

數據挖掘并行算法分析平臺如圖2所示。

數據經過預處理后,需要考慮如何能讓數據發揮作用。這就需要采用數據挖掘平臺提供的數據挖掘和分析工具、算法進行有價值信息的抽取,從而實現從數據到信息的高效轉化。對受教育者的學習數據、行為數據等進行深入分析和挖掘,查找可能存在的問題等重要信息,并利用這些數據為改善受教育者的成績或學習行為提供個性化的服務。同時,借助數據中一位受教育者的各個維度數據來綜合評判學生表現,利用大數據挖掘技術,針對學生存在的問題提供合理的建議與意見[13,14]。

通過大數據和數據挖掘進行學習分析能夠為每一位受教育者創設一個量身定做的學習環境和個性化的課程,還能創建一個早期預警系統以便發現開除和輟學等潛在的風險,為受教育者的多年學習提供一個富有挑戰性而非逐漸厭倦的學習計劃。因此,學習可以依靠大數據驅動。通過分析和挖掘,進一步改善教學的方式與方法,進一步促進學生學習成績的提高。

根據平臺需求主要使用以下五種數據挖掘技術從大數據分析后的數據中提取有價值數據信息:

(1)預測(Prediction)——基于對歷史數據的分析,預測新數據的特征或數據的未來發展趨勢。例如,要具備知道一個學生在什么情況下盡管事實上有能力但卻有意回答錯誤的能力。

(2)聚類(Clustering)——發現數據的內在結構。這對于把有相同學習興趣的學生分在一組很有用。

(3)相關性挖掘(Relationship Mining)——發現各種變量或因素之間的關系,并對其進行解碼以便今后使用它們。這對探知學生在尋求幫助后是否能夠正確回答問題的可靠性很有幫助[14]。

(4)升華人的判斷(Distillation for Human Judgment)——建立可視的機器學習的模式。

(5)用模式進行發現(Discovery with Models)——使用通過大數據分析開發出的模式進行“元學習”(Meta-Study)[14]。

5 結論(Conclusion)

本文從大數據視角提出,利用Hadoop生態圈構建基于大數據應用技術的智能化學情分析服務架構,該方案主要目標是解決海量教育信息的匯聚、存儲和存取及分析和挖掘等,從而為智能化教育教學服務提供技術支撐。

同時,隨著國家信息戰略的實施,網絡帶寬及其他相關硬件設施的發展,這為大數據技術應用提供了較為廣闊的空間。針對教育大數據對教育、教學及學生學習的方方面面影響,基于大數據技術的教育改革勢在必行,高效創新創業教育改革、基于產業需求的高效專業調整及學生的學習行為分析和教師教授行為分析都將從基于知識或經驗的改革轉移到基于數據的教育教學改革。根據大數據平臺分析結果我們可以更加合理的調整學科專業,教師教授方式和學生的學習方式等。該平臺的建立促進和深化了學校學生學習、教師教學實踐及幫助相關部門提供合理的計劃和建議。

猜你喜歡
平臺設計大數據技術數據挖掘
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
論大數據技術在智能電網中的應用
廣電網絡前端業務融合云服務平臺設計
基于工作流的水運應急信息管理平臺設計 
大數據技術在電氣工程中的應用探討
大數據技術在商業銀行中的應用分析
MOOC時代創新區域教師培訓課程建設研究
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合