?

互聯網數據在高校大數據平臺中的應用研究

2019-04-10 07:01高顯俊黃儒樂
科技資訊 2019年36期
關鍵詞:大數據

高顯俊 黃儒樂

摘 ?要:互聯網數據是高校大數據平臺應用的重要數據來源,該文主要闡述了高校大數據平臺的技術架構,并在此基礎上提出了互聯網數據的重要價值,分析了高校大數據應用中專業數據、資訊數據和網絡輿情數據三大主要互聯網數據構成,并對應用模式和應用場景進行了研究。提出并闡述了學科大數據分析、網絡輿情監測、情報大數據分析、校友大數據分析等高?;ヂ摼W數據大數據應用場景。

關鍵詞:大數據 ?互聯網數據 ?高校大數據平臺

中圖分類號:TP311 ? 文獻標識碼:A 文章編號:1672-3791(2019)12(c)-0012-03

當前,國家高度重視大數據及其應用的發展,高校作為人才培養和科學研究的前沿陣地,紛紛積極開展高校大數據平臺的建設與實踐?;ヂ摼W數據作為海量數據的重要來源,其在高校大數據平臺中的應用價值日益凸顯,研究并深入實踐基于互聯網數據的高校大數據應用具有現實意義。

1 ?高校大數據平臺概述

高校大數據平臺是實現數據采集、關聯融合、深度分析、判別預測、場景應用的基礎[1]。其體系架構一般分為4層:數據來源層、數據采集層、大數據核心層、數據應用層。

1.1 數據來源層

高校大數據平臺的數據來源主要包括校內業務數據、互聯網數據、網絡流量數據、設備運行數據4種類型的數據。

(1)校內業務數據。是由校內各種業務系統產生的數據,如教務系統中的課程、成績數據,教學平臺中的學習行為數據,一卡通系統中的消費數據,科研管理系統中的項目、經費、成果數據等,校內業務數據主要是結果狀態數據,數據形態上以結構化數據為主,數據量不太大,適合統計分析得到直接的結論。

(2)互聯網數據。來自于互聯網的和學校相關的數據,比如專利檢索數據、論文收錄數據、網絡輿情數據等,包括結構化數據和非結構化數據,尤其是海量的非結構化數據,是真正意義上的大數據,需要用到科學計算、NLP等技術來處理和分析。

(3)網絡流量數據。包括校內用戶訪問互聯網、校外訪問校內以及校園網內部之間的網絡流量數據,流量數據量大,但數據結構簡單。用戶的上網流量數據一般用于上網行為審計與分析,后兩者一般用于系統服務評價和網絡安全分析。

(4)設備運行數據。指服務器、交換機、路由器等設備的運行數據和日志數據,也包括中間件、數據庫、Web服務的運行數據。一般用于IT運維健康度分析、自動化運維、網絡安全等分析。

1.2 數據采集層

對來自不同數據源的數據進行采集、抽取、清洗、轉換。常見的采集方式有3種:(1)傳統的ETL離線采集適合校內業務系統數據采集;(2)分布式實時采集使用流處理方式,能滿足每秒數百兆的日志數據采集,如ELK或者Splunk等;(3)網頁爬蟲采集適合互聯網信息的采集,包括網頁、數據、圖片和文件等。數據采集的過程中數據質量管理很重要,需要對數據進行全過程治理以確保數據質量和可靠性。

1.3 大數據核心層

大數據核心層實現大數據的數據存儲、資源調度、數據計算等功能。數據存儲方面,提供HDFS分布式文件系統、Hbase布式列簇存儲、分布式Mysql集群、內存數據庫、ElasticSearch分布式搜索數據庫等多種存儲系統,以支撐各類數據的存儲和訪問需求。資源調度方面,通過Apache Hadoop YARN提供Hadoop資源管理,可為上層應用提供統一的資源管理和調度,通過Kubernetes等提供自動化部署、大規??缮炜s、應用容器化管理。在數據計算方面,提供流計算平臺、數據挖掘流程模板庫、極其算法庫等計算工具,實現多維特征分析、分布式科學計算、可視化模型構建等。

1.4 數據應用層

基于大數據核心層提供的數據分析能力,對采集到的數據進行業務場景化應用,目前國內高校的大數據應用還在起步階段,主要集中在學工分析與服務、學科分析與服務、師生用戶畫像分析、領導駕駛艙等應用領域。

2 ?高校大數據平臺下的互聯網數據主要構成

互聯網數據作為高校大數據平臺的重要數據源之一,是對校內業務數據的重要補充。其具有數據量大、更新快、形態豐富(結構化和非結構化)等特點,目前可用于高校大數據分析應用的互聯網數據主要分為專業數據、資訊數據、網絡輿情數據三大類。

2.1 專業數據

(1)科研數據。

主要包括專利數據和論文數據,專利數據可使用國家知識產權局專利檢索數據和德溫特專利檢索數據等,論文數據主要來源于SCI、EI、Scopus、PubMed、CSCD、CSSCI以及知網、萬方、維普等數據庫,一些科研項目統計數據也可以在互聯網中獲取,如國家自然科學基金和國家人文社科基金的科研項目信息等。

(2)人才數據。

通過各類行業部門網站、高校網站、年鑒等渠道可以采集到全國高校院士數據、碩博導師數據以及獲得各類人才榮譽稱號的人才數據,如千人計劃、青年千人計劃、萬人計劃、長江學者、國家杰青、國家優青、青年拔尖人才等,另外,愛思唯爾(Elsevier)發布的中國高被引學者榜單也可以作為人才數據的補充。

(3)行業基礎數據。

其包括一些開放的或提供局部應用的行業基礎數據,如全國高?;A信息數據、學科評估數據、本科評估數據、高基表數據等。

2.2 資訊數據

資訊數據是互聯網上最具海量特征的數據,主要由非結構化數據組成。對于高校而言,學校的發展與行業、社會是密不可分的,來自于教育主管部門、科研主管部門、其他高校、科研院所、生源地、企業、校友、學者動態等資訊信息是學校發展的重要情報信息來源,采集這些信息并進行合理的分析以及面向業務場景的應用,具有重要意義。

2.3 網絡輿情數據

網絡輿情數據是一種特殊的互聯網資訊數據,其數據來源包括網絡新聞媒體、網絡論壇、百度貼吧、博客、微博、微信公眾號、文章評論、網絡視頻等。

3 ?高校大數據平臺下的互聯網數據應用模式

3.1 數據采集原則

互聯網數據采集是在高校大數據平臺中開展互聯網數據融合應用的重要前提,數據采集的數量、質量直接決定后期數據應用的有效性和可靠性。面對海量的互聯網數據,到底應該采集哪些數據是擺在我們眼前的難題。根據目前可用于高校大數據分析應用的互聯網數據的特點,科研成果數據等專業數據比較好界定,互聯網資訊數據、網絡輿情數據的來源廣泛、數據量大,在數據采集時可以考慮如下幾個方面的原則。

(1)“與我相關”。采集的數據是屬于我的(學校、師生);提到我的(新聞、評論等),與我的業務發展相關的。

(2)“有價值”。采集的數據能描述學校的狀態,能描述學校相關的機構或者人員的狀態,能描述和學校相關的資源的情況。

(3)“最新的”。采集的數據要盡量具有良好的時效性、動態性。

(4)“準確的”。采集的數據其內容要盡可能準確,并且可以準確匹配和準確分類。

(5)“核心敏感的”。采集的數據與學校核心業務相關、痛點需求相關,或者是負面的,如網絡輿情、安全事件等。

(6)“最大加工可能性”。采集的數據在可量化度上、可分析度上應具有良好的加工性。

(7)“最大采集效率”。數據采集盡量能采用全自動采集、半自動采集方式來實現,提高采集效率。

3.2 數據采集技術手段

目前面向高校大數據應用的互聯網數據只有少量專業數據可以通過數據API接口的方式進行采集,大部分互聯網數據只能通過網絡爬取的方式采集。網絡爬蟲是依照一定規則主動抓取網頁的程序[2],目前,網絡爬蟲技術已經非常成熟,廣泛應用于互聯網信息抓取,在建立面向高校大數據應用的互聯網數據爬取系統時,需要注意如下幾個方面的問題。

(1)爬取能力問題?;ヂ摼W數據有開放型網頁、Web系統等多種來源,針對論文、專利等來源于系統查詢的數據,需要綜合使用通用網絡爬蟲、聚焦網絡爬蟲、深度網絡爬蟲等技術,實現數據的準確爬取;針對資訊數據、網絡輿情數據則需要建立科學合理的高校行業詞庫,便于信息的準確匹配。在爬取性能上,由于數據的動態性和實時性要求較高,需要采用分布式網絡爬蟲架構,結合增量爬取技術,提高爬取性能。

(2)數據處理問題。根據不同數據類型采取不同的數據處理方式。專利論文等專業數據以及行業基礎數據爬取后需進行結構化處理,并按照適合高校數據應用的數據標準進行清洗、轉換、去重等;資訊數據和輿情數據則需要利用自然語言處理技術進行語義分析、情感分析、關鍵字提取等,基于非結構化的原始數據建立起結構化的標簽數據,便于后期的數據應用。

(3)數據存儲問題?;ヂ摼W數據經處理后一部分轉化為結構化數據存儲,如專利、論文等數據;而互聯網資訊數據和網絡輿情數據則使用結構化存儲和非結構化存儲相結合。

3.3 數據應用服務對象

互聯網數據在高校中的應用服務對象包括對內服務和對外服務。對內服務對象包括校領導、管理部門、學院、教師、學生;對外服務對象包括高校上級管理部門、生源基地、考生、家長、就業單位、社會公眾等。根據不同互聯網數據的價值和不同服務對象的需求進行應用設計和匹配。

4 ?高校大數據平臺下的互聯網數據應用場景

互聯網數據可以應用到很多高校大數據服務場景,既可以獨立應用,也可以和業務數據融合應用,下面就幾個應用場景舉例進行簡單闡述。

4.1 學科大數據分析

以服務雙一流學科建設為核心出發點,建立學科大數據應用數據標準,通過采集互聯網中全球專利數據、文獻數據、人才數據、高等教育指標數據、高校和科研機構數據、頂級學術會議數據,并與學校內部業務數據進行融合,實現學科建設數據的深度分析與挖掘,為雙一流學科建設的項目管理、目標管理、績效管理提供支撐,形成深度的、動態的學科發展大數據報告,并對發展趨勢進行預測,對風險隱患進行預警。

4.2 網絡輿情監測

網絡輿情是針對社會熱點、大眾生活等問題,由新聞媒體或者個人在互聯網上表達的言論、建議或情緒,是社會輿論在網絡上的一種特殊表現形式[3]?;诖髷祿季S對網絡輿情數據進行采集、分析、語義分析、情感判斷是網絡輿情監測平臺新的發展趨勢。通過分布式網絡爬蟲對高校相關的、分布于論壇、貼吧、微博、博客、新聞等不同載體中的網絡輿情數據進行采集,并建立具有高校行業特點的語義詞庫和數據分析模型,形成網絡輿情的自動收集、處理、分析、研判、預警全流程服務。

4.3 情報大數據分析

互聯網數據中存在大量和高校自身、競爭對手以及教育行業相關的資訊數據,這些數據是高校發展和決策的重要情報數據來源,通過實時采集和適當處理可以形成服務高校發展的情報大數據平臺。利用情報大數據實現“知己、知彼、知行業”的目標,知己是知自己、知本質,知彼是知對手、知動態,知行業是知環境、知風向。通過對來自互聯網上的高校發展情報數據的自動采集、聚合、分類、場景化分析,如行業全景、媒體聲譽指數、學者動態、學科動態等,實現對高校戰略決策的支撐作用。

4.4 校友大數據分析

校友是高校發展的寶貴資源,了解校友動態是挖掘校友資源、精準服務的前提。校友大數據有兩大數據來源,一是校友在校學習期間的數據,這方面的數據量級小、時間跨度短;二是數據則來自于校友畢業后在互聯網上可公開采集到的各類數據,如人事任免、企業信息、上市公開信息、論文、專利、高端論壇、學術報告、新聞報道等海量的、動態的、跨越長時間周期的數據?;谶@些數據建立校友大數據分析平臺,可以動態地、精準地挖掘到高價值校友,為學校發展儲備資源,為校友之間的互助、合作搭建橋梁和紐帶。

5 ?結語

隨著互聯網數據的日益增加以及互聯網數據采集與處理技術的不斷成熟,開展基于互聯網數據的高校大數據應用日趨成熟?;ヂ摼W數據采集需遵循數據關聯性、價值度、新鮮度、準確性、可加工性以及數據采集效率等原則,分布式網絡爬蟲、定制化數據處理、多樣化數據存儲是關鍵技術點。從校內外不同服務對象的需求特點出發,互聯網數據可以應用到很多服務場景,在學科大數據、網絡輿情監測、情報大數據、校友大數據等領域能夠發揮重要作用。

參考文獻

[1] 仲兆滿,施珺,管燕,等.高校教育大數據平臺的架構設計[J].教育現代化,2019,6(46):37-39,43.

[2] 劉金江,陳余良.主題網絡爬蟲研究綜述[J].計算機應用研究,2007,24(10):26-29,47.

[3] 姜春起.網絡輿情監測系統應用問題研究[D].吉林大學,2017.

猜你喜歡
大數據
基于在線教育的大數據研究
“互聯網+”農產品物流業的大數據策略研究
大數據時代新聞的新變化探究
淺談大數據在出版業的應用
“互聯網+”對傳統圖書出版的影響和推動作用
大數據環境下基于移動客戶端的傳統媒體轉型思路
基于大數據背景下的智慧城市建設研究
數據+輿情:南方報業創新轉型提高服務能力的探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合