?

基于云計算平臺的物聯網數據挖掘研究

2017-05-25 00:56廖志聰
移動信息 2017年2期
關鍵詞:數據源分布式數據挖掘

廖志聰

?

基于云計算平臺的物聯網數據挖掘研究

廖志聰

廣東省電信規劃設計院有限公司,廣東 廣州 510630

基于云計算的物聯網數據挖掘系統對于當前物聯網應用的發展有著深遠的意義,并且經過Hadoop 平臺進行模擬數據挖掘實驗后,也驗證了這種方案有著極大的可行性。

云計算;數據挖掘;物聯網;模式構建

1 數據挖掘技術概述

1.1 數據挖掘技術的含義

數據挖掘技術自從20世紀90年代誕生以來,在人類社會中產生了巨大的影響,同時受到了人們的廣泛應用。目前來說,數據挖掘并不是一個獨立的學科,而是交叉學科,因此不同領域不同行業的人對其理解也存在不同之處,其定義尚無定論。目前,大部分學者比較認同韓家煒等人的定義[1-2],包括三個方面的內容:第一,具有大量的數據來源,并且是真實的數據;第二,通過數據挖掘獲得的信息對人們有著較高的價值與作用;第三,獲得信息是可以被人們理解分析,被人們接受與運用,能夠以此來做出判斷或決策。

1.2 數據挖掘技術的特征

數據挖掘技術具有分布廣、規模大、節點資源有限以及安全性復雜等特征。首先,物聯網數據本身具有分布廣的特點,因為數據一般都存儲在不同的地方。其次,物聯網數據極為龐大,本身有許多傳感器節點,因而需要有能夠快速解決處理數據的中央節點。再次,節點資源并不是無限的,因而中央節點一般不需要所有的數據,但需要數據參數,從而依靠分布式節點將用戶需要的數據傳輸出去。

2 在云計算平臺下的數據挖掘技術分析

2.1 物聯網感知層

物聯網感知層主要依靠在目標區域范圍內放置極多的數據采集節點來發揮感知作用。具體來說,節點主要是通過傳感器、攝像頭以及其他設備進行數據采集工作,而采集到的數據則會依靠物聯網感知層所具備的網絡通信設備進行匯聚,將所有的數據傳送到節點,而后經過匯總存儲之后再次通過傳輸層輸送到云計算平臺的數據處理中心[3]。

2.2 物聯網傳輸層

物聯網傳輸層主要包括傳感器、無線(有線)網絡等,通過諸多網絡設備搭建的高速度無縫數據傳輸系統,能夠快速將物聯網感知層采集到的數據通過網絡傳送到數據處理中心,從而實現全方位的互通互聯目標,也就是將各種類別的監測處理設備進行聯網傳輸,實現設備之間網絡信息的傳遞。

2.3 數據層

數據層是物聯網云計算平臺中數據挖掘技術的關鍵部分。物聯網本身具有異構性和海量性的特征,因而在數據層內將物聯網設備采集到的數據進行存儲處理分析的能力是基于云計算的物聯網數據挖掘平臺的關鍵。數據層中主要包括數據源轉化與存儲兩大部分,其中,數據源轉化主要對物聯網異構性的數據進行轉化,而存儲部分則是使用Hadoop 搭建的平臺中的HDFS 系統進行分布式存儲,從而將海量性的數據完整存儲到數據節點。

在物聯網平臺中,由于對于不同的目標會采用不同的數據類型來表現,某種情況下,相同的目標也會采用不同的數據類型來表現,因此數據源轉化的作用主要體現在保持數據的完整,防止異構性的物聯網數據在轉化中出現損毀,從而達到保證數據挖掘的目標。數據源轉化在系統中的作用相當于數據層與感知層的連接線,通過數據包的解碼轉換將不同的數據轉換成需要的數據類型,并且分布式存儲到數據處理中心。

2.4 數據挖掘服務層

數據挖掘服務層包含數據準備、數據挖掘引擎以及用戶三大部分。其中,數據準備部分的主要用途是對數據進行清零、轉化以及規約等。數據挖掘引擎則主要包含數據挖掘算法以及模式評估,而用戶部分則主要將數據挖掘的內容進行可視化的表現。用戶部分是整個云計算平臺中數據挖掘技術面對用戶的直接體現,因而具有友好性,能夠讓用戶通過操作來對數據挖掘任務進行處理認知。

3 云計算平臺上物聯網數據挖掘技術應用分析

數據挖掘工作流程為:用戶發出數據挖掘的請求,主要控制節點收到用戶請求之后會首先判斷能否進行任務,并且將結果回饋給用戶。若是可以進行,主要控制節點就會調用數據挖掘算法,然后根據算法進行分布式數據挖掘工作。通過挖掘數據任務的劃分之后,將具體內容傳送到眾多節點中,節點再具體進行數據挖掘。

本次選擇Hadoop 搭建云計算平臺,并以此進行模擬實驗。

首先,選擇一臺實驗所需要的PC 機器,配置基于普通水平的2?G內存,操作系統為win 7。然后在PC 端安裝虛擬機,虛擬機的操作系統都是Linux 操作系統。隨后開始部署分布式節點,本次共安裝3 個虛擬機。其次,需要安裝與Linux 版本相適應的Eclipse 7.5 開發環境,并且于PC 機上安裝SSH 服務,用于實驗開始之后傳遞實驗數據。3 臺虛擬機中也安裝SSH 服務,以便于Hadoop 平臺運用。

配置安裝完畢后,選擇采用關聯規則算法的數據,將數據依據C++ 代碼程序轉換成標準的PML 文件,文件大小為1?G,然后將文件利用HDFS 傳入Hadoop 平臺,采用分布式存儲。接下來,運行Apriori 算法,根據計算結果來判斷能否找到實驗數據集合中所有的項目,然后選用不同大小的文件再次重復實驗,以此來得到較為準確的結果。實驗運行Hadoop 平臺計算得到的數據如表1。

表1 文件大小與運行時間的關系

從表1可以看出,伴隨著文件不斷擴大,在Hadoop平臺上運行,采用Apriori 算法所運行的時間也隨之上升。經過大量模擬實驗后,可以看出Hadoop 平臺有著較高的拓展性能,能夠滿足當前市場對于物聯網大量數據挖掘的要求。

4 結語

信息技術的發展推進為人們的生活和工作帶來了很大的便利,將云計算技術應用到物聯網數據挖掘中,能夠提升其數據處理、分析、儲存、傳送能力,進而有效促進國民經濟的發展,值得進一步研究與推廣。

[1]謝楊.基于云計算的現代農業物聯網監控系統[D].成都:西南交通大學,2015.

[2]吳邊.云計算中物聯網數據挖掘模式的研究[J].價值工程,2013(18):15.

[3]褚翠霞.基于云計算平臺的物聯網數據挖掘研究[J].數字技術與應用,2015,1(9):85.

Research on Data Mining of Internet of Things Based on Cloud Computing Platform

Liao Zhicong

GuangDong Planning and Designing Institute of Telecommunications Co., Ltd., Guangdong Guangzhou 510630

The data mining system based on cloud computing based on cloud computing has far-reaching significance for the development of current Internet of Things applications. After the simulation data mining experiment through Hadoop platform, it has also proved that this scheme has great feasibility.

cloud computing; data mining; Internet of things; model construction

TP311.13;TP391.44;TN929.5

A

1009-6434(2017)02-0145-02

猜你喜歡
數據源分布式數據挖掘
改進支持向量機在特征數據挖掘中的智能應用
探討人工智能與數據挖掘發展趨勢
基于事故數據挖掘的AEB路口測試場景
淺析分布式發電對電力系統的影響
利用屬性集相關性與源誤差的多真值發現方法研究
Web 大數據系統數據源選擇*
基于預處理MUSIC算法的分布式陣列DOA估計
軟件工程領域中的異常數據挖掘算法
分布式并聯逆變器解耦電流下垂控制技術
數據有增加 圖表自適應
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合