?

大數據精準挖據處理架構及預測模型研究

2016-10-14 06:44楊斐艾曉燕張永恒張峰

電子設計工程 2016年12期

關鍵詞：海量神經元架構

楊斐，艾曉燕，張永恒，張峰

（榆林學院信息工程學院，陜西榆林719000）

大數據精準挖據處理架構及預測模型研究

楊斐，艾曉燕，張永恒，張峰

（榆林學院信息工程學院，陜西榆林719000）

為了提高大數據的精準挖據與預測能力，解決傳統數據挖據技術無法適應大數據處理環境的問題，利用云計算和大數據處理技術，提出了大數據精準挖據處理架構及基于BP神經網絡的預測模型。重點研究了大數據處理平臺架構、大數據分析與表達技術、基于BP神經網絡的大數據挖據及預測模型。應用結果表明，該方案結合云計算平臺和大數據挖掘技術，能夠高效的處理海量數據的處理和表達，對于銷售數據具有一定的預測能力。

大數據；數據挖據；預測模型；BP神經網絡；銷售數據

隨著各種數據持續爆炸式地增長，出現了多源、異構及海量的數據，如果能夠應用當前大數據處理技術來對這些數據進行挖據，會產生具大的價值［1-2］。

大數據的挖據和分析當前企業對信息化的重要組成部分，在2011年第一季度，由Gartner公司的Merv Adrian在Teradata Magazine提出大數據的定義和應用范圍，指出大數據是超出當前硬件處理和軟件系統處理能力。大數據的處理涉及數據的收集、存儲、處理及挖據和分析技術。但是大數據的多源、異構和海量的特征，使得當前的數據分析與挖據方法很難適應這種非結構化的數據存儲模式［3-4］。

文中在分析大數據挖據需求的基礎上，提出大數據挖據的平臺架構及利用BP神經網絡方法進行對大數據進行精準挖據與預測。

1　大數據挖據技術框架研究

1.1大數據的特征

大數據分析相比于傳統的數據倉庫應用，具有數據量大、查詢分析復雜等特點。大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系［5］。大數據的特點有4個層面:第一，數據體量巨大。從TB級別躍升到PB級別。第二，流動速度快。第三，價值密度低，商業價值高。以視頻為例，連續監控過程中，有用的數據僅僅有一兩秒。第四，數據種類繁多，如網絡日志、視頻、圖片、地理位置信息等。業界將其歸納為4個“V”--volume、velocity、value、variety［6］。物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器，無一不是數據來源或者承載的方式。

1.2大數據挖據處理架構

為了發掘并利用大數據背后隱含的巨大價值，必須對大數據進行有效地組合和管理。從結構特征來講，大數據可以分為結構化數據和非結構化數據。對于結構化數據，如網絡上人工建立的知識庫，利用數據生成時的層次化對應關系就能夠進行有效地查詢和管理，因而人們總是希望在數據生成時就按照特有的結構和模式對數據進行整理。大數據計算的技術內涵包含3個方面:處理海量數據的技術、處理多樣化類型的技術、提升數據生成與處理速度的技術。為了更好的精準挖據海量的數據，本文結合當前流行的大數據處理技術，設計了如圖1所示的大數據挖據技術框架。

圖1　大數據挖據處理架構

在圖1所示的大數據挖據平臺架構中，底層處理平臺應用目前成熟的云計算平臺架構，而在大數據處理技術方面，本文結合Hadoop處理平臺，對大數據進行清洗和管理。傳統的文件存儲系統已不能滿足大數據存儲的需求，大數據計算需要有特定的文件系統以滿足海量文件的存儲管理、海量大文件的分塊存儲等功能。

Hadoop分布式文件系統（Hadoop Distributed File System，HDFS）是Google GFS的一個高度容錯的分布式文件系統，它能夠提供高吞吐量的數據訪問，適合存儲海量（PB級）的大文件。整個HDFS系統將由數百或數千個存儲著文件數據片斷的服務器組成。運行在HDFS之上的應用程序必須流式地訪問它們的數據集，它不是典型的運行在常規的文件系統之上的常規程序。運行在HDFS之上的程序有很大量的數據集。這意味著典型的HDFS文件是GB到TB的大小，所以，HDFS是很好地支持大文件。HDFS體系架構如圖2所示。

圖2　HDFS體系架構

另一個大數據存儲技術就是GFS存儲技術，GFS是一個大型的、對大量數據進行訪問的、可擴展的分布式文件系統。GFS具有實時監測、容錯、自動恢復等特點。GFS能夠支持超大文件，每個文件通常包含很多應用對象。當經常要處理快速增長的、包含數以萬計的對象、長度達TB的數據集時，當處理這些超大超長文件集合時，GFS重新設計了文件塊的大小，使其能夠有效管理成千上萬KB規模的文件塊。GFS體系架構如圖3所示。

圖3　GFS體系架構

在本文提出如圖1所示的大數據挖據平臺架構中，除了大數據的存儲技術外，為了進一步分析大數據內容，還需要實現大數據的表達技術。大數據的表達技術是指在大數據存儲基礎之上，對特定的不同類型結構化數據進行表示。在大數據時代，NoSQL數據庫被大量采用。NoSQL指的是非關系型數據庫，是包含大量不同類型結構化數據和非結構化數據的數據存儲。由于數據多樣性，這些數據存儲并不是通過標準SQL進行訪問的［7］。NoSQL數據存儲方法的主要優點是數據的可擴展性和可用性，以及數據存儲的靈活性。典型的NoSQL數據庫有Bigtable、HBase等。

BigTable是Google設計的用來處理海量數據的一種非關系型的數據庫。BigTable采用一個稀疏的、分布式的、持久化存儲的多維度排序圖來存儲數據。BigTable雖然不是關系型數據庫，但是卻沿用了很多關系型數據庫的術語，像表（Table）、行（Row）、列（Column）等。BigTable的鍵有三維，分別是行鍵（Row Key）、列鍵（Column Key）和時間戳（Timestamp）［8］。

HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。HBase是Google Bigtable的開源實現，類似Google Bigtable利用GFS作為其文件存儲系統，HBase利用Hadoop HDFS作為其文件存儲系統。

HBase的數據模型如表1所示。

表1　HBase的數據模型

在大數據并行處理技術方面，目前使用MapReduce模型來實現。MapReduce任務的執行流程對用戶是透明的。當用戶程序調用MapReduce函數，就會引起如下操作，Map Reduce執行流程如圖4所示。

從MapReduce的任務執行流程可以看出系統框架將大規模的計算任務進行劃分然后將多個子任務指派到多臺工作機器上并行執行，從而實現了計算任務的并行化，進而可以進行大規模數據的處理。

圖4　MapReduce執行流程圖

2　基于人工神經網絡的大數據挖據與預測模型

2.1人工神經網絡方法分析

人工神經網絡對人類神經系統的一種模擬，是指由簡單計算單元組成的廣泛并行互聯的網絡，能模擬生物神經系統的結構和功能。組成神經網絡的單個神經元的結構簡單、功能有限，但是，由大量神經元構成的網絡系統可實現強大的功能。盡管人類神經系統規模宏大、結構復雜、功能神奇。但其最基本的處理單元卻只有神經元。人類神經系統的功能實際上是通過大量生物神經元的廣泛互聯，以規模宏大的并行運算來實現的。構成人工神經網絡的基本單元是人工神經元。并且，人工神經元的不同結構和模型會對人工神經網絡產生一定的影響。人工神經元是對生物神經元的抽象和模擬。所謂抽象是從數學角度而言的，所謂模擬是從其結構和功能角度而言的［9］。1934年心理學家麥卡洛克和數理邏輯學家皮茨根據生物神經元的功能和結構，提出了一個將神經元看成二進制閾值元件的簡單模型，即MP模型，如圖5所示。

圖5　MP神經元模型

在圖5中，x1，x2，…，xn表示某一神經元的n個輸入；ωi表示表示第i個輸入的聯結強度，也稱為聯結權值；θ為神經元的閾值；y為為神經元的輸出?？梢钥闯?，人工神經元是一個具有多輸入，單輸出的非線性器件。它的輸入為

式中，f稱為神經元功能函數，也稱作用函數或激勵函數；θ稱為激活值。

在BP神經網絡中，輸入向量為設為X=（x1，x2，…，xn），輸出向量設為Y=（y1，y2，…，ym），輸入層各個輸入到相應神經元的聯結權值設為ωij（i=1，2，…，n；j=1，2，…，m）。若假設各神經元的閾值分別是θj（j=1，2，…，m），則各神經元的輸出yi（j= 1，2，…，m）分別為

式中，由所有聯結權值ωij構成的聯結權值矩陣W為

在實際應用中，該矩陣是通過大量的訓練示例學習而形成的。

2.2基于BP神經網絡的庫存銷售預測

本文實驗使用某電子商務網站庫存銷售數據為預測值，資料取10年共10萬多組數據。實驗數據在經過大數據處理后，形成結構化數據，部分仿真實驗在MATLAB2012a中實驗。對應的資料數據項主要包括倉庫名稱、營業額、員工人數、利潤和規模等.對所有的數據使用前需要歸一化處理。數據歸一化到［-1，1］區間的公式為：

式中，xn和x表示歸一化前后的序列值；xmax和xmin分別表示原序列x的最大值和最小值。反歸一化公式為

本文使用如下幾個統計量評價預測模型的預測精度：

1）平均絕對誤差

2）平均相對誤差

把前5年51 000組歷史數據作為訓練樣本，每組數據包括20個預測因子和一個原始銷售序列值。把后5年共49000組數據作為測試樣本，每組數據包括20個輸入因子，對每天的銷售的數據值進行預測。

通過多次試驗，最終確定的BP神經網絡的參數選擇為:系數0.65，訓練目標0.002，隱層最大神經元數600，最后測試數據的真實值和預測值對比圖如圖6所示。

圖6　神經網絡模型真實值與預測值對比圖

經過計算，BP神經網絡的預測精度指標分別為：MAE= 0.021 2，MPAE=22.32%。從曲線圖和統計指標來看，BP神經網絡模型對于銷售序列預測具有一定的預測能力，但是預測的泛化能力還有待提高。

3　結論

文中以大數據處理與挖據平臺架構為出發點，研究大數據精準挖據與預測的技術與模型。分析了某電子商務網站庫存銷售數據，資料取10年共10萬多組數據并利用Hadoop技術平臺，應用MapReduce對數據進行處理分析，然后應用BP神經網絡對數據進行了挖據和預測處理。

［1］戴禮燦.大數據檢索及其在圖像標注與重構中的應用［D］.合肥:中國科學技術大學，2013:20-50.

［2］Katiuscia Sacco，Valetina Galletto，Enrico Blanzieri.How has the 9/11 terrorist attack influenced decision making［J］. Applied Cognitive Psychology，2002（9）:1113-1127.

［3］Sarafidis Y.What have you done for me lately Release of information and strategic manipulation of memories［J］.The Economic Journal，2007，117（3）:307-326.

［4］Heyn T，Mazhar H，Seidl A，et al.Enabling computational dynamics in distributed computing environments using a heterogeneous computing template［C］．ASME 2011 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference，2012（8）: 227-236.

［5］陳芳.云計算架構下云政府模式研究［D］.武漢：武漢大學，2012.

［6］Howe D，Costanzo M，Fey P，et al．Big data:the future of biocuration［J］.2008（9）:47-50.

［7］Zhang Feng，Xue Hui-Feng.Big data cleaning algorithms in cloud computing［J］.International Journal of Online Engineering，2013，9（3）:77-81.

［8］LI Zhong-tao，Weis T.Using zone code to manage a contentaddressable network for distributed simula-tions［C］//Proceedings of 2012 IEEE 14th International Conference on Communication Technology:［s.n.］，2012:1350-1358.

［9］Wang Feng，Qiu Jie，Yang Jie，et al.Hadoop high availability through metadata replication［C］//Proceeding of the First International Workshop on Cloud Data Management:［s.n.］，2009:37-44.

New mining architecture and prediction model for big data

YANG Fei，AI Xiao-yan，ZHANG Yong-heng，ZHANG Feng
（School of Information Engineering，Yulin University，Yulin 719000，China）

In order to improve the accuracy of big data mining and forecasting ability，to solve the traditional data mining technology cannot adapt to big data processing environment problem，using of cloud services and big data processing technology，a new mining architecture and forecast model for big data model based on BP neural network is proposed.The structure of big data processing platform，big data analysis and expression technology and big data mining and prediction model based on BP neural network is designed.Application results show that the scheme combining cloud service platform and big data mining technology can effectively dealing with massive data processing and expression has a certain predictive ability for the sales data.

big data；data mining；prediction model；BP neural network；sales data

TN391

A

1674－6236（2016）12-0029-04

2015-07-08稿件編號：201507072

榆林學院科研項目（14YK38），榆林市科技計劃項目（2014cxy-09）

楊斐（1982—），男，陜西榆林人，講師。研究方向：復雜系統理論與建模，管理系統工程。

猜你喜歡

海量神經元架構

基于FPGA的RNN硬件加速架構

成都信息工程大學學報(2022年4期)2022-11-18

一種傅里葉域海量數據高速譜聚類方法

北京航空航天大學學報(2022年8期)2022-08-31

功能架構在電子電氣架構開發中的應用和實踐

汽車工程(2021年12期)2021-03-08

基于云服務的圖書館IT架構

時代人物(2019年27期)2019-10-23

海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行

當代陜西(2019年14期)2019-08-26

躍動的神經元——波蘭Brain Embassy聯合辦公

現代裝飾(2018年5期)2018-05-26

WebGIS架構下的地理信息系統構建研究

計算機測量與控制(2017年6期)2017-07-01

一個圖形所蘊含的“海量”巧題

中學數學雜志(初中版)(2016年5期)2016-11-01

ERK1/2介導姜黃素抑制STS誘導神經元毒性損傷的作用

中國生化藥物雜志(2015年4期)2015-07-07

一種海量衛星導航軌跡點地圖匹配方法

導航定位學報(2015年2期)2015-06-05

電子設計工程2016年12期

電子設計工程的其它文章: 超聲導波任意波形激勵技術研究; 分布式網絡數據包優先級傳輸模型研究仿真; 基于增強布谷鳥算法的彩色圖像多閾值分割; 基于拓撲更新算法的向量網絡連接設計; 一種基于陣列天線的偽衛星遠近效應抑制技術; 基于梯形云模型的成績定性評價

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合