?

大數據概念及主要技術分析研究

2016-12-27 15:01李真春裴彥芳
科技傳播 2016年19期
關鍵詞:數據量分析

李真春+裴彥芳

摘 要 本文全方位多角度分析了大數據概念的提出及發展歷程,闡述了大數據概念的內涵和外延,特別對大數據的“4V”特征進行了深入解讀,剖析了大數據技術快速發展的深層次原因,為大家正確認識大數據提供了有益的探索。簡要介紹了主要的大數據技術,包括:大數據采集與預處理的技術、大數據存儲與管理技術、大數據計算技術、大數據分析技術和大數據呈現技術,詳細介紹了在大數據研究領域影響最廣泛的大數據技術-Hadoop,在此基礎上,簡要介紹了大數據技術的基本應用。

關鍵詞 大數據;4V特征;大數據技術;hadoop

中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2016)172-0105-002

1 大數據概念的內涵和外延

大數據是一個很寬泛的概念,仁者見仁,智者見智。

亞馬遜(全球最大的電子商務公司)大數據科學家John Rauser認為大數據是任何超過了一臺計算機處理能力的數據量。(Big data is ‘any amount of data thats too big to be handled by one computer)。

在《大數據:下一個創新、競爭和生產率的前沿》當中,麥肯錫對于大數據做出了一下定義,即:所謂的大數據,主要就是指那些大小比常規數據庫工具的獲取、存儲等更大的數據集。一般來說,大數據概念的內涵通常用4V特征來表述。

第一個V是Volume,就是數據體量大。大到運用常用的數據庫軟件無法對其進行管理?,F在來看,基本上是指幾十TB到幾個PB的數量級。當然,隨著技術的進步,數據的積累,這個數值會變得更多,有人預測5年后,也許只有EB數量級的數據量才能夠稱得上是大數據。

第二個V是Variety,是指數據類型繁多,來源各異。有來自網絡的網頁、日志、圖片,有來自傳感器的監測數據、視頻數據、音頻數據、位置信息,還有來自日常運營系統的各類信息等。

第三個V是Velocity,速度快。它包含兩個含義,一是數據產生和更新的頻率快,數據量增長速度快。如今,只需兩天就能產生出自人類文明誕生以來到2003年所產生數據的總量。谷哥搜索引擎每個月處理的數據量超過400PB;百度每天大約要處理幾十PB字節數據;淘寶在線商品10億多件,每天發生數千萬筆交易,產生約20TB數據。各個城市的視頻監控每時每刻都在采集巨量的流媒體數據。二是響應快,要有很高的時效性。對大數據的處理要求也要遵循1秒定律,就是在1秒內出結果。

第四個V是Value,價值性。包含3層含義。一是價值密度低,在數據總量中有用數據所占比例低。以視頻數據為例,在連續不間斷的監控圖像中,可能有用的數據僅有一兩秒。二是整體價值高,設想一下,研究問題領域相關的、全部的、真實的數據被匯集起來形成的大數據集,其價值是何等珍貴。三是潛在價值大。大量數據的價值尚未完全被挖掘利用,大數據挖掘就像沙里淘金。

2 大數據為什么能“火”

一是大數據的大眾化。事實上,大數據并不是一個新名詞,尤其是當我們只從數據量的方向來對其進行分析的話,大數據早已存在。例如,飛機汽輪機壓縮器葉片的監控數據為每天588GB,生物技術領域中的基因組分析用的數據、氣象數據分析用的數據等,很早之前就已經屬于大數據了,并且其已經大到需要運用一些相對昂貴的超級高端計算機,進行數據的處理與分析。

二是大數據的硬軟件條件具備了。計算基礎條件:IT的摩爾定律使得計算機處理速度更快卻更便宜。(1965年,Intel的主要創始人戈登?摩爾就曾經提出一個非常有名的“摩爾定律”:在價格保持不變時,在集成電路當中,其所能夠容納的晶體管數目,通常都會在18個月之后增加一倍,并提升一倍的性能)。

存儲條件:其磁盤的價格出現了非常顯著的下降,其中,在2000年的時候,每GB硬盤的單價大約為19美元,但是到了2010年時,其已經降到了7美分,10年下降了近300倍;而且體積比以前更小。

分布并行計算條件:大規模數據分布式處理技術的發明與應用,成為了現階段大數據浪潮的第一推動力。

三是云計算的普及。云計算,就是一種利用大規模、低成本運算單元,通過網絡連接,提供各種計算和存儲服務的信息平臺。云計算改變了數據的存儲、計算和訪問方式。因為有了云計算,大數據的硬軟件環境就不需要自行搭建了。

3 大數據技術及應用

3.1 主要的大數據技術

通俗地講,所謂的大數據技術,指的就是從各種數據當中,來快速獲得有一定價值的信息的一種技術。

依據相應的數據處理流程,大數據技術主要包括大數據采集與預處理技術,大數據存儲與管理技術、大數據分析技術、大數據計算技術和大數據呈現技術等。

大數據采集與預處理技術,用于解決數據來源和數據質量等問題,主要包括異構數據庫集成、WEB信息實體識別、傳感器網絡數據融合、數據清洗和數據質量控制等。

從某種意義上來說,大數據的存儲與管理技術,能夠用來解決大數據的可靠存儲和快速檢索訪問等問題,主要包括分布式文件系統、分布式數據庫、大數據索引和查詢、實時/流式大數據存儲與處理等。

大數據計算技術,用于解決分布式高速并行計算問題,主要包括分布式查詢計算技術、批處理計算、流式計算、迭代計算、圖計算、內存計算等。

大數據分析技術,用于揭示規律、發現線索、探尋答案問題,主要包括數據挖掘、機器學習、模式識別、聚類分析等技術。

大數據呈現技術,用于將數據分析結果顯示給用戶,使得用戶能夠更清晰、方便、深入理解數據分析結果。主要包括可視化技術、歷史流展示技術、空間流展示技術等。

3.2 大數據應用

利用電子商務平臺所擁有的大數據,對客戶的行為進行大數據挖掘分析,提供了相似選購行為分析-用于推薦相似產品-經典臺詞是“看過本商品的顧客還看了”;提供了相似購買行為分析-用于推薦組合產品-經典臺詞是“購買本商品的顧客還購買了”;根據客戶的瀏覽歷史預測客戶喜好分析-用于推薦最適合的產品-經典臺詞是“建議購買以下產品”。

利用社區網站所擁有的大數據,根據用戶上網行為向用戶推送定向廣告。如根據我在新浪微博中的“男士休閑服”的話題,為我推薦淘寶店中出售的休閑套裝;根據我的身份信息,為我推薦的產品基本符合我的年齡、身份和喜好;并根據我對套裝的關注,為我推薦黃金絨的牛仔褲;根據我的喜好和評介,將類似的產品推薦給我的好友。

目前,大數據已在社會各領域進行了應用,從應用方向上看,在實現了大數據的存儲、挖掘與分析之后,大數據被廣泛運用在企業管理、數據標準化分析等領域中。而從應用行業的角度來說,通過大數據的運用,能夠在很大程度上改進客戶的營銷方式與服務水平,這樣能夠有效幫助行業降低成本,實現運營效益的提升。此外,其還可以幫助企業創新商業模式,并發現新的市場商機。從對整個社會的價值來看,大數據在智慧城市、智慧交通及災難預警等方面都有巨大的潛在應用價值。

參考文獻

[1]城田真琴.大數據的沖擊[M].北京:人民郵電出版社,2013,6.

[2]涂子沛.大數據[M].北京:廣西師范大學出版社,2012,7.

[3]維克托?邁爾?舍恩伯格.大數據時代[M].杭州:浙江人民出版社,2012,12.

[4]特金頓(Garry Turkington).Hadoop基礎教程[M].北京:人民郵電出版社,2014,1.

[5]劉蔚然,劉莉娜.大數據技術[J].冶金設備管理與維修,2014(4):33-36.

猜你喜歡
數據量分析
基于大數據量的初至層析成像算法優化
計算Lyapunov指數的模糊C均值聚類小數據量法
隱蔽失效適航要求符合性驗證分析
高刷新率不容易顯示器需求與接口標準帶寬
寬帶信號采集與大數據量傳輸系統設計與研究
電力系統不平衡分析
AMAC
電力系統及其自動化發展趨勢分析
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合