?

網絡大數據時代的發展現狀與挑戰

2016-09-14 03:05靳瑞濤蘇煜釗陳禮春國家新聞出版廣電總局二九一臺甘肅蘭州73005國家新聞出版廣電總局二九三臺河南鄭州456
甘肅農業 2016年4期
關鍵詞:數據量

王 勇,靳瑞濤,蘇煜釗,陳禮春(.國家新聞出版廣電總局二九一臺,甘肅 蘭州 73005;.國家新聞出版廣電總局二九三臺,河南 鄭州 456)

網絡大數據時代的發展現狀與挑戰

王勇1,靳瑞濤2,蘇煜釗1,陳禮春1
(1.國家新聞出版廣電總局二九一臺,甘肅蘭州730105;2.國家新聞出版廣電總局二九三臺,河南鄭州451162)

隨著網絡大數據(Big Data)時代的到來,“數據即服務”這一觀念思想也不斷植入,“網絡大數據”關鍵詞在全球迅速升溫。本文在對網絡大數據的內涵及其“5V”特征進行了一定深度闡述的基礎上,著重總結分析了網絡大數據時代的發展現狀、應用及其發展與挑戰;以促進網絡大數據規模的進一步擴大發展,給人們生活帶來更大的便利。

網絡大數據;服務;“5V”;

近年來,隨著互聯網技術迅猛發展和智能終端的大量普及,博客、社交網絡、基于位置的服務LBS為代表的新型信息發布方式的不斷涌現,以及云計算、物聯網等技術的興起,數據呈現爆發式增長,給許多行業帶來了嚴峻挑戰和巨大機遇,整個信息社會已經進入了網絡大數據時代[1]。

網絡大數據蘊含著豐富的社會信息,可以看作是對真實社會的網絡映射。分析網絡大數據并發現其中所暗含的線索與規律,可以幫助人們更好地感知現在、預測未來[2]。由此可見,網絡大數據是現代信息技術的重要發展方向之一,實現網絡大數據的共享與分析將帶來不可估量的經濟價值,同時也對社會產生巨大的推動作用。

一、網絡大數據的內涵與特點

(一)網絡大數據內涵

大數據(BigData)一詞最早出現在Apache org的開源項目NUTCH中,當時科學家用大數據這個術語來描述在更新網絡搜索索引的同時進行批量處理或分析的大量數據集。

1970年,當代著名思想家阿爾文·托夫勒將大數據時代稱為“未來的沖擊”,并首次提出數據組織中的“信息過載”問題。在1980年,他在其《第三次浪潮》中將大數據描繪為信息社會的重要篇章,還將其稱為“第三次浪潮的華彩樂章[3]”。

什么是網絡大數據?目前業內并沒有公認的說法。2010 年Apache Hadoop組織將大數據定義為,“普通的計算機軟件無法在可接受的時間范圍內捕捉、管理、處理的規模龐大的數據集”。美國麥肯錫全球研究院2011年6月對大數據做出一份報告,即《大數據:下一個創新、競爭和生產力的前沿》,指出數據是新時期的基礎生活資料與市場要素,重要程度不亞于物質資產和人力資本,大數據將成為企業提高生產力和競爭力的主要方式與關鍵要素。數據成為資產、產業垂直整合、泛互聯網化是大數據時代的三大發展趨勢[4]。Gartner公司的MervAdrian(2011)認為,大數據超出了常用硬件環境和軟件工具在可接受的時間內為其用戶收集、管理和處理數據的能力。Dumbill(2012)[5]采用IBM公司的觀點,認為大數據具有“3V”特點,即規模性(Volume)、多樣性(Variety)、實時性(Velocity)。大數據及其研究領域極具影響力的領導者的國際數據公司(IDC)就是其中之一;2011年,在該公司發布的報告中(由EMC主辦)[6],大數據被定義為:“大數據技術描述了新一代的技術和架構體系,通過高速采集、發現或分析,提取各種各樣的大量數據的經濟價值?!睆倪@一定義來看,大數據的特點可以總結為4個V,即volume、variety、velocity和value。種定義指出大數據最為核心的問題,就是如何從規模巨大、種類繁多、生成快速的數據集中挖掘價值。筆者認為這種4V定義似乎更加符合網絡大數據的研究價值和意義。

同時劉經南院士[7]將網絡大數據歸納總結為以下幾點內涵:

一是數據不僅規模大(>TB),且類型及結構復雜。所謂網絡大數據簡單來講就是一種海量的數據,往往存儲著相對較大的信息量,其信息逐漸趨向于多元化的主體,有著相對較快的更新速度和相對較低的價值密度,而這種海量大數據有著非結構化的主要特點[8]。不是當前的數據管理、存儲、處理軟件和硬件體系在可接受時間內能解決的;顯然,大數據只會是計算機網絡與互聯網上產生和運轉的數據。

二是大數據是高容量、高速率、高度多樣的信息資產,需要新的處理方式來強化決策支持,觀點發現和過程優化。

三是相關關系超過因果關系。海量數據隱含著更準確的事實,研究發現,大數據量可顯著提高機器學習算法的準確性;大數據集的簡單算法能比小數據集上的復雜算法生成更好的結果。

四是大樣本數據≈全體數據。不再依賴隨機采樣,數據直接表達問題本身,甚至可以從中挖掘新的問題。

五是“數據即服務”正在被廣泛接受:對數據在其生命周期中的價值加以利用,通過對高價值數據的實時發掘、處理和聚合,還能創造新的價值,有時一條微博就具有顛覆性的價值。

(二)網絡大數據的數據源

那么網絡大數據主要來源于哪里呢?從數據來源性質方面來看,主要歸納為兩方面:一是來自物理世界的數據;二是來自人類社會數據。這兩類數據包含的數據種類繁多,數據類型多元化。物理世界的數據是指通過傳感器、科學觀測獲得的,如地理時空數據、氣象環境數據、生物特征數據、衛星遙感數據、天文觀測數據等。人類社會數據是指來自人類社會活動產生的數據,如社交網絡數據、金融貿易活動數據、經濟產業網數據、軍事安全數據、車輛交通數據、通訊信息數據、視頻監控數據等。

從社會宏觀角度來看,可以根據其使用主體分為三類,即政府大數據、企業大數據、個人大數據。政府大數據:各級政府各個機構擁有海量的原始數據,構成社會發展與運行的基礎,包括形形色色的環保、氣象、電力等生活數據,道路交通、自來水、住房等公共數據,安全、海關、旅游等管理數據,教育、醫療、信用及金融等服務數據。企業大數據:隨著信息技術的發展,數據成為企業的核心資產和基本要素,數據變成產業進而成長為供應鏈模式,慢慢連接為貫通的數據供應鏈?;ヂ摼W時代,互相自由連通的外部數據的重要性逐漸超過單一的內部數據,企業個體的內部數據更是難以和整個互聯網數據相提并論。綜合提供數據,推動數據應用、整合數據加工的新型公司明顯具有競爭優勢。個人大數據:每人都能通過互聯網建立屬于自己的信息中心,積累、記錄、采集、儲存個人的一切大數據信息[9]。

這些大數據通過互聯網的傳播與共享,根據國際數據公司(IDC)的研究報告稱,全球90%的數據為近兩年產生,截止2012年全球數據量約為2.8ZB(1ZB=103EB=109TB),全球每天生產約7.8EB的數據,未來十年將以40%的速度增長,并預測全球數據量到2020年將達到40ZB。

中國互聯網行業持有數據總量達到1.9EB;2011年,全球被創建和復制數據量為1.8ZB;2013年,我們生成這樣規模的信息量只需10分鐘?!边@是互聯網數據中心(DCCI)在2012 年7月26日的“Adworld2012互動營銷世界”給出的一組數據。由這些數據可以看出,數據是互聯網時代人、機、物三者交互的語言媒介,人通過數據對連入網絡的計算機和產品進行控制,同時它們也通過數據流向人反饋所得出的結果或是收集到的所得。隨著互聯網的全民化普及,和物聯網的大大發展,數據量呈現了爆炸式的增長,完全超過了摩爾定律的18個月翻一番[10]。

圖1 .IDC全球數據量預測

(三)網絡大數據的“5V”特點

根據國際數據公司(IDC)給出的網絡大數據的“4V”特點外,劉念真則認為網絡大數據還應具有不定性(Veracity)特點,即“5V”特點:

Volume,數據量巨大。大數據通常指10TB規模以上的數據量。由于互聯網的快捷方便,許多終端產品都接入互聯網,如此多的聯網的終端產品每天都會產生巨大的數據量。例如,手機、平板電腦、PC終端的通話、瀏覽網頁等都會產生數據并被一些部門或者公司加以利用、分析或儲存。2015年約有150億設備聯網;未來每18個月產生的數據量等于有史以來的數據量之和。

Variety,數據種類繁多。不同形式(音頻,文本,圖像和視頻等);異構以及非結構化。隨著傳感器種類的增多以及智能設備、社交網絡等的流行,數據類型也變得更加多種多樣化,不僅包括傳統的關系數據類型,還有我們瀏覽的網頁,上傳的音頻和視頻,以及我們發送和接收的E-mail等形式存在的未加工的、半結構化的和非結構化的數據。例如:Facebook每天都有數以億計的狀態更新,2012年1月,Youtube網站的視頻日上傳量就達到了40億,每分鐘上傳視頻長度約60個小時。

Velocity,流動速度快。我們之前的數據處理大多是在自己的電腦上,或者機構的大型計算機上進行,受限制于互聯網發展的不夠發達,傳輸速度的不夠迅速,數據流通量很小,速度慢。如今我們的網絡已經足夠發達,傳輸速度有了很大的提升,但是數據量也開始急劇增加,現在我們強調的是數據的快速動態變化,形成流式數據是大數據的一個重要特征。每分鐘Google有200萬次查詢;流數據,實時響應(毫秒級)

Value,價值密度低。大量的不相關信息;高價值總量,低價值密度;深度復雜分析(機器學習和人工智能)在大數據時代來臨的今天,數據量呈指數增長,隱藏在數據中的有用信息的比例卻沒有增長,這無疑給我們在巨量的數據中獲取有用信息增加了巨大難度。例如:每天數十億條的搜索申請中,只有對少數固定詞條的搜索量對某些分析有用處;每天24小時的監控錄像中,只有那么1、2秒的畫面是有用處的等等。

Veracity,不定性。不連貫的語法或語義;即由數據不一致和不完整引發的不確定性;真偽難辨。

圖2 .網絡大數據的“5V”特征

二、網絡大數據的發展現狀及其機遇挑戰

(一)網絡大數據發展現狀

1.全球網絡信息化邁入大數據時代?!熬W絡大數據”關鍵詞全球迅速升溫,網絡大數據的研究層面和內容涉及方方面面。黃宣華在其《大數據的技術層面和主要內容》中,將網絡大數據主要分為四個研究層次,分別為:應用層、算法層、系統層以及平臺層。例如應用層主要指電信、公安、金融、遙感遙測、生物制藥以及行業應用系統開發等;算法層包括應用算法層(如社會網絡、商業智能、三維建模與可視化計算等)和基礎算法層(并行化機器學習與數據挖掘算法等)。

2.網絡大數據成為各國關注的戰略資源。奧巴馬政府更是將大數據戰略提升為國家戰略。奧巴馬政府為了進一步推動大數據相關產業發展,在2012年宣布投資2億美元,將大數據看作未來的新資源,像石油一樣重要,一個國家擁有的數據規模及運用的能力將成為綜合國力的重要組成部分,對數據的占有權和控制權將成為陸權、海權、空權之外的國家核心權力。數據成為和土地、資本、人力同樣重要的關鍵生產要素。從我國整體投資規模來看,到2012年底全國開建智慧城市的城市數超過180個,通信網絡和數據平臺等基礎設施建設投資規模接近5000億元,“十二五”期間智慧城市建設將成為大規模投資的重點,僅僅設備等基礎投資將達1萬億元人民幣。建設智慧城市各方面各層級的決策都離不開大數據支持[10]。

(二)網絡大數據時代下的機遇與挑戰

網絡大數據研究正處在期望膨脹期,距離成熟期還需要5~10年時間[11]。在此初期階段,仍需要進行更多的研究工作。2012年7月10日,聯合國發布《大數據促發展:挑戰和機遇》,這就意味著網絡大數據將面臨著許多的機遇和挑戰。

1.網絡大數據時代下將呈現出諸多的機遇。一是網絡大數據可以為智能交通、資源管理、健康監測、公共安全、政務管理、商業模型等智慧城市各領域提供全方面的支撐;二是網絡大數據可以很好地滿足精密農業對定位精度的要求;三是網絡大數據還可以為應急管理、天氣預報等提供有力的支持等。

2.同時網絡大數據時代下也將面臨著許多的挑戰。一是網絡大數據面臨著許多科學問題,例如數據復雜度理論、數據的復雜計算理論、數據全生命周期的系統架構與效能模型以及數據科學的分類譜系等;二是同時網絡大數據還面臨著許多技術問題,例如數據的感知、融合與表達,數據存儲管理,數據挖掘,計算推斷和數據可視化等問題;三是同時網絡大數據還面臨著許多應用問題,例如數據的資源化與共享、領域應用需求和計算模型、安全與隱私問題、產業鏈及產業生態等問題。

大數據正在引發一場思維革命,大數據正在改變人們考察世界的方式方法,以前所未有的速度引起社會、經濟、學術、科研、國防、軍事等領域的深刻變革。大數據除了將更好的解決商業問題,科技問題,還有各種社會問題,形成以人為本的大數據戰略[9]。

[1]王仿坤.網絡大數據技術與應用[J].電信技術,2015,(06):10-13.

[2]程學旗,王元卓,靳小龍.網絡大數據計算技術與應用綜述[J].科研信息化技術與應用,2013,(06):3-14.

[3]阿爾文·托夫勒.第三次浪潮[M].朱志焱譯.北京:新華出版社,1996.

[4]http://www.teradatamagazine.com/v11n01/Features/Big-Data/:MervAdrian.BigData[N/OL].Teradata Magazine.

[5]Edd Dumbill.WhatIsBigData[EB/oL].http://strata.oreilly.com/2012/01/what-is-big-data.html,2013.1.24.

[6]GantzJ,ReinselD.Extractingvalue fromchaos.IDC iView,2011:1-12.

[7]劉經南,方媛,郭遲,高柯夫.位置大數據的分析處理研究進展[J].武漢大學學報(信息科學版),2014,04:379-385.

[8]袁永波,胡元蓉.探析大數據時代下的網絡安全問題[J].網絡安全技術與應用,2015,02:165-168.

[9]張蘭廷.大數據的社會價值與戰略選擇[D].北京:中共中央黨校,2014.

[10]王浩.大數據時代下的思維方式變革[D].上海:東華大學,2015.

[11]張引,陳敏,廖小飛.大數據應用的現狀與展望[J].計算機研究與發展,2013,(02):216-233.

(編輯:張瓊瓊)

TP311

A

1673-9019(2016)04-0021-04

2016-01-15

王勇(1984-),男,寧夏固原人,助理工程師,主要從事大數據在廣播電視節目內容監管中應用的研究。

猜你喜歡
數據量
基于大數據量的初至層析成像算法優化
計算Lyapunov指數的模糊C均值聚類小數據量法
用于燈檢機驗證中人工檢測數據統計的軟件設計及性能驗證
高刷新率不容易顯示器需求與接口標準帶寬
寬帶信號采集與大數據量傳輸系統設計與研究
信息化在運輸檔案管理中的使用方法
不確定條件下信息系統云遷移及時機研究
大數據時代傳統出版業數據規模
AMAC
云計算中服務質量預測數據的信心建模
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合