?

試論大數據之“大”

2016-03-24 00:14李廉
中興通訊技術 2016年2期
關鍵詞:大數據

李廉

摘要:認為大數據提供了一種全新的認知世界的角度和方法。與熟知的數學和大部分物理學的基本認知規律不同,大數據分析原則上是一種基于觀察和歸納的經驗主義認知,這種方法曾一度被現代實證主義的研究模式邊緣化。隨著近年來大數據產生與分析的技術進步,這一古老方法正在重新煥發活力,并賦予大數據新的內容和形式。在這個意義上,給出了關于大數據4V的新解釋。同時通過一個NP問題的例子,探討了大數據對于復雜問題解決的新方法和新思路。

關鍵詞:大數據;觀察歸納;概率近似正確;數據分布;數據清洗;數據價值;例證法

Abstract:Big data provides a brand-new angle and method of perceiving the world. Like mathematics and physics, big data analysis is, in principle, a methodology based on observation and empirical induction, which has been marginalized in recent times by positivism in research models. As techniques for big data creation and analysis have developed, this methodology has blossomed. We give a new explanation of the “four Vs” of big data: state the four Vs here. We also discuss an example of an NP problem to explore new methods for solving complex.

Key words:big data; observation and induction; probability approximately correct; data distribution; data cleaning; data value; exemplification method

1 大數據的應用目的

毫無疑問,對于大數據的分析與處理,目的是要獲取知識,或者說認知結論。那么,通過大數據來獲取知識,與大數據時代之前獲取知識有什么不同嗎?為此,我們需要回顧人類直接從自然界獲取知識的兩種手段:觀察和實驗。

早期人們獲取知識的手段是觀察,通過對于自然現象的仔細觀察,得到關于自然規律的認知。由于觀察本身沒有干預自然的運行,因此可能會受到眾多因素的干擾而影響認知的質量,甚至得到不正確的知識。16世紀之后,由伽利略等逐步開創了現代實證主義研究的手段,這種研究需要預設因果關系,然后在實驗室里進行現象重建。由于在實驗條件下,干擾因素被抑制到最小,因此可以準確重現現象之間的因果。實驗與觀察的區別是:實驗需要預先假定一種或者多種因果現象,然后在實驗室設計適當的實驗來重現這些現象,從而證實因果關系。實驗并不特別依賴研究人員的直觀經驗,而且具有很強的說服力。觀察是需要在眾多的現象之間,找出其中的因果關系。這里面并沒有什么統一的方法和標準,因此通過觀察得到結論需要直觀和經驗,同時說服力往往也不夠。在實證主義的研究體系建立之后,觀察研究就讓位于實驗,除了少數的學科(例如宇宙學),在絕大多數自然學科中,實驗成為形成結論的標準手段,任何結論必須在實驗室里面被驗證,僅僅在自然界被觀察到是不夠的。究其原因,還是因為歷史上由于觀察手段的不足,難以獲得大量數據,而建立在小數據基礎上的觀察,往往是不準確的,得到的結論也缺乏說服力。例如通過觀察,人們最容易得到的結論是地球中心論,這種學說統治了科學界1 500多年。只是到了開普勒、哥白尼時代,隨著觀察數據的增加,才能夠顛覆以前的結論,重新建立新的學說。這說明:觀察研究這種人類最基本的研究手段,其結論的可靠性依賴于是否有足夠的觀察數據,當數據多到一定程度時,所獲取的結論才具有可靠性。因此一個重要的問題出現了:對于一個具體的觀察對象,數據量達到多大時,我們才能采信所獲取的結論呢?

既然過去是受限于數據的不足,使得人們研究自然問題主要依賴于實證主義的實驗方法。那么現在隨著信息技術的發展,獲取數據的能力有了極大提高,進入了大數據時代。我們是否可以重新回到先輩那里,采用觀察的方法來研究問題,獲取知識?這個不是可能不可能的問題,而是已經在我們身邊發生的事實。在人文科學、社會科學、自然科學等領域已經開始采用大數據來進行研究,產生新的知識,這些新知識極大地豐富了我們對于自然和社會的認知,有許多成果是依賴試驗方法無法想象的,其中最典型的例子可能是圖像識別和語音分析,在基本無法通過實驗來重構現象的人文社科領域更是如此。通過觀察設備(傳感器)作用于各種自然現象、社會活動和人類行為,產生了大量的數據,分析和處理這些數據就是對這些觀察結果的歸納和提煉;因此通過大數據來認知各種自然的、社會的和人文的規律,是傳統意義上對于觀察研究的新提升和新表現。人們研究科學的手段又重新回到了觀察這個最原始和最基本的手段,但是這一次的回歸是螺旋式上升,比起張衡和托勒密時代的觀察完全不在一個層面上。從古代依靠人的感官來觀察現象,到現在依靠傳感器來觀察現象,數據的密度、廣度、準確性和一致性已經不能同日而語了,因此觀察這種研究手段在信息時代換發了新的生命力,成為新時代的科學研究方法。

2 大數據的定量化

大數據是與觀察研究密不可分的,大數據分析和處理的目標是獲取知識,得到結論。那么怎樣從大數據得到的結論呢?在小數據時代,這需要經驗和直觀。在大數據時代,需要應用計算機來進行分析和處理。一般來說,大數據分析是一種歸納的方法,因此必然具備歸納方法的普遍特點,即通過大數據獲取的結論具有某種不確定性,這就是數據分析理論中常說的概率近似正確(PAC)[1]。確切地說,一個結論概率近似正確,是指該結論能夠以1-δ的概率獲取,并且具有誤差ε(類似于機器學習里說的泛化誤差)。也就是說:我們通過大數據來獲取知識,不能保證每次都能夠正確獲取,而且獲取的知識也不能保證絕對正確。δ和ε這兩個數,反映了使用大數據獲取知識的能力和精度。這是所有歸納分析的共同特點,也是觀察研究的固有性質。這一點既可以說是優點,又可以說是缺陷。優點是這樣可以保證我們至少獲得一個接近真理的結論;缺點是我們不能期待獲取絕對正確的結論。如文獻[2]中所說:“當我們掌握了大量新型數據時,精確性就不那么重要了,我們同樣可以掌握事情的發展趨勢。大數據不僅讓我們不再期待精確性,也讓我們無法實現精確性。然而,除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界?!?

但是問題到此遠沒有結束,反而是剛剛開始。和古代的科學家不同,在大數據時代,我們需要回答這樣一個問題:給定任意的δ和ε,為了在大于1-δ的概率下得到一個誤差小于ε的結論,我們需要多少數據?如果能夠回答這個問題,哪怕是在某種程度上回答了這一問題,我們就超越了古代科學家憑經驗和直觀做出結論的限制,真正把獲取結論的過程建立在客觀和科學的基礎上,這樣得到的結論自然也就有了很強的說服力。

為了更加仔細考察從大數據獲取的知識的過程,從中得到方法論的一些結果,我們需要明確一些概念。

第1個概念是樣本和分布。從觀察現象得到的數據并從中來獲取知識,首先需要解決的問題是得到的數據不可能是所有的數據,我們能夠得到的數據永遠是客觀上整體數據的一部分。顯而易見,只有明確知道樣例數據與整體數據之間滿足的分布假設,從樣例來獲取知識才具有可靠性和準確性。其中最受關注的就是樣例集合與整體數據之間具有何種分布狀態,同分布自然是理想狀態,但是也已經發展了一些方法來討論非同分布的情況[3-4]。

第2個概念是數據的清洗。觀察是現象的記錄,并且從記錄的數據來獲取結論。數據都是具有屬性的,如果屬性與期望的結論之間沒有可關聯的關系,那么數據只是一堆隨機的噪聲而已。在小數據時代,我們主要靠直覺和經驗來篩選屬性和處理數據,使得從處理后的數據能夠有效地得到結論。在現代大數據分析和處理過程中,發展了一些自動或者半自動的方法來進行處理。

第3個概念是獲取結論的成本。從計算機科學的角度,是指獲取結論所花費的時間復雜度和數據空間復雜度,主要是時間復雜度。

綜上所述,在大數據背景下獲取結論,與數學和大部分物理學的結論形式不同,采用了概率近似正確的概念,并由此建立結論的獲取方法和標準。實際上,由于觀察得到的數據總是局部的和不完整的,所以通過觀察得到的結論原則上都是PAC形式。

現在我們可以討論一個有意義的問題:預設一個目標結論以后,需要多少數據量才能以PAC的方式得到該結論。這個問題無疑是大數據研究中最重要的內容之一。在小數據時代,對于這個問題并沒有特別關注,因為通過數據來獲取結論是借助直觀和經驗的,數據量的多少對于能夠得到結論沒有直接的聯系,一個聰明人只要少數的幾個例子就可以“猜”到結論,而對于一般的人來說,再多的例子也無法從中得到結論。但是在大數據時代,由于是通過設計算法,借助計算機進行數據分析,因此數據量的多少自然會對于結論的產生和結論的正確性具有直接的關系。由于大數據的研究才僅僅起步,對于這個問題目前上沒有一般的結果。但是在附加一些不太苛刻的條件之后,卻有一個出乎意料的結果,這就是Blumer等在1989年得到的一個定理。

定理1(Blumer定理)[5]:設D是實例的集合,S是樣例的集合,H是目標函數,A是算法,如果:

(1)S與D具有相同的分布;

(2)H是一個二分類函數;

(3)H在算法A的假設空間中。

可以在期望1-δ內,得到函數G,并且G與H的誤差不超過ε,即以PAC的模式得到函數G。其中VC([?])是算法A的假設函數空間[?]的VC維數。

我們經常說大數據有4個V,即體量(Volume)、高速(Velocity)、多態(Variety)和價值(Value)。這些V反映了大數據的特點,但是究竟達到什么程度才叫做大數據,需要有一個量化的討論,否則大數據就僅僅是一個籠統的概念。

結合前面的討論和定理,我們嘗試給出一種大數據的量化的解釋。首先要指出的是:數據量大不大是依據所要得到的結論性質而言。對于一個工廠的產品檢驗來說,可能幾百個抽樣(觀察)數據就足夠了,但是對于暗物質的探測,可能幾個P的數據量也未必夠用[7]。這說明談論數據量之大小,脫離了目標是無意義的。

定理1指出:在給定目標(包括預設的結論形式和精度,即δ和ε)的前提下,當數據量達到一定程度后,就可以按照PAC模式得到結論。因此我們可以把Blumer定理中的N的倒數1/N定義為數據的價值密度,這就給出了4個V中Value的量化定義。在數據平等的前提下,每一個數據相對于期望結論與相應算法,它的價值就是1/N。同樣的數據對于不同的期望結論和算法,其價值是不同的。同時根據該定理,可以定義N為解決問題所需要的最小數據體量,即Volume。當數據量達到N時,就可以稱為關于期望結論和相應算法的大數據。由于這個數量的巨大,因此如何存儲和處理海量數據是重要的技術問題。對于另外兩個V:Velocity是指需要有快速存儲技術和計算技術來接納和處理高速涌入的數據,但是也可以看作是最小數據體量與問題解決時間要求的比值,這個值決定了數據處理的最低速度;Variety是指數據的來源和類型很多,對于問題解決而言,這種多態性取決于數據清洗的質量。

一般來說,數據的多態性越豐富,越是會有利于數據的整理和表現,也越會容易得到結論,對機器學習的語言來說,越容易保證目標函數在假設集合中。當然,數據的多態性會增加數據獲取和整理的難度,因此需要在數據處理的成本和效率之間加以折中[8-10]。

3 1個NP復雜類的例子

上面已經討論了如何通過大數據來獲取結論,以及獲取結論的精確性和可靠性問題。在這一節,我們繼續通過1個例子來說明這個問題。

一個NP問題是指一臺非確定圖靈機在多項式時間可以解決的問題。NP問題能否具有確定的多項式算法是一個長期以來未能解決的重要問題?,F在我們通過大數據的思維方式來探討此類問題,尋求新的解決問題思路。

定理2: 對于任意的NP語言類L,以及給定的n、δ和ε,則存在一個算法A,當隨機抽取的樣例個數超過了N=[1ε4log22δ+f2(n)log213ε]

時,可以期望1-δ獲取一個確定的函數,該函數對每一個長度等于n的x,計算x ? L?誤差不超過ε。并且N多項式(實際上是平方)依賴于n,1/δ和1/ε。

這個定理只是一個理論上的結果,因為即使當n=100,δ=0.05,ε=0.01時,需要的樣例個數也達到了8 000萬這樣的數量級。對于這么多的樣例,需要進行標注,即一個個注明它們是否屬于L,本身就是一項十分費力的事情。但是該定理卻表現了通過大數據分析獲取結論一些規律。首先該結果表明了通過一些例子的分析,就可以得到一般性的結論(具有一定的誤差)。對于非確定語言L而言,不需要去構造相應的圖靈機,只需要計算一定數量的樣例,同樣可以某種概率得到一個判斷函數H,在誤差ε的范圍內判斷是否x ? L?大數據給我們帶來的一個重要方法論正是在這個意義上的,通過對大量的觀察數據的分析和處理,可以得到原來只有實驗驗證和邏輯推理才能得到的結論。這種模式在古代就存在,但是后來被更先進的實證主義的研究方法所取代,而大數據的出現重新召回了它的靈魂。

通過例子來證明問題,這個方法在80年代就被洪加威等研究過[11],稱為例證法。在小數據時代,例證法需要經過仔細挑選的特殊例子,在大數據時代,可以通過大量的數據來取代這個苛刻的條件,因此大數據的出現將例證法推到了幾乎可以在所有領域應用的地步。這對于過去只靠實驗和邏輯證明問題而言自然是開創了一個新時代。

4 結束語

大數據提供了認識世界的新方法和新角度。有別于我們習慣的實驗驗證和邏輯推理方法,大數據定義了通過觀察和樣例獲取結論的模式,這種模式古已有之,而且是人類研究自然的最古老的方法。大數據的出現使得這一方法重新煥發活力,并且賦予了新的內容和形式。由于大數據本質上是通過觀察來獲取結論,因此和所有采用觀察方法研究問題(無論是否采用大數據分析)具有相通之處,所獲取的結論具有某種不確定。在當前討論的大數據分析方法中,這種不確定性主要表現在兩個方面:一個是獲取結論的可能性,一個是結論本身的可靠性。同時,獲取結論的不確定性可以在某些條件下任意逼近確定性。正如舍恩伯格所說:這種不確定性不是表示大數據分析不如物理學和數學,而是說明大數據提供了一種新的認知世界的模式。

大數據分析并不排斥傳統的物理學和數學的研究模式,相反,大數據分析建立的關聯關系可以為因果關系和邏輯關系的研究提供佐證和啟示。

參考文獻

[1] MITCHELL T. Machine Learning [M]. 曾華軍,譯. 北京: 機械工業出版社, 2008

[2] SCHONBERNER V. Big Data:A Revolution that Will Transform How We Live, Work and Think [M]. 周濤, 譯. 杭州: 浙江人民出版社,2013

[3] FAKOOR R , LADHAK F , NAZI A , et al. Using Deep Learning to Enhance Cancer Diagnosis and Classification[C]// Proceedings of the 30 th International Conference on Machine Learning. USA: ICML, 2013: 211-218

[4] WANG A, AN N, YANG J, et al. Alterovitz, Incremental Wrapper Based Gene Selection with Markov Blanket[C]//ASE BioMedCom Conference. USA. USA: ASE, 2014: 106-108

[5] BLUMER A, EHRENFEUCHT A, HAUSSLER D, et al. Learnability and the Vapnik-Cherbonenkis Dimension [J]. Journal of the ACM, 1989: 36(4): 929-965

[6] 羅軍舟. AMS大數據處理的挑戰[R]. 合肥: 中國計算機大會, 2015

[7] 周志華, 李武軍, 張利軍. CCF2014-2015中國計算機科學技術發展報告[M].北京: 機械工業出版社, 2015

[8] TOPOL E. The Creative Destruction of Medicine [M]. 張南, 等譯. 北京: 電子工業出版社, 2014

[9] CHO K. A Brief Summary of the Panel Discussion at DL Workshop of ICML[EB/OL].[2015-07-13]. http://deeplearning.net/2015/07/13/a-brief-summary-of-the-panel-discussion-at-dl-workshop-icml-2015

[10] 洪加威. 能用例證法來證明幾何定理嗎?[J]. 中國科學A輯, 1986(3): 234-242

[11] LASZLO BARABASI A. Bursts: The Hidden Pattern Behind Everything We Do [M]. 馬慧, 譯. 北京: 人民出版社, 2012

猜你喜歡
大數據
基于在線教育的大數據研究
“互聯網+”農產品物流業的大數據策略研究
大數據時代新聞的新變化探究
淺談大數據在出版業的應用
“互聯網+”對傳統圖書出版的影響和推動作用
大數據環境下基于移動客戶端的傳統媒體轉型思路
基于大數據背景下的智慧城市建設研究
數據+輿情:南方報業創新轉型提高服務能力的探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合