?

探究大數據下的智能數據分析技術

2018-03-06 11:10◆聶
網絡安全技術與應用 2018年3期
關鍵詞:日志分析企業

◆聶 珊 肖 煬

探究大數據下的智能數據分析技術

◆聶 珊1肖 煬2

(1.四川省計算機研究院 四川 610041;2.成都哈佛依曼科技有限公司 四川 610041)

隨著科學技術的不斷進步和發展,互聯網技術已經逐漸的應用到社會的發展和人們的生活之中,將人類社會帶入了一個大數據的信息時代。幾乎每一個公民的生活中,我們都可以發現數據的身影,同時,也更加體現了人類的生活逐漸實現了信息化和網絡化。隨著社會整體信息量的急劇增加,導致了個人的和可獲取信息數量也在與日俱增,這是大數據時代最主要的兩個特點,從科技發展的角度來分析,社會數據化已經成為了一個社會發展的必然趨勢,隨著社會數據化進程的不斷加深,我們的社會終將會實現全面的信息化和數字化,導致我們對大數據的需求也越來越迫切。因此,本文對大數據下的智能數據分析技術進行了深入的探究和分析,從國內大數據的發展現狀入手,進一步探究了大數據的主要分析模式和分析技術,詳細地闡述了在數據分析過程中應該注意到的事項,為日后研究數據分析工作提供了一定的理論基礎。

大數據;數據分析;數據化

1 我國大數據發展的現狀

對于數據處理來說,數據的分析是一個核心的內容,數據處理的價值體現也是由數據分析來完成的。而大數據的分析同以往的數據分析有著明顯的區別,數據量之間發生了顯著的差異,由于數據量的急劇增加,導致數據的儲存和查詢工作加深了一定的難度。因此,從實際的角度出發,要想實現大數據的分析,我們就必須根據原有的數據來探究一種新型的分析模式,尋找到實際的根源,從而建立一個合理的模型來對數據進行儲存和查詢,從而實現社會各個部門的協調與創新。

目前來看,雖然大數據已經逐漸滲透到社會的各個領域,然而,在我國大數據分析的發展仍然處于一個起步的階段,從行業的操作方面來看,從事這一部分的企業只占據了一小部分,而且在這一些小部分企業中,只是能夠對大數據進行基本的分析,然后將結果應用到最終的決策中。這些行業主要集中體現在銀行業、電信業和電商業等等,以銀行為主,目前在我國的大型國有銀行中都已經引進了數據分析業務,發展但效果也較為理想,可是卻沒有涉及到過多的領域,運行管理等方面仍然處于一個數據缺失的狀態,其他的中小銀行無論是在運行管理方面,還是在主營業務方面都沒有投入數據分析,數據分析的建設也仍然處于一個起步的階段。除此之外,在我國的國民經濟中占據主要力量的建筑業和外貿業,也沒有從根本上引入數據化的發展,沒有對數據進行一個合理的分析,從而導致我國整體的數據分析仍然處于一個起步的階段。

從數據來源的角度來分析,數據化能夠保障企業的穩定運行。目前來看,大部分的企業只是單純地依靠企業本身所具有的數據,來解決已經出現的問題,或者是只有當發現問題的時候,才會對數據進行收集和整理。很少有企業從根本上認識到了數據對于企業發展和諧運行的重要性,因此,數據化所產生的巨大價值幾乎很少地發揮在企業的運行和建設過程之中。除此之外,企業的內部和外部所產生的數據也沒有得到一個合理的運用,通過企業內部、外部的數據分析,可以對企業即將面臨的問題做出一個科學的預測,從而幫助企業針對企業自身的情況作出一個合理的決策。目前來看,以上提到的這些內容,我國在企業仍然存在著較大的進步空間,大數據化下的智能數據分析帶動企業的運營發展也有待進一步的發展。

2 大數據的分析方式和分析技術

2.1大數據的分析方式

在大數據的時代,對數據進行分析的最顯著的一個特征就是多源頭、異結構。數據化的分析過程并不是一個具體而形象的概念,它具有一定的抽象性和降維性,同時也包含了較強的概括性。從數據收集的源頭出發,可以將大數據分析的數據對象,分為以下幾類。第一類,是根據網頁中網民的瀏覽次數、點擊率等內容實施數據的監控,所產生的互聯網數據,或是對某一網站的變化和所搜索的關鍵詞的數量,來實施數據監控。第二類,是根據用戶的行為以及操作系統和系統運行的狀態等日志數據的數據監控。第三類,是通過在通信領域中所產生的信號、信令數據,用戶的個人信息以及通話的位置時長等數據的情況。第四類,是在國民經濟的各個領域中,不同的行業之間所進行的數據統計。

對于以上這些大數量、多源頭的數據,他們沒有一個完整而統一的結構。因此,對于這些數據的分析應該采取以下幾種模式。首先,對于互聯網所產生的數據,我們采取的主要分析模式是建立搜索引擎,通過搜索引擎來對數據進行統一的搜索和處理。隨著互聯網技術的不斷進步和發展,搜索引擎也得到了更好的提升,它的效能和工作效率都上升到了一定的高度,能夠在海量的數據中對數據進行刪選,從而獲得更有價值的信息內容。其次,是對日志數據進行收集,可以通過用戶的行為日志和系統運行的情況,對用戶所產生的數據日志進行分析,從而導致系統能夠根據日志的情況作出更加準確的判斷。處理日志數據和網絡數據的方法極為相似,都是通過引擎的方式對數據進行刪選,篩選出有價值的數據,這種處理數據的模式,我們可以稱之為離線批量處理。它不僅可以對網頁中的數據進行刪選和查詢,同時也可以為決策人員提供有價值的數據信息,確保決策人員在最短的時間內獲得價值量最高的信息,以此來保障用戶獲得一個最理想的體驗感覺。除此之外,常用的數據分析模式還有查詢式分析以及實時數據分析,實時數據分析可以被廣泛地應用到國民經濟中占據主導力量的行業之間的數據監控之中。

2.2大數據的分析技術

要想從數量如此龐大的信息中,篩選出最有價值的信息,就必須要具有先進的分析技術,在大數據分析的過程中,所使用的分析技術主要有以下幾個特點:首先,大數據的分析技術必須要適應大數據的增長速度。其次,大數據的分析技術必須要可以面對數據的多變性和多樣化,同時分析的技術應該以非結構化為主。第三是分析的技術,具有一定的快速性,也就是實時分析的過程。只有滿足了這些技術特點,才可以適應大數據的發展和變化。為了滿足,大數據進步所提出的要求和標準,目前所采取的主要數據分析技術有Qracle的Exadata 和EMC的GreenPlum。而目前分析處理大數據應用最廣泛的核心技術為Hadoop。

3 數據分析過程中的要點

3.1明確數據的變量

在大數據的時代下,對數據進行統一的收集和處理,是為了要明確市場變化中的所有變量,這也就意味著在數據分析的過程中,應該要努力去尋找數據前后所產生的變量,也就是數據的變化,通過對數據變化的對比,我們可以分析出對于大數據變化所產生的影響因素,來判斷數據的價值,從而來決定市場的走向,這樣不僅可以對市場的發展提供有利的條件,還可以幫助決策者對市場的走向做出一個合理的判斷。

3.2 統計中不再追求精確的數據

在大數據全面來臨的情況之下,數據的不精確性不僅不會影響到數據整體信息的真實性和可靠性,同時,還會促進對整體信息、情況的了解和掌握。大數據時代之下,人們所掌握的信息也越來越復雜,在如此錯綜復雜的數據信息之下,數據之間的傳遞就會發生參次不齊的情況,如果對于每一個數據都要要求它的精準性,那么就會給整個統計工作增加不必要的難度。因此,在對大數據進行統計和分析的過程中,我們不需要再去追求數據的具體精準性,吹毛求疵,應該用樣本的數量來反映總體的情況,樣本的數量越多,樣本的平均水平就會和總體的實際情況越接近,如此,就會大幅度的縮短總體和樣本之間的差異,從而使樣本所表示出來的數據能夠更加真實地反映總體的實際情況。

[1]王惠.大數據時代下數據分析理念研究[J].中國市場,2015.

[2]朱建平,章貴軍,劉曉葳.大數據時代下數據分析理念的辨析[J].統計研究,2014.

[3]鄔賀銓.大數據時代的機遇與挑戰[J].求是,2013.

[4]朱建平,章貴軍,劉曉葳.大數據時代下數據分析理念的辨析[J].統計研究,2014.

[5]李金昌.大數據與統計新思維[J].統計研究,2014.

[6]俞立平.大數據與大數據經濟學[J].中國軟科學,2013.

猜你喜歡
日志分析企業
企業
企業
企業
一名老黨員的工作日志
隱蔽失效適航要求符合性驗證分析
敢為人先的企業——超惠投不動產
扶貧日志
電力系統不平衡分析
雅皮的心情日志
游學日志
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合