?

淺談云計算環境下的大規模圖數據處理技術

2016-06-08 21:43劉瑞玲
科技視界 2016年14期
關鍵詞:處理技術

劉瑞玲

【摘 要】本文著手于大規模圖數據處理技術在云計算環境下的應用優勢,通過對大規模圖數據處理技術的實踐應用情況進行分析,結合云計算環境心愛的大規模圖數據處理問題情況進行研究,總結出大規模圖數據處理技術在云計算環境下的關鍵性技術實施情況,為我國今后的大規模圖數據處理技術創新提供可行性參考。

【關鍵詞】云計算環境;大規模圖數據;處理技術

在計算機技術中圖形結構屬于用的較多的抽象數據結構,和樹及其線性表相比,圖形結構更加復雜,它具有一定的表示能力,在我們的實際生活領域中都在合理而高效的使用圖結構,和圖有關的處理及應用方式隨處可見,例如圖在科技文獻中的引用,傳統領域中的應用,利用圖預測疾病突發的路徑、確定最優的運輸線路等。新應用,分析生物信息網、語義Web分析、社交網路分析等。雖然經過了較長時間的發展及其應用,但隨著科學技術的飛速發展,更多、更大的圖規模相繼涌現,我們就要不斷將理論基礎進行完善,來確保能夠高效有力的對大規模圖進行處理[1]。

1 云計算簡介

云計算(Cloud Computing)是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網格計算(Grid Computing)的發展,或者說是這些計算機科學概念的商業實現。云計算是虛擬化(Virtualization)、公用計算(Utility Computing)、IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)等概念混合演進并躍升的結果。云計算的基本原理是,通過使計算分布在大量的分布式計算機上,而非本地計算機或遠程服務器中,企業數據中心的運行將更與互聯網相似。這使得企業能夠將資源切換到需要的應用上,根據需求訪問計算機和存儲系統[2]。

2 云計算環境下大規模圖數據處理技術

圖是一種典型的非線性數據結構,具備一定多對多關系,它也是一種復雜的數據結構。數據元素間的關系是任意的。其他數據結構(如樹、線性表等)都有明確的條件限制,而圖形結構中任意兩個數據元素間均可相關聯。常用來研究生產流程、施工計劃、各種網絡建設等問題。因為大規模的圖具備的數據量非常繁多,所以,分析及其研究對大規模的圖的數據處理技術逐漸成為人們廣泛關注的重點。通過深入的研究以及分析,已經具備有一定層次水平的圖形圖像處理技術,對相關技術理論進行日益完善,為處理大規模的圖形技術提供基礎及其保障,但是因為信息技術的飛躍發展,促使各式各樣的信息發展較快,導致圖數據處理的規模越來越大,因此,加強對大規模圖數據處理技術的研究力度,為了能高效處理大規模的圖數據提供良好的平臺[3]。從以下幾個方面進行深入分析:

2.1 云計算環境下存儲圖數據的方式

在充分研究和分析大量資料和文獻之后得到,目前,在應用以及管理大規模圖數據處理技術的時候,其中主要包括超圖數據模型、單圖數據模型兩種常用數據模型,上述兩種數據模型都可以在一定程度上對無向圖和有向圖進行相應處理,但是兩種方式最根本區別就是不同的存儲格式。大規模體數據進行存儲的時候,最基本的就是云計算分布式存儲系統,可以把云計算分布系統分為分布式數據庫以及分布式文件系統兩種形式。分布式文件系統中最重要就是HDFS和GFS,能夠直接存放臨接矩陣和對接表;分布式數據庫,也就是說NoSQL,其中最重要的就是Hbase和Big Tabl。分布式數據庫可以分為以下將基本數據模型:主要包括KV存儲模型、CFS列族存儲模型、DS文檔存儲模型。DS模型具備方便、靈活的優勢,比較適合使用存儲結構化數據,此模型不適合對圖數據進行存儲。經過大量數據分析研究表明,KV存儲模型十分適合存儲大規模圖數據,KV存儲模型存在支持哈量存儲、高并發查詢以及模式結構簡單的特點,在處理Page Rank等圖數據的時候,一般情況不會出現復雜操作,能夠符合數據處理的基本需求,如果是利用鄰接表的方式形成圖數據,Key就是圖的源頂點,Value就是出邊信息和點的值,可以更加方便的遷移和合并數據,增加空間局部性,大幅度降低處理查詢過程中讀取數據的次數,可以在一定程度上提高效率。

2.2 云計算環境下分割圖數據

一般來說,云計算環境中處理大規模圖數據,處理方式應該是分布式并行,因為圖計算存在一定強耦合性、圖數據具備連通性,為了能夠更加高效的處理圖數據,應該適當降低子圖數據之間耦合度,圖分割是有效實現目標的主要方式?;玖鞒淌牵菏紫刃枰纸o具備相對比較完整邏輯結構的大圖,然后在分布存儲系統節點中分別放置分割部分,進行適當處理,并且每個子圖啟動以后都需要能夠具備與之對應的計算服務,在處理完子圖以后,就達到處理大圖的目的。在上述處理過程總,分割大圖以后,能夠得到相對比較好的分割效果,但是在對大圖進行分割的時候,需要重合分析圖規模均衡性以及內部連通性,保證能夠降低子圖連通性,增加內部連通性,可以在一定程度上影響分布并行處理大數據機制的運行。此外,也應該降低子圖規模均衡性,不能形成比較大的偏斜,避免由于過大時間差距影響系統同步性[4]。

2.3 云計算環境下的圖數據計算模型

現階段,基于云計算基礎上具備兩種應用廣泛的模型,包括BSP模型以及Map Reduce模型。

2.3.1 Map Reduce模型

Map Reduce模型主要包括由多個reduce、map共同形成的并行處理方式,可以把執行任務階段分為兩部分:一是,Reduce階段,在此過程中,Reduce任務會聚集處理接收到的數據,從而得到相關輸出結果,并且能夠在分布式文件中保存數據。二是,Map階段,此過程中,Map任務會合理計算分配到系統的數據,輸出與之對應的key值,然后在reduce任務中映射出相對應的數據信息。

2.3.2 BSP模型

BSP模型主要就是說在并行執行消息通信的時候,具備好、數據競爭以及免鎖死的運行特點,在云計算環境下處理大規模圖數據需要合理使用上述模型,在迭代處理的時候,相比較Map Reduce模型來說,BSP模型具備相對比較高的執行效率。

2.4 云計算環境下處理查詢圖數據

基于云計算基礎上,主要存在兩種能夠支持處理查詢大規模圖數據的驅動模式,也就是被動遍歷模式和主動遍歷模式。上述兩種模式具存在圖頂點是操作對象的共同特點,也就是說操作處理技術的基本關鍵就是圖頂點。第一,被動模式。上述處理模式能夠不進行調用處理函數,可以適當降低處理不必要頂點,大量節約資源。第二,主動遍歷模式。上述處理模式,具備比較強實用性,但是應用在特定情況下,會形成浪費資源的問題。

3 結束語

總之,依據云計算為基礎,充分分析和研究大規模圖數據處理技術,可以發現,在處理大規模圖數據中應用云計算技術,能夠有效提高處理效率。

【參考文獻】

[1]于戈,谷峪,鮑玉斌,等.云計算環境下的大規模圖數據處理技術[J].計算機學報,2011,34(10):1753-1767.

[2]李健,黃慶佳,劉一陽,等.云計算環境下基于粒子群優化的大規模圖處理任務調度算法[C]//2012年第三屆中國計算機學會服務計算學術會議論文集,2012:1-8.

[3]趙小換.云計算環境下的大規模圖數據處理技術分析[J].中國外資(下半月),2012(5):275.

[4]李東升.云計算環境下的大規模圖數據處理技術[J].信息與電腦,2015(8):35-35,40.

[責任編輯:王偉平]

猜你喜歡
處理技術
公路施工中軟土路基處理技術探究
農村生活污水處理技術進展研究
淺議大數據的產生與發展現狀
淺析城市生活污水處理技術現狀及發展趨勢
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合