?

利用大數據平臺打通管理軟件數據壁壘

2021-01-29 03:06周政王彩平張家口卷煙廠有限責任公司
數碼世界 2020年12期
關鍵詞:關系數據庫管理軟件集群

周政 王彩平 張家口卷煙廠有限責任公司

大數據技術是近年來興起主流數據處理技術,它一般依托于云平臺或虛擬環境,能夠提供或支撐數據的采集、數據預處理、分布式存儲、NoSQL數據庫、數據倉庫、機器學習、并行計算、可視化等各種技術范疇和不同的技術層面。其中,數據采集、數據預處理、NoSQL數據庫、數據倉庫功能,可以在聯通各個業務系統數據庫、獲取數據庫數據的同時,進行一定的數據清洗過濾,最終存儲在非關系數據庫中,以供其他業務系統獲取使用。

各類企業在發展的過程中都會依賴信息化軟件輔助運營,從最早的財務軟件,到之后的MES輔助生產運營軟件,ERP企業管理軟件等,隨著企業逐步發展和業務水平的不斷提高,各類管理軟件的功能劃分也愈加精細,對于大中型企業,尤其是生產企業來說,往往擁有多種輔助管理軟件,甚至每個獨立的職能部門都擁有屬于自己的一套軟件系統。在日益追求數據價值發掘的今天,將職能部門間的信息關聯起來做分析已經成為一種重要數據分析方式,這就要求企業能夠打通不同管理軟件之間的信息傳遞通道。以往多采用手動信息匯總或者做接口的方式進行數據傳遞,但是前者需要耗費大量的人力和時間,且在數據收集整理的過程中也難以保證數據的準確性,后者需要進行系統間接口開發,但單一接口只能滿足單一數據要求,對數據有更深入要求的時候只能進行新的接口開發,且接口開發費用普遍較高,長期如此會陷入軟件運維費用過高的泥潭。因此,借助大數據平臺技術建立企業的數據池,將各個業務系統的核心數據按照統一標準采集起來集中存放,同時可以提供給其他業務系統做數據關聯分析,是一種有效打破管理軟件數據壁壘的方法。

一、平臺總體設計

建立服務器集群,以此為基礎搭建大數據平臺,在平臺中部署數據池,通過ETL工具建立大數據平臺與各個業務系統間的數據傳輸通道,制定一定的數據獲取規則,將各個業務系統中的高價值數據統一存放到大數據平臺的數據池中。當業務部門需要做單個系統數據分析或多系統數據關聯分析時,可以通過大數據平臺直接獲取數據池中經過初步處理的高價值數據,根據自己的實際需要進行數據二次加工,生成各類圖形報表,反饋給管理者作為制定策略的數據依據。

1.體系結構

根據大多數企業的特點和實際情況,平臺采用多臺服務器搭建服務器集群,服務器采用Linux操作系統CentOS7.2或以上版本,大數據平臺管理軟件使用Cloudera Manager,并在之上部署CDH集群來實現可擴展存儲和分布式計算,通過Sqoop工具實現數據的導入和導出,以Hive作為數據存儲池。硬件設備方面,完全可以采用企業現有的服務器進行部署,需要3臺以上、能夠部署CentOS7.2或以上版本的服務器,其中一個服務器為管理節點,其他為存儲節點。

運行環境方面,采用Linux發行版本之一的CentOS7.2或以上版本為系統運行環境,以Cloudera Manager6.3.1管理大數據平臺,以基于Hadoop的CHD6.3.2集群提供可擴展存儲(HDFS)和分布式計算(MR)。

數據存儲方面,以Hive作為數據池。hive是基于Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載,提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執行,十分適合對數據池中的數據進行統計分析。

數據交互方面,以Sqoop進行Hive數據池和傳統數據庫的數據傳輸工具。Sqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統的數據庫(mysql等)間進行數據的傳遞,可以將一個關系型數據庫中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。

2.功能結構

在數據貫通方面大數據平臺主要提供以下功能:

<1>數據存儲空間擴展;

<2>從業務系統中進行數據采集導入、數據清洗;

<3>數據存儲;

<4>提供關聯數據并導出到業務系統;

<5>平臺狀態監控。

平臺功能實現:

業務數據在部署成功的大數據平臺傳遞需要通過以下幾步:

<1>在集群中添加服務。通過Cloudera Manager在選定的主機上添加Sqoop服務,通過# sqoop help驗證服務是否添加成功。

<2>導入數據到Hive數據池??梢蕴崆霸贖ive中創建表,也可以不創建在導入時自動創建,通過命令將關系數據庫(MySQL、SqlServer、Oracle等)中表的數據導入到Hive中。

<3>在Hive中通過命令驗證傳入數據的準確性。

<4>導出數據到關系數據庫。在關系數據庫(MySQL、SqlServer、Oracle等)中建立對應表格。通過命令將Hive中的數據導出到關系數據庫對應表格中。

<5>根據數據導入導出命令編寫Xml腳本,通過腳本管理定時定期進行數據導入導出操作,實現對Hive中數據的更新。

二、結束語

利用大數據平臺的數據處理能力和特性,根據企業打通管理軟件數據壁壘的需求,結合數據一體化管理理念,采用Hadoop為基礎的CDH提供存儲和計算能力,Cloudera Manager作為平臺管理工具,Sqoop作為數據傳輸工具,實現了對企業數據的集中存儲處理,打通了多個業務系統間的數據傳輸通道。此功能的落實,能夠有效提升企業運營數據的時效性和準確性,提高企業數據價值,幫助企業對業務系統中積累多年的數據進行數據價值挖掘,同時避免了高額度的接口開發費用,使數據在業務系統間的傳輸不再需要開發成本,減少業務系統運維費用,為企業下一步進行大數據分析提供了數據基座和支撐。

猜你喜歡
關系數據庫管理軟件集群
倉儲管理軟件在物流自動化解決方案中的應用與發展
功能性新材料產業集群加速形成
海上小型無人機集群的反制裝備需求與應對之策研究
培育世界級汽車產業集群
勤快又呆萌的集群機器人
基于單表結構的Web動態樹設計與實現
探討關系數據庫設計中范式理論的教學方法
2007年中國管理軟件評選-獲獎名單
“2008年度中國管理軟件行業評選”
2008年中國管理軟件評選TOP100
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合