?

面向煙草行業的數據中臺研究與應用

2023-07-26 09:13李曉芬于志偉曹曉冬林碩
電腦知識與技術 2023年16期
關鍵詞:中臺數據倉庫煙草行業

李曉芬,于志偉,曹曉冬,林碩

(1.吉林煙草工業有限責任公司延吉卷煙廠,吉林 延吉 133000;2.沈陽建筑大學,遼寧 沈陽 110168)

0 引言

數據是企業的命脈。數據來源于業務,如何讓數據更好地服務企業,是各類企業一直探索研究的課題。迄今為止,整個演變經歷了四個階段:數據庫、傳統數據倉庫、大數據平臺、數據中臺。第一個階段:1979 年,Oracle 發布了商用版本的數據庫,實現了數據的永久存儲[1]。1996 年,MySQL 發布了1.0 版本。2000 年數據存儲開始逐漸走向流行和成熟。第二個階段:數據庫的出現使數據的永久存儲成為可能,如何充分利用這些數據,為企業的經營決策提供支撐成為這一階段的核心問題。在1991 年出版的Building the Data Warehouse中,數據倉庫之父比爾·恩門(Bill Inmon) 首次給出了數據倉庫的完整定義,他認為:數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的,不可修改的數據集合。第一次明確了數據分析的應用場景應該用單獨的解決方案去實現,不再依賴于業務的數據庫。第三個階段:隨著互聯網的發展,數據呈指數增長,數據類型異構化,傳統的數據倉庫無法承載海量數據存儲和計算[2]。分布式文件系統 GFS、大數據分布式計算框架 MapReduce 和NoSQL 數據庫系統 BigTable,使海量數據存儲和計算有了理論指導。Hadoop商業版本的發布,解決數據研發低效率、高門檻的問題,大數據平臺應運而生。第四階段:數據發展到了2016年左右,面向不同業務場景的應用開發越來越多,煙囪式的開發模式,導致數據的割裂,數據無法共享。為解決這一問題,避免數據重復加工,提高數據共享能力,賦能數據應用的數據中臺應運而生。

數據中臺的定義各家有各自的獨到見解,但核心功能包括:打破數據壁壘,統一標準和口徑,形成全域級、可復用的數據資產中心和數據存儲能力中心,為業務賦能、為數據賦能。

適合建設數據中臺的企業需要具備如下幾個特征:第一個特征:企業具備大量數據應用場景。第二個特征:企業建立了大量的煙囪系統,存在大量異構、非同源數據,需要打破數據壁壘。第三個特征:立志實現精益運營,且具備一定實力的企業。

構建數據中臺的方法論,可歸納為兩點:統一數據標準規范和統一數據接口服務。

構建數據中臺的技術路線:1) 建設大數據存儲、計算設施。2) 結合商用和開源工具組件,構建數據平臺。3) 開展數據治理,統一數據標準,體現為數據發現、模型、質量、成本和指標的治理五個方面。4) 建設對外統一數據接口服務。5) 基于數據服務,為業務賦能。

綜上所述,從理論支撐、工具支持、方法論、技術路線等多個方面均已很成熟,為數據中臺的建設提供了有力支撐。

1 應用背景

隨著幾十年的信息化、網絡化建設,煙草行業在信息化建設方面取得了卓越成效,在倉儲、物流、能耗、銷售、生產、采購、售后等方面實現了精益化管理。

煙草行業在信息化建設主要體現在兩個方面:一是基礎建設的升級改造,包括設備、儀表的升級改造,網絡建設等。二是信息化建設,先后建設了面向不同應用場景的信息化系統。如面向生產過程管控的MES(Manufacturing Execution System,制造執行系統)、面向企業管理信息化的ERP(Enterprise Resource Planning,企業資源計劃)、面向生產設備管理的EAM(Enterprise Asset Management ,企業資產管理系統)、面向倉儲的WMS(Warehouse Management System,倉儲管理系統)等。信息化的建設實現了煙草企業全流程的精益化管理。

煙草行業開始信息化建設的時間較早、信息化建設投入相對很大,經過數十年的建設,取得巨大成效的同時,也存在弊端。在信息化建設初期,受技術和其他因素影響,對于整個信息化建設缺乏長遠、戰略、統籌規劃,導致煙囪系統林立,老舊信息系統亟須更新換代。數十年的信息化建設,形成面向煙草行業的海量數據,由于數據之間不同源、數據類型、數據模型不一致等導致形成大量數據孤島,打破系統壁壘,實現互聯互通,打破數據孤島,實現數據為企業賦能,是未來煙草行業信息化建設的重中之重。

隨著物聯網、云計算、互聯網+、智能感知、大數據平臺、數據中臺等高新技術的逐步成熟與廣泛應用,架設面向煙草行業的數據中臺,挖掘潛在的應用,全面提升煙草生產質量、提升物流、倉儲、銷售的服務水平和擴展新的服務方式,實現數據從業務來,最終又服務于業務,為煙草行業賦能。

2 針對煙草企業的數據中臺架構

數據中臺讓數據更加智能化提供給業務人員。整個數據中臺的核心是數據讓業務更加智慧。哪怕數據只有50%的準確性,那么在提高數據質量同時,也希望這50%準確的數據產生業務價值。統一采集各業務部門數據,打破傳統企業數據壁壘,讓企業的數據“用起來”,通過對數據的收集、整理、計算、分析,來為企業提供決策的依據,實現數據的二次開發利用,轉化為對企業發展有益的有效信息,提高數據的利用率[3]。為平臺管理員提供一個整合的管理界面,完成數據統一匯總,統一模型算法處理,不同報表展現。企業部門分開使用,部門決策人員統一使用,減少企業數據治理的投入成本,通過數據中臺中的數據質量模塊的自動化定時度量檢測,能夠大大降低數據治理相關的人力成本。平臺統一部署,統一實施,開設賬戶。使得大數據開發人員無須部署直接使用。企業各部門數據統一管理。統一定時采集各個部門的數據,進行統一存儲,標簽化。統一模型化存儲管理。集中數據共享接口暴露,數據預覽。減少不必要的運維成本。

目前開源和商用的數據中臺已有許多,本文借鑒開源的數據中臺平臺,結合煙草行業特點,提出一種面向煙草行業的數據中臺架構。如圖1所示。

圖1 面向煙草行業的數據中臺架構

圖2 數據治理

全域數據采集:全域數據覆蓋煙草行業倉儲、物流、能耗、銷售、生產、采購、售后、交通、IoT等領域,覆蓋全流程數據,形成一個企業級的大數據處理平臺。

數據規范管理:對煙草行業過程數據和結果數據進行質量校驗,構建數據類目體系,建設質量標準體系,包括數據質量標準、數據服務標準和數據管理標準,從數據建模、數據審核、數據交互角度建立標準,保障數據的一致性、完整性和準確性。建設數據標準化模型,幫助企業實現數據管理規范化[4]。

數據開發平臺:基于MDM(Master Data Management,主數據管理系統)和一站式建模及ETL,滿足離線和實時數據開發,運用平臺的相關大數據組件及計算資源,讓傳統的數據整合計算更加快速敏捷,使數據更快速地提供給業務部門。

數據服務平臺:建設數據共享服務平臺,支持Restful、Webservice等多種方式實現數據共享,支持發布與訂閱模式。數據資產自動生成數據查詢(支持分詞查詢)、數據導出等多種服務方式,提供自定義SQL的方式供業務人員進行數據和服務編排,快速滿足人員和系統的數據要求。

數據共享中心:基于magic-api 開發的數據共享中心,可實現針對數據庫表、視圖、SQL語句等動態發布Restful接口。

ETL技術: ETL負責將分散的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后,進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘提供決策支持的數據。 ETL是構建數據倉庫的重要的一環,用戶從數據源抽取所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中。

3 關鍵技術

3.1 元數據概念

構建數據中臺的前提,是確認業務口徑、數據來源和計算邏輯。元數據是這些數據。

元數據類型包括:數據字典、數據血緣和數據特征。

數據字典:即數據結構。包括:數據表名稱、數據字段名稱、數據字段類型、數據約束。數據約束包括:主鍵、外鍵、默認值、語義等,表的數據產出任務,表和字段的權限等。

數據血緣:是指數據表的溯源,如父子表。

數據特征:主要是指數據的屬性信息:存儲空間大小,數倉分層,訪問熱度,主題分類,關聯指標等。

3.2 多源異構數據集成

由于煙草行業的數據來源于多類型數據庫且數據結構不一致,打破數據壁壘,實現多源異構數據集成,來為企業提供決策的依據,實現數據的二次開發利用,轉化為對企業發展有益的有效信息,提高數據的利用率。針對數據預處理困難的現狀,研究基于云端大數據多源異構數據融合技術,包括多源異構數據融合技術和預制構件生產可視化建模工具,通過這兩種服務為機器學習和深度學習提供了從數據處理、模型訓練、到模型預測的一站式服務,打通底層數據為用戶提供模型開發環境,用戶不必精通大數據相關知識,也無須考慮復雜工況下數據處理,即可專注于業務本身??梢暬9ぞ邔⑶岸丝赏献ЫM件與后臺在線學習、優化和大數據的多目標、多任務實時優化混合智能算法庫算法綁定,用戶只需在前端拖拽組件并連接形成大數據工作流程,后臺根據前端配置調用后臺數據和智能算法庫來訓練處理模型并返回運行結果。

3.3 數據治理

數據治理是數據中臺的核心組成部分,其基礎為元數據。通過對元數據進行一次加工,實現對數據發現、模型、質量、成本和指標的治理[5]。

4 煙草行業數據中臺的應用

數據中臺是煙草行業數字化轉型的關鍵,煙草行業經過幾十年的信息化建設,具備建設數據中臺的條件和能力,以數據驅動銷售、生產、物流、采購、能耗等業務領域的決策管理,實現煙草行業數據賦能、智慧營銷、智慧生產、智慧管理、智慧物流[6]。面向煙草行業全產業鏈數據中臺架構如圖3所示。

圖3 數據中臺架構

煙草行業數據中臺基于工業互聯網平臺之上建設。工業互聯網平臺自底向上分為接入層、邊緣層、IAAS層、PASS層和SAAS層。煙草行業數據中臺基于IAAS 層之上,涵蓋PAAS 層和SAAS 層,圍繞智慧經營、智慧生產、智慧安全、智慧能源、智慧物流、智慧運維、智慧建設、智慧決策八個方面,最終實現數據透明化、管理精益化、制造智能化。

數據中臺主體自底向上包括接入層、中間層、集市層。接入層主要指各類信息系統,中間層建立數據標準體系,包括數據采集標準、數據模型標準、體系搭建標準三個標準,圍繞數據分類、數據存儲、數據治理、數據共享四個方面進行建設。集市層則是圍繞數據應用方面建設,包括BI、報表、大屏展示等。

面向煙草行業全產業鏈數據中臺技術架構如圖4所示。

圖4 數據中臺技術架構

面向煙草行業的數據中臺技術架構,以云平臺為底座,IAAS 層為基礎設施建設,PAAS 層提供數據建設服務平臺,包括:存儲、計算、數據庫、數據挖掘和數據分析,為上層應用建設提供技術支撐。SAAS 層為應用層,包括分布式隊列服務、分布式鎖服務、數據挖掘服務、數據分析服務、信息庫等。

5 結束語

本文對煙草行業信息化發展現狀進行分析,煙囪系統林立、數據異構非同源問題嚴重,符合數據中臺建設基礎需求。通過對數據中臺技術的研究,結合煙草信息化建設過程中的問題和未來建設需求,提出適應煙草行業的數據中臺技術架構和應用分析。

針對煙草行業的特點,覆蓋煙草行業倉儲、物流、能耗、銷售、生產、采購、售后、交通、IOT 等領域,覆蓋全流程數據,建設符合煙草行業需求的數據中臺,以期數據賦能煙草行業。

猜你喜歡
中臺數據倉庫煙草行業
中臺是媒體轉型必經之路嗎?
——媒體中臺建設的特點和誤區
關于零售企業“中臺”建設的研究
汽車制造企業質量中臺研究
以技術開發中心為中臺,數字化轉型之見解
基于數據倉庫的住房城鄉建設信息系統整合研究
煙草行業“兩項工作”信息管理平臺設計
關于強化煙草行業市場管理的優化策略
分布式存儲系統在液晶面板制造數據倉庫中的設計
探析電力系統調度中數據倉庫技術的應用
基于數據倉庫的數據分析探索與實踐
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合