?

溫州市浙南產業集聚區智慧海塘數據中心的設計

2022-08-20 03:22周昌臣張守楠
水電站機電技術 2022年8期
關鍵詞:數據服務數據管理備份

周昌臣,吳 炎,張守楠

(溫州市甌飛經濟開發投資有限公司,浙江 溫州 325000)

1 引言

數據中心是甌飛海塘智慧的核心建設內容,是各類應用場景匯聚的基礎和數據支撐的基石?;谑∈虚g數據共享交換服務,采用省級數據服務管理模塊,以此實現數據服務注冊、發布、調用、監控的統一管理。數據服務建設基于甌飛海塘水利數據倉,建設基礎數據共享交換服務,實現與省、市兩級水利數據倉的基礎數據共享交換,以及與溫州市大數據局的數據共享交換。其中省級水利數據倉中的基礎數據共享交換服務,直接使用省級服務即可。業務應用的數據服務在業務應用建設過程中建設。

甌飛海塘智慧數據中心將與溫州市大數據局的共享交換。定義數據同步任務,定期將水利數據倉的數據推送至大數據局的數據平臺;結合浙水安瀾平臺業務需求,按照公共數據共享交換規定,向公共數據平臺提出數據共享需求,實現水利數據倉與公共數據平臺共享交換。

甌飛海塘智慧數據中心將與省、縣水利數據倉進行數據交換。甌飛海塘水利數據倉通過行業數據歸集模塊,按既定數據格式和共享需求,推送數據至省級、縣級數據倉,同時可向省級申請數據共享授權,將省級、縣級數據共享至甌飛海塘水利數據倉,實現水利數據“一數一源、共享交換”[1]。

2 數據資源體系設計

2.1 數據歸集

將多源數據,通過數據流的方式打通匯集渠道,分別歸集至設計的基礎數據庫、物聯感知數據庫、GIS數據庫或業務數據庫,為數據中臺提供持續的數據來源[2]。

(1)實時數據歸集根據統一的數據接口標準,采用數據流的方式歸集實施數據,對非標準的數據進行標準轉換。

(2)其他數據歸集

1)數據整編按照標準數據庫結構編。

2)數據校核將整編數據與原始資料進行核對,確保數據準確,提高數據質量。

3)數據入庫整編數據導入標準數據庫。

4)數據審核對入庫的資料數據,通過數據比對分析功能,與原始資料進行校對,完成數據入庫。

5)數據更新數據更新采用實時更新和定期更新相結合的方式。

2.2 數據建庫

按照水利信息資源標準規范和統一數據要求,結合業務應用和數據資源成果,開展數據庫表結構設計,編制水利數據字典,生成標準數據庫腳本。主要包括以下6類:

①基礎庫是用于存儲一些變動不太頻繁、使用面廣的水利工程對象的基本信息,如水利工程、監測站點、功能區等對象的基礎屬性數據,包括名錄、特征值、基本信息等。

②業務庫是用于存儲一些隨時間增長會逐步增加數據量的監測數據和業務數據等,如水雨情、風速、海塘安全等實時監測數據,巡檢記錄、運行管理臺賬等管理數據。

③主題庫(物聯感知數據庫)是用于存儲通過確定某一個指定主題,獲取的跨領域定時作業計算的數據分析成果。

④空間庫(GIS數據庫)是用于存儲各類水利工程對象所處空間位置的數據。

⑤交換庫是用于存儲與本系統之外的數據源進行交換的數據,如數據倉向外部系統共享的數據、從外部系統歸集篩分的數據等。

⑥元數據庫是用于存儲數據資源目錄,及其數據的變更記錄等。

2.3 數據初始化與匯聚

對甌飛海塘已建應用系統的數據資源(包括實時數據、基礎數據和業務數據)進行初始化和匯聚,包括數據抽取、數據匯聚、數據清洗、數據編碼入庫,并將已經匯入省市級數據倉的數據資源同步至區級水利數據倉。

(1)數據抽取

現有自建業務系統數據抽取。從區水利工程標準化運行管理平臺等自建業務系統中抽取數據。

主要作用是從數據庫中獲取需求數據,對不同形式的數據、不同量級的數據、不同效能要求和工作量的業務系統,應采取不一樣的接口來抽取數據。抽取效率是抽取數據時需要考慮的重要關鍵點,但往往只關注效率會影響到系統的性能,故也需要保障抽取數據時不會對系統的性能有影響。兩者兼容的解決方式有很多,比如抽取方式、抽取時機、抽取周期等。

1)抽取方式

常用的方式包括:全量抽取、增量抽取。

①全量抽取

全量抽取就是將數據庫中的數據原原本本全部復制并轉化成可識別的數據。全量抽取相較簡單,進行全量抽取的地方一般集中在數據量小,而且數據基本不變的業務系統數據庫的抽取。

②增量抽取

增量抽取應用的范圍比全量抽取要廣。它主要原理是抽取數據庫中變化過的數據,而不是全部數據。這樣的優勢非常明顯,不僅減少了抽取數據的工作量,更是提高了業務效率,減輕了系統負擔。

在進行增量抽取的過程中,如何獲取變化的數據是重點,故需要對業務系統中的所有要抽取的數據特性進行分析和統計,同時獲取數據還要滿足準確和效率兩大要求,既滿足實時獲取變化數據的同時還需要保證不影響業務系統的正常運行。

比較常用的抽取捕獲變化數據的方法有以下4種:

①觸發器:在抽取對象的表上設置插入、修改和刪除3個種類的觸發器,實時獲取表的數據變化,并獲取變化數據。該方式的優點是數據抽取便捷、性能較高,缺點是設置觸發器可能對業務系統的運行會產生部分的影響。

②時間戳:在表中增加時間字段,若有變化則變化該時間字段,通過比較系統時間和時間字段,確定數據是否有變化,從而判斷是否需要抽取數據。優點是抽取數據的性能比較好、簡單 ,但是在業務系統中加入時間字段對業務系統存在一定的影響。

③全表比對:新建一個與數據庫源表相類似臨時表,表內僅存儲主鍵和源表數據計算出來的校驗碼。當需要抽取數據時,比較現有表中數據計算獲得的校驗碼與臨時表中的校驗碼來比較,若有變動,則表示表中的數據有變化,抽取數據后,將新校驗碼覆蓋臨時表的校驗碼。

④日志對比:通過分析數據庫本身的記錄日志來判斷數據是否存在變化。存儲日志的文件有可能是txt格式、xml格式等,讀取日志文件需要全部獲取日志文件,通過日志文件對比,來了解變化的內容,從而判斷抽取哪些數據[3]。

2)抽取時機與周期管理

對抽取時機和抽取周期進行管理,基于數據資源存儲與管理的現狀,按照數據來源與數據更新頻率、數據量大小等特點,可以將數據分中心數據類型分為兩大類,一類為實時或準實時匯集類數據,具有更新頻率快、每次所需傳輸數據量不大的特點;另一類為基礎類數據,具有更新頻率低的特點。對于以上不同類型的數據,在抽取時機和抽取周期的選擇上要區別對待:

①實時或準實時匯集類信息

主要包括實時水雨情、風速、水質、實時工情等專業數據組成的數據庫??刹捎迷隽砍槿》绞?,并將抽取周期設為1次/3~5 min。

②基礎類信息

水利工程數據庫、水利行政管理信息庫、水利行業法規政策數據庫等,數據抽取周期可設定為1次/天,抽取時間不應在業務系統高峰時間段,比如在夜間業務系統比較空閑的時候進行數據抽取。

(2)數據匯聚

完成各種途徑數據抽取并同步至匯聚庫,確保匯聚庫與各數據源數據一致性、及時性。其中匯聚庫是數據抽取匯聚過程中一個過渡庫,也稱暫存庫,不參與具體業務數據分析,主要為了輔助抽取和匯聚工作。

(3)數據清洗

按照數據清洗、抽取規則,通過數據清洗的工具,并輔以人工判斷,完成業務應用系統水利業務數據的清洗、整合。數據清洗是在數據抽取匯聚的基礎上,對采集的數據進行清洗、整理、篩選,數據的清洗包括系統自動審核和人工審核兩部分。

1)數據的清洗實現方法

自動清洗。從匯聚庫中定時或實時提取,使用數據清洗工具,根據定義的數據清洗規則,實現自動數據清洗加載,避免人為操作及增加大數據采集的不準確性。

人工審核。從匯聚庫中提取但自動清洗系統無法確定其數據準確性,通過人工審核辨別,實現數據入庫。

匯聚數據最終進入主數據之前需要完成數據的清洗,其清洗流程如圖1所示。

圖1 數據清洗處理流程圖

2)數據準確性檢查

數據準確性的分析計算只針對發現錯誤后可以修改完善的數據,主要為工程的基礎信息數據、管理單位信息、安全責任人信息及其他上報后允許修改的數據;對于上報后無法修改的數據,平臺會根據準確性判斷規則和控制閾值,通過上報接口進行限制,防止錯誤數據上報到平臺。

(4)數據加載入庫

將清洗后的數據根據預先設置好數據源和目標對應表,將數據寫入到數據倉指定表,為統計分析和決策分析統計打下數據基礎。

數據的加載策略一般有3種類型:直接加載、全部覆蓋、更新加載。

1)直接加載

指加載時將數據直接加載到目標的圖表中。該方法在清單類型的數據加載中比較常用。在數據分中心中將主要與增量抽取配合使用。

2)全部覆蓋

若被抽取數據本身已囊括了該數據的所有情況,則使用該種方式。

3)更新加載

更新加載一般使用在采用連續方式記錄對象業務狀態數據變化,且需要用新數據和老數據進行比較。

2.4 數據共享交換

利用浙江省水利數據共享交換平臺,開展數據資源目錄整理及維護、基礎數據管理與維護、數據共享交換等工作。

(1)數據資源目錄整理及維護

為和省級數據資源目錄保持統一規范,滿足省市縣數據一致的要求,采用省級統建數據資源目錄管理模塊,在省級資源目錄的基礎上,根據本地的數據情況增加本地的數據資源,繼承省級數據資源目錄的數據資源信息,并和省級數據倉保持同步。

(2)基礎數據管理

建設水利數據倉庫完成之后,水利數據管理的重點就是基礎數據的維護和更新,需要規范更新數據流程,明確數據維護部門職責,做到每個數據都有源頭可尋。所有的數據維護更新都應遵循職務權限范圍,數據的維護更新由數據相對應的責任部門負責。通過將數據管理模塊進行統一,依據統一的數據標準和格式來進行數據的收集、維護和更新。數據的有效性和準確性則需要通過有效的數據審核機制來實現。

1)省級通用基礎數據管理模塊

依托于省級數據倉自帶的省級基礎數據管理模塊,以省級統一的要求對水利數據倉庫的基礎數據進行維護和管理,確保所有省級要求統一的基礎數據均是按照全省的統一要求管理,保障水利數據倉庫基礎數據的規范性有效。

2)區級自有基礎數據管理模塊

根據實際需要,建設區級自有基礎數據管理模塊,實現區級自有基礎數據管理,同時將區級自有基礎數據管理模塊需融入省級通用基礎數據管理模塊,實現省、市、區三級的數據同步共享。數據管理模塊具備數源劃分、數據更新維護、審核等功能,具備對區級基礎數據的統一規范管理能力。主要功能有:①數源劃分。對水利基礎數據的具體對象進行數源劃分,明確數源責任單位,實現數據的“一數一源”管理。數源劃分需具備單個對象劃分和批量劃分功能,方便管理人員的操作和使用。②數據維護。數據維護模塊提供對水利基礎數據的查詢、新增、編輯和刪除等功能。維護后的信息存儲在臨時庫中,經審核人員審核通過后進入正式數據庫。數據維護模塊只能查看和維護當前數源責任相關的基礎數據。③數據查詢。數據查詢模塊提供用戶對權限范圍內水利基礎數據的查詢功能。④數據審批。數據審批模塊提供對修改后的數據的審核功能,通過審核確保數據的合法性。

(3)數據共享交換服務

1)數據服務管理模塊

直接采用省級數據服務管理模塊,實現甌飛海塘數據服務注冊、發布、調用、監控的統一管理[5]。

2)數據服務建設

基于甌飛海塘水利數據倉,建設基礎數據共享交換服務,實現與省、市兩級水利數據倉的基礎數據共享交換,以及與區大數據局的數據共享交換。其中省級水利數據倉中的基礎數據共享交換服務,直接使用省級服務即可。業務應用的數據服務在業務應用建設過程中建設。

與區大數據局的共享交換。定義數據同步任務,定期將水利數據倉的數據推送至大數據局的數據平臺中;結合水平臺業務需求,按照區公共數據共享交換規定,向公共數據平臺提出數據共享需求,實現水利數據倉與公共數據平臺共享交換[5]。

與省、縣(市、區)水利數據倉數據交換。區水利數據倉通過行業數據歸集模塊,按既定數據格式和共享需求,推送數據至省級、縣級數據倉,同時可向省級申請數據共享授權,將省級、縣級數據共享至區水利數據倉,實現水利數據“一數一源、共享交換”。

3 實踐應用維護

(1)數據庫異常應急

考慮到數據庫異常在系統運行過程中會有概率出現,我們需要通過建立定時備份數據庫的指令,讓系統按時自動備份數據庫。在出現外在原因或人為原因導致數據庫損壞不能運行時,系統會自動檢索最新備份數據庫并恢復業務平臺數據庫,確保業務平臺運行正常。

(2)數據庫容災和恢復

發生數據丟失會直接影響業務平臺的運行和數據的實時性,甚至可能造成一定的社會影響。所以,在盡量短時間內完成數據庫數據恢復和備份,保證平臺正常運行是非常必要的。所以對水利業務平臺數據庫的容災、備份和恢復是我們智慧化運行管理平臺系統的重要組成部分。

系統對于數據庫容災能力建設采用的是在根數據庫上配置兩個容災的備份數據庫和嚴密的RMAN多級備份策略,分別放在不同的互聯網數據中心,同步根數據庫的數據,保障平臺數據安全,以防因意外導致平臺數據錯誤,同時可縮短恢復數據所需的暫停業務時間。

(3)備份方式

根數據庫備份使用歸檔方式,并且采用嚴密的RMAN多級備份策略。使用歸檔方式的作用是當根數據庫有意外錯誤時盡可能地復原根數據庫,且能讓已提交的所有數據得以保存。采用嚴密的RMAN多級備份是為了提高效率,減少備份需時,且保證系統的恢復性。所以在備份和恢復的時間上需要一個平衡點。

(4)備份策略

每月備份一次數據庫的所有數據和表空間。每周做一次數據庫的0級備份。所有數據庫的變化都需要同步到CATALOG目錄并重新備份。每次備份后均需備份歸檔日志。

4 結束語

本數據中心的研發基本滿足了硬件數據的集成和軟件數據的交互應用,達到了應用的效果,在實踐運行中,具有可拓性好,性能穩定,起到支撐硬件實時數據的采集和匯聚,軟件系統的數據支撐和模型計算,達到科學決策智慧支撐的作用。

猜你喜歡
數據服務數據管理備份
淺談數字化條件下的數據備份管理
大數據時代高校圖書館數據服務的困境及優化路徑
地理空間大數據服務自然資源調查監測的方向分析
基于大數據管理的管道智慧檢驗系統的研發及應用
企業級BOM數據管理概要
定制化汽車制造的數據管理分析
基于數據中臺的數據服務建設規范研究
CTCS-2級報文數據管理需求分析和實現
創建vSphere 備份任務
Windows10應用信息備份與恢復
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合