摘要:文章提出了基于數據中臺的產業數據治理系統,介紹了系統總體架構,詳細闡述了數據采集、數據清洗、數據融合以及數據服務等功能。通過系統建設,解決產業數據分散和產業數據分析欠缺等問題,提升產業數據治理能力。
關鍵詞:數據中臺;數據治理;數據采集;數據融合;電子政務
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)07-0022-02
2020年8月,習近平總書記在合肥主持召開扎實推進長三角一體化發展座談會指出“要發揮數字經濟優勢,加快產業數字化、智能化轉型,提高產業鏈供應鏈穩定性和競爭力”。當前,我省重點產業發展態勢良好,但是產業數據分散,產業數據分析和應用能力欠缺,亟須構建產業數據治理系統對產業數據進行統一匯聚、治理、分析和應用,加快強鏈補鏈和產業集聚速度,提升產業治理能力。
1 數據中臺
中臺是相對于前后臺而生的概念,中臺是前臺和后臺之間聯動的齒輪,將其共有的工具、技術、服務等進行梳理和集成。數據中臺是按照業務、技術和管理等數據標準對分散在不同地方的數據進行統一的采集、處理、融合、計算、存儲、共享和應用等,是集數據采集、數據清洗、共享融合、組織處理、建模分析、數據管理和服務應用于一體的平臺。ThoughtWorks 數字化轉型專家史凱認為,“數據中臺是聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業務價值的邏輯概念”。數據中臺主要為了彌補數據開發和應用開發速度不匹配的問題,使應用開發不受數據開發的影響,快速響應業務的創新,加速從數據到業務價值的過程。
2 系統架構
通過批量交換、接口調用和動態采集等方式,交換匯聚相關政府部門的企業主體、園區、人才、專利、創新平臺和稅收等數據以及互聯網和第三方機構等相關數據。按照相關數據標準,將匯聚的數據進行抽取、轉換、融合等,形成企業信息庫、產業載體庫、人才庫、專利庫、事件庫、項目信息庫、指標庫、規則庫等產業主題庫,并對外提供數據服務[1-3]。
3 系統功能
3.1 數據采集系統
實現對政府部門、互聯網和第三方機構等多源數據的采集,主要包括庫表交換、文件解析、服務接口、人工導入等方式[4]。
(1) 庫表交換:數據提供方將數據推送至指定服務器的數據庫中,數據接收方將數據直接提取加載至數據庫表中。
(2) 文件解析:數據提供方根據約定的數據格式定期將數據打包成數據文件推送至指定服務器的特定位置,數據接收方進行自動提取、解析、加載入庫。
(3) 服務接口:數據接收方按照數據提供方提供的數據接口(webservice、API等)規范及查詢方式,開發定制化的數據提取、解析、加載任務。
(4) 人工導入:對于部分無法自動對接的數據,需要利用文件導入工具進行加載入庫,包括提供文件導入模板、自動加載入庫等功能。
3.2 數據處理系統
數據處理系統主要實現對數據的清洗轉換以及對清洗后數據的融合。
3.2.1 清洗轉換
對各個來源的數據進行抽取、清洗、轉換、加載,形成符合數據標準的結構化與半結構化數據,同時對處理后的數據進行復核校驗,保障數據清洗的準確性。
(1) 數據抽?。喊ㄈ砍槿』蛟隽砍槿?,根據具體業務制定抽取的時間和頻率等,其中增量抽取采用基于時間戳方式。
(2) 數據清洗:對抽取過來的數據進行清洗處理,包括數據過濾、數據剔重、類型轉換、編碼映射、拆分與合并、維度轉換等功能。從數據的準確性、完整性、一致性、時效性、合理性和唯一性等方面進行考慮,確保數據的質量。
(3) 數據轉換:按照一定的轉換規則將數據轉換生成新的數據并存放至新的數據庫表或數據字段中,支持數據字段之間一對多、多對一以及多對多的映射關系。
(4) 數據加載:將抽取與清洗轉換的數據準確、及時地存儲到不同的庫中。在數據加載過程中,針對數據加載中斷或者出錯,支持采用斷點續傳、一致性數據保障等方法進行過程控制。
(5) 復核校驗:主要包括規則校驗、質量稽核、數據糾錯。規則校驗是指在數據處理過程中,通過ETL工具,針對特定的數據項的數據規范,制定校驗規則,當數據清洗結束,進行數據入庫加載時,執行校驗規則,將不符合數據規范的記錄進行標識并進行流轉處理,直至數據符合規范。質量稽核是指對已經進入主題數據庫的數據記錄,根據數據規范及數據字段之間存在的特定關系,制定不同的質量檢測規則,定期執行,將不符合質檢規則的數據進行標識并進行流轉處理。數據糾錯是指對已經進入主題數據庫或已在應用系統中使用等數據記錄,設計數據糾錯機制,標識可能的錯誤數據,反饋并進行流轉處理。
3.2.2 數據融合
結合實際業務,對數據進行多源異構融合、實體關聯、打標處理、指標計算和模型運算等處理,提升數據資源利用水平。
(1) 多源異構融合:緊密結合業務,制定融合規則,實現對不同來源(如政務數據、互聯網及第三方數據等)的同類數據進行深度融合,為業務運轉提供數據支撐。
(2) 實體關聯:以企業、人物、區域等實體唯一性為基礎,將產業載體數據、企業數據、專利數據、投資數據、資訊數據等進行融合關聯,實現對實體的全面性認知,為區域產業評價體系分析、企業評價等提供數據支撐。
(3) 標簽處理:依據產業數據標簽體系,通過對數據進行達標處理,實現基礎數據與標簽體系之間的關聯。產業數據標簽體系包括企業標簽體系、人才標簽體系、專利標簽體系和產品標簽體系等。企業標簽體系包括企業價值標簽(上市企業、規模以上工業企業、高潛力、高價值技術擁有者、多領域投資等)、企業資質標簽(特精高企業、高新技術企業、A級納稅人等)、企業所屬產業標簽(新一代信息技術、人工智能、新能源汽車、新材料等)和企業行為標簽(融資、投資、行政處罰等)。人才標簽體系包括人才類型標簽(學術人才、科研人才和投資精英等)、人才所屬產業標簽等。專利標簽體系和產品標簽體系主要以所屬產業標簽為主。
(4) 指標計算:將統計分析、區域評價模型、企業評估模型等指標體系中指標化,配置并計算指標數據,并將指標數據的計算結果寫入指標數據庫表中。
(5) 模型運算:以各類實體的關聯數據、指標數據為基礎,構建區域發展評價模型、區域發展對標模型、企業評估模型等后,通過數據的提取、轉換、加載和融合,然后計算獲得模型的輸出結果,并將輸出結果寫入數據庫表中。
3.3 數據服務系統
基于產業數據治理系統提供的計算和存儲等基礎支撐能力,利用行為分析、文本挖掘、全文檢索等多種信息技術工具,為相關應用系統提供數據支撐服務,同時對外提供數據共享、統計分析、查詢檢索、可視化展示等服務。
3.4 數據管理支撐系統
3.4.1 元數據管理
元數據管理包括數據字典管理、數據標準管理和數據血緣分析。數據字典管理對各個數據庫模型(表單)數據項、數據結構、數據流、數據存儲、處理邏輯等進行定義和描述。數據標準管理[5]對各項數據的規范標準進行定義與管理的功能,包括業務范圍、數據來源、數據更新頻率、數據項規范等。數據血緣分析對數據進行從歸集到處理再到應用的全過程跟蹤管理。
3.4.2 主數據管理
主數據管理[6]實現對各類標準化的核心產業數據的可視化管理,包括數據資產查詢、單表記錄檢索、單表記錄操作等功能。
(1) 數據資產查詢:構建完整的產業數據資產資源目錄,設計資源檢索功能,支持對數據資產的模糊檢索、精確查找等。
(2) 單表記錄檢索:針對選擇的數據表單進行數據檢索。檢索功能包括顯示字段選擇、去代碼化的數據篩選條件編輯等。支持模糊檢索、精確檢索、多條件并行的高級檢索等。
(3) 單表記錄操作:支持對數據表單的記錄新增、記錄修改、記錄刪除等操作,同時支持數據以Excel的方式導出,方便使用。
3.4.3 數據質量管理
對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段的質量進行識別、度量、監控、預警等一系列管理活動,包括規則校驗引擎配置管理、質量稽核引擎配置管理、數據糾錯和質量管理中心等。
(1) 質量規則引擎配置管理:為規則校驗提供質量校驗規則的配置和管理。
(2) 質量稽核引擎配置管理:為質量稽查提供質量檢測規則的配置和管理。
(3) 數據糾錯:為數據使用者提供發現數據錯誤反饋機制,及時處理、及時反饋,包括數據標記工具、后臺提醒、糾錯反饋等功能。
(4) 任務管理中心:將經由質量規則引擎、質量稽核引擎及數據糾錯發現的數據質量問題進行集中歸集與分發處理,主要包括任務檢索、新增任務提醒、任務分配、任務處理、任務反饋等功能。
3.4.4 數據應用管理
(1) 標簽體系管理:為各類標準化標簽體系提供標簽的構建、管理、變更等功能。
(2) 指標體系管理:為各類指標體系(如企業、人物、區域等主體進行統計分析、評估評價等相關指標體系)提供指標的構建、管理、變更等功能。
(3) 算法模型管理:為各類算法模型提供集中化的管理記錄工具,包括算法模型設計思路、數據模型設計方案、模型構建等內容。
3.4.5 數據調度體系
在數據處理過程中,對ETL工具配置的任務進行管理,包括ETL任務管理、調度監控管理、日志管理、異常監控預警。
(1) ETL任務管理:對ETL任務進行集中管理,包括啟動、禁止、執行周期維護、任務維護等。
(2) 調度監控管理:對ETL任務進行進度監控管理,并根據任務緊急度、臨時資源分配調整等情況,對ETL任務的執行進行干預處理。
(3) 日志管理:對ETL任務的執行日志進行維護,進行必要的任務執行分析及錯誤核查等工作。
(4) 異常監控預警:對任務執行過程中的異常狀態設置預警機制,包括任務執行超時、資源不足、任務失敗等。
3.4.6 數據安全管理
主要包括數據加解密、數據脫敏、分級分類、行為審計等功能。
(1) 數據加解密:在數據傳輸和數據存儲時可選擇不同的加密算法進行加密,確保數據可信傳輸和存儲。在接收數據和使用數據時使用解密算法進行解密,得到所需要的數據。
(2) 數據脫敏:實現對敏感性信息的脫敏,包括新增、修改和刪除脫敏的數據項及脫敏規則等。
(3) 分級分類:實現對用戶的分類、分級的授權管理,控制用戶能夠按權限訪問數據,加強用戶身份安全管理。
(4) 行為審計:記錄用戶對數據的所有訪問和操作記錄日志,并對用戶的行為進行分類統計和分析,對用戶的違規訪問和危險操作進行告警。行為審計內容包括:用戶登錄審計、用戶訪問審計和用戶操作審計等。
4 結束語
該系統的設計與實現立足產業分析和產業監測的需求,設計了數據采集系統、數據處理系統、數據服務系統和數據管理支撐系統,詳述了數據采集的方式、數據清洗和數據融合的方法等。通過產業數據治理系統的搭建,有效拓寬了產業數據的渠道,提高了產業數據質量,提升了產業數據治理水平,為產業監測、產業分析和產業決策提供了數據支撐。
參考文獻:
[1] 芮忠.基于數據中臺的數據治理系統的實現[J].科技創新與應用,2020(26):39-40.
[2] 胡銳,芮忠.基于數據中臺的高校數據治理系統的設計[J].電子世界,2020(12):187-188.
[3] 姚洪.基于數據中臺的數據治理系統的設計與實現[J].科學技術創新,2020(35):74-75.
[4] 王逸晨.基于數據共享及開放的數據治理體系研究[J].中小企業管理與科技(中旬刊),2020(6):154-155.
[5] 呂淵.高校的數據治理系統的設計與實現[J].電子技術與軟件工程,2020(10):157-158.
[6] 胡志偉,汪振強.關于大數據治理的研究與分析[J].時代報告,2014(7):177.
【通聯編輯:代影】
收稿日期:2021-07-26
作者簡介:王曉波,高級工程師,碩士研究生,主要研究方向為電子政務、數據分析和軟件工程。