?

通用數據質量管理系統研究與設計

2018-09-14 10:27吳鵬連禮泉
電腦知識與技術 2018年16期
關鍵詞:數據質量聚類

吳鵬 連禮泉

摘要:針對大型基層數據采集系統數據錯誤和數據重復的典型現實問題,研究了數據校驗通用模型和基于聚類與數據質量的自動去重方法,設計了一個通用數據質量管理系統,適用于類似采集系統的普遍數據質量問題。

關鍵詞:數據質量;校驗模型;聚類;自動去重

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)16-0010-03

大數據時代,一個國家掌握和運用大數據的能力,成為塑造國家競爭力的戰略制高點之一[1]。國家大數據戰略背景下,在國家安全、社會治理和經濟發展各領域形成戰略性數據資源庫,是奠定國家競爭優勢的基礎。例如在社會治理領域,以大數據思維匯聚最小社會治理單元(鄉村、社區)的相關數據,既幫助基層減免層層采集、匯總、統計、上報的耗費和失真,又輔助決策層宏觀掌握整體態勢和微觀洞悉基層具體問題,保障了政府決策科學化、社會治理精準化和公共服務高效化?;鶎訑祿娜?、完整、詳實是基礎,其質量問題會在大數據環境下被不斷放大,但在基層卻往往容易被忽視。本文以大型基層數據采集系統現實數據質量問題為出發點研究共性解決方案,旨在設計一套通用數據質量管理系統,適用于類似采集系統的普遍數據質量問題。

1 需求分析

某在建大型數據采集系統,采集信息五大類共計300余項,主要為結構化數據,運行一年以來,基層采集用戶數超20萬,單表數據量千萬級,系統總數據量過億。系統當前存在一定程度的數據質量問題,主要體現在數據錯誤和數據重復兩個方面,數據重復量約占數據總量的30%,數據錯誤量尚無法估算。該系統數據作為社會立體感知與防控大數據的重要數據源之一,數據的質量必然會影響大數據分析的效果。

分析發現,數據錯誤問題除了在數據流轉過程產生外,主要由于該系統作為單獨系統運行時只需要進行最基本的弱校驗即可滿足要求,而將其納入大數據體系時對數據的要求更豐富嚴格,數據錯誤問題才逐漸體現;數據重復問題主要由于系統網絡結構及應用模式限制了采集前端與后臺數據實時同步導致,本質為多數據源重復數據造成的數據不一致問題。兩問題均不適合在采集端追加解決方案,只能在平臺側進行處理。

針對數據錯誤問題,可根據實際需要對系統數據進行強校驗,檢測出問題數據并推送至采集前端修改完善;數據重復問題比較復雜,純人工處理工作量過大,全自動智能處理復雜度太高,全部按時間先后舍棄歷史數據等方法雖然簡單但容易丟失有價值的數據,需設計一個自動去重輔助人工核驗的處理方式,平衡效率和難度。

考慮數據質量指標可能隨需求不斷變化,且數據錯誤和重復問題在類似基層數據采集系統中普遍存在,需將數據校驗規則模型化,支持按需配置和動態擴展,形成通用解決方案,滿足本系統可變要求的同時可適用于其他類似采集系統。同時,為了便于有效監督管理,對數據處理建立日志機制并提供相應的統計分析展示。

1 系統設計

1.1 系統功能

根據需求分析設計系統功能為7個子系統,分別為數據源管理、模型管理、作業管理、執行引擎、推送核查、監督管理和系統管理。系統功能如圖1所示。

1.1.1 數據源管理

實現對需要質量管理的數據源的維護管理。對數據源的維護包括數據庫的驅動類、url、用戶名、密碼、最大連接數等參數,并支持實時連通性檢驗。支持主流的結構化數據庫軟件,包括oracle、sql server、db2、mysql等。

1.1.2 模型管理

包括模型管理和模型引擎兩部分。模型管理實現對數據校驗模型的管理。管理的數據校驗模型分為通用和專用兩類。通用模型主要包括各基本數據類型的校驗模型,可直接被復用,通用模型的管理分為標準和專業兩種模式,在標準模式下,由頁面輸入數據類型、校驗類別、校驗內容等參數定義模型;專業模式下,允許用戶直接書寫校驗語句來定義模型。因標準通用模型一次只能定義一項校驗,故還支持組合模型,即可將多個數據類型一致的標準通用模型組合為一個新的校驗模型。專用模型針對較為復雜的數據校驗,僅對特定問題具備通用性,由管理人員上傳模型算法包維護,或由系統版本更新時直接內置,內置模型不可刪除,針對數據去重問題的計算機輔助去重模型屬于此類。模型引擎主要負責對模型的解釋和調用執行。

1.1.3 作業管理

實現對數據校驗或去重等任務的維護管理。建立任務支持可視化拖拽配置,包括三部分內容:

1) 對象配置。首先從數據源管理中選取對象數據源,然后讀取該數據源內的所有數據表,再選定需要建立數據校驗任務的數據表,選擇該表全部屬性或某個子集對為校驗對象。

2) 模型配置。為第一步選定的屬性添加校驗模型,支持為多個屬性批量添加校驗模型。

3) 執行參數配置。設置任務的執行時間或頻率,以及任務執行后的處理規則,是僅做記錄還是推送核驗。

1.1.4 作業引擎

實現對作業任務的解釋和調用執行。包括定時器、執行邏輯和日志記錄三部分內容。定時器根據任務的執行參數配置按時啟動任務執行邏輯。執行邏輯根據任務對象及其模型配置執行數據校驗或去重任務。日志記錄執行結果、處理參數等日志,以備后續跟蹤處理和統計分析。

1.1.5 推送核查

實現任務執行結果向目標系統的推送。支持主動推送和被動推送兩種方式。主動推送建立向目標系統的數據推送接口,主動將執行結果推送至目標系統;被動推送向目標系統開放任務視圖,視圖中核查結果信息按作業任務和產生時間等排序,由目標系統決定數據抽取時機。

1.1.6 監督管理

提供綜合查詢和統計分析功能,包括對各類系統日志的管理和對系統監管數據資源的準確性、完整性、一致性和時效性度量,便于掌握系統作業任務執行情況和數據資源質量整體態勢。

1.1.7 系統管理

包括用戶管理、權限管理、系統配置管理、字典管理等功能。

2 系統應用流程

首先配置數據源;然后在模型管理中配置各校驗模型;其后在作業管理中對作業對象和模型進行裝配,并設定作業執行參數;作業配置完成后,系統定期執行作業,并記錄日志和生成相關統計報表。系統應用流程如圖2所示。

2.1 系統設計關鍵技術

2.1.1 數據質量管理體系

國內外關于數據質量的研究由來已久,對數據質量的評估包括眾多維度[2-4],本系統結合問題實際,從準確性、完整性、一致性和時效性四個方面管理數據質量。準確性評估依托數據校驗模型,由模型管理功能管理,采用的通用數據校驗模型如表1所示。四項指標的度量主要由監督管理功能管理,數據質量管理指標體系如表2所示。

2.1.2 基于聚類與數據質量的數據自動去重

聚類算法是機器學習和模式識別的研究熱點,其中,K-medoids算法以對象而非均值作為類簇的中心點,相較于K-means算法更適合處理離散數據且對噪聲敏感性較低,但也存在無法事先確定合適的k值等缺陷[5]。對于數據不一致問題,一般具備自動去重合并可能的數據記錄總是存在部分一致性,即重復數據集中大部分屬性值一致,少部分存在不一致,不一致的屬性值往往也存在一定的相似性。以Levenshtein距離[6](文本最小編輯距離)作為對象間距離函數時,K-modoids算法適合處理這種文本不一致問題。對于k值,若數據可以聚類成1個類簇,那么該類簇的中心點即可作為去重合并的優選值;若聚類成多個類簇,那么說明樣本間差異較大,此時若沒有領域知識干預,只能由人工介入處理?;诒鞠到y的設計,可以在人工干預前先使用數據質量輔助去重合并,即當聚類無法給出唯一中心點時,以數據質量最高的數據記錄作為合并參考值,數據質量可以用準確性、完整性和時效性指標線性加權計算。

自動去重的過程如下:

1) 定義判斷重復記錄的屬性集或屬性;

2) 根據1)將所有重復數據劃分為多個重復數據集;

3) 對每個重復數據集,依次檢查其判重屬性集以外的每一個屬性,找出存在數據不一致的屬性集;

①對每個數據不一致屬性,假設其重復記錄數為n,計算其兩兩屬性值之間的距離并排序,取距離最小的前[C2n2]個距離;

②根據這些距離的端點關聯,若其能關聯成一個屬性集,則根據K-medoids算法思想計算中心點,以中心點的值作為去重合并值;

③若距離端點關聯成多個屬性集劃分,表示樣本差異大,此時可以數據質量最高的記錄的屬性值作為去重合并值;

4) 每個重復數據集處理完成后,記錄合并方案,并保存歷史數據備案以待人工核查。

3 結語

大數據時代,數據成為重要的價值資產?;鶎訑祿杉到y單獨運行時因其自身局限,數據質量問題會被有意無意忽視,進入大數據環境后,常常陷入“數據豐富、信息貧乏”的尷尬境地。本文基于大型基層數據采集系統的數據質量現實問題,研究了數據校驗通用模型和基于聚類與數據質量的自動去重方法,設計了一個通用數據質量管理系統,適用于類似采集系統的普遍數據質量問題。

參考文獻:

[1] 習近平:實施國家大數據戰略,加快建設數字中國(萬字長文解讀)[EB/OL].[2017-12-12].http://www.thebigdata.cn/YeJieDongTai/35064.html.

[2] Aebi D, Perrochon L. Towards Improving Data Quality[C]//CiSMOD.1993:273-281.

[3] Fan W, Geerts F. Foundations of data quality management[J]. Synthesis Lectures on Data Management,2012,4(5):1-217.

[4] 郭志懋,周傲英.數據質量和數據清洗研究綜述[J].軟件學報,2002,13(11):2076-2082.

[5] 潘楚,張天伍,羅可.兩種新搜索策略對K-medoids聚類算法建模[J].小型微型計算機系統,2015,36(7):1453-1457.

[6] Levenshtein V. Binary codes capable of correcting deletions, insertions and reversals[J]. Doklady 1965, 163(4):845-848.

猜你喜歡
數據質量聚類
基于DBSACN聚類算法的XML文檔聚類
強化統計執法提高數據質量
淺談統計數據質量控制
條紋顏色分離與聚類
基于Spark平臺的K-means聚類算法改進及并行化實現
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數自適應的聚類方法研究
自適應確定K-means算法的聚類數:以遙感圖像聚類為例
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合