?

基于列存儲的公共信用檔案數據管理設計與實現

2018-01-10 05:54張輝帥
微型電腦應用 2017年12期
關鍵詞:數據管理法人代碼

張輝帥

(上海眾恒信息產業股份有限公司, 上海 200042)

基于列存儲的公共信用檔案數據管理設計與實現

張輝帥

(上海眾恒信息產業股份有限公司, 上海 200042)

以各政府部門多源異構的公共信用檔案數據管理為目標,分析了傳統行存儲模式的問題,提出了列存儲模式,設計了存儲結構,并分析其相較于行存儲模式的優勢?;诹写鎯Φ男庞脵n案數據管理模型,實現了上海市公共信用信息服務平臺信用檔案信息的數據存儲和管理。

信用檔案; 信用信息; 數據管理; 列存儲; 多源異構

0 引言

所謂公共信用信息,是指由行政機關、司法機關、法律法規授權的具有管理公共事務職能的組織以及公共企事業單位、群團組織等,在其履行職責、提供服務過程中產生或者獲取的,可用于識別自然人、法人和其他組織(以下統稱信息主體)信用狀況的數據和資料[1]。國家發改委也將行政許可、行政處罰信息作為方便社會了解市場主體信用狀況的數據之一,納入公共信用信息的范疇,并要求各行政部門自作出行政決定之日起7個工作日內上網公開,提高行政管理透明度和政府公信力[2]。

本文研究的信用檔案數據,是指單個自然人、法人或其他組織的所有公共信用信息的數據集合。

1 政府部門公共信用檔案信息的數據特點

公共信用檔案數據具有如下主要特點:

(1) 主鍵編碼穩定且唯一

公共信用信息都具備識別信息主體的統一社會信用代碼,該代碼穩定且唯一,可以作為法人或自然人信用信息數據主鍵。根據國家標準[3],法人和其他組織使用全國統一賦碼的18位統一社會信用代碼作為識別身份的編碼,自然人則使用18位身份證號碼。統一代碼覆蓋了所有法人和自然人主體。一個主體只能擁有一個統一代碼,一個統一代碼只能賦予一個主體。并且,統一代碼一經賦予,在其主體存續期間,主體信息即使發生任何變化,統一代碼均保持不變。

(2) 以結構化數據信息為主

公共信用信息數據基于各個政府部門已有的管理數據(例如工商部門的企業注冊登記信息、公安部門的行駛證登記信息、民政部門的婚姻登記信息等等),通過比對清洗加工而成的。而這些管理數據是各政府部門現有的信息化系統日常行政工作(例如行政審批、行政處罰等)中產生的,通常情況下都是結構化的數據信息。另外,國家發改委也針對“雙公示”信息(行政許可公示信息和行政處罰公示信息)分別制定了18個字段和20個字段的結構化數據標準[4],包括行政相對人代碼、許可或處罰決定日期、許可項目名稱、處罰名稱等。

(3) 來源部門繁多

截止2017年1月,上海市公共信用信息服務平臺依托上海政務外網,已實現全市100家部門的公共信用信息數據歸集,期中包含44家市級行政機關、11家中央在滬單位、2家人民團體、2家司法機關、11家公用事業單位、14家社會組織、16家區縣[5]。接入部門的數量非常多,數據交換過程中的交換節點管理、清洗比對任務的維護難度較大。

(4) 數據類別和數據結構復雜

以上海市公共信用信息服務平臺數據為例,上海市公共信用信息資源目錄共5198項,包括法人信息事項4072項、自然人1126項。按信息類別可以分為登記類、資質類、監管類、判決類、執行類、管理類和公益類8類。登記類包括工商登記、社會組織登記、稅務登記等;資質類信息包括行政許可、資質認定,以及執業許可、職業資格等;監管類信息,包括違法違規記錄、行政處罰等。執行類和判決類來自司法機關。履約類包括欠繳公積金,擾亂用電秩序,破壞公共基礎設施,逃票等信息。部分資源目錄事項示例,如表1所示。

表1 公共信用信息資源目錄事項示例表

可以看到,元數據中除第1、第2項為“統一社會信用代碼”和“企業名稱”之外(對于自然人為“身份證號碼”和“個人姓名”),其他各資源目錄事項的元數據都不一致。這是因為各部門、各行業、各領域都具有不同的業務規范和數據標準,導致信用信息資源目錄的元數據名稱、格式、標準、長度、類型千差萬別。以上海市公共信用信息服務平臺資源目錄為例,字段最多的資源目錄事項有34個字段,最少的有8個字段;另外,除國家制定的行政許可信息和行政處罰信息數據標準之外,沒有一個資源目錄事項的字段是一致的。因此,基于信用檔案數據的這些特點,需要找一套合理有效的數據存儲模式來管理它們。

2 基于行存儲模式的問題分析

采用行存儲模式管理信用檔案數據時,一種方案是對各信用信息資源目錄事項進行抽象,統一合并歸納為少數的幾個信用信息資源類別(例如登記類、資質類、監管類等8大類),再統一制定這8類的數據標準和結構,形成8張表結構。另一種方案是完全按照來源部門的數據結構進行映射,目標表和原始表一一對應,不對表結構進行任何變化,以上海市信用平臺為例,5198個資源目錄事項形成5198張表。

第一種方案問題在于可操作性不強。目前還無法找到一個完美的分類標準能夠覆蓋所有的公共信用信息資源目錄事項。并且,信用信息資源目錄的元數據標準很難用進行統一。例如登記類信息中,工商企業注冊登記信息和單用途預付卡登記備案信息的元數據完全不一致。

第二種方案問題一方面在于數據管理和開發維護的成本較大。軟件系統需要對5198張表進行開發和管理,在未來新的資源目錄事項加入時,需要不斷地新建表,對軟件代碼的可擴展性和兼容性的要求較高。另一方面,在數據查詢應用場景下(例如,通過統一社會信用代碼查詢指定單個企業的信用數據),軟件系統的性能和效率低下。其工作機制流程如下:

1) 用戶輸入統一社會信用代碼或身份證號碼查詢指定主體的信用檔案數據;

2) 軟件代碼掃描每一張數據表(5198張表),逐個找到這些表中主鍵與輸入條件匹配的信用數據記錄;

3) 將這些數據記錄關聯起來進行展示。

3 基于列存儲模式的表結構設計

為了解決上述行存儲模式所面臨的問題,本文采用列存儲的方式,將5198項信用信息數據進行統一管理。所有公共信用檔案的元數據統一在“數據名稱表T_HEADER”中進行存儲,所有數據記錄在“數據內容表T_DATA”中進行存儲,兩張表的表結構如下,如表2、表3所示。

表2 數據名稱表T_HEADER表結構

數據名稱表T_HEADER統一管理所有資源目錄事項的元數據名稱信息、元數據類型、元數據字典標準、元數據長度,以及這個元數據字段在信用檔案中的展示的順序、寬度和名稱等。并通過ZYMLID與數據內容表T_DATA中的具體數據進行關聯。

表3 數據內容表T_DATA表結構

數據內容表T_DATA統一管理所有的數據記錄,這些數據記錄是嚴格按照T_HEADER的元數據標準進行存儲的,分別用A1至A30存放每個元數據字段所對應的具體數據。法人的統一社會信用代碼和單位名稱、自然人的身份證號碼和姓名單獨用兩個字段“CREDITCODE”和“NAME”單獨存放。

在信用檔案數據查詢的應用場景下,列存儲模式的工作機制流程如下:

(1) 用戶輸入統一社會信用代碼或身份證號碼;

(2) 軟件系統首先在數據內容表T_DATA中進行匹配,將CREDITCODE字段中所有符合條件的數據記錄全部找到;

(3) 以ZYMLID為外鍵,在數據名稱表T_HEADER中找到這些數據記錄對應的表頭名稱信息、類型信息、長度信息、信用檔案中展示的先后順序、展示的寬度、展示的別名等等;

(4) 將這些數據記錄關聯起來進行展示。

4 基于列存儲模式的特點分析

(1) 應用系統開發成本低

在列存儲模式下,應用系統只需針對兩張表進行開發。不需要像行存儲模式下關注5198張表,為每張表單獨建立實體類進行讀寫維護的開發。大大降低了應用系統軟件的開發時間和維護成本。

(2) 數據易于擴展

隨著未來新的部門不斷接入,新的信用信息資源目錄事項不斷增加,在基于列存儲的數據管理模式下,只需要在數據內容標T_DATA中新增數據記錄,并把對應數據記錄的元數據信息插入數據名稱表T_HEADER中即可。不需要修改軟件程序,也不需要新增表實體或修改表結構就可以完成擴展,并保持來源部門的原始數據結構不變。

(3) 查詢應用的效率高

在此模式下,軟件系統不需要掃描幾千張表,只需要對兩張表進行操作即可。大大提高了應用系統的查詢效率。

5 基于列存儲的公共信用信息查詢報告應用實踐

截止2017年1月,上海市信用平臺歸集了包括行政機關、司法機關以及公用事業單位在內的100家單位數據,信息事項5198項,可供查詢法人數據1043萬條、自然人數據近3億條。依托上海誠信網、市信用平臺APP、市民信箱、法人一證通等,實現信用檔案在線查詢功能,遠郊區縣依托行政事務服務中心設立服務窗口,構建線上線下綜合查詢渠道。如圖1所示。

圖1 法人信用檔案查詢頁面

在基于列存儲的信用信息數據管理模式下,上海市信用平臺的已累計提供法人信用信息查詢377萬次、自然人查詢1194萬次。在2015年,上海市信用平臺圓滿完成“為全市法人和市民在線免費提供一次信用查詢報告”市政府實事項目,全市106萬法人和531萬自然人參與在線查詢,如圖2所示。

圖2 自然人信用檔案查詢頁面

6 總結

在應用過程中,我們也發現列存儲模式下的一些缺點,例如統計報表和信用數據專題分析等應用的開發實現相對行存儲較為困難。下一步,可以考慮同時保留行存儲和列存儲的混合存儲模式,并采用分布式大數據架構對行存儲模式下的數據進行管理,滿足統計報表和信用數據分析需求的同時,兼顧系統性能和效率。

[1] 上海市人民政府 《上海市公共信用信息歸集和使用管理辦法》(滬府令38號).

[2] 國家發展改革委《關于認真做好行政許可和行政處罰等信用信息公示工作的通知》(發改電〔2015〕557號).

[3] GB32100—2015《法人和其他組織統一社會信用代碼編碼規則》.

[4] 國家發改委 《關于規范行政許可和行政處罰等信用信息數據標準的通知》(發改電〔2015〕806號).

[5] 上海市公共信用信息目錄(2016版).

ResearchonPublicCreditArchiveDataManagementBasedonColumn-basedStorageModel

Zhang Huishuai

(Shanghai Triman Information & Technology Co., Ltd,Shanghai 200042, China)

This research aims at the management of multi-source heterogeneous credit archive data from various government departments, analyzes the disadvantage of row-based storage model. It brings forward the coloumn-based storage model, designs the database structure and analyzes its advantage over the row-based model. Based on the coloumn-based model, this research implements the credit archive data storage and management of the Shanghai public credit information service platform.

Credit archive; Credit information; Data management; Column-based storage model; Multi-source heterogeneous

1007-757X(2017)12-0044-03

張輝帥(1986-),男,工程師,學士,研究方向:信用大數據。

TP311

A

2017.07.28)

猜你喜歡
數據管理法人代碼
企業級BOM數據管理概要
定制化汽車制造的數據管理分析
海洋環境數據管理優化與實踐
CTCS-2級報文數據管理需求分析和實現
非營利法人破產特殊制度安排研究
對《民法總則》法人的分類方式的思考
陜西省法人及其他組織違法失信“黑名單”
創世代碼
創世代碼
創世代碼
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合