?

面向業務的數據資產建設方法論:標簽類目體系

2020-12-07 05:57任寅姿
關鍵詞:數據服務

任寅姿

摘要:給出了一種面向業務側的數據資產建設新方法。數據資產是數據中臺概念中核心一環,需要一種業務導向的資產映射來完成資產業務化過程。標簽類目體系方法論是一種將數據資產按照樹狀結構組織的方法,根目錄為對象,枝干分支為類目,葉/花末端為標簽。各種對象樹之間存在能量連接,并通過業務供給生長。標簽類目體系實例化可以采用整體規劃、局部截取兩種模式。資產結果分為資產清單和資產實體兩大部分,它們可以通過服務管理工具快速配置成可供業務使用的數據服務結果,以實現數據資產價值。

關鍵詞:標簽類目體系;樹狀結構:數據服務:資產價值

中圖分類號:TP391 文獻標志碼:A DOI:10.3969/j.issn。1000-5641.202091009

0引言

在數據中臺概念中,數據資產位于核心位置。首先要對數據資產定義有正確的認知:廣義上,企業擁有所有權的數據資源都是其數據資產。但是這個廣義定義過于寬泛:所有資源都有價值等于所有資源都沒有價值。因此需要更多關注其精準定義——企業所擁有的能夠帶來經濟價值的數據資源。數據資產一般都有較好的組織形式來保障完成“看-選-用一治-評”的經濟價值鏈路。對數據資產的最佳“組織形式”研究成為數據中臺建設的重中之重。

大數據行業內至今衍生出了眾多的數據資產建設管理辦法。但是當前主流方法,包括國際數據管理協會DAMA、數據倉庫管理、數據治理等多偏向于底層技術實現,而非從上層業務應用角度對資產進行整合優化。

數據資產之所以稱為資產,必須從價值出發,整理、管理、優化對業務真正有幫助、能給企業帶來效益的數據資源。把數據資源封裝成業務人員能理解的形態,是后續資產價值化的必要前提。因此迫切需要一種新的思路來研究面向業務側的數據資產建設方法。

1基礎結構

標簽類目體系方法論是一種面向業務的數據資產建設方法:用“標簽”來作為數據資產的最小單元組織載體,用“標簽類目體系”作為數據資產目錄的整體組織結構載體。

1.1根目錄

標簽類目體系的基礎結構就像一棵樹,如圖1所示,樹的根決定了這是一顆什么樹。

設計、管理、使用標簽類目體系必須從根目錄開始。根目錄所對應的數據含義為對象,對象分兩大類型:實體對象(人、物)和關系對象(強關系、弱關系),因此存在兩大類標簽類目樹:實體樹和關系樹。

1.2枝干分支

樹的枝干部分對應于標簽類目體系中的類目分層,因此類目是一種分形結構,可以不斷地分化下去,也可以根據需要截取任意一個子系統出來作為獨立的標簽體系(小系統范圍)使用。

1.3葉/花末端

樹的葉/花部分,對應的就是對象的各種屬性,即標簽,物理存儲中映射為字段粒度,是通過大量經驗驗證后最合適的數據資產最小單元粒度。葉和花都屬于枝干延伸的末端組織分化,相互之間存在聯系。標簽也可以分為動態標簽和靜態標簽,動靜區分點在于某個個體在這個標簽下的標簽取值是否具有經常發生變化的可能。

某一類對象的標簽類目體系的構建實際上完成了對某一類對象的模式設計。設計好的標簽類目體系就像模具一樣,能將該類對象下的具體個體的形象特征快速標準地刻畫出來。例如,消費者標簽類目體系設計好后,所有的消費者都擁有相同的標簽及標簽類目結構,但具有不同的標簽取值,如圖2所示,每個個體的標簽取值不同,用顏色來示意區分不同的標簽取值。

通過標簽體系設計,可以把個體觀察升級為群體觀察。找到了一種統一的數據描述方法來對對象進行本質刻畫,而非過去現象的總結,更具有場景化適應能力。

2連接賦能

標簽類目體系是基于“對象”的標簽分類刻畫,“對象”是類目體系的奇點。

2.1實體樹間通過關系樹連接

例如,消費者(實體)與商品(實體)之間會通過某些瀏覽、交易、評價等行為(關系)產生連接,通過這種連接,消費者(實體)與商品(實體)除了靜態標簽之外,還衍生出了許多動態標簽,實體對象360度的全面刻畫變得更為豐富和完整,如圖3所示。

2.2關系樹是一種能量賦予

實體對象身上的標簽,會隨著關系對象的增多而相應地增多。每新增一種動作、行為、連接,即關系樹,就會在實體樹上映射出一片新類型的葉子,如圖4所示。

實體樹要想長出足夠多類型的葉/花就需要通過關系樹的能量映射。關系樹自身越茂盛,能映射孵化出的實體樹葉/花也會越繁多;反之,關系樹自身枯萎、能量不足,實體樹的葉/花也會隨之枯萎消失。

2.3業務使用是養分供給

標簽如果在業務中被廣泛使用則生長非常牢固,得到了業務的重視而獲得更多資源傾斜。而某些標簽如果只被使用一次即擱置,則會因為營養不足而凋零下架。

3生長優化

經典標簽類目體系的完整結構是一棵可以不斷分化下去的樹形結構。因此可以通過不斷地增加、修剪、插枝等方式來完善。

標簽類目樹就像生命進化樹一樣,類目分支受到能量環境影響形成豐富的標簽簇,標簽會經歷優勝劣汰的自然選擇。整個標簽類目樹需要自己生長出來,而非人為控制得到最終形態。

最終的標簽類目樹形態是適應環境自然生長的結果,但是不意味著不能提前規劃一個較好的標簽類目樹初始形態。通過在實驗室環境中將植被進行理想的扦插塑形,可以使得樹木在真實環境中更好地生長。

因此當一家企業需要構建其自身的標簽類目體系時,可以基于一個已沉淀好的××行業某對象標簽類目體系模板,進行快速的規劃設計和修正優化。根據建設數據資產的目的節奏不同,有以下兩種模式可以參考借鑒。

3.1完整規劃,由淺入深

當企業構建資產的目的是形成數據資產的完整規劃,指導數據收集、整理、加工、挖掘等各階段工作,并愿意花費較長時間來實施數據資產的整體規劃時可以選用下述模式。

(1)首先選取藍色圈內主要枝干體系,添加少量標簽并完成數據開發和映射工作,形成V1.0版本的消費者標簽類目體系,如圖5所示。

(2)再根據企業現有數據情況及業務需求,進行黃圈、綠圈……的全面擴展,此時標簽類目樹上掛有的標簽越來越豐富,如圖6所示。

(3)當現有基礎數據/業務比較單一,或某一業務發展迅速滋養某一類型的標簽快速發展,也可能會出現紅圈式的指向性單側擴展,如圖7所示。

不管以上哪種具體實施方法都是從根部最基礎樹干到分支再到細支,體現了一種整體規劃的完整思路。這種模式的好處是全面規劃、面向未來,可以指導企業在數據端的全面布局;缺點是建設周期長,見效慢,因此遇到的阻力也會很大,必須是一把手工程才能完成全面的數據資產從規劃到落地實施。

3.2縱深打穿,從局部直接截取

當企業構建資產的目的是完成對業務場景的支撐,特別是多個業務場景間能快速復用標簽資產,希望可以快速見到數據對業務產生的商業價值時可以選用下述模式。

直接從經典的完整對象標簽類目樹上截取所需的部分分支即可。因為標簽類目體系是一種分形結構,整體和局部有同構性,任何一個局部分支都可以剪切出來作為獨立的標簽類目樹。例如,當前某業務部門只需要研究用戶的基礎特征,就可以直接從經典類目樹上截取左上角的基礎特征分支作為獨立的類目樹,如圖8中圈選部分所示。此時該用戶的一級類目就是基礎特征,直接跳過“靜態特征”和“動態特征”這兩個更基礎的類目。

這種模式的優點是:標簽直接作用于業務,可以快速得到業務滋養并得到數據價值的認可,阻力較小。但缺點是:當業務、標簽不斷生長變化時,整個類目結構可能會有較大的變動,甚至是重構,帶來的影響較大。

標簽類目樹的優化過程可以參考生物進化論,是遺傳變異+自然選擇的作用結果。

企業構建具有其自身特點的標簽類目樹,在初始創建時,可以遺傳自經典標簽類目樹的基因組:從經典標簽類目樹結構中篩選出合適的類目結構進行設計組裝(遺傳);并根據企業自身實際情況進行變異調整(變異);將設計好的具體標簽類目樹放到實踐業務中去使用優化,完成環境選擇的過程(自然選擇);并最終不斷地進化迭代。

在進化過程中,重要的不是對某一條線的極致進化,而是不斷分化的分支。因此對于數字化轉型的企業,面對未來變化莫測的環境場景時,需要做的不是在某個單一領域上將數據治理透徹。因為極致和典型態未必就是方向和出路。而應該梳理出全集團多業態多部門數據,不斷通過能量影響、基因交叉形成豐富有趣的標簽簇,使其能夠適應將來各種場景對數據標簽的使用需求,同時自身具有非常旺盛的生命力和延續性。

4資產結果

通過標簽類目方法論所形成的企業數據資產庫包括資產清單和資產實體兩部分。

4.1資產清單

資產清單類似資產門戶,可以在門戶集市中,清晰明了地看到企業中一共構建了哪些對象的標簽類目體系,并在選中某種樹后,可以看到這種樹的具體枝干輪廓:一級類目、二級類目、三級類目……選中某級標簽類目后,可以看到其下所涵蓋的標簽列表,如圖9所示。

每個標簽就像每一片不同的葉子一樣,擁有自己的ID、名稱、邏輯、類型、值字典等元標簽信息,元標簽就是對標簽的屬性描述。例如,百科全書要讓讀者對某一事物有充分全面的正確認識,則必須要有充分全面的信息描述,并且以通俗易懂的方式描述。因此標簽是否能讓業務人員、信息人員、技術人員等理解認知,重點就在于元標簽信息是否充足及描述是否符合讀者的心理認知。

元標簽中涉及業務元標簽部分的,應該以業務人員日常溝通交流的方式來進行描述,如標簽名、標簽業務邏輯、標簽場景示例、標簽價值等都屬于業務元標簽范疇。涉及技術元標簽部分的,應該以技術人員日常工作溝通的方式來進行刻畫,如標簽血緣、標簽質量、標簽加工邏輯、標簽源表、標簽物理存儲方式、標簽映射字段、標簽所在葉子類目ID等都屬于技術元標簽范疇。

4.2資產實體

資產實體是指在設計好的標簽類目體系規范下的每個具體個體實例。實例可以簡單認為是具體不同顏色的樹,因此在實體庫中,會存在非常多的顏色各異但是輪廓形狀相同的樹所組成的樹林,如圖10所示。在物理存儲層面可以映射為加工后的數據表中每一條具體的數據記錄,這些數據記錄擁有統一、相同的列信息,但是具體的列取值各不相同。

5落地實用

數據資產構建完成后,需要把資產合理高效地使用起來。這里列舉最常見的3種數據服務方式:查詢、分析、圈選,來解釋經標簽類目體系梳理后的數據資產是如何快速實現這3種數據服務過程的。

5.1查詢服務

查詢服務經常會運用在業務系統中的聯機事務處理(on-Line Transaction Processing,OLTP)事務型數據操作中,如在海量數據中快速查找某輛汽車的違章信息,或在營銷活動中實時判斷某位消費者是否達到準入門檻或完成活動任務。

因此首先要確定需要查找的對象是什么,是車輛、消費者還是訂單記錄?

選中對象(某種樹),如“消費者”后,可以在服務管理中選中“查詢”服務類型,進入“消費者查詢”服務的創建過程中。

查詢服務有幾個配置項必須選擇:查詢輸入項的ID標簽和查詢輸出項的標簽。其中ID標簽指的是能作為唯一識別屬性的標簽,即每個實例在該標簽下的標簽值,不允許出現標簽取值相同的兩個不同個體,如會員號、身份證號、駕照號、指紋圖形等都屬于ID標簽。例如,我們可以選擇【會員號】標簽作為輸入項,【戶籍地】標簽作為輸出項。

查詢服務創建好后生成API接口或交互界面,具體業務系統或業務人員即可調用或通過界面系統操作使用該服務:輸入一個具體的會員號碼1000234,后臺系統即可通過該ID標簽取值,在資產實體庫中找到唯一對應的個體實例,并根據所需要輸出的標簽信息,定位到該個體在【戶籍地】標簽上的具體取值

浙江,并將該取值傳遞到接口輸出或通過界面呈現,如圖11所示。

5.2分析服務

分析服務經常會運用在業務系統中的聯機分析處理(0n-Line Analytical Processing,OLAP)分析型數據操作中,如對消費者群體進行客戶透視畫像或對企業經營狀況進行財務分析等。

和資產構建過程一樣,對象的確認仍然是第一位的。分析也要先梳理清楚分析的對象是什么??蛻舢嬒竦膶ο蟊容^單一,就是客戶;企業財務報表的對象比較多,有資產、訂單、項目、商品等。

選中對象(某種樹),如“消費者”后,可以在服務管理中選中“分析”服務類型,進入“消費者分析”服務的創建過程中。

分析服務有幾個配置項可以選擇:待分析的維度(標簽)及分析類型(求和、求平均、最大值、最小值、取值分布等)。例如,我們可以選擇【性別】這一維度并設置“取值分布”這一分析類型。

分析服務創建好后生成API接口或交互界面,具體業務系統或業務人員即可調用或通過界面系統操作使用該服務。后臺系統根據“消費者”對象的確認,找到消費者對象庫中的所有具體實例樹(具體消費者個體);根據【性別】標簽的類目信息索引找到所有實例樹中“性別”樹葉位置;將所有有顏色的“性別取值”樹葉提出來排列好,根據“取值分布”的要求對不同顏色的樹葉進行顏色歸類并進行分類匯總計算,最終業務人員可以在API接口或界面系統中查看到消費者在性別上的取值分布圖,如圖12所示。

從以上的處理過程中,我們可以發現,數據分析就是對某一對象群體在某一屬性標簽上的取值處理,即對有顏色的樹葉在某一維度切面上的不同變形,取值分布就是將顏色分布變形為不同數據軸上的數量表示,求平均就是將各種顏色在數量上差異變形為最終的調和色彩。處理數據的最終結果和數據資產不同,是數據資產實體在不同維度切面上的變形結果。

5.3圈選服務

圈選服務經常會運用在對特定目標對象的操作中,如廣告系統中的精準營銷,或LBS服務中的地理圍欄,或數據化運營中的定向投放等。

同樣需要先確認對象,如“消費者”,然后可以在服務管理中選中“圈選”服務類型,進入“消費者圈選”服務的創建過程中,選擇需要作為圈選條件的標簽,并設置圈選的目標群體輸出時需要帶有的標簽信息。例如,選擇【性別】、【年齡】等標簽作為目標群體圈選的條件維度,設置【會員號】標簽作為目標群體的輸出信息項。

圈選服務創建好后生成API接口或交互界面,具體業務系統或業務人員即可調用或通過界面系統操作使用該服務,如選擇【性別】等于“女”且【年齡】小于“30"的消費者群體。后臺系統根據“消費者”對象的確認,找到消費者對象庫中的所有具體實例樹(具體消費者個體);根據【性別】標簽的類目信息索引找到所有實例樹中“性別”樹葉位置,篩選留下“性別”樹葉具體取值為“女”的實例樹集合;同樣操作篩選留下“年齡”樹葉取值小于“30”的實例樹集合;將以上兩個實例樹集合取交集(業務人員制定規則為“且”);對最終交集中的每個個體樹上找出【會員號】標簽上的具體取值;并將該取值集合傳遞到接口輸出或通過界面呈現,如圖13所示。

6結論

本文給出了一種面向業務、以數據價值實現為核心目標導向的數據資產建設方法論,具有3個特征:①是一種橋接數據和業務的中間邏輯層,讓數據變得可閱讀、易理解;②是一種統一的對象數據描述方法,把個體刻畫升級為群體刻畫,研究本質;③是一種構建數據資產的第一性原理,通過學習方法論+演繹推導即可構建具體的企業資產。

通過標簽類目體系方法構建的數據資產,可以將難以理解的數據信息轉化為業務人員“看一選一用一治一評”的資產操作對象,降低了數據資產使用門檻,加快了試錯和使用頻率,能夠切實有效地保障數據資產價值真正在業務端得到實現,并保持長久運營的生命力。

猜你喜歡
數據服務
大數據環境下高校圖書館數據館員建設研究
大數據時代校園一卡通數據分析與應用研究
基于大數據的智慧型醫學圖書館構建策略
圖書館數據服務合作開展的博弈策略及保障機制研究
高校圖書館數據素養教育問題與對策研究
一種基于領域本體的數據服務語義標注方法
公共圖書館流通外包管理研究
勝利油田智慧社區建設研究
高分辨率影像服務在國土資源管理中的應用
遼寧省環境數據中心建設探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合