?

基于大數據決策分析需求的圖書館大數據清洗系統設計

2016-05-14 05:42馬曉亭
現代情報 2016年9期
關鍵詞:決策分析系統設計圖書館

馬曉亭

〔摘要〕圖書館的大數據時代已經來臨,大數據質量問題是影響圖書館大數據應用的重要因素,而大數據清洗則是提高圖書館大數據質量的主要手段。本文介紹了圖書館不清潔數據的類型與產生原因,設計了基于大數據決策分析需求的圖書館大數據清洗系統,該系統不僅可以提高大數據清洗的效率和精確度,而且大幅度降低了圖書館大數據決策分析的復雜度。

〔關鍵詞〕圖書館;決策分析;大數據清洗;系統設計

DOI:10.3969/j.issn.1008-0821.2016.09.018

〔中圖分類號〕G25076〔文獻標識碼〕A〔文章編號〕1008-0821(2016)09-0107-05

〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.

〔Key words〕library;decision analysis;big data cleaning;system design

當前,圖書館已進入大數據時代。隨著移動互聯網、云計算和物聯網技術在圖書館中的廣泛應用,圖書館可通過監控和采集服務器運行數據、讀者個體特征、閱讀行為數據、閱讀關系數據、閱讀終端數據等,實現了對圖書館服務模式和讀者閱讀需求的全面感知與預測,大幅度提升了圖書館的服務能力和讀者閱讀滿意度。但是,隨著圖書館服務復雜度和服務模式多樣化的發展,其大數據環境呈現出“4V+1C”的特點(分別是數據體量巨大(Volume)、數據類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)和具有較強的復雜性(Complexity)),圖書館采集與存儲的原始大數據中混雜著許多不完整、錯誤和重復的“不清潔”數據,導致圖書館大數據存在著不一致、不完整性、低價值密度、不可控和不可用的特性[1]。圖書館如果一味強調提升IT基礎設施的大數據處理性能、數據分析方法的科學性、數據分析師的大數據素養,而不通過大數據清洗有效提升數據的質量和可用性,將會導致圖書館大數據應用的收益率和數據決策科學性下降。

據美國普化永道會計事務所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被調查公司存在著因不清潔數據問題而導致經濟損失的現象,只有35%的被調查公司對自己的數據質量充滿信心;在很多涉及數據倉庫的項目中,數據清洗在開發時間和整體預算方面所占的比例大概在30%~80%,而將不同數據源的數據進行抽取和整合時,可能會產生一些新的不清潔數據[2]。因此,如何制定和執行安全、高效的數據清洗策略,實現對圖書館大數據資源的檢測、校驗、修正、整合與分解,及時發現并糾正大數據中存在的錯誤、缺失、異常和可疑數據,確保圖書館大數據資源結構完整、正確和無重復,是關系圖書館大數據應用與決策安全、科學、高效、經濟和可控的重要問題。

1圖書館大數據清洗的需求與挑戰

11大數據環境下數據清洗的需求發生變化

大數據時代,圖書館數據的結構、類型、規模和復雜度發生了巨大變化,其大數據內容主要由IT服務系統運營日志與參數數據、用戶服務數據、讀者個體特征數據、讀者行為監測與社會關系數據、閱讀終端運行數據、視頻監測數據和傳感器網絡數據等組成,這些數據具有海量、多類型、高價值和處理速度快的大數據“4V”特點,因此,與“小數據”時代圖書館的數據清洗需求有本質區別。

大數據時代,非結構化、半結構化數據占據圖書館大數據總量的85%以上,圖書館數據清洗的重點已從“小數據”時代的標準化文本、數字、符號等結構化數據為主,轉變為以全文文本、圖像、聲音、影視、超媒體等非結構化復雜數據為核心[3]。其次,“小數據”時代圖書館數據清洗的主要對象是實例層的數據,依據函數依賴等完整性約束條件對數據記錄進行處理,而“大數據”時代則重點關注處理模式中數據屬性之間的語義關系。第三,圖書館數據清洗工具的效率、互操作性和可擴展性,以及數據清洗工具描述性語言能否滿足數據清理中關鍵詞大致匹配的需要,是關系圖書館大數據清洗科學、高效、精確和經濟的關鍵。

12圖書館大數據采集方式多樣性易導致數據結構不完整當前,為了提升讀者服務的科學性、實時性、可預測性和個性化水平,圖書館大數據應用采取了全面采集、實時分析、動態決策和評估反饋的原則,有效提升了圖書館大數據資源的價值密度、分析科學性和服務可靠性。圖書館大數據來源主要包括Web服務器日志數據、視頻監控數據、用戶管理系統數據、傳感器網絡數據和讀者滿意度反饋數據等,這些數據的數據采集來源、采集方式和數據模式標準不同,導致所采集的元數據存在著字段缺失、字段名和數據結構前后不一致、數據被異常破壞等現象,嚴重影響了圖書館大數據結構的完整性。其次,這些不完整大數據如涉及讀者的個體ID標示、數據價值關鍵字段、信息集成模式的匹配,則會導致數據資源不可用或者大數據決策錯誤。因此,如何科學、高效和準確地發現圖書館大數據中的缺失字段,并在規定的時間內對缺失字段進行修復,是圖書館確保大數據結構完整的重要措施[4]。第三,圖書館對大數據資源庫查詢請求的科學、完整和可控性,是關系數據查詢結果清潔性的關鍵。因此,如何完善、修補不同來源和不同類型的缺失數據字段,并有效挖掘其中蘊含的知識,是關系圖書館從不完整大數據中發現數據價值信息和保障知識服務效率的重要問題。

13海量、重復的大數據嚴重降低了數據決策效率

為了提升大數據的價值總量,圖書館會利用多數據采集源多方位、多角度和不間斷地進行相關大數據的采集。讀者個體特征和行為數據,是圖書館進行讀者閱讀需求預測、服務模式制定、服務滿意度評估和服務過程優化的關鍵數據,為了保證相關大數據采集的全面性、完整性、可用性和可靠性,圖書館會通過視頻監控設備、服務器日志、傳感器網絡、移動基站監測設備、閱讀終端監測設備等,盡可能全面地采集讀者相關大數據,并描繪一幅完整、精確的讀者閱讀行為自畫像。多個不同類型終端設備全方位、不間斷地采集同一讀者的個體大數據,會導致讀者個體大數據采集過程低效率、重復和識別精度低,這大幅度增加了圖書館大數據處理、分析和決策的復雜度與系統資源損耗。因此,如何刪除圖書館采集的海量、重復大數據,是關系圖書館大數據決策可用性和經濟性的關鍵。

其次,隨著圖書館服務智能化和個性化水平的提升,機器人等人工智能技術已廣泛運用到圖書館的管理與讀者服務中去。機器人通過深度學習技術,可為讀者提供諸如閱讀導航、服務推薦、問題解答、微博更新和聊天等服務,實現了機器人與讀者的實時互動與交流。但是,這些機器人產生的數據除具有動態生成、海量、多類型和低相關性的特點外,還存在著數據重復采集、標示多樣和部分錯誤的現象,因此,如何有效區分、清洗機器人產生的大數據,將對圖書館在服務中實施讀者閱讀行為跟蹤、讀者閱讀需求分析、用戶精確畫像和科學服務決策產生極大影響[5]。

14圖書館對錯誤大數據的識別與修正需求

圖書館大數據主要由數據中心IT服務系統配置參數與運營數據、用戶與服務管理數據、讀者個體行為與閱讀數據、傳感器網絡數據、服務資源數據、讀者閱讀反饋與滿意度評估數據等組成,這些數據的產生具有多數據來源、多采集模式、編碼與存儲復雜、數據清洗難度大的特點,大幅增加了圖書館對錯誤大數據識別與修正的難度。

隨著圖書館組織結構和內部業務關系復雜度的增長,圖書館員在向業務系統錄入元數據時,可能存在著濫用縮寫詞與慣用語、數據錄入錯誤、數據中內嵌信息錯誤、重復記錄、丟失數據字段、拼寫錯誤、計量單位錯誤和過時的數字編碼等問題。同時,圖書館當前業務管理系統數據糾錯的智能水平較低,不能完全識別與糾錯數據錄入中存在的數據錯輸成全角數字字符、字符串數據后面存在空格符、日期格式錯誤與日期越界等。其次,OCR(光學字符識別)軟件在對印刷體文字轉換成為黑白點陣的圖像文件,以及通過識別軟件將圖像中的文字轉換成文本格式時,OCR軟件的拒識率、誤識率、識別速度、用戶界面友好性、產品穩定性和易用性等,也是關系圖書館數字化文獻資源加工正確率的重要因素。第三,近年來,射頻識別(RFID)技術因其快速掃描、體積小、可重復使用、無線穿透性和無屏障閱讀等優勢,已廣泛應用到智慧圖書館的構建和讀者智慧服務中,有效實現了圖書館無線門禁的進出管理、人員精確定位、區域定位管理、安全防衛和圖書智能化存取等功能。由于RFID硬件設備易受數據傳輸距離、環境噪聲、地理環境、無線干擾等影響,導致RFID閱讀器存在著漏讀、多讀和不清潔讀等現象,如何識別與糾正RFID閱讀器在大數據采集過程中丟失、重復、模糊和錯誤的數據,已成為關系RFID應用有效的關鍵[6]。

15圖書館大數據清洗需制定科學的行業規范和標準圖書館大數據具有海量、多類型、高價值和處理快速的4“V”特征,據統計,其結構化與非結構化數據占據大數據總量的85%以上,且隨著圖書館服務模式多樣化和數據環境復雜度的不斷增長,其非結構化數據占據大數據的總比例將快速上升,因此,大數據海量、多類型和結構復雜的特點給圖書館的數據管理帶來了很大困難。

不同類型的圖書館在大數據采集源的結構和數據庫類型上差別巨大,導致不同圖書館在大數據的采集方式、組織結構、存取方法和數據庫構建類型上有較大區別,即使是同一種數據的存儲也存在著多種不同標準和數據庫關系結構。因此,制定統一的數據庫建設和數據管理、存取標準,提升數據清洗工具與數據庫系統在數據端口、清洗規則和配置參數上的兼容性,是關系圖書館大數據高效清洗和多用戶共享的前提。

在實際的工程操作中,數據清洗通常會占據數據分析全過程50%~80%的時間,因此,依據國家標準構建圖書館界的數據行業規范,是關系圖書館大數據開放性和降低大數據決策成本的重要問題。圖書館內部不同部門之間也存在著大數據重復采集和數據標準、類型不統一的問題,我國圖書館界與其它行業或第三方運營商,在數據庫建設規范、數據傳輸接口、相關應用程序上也存在較大差異,給大數據的清洗、共享和分析帶來了額外的負擔[7]。此外,圖書館對所屬大數據的安全性管理、讀者隱私大數據保護、大數據價值和可用性保證等,也大幅增加了圖書館大數據清洗過程的復雜度和成本投入。

2圖書館大數據清洗平臺的構建與大數據清洗關鍵問題21圖書館大數據清洗平臺的構建

圖書館數據除具備大數據的4“V”特性外,還存在著諸如不清潔數據來源多元化、隨機產生、隱匿性強和噪聲過濾難度大的特點。因此,在圖書館大數據清洗系統的設計中,作者依據圖書館業務導向和大數據的信息流程,重點突出了大數據源分類存儲、不清潔數據識別與發現、不清潔數據清洗和數據清洗流程控制等4個系統功能與流程的設計,實現了從數據產生與存儲、不清潔數據發現與清洗、清洗有效性評估、評估結果對清洗流程的反饋控制等4個過程的大數據生命周期質量管理[8]。所設計的圖書館大數據清洗系統功能結構如圖1所示:圖1圖書館大數據清洗系統功能結構圖

為了保證圖書館大數據存儲系統安全、高效、經濟和可控,系統底層的大數據存儲庫依據大數據的來源、類型、應用對象和不清潔數據特點,劃分為客戶管理元數據庫、系統配置與運行數據庫、讀者服務數據庫和主數據庫等,這些數據庫的不清潔數據主要存在結構不完整、數據重復、錯誤和不一致的問題。

不清潔數據發現系統平臺主要由大數據的獲取、數據完整性檢測、數據重復性檢測和錯誤數據檢測4個功能模塊組成,通過對大數據變量的取值范圍、相關性、無效性、缺失值和重復值的判定,將從大數據源中發現、提取出的不清潔數據傳輸至不清潔數據清洗模塊。

不清潔數據清洗系統平臺是大數據清洗系統的核心,數據管理員在對不清潔數據產生的原因、存在形式和數據結構復雜度進行分析后,制定出科學的不清潔數據定義、評估、清洗和規則反饋優化程序,依據數據清洗的實時性需求,控制系統實現不清潔數據的離線清洗和在線清洗,并對清洗后數據的完整性、有效性、一致性、準確性和相關性等進行判定,如果清洗結果不達標則進行不清潔數據的二次清洗[9]。

不清潔數據清洗管理平臺由圖書館元數據管理、大數據清洗模型管理、數據清洗安全性管理和質量管理4個模塊組成,負責元數據存取、大數據清洗流程控制、數據清洗過程的數據安全性和不清潔數據清洗質量的管理,可有效保證不清潔數據清洗過程安全、高效、經濟、高價值和可用。

22關系圖書館大數據清洗質量和數據可用性的關鍵問題221有針對性地選取圖書館大數據的清洗對象

大數據是圖書館IT系統構建、讀者管理和服務模式變革的直接決策依據,大數據的價值總量、密度和清潔度等,直接關系圖書館大數據決策的科學性、效率、經濟性和可用性。圖書館大數據具有海量和總量級數遞增的特點,但是,不同類型的大數據在數據價值總量、價值密度、分析可用性和與決策對象的相關性上差異較大,導致不同大數據在圖書館決策的科學性、精確度、可靠性和經濟性上的影響度不同。因此,圖書館應根據大數據決策的對象、內容、精確度和經濟性需求,有選擇地開展大數據的清洗活動。

個性化智慧服務是未來圖書館讀者服務的重要目標,而精確地判定讀者需求、圖書館未來服務資源總量和讀者閱讀情景,則是確保圖書館讀者個性化智慧服務內容實時、精準投放的前提。因此,圖書館對大數據清洗對象的選擇上,在保證大數據獲取難度可控、數據覆蓋率廣泛和具備一定的數據規模前提下,應選取與讀者個性化智慧服務決策相關性較大的數據,并重點清洗與讀者個性化智慧服務決策相關性較大的諸如讀者個體特征、閱讀歷史行為、閱讀實時興趣、個體移動路徑、閱讀終端模式、讀者服務評價與滿意度反饋、系統未來服務資源總量與服務負載等數據,才能在較小大數據清洗成本投入和降低清洗復雜度的前提下,大幅度提升圖書館大數據的價值密度與數據可用性。

222依據大數據決策實時性需求制定數據清洗策略

圖書館大數據決策可劃分為實時決策和離線決策兩部分。實時決策主要應用于圖書館安全與服務即時管理、讀者在線服務需求實時判定、實時服務策略制定與服務推送、服務系統的實時評估與優化等方面,要求大數據應用平臺在較短的時間內獲取、清洗和分析實時數據,為大數據實時、動態決策提供科學數據支持。實時決策對大數據獲取、傳輸、清洗、分析和決策過程的時效性要求較高,數據總量偏小、低清潔度和價值有限的實時大數據可能會影響圖書館實時決策的科學性和可用性。離線決策主要應用于圖書館的宏觀戰略方案制定、用戶服務模式變革、服務有效性評估和服務市場競爭環境分析等方面,這些離線決策雖然因為海量大數據的復雜分析而降低了決策的時效性,但決策結果具有較高的科學性、準確度和可靠性。因此,圖書館必須依據大數據決策實時性需求制定相關的大數據清洗策略。

大數據清洗策略的制定應以圖書館服務效率的提升和讀者閱讀滿意度為依據,結合圖書館數據中心大數據應用系統的資源總量和大數據清洗的負載量,依據決策內容實現大數據清洗實時性、算法復雜度、精確度和可靠性的完美結合。大數據在線清洗對實時性的要求較強,因此,圖書館應完全記錄用戶服務流程線上的實際數據,依據決策對象的重要性、實時性、相關性和服務收益需求,對需要清洗的數據進行優先級別劃分和系統資源分配,確保在線清洗結果的時效性、準確性、可用性和可靠性綜合評估最優。在離線大數據清洗策略的制定中,圖書館對數據清洗優先級別的劃分,重點應放在決策對象的重要性、服務的收益率、系統資源的損耗和實時性需求上,科學分配二級子指標的權重比例,并依據讀者需求和圖書館服務模式變革進行動態反饋調控,不斷提升宏觀決策的科學性和可行性。

223圖書館大數據清洗質量評估標準的幾個重要維度

圖書館對不清潔數據清洗質量評估的科學性,既是關系圖書館數據價值保證和大數據決策可用性的關鍵,也是圖書館對數據清洗系統進行反饋控制、優化和完善的重要依據,因此,必須選擇科學、全面、完整和可操作的大數據清洗質量評估維度,才能確保大數據清洗過程高效、優質、快捷、經濟和可控。

圖書館大數據清洗質量評估體系的構建應堅持評估指標覆蓋面廣泛、指標因子權重分配合理、評估系統開放和易于操作的原則,所設計的圖書館大數據清洗質量評估維度如表1所示:表1圖書館大數據清洗質量評估維度表

編號維度內容大數據清洗評估維度的描述1規范性數據的存在性、質量及存儲標準2完整性與準確性數據結構完整度、準確性和可用性3重復性數據在字段、記錄內容或數據集外重復4一致性和同步性在不同數據庫、應用和系統中的一致和同步5及時性和可用性非實時數據的清洗和價值可用性測量6可識別和相關性數據可理解、價值可測量和可相融程度7易用性和可維護性數據可訪問、使用、更新、維護和管理的程度8數據價值覆蓋度數據在決策中的價值、對象和內容覆蓋程度

此外,對圖書館大數據清洗質量的評估,應根據大數據決策過程對數據清潔度、價值密度和可用性的需求,動態調整大數據清洗質量評估維度表中各指標的權重因子,增強大數據評估結果對大數據清洗系統的反饋控制與優化功能,才能確保大數據清洗過程安全、高效、經濟和可控。

224圖書館大數據清洗流程的設計

大數據清洗流程的科學性、數據流可控性和評估標準有效性,是關系圖書館大數據清洗流程安全、高效、快速和經濟的重要問題。因此,本文在圖書館大數據清洗流程的設計中,堅持在保持大數據價值總量不變的前提下,以提升大數據的價值密度、可用性、決策實時性和降低大數據應用成本為根本目標,有效保證了大數據決策的科學性、可靠性、實時性和經濟性。圖書館大數據清洗流程如圖2所示:

圖書館大數據清洗系統首先對所接收的大數據進行預處理,并將擬清洗的大數據導入數據清洗系統,檢查元數據諸如字段解釋、數據來源、代碼表等內容描述是否正確,初步統計擬清洗數據的類型、結構、實時性需求和存在模式問題[10]。其次,在大數據的清洗中,應根據大數據清洗的復雜度、大數據總量多少和流程相關性,按照去除和修補缺失大數據、去除重復和邏輯錯誤大數據、異常大數據的檢測與處理、非需求大數據清洗、大數據的關聯性驗證等步驟進行,最后對已清洗大數據的質量和可用性進行評估,并將不符合大數據決策需求的不清潔數據傳輸至數據清洗輸入接口進行二次清洗。

3結語

圖書館大數據具有多數據來源、多維度、多采集方法和多存儲模式的特點,導致大數據中不可避免地存在著錯誤、粗糙和不合時宜的非清潔數據。這些非清潔數據的存在,增加了圖書館大數據應用的復雜度和數據決策成本,降低了圖書館對讀者閱讀需求的感知和對未來服務發展趨勢的預測能力,嚴重影響了圖書館服務決策從主觀經驗主義向大數據決策的轉變。因此,如何通過科學、高效、經濟和實時的數據清洗,將非清潔數據轉化為高質量的干凈數據,是圖書館增強大數據可用性、提升大數據決策效率和提升知識服務水平的關鍵。

圖書館大數據清洗是一個涉及面廣泛和影響力深遠的工程,不科學的清洗流程和方法會導致數據清洗收益率下降,甚至產生新的不清潔數據而影響圖書館大數據決策科學性。因此,圖書館在大數據的采集、傳輸、存儲、標準化處理、分析和決策中,首先應將數據質量管理和數據清潔引入圖書館大數據生命周期的不同階段,從制度上規劃保證數據質量管理有效和防止不清潔數據的產生。其次,應加強對大數據融合、集成和演化流程的監控與檢測,防止因為大數據的產生、流入或數據更改而產生新的不清潔數據。第三,數據清洗過程會消耗大量的系統資源和大數據應用成本,因此,圖書館數據清洗目標的制定應以大數據決策需求為依據,不能人為制定過高的數據清洗清潔度目標而導致大數據決策綜合收益下降。

參考文獻

[1]王曰芬,章成志,張蓓蓓,等.數據清洗研究綜述[J].現代圖書情報技術,2007,(12):50-56.

[2]吳向軍,姜云飛,凌應標.基于STRIPS的領域知識提取策略[J].軟件學報,2007,18(3):490-504.

[3]劉喜文,鄭昌興,王文龍,等.構建數據倉庫過程中的數據清洗研究[J].圖書與情報,2013,(5):22-28.

[4]蔣勛,劉喜文.大數據環境下面向知識服務的數據清洗研究[J].圖書與情報,2013,(5):16-21.

[5]王永紅.定量專利分析的樣本選取與數據清洗[J].情報理論與實踐,2007,30(1):93-96.

[6]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].http:∥www.economist.com/node/15557443,2016-05-16.

[7]黃沈濱,王海潔,朱振華.大數據云清洗系統的設計與實現[J].智能計算機與應用,2015,5(3):88-90.

[8]FAN W,LI J,MA S,et al.Yu.CerFix:A system for cleaning data with certain fixes[J].PVLDB,2011,4(12):1375-1378.

[9]燕彩蓉,孫圭寧,高念高.基于擴展樹狀知識庫的海量數據清洗算法[J].計算機工程與應用,2010,46(28):146-148.

[10]張建中.數字資源整合與個性化服務中關鍵技術研究[D].長沙:中南大學信息科學與工程學院,2008:43-45.

(本文責任編輯:郭沫含)

猜你喜歡
決策分析系統設計圖書館
基于大數據應用的智能公交決策分析平臺
圖書館
當前軍事決策分析關注的幾個問題
基于GIS的城市交通流模擬與決策分析
美國擴大朝鮮戰爭的決策分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合