?

談檔案數據集成的應用

2023-03-30 06:09賓橋廣西旺港高速公路有限公司
浙江檔案 2023年11期
關鍵詞:可視化

賓橋/廣西旺港高速公路有限公司

丁海斌/廣西民族大學管理學院 廣西數字檔案管理研究所

趙錦濤/北京理工大學人文與社會科學學院

檔案數據集成應用是指把數據集成技術引入到檔案數據管理中,貫穿檔案管理全過程,打破管理、存儲、利用之間相互分離的格局。目前,檔案數據集成類型的研究可以從理論研究與應用研究兩個維度來看。理論研究主要集中在檔案數據內容集成與集成方式優化[1-2]、檔案數據安全集成[3-5]、系統集成[6-7]等方面;應用研究側重數據集成技術在檔案數據和檔案工作中的應用[8-10],如大型建設工程、交通運輸、醫療行業等。從檔案數據集成理論研究層面看,檔案數據內容集成注重構建相關模型對文本內容進行集成建模,采用文本挖掘的方法對檔案數據文本內容進行分析。從具體的應用層面看,檔案數據集成應用研究主要集中在歷史文化、大型工程項目、醫療行業、金融企業及其他企事業單位等領域。檔案數據集成在檔案領域的應用研究內容為后續深入研究奠定基礎。但是,對于檔案數據應用的研究范圍還不夠廣泛,全面的類型分析與深入的案例分析還較少涉及。因此,本文在檔案工作實踐基礎上,對檔案數據集成應用的類型與案例進行深入分析,通過對檔案數據集成具體應用總結,窺探檔案數據集成未來在不同行業檔案管理中應用的具體走向。

1 檔案數據集成應用的類型

從檔案數據本體類型而言,檔案數據集成應用經常處理的對象是圖數據、表數據和文本數據三種類型。雖然三種類型集成的數據對象不同,但其目標與過程基本一致,其目標均是實現數據規范與一致化,保障檔案數據開發與利用更加數智化、便捷化。

圖數據集成是指將不同來源的圖數據合并成一個完整的數據集。在檔案數據集成中,圖數據集成可以用于整合來自各個檔案庫的檔案資料,使得這些檔案數據能夠進行聯合搜索和查詢,提高數據利用價值。圖數據集流程通常按照三個層次完成(見圖),其中特征提取貫穿整個環節。表數據集成是指對來自多個數據源的數據表進行整合,形成一個完整的數據集。在檔案數據集成中,表數據集成可以用于整合不同檔案庫中的表,實現數據聯合搜索和查詢,以提高數據利用效率和準確性。文本數據集成是指把來自多個來源的文本數據整合成一個完整的數據集。在文本數據集成中,需要對來自不同數據源的文本數據進行抽取、轉換和加載,最終形成一致、統一的數據集,方便數據分析、搜索和挖掘。

2 檔案數據集成應用的指向與作用

檔案數據集成應用指向主要有兩個方面:檔案的日常管理與開發。特別是電子檔案的利用與開發,在這個方面集成化檔案數據具有此前無可比擬的優勢。其應用與作用集中體現在檔案數據安全管理、檔案數據集成效率、檔案數據資源開發等方面。

2.1 保障檔案集成數據的安全管理

近年來,安全已成為所有部門的主要關注點,包括銀行、電子健康記錄(EHR)、供應鏈管理(SCM)、智能應用程序(SA)和物聯網(IOT)[11]。在數據集成開發與應用過程中,在用戶接入層添加訪問控制模塊、身份驗證模塊以及數字簽名模塊;邊緣服務層添加入侵檢測系統、數據完整性驗證模塊以及加密存儲模塊,從而保障檔案數據的安全管理。在用戶接入層,設計訪問控制模塊按照用戶身份或者其所屬的某項定義組的權限來限制用戶接入系統,身份驗證模塊的設計將保證合法用戶接入系統,并依據系統設定的用戶權限進行訪問,在一定程度上保證系統用戶的安全合法性。在邊緣服務層,入侵檢測系統的設計將實時監控邊緣存儲系統網絡節點的流量,提升系統安全性。同時,邊緣服務層采用區塊鏈進行數據安全存儲,區塊鏈底層密碼學技術可用于用戶數據的存儲加密。

2.2 提高檔案集成數據的效率

目前,檔案數據場景信息日益豐富,檔案數據呈現容量大、種類多等特點,保障大規模數據分析結果的準確性,要對數據進行大規模的訓練。分布并行計算、壓縮技術等,能夠提高AI算力[12-13]。分布式并行計算能夠將大規模訓練任務分解成為多個子任務,分配到多臺計算機上進行并行計算,能夠提高大規模數據處理任務的效率[14-15]。在流式數據場景下,需要處理的數據是非連續性數據和動態數據。因此,對數據進行預處理,采用歸一化方式處理后,方便進行綜合分析。其次,通過對大模型采用剪枝、量化和低秩分解等方式,減少模型的計算量,把其控制在一個可承受的能力范圍內,從而保障在較小的計算資源下完成大規模的訓練任務,從而節約計算資源、提高數據處理效率。

2.3 優化檔案集成數據的利用與開發方式

大數據挖掘與分析方法是實現數據智能化利用的重要手段。根據數據功能的具體類型與特點選擇相應算法,發現潛在、有用的信息和知識。目前,主要數據挖掘方法包括:神經網絡、決策樹、模糊集等機器學習方法,相關技術發展逐漸成熟,提供的算法模型能夠完成對大規模數據的處理[16-17]??梢暬夹g展示更注重視覺表達、交互方式和人們心理感知??梢暬故就ㄟ^把抽象變為具象,使數據表征不僅需要被用戶理解,而且能夠凸顯出差異性、趨勢性等特征。從應用層面來講,可視化功能需要保障重要特征表示、對模擬和測量數據模型進行質量監測等,以此實現智能化利用。

從未來發展的角度講,集成化檔案數據將成為人工智能在各行業中應用的基本經驗基礎。人工智能需要三個基本條件:算法、算力與數據(機器思維的經驗基礎)。在各個行業針對本行業業務實踐開發人工智能系統,其數據主要來源于本單位、本行業形成的檔案數據。而集成化的檔案數據則為人工智能的利用提供便利條件。

3 檔案數據集成的實踐案例

檔案數據集成處理的基礎數據以圖、表、文本為主。目前,隨著信息技術的發展,檔案數據集成應用重點是綜合集成方式的應用,不同于某個具體場景使用專門或者單一集成方式。因此,本文以筆者參與的國家檔案局科技項目“面向全程溯源的公路建設項目檔案數據集成技術及其應用研究”(2021-X-04)中廣西松鐵公路建設項目檔案管理系統作為具體實踐案例,闡述多類型檔案數據集成的應用方式。

3.1 廣西松鐵公路建設項目檔案數據集成方式概述

廣西松鐵公路檔案數據集成框架旨在搭建數據來源與數據應用之間的橋梁。在歸檔過程中,把多源異構的檔案數據通過基礎硬件集成到處理框架中,根據不同數據特征進行數據清洗、抽取和挖掘,實現數據匯集融合;根據數據不同特征和研究與利用的需要進行歸一化處理,使其進入到不同異構自治的數據源中,以數據字典為基礎實現對檔案數據對象的描述,形成互相關聯的數據網絡。當應用層發起獲取數據指令時,存儲在不同數據庫中的數據根據需求特征描述,實現統一集成后,響應數據請求,從而實現公路設計、施工、運營全生命周期信息資源管理,最終為公路項目建成通車后的運營階段管養精細化、標準化提供可靠依據。

在松鐵公路項目檔案數據集成管理系統中,主要運用物理集成方式——數據倉庫方式。首先,建設形成數據中心,將所有歸檔的數據存儲在數據中心,當上層應用發出數據調用的請求,數據倉庫會自動響應提供所需數據,能夠保證系統響應性能。其次公路項目框架的底層設計是中臺化管理和基礎設施云化的模式,保障業務、數據、技術均歸于中臺管理,形成數據中心管理各大功能,檔案數據上云服務保障數據處理的響應速度。同時,把工程全生命周期管理方式應用在業務流程、數據管理模式中,以元數據字典與電子文件標準為依據保障形成與保存的數據質量。最后,結合GIS+BIM數據展示對檔案數據信息重新“鏈合”關聯,形成完整的數據交付體系,實現基礎數據集成、制度集成、業務集成、人員集成等多層面集成,保障形成高質量的檔案數據。

3.2 數據集成基礎上廣西松鐵公路項目檔案管理系統功能

3.2.1 功能一:實現檔案數據信息的可視化

該項目以GIS技術和BIM模型為項目設計、施工方案、施工質量監督和進度控制提供極大地便利條件。在項目竣工前,GIS和BIM模型對已經形成的海量文檔電子文件與聲像電子文件集成,能夠推出一個全新的可視化集成系統,為公路營運提供充足的項目建設信息。

首先,業務系統信息可視化應用。該項目檔案主要涉及施工單位、監理單位、業主單位以及系統管理員四個主體的檔案采集、整理以及利用等,每一個主體單位按照各自不同的流程把需要歸檔的資料進行填報、審核、蓋章、上傳,通過特定的元數據整理、分類與集成,最終形成結構化數據庫。在數據庫中能夠明確看到每個過程中的責任人以及相關文件詳細內容。將可視化模型引入到檔案數據信息檢索,把文書檔案、圖形、聲像數據等檔案數據關聯到三維的可視化空間中顯示出來,并向用戶提供信息檢索查閱的過程。通過此種方式不僅可以解決檔案可視化收集、業務可視化管理、內容可視化組織、知識可視化挖掘和信息可視化利用等問題,同時為檔案維度溯源項目建設奠定堅實基礎。其次,管理與監測信息可視化應用?;贐IM+3DGIS技術,通過對基礎地理信息集成構建沿線基礎地理信息三維空間場景。再根據地理信息數據集成模型,仿真出設計模型、施工模型等。應用勘察設計階段建立BIM模型、集成項目施工階段的管理信息、工程檔案信息、視頻信息,實現公路空間基礎地理信息、質量安全監控數據、項目管理信息等數據整合、交換和共享。

3.2.2 功能二:實現多維度檔案數據立體溯源

檔案數據集成方式能夠明確記錄該數據在生命周期內數據工作流程,同時通過科學規范的元數據,檔案管理系統能夠更加清晰地映射各個主體以及要素之間的關系,使歸檔材料的形成過程可復制、可再現、可驗證。多維度檔案數據集成和溯源的關鍵點在基礎層的數據信息,包含文書檔案、圖表、圖形、聲像數據等傳統檔案數據和GIS地理空間信息、構件形狀尺寸等空間地理信息。

由于,公路建設項目資料所涉及的內容眾多且主體多元,因此在檔案數據采集、存儲和集成過程中,會采用數據溯源安全模型,通過對文檔、聲像數據等添加一些無法修改的參數,例如:時間戳、加密密鑰等,從而保護溯源鏈安全,實現檔案數據的可信性和不可抵賴性。通過標注法和反向查詢法,實現多維度檔案數據的全程溯源。

其次,通過GIS技術和BIM模型,在元數據原理指導下,利用唯一性標識編碼技術,項目建設期所形成的各類文本型電子文件和聲像文件信息進行掛接和信息數據共享,對這些數據實行有效的管理、顯示、查詢,檔案信息數據轉換為更為直觀的可視化信息,通過完成地形地貌三維可視化、基于航拍數據及BIM融合的3D數據模型監控和設備運行維護的可視化、檔案信息綜合利用可視化、設備設施管理可視化等相關工作,能夠實現項目檔案數據溯源。

3.2.3 功能三:實現多源時空數據利用與共享

在公路建設項目檔案數據集成中,經常會涉及多源異構時空數據的集成和協同問題。由于公路項目檔案類型多樣化,不僅有傳統的紙質檔案也有新型電子檔案、實時監測生成的信息。其形成的模型是以三維空間為主,數據來源復雜且規范性較差、存儲的結構性差異較大。同時,各層級信息之間存在信息孤島等問題,難以實現快速地共享與集成應用。數據有效共享依賴數據高效集成。在該系統建設中加入元數據管理技術,通過構建統一的元數據倉庫,對各類數據對象進行描述、標識、分類等;其次,運用ETL技術對檔案數據進行清洗加工,并將處理結果存儲在目標數據庫中。該系統通過對元數據的控制和統一的標準能夠使用戶檢索更加便利。也使檔案數據管理員更加條理化,增加數據的辨識度,管理系統對于數據識別與儲存更加快捷。同時,實現數據動態更新與實時反饋,適應公路項目建設過程中各種動態調整,提高數據的時效性、靈活性、利用率和價值。

3.2.4 功能四:建設智能化管理一體化平臺

公路項目智能管理一體化平臺建設是松鐵公路建設項目檔案管理系統的總體布局,以公路建設項目為依托,引入建設與管養護一體化理念,以BIM技術為紐帶,覆蓋從項目建設開始至竣工后養護全過程的檔案數據,統籌規劃建設管理、運營管理和養護管理三方面的數據。用計算機技術構建工程項目數字化管理環境,以數字化為基礎,聚合不同階段各類工程要素,實現網絡實時傳輸功能。一體化數據平臺的建設能夠提升項目運營管理能力、數字化管控能力,充分釋放公路產業品質和潛能。在公路建設項目檔案數據集成中,重點把BIM模型和工程項目管理過程中形成的結構化和非結構化數據進行集成和管理,打造一體化、智慧化的大型數據庫。建立全線BIM模型,對其進行深度開發實現碰撞檢查、工程量計算等應用場景;其次,將BIM模型集成的數據上傳至項目管理平臺實現項目質量、安全、進度、投資等可視化追溯與控制;最后結合GIS技術實現IOT(物聯網數據)數據與BIM的關聯,建設一體化智能管理平臺。

4 結論

經過數十年的發展,檔案信息化呈現檔案存在形式數據化、運行模式實時性強、技術應用高新化、價值模式數智化、管理方式一體化與集成化等特征。檔案數據集成應用使得檔案數據可以實現可視化檔案數據展示、數據交互分析、多維溯源以及一體化管理等功能。從未來發展的角度講,集成化的檔案數據將成為人工智能在各行業中應用的基本經驗基礎。在先進信息技術推動下,檔案數據集成應用的場景和范圍會不斷地構建和延展,創造出新的信息組織形式、傳播模式和應用方式。

本文以廣西松鐵公路建設項目檔案管理系統為例,探究發現依托數據集成平臺建設,可以有效地打破各業務系統之間的信息壁壘,可以實現檔案數據的高度集中,可實現多源時空數據的共享利用,可以集成與呈現有廣闊應用市場的可視化檔案,可為檔案數據的多維溯源奠定堅實基礎,并可以在將來實現更多方面的電子檔案數據賦能。此外,各個行業針對本單位、本行業形成的檔案數據以及業務實踐開發人工智能系統,建設形成集成化的檔案數據則為人工智能的利用提供了更加便利條件。因此,未來研究與實踐工作要以數據集成方法與技術為指導,以檔案工作實踐為導向,不斷完善集成化檔案管理系統的內容,使之更具友好性、集約性和全面性。

猜你喜歡
可視化
無錫市“三項舉措”探索執法可視化新路徑
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統
三維可視化信息管理系統在選煤生產中的應用
思維可視化
基于Power BI的油田注水運行動態分析與可視化展示
自然資源可視化決策系統
基于CGAL和OpenGL的海底地形三維可視化
可視化閱讀:新媒體語境下信息可視化新趨勢
“融評”:黨媒評論的可視化創新
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合