?

檔案信息智能化利用:從數字化到數據化

2023-09-06 08:24陸國強橫店集團控股有限公司檔案館
浙江檔案 2023年5期
關鍵詞:檔案管理數字化利用

陸國強/橫店集團控股有限公司檔案館

在計算機科學和互聯網技術迅猛發展的工業3.0社會,新一代的信息技術在生產生活領域的應用不斷深入,促使社會生活及不同行業的生產組織方式、工作流程等都發生了重大變革?!吨腥A人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》中指出:“加快數字化發展,建設數字中國”“以數字轉型整體驅動生產方式、生活方式和治理方式的變革”[1]。這表明中共中央國務院在戰略上高度重視社會的數字化轉型與新時代背景下的數字化建設,各行業的數字化轉型工作是建設中國特色社會主義現代化的重要組成部分。與此同時,檔案數字化建設也開始被廣泛關注,《“十四五”全國檔案事業發展規劃》指出:“新一代信息技術廣泛應用,檔案工作環境、對象、內容發生巨大變化,迫切要求創新檔案工作理念、方法、模式,加快全面數字轉型和智能升級?!盵2]由此可見,檔案工作的數字化轉型是數字中國建設的必然要求。同時也是檔案管理事業進一步發展的必由之路。在檔案管理的對象和方式發生巨變的情況下,怎樣在數字化建設的基礎上,進一步提高檔案資源利用效率,怎樣將大數據、區塊鏈、云計算等互聯網技術整合統一進檔案數據化管理,以實現檔案資源數據化利用、轉存和共享等,是我們亟需思考的問題。學者趙躍認為大數據背景下檔案管理數據化是檔案數字化的新階段,認為“檔案數據化”是檔案部門以用戶、業務需要為導向,將數字檔案資源轉換為可閱讀、分析和處理的檔案數據資源的過程[3];學者王小云提出檔案信息與檔案載體以數據化表達形成分離,從而實現檔案信息的確定性、獨立性以及可交換性,檔案數據化是檔案信息價值進一步被挖掘的前提[4]。各位學者對檔案數據化的具體定義不盡相同,就學界對檔案數據化研究的共識而言,檔案數據化對新形勢新時代背景下的檔案工作轉型與發展都有著重要的意義。

筆者認為檔案數字化轉型在面對新興計算機技術的背景下,對檔案資源進行數據化處理,降低檔案數據的顆粒度,是檔案數字化建設的發展方向。在梳理檔案的數字化與數據化概念的聯系和區別的基礎上,本文嘗試分析檔案數據化過程中的難點和堵點,并提出檔案數據化的策略與建議,以促進檔案信息資源的深度開發,推動檔案管理現代化事業的高質量發展。

1 檔案的數字化與數據化

數字化概念自20世紀90年代被提出來[5],經過30多年的發展,檔案管理的數字化轉型建設已經取得了長足的進步。以浙江省為例:自“數字浙江”建設開展以來,全省檔案館貫徹落實 “檔案登記備份戰略”,開展室藏重要檔案數字備份,目前全省已完成80% 以上存量館藏檔案數字化。全面開展政務服務等重點領域的電子化歸檔工作,提出政務大數據歸檔管理的基本思路和實施路徑,研發部署全省政務數據歸檔交換平臺,同時接入各類業務系統(含浙江政務服務網和市統建的政務服務網)221個,其中接入省級平臺34個,目前累計電子歸檔達1億件[6]。由此可見,檔案數字化工作主要可以分成兩個部分內容:一是對已形成的紙質檔案的數字化轉換及對正在形成的文件的電子化歸檔,建立檔案目錄數據庫和檔案全文檢索數據庫;二是針對檔案管理工作的各個環節的數字化改造。

檔案管理的根本目的是實現更好地利用檔案資源中的海量信息,為領導決策、社會各方面提供有效利用服務提供輔助。數字化管理一體化平臺及檔案資源管理的數字化建設的逐步推進,將是實現檔案資源利用從傳統的紙媒閱讀利用轉變為精細數據利用的基礎[7]。檔案數據化的核心在于進一步細化電子化檔案的信息顆粒度,使得信息顆粒度重組為計算機可識別語義的精細化數據,目的在于充分挖掘和利用數字化的檔案信息資源。

檔案數字化轉型過程中針對檔案資源的數字化提法,實際上采用的是“二進制語言數據”的定義,將原有的檔案資源利用OCR文字識別技術將紙質檔案的文字內容轉換成數字化版本,同時進行元數據的著錄;而檔案數據化概念本身還有數值型數據、原料型數據和結構化數據的區別[8]。檔案數據化是對檔案數字化更進一步的細分,核心要素是利用計算機技術連同數據科學降低檔案信息的顆粒度,解決傳統檔案管理過程中 “粗放”“碎片化”“信息單一”等問題,并在實現智能化管理精細化信息資源的同時,由原來的邏輯型數據庫提供簡單的信息查閱、利用方式,轉變為由相關性主導的大數據關聯模式。

可見,檔案數字化概念有廣義和狹義之分。廣義的檔案數字化涵蓋檔案數字化和檔案數據化,不同的階段有不同的側重。狹義的檔案數字化是形成數字化檔案的過程,數字化檔案只是檔案數字形式復制品,而檔案數據化是檔案管理部門面對人工智能時代的精準化、智能化服務需求,致力于解決檔案內容信息碎片化問題,構建多元主體協同參與的檔案數據生態,推動粗粒度檔案文檔服務向細粒度、智能化檔案數據服務轉型。

2 推進檔案數據化的難點

就檔案管理數字化建設的成果來看,當前的檔案管理數字化主要集中在檔案資源由原來的傳統載體轉變為數字載體,檔案的收集、管理由傳統的紙媒文件收集保管轉變為電子文檔的自動收集歸檔,但在對已實現的數字化檔案資源利用方面,并沒有取得突破性的進展。問題主要集中在還未實現計算機可讀、可理解的數據粒度層級管理與開發,尤其是研究型用戶全面多元的利用需求仍無法被滿足[9]。我們說,檔案數據化是檔案數字化建設中的“高級階段”,而檔案資源數字化后要實現數據化利用,則關鍵在于如何降低數字檔案的信息顆粒度,實現計算機可識別,這是推進檔案數據化工作,實現檔案利用朝精細化、智能化方向發展的難點和堵點。目前要推動檔案數據化工作,主要面臨以下困境:

2.1 新形勢與傳統檔案管理思維的沖突

傳統的檔案管理思維主要強調“收得齊、管得好”,小而全的傳統檔案思維延伸出檔案開放問題決策上的保守傾向,對于數據化利用來說,檔案資源的開放是智能化利用的前提和基礎。此外,由于長久以來的檔案管理工作過多地強調檔案的保密性,檔案的開放與共享容易受到“多做多錯,封閉安全”的保守思維的影響,因此“怎么用”這一環節似乎只停留在檔案查閱和編研階段。然而在數據化時代中,海量的檔案都是可被串聯成具有相關性的信息資源,可以做到檔案信息利用的“精確化”和“智能化”。

2.2 技術支撐不足,復合型人才缺乏

現有的檔案數字化工作主要依賴于OCR文字識別技術,但由于年代、個人字跡、語言習慣、語種、印刷方式等等諸多原因的影響,OCR識別成功率雖然一直在穩步提高,但實際上仍有一些無法被識別的文件需要人工轉譯。其次是對其他載體,例如照片、錄音、圖像等傳統概念中已經“數字化”的檔案進行數據化提取的難度較大,甚至可以說,并沒有一個普遍適用的方案可以解決這一問題。再次,對已形成的數字化檔案進行歸檔過程如何保證電子檔案的“四性”,主要是真實性、完整性、可用性、安全性等,如何使用技術手段進行保證,似乎有許多方案,但究竟哪種方案更好,更具有一般性,更值得推廣,并沒有定論。同時對已實現數字化的檔案資源,數字化向數據化轉換程度較低,數據化利用程度不高。要進行數據化利用,原有的以檔案邏輯關系為主導的數據庫并不能做到檔案信息的智能化管理和利用。這一困境反映出的更深層的問題在于,客觀上檔案管理人員普遍存在學歷水平還不夠高,學術背景單一等問題,對于高學歷和擁有計算機科學、數據科學背景的檔案管理人才嚴重缺乏,在技術和發展潛力上掣肘檔案數據化工作的推進。

2.3 統籌依賴嚴重,自我推進動力不足

政策導向和檔案事業管理規劃一直是檔案事業發展的重要動力。盡管在宏觀層面上,國家對“數字化”建設足夠重視,2021年《“十四五”全國檔案事業發展規劃》上指明“檔案信息化建設進一步融入數字中國建設,新一代信息技術在檔案工作中的應用更為廣泛,信息化與檔案事業各項工作深度融合,檔案管理數字化、智能化水平得到提升,檔案工作基本實現數字轉型?!比欢绾握嬲龑崿F檔案資源數據化、智慧化利用,國家層面缺乏頂層設計、統籌安排和政策引導,各級各類檔案館對于推進檔案數字化缺乏積極性與主動性。從檔案管理數據化推進工作來說,管理決策層缺乏對檔案數據化建設的認識,對檔案管理數據化的人力物力支持都比較薄弱。因此,檔案管理部門在數據化建設上存在起步晚、起點低、發展動力不足等困境。

3 推進檔案數據化的策略

面對檔案管理新形勢下產生的新問題,就要用新思維新技術去解決。筆者認為主要可從“思維轉變”“技術利用”“政策引領,項目推進”等角度嘗試推進檔案數據化工作。

3.1 檔案管理思維轉變

要推進檔案數據化工作,首先要求檔案工作者摒棄不敢開放的保守思維和“小而全”的資源獨占思維,推動“存取”思維向“開發”思維的轉變、數字化思維向數據化思維的轉變[10]。著眼于數據時代的社會需求與用戶需求的變化,通過數據化以及智慧檔案建設來推進檔案開放利用的深度與廣度,提升檔案業務工作智能化水平,面向未來、面向社會積極尋求新的職能拓展與服務轉型,這就要求檔案管理部門在掌握海量檔案資源的基礎上,將原先的“存取”思維優先轉換成“開發”思維,這是檔案資源進行數據化利用的第一步。其次,對于已經開展數字化工作并取得一定成績的檔案管理部門,要著眼于檔案“數字化”向“數據化”利用思維的轉變,可以說檔案資源的數據化利用是順應社會發展潮流,符合檔案管理科學發展規律的必然趨勢。

3.2 政策引領與項目推進并重

在我國檔案事業改革與轉型的十字路口,國家檔案局等各級檔案事業管理部門需要對檔案數據化的發展前景有清晰的認識,統籌推進全國智慧檔案建設工作。建立健全檔案數字化建設標準,出臺實施細則。同時,地方基層檔案機構也要努力尋求檔案工作與大數據戰略以及智慧社會發展的融合,通過一時一地的具體項目數字化建設和數據化應用契機,推動檔案數據化建設進程,實現宏觀上跟著政策走,具體實踐過程中也有充分的發展動力。

3.3 人才興檔與技術應用

一方面要積極尋求復合型檔案管理人才,檔案管理人員的學科背景最好結合計算機科學、互聯網技術與數據科學等理工學科。通過相應的學科特點發揮檔案管理數據化建設的積極性。通過人才集聚效應,爭取管理部門對檔案數據化建設的重視,獲得更多的財政支持。由人才帶動,政策引領的方式形成“破圈”效應,不僅要在檔案管理學界破圈,更要將檔案數據化利用后的檔案精細檢索、智能檢索推向社會各行業,在多方面形成良性循環互助推動。一方面,地方檔案館要充當排頭兵,將檔案數據化工作過程中形成的可行推進路徑規范化,形成編寫檔案數據化標準與指南的參考案例。另一方面,要通過人才建設的方式,引入新興技術以解決檔案工作中現有的難題。例如針對傳統的數據庫服務器在面對增量巨大存量日增的檔案數據時出現的依賴網絡帶寬、資源調動速度緩慢、物理數據中心維護成本過高、現有的OCR文字識別技術無法有效降低檔案數據顆粒度等問題,可以引入云計算、區塊鏈、人工智能和大數據相關技術。通過整合一系列新興技術,不僅在檔案信息的安全保密基礎上實現檔案數據化利用,而且可以進一步實現“智慧檔案”管理,更可以根據需要快速啟動檔案資源,節約存儲成本以及共享難度,并且通過整合檔案數據后形成數據湖,依靠大數據技術實現對現有檔案數據進行條目之間的相關性分析、項目可行性分析、更精準地預計投入產出比等,真正做到精細化智能化利用檔案數據,對單位決策提供幫助。

總的來說,檔案數字化轉型與數據化建設各有側重點,檔案數字化注重檔案的基礎工作環節的數字化轉變,而檔案數據化則更強調對檔案資源的數據化分析利用。未來是“數據為王”的時代,隨著計算機技術的快速發展,對檔案資源的數據化利用是檔案管理事業跟上時代潮流的必由之路,也是檔案管理事業發展的必然要求。因此,針對當前存在的三大困境:思維保守、技術落后、發展動力不足等,本文從宏觀角度提出了相應的策略,為檔案事業管理部門提供參考,以期檔案管理部門能抓住轉型與改革的契機,推動檔案資源數據化進程,實現創新檔案管理技術和服務的智能化,數字檔案資源數據化,最終實現檔案資源利用成果最大化。

猜你喜歡
檔案管理數字化利用
利用min{a,b}的積分表示解決一類絕對值不等式
家紡業亟待數字化賦能
利用一半進行移多補少
高中數學“一對一”數字化學習實踐探索
高中數學“一對一”數字化學習實踐探索
檔案管理中的電子檔案管理
利用數的分解來思考
Roommate is necessary when far away from home
檔案管理與企業內部控制關系的思考
數字化制勝
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合