?

省域檔案數據資源歸集的思考與實踐

2023-08-22 09:04高樂季文云浙江省檔案館
浙江檔案 2023年7期
關鍵詞:檔案館浙江省數字化

高樂 季文云/浙江省檔案館

走向依法治理、走向開放、走向現代化是時任浙江省委書記習近平同志于2003年5月視察浙江省檔案館時對檔案工作作出的重要指示,“三個走向”為做好新時代檔案工作提供了根本遵循。然而長期以來,由于信息技術條件的限制,檔案作為一種寶貴資源卻一直深藏在各館的庫房或局域網內,其利用模式相對簡單并有較多局限,檔案的治理水平、開放水平、現代化水平已難以滿足群眾日益增長的用檔需求。檔案數據資源歸集是檔案工作“三個走向”的基礎性、關鍵性環節,推動檔案數據資源的全量歸集,能夠更好地為社會主體提供檔案資源共享和檔案利用服務。

本文通過闡述浙江省檔案數據資源歸集利用現狀,分析其中存在的問題、短板,進而提出解決路徑,為省域層面的數據歸集提供參考。

1 檔案數據資源的歸集現狀

1.1 數字檔案館建設領跑全國

2012年7月,浙江省檔案局制定發布《浙江省數字檔案館建設管理暫行辦法》,此后全省梯次推進數字檔案館建設,截至目前,全省各級數字檔案館(室)實現全覆蓋,其中全國示范數字檔案館11個,國家級數字檔案館54個,數量位居全國前列。隨著數字檔案館(室)建設的深入,全省大多數檔案館的館藏數字化率已達70%以上,部分檔案館甚至已經達到100%。

1.2 數字檔案公共服務便民惠民

2017年11月,浙江省檔案館啟用“浙江檔案服務網”,全省100家綜合檔案館共同組成網上聯合查檔大廳,提供查檔指引、網上查檔等服務,此后迭代升級“掌上”“網上”查檔出證服務,將“一網查檔、百館聯動”服務延伸至“浙里辦”,再貫通至長三角查檔一體化平臺、全國檔案查詢利用服務平臺,逐步打通查檔服務“最后一公里”,實現民生檔案利用跨省“一網通辦”。

1.3 檔案數據歸集先試先行

2021年8月,浙江省檔案館印發《浙江省檔案工作數字化改革方案》,提出加快檔案資源向數字化、數據化轉型,此后分階段下發《關于開展檔案數據資源歸集共享試點工作的通知》《關于開展檔案數據資源歸集共享提質擴面工作的通知》,制定試點工作方案、匯集標準、數據安全保密要求、平臺運行管理辦法、工作應急預案等系列制度規范,穩步推進檔案數據歸集共享工作。截至2023年7月底,已完成全省檔案館數據歸集6000余萬條。

2 檔案數據資源的歸集困境

2021年之前,浙江省檔案數據的歸集大部分局限于各館(室)層面,各類檔案資源也只是粗放的統一收集,沒有省級層面的數據庫,檔案信息資源多而散,檔案數據各自為陣,沒有形成集聚效應。究其原因,主要有三個方面:

2.1 檔案種類繁多導致歸集難

檔案數據資源歸集的前提是模板統一,但是目前尚沒有統一的標準的歸集模板可供使用,每類檔案都必須設計一個涵蓋大部分檔案信息的模板,才能在檢索利用時快速定位,工作量大且雜。

2.2 檔案執行標準不一導致歸集難

雖然國家層面陸續出臺了檔案數字化工作標準文件,但這些標準都是行業標準,不具備強制性且用詞上多以建議性質為主,這就導致各個檔案館在執行過程中對標準尺度的把握不一,例如在掃描分辨率、存儲格式、OCR處理選擇等不盡相同。

2.3 檔案數字化質量不高導致歸集難

就目前而言,受限于經費、工作人員業務水平等原因,紙質檔案的數字化過程中數據質量參差不齊,經常出現目錄錯誤,原文缺頁、重頁等問題。

3 檔案數據資源的歸集對策

3.1做好頂層設計,明確歸集原則

第一,共享性原則。檔案數據資源歸集的最終目的就是為了“走向開放”,各檔案館歸集的檔案數據資源原則上應予以共享。共享類型分為無條件共享(即可提供給所有部門及社會群體使用的檔案)、限制條件共享(即可提供給相關部門或僅能夠部分提供給相關部門使用的檔案)和不予共享(即不宜提供給其他部門或社會群體使用的檔案)。第二,安全性原則。2021年9月,我國頒布實施《中華人民共和國數據安全法》,對數據的使用安全提出了明確要求。檔案的數據安全是檔案開發利用的前提,其安全涉及硬件、軟件、網絡、人員等要素,應盡可能規避數據在拷貝過程、傳輸過程中的安全問題,保障各檔案館內網數據的安全和上傳數據的安全。第三,準確性原則。檔案數據的準確性是檔案開發利用的前提和基礎。檔案數據來自各個檔案館、各個部門,其數據執行標準不一,數據質量參差不齊,歸集前必須逐一復核,嚴格按照統一模板梳理清洗,確保數據格式統一準確。

3.2 聚焦實際需要,理清歸集思路

檔案數據資源歸集是一項復雜的系統性工程,必須經過充分調研、總體設計、反復論證,確保歸集工作安全有序推進(見圖1)。

圖1 檔案數據資源歸集工作思路

3.2.1 建立健全體制機制。省級層面制定《浙江省檔案數據共享中心檔案目錄數據庫結構標準》《浙江省檔案數據共享中心平臺運行管理辦法》等系列制度規范,為全省歸集工作提供遵循。各檔案館在接到歸集通知后,組建專班、厘清家底,建立健全館長負責制、市縣聯動制、進度督查制、解難會商制等工作推進機制,在數據歸集上共同發力,加快數據資源歸集“一盤棋”合力推進、“一體化”互助聯動。

3.2.2 明晰歸集利用思路。檔案數據資源的歸集利用,歸集是前提,利用才是目的,待全省數據歸集任務完成后,要及時根據不同的檔案內容、用戶和場景,劃定不同的共享方式和利用范圍,以期實現更加高效的檔案資源共享和更加便捷的檔案利用服務。

3.2.3 設計開發數據歸集系統。歸集系統是數據歸集共享的關鍵,其設計的合理性關乎歸集的速度、質量以及后續開發利用的可行性和便捷度。浙江省檔案數據歸集系統采用的是前后端分離可獨立部署維護的spring cloud微服務框架,實現檔案資源歸集服務的可伸縮、可靈活擴展。系統架構見圖2。

圖2 歸集系統架構圖

基礎設施層方面,歸集充分利用政務云平臺資源,依托云服務器、政務網絡、政務云存儲、云安全等政務云基礎設施,系統網絡與互聯網邏輯隔離,確保數據安全。

數據層方面,利用多種類型的數據存儲模式,關系數據庫用來存儲檔案目錄數據,對象存儲服務(oss存儲)用來存儲檔案全文數據,鍵值數據庫用來存儲緩存數據,提高數據訪問性能,確保各個微服務之間參數利用高效暢通。

業務支撐層主要是為業務服務層提供支撐的基礎能力,包括服務發現配置中心、服務流控防護、消息隊列和統一安全管理。服務發現配置中心主要是服務發現和服務健康監測、動態配置服務及其源數據管理等。服務流控防護主要是監控微服務流量并相應控制,在極端情況下熔斷相應微服務以起到保護服務器的作用。消息隊列主要解決應用耦合、異步處理、流量削鋒等問題。統一安全管理平臺4A(認證Authentication、授權Authorization、賬號Account、審計Audit)是以身份為中心,實現賬號、認證、授權和審計統一管控的安全訪問平臺。

業務服務層方面,按功能縱向劃分業務服務,將歸集按照功能拆分為目錄歸集、全文歸集、檔案資源管理和歸集過程監控等粒度更細的服務,每一個服務都作為一個獨立的應用,可獨立進行開發、管理和部署,也可根據系統的壓力靈活地增加相應的服務器,有效解決大批數據集中上傳導致的系列問題。目錄歸集主要是對全省共享檔案資源目錄的歸集,采用消息隊列進行流量削峰方式應對大量的數據庫并發操作。全文歸集主要是將全文上傳至oss存儲,歸集過程支持高并發多線程分片傳輸,對傳輸失敗的任務支持斷點續傳。檔案資源管理主要是將上傳的目錄和全文按一定規則匹配關聯,掛接規則可自定義,從而更好地滿足不同掛接情況,且掛接規則可保存,避免相同類型的檔案多次掛接重復配置規則。歸集過程監控可查看目錄歸集、目錄全文掛接的排隊情況,以及全文的上傳情況。

接入層方面,通過網關將并發的用戶請求通過規則后平衡、分攤到多臺服務器上進行執行,以此達到壓力分攤、數據并行的效果,有效地提高歸集服務的效率和穩定性。

應用層方面,設置業務部門入口和市縣檔案館入口,從源頭區分用戶的使用權限,從而更好地為用戶服務。

4 檔案數據資源歸集的思考

4.1 做好對比篩選,分批分類推進

當前,在各個檔案館的數據資源中,既有數字化的紙質檔案、接收進館的電子文件、音視頻檔案等,也有用戶利用信息、服務數據等數據資源。數據歸集工作開始前,必須結合實際發展需要和現實條件明確歸集的種類和范圍,選取利用率較高的檔案、數字化質量較高的檔案,成熟一批歸集一批,然后開放共享一批。浙江省檔案數據資源歸集設置了7類檔案數據,分別是民生檔案、開放檔案、聲像檔案、編研成果、檔案展覽、鎮館之寶,其中民生檔案以館藏婚姻、土地承包、山林定權、房產、移民、知青、國有轉制企業職工、戶籍、學籍、公證、獨生子女、出生醫學證明檔案等12類老百姓最為關心的檔案為主;開放檔案以明清檔案、民國檔案、革命歷史檔案和新中國成立后檔案為主;聲像檔案以照片、音頻、視頻檔案為主。

4.2 歸集前必須統一模板,方便后續開發利用

當前,各個檔案館的數據資源來自不同的單位、不同的時期,且大多數單位囿于時間、技術、人員條件限制,選擇將檔案數字化工作外包給檔案數字化服務機構承擔,然而不同外包服務公司對于檔案數據質量的把控不一,往往出現數據格式、信息代碼和元數據項不統一等現象。因此,數據歸集前必須統一歸集模板,以免在后續的數據清洗過程被清除,確保每一個數據在同一適配規則下都能被檢索、被利用。浙江省檔案數據資源歸集在充分調研各館數據現狀的前提下,提供了統一的數據規范和數據模板,并組織召開業務培訓會,對檔案數字化外包服務進行規范,確保省內擁有外包資質單位都能嚴格執行《檔案服務外包工作規范》,確保今后檔案數據數字化格式相對統一。

4.3 保持系統穩定,確保數據安全快速上傳

無論什么傳輸系統,穩定性都是評判系統好壞的關鍵因素之一。一個好的系統不僅可以提高工作效率,還可以激發工作人員的積極性。由于各個檔案的數據資源容量都達幾TB,這就非??简炏到y的承壓能力和穩定性,如果系統不好,用戶體驗不佳,歸集工作推進的難度將成倍增加。浙江省檔案歸集系統通過采取多線程上傳模式,讓單個大文件分片上傳,提升文件上傳性能。通過部署多個數據歸集微服務實現負載均衡,提升服務性能。通過消息隊列服務,實現目錄導入和批量掛接的排隊執行,避免短時間大量工作導致系統崩潰。

5 結語

檔案數據資源是檔案工作“三個走向”的基礎,浙江省檔案館從檔案數據資源的歸集類目、歸集模式、歸集路徑進行了探索實踐,走出了新時代、新技術背景下檔案工作革新的出路,為全國省域層面的檔案數據資源歸集提供了有益探索。檔案數據歸集是一項持續性工作,需要持續發力、久久為功,只有全量匯集一個省的數據,才能真正彰顯大數據的優勢和效率。

猜你喜歡
檔案館浙江省數字化
《初心》
家紡業亟待數字化賦能
浙江省第一測繪院
高中數學“一對一”數字化學習實踐探索
高中數學“一對一”數字化學習實踐探索
2018年浙江省高中數學競賽
2017年浙江省高中數學競賽
全省部分檔案館新館掠影
數字化制勝
太倉市數字檔案館成為“全國示范數字檔案館”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合