?

電子檔案文件格式登記與管控系統構建*

2023-03-13 01:30張照余
檔案與建設 2023年2期
關鍵詞:管控危險數據庫

周 祺 張照余

(蘇州大學社會學院,江蘇蘇州,215008)

一、文件格式登記與管控之緣起

電子文件具有對其初始技術環境的依賴性,合理選擇歸檔文件格式,加強對文件格式的管控,可以降低這種依賴性,延長歸檔文件的技術生命,并有助于在現有格式徹底淘汰前建立起可行的遷移途徑,通過格式轉換延展歸檔電子文件的壽命。文件格式登記與管控系統,是電子文件的格式數據庫,通過共建共享方式集中收錄所有館藏電子檔案的文件格式信息,跟蹤記錄每種格式的升級迭代及其技術環境的更新變化,基于量化分析對各種文件格式的長期保管風險進行科學評估,并給出危險格式的轉換目標格式及其遷移手段。文件格式登記與管控系統不僅是一個在線的文件格式信息庫,更是一個格式研究評價中心,擁有登記、管控、跟蹤、評估各類電子文件格式及其技術環境動態變化的一系列功能。

開發建設文件格式登記與管控系統是國際檔案界普遍認同的電子檔案長久保管策略之一。英國國家檔案館(TNA)早在 2012年創建了格式登記系統PRONOM (Digital Format Database),并開發DROID(Digital Record Object Identification)工具用于識別歸檔文件的格式信息。[1]美國國家檔案與文件署(NARA)則在2018年設立了格式概覽(Format Profile)項目,該項目在系統分析格式風險的基礎上列舉出10種最不宜歸檔的文件格式。[2]2021年,中辦國辦印發《“十四五”全國檔案事業發展規劃》,明確“深入推進檔案安全體系建設,加強電子檔案長期保存技術和管理研究”。格式管控關乎電子檔案長期保存問題已在我國檔案學界達成共識,并逐步形成了歸檔文件格式規范,但在實踐中我國尚未建立全國性的格式登記與管控體系。本文在借鑒國外實踐的基礎上,對我國電子檔案文件格式登記與管控系統(Format Register and Monitor System,簡稱FRMS)進行了初步構想和模型設計,以期為該系統的開發落地提供參照。

二、文件格式登記與管控系統之運行

建設開發電子檔案的文件格式登記與管控系統,首先要明確其建設開發的實施主體和系統的適用范圍,并且建立起長期有效的運行機制來確保其可持續性。所謂實施主體就是由誰來建設和維護的問題,而適用范圍則是規定該系統的服務對象和服務領域。

筆者認為,國家檔案主管機關是最理想的實施主體。由于我國尚未對歸檔格式的背景數據進行全面登記和管控,因此,由國家檔案主管機關作為實施主體牽頭創建并運行該系統,具有較強的組織號召力和資源把控優勢。除此以外,非官方的社會組織、檔案研究機構、檔案服務公司等也可實施或參與電子檔案格式登記與管控系統的開發與運行,利用自身技術、資源及經驗優勢,以公益或市場化的運作模式建立區域乃至全國性的電子檔案文件格式登記與管控系統及其運作體系。

電子檔案文件格式登記與管控系統,可以也應當面向全國各級各類檔案管理機構,包括檔案館、檔案室以及圖書館、數據中心等相關領域,其基礎數據來源越廣,數據的共享面越大,數據分析的準確度就越高,系統實施效果和社會效益也越發顯著。無論建設主體是誰,也無論采取何種運營模式,共建共享始終是電子檔案文件格式登記與管控系統的建設原則。

三、文件格式登記與管控系統之要件

對比國外已有格式登記與管控系統,該系統集合了格式登記、格式識別/格式驗證、格式風險評估等功能于一體,具有較強的綜合性、動態性與研究性。其中,準確獲取文件格式信息是文件格式登記與管控系統有效運轉的基礎,以下要素構成文件格式登記與管控系統開發運行的前置要件。

1.文件格式的唯一標識符

首先要建立或選擇涵蓋面廣并被普遍接受的文件格式標識體系,據此為每種格式及其不同版本做標識符,將該標識符作為每種格式在系統中的唯一ID。這類似于數據庫中每組字段的唯一主鍵。特別說明的是,格式標識符的編號方式應體現該格式的類型、格式屬性、版本關系。

2.文件格式識別工具

格式識別工具(模塊)是文件格式登記與管控系統(FRMS)的重要組成部分,其識別結果將作為文件類別與格式風險判斷的依據。據國外研究,一般有三種方式識別文件格式:第一種是通過文件自帶的擴展名判斷;第二種是通過機器可識別的MIME型元數據判斷;第三種是通過文件二進制代碼包含的有關格式數據或特征信息來判別。[3]系統也可以引用已有的開源格式識別軟件的源代碼來幫助實現格式識別功能。

3.文件格式清單

格式清單是以格式登記庫(Format Registry,簡稱FR)數據為對象,基于格式技術環境分析和安全風險評估而生成的動態反映各種格式安全性的數據庫。它在系統的數據存儲中是以一張數據表的形式存在,因此在系統設計層面也稱其為“格式清單表”。按照格式風險等級可劃分為 “推薦格式清單庫”“危險格式清單庫”等,它是評判某種文件格式是否適合歸檔的科學依據,同時也是檔案庫定期檢測格式安全性的參照標準。格式管控中心必須在每次格式風險評估后定期更新這些格式清單,以為檔案館(室)實施電子文件歸檔和電子檔案格式轉換提供指南,實現對歸檔文件格式的風險管控和安全預警。

四、文件格式登記與管控系統之設計

1.FRMS的功能模塊

按照軟件開發結構化模型——瀑布模型(SDLC)的設計方法,在FRMS的設計與開發之前首先需要明確該系統的功能要素??傮w來說,FRMS系統需要幫助用戶實現格式信息的查詢/登記、文件格式識別、危險格式文件遷移等命令,此外它還可以自動監測電子檔案數據庫中的格式信息,統計危險格式文件數量并通知用戶。吸收PRONOM等國外格式登記系統的功能設計理念,結合格式登記與管控的策略需要,將FRMS的功能總體上分為以下八個模塊。這些功能的運行以“格式登記庫(FR)”及系統中建立的“推薦/可接受/危險格式清單表”“格式轉換器清單表”等前期建立的基礎數據為支撐。

一是“文件導入”模塊。用戶將擬歸檔進入文件存儲系統的電子文件或已歸檔的電子文件通過單獨或批量上傳的方式導入FRMS的功能。二是“格式登記”模塊。用戶提交與文件格式相關的信息來更新文件格式數據庫的功能,通過不斷增加新出現的文件格式及格式信息來提高系統格式信息的全面性與專業性。三是“格式識別”模塊。識別用戶導入FRMS的電子文件格式并匹配格式登記庫中格式信息的過程,它是判斷文件格式風險的前提。四是“格式查詢”模塊。用戶檢索FRMS中的格式信息以及兼容格式的軟件信息,并以瀏覽界面與檢索框并存的形式展示于系統首頁。其中檢索項可設置為“格式類型”“格式名稱”“擴展名”“軟件名”等。五是“格式風險評估”模塊。依據風險評估指標體系分析每種格式的“格式風險等級”,以此來判斷文件格式的安全性,它是決定是否進行格式轉換的關鍵。六是“格式轉換/遷移”模塊。有將風險評估為“危險”級別的文件轉換為相應的“低?;驘o風險”格式文件的功能。七是“危險格式預警”模塊。格式轉換后的文件如果無法轉換為“格式清單”中可接受格式或轉換后出現文件本身不可讀的現象,如出現亂碼等,系統將發出“危險格式預警”信號,提醒管理人員格式轉換失敗。八是“歸檔”模塊。將已具備“可接受格式”或“推薦格式”等級的電子文件及其元數據傳輸至電子檔案管理系統內的過程。該模塊考慮到與檔案保存系統兼容,盡可能與其保持功能一致,以保護文件完整與安全。模塊擬具備電子文件“四性檢測”功能,可將原始文件、格式轉換后的文件以及各格式下的元數據完整歸檔。

2.FRMS的運行流程與權限設置

(1)活動流程分析。FRMS的活動流程符合OAIS參考模型中的電子檔案管理邏輯,以便在電子文件管理的同時對格式進行管控。同時將格式管控流程納入電子文件管理,從而拓寬OAIS模型對于“長久保存計劃”的含義。流程中共有兩條路徑對文件格式進行風險管控:對于尚未歸檔的增量(零散)電子文件來說,用戶將電子文件導入FRMS后,系統將對其進行格式識別,將可以識別得到的結果與各格式清單庫進行比對,符合推薦格式的文件將直接歸檔;若屬于危險格式,尤其是高危格式則需進行格式轉換(遷移)后進行歸檔。對于已經歸檔的存量電子文件來說,系統需要根據“危險格式清單”定期檢索電子檔案管理系統內的電子檔案,通過檔案管理系統的格式索引批量識別危險格式文件,并對檢索出來的危險格式進行格式遷移,以將檔案庫內的文件格式控制在安全范圍。檢索周期可根據格式清單庫的更新頻率、政府或機構公布的格式策略(或標準)而定,也可以根據服務器的忙碌程度而定。

格式登記庫(FR)作為FRMS重要的后臺數據庫,其數據來源于兩個渠道。第一個是系統普通用戶或歸檔業務人員申請登記格式信息,由電子檔案管理員審核格式信息的準確性與標準性,如果符合登記標準則格式信息直接進入庫內,不符合則登記失??;第二個是電子檔案管理員可以直接登記格式信息,更新格式數據庫的信息。其中在上傳電子文件時,無法進行格式識別的用戶也可以進行登記或申請登記格式數據。登記的格式應符合“歸檔范圍適用性原則”“文件格式分類管控原則”及“格式轉換前后檔案內容等價原則”并且應擁有自身格式標準,符合FR數據庫的屬性,做到真實、準確、有跡可循。

(2)用例分析。根據角色的不同將系統功能劃分成不同使用權限。將使用FRMS的角色分為“角色1”“角色2”“角色3”三類。依據系統功能概要,FRMS的用例有“上傳電子文件” “更新FR” “查詢FR”“審核格式信息”等10個。角色1現實中的身份是電子檔案管理人員,他們負責歸檔電子文件的管理工作,其中包括文件的格式風險控制,因此這類用戶的功能權限全面且貫穿格式登記與管控的全流程,權限級別最高。角色2現實中的身份是業務人員,他們的部分工作是負責一個部門或一個機構的電子文件收集與歸檔,不具備檔案管理的職能。在歸檔階段需要了解歸檔格式要求,查看“推薦/危險”格式清單,必要時需將危險格式進行轉換,以保證歸檔質量。因此這類用戶權限級別低一級。角色3現實中相當于檔案管理工作之外的普通用戶,在其日常工作中沒有文件歸檔職能,但使用FRMS可以幫助他們查詢現有格式信息,識別手頭文件的格式并進行簡單的格式轉換。FRMS向大眾開放可以有效地起到“格式風險”知識普及的作用。因此可以幫助普通用戶解決部分“格式問題”。

圖1 FRMS數據流圖(DFD)

3.邏輯功能架構

系統的邏輯功能是根據需求概要分析系統內部功能之間以及與外部實體的交互關系。根據設計規劃,FRMS的邏輯功能以繪制三層數據流圖來描述。(見圖1)

4.系統數據建模

從邏輯功能架構分析可知,FRMS大概需要五個數據存儲。它們由數據庫或數據表組成。數據庫是表的集合,表用來描述與存儲數據及其元數據。本節針對FRMS數據存儲中“格式登記庫(FR)”以及“格式清單表”“格式轉換器表”進行設計建模。由于這三個數據存儲設計關乎電子檔案文件格式的登記策略與風險控制,因此良好的設計方案尤為重要。

(1)格式登記庫設計格式。登記庫(Format Registry,FR)是一個可以存儲、發現和提供有關電子檔案文件格式信息服務的關系型數據庫模型。它是由多個數據表組成的,該登記庫亦可通過網絡界面實現格式數據的檢索與更新。一是概念設計。數據庫的概念設計一般通過E-R圖表達。據筆者研究,FR需要建立四個實體和三種關系,分別是“格式”與“查看器”的相關關系、“格式”與“格式類型”的所屬關系以及“查看器”與“開發商”的開發關系。這樣設計的原因概括為兩點:第一,對電子文件來說僅記錄格式本身的信息是不充分的,記錄查看器及其開發商的信息可以更全面地判斷格式風險;第二,文件格式需要分類、分專業管控,因此單獨設計一個“格式類型”實體與“格式”實體相關聯。此外,各實體(或關系)屬性的數量體現出格式元數據信息的粒度大小,映射到數據表中是各條數據的字段,因此需要全面地考慮屬性問題。FR的屬性數量與定義設計見圖2,其中“格式ID”字段是唯一識別符。二是邏輯設計。將FR的E-R模型轉化為關系模式,分別得到格式表、查看器表、格式類型表和開發商表。

(2)格式清單表和格式轉換器表設計。格式清單表是格式風險評估結果的數據體現。根據文件格式屬性與評估結果所需數據,將該數據表的邏輯結構設計如下:格式風險評估結果形成的格式清單按照危險程度區分,即“推薦格式清單”“可接受格式清單”和“危險格式清單”。因此數據表中“危險級別”字段下的條目設置將與以上三種危險程度相對應。若想單獨生成各危險級別的清單時用庫內的“查詢(select)”語句即可。不同危險程度的格式清單形成知識庫應用于各個場景。

格式轉換器表的作用是存儲經過測試后的格式轉換器信息,在格式轉換(遷移)之前方便用戶以最快的速度選擇符合適用范圍的轉換工具。根據“格式轉換前后內容一致性”原則,轉換器表中需設置“轉換器描述”字段,以方便錄入各個轉換器使用后質量損失與功能損失情況數據。

圖2 FR數據庫E-R圖

5.系統非功能需求

觀感(界面)需求方面,要求系統界面簡潔、顏色友好、功能清晰、操作簡單。為方便用戶使用,頁面中需要放置格式信息的檢索框和格式類目導航且首頁展示系統的主要功能模塊。系統性能方面,要求FRMS運行穩定,有一定的容錯能力和可擴展能力。同時要保證自身系統與電子檔案管理系統的數據安全。用戶交互模式選擇方面,為了更方便地維護與開發且不受操作系統的影響,FRMS采用B/S的架構,用戶通過瀏覽器即可完成數據交互。開發時采用體積小、速度快、成本低的MySQL數據庫,它搭配 PHP和Apache服務器即可組成良好的開發環境。

猜你喜歡
管控危險數據庫
EyeCGas OGI在泄漏管控工作中的應用
多端聯動、全時管控的高速路產保通管控平臺
BIM技術在土建工程管控中的運用
信用證洗錢風險識別及管控
喝水也會有危險
數據庫
數據庫
數據庫
數據庫
擁擠的危險(三)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合