?

《版式電子文件長期保存格式需求》(DA/T 47-2009)解讀

2021-07-01 13:41錢毅李雪彤
北京檔案 2021年5期

錢毅 李雪彤

摘要:《版式電子文件長期保存格式需求》(DA/T 47-2009)是為規范版式電子文件長期保存格式而發布實施的檔案行業重要標準。標準首次提出長期保存概念及其功能定位,明確了弱依賴導向的長期保存工作指導思想,技術處理上注重“自力更生”,對其他門類電子文件格式管理同樣具有很高的指導意義。本文介紹了規范編制的背景與意義,解讀了版式文件格式管理的核心要點,并歸納總結了對電子文件長期保存工作的啟示。

關鍵詞:版式電子文件 長期保存 格式需求

Abstract: Format Requirements for Long-term Preservation of Fixed- layout Electronic Records(DA/T 47-2009) is an important documentary stan? dard issued and implemented to regulate the for? mat requirements for long- term preservation of fixed- layout electronic records. The specification that of great significance for other electronic re? cords format management, for the first time, puts forward the concept of long-term preservation and its functional orientation, establishes the weak -de? pendency guidelines of long-term preservation and emphasizes the independence of technical means. The paper introduces the background and signifi? cance of the specification, interprets the core points of format management and summarizes the inspiration on long-term preservation of electronic records.

Keywords: Fixed- layout Electronic Records ; Long-Term Preservation ; Format Management

2009年12月16日,國家檔案局正式發布《版式電子文件長期保存格式需求》(DA/T 47-2009)(以下簡稱“本標準”),并自2010年6月1日開始實施。版式文檔用頁面化的形式固定呈現文本、圖形、圖像等信息,是最常見的電子文件類型,本標準的出臺對于我國電子文件管理起步階段形成的大量文書類電子文件提供了良好的格式保障。更為重要的是,本標準抽象總結了長期保存格式的諸多原則,這些原則幾乎適用于所有檔案門類,在電子文件數量激增、格式復雜多樣的背景下,重新審視解讀本標準,對于數字檔案資源的長期保存具有現實的參考作用和借鑒價值。

一.本標準編制的背景與意義

對電子文件進行全生命周期管理是理論與實踐領域的共識,只有在存儲端實現了對數字資源專業化的長期保存,才能有力支撐基于單軌制的數字轉型工作。本標準核心起草人黃玉明曾說“電子文件是被軟硬件關押著的人質”[1],只有解除包括格式在內的軟硬件依賴才能讀取文件內容,才能保證電子文件在未來能被完整地讀取和理解。格式作為電子文件最為重要的屬性,是數字信息的特殊編碼方式,也是數字對象內容信息存儲、交換和表示的標準。[2]格式本身可以獨立作為被管理的對象,但其自身發展存在各種風險,如文件格式廢棄不用、軟硬件過時、存在私有或有專利保護等,這些在格式發展過程中是很普遍的情形,但對長期保存來說都是潛在威脅。

本標準基于長期保存和利用需求確定了版式電子文件應具有的格式特征,不僅對規范版式電子文件的長期保存,保障電子文件長期可讀、可解析、可理解具有指導意義,也為后續制訂版式電子文件格式標準,開發相應的制作、閱讀、打印等軟件提供依據。本標準與《文書類電子文件管理元數據方案》(DA/T 46)和《基于XML的電子文件封裝規范》(DA/T 48)是一并發布的,這三個標準之間也存在著較為密切的關系,三者作為一體代表著檔案行業對文書類電子文件開展專業化管理的開端。

二.本標準主要內容

本標準內容分為五部分,分別是“范圍”“規范性引用文件”“術語和定義”“版式電子文件長期保存格式應滿足的需求”“測試與評估”等,明確了“格式開放”“不綁定軟硬件”等多達十一個方面的核心需求進行了提煉,見圖1。

本標準重點從版式電子文件格式的應用環境層面、格式內容層面、內容顯示層面、性能層面提出相關要求。如在應用環境層面,明確要求從技術公開和不綁定軟硬件兩個層面保障格式的長期可用與穩定性,應有公開發表的相應標準和技術規范,避免格式存在私有專利,從而加大電子文件可讀性風險。在格式內容層面要求實現文件自包含、格式自描述、持續可解釋,提出電子文件在讀取過程中應減少對外部對象依賴。在內容顯示層面要求實現顯示一致性,實現不跑版、高保真、所見即所得的顯示效果,這也是版式格式在電子文件長期保存中的優勢。在格式性能層面,要求文件格式穩定、前后兼容、支持不同版本及不同版本間的相互轉化。

三.本標準格式要求核心要點解讀

本標準提出版式文件長期保存格式應滿足的要求,計11條44項,表達簡明,意義深刻。尤為可貴的是,該規范并沒有簡單羅列既有的格式選項,而是站在檔案行業管理的高度,秉持可持續管理的理念,對數字檔案資源長期保存的基本需求進行了抽象、歸納和總結,對于包含版式文件在內的幾乎所有門類檔案資源都具有指導價值。筆者擬從概念定位、指導思想和技術要點三個角度對核心需求條款進行解讀。

(一)首次提出長期保存概念及其功能定位

本標準是檔案領域首次明確長期保存概念及功能定位的檔案行業標準,具有突出的理論貢獻。標準在概念解釋部分就“長期”以及“長期保存”進行了專門的術語解釋,指出長期(Long-term)是指“慮及技術變化(包括支持新載體、新數據格式)和用戶群體變化對典藏信息影響的足夠長的時間段。這個時間段延伸到無限未來”。術語引自國際標準ISO14721(OAIS) ,該標準是數字資源長期保存領域的扛鼎之作,目前該標準尚未被我國采標,但在國際上已經成為事實標準,本標準是我國檔案領域中最早參考引用OAIS的行業標準。標準提出的長期保存是指“用一種可靠的、科學合理的方式長期維護電子文件真實、完整、有效的行為”。此處使用“保存”(preservation)這個概念本身就代表了對傳統檔案保護思想的一次躍升,在此之前我們多用保護、保管來指代傳統檔案的保存工作。對于數字資源,特別是采用preservation術語也符合國際數字資源領域的理論實際。長期保存概念最早由美國保護與存取委員會和研究圖書館組織共同組建的數字歸檔特別工作組在1996年發表的《保存數字信息:數字信息歸檔特別工作組報告》中提出,OAIS參考模型認為數字信息長期保存是“一種長期地對信息進行維護,保持這些信息可以被指定用戶團體獨立理解,并且對數字信息真實性提供證據支持的行為”。[3]

標準“引言”部分提出長期保存目的在于保證電子文件的長期可讀、可解析、可理解,這幾點綜合構成了長期保存工作的總體功能定位。應該看到,這些表述與當時的理論發展,尤其是電子文件管理理論發展進程有關,“真實、完整、有效”的提法是在電子文件“四性”(真實性、完整性、可靠性、可用性)完整表達之前的慣用說法,這一點也明確表現在GB/T 18894的2002年版和2016年版的主要區別上。[4]應該說,這些功能定位要求對于非結構化的“版式文件”而言已經足夠,可讀是版式文件長期保存的基本要求,可解析乃至可理解就需要在格式規范中對文本的內容組織提供必要的手段,對版式文件也提出更高的要求。這些功能定位對于選擇不同格式不同版本具有指導意義。

(二)明確了弱依賴導向的長期保存工作指導思想

本標準在梳理總結長期保存格式需求時秉持著非常明確的弱依賴導向,根據筆者粗略統計,包括4.1格式開放(5點)、4.2不綁定軟硬件(3點)、4.6持續可解釋(第2-5點)在內至少十余項具體條款都明確表達了減少依賴的觀點。我們知道,數字資源以離散的二進制信號表達,具有人工不可識讀性,需要通過多環節轉換成人能識讀的模擬信號,因而具有強烈的軟硬件依賴性。而從長期的歷史角度看,軟硬件本身處于高頻的乃至劇烈的變化之中,因而數字信號解讀不可避免地帶來復雜程度不等的依賴鏈條,因而如何認識與維護這個依賴鏈條成為長期保存工作的重點與難點所在。事實上,絕對破除依賴是不可能的,長期保存工作的目的是減少不可預期的、不可靠的、過度的依賴等。因而版式文件長期保存將減少與弱化依賴作為格式管理的指導思想。具體來說,本標準提出了以下幾方面弱依賴的要求:

1.開放透明。本標準在格式需求中首先提出格式開放(4.1)的要求,要求合規的長期保存格式應“有公開發表的相應標準和技術規范,且沒有專利和許可的限制;不設置技術壁壘;廠商中立;有與產品無關的專家組、標準化組織和產業聯盟等維護和支持該格式”。旗幟鮮明地提出減少各方面依賴的要求。格式開放(4.1)是穩?。?.7)、可轉換(4.8)得以實現的基礎。

2.技術中立。本標準突出了技術中立的色彩,通篇沒有出現特定廠家與具體格式,強調技術中立本身就在強調避免與廠商掛鉤,在資源保存領域維系獨立性。不綁定軟硬件(4.2)要求“被多種操作系統和硬件平臺支持;文件的閱讀不依賴于特定的閱讀軟件;使用與設備無關的顏色規范實現準確打印和再現?!薄肮潭ǔ尸F文件頁面、章節、段落、字體、圖形、圖像、色彩等,呈現效果不因軟硬件平臺和閱讀軟件變化而變化”(4.5.1)等。

3.其他弱依賴措施。標準多處都提出有關弱依賴的要求,包括回避專利算法(4.6.4)、不允許口令保護(4.6.2)、禁止加密(4.6.3),甚至要求“文件中引用的字體和運用的算法不應是知識產權保護對象”(4.6.5)??紤]到一些嵌入式文檔,還提出禁用音頻、視頻等多媒體對象(4.5.3),禁用交互式表單和內部可執行代碼(4.5.4),都盡可能地降低由于這些依賴導致的版式文件不可讀等情形出現。

(三)技術處理上注重“自力更生”

版式文件是數字檔案資源長期保存對象中最常見的形式,但其實其內部構成并不簡單,包括字體、編碼、文本、元數據、描述框架、驗證信息等對象,這些對象本身都處于不同的技術發展曲線之中,與相關的廠商、設備都存在強弱不同的依賴,何況復雜的版式文檔還包括音視頻等其他對象形式。因而對這些重要的技術成分需要進行必要的約束,從而能對版式文檔這個看似簡單的對象的整體依賴性有所管控。具體來說,長期保存格式管理力爭做到自描述、自包含、自校驗、自解釋等“四自”要求。

1.自描述。自描述的本質是要求格式規范本身應具有高質量的自我說明文件,包括自身的技術標準說明、格式元數據、格式內部結構信息與語義關系,以便第三方根據格式說明解析數字對象。為此,本標準4.4列舉了具體的格式自描述要求,典型的包括設置規范的元數據集用于描述文件和對象的屬性特征(4.4.1),允許封裝用戶自定義的元數據(4.4.3),字符對象應聲明編碼標準(4.4.4)等。其中4.4.1條款特別推薦采用XML開放式的編碼體系進行描述,這樣可以在相當程度上擺脫對特定廠商內部結構的依賴,實現開放描述,在極端情況下甚至可以根據文檔開放說明開發閱讀器。如微軟在OFFICE2007版開始采用基于OOXML進行編碼,OFD格式也是基于XML描述的。

2.自包含。自包含要求電子檔案在讀取利用過程中減少外部對象依賴,如要求包含完整地呈現信息、全部字體、顏色信息,必要條件下還應包含鏈接對象。本標準4.3部分提供了“文件自包含”的功能要求,提出文件呈現的全部信息完全自包含(4.3.1),文件中必須包括全部字體的字形描述信息或嵌入字體程序信息(4.3.2)。文件中還應包括光柵圖像、矢量圖形、顏色信息等其他需要呈現的信息(4.3.3)等等。

3.自校驗。自校驗要求文件格式提供自評文件真實性、完整性的數據或工具。本標準“支持技術認證機制”(4.10)可視為自校驗的功能要求。前已述及,真實性保障是檔案資源長期保存工作的最為核心的基本要求之一,數字資源因為其構件的復雜性以及真實性保障技術自身的發展,導致本部分的技術要求一直是長期保存工作的難點所在。本標準在技術驗證需求上也體現了較為明顯的時代特征,突出了當時常用的數字簽名驗證手段,對數字簽名在版式文件中的自校驗提出了具體要求。如使用的數字簽名被多種操作系統和硬件平臺支持(4.10.2),數字簽名的全部信息完全自包含,包括簽名日期、摘要算法、簽名算法、簽名值、證書信息(4.10.3)等核心條款。這幾條要求也非常具體地體現在《文書類電子文件元數據方案》(DA/T 46-2009)中,在該方案的電子簽名塊元數據元素(M57)中就包含M58-M64七項,即簽名規則(M58)、簽名時間(M59)、簽名人(M60)、簽名結果(M61)、證書(M62)、證書引證(M63)、簽名算法標識(M64)等,其中M58就對電子簽名方法、手段等相關信息進行了描述,著錄了簽名算法、被簽名對象及其編碼格式、驗證簽名和數字證書的簡要說明,用于對電子簽名進行了解和驗證,這就為該電子檔案日后的長期保存提供了技術自驗證手段。

4.自解釋。本標準的“引言”部分曾提及需要保證電子文件的長期可讀、可解析、可理解,可以看到“可理解”的功能要求與本標準大部分條款所追求的格式獨立、顯示一致性等形式要求有所不同,偏向于從語義和內容角度的功能定位,應該說這個要求是一個面向未來的更為高級的功能要求,超越了當時的基于館藏管理的基本要求,對于當前檔案信息化開始挖掘內容、走向智能具有非?,F實的價值。比較典型的條款如“文件有必要且充分的結構信息和語義信息,用于解析數字對象”(4.4.5),將數字資源長期保存工作的關注點從載體依賴、格式依賴躍升到語義依賴。

四.本標準對長期保存工作的啟示

本標準不僅明確了版式電子文件長期保存格式的需求,從宏觀上對電子文件的長期保存工作亦有諸多啟示。

(一)研制其他門類檔案資源長期保存格式需求標準

截至目前,本標準是唯一針對格式管理要求制定的專項檔案資源長期保存格式標準,且僅限于版式文件這個基本門類,對于大量其他門類的格式管理要求則未有涉及。事實上不同門類電子檔案在其長期保存中都有其需要特別關注的格式對象,如音視頻格式中的壓縮技術與處理算法等,隨著技術發展,類似三維對象等新型檔案對象還在不斷涌現,這些存量門類與增量對象的長期保存都需要更為科學的格式管理,而非僅僅提供推薦采用的格式列表。應在借鑒版式文件格式標準基礎上,研制其他門類檔案資源長期保存格式需求標準。

(二)需要開展長期保存格式的分級評價工作

通過本標準“遴選歸檔保存版式電子文件格式”,這在本標準適用范圍中有明確宣示,在第5部分“測試與評估”中也提及格式的測評工作,這些都需要在本標準的原則基礎上推動格式評價工作,最終為檔案部門提供合乎要求的版式文件格式。然而格式的遴選是一項非常專業的工作,可以看到即使出臺了針對版式文件的較為明確的格式需求,但總體還是比較抽象,檔案部門實際工作中還是難于直接操作,因而有必要跟進后續的格式評價,綜合考慮文檔保存需求、技術、成本等多種因素,為格式遴選提供依據。本項工作可以參考借鑒加拿大圖書檔案館(LAC)的做法,該館制定了一個非常詳盡的數字文件格式評價指南,將長期保存格式的抽象原則進行細化與分級評價,從而為用戶提供選擇參考。以開放透明度為例,LAC將不同類別組織發布的標準劃分為不同等級。像開放成員組織、國際標準組織、基于行業的開放成員組織發布的標準被評為A級;而僅在單一供應商或供應商的小集團的控制下的可用的規格僅為C級,規格更高、使用范圍更廣、更加開放透明的標準的推薦等級更高。這樣就便于各資源主體直觀地選擇電子文件的歸檔格式,同時,細化評價標準也有助于格式的科學評價,為格式的優化與改善提供依據。

(三)發展具有自主知識產權的數字文件歸檔格式

通過明確長期保存格式需求,為后續開發版式電子文件格式標準提供參考也是本標準的重要功能。鑒于在近期芯片領域出現的科技封鎖與脫鉤風險,著眼于檔案資源的長期安全可靠,我們應當未雨綢繆,積累發展一批重要門類的具有自主知識產權的數字檔案長期保存格式,對于保障資源安全具有深遠意義。因而需要在開放透明的基礎上,在充分重視市場建設和技術生態的基礎上,給予數字文件歸檔格式自主性以同樣重視,積極發展具有自主知識產權的數字檔案資源格式。2016年《電子文件存儲與交換格式版式文檔》(GB/T 33190)推出了我國自行研制的OFD格式,目前已陸續應用于電子公文、電子證照、電子發票、電子文件管理等領域,《國家稅務總局關于增值稅發票綜合服務平臺等事項的公告》中就明確了“增值稅電子普通發票版式文件格式為OFD格式”。[5]

*本文系國家社科重點項目《我國數字檔案館建設戰略研究——基于生態系統的視角》(批準號:16AZD054)研究成果之一。

參考文獻

[1]黃玉明.電子文件存檔格式需求分析與戰略研究[J].檔案學通訊,2010(02):63-66.

[2]錢毅.基于長期保存視角的電子檔案格式管理研究[J].檔案學通訊,2016(06):52-57.

[3]Reference Model for an Open Archival Informa? tion System(OAIS) [EB/OL].[2021-03-10].http://public. ccsds.org/publications/archive/650 x0m2.pdf

[4]注:2002版《電子文件歸檔與管理規范》4.1電子文件自形成時應有嚴格的管理制度和技術措施,確保其真實性、完整性和有效性。2016版《電子文件歸檔與電子檔案管理規范》4.2“確保電子檔案的真實性、可靠性、完整性與可用性”。

[5]國家稅務總局關于增值稅發票綜合服務平臺等事項的公告. [EB/OL].[2021-03-10]. http://www.chinatax. gov.cn/chinatax/n810341/n810765/c101653/202001/ c5149326/content.html

作者單位:1.中國人民大學信息資源管理學院2.中國人民大學電子文件管理研究中心

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合