?

匯交政策視角下科學數據與科研檔案協同管理困境與反思

2023-02-20 02:13孔祥盛
檔案與建設 2023年1期
關鍵詞:數據中心檔案管理科學

孔祥盛

(中國科學院檔案館,北京,100190)

2018年,國務院辦公廳印發了《科學數據管理辦法》[1](以下簡稱P1),明確提出“政府預算資金資助的各級科技計劃(專項、基金等)項目所形成的科學數據,應由項目牽頭單位匯交到相關科學數據中心”。2019年12月,科技部印發《科技計劃項目科學數據匯交工作方案(試行)》(以下簡稱P2),科學數據匯交工作開始走向規范化和常態化。本文聚焦科學數據管理中的匯交環節,選取典型的匯交政策進行分析,一方面總結目前科學數據匯交現狀以及不同科學數據中心的匯交政策異同,另一方面對比科研檔案管理要求,梳理協同管理的困境,并提出總結思考。

一、科學數據匯交政策分析

1.科學數據匯交政策梳理

2019年,科技部、財政部發布了《國家科技資源共享服務平臺優化調整名單的通知》,其中包括首批20家國家科學數據中心,承擔相關領域科學數據的整合匯交工作。調研發現,目前20家國家科學數據中心均提供了數據匯交服務,其中除國家極地科學數據中心官網暫無法訪問外,13家提供了成文的政策文本,6家僅有網頁介紹匯交政策內容(表格中用*標記)。因此,本研究選取了19家國家科學數據中心的25份數據匯交相關政策(見表1),使用文本分析法開展研究。

表1 19家國家科學數據中心的數據匯交相關政策清單

2.科學數據匯交政策內容分析

(1)匯交來源

根據P1要求,所有的科學數據中心均按照規定接收科技計劃(含專項、基金等)項目來源的科學數據。除此之外,有4家科學數據中心(C4,C5,C6,C8)將觀測設施或裝置(含網絡)來源的科學數據納入匯交范疇,7家科學數據中心(C4,C5,C7,C8,C13,C14,C18)將論文來源的科學數據納入匯交范疇,5家科學數據中心(C5,C8,C9,C14,C19)支持其他來源(如個人、機構、團隊等)科學數據匯交。

(2)匯交內容

根據P2要求,科學數據匯交主要內容包括科學數據實體、科學數據描述信息和科學數據輔助工具軟件三部分。各科學數據中心對數據實體的界定不一致,差異主要體現在對項目管理性文件和成果性文件的判定。幾乎所有的科學數據中心都要求提交項目任務書、數據管理計劃等管理性文件。大部分科學數據中心(C3,C6,C11,C12,C15,C18,C19)要求將項目相關論文、標準、專利等進行匯交。僅個別科學數據中心(C2,C14)明確在政策中指出匯交范圍不包括論文、專利、軟件著作權、未來研究計劃等信息。

(3)匯交流程

P2提出了科學數據匯交的7個環節,基本覆蓋了科學數據管理的全流程。所有科學數據中心都遵循這一操作流程,但在各自政策中有細微差異。一是科學數據匯交計劃制定環節。C4將“制定科學數據匯交計劃”拆分為“制定數據管理計劃”和“制定數據匯交方案”,在項目不同階段實施。部分科學數據中心(C1,C13,C18,C19)允許在項目使用自定義的元數據模板/字典。二是科學數據制備環節。大多數科學數據中心都提供了相關領域的標準規范參考、格式要求以及相關培訓資料和視頻等,為科學數據的制備工作提供了較為充分的指導。例如C4提供了CDF、FITS、VOTable、HDF5、SAO等數據格式標準要求。三是科學數據提交環節。流程上,少部分科學數據中心(C1,C10,C14,C15)在政策中明確了科學數據質量自查流程,大多數科學數據中心一般采取項目負責人線上審核或線下簽字蓋章等形式確保數據質量。提交方式上,大部分科學數據中心都提供了線上提交方式,用戶可以在線完成科學數據匯交工作,一般可通過HTTP、FTP、Aspera命令行等多種方式在線批量提交。在面對大體量(通常為TB級別)科學數據一次性匯交時,所有的科學數據中心都建議采用線下郵寄存儲介質(如硬盤、U盤、光盤等)的方式協助完成匯交。C18在面對單個項目科學數據總量超出處理能力時,采取了部分邏輯匯交方式,將部分數據實體暫存項目單位。[2]四是科學數據審核環節。一般分為形式審核和內容審核兩部分。形式審核一般由系統審核與人工審核相結合,通常要求數據實體匯交數量大于等于匯交計劃中的數量。比如C6會對匯交數據進行完整性與規范性、一致性和數據質量審核,并對不符合規定的數據要求整改或拒絕其接收;C13會在填報完成后自動檢測元數據的完整性和規范性; C15提供實體數據檢查工具,便于統計數據條目數量。[3]內容審核目前主要分為三種模式:專家/同行評審(C1,C4,C7)、用戶評價(C4,C6,C7,C8,C10,C13)和科學數據中心審核(C2,C3,C5)。雖然P2要求組織開展科學數據質量同行評議等方式進行評估,但部分科學數據中心(C2,C13)的匯交流程并未將此作為匯交通過的必要條件。五是科學數據匯總環節。在分類方式上,科學數據中心會采取多種維度的分類方式進行匯總,便于用戶發現和利用。在編目方式上,C2,C3采用“項目—樣本/標本—數據”三級分類方式進行著錄關聯,不同來源的數據按類型分別匯交到各庫中。而其他大多數科學數據中心通常以數據集為單位進行編目。在標識方面,除了C2,C3采用自編號外,其他所有科學數據中心均提供通用唯一標識符,如CSTR、DOI、PID、Handle。其中C5,C18還采用了本學科領域的專用標識編號。六是科學數據的發布與共享環節??茖W數據在匯交時需要明確數據開放發布時間、共享方式、引用方式等信息。通常建議科學數據保護期不超過一年,大部分

科學數據中心都提供了超過一年的數據保護期限選擇。比如FAST項目的數據一般情況擁有12個月數據保護期,到期后根據數據類型將分批公開。共享方式方面,根據共享范圍分為暫不共享、完全開放共享、協議共享等;根據是否收費分為公益、無償共享和收費、有償共享等。七是科學數據的使用與維護更新。由于科學數據可能需要持續更新和完善,P1也規定“項目/課題驗收后產生的科學數據也應進行匯交”,因此科學數據中心都支持數據更新或追加。出于某些特殊原因(如侵權、剽竊、作假等),匯交負責人或科學數據中心有權提出撤回數據。

二、匯交政策視角下科學數據與科研檔案協同管理困境

1.宏觀層面

(1)科學數據匯交來源復雜和流向混亂

P1針對匯交提及了三種不同來源的科學數據:政府預算資金資助的各級科技計劃(專項、基金等)項目所形成的科學數據、學術論文數據和社會資金資助形成的科學數據。這三類來源在邏輯分類上既不全面,也存在交叉,比如學術論文數據通常屬于科技項目數據的一部分;再比如對于多資金來源的項目,較難區分數據來源。從各科學數據中心的政策來看,不同科學數據中心對于“匯交”的認知存在差異,存在項目、樣本、裝置設施、野外臺站、論文、機構/團隊、個人等不同來源的數據。此外,現有的20家國家科學數據中心一方面存在領域交叉,另一方面也不能完全覆蓋所有學科領域,導致無法在政策層面完全明確匯交數據歸屬流向。實際匯交過程中,數據流向可能受項目領域、項目來源、用戶意愿等多個因素影響,造成混亂局面。對于檔案部門而言,長期以來都以項目(任務)為單元開展科研檔案管理工作,檔案來源明確,已經形成了一套較為成熟固定的管理模式??茖W數據與科研檔案協同管理首先需要理清科學數據的來源問題,即哪些來源的科學數據可以納入科研檔案管理、不同來源的科學數據如何融入現有的檔案管理體系。

(2)科學數據與科研檔案管理主要目的差異

雖然科學數據與科研檔案都具有支撐和服務科研創新的作用,但是從更主要的目的來看,科研檔案管理強調憑證價值,傾向于保存;而科學數據匯交強調情報價值,更傾向于共享利用??蒲袡n案作為我國特有的一種門類檔案,一直承擔收集、整理、保管科技文件資料并提供利用服務的職能。長期以來,受知識產權保護、安全保密等因素影響,檔案管理“重藏輕用”的傾向明顯,在開發利用方面較為保守。目前,FAIR原則早已成為科學數據管理的共識,可發現(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)四點要求也是基于共享利用這一需求提出的。相較于科研檔案相對嚴格的利用管理要求,科學數據在匯交時就要求數據提交者明確開放發布時間、共享方式等,故而在提供利用時一般無需再次征求形成者意見,顯得更加靈活和開放。作為科研檔案一部分的科學數據,是否需要嚴格遵循科研檔案的相對嚴格的利用范圍限制,仍需進一步討論。

2.中觀層面

(1)科學數據與科研檔案的管理粒度不統一

不同學科領域科學數據產生方式和管理要求存在差異,導致其在管理粒度上差異較大。目前科學數據通常以“數據集”為最小單位進行管理,但是數據集的概念并不明確,實際操作中一個數據集既可以是單個電子文件,也可以是某個時空序列或某個主題下多個電子文件的集合;數據集除了包含數據實體外,還可能包含數據對應的說明文檔和縮略圖等其他文件;數據集既可以是一個純文本格式文件(如基因組數據),也可以是多條數據組成一個結構化數據文件(如標本名錄數據),還可以是多維數組和二維表數據組成的一個多維數據集文件(如天文文件、大氣文件等)……即使在形式上科學數據完全屬于電子文件范疇,但在實際工作中也并不能完全套用檔案領域以“件”或“卷—件”為單位的管理方式。

(2)科學數據與科研檔案的領域差異

科研檔案強調通用性,沒有明顯的領域差別。而科學數據強調學科領域差異,因此在描述時除了通用的核心元數據外,還會擴展本領域元數據,比如地理位置信息、數據產品分級信息、實驗樣本信息等。相較于檔案領域較為單一、通用的著錄項,這部分元數據信息能夠直接揭示科學數據內容,更易于滿足利用者需求。一些領域(如天文、空間、環境等)科學數據的產生具有連續性和可持續性,匯交可能只是一個階段性工作。在后續匯交中可能還會對數據集的內容進行修改和更新,這也意味著元數據需要同步修改更新,一定程度上有悖于檔案管理中對原始性的基本要求。

3.微觀層面

(1)科學數據匯交內容與科研檔案歸檔范圍交叉

P2明確匯交內容包括科學數據實體、科學數據描述信息和科學數據輔助工具軟件三類,這與《科學技術研究檔案管理規定》中“歸檔的科研電子文件及其……元數據等應當符合國家相關規范要求”以及“歸檔范圍包括數據、軟件等”的規定本質是一致的。目前各科學數據中心對科學數據實體的界定并不一致,大多數科學數據中心的匯交范圍還包括了論文、專利、軟著等成果性文件,與現有的科研檔案歸檔范圍產生較大重合,造成項目相關數據重復歸檔。而這部分交叉的文件往往載體形式上也不夠規范,通常只是數字化副本或流式電子文檔,而非真正具有效力的電子文件。從邏輯上看,科學數據作為科研檔案的一部分,其匯交內容必然也屬于歸檔范圍??蒲袡n案管理更“求全”,即注重全過程的成套性;而科學數據更“求精”,即聚焦關鍵性數據和最終成果。但目前割裂管理的方式既削弱了科研檔案的完整性,也容易造成重復歸檔。

(2)科學數據匯交與科研檔案歸檔流程重而不同

雖然宏觀上科學數據的匯交流程基本與科研檔案歸檔流程保持重合,但是在細節流程要求上差異較大。一是科研檔案強調科研項目各階段、全流程產生的文件的系統性和完整性,而科學數據管理更聚焦項目成果性文件的完整性。二是科研檔案強調真實性和原始性,而科學數據通常需要進行一定的加工處理,如去隱私化、匿名化等。三是科研檔案的主要整理環節發生在移交前,由文件生成者負責;而科學數據的編目、整理等環節發生在提交后,由科學數據中心完成。四是科研檔案審核偏重形式,科學數據審核可以深入具體內容。五是科學數據在結題后仍可以更新完善,而科研檔案一般歸檔后較難持續跟進更新。

(3)科學數據的格式繁多且不規范

科學數據通常表現為一維、二維或多維數組,也有圖片、音視頻等多種形式,雖然本質上仍是文本、表格、柵格圖像或多維數據集合,但是為了便于開展數據分析和交換,各學科領域一般都會根據本領域特點和需求,采用特有的數據格式標準(如測序數據常用的fastq、fasta等;地理信息數據常用的Geotiff;空間、天文數據常用的CDF、FITS、VOTable、HDF5等),科學界在此基礎上開發了專用的分析和可視化工具,這也導致科學數據出現繁多的數據格式。出于長期保存考慮,檔案領域通常要求電子文件轉換為通用格式或版式格式保存,而大多數科學數據格式并未經過格式注冊和評估,很難直接轉換為通用格式或版式格式。隨著技術的不斷迭代發展,科學數據的格式還在持續更新和增加,這也為科研檔案電子化管理帶來難題。

三、反思與建議

1.反思

(1)認知層面:科學數據與科研檔案的泛化與交叉

無論是政策對科學數據定義與分類的“語焉不詳”,還是科學數據中心在匯交實踐中“來者不拒”,都體現出科學數據的泛化趨勢。同樣,電子文件正日益成為檔案工作關注焦點,檔案自身的概念也在不知不覺中走向“泛化”。而隨著雙方管理要求的細化,原本模糊的交叉地帶也逐漸清晰起來。但這種泛化與交叉并不是偶然。追溯歷史可以發現,我國科學數據的匯交管理模式起源于1963年《全國地質資料匯交辦法》,雖然叫作“資料”,但是實際上仍屬于檔案范疇,也按照科技檔案要求管理。電子形態數據的大量出現,和紙質檔案管理模式的巨大差異,導致兩者逐漸分化發展。而《科學技術研究檔案管理規定》對數據的強調,更像是一次概念上的“撥亂反正”,重新明確了科研檔案的范圍。因此,雖然這種概念上的泛化與業務上的交叉,客觀上的確會給傳統檔案管理觀念和現有管理模式帶來挑戰,但也是檔案工作數字轉型的趨勢和機遇,是兩者未來開展協同的基礎之一,總體上是有益的。

(2)實踐層面:科學數據與科研檔案的異化與融合

在上述的協同困境中,大多數問題都是由于科學數據與科研檔案管理的差異性造成的??茖W數據的學科領域屬性導致了其管理的復雜和多樣,而正是這種靈活性恰恰滿足了科學界對科學數據的利用共享需求??茖W數據本就是科研檔案的子集,相較于傳統科研檔案管理,擺脫了紙質載體桎梏的科學數據在管理流程上明顯更加高效和扁平。因此,盲目地將傳統科研檔案的管理要求強加于科學數據既不科學,也不現實。數字時代檔案管理部門要重新思考現有的管理要求是否合理,并及時做出新的調整和解釋。從目前的科學數據匯交政策來看,科學數據的管理整體較為粗放,匯交工作仍處于起步階段,尤其是不同學科間不平衡問題凸顯,檔案部門可以找準場景切入,推進與科學數據融合發展。

2.建議

(1)建立科學數據與科研檔案協同管理共識

統一的認知,是科學數據與科研檔案協同管理的基礎。對于科學數據管理方,需要認識到匯交科學數據的檔案屬性,建立起清晰的管理邊界。對于科研檔案管理方,要充分認識科學數據自身復雜特點和科學界的需求,在不影響科學數據良性發展的前提下努力提供檔案管理經驗。一是理清科學數據匯交來源,將科技計劃(含專項、基金等)項目來源的數據與其他來源的數據區分開。二是明確科學數據匯交內容,多數情況下不要把文章、標準、專利、實驗報告和研究報告等內容作為首要的匯交內容。[4]三是規范科學數據流向,除了將學科領域作為劃分標準外,也要考慮數據形成單位科研檔案的完整性不受破壞。

(2)創新形式開展領域科學數據歸檔工作

科學數據匯交實質上就是一種歸檔機制,不過目前的匯交在細節上并不完全符合科研檔案管理要求??紤]到科學數據極強的領域特點和專業性,亟待創新工作形式使科學數據匯交工作規范化、合理化。一是建立系統的科學數據歸檔能力認證機制,科學數據目前主流的匯交方式是按領域匯交,通過認證的領域科學數據中心可以認定為具有效力的科學數據歸檔部門。二是通過協議等方式,將檔案部門的一部分歸檔管理職責委托給科學數據管理部門,并對其加以監管和定期檢查。

(3)整合優化科學數據與科研檔案管理流程

由于科學數據匯交與科研檔案歸檔關注的側重點不同,導致其在流程上不能完全吻合,為整合優化管理流程提供可能。一是加強前端控制環節整合,科學數據匯交計劃與科研檔案歸檔范圍都是在項目立項前期制定,內容上科學數據匯交計劃更加具體,可以嵌入科研檔案歸檔范圍。二是加強中間環節共性流程整合,如人員培訓、業務督導、審核驗收等環節可以相互補位,提高項目管理的效率,切實減輕科研人員負擔。三是加強利用流程的整合,通過賦予匯交科學數據檔號或賦予科研檔案科技資源標識符等方式,建立科研檔案和科學數據之間的雙向關聯。

(4)協同推進科學數據長期保存工作

對于科學數據管理部門而言,科學數據的長期保存是確??茖W數據開放共享的前提;對于檔案部門而言,長期保存是檔案管理的優勢和使命職責。而長期保存本就是一項涉及全流程、多主體的復雜工作,因此雙方存在較大協同空間。一是開展科學數據格式的評估、注冊和管理,亟需建立科學領域較完整和權威的格式信息庫。二是明確生命周期結束的科學數據流向和管理職責,做好數據從科學數據中心向檔案管理部門移交冷保存的準備。三是協同開展多節點異地備份以及存證工作,確??茖W數據資源長期真實可用。

猜你喜歡
數據中心檔案管理科學
酒泉云計算大數據中心
淺析數據中心空調節能發展趨勢
如何規范檔案管理
點擊科學
關于建立“格薩爾文獻數據中心”的初步構想
科學大爆炸
檔案管理與企業內部控制關系的思考
基于云計算的交通運輸數據中心實現與應用
科學拔牙
健康檔案管理的“云”前景
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合