?

國外數據管理研究最新發展及啟示

2014-08-15 00:49
圖書館 2014年1期
關鍵詞:數據管理數字圖書館

(嘉興學院 浙江嘉興 314001)

近年來,隨著以計算機為代表的現代信息技術的迅猛發展,改變了人們工作學習的方式,特別是數字文獻的日益增多,帶給人們如何長期有效管理數字信息的問題。為此,國外高校圖書館在原有數字信息長期保存研究的基礎上開始了數據管理的深層次研究,數據管理日益成為國外圖書情報界研究的熱點問題。數據管理作為圖書情報研究的新領域,對于圖書館與科研人員長期合作,提高學科化服務水平具有重要意義,對提高圖書館員社會地位,開拓圖書館新的服務領域,提高圖書館文獻信息服務水平,都具有重要的價值。有助于改變高校圖書館單純研究數字資源保存的缺陷,充分發揮圖書館在信息整序方面的職業優勢,進一步提升圖書館學科化服務。因此,加強對數據管理相關問題的研究,關注國外數據管理研究的進展,借鑒國外研究成果及取得的經驗,對于推動我國數據管理研究的發展很有必要。

1 國外數據管理研究概述

1.1 數據管理的興起背景

近年來,國外高校圖書館在多年快速發展之后面臨技術發展、資金緊縮、學習行為改變、學術與圖書館文獻保障角色模糊不清、圖書館員技能單一、以及不適合現代信息社會發展要求等方面的問題與挑戰。特別是以谷歌為代表的網絡技術公司的發展對傳統圖書館帶來了極大的生存挑戰,但同時,我們也應該看到計算機技術的發展為圖書館開展新型文獻信息服務提供了發展機遇。例如在數字信息保存領域,圖書館開始探索數據長期管理的技術與方法,以便使人類共有的數字化遺產可以為子孫后代長期共享。國外在數據管理領域中對積極管理、評價學術以及科學數據在整個生命周期中的價值等方面深入研究,探討數據管理的技術與方法,對如何更好地開展數據管理的策略與方法進行探索。由此,誕生了圖書情報管理的新領域——數字數據管理(簡稱數據管理)。

1.2 數據管理的出現

數據管理(data curation)是一個在信息領域新興的職業,最早出現在美國國家科學基金會(National Science Foundation,以下簡稱NSF)2003年發表的由9位科學家提出的研究報告《通過信息基礎設施促進科學和工程的革命(Revolutionizing Science and Engineering through Cyberinfrastructure)》中。這個報告的內容集中在大量的科學與工程數據方面,其中特別提到數據管理的問題。它認為目前多學科的數字化研究數據大量涌現,但沒有系統的存檔和保存研究數據的結果,一旦出現信息丟失的問題,損失將是巨大的。報告進一步指出,精心管理的數字數據倉庫對科學和工程技術研究來說越來越重要,今后應該建立長期、可持續的科學研究數據知識庫,以方便研究數據的長期保存與共享。做好這些工作需要具有專業技能的人員,圖書情報專業人員較適合,因為他們受過良好信息管理專業教育和掌握信息處理相關技術?!?〕

1.3 數據管理的研究項目

美國學術團體協會(American Council of Learned Societies,ACLS)在2006年的報告中指出,越來越多的學者依賴于數字數據,對數字數據的長期保存日益重要,大學和大學聯盟應該制定新的政策或建立數字數據保存中心以支持人文和社會科學數字數據的長期保存,并負責相關人員的培訓,以提高數據管理人員的專業技能。

NSF2007年發表的信息基礎設施委員會21世紀報告中再次強調數字數據的管理問題的重要性,并調研了the international Consultative Committee for SpaceData Standards(CCSDS)和研究圖書館聯盟(RLG),指出應加強數據管理職業的規劃與技術開發,以便保證數字管理的長期可持續發展。

1.4 數據管理研究的國際會議及專業教育

近年來有關數據管理的國際會議不斷增多,也擴大了對數據管理研究的范圍與領域。如:2006年數字圖書館聯盟會議(JCDL)主辦的一個數據管理與機構庫的研討會;以及美國北卡羅來納大學圖書館與信息科學院主辦的數據管理的學術會議,這兩個會議引起了信息工作者對數據管理問題的極大關注,并對數據管理的專題進行了交流與探討。英國數字管理委員會發起的“管理我們的科學數字遺產——全球面臨的合作與挑戰”會議受到多個國家專業組織的重視,會議對數據管理的定義、模式、技術、法律以及開展國際合作等問題進行了交流與探討。另外,除了召開的會議不斷增多,數據管理專業教育也不斷發展,如北卡羅來納州大學、伊利諾伊大學、密歇根大學均建立了一個新的保存信息專業?!?〕

2 數據管理的研究內容

2.1 數據管理的定義

數據管理(data Curation)一詞源于博物館學,意為“策展”,表示對藏品持續養護并推出有主題的展覽,最終提高館藏面世率,促進科研和教育。當前有關數據管理的定義還沒有統一的表述,有一些重點文獻的定義值得關注,例如在英國數字管理中心(DCC)網站指出,“數據管理是保持和增加價值到數字信息的可信主體,為現在和未來使用,特別是在數字數據的整個生命周期中,對科學和學術材料的有效管理和評價”〔3〕。在維基百科全書中寫到:“數據管理包括對所有需要長期保持數字化可讀性的數字對象的管理,使數字對象在整個生命周期中或未來時間對用戶長期可用的行為;或者在數字存檔和數字保存中,對需要保持數據良好的數據生成和管理的所有過程”〔4〕。在美國加利福尼亞數字圖書館(CDL)詞匯表中定義數據管理是對數字文獻進行管理、監督,以提供可以長期訪問的行為。英國聯合信息系統委員會(JISC)在2004年的相關報告中專門就圖書館中的data curation及相關概念作了解釋,還對數據管理的相關概念問題進行了比較,指出數據管理(data curation)是在管理和創作過程中對數字數據的使用,保證它適合于當前的使用目的,并可供將來的發現和再利用。對動態數據包括連續的豐富內容和不斷更新,保持其適合所需目的使用。

從以上定義可以看出,數據管理的定義都強調積極的干預和保持未來的可用性,而數據管理的重點是強調數字數據的可持續性、再生性和可靠性以及值得信賴的數據資源內容?!?〕綜上所述,筆者認為:數據管理是保存數字數據長期可用的一項持續的任務,要通過專業數據管理人員的日常維護使數字數據得以長期使用,并通過相關內容的開發為科學研究提供豐富的科研數據,實現價值增值。

2.2 數據管理的原因

(1)數字研究數據迅猛增長。近年來,隨著計算機技術、網絡技術的飛速發展,采用計算機網絡開展科學研究的學者越來越普遍,由此產生大量數字科學數據需要存儲。

(2)灰色數字科研數據不斷增多。在眾多科學研究數據中,除掉一些公開發表的數字信息數據,還有許多大學、科研機構內部產生的大量灰色數字數據需要管理。

(3)數字數據類型多樣。從數字數據的存儲類型來看,多媒體數字文獻日益增多,數字數據類型復雜多樣,給數字數據的長期保存帶來困難。

以上因素都表明對于數字數據的長期保存,需要一個專業的機構才可以完成,以便使數字數據得到有效的管理和長期應用。

2.3 數據管理的最佳人選

對于管理數字數據的人員選擇,在IT人員與圖書館員之間開始了激烈的角色選擇的斗爭。一般來說,IT人員重視信息安全管理方面;而圖書館員重點關注數字信息的長期使用和信息安全,包括對長期保存的數字數據進行分析,建立數字數據長期保存標準等。在傳統印刷文獻的長期保存中,圖書館員形成了獨特的管理模式與方法,如文獻的編目、索引等,他們對數字數據管理也同樣具有經驗和能力,因此,許多用戶都認為圖書館員是數字數據管理的最佳人選。

2.4 國外數據管理的實踐案例

(1)英國數字數據管理中心。英國數字數據管理中心(DCC)是世界領先的專業數據管理中心,在英國高等教育中,對研究數據的管理方面它擁有較高的數據管理能力??梢詫θ魏我粋€英國高?;蜓芯繖C構想要存儲、管理、保護和共享的研究數據給出專業化的建議。2004年3月-2007年2月為DCC發展第一階段,這一階段的目標是建立數字數據管理的組織機構,其中工作組人員包括數據專家,記錄管理,圖書館,檔案館,研究人員(如數據的創造者)和決策者。DDC中心也要求參與公共和商業部門的項目活動,制定工作標準和確定數字數據保存所采用的工具然后建立DDC網站論壇提供對重要數字信息管理的交流平臺。2007年3月-2010年4月為第二階段。在這個階段中,重點是直接參與研究社區數字信息保存的活動,創建電子科學數字數據管理資助基金和啟動一些個案研究。第三階段(2010年5月 -2013年2月)進一步開始加強對數字數據保存項目的結構性改變,從開發管理工具到數字數據能力建設重點都進行了改革,進一步提高了對英國高等教育研究社區的數字數據保存于管理能力。特別是在2011年由英國高等教育資助委員會(HEFCE)批準,作為其大學現代化倡議,開始對21個大學的數字數據管理實踐項目。通過對以上大學數字研究數據的管理實踐,訓練了專業人員積累了數字數據管理的經驗,建立了數字數據管理的基礎設施,確立了進一步發展的策略?!?〕

(2)數據管理的生命周期模式。DDC通過對數字數據管理的實踐,提出了數字數據管理的生命周期模式,指出數據管理是對整個生命周期中的數字數據進行維護、保存和增值的服務方式。對研究數據進行積極主動的管理,以便減少其對長期研究價值的威脅和數據過時老化的風險,同時對大量研究數據進行有效的管理,可以減少重復勞動,加強信息共享,最終提高數據保存的質量。在數據管理生命周期中可以對任何二進制的數字形式進行有效管理,如數字對象、數據庫等。其中數據庫包括結構性記錄或數據存儲在計算機系統上,數字對象有文本、圖像文件、聲音文件以及相關文件和標識符或復雜的數字對象格式如網站等。在數據管理的過程中,按照以下順序開展工作:A構思;B創建和接收;C評價或選擇;D攝取;E保存行動;F儲存;G存取、使用和重用;H 轉變;I處置;J再評價?!?〕

3 啟示

3.1 圖書館應積極開展跨系統的數據管理戰略合作

在美國很多數據管理研究項目都得到了資金的支持,這些基金單位包括:國家科學基金會(NSF),研究機構博物館和圖書館服務(IMLS),梅隆基金會(the Mellon Foundation)等。而這些研究項目的共同特點是開展了跨行業、跨系統、跨地區的合作,如國家檔案和記錄管理中心、美國國家海洋科學數據中心和大氣管理局的國家氣候數據中心、國家冰雪數據中心等。圖書館通過數據管理項目同這些中心開展合作,獲得了跨系統合作進行數據管理的經驗,使數據管理信息系統的開發更具針對性與實用性。另外,圖書館通過參與國家數據管理研究項目,可以培養大量的數據管理人才,積累管理經驗,提高數據管理的能力與水平?!?〕

3.2 加強對大學校園研究數據的管理服務

大學校園對于科學數據保存與管理的需求日益迫切,也成為開展數據管理的重要領域。美國的一些大學圖書館如:康奈爾大學、普渡大學、麻省理工學院等,已與明尼蘇達大學圖書館已經開始了數據管理伙伴關系計劃,提高大學圖書館在數據管理方面服務的能力。通過數據管理服務圖書館可以幫助教師獲得網絡信息基礎設施服務,協助教師對研究數據進行系統的管理,建設研究資料庫。并通過對數據的科學分析,對相關的研究信息進行深度挖掘和開發,提高教師的科研效率,輔助教學科研對數據分析的需要。

3.3 加強數據管理專業館員的培訓

數據管理是圖書情報界在網絡信息環境下開展服務的重要新領域,其服務方式主要是通過信息技術手段,因此,加強對現有數據管理人員的培訓,提高他們的專業知識水平,特別是計算機操作能力顯得尤為重要。只有不斷提高數據管理員的專業技能,才能使圖書館數據管理員在科學數據管理方面發揮更加重要的作用。還可以通過數據管理員的工作使廣大科研人員認識到數據管理的重要性,培養良好的數據管理意識,采納圖書館員的數據長期保存的建議,使大量科研數據可以長期利用與共享。

3.4 應加快數據管理共享空間的發展

隨著數字資源管理需求的日益迫切,世界范圍內出現了大量的數據管理實踐活動與研究項目,如英國的數字管理中心、美國的國家研究資金資助的數據管理實踐項目等,也有越來越多的在基層數據管理社區實踐中建立的數據管理共享社區,以及一些專業圖書館和信息科學組織等建立的數據管理組織與教育計劃。因此,我國數據管理項目的發展也應該盡可能多的給予數據管理研究實踐以更多的支持,以便促進數據管理研究的快速發展。特別是一些大學或機構建立的數據管理研究共享空間,應作為發展數據管理項目的先導,優先予以發展,這樣為將來更加深入的開展數據管理項目提供經驗與技術支持?!?〕

3.5 數據管理研究今后應關注的重點

3.5.1 數據共享與知識產權。對科學數據實施保存、管理與開發是一項非常有意義的活動,不但對當代科學研究的發展具有重要的信息支撐作用,同時,對將來科學數據的長期共享也具有極其高的價值。然而,數據共享如果處理不好往往容易對版權人的利益造成侵害,因此,在進行數據管理過程中,處理好數據共享與知識產權的關系尤為重要,也是數據管理廣泛發展過程中要進一步解決的問題。

3.5.2 元數據與數據管理格式。數據管理的最大挑戰是如何保證數據一旦被保存后可以長期共享利用。然而,數據格式眾多,給數據管理帶來困難,保存的科學數據經過一段時間后會因為技術過時無法閱讀使用,而這一問題解決的最好方式就是采用數據管理的元數據格式。但是,對于研究數據來說,除了在數據管理中要統一元數據格式以外,還要注意在對數據進行技術呈現的時候確定數據的目標、元數據選擇標準等。也就是說可以將所有數據的結構、大小、什么時間創建、什么時間消亡、被哪些人使用等作為元數據,但這些信息可能會延伸得太廣,如果不加以控制而試圖去建一個非常完美的元數據管理體系,必敗無疑。因此,開展數據管理元數據格式的進一步研究也是下一步需要解決的問題。

3.5.3 建立受控詞表與分類法。對于數據管理來說,如同其他管理文獻方式一樣,最為重要的也是要解決將來信息檢索的問題,因此數據規范與否顯得特別重要。我們在今后的工作中,應建立數據管理受控此表與分類法。采用分級的方式開展數據管理工作,使數據管理更加規范,也更加準確與細致的反映數據的原貌,以便使數據管理更加規范,能夠被廣大用戶長期共享。

3.5.4 本體與數據管理。對于科學數據來講,不只是數據可否閱讀的問題,其數據的邏輯結構所呈現的科學內容需要被完整的保存,因此,本體是一個不可忽視的內容。本體在數據管理中具有廣闊的應用前景,運用本體論方法對數據進行本體構建,可以解決數據孤單無聯系的缺陷,提高數據管理的效率。通過列出研究課題所涉及到的詞條,按照詞條的固有屬性和專屬特征進行歸納和修改,對詞條建立類以及層級化的分類模型,加入關系、添加實例,最后建立研究數據完整的本體模型具有重要意義,也是今后值得研究的重點。

1.Macdonald S,Martinez-Uribe L.Collaboration to Data Curation:Harnessing Institutional Expertise.New Review Of Academic Librarianship〔serial online〕.April 2,2010,16:4 -16

2.Goble C,Stevens R,Hull D,Wolstencroft K,Lopez R.Data curation+process curation=data integration+science.Briefings In Bioinformatics〔serial online〕.November 2008,9(6):506 -517

3.www.dcc.ac.uk/about/2012 -12 -12

4.http://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5,2012-12-12

5.Lord P.M acdonald A.Data curation for e Science in the UK:an audit to establish requirem ents for future curation and provision.〔2012 -11 -29〕.http://www.jisc.ac.uk/uploaded -documents/e - ScienceReportFinal.pdf

6.http://www.jisc.ac.uk/2012 -12 -10

7.http://www.dcc.ac.uk/sites/default/files/documents/publications/DCCLifecycle.pdf,2012 -12 -12

8.Walton G.Data Curation and the Academic Library.New Review Of Academic Librarianship.April 2010,16(1):1 -3

9.Schmidt L,Ghering C,Nicholson S.Digital Curation Planning at Michigan State University.Library Resources& Technical Services.April 2011,55(2):104 -118

猜你喜歡
數據管理數字圖書館
企業級BOM數據管理概要
定制化汽車制造的數據管理分析
海洋環境數據管理優化與實踐
CTCS-2級報文數據管理需求分析和實現
圖書館
答數字
數字看G20
去圖書館
成雙成對
數字變變變
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合