?

基于關聯數據的圖書館創新服務研究

2012-04-29 02:14楊愛武
圖書與情報 2012年3期
關鍵詞:創新服務信息資源圖書館

摘 要:關聯數據是語義網的一種實現方式,自提出以來被圖書館界重視,目前我國圖書館界的關聯數據研究主要集中在關聯數據的內涵研究、關聯數據的圖書館應用研究與圖書館應用關聯數據的挑戰等方面,關聯數據的圖書館創新應用服務主要有資源發布、資源發現與資源融合等方式。

關鍵詞:圖書館 關聯數據 信息資源 創新服務

中圖分類號: G252文獻標識碼: A 文章編號: 1003-6938(2012)03-0085-04

The Research of Library Innovation Service Based on Linked Data

Abstract The libraries pay more attention to linked data which is a method to realize se semantic web. At present, the libraries in China research linked data on its intension, application of library and so on. The innovation services of linked data in libraries, including resources release, resources discovery and resources integration.

Key words library; linked data; information resource; innovation service

關聯數據(Linked Data)來自于2006年被稱為“互聯網之父”Tim Berners-Lee的萬維網體系架構筆記《關聯數據筆記》,Berners-Lee在文中分析了Web 的發展與演變,提出了發展數據網絡的思想,而數據網絡的核心和關鍵就是關聯數據,并認為關聯數據是致力于建立數據之間關聯的一種規范[1]。這種關聯構想給一直以來困擾人們的海量信息聚合性不足提供了解決的思路與規則,把圖書館等機構的原本沒有關聯的數字信息或數據聯接起來,構建一個語義化的數據網絡成為了可能。因此,關聯數據一經提出就受到了圖書館學界的廣泛關注。我國圖書館學者近三年來對于關聯數據的概念、R2R語言、規則、圖書館應用等進行了較為詳細的研究,但對圖書館來說,對關聯數據的研究,最終的價值體現與終極目標還是關聯數據在圖書館服務中的應用,以滿足用戶的需求,應用于圖書館的服務質量也才是用戶最終的評判標準,因此探討基于關聯數據的圖書館創新服務也將會是關聯數據在圖書館應用研究的一大熱點。

1 關聯數據與圖書館

1.1 關聯數據概述

關聯數據的核心技術是使用資源描述框架 (RDF) 進行資源的組織與交換。對其的定義不同的學者有不同的見解,如有的學者側重對語義的認識,如白海燕認為關聯數據是用來在語義網中使用URI和RDF發布、分享、連接各類資源,強調建立已有信息的語義標注和實現數據之間的關聯[2]。而有的學者則更傾向于認為關聯數據是一種信息行為與實踐活動,因而對維基百科的定義“關聯數據是一種推薦的最佳實踐,用來在語義網中使用URI和RDF發布、分享、連接各類數據、信息和知識”更為認可。

1.2 關聯數據的價值與應用

關聯數據有別于萬維網的文件互聯,通過網絡把可能并沒有關聯的相關數據鏈接在一起,以讓用戶發現、關聯、描述并再利用,可以說是從一個全新角度重新來定義和發現資源,BBC、世界銀行、紐約時報等很快認識到了關聯數據在知識發現、信息組織與用戶服務方面的價值,紛紛加入到關聯數據的出版發布之列。當前國際上關聯數據的最典型應用項目代表是LOD(開放關聯數據,Linked Open Data),該項目自啟動便得到了W3C語義網的支持,其目標是通過定義已存在并可公開使用的數據集,根據關聯數據原則將其轉換為RDF并上網發布,進而改善數據網絡,項目的早期參與者主要為大學實驗室和一些小公司的研發人員,但隨著項目的發展壯大,一些大型機構和政府如BBC、美國政府、英國政府等都積極參與其中,它們或為用戶提供關聯結構化數據,增強用戶對信息行為的控制力度,如Google,或為企業在數據模型交流、整合及查詢方面提供方便,解決數據存儲和服務等問題,如雷諾[3]。

1.3 關聯數據在圖書館的應用現狀

圖書館擁有大量的結構化數據,關聯數據的應用已引起了世界圖書館界的重視與推廣。2008年,瑞典國家圖書館將LIBRIS(瑞典聯合目錄)發布為關聯數據,LIBRIS也因此成為世界上第一個被整體發布為關聯數據的聯合目錄,LIBRIS共包含約600萬條書目記錄2000萬條館藏記錄及20萬條規范記錄,為超過170家大學圖書館以為大學圖書館、公共圖書館、博物館和檔案館提供在線編目服務[4],同時為了加強和外部數據的關聯,LIBRIS還創建了到LCSH(美國國會標題表,lcsh.info)和維基百科(Wikipedia/DBpedia)等的相關鏈接,為圖書館界開展關聯數據的發布及應用提供了寶貴的經驗和思路。之后,美國國會圖書館、OCLC、德國國家經濟圖書館、德國國家圖書館、歐洲核子研究中心圖書館、歐洲國家圖書館的數字資源門戶Europeana、英國的哈德斯菲爾德大學圖書館等也對關聯數據進行了實踐應用。2010年5月28日,W3C宣布成立圖書館關聯數據孵化小組(Library Linked Data Incubator Group)[5],以通過匯集圖書館界內外參與語義網活動(重點在關聯數據)的人、基于現有創新舉措、確定未來的合作軌跡,幫助提高圖書館數據在互聯網上的全球互操作,孵化小組的成立也標志著圖書館應用關聯數據走向國際化、規范化與組織化。2011年6月2-3日,在美國舊金山舉辦了宗旨為“促進關聯開放數據公布途徑的實用性和可行性”的國際圖書館、檔案館和博物館關聯開放數據峰會(The International Linked Open Data in Libraries,Archives,and Museums Summit)[6],超過85個團體參加了峰會。

1.4 我國圖書館界的關聯數據研究現狀

國內最早引進關聯數據應該是2008年12月在上海召開的“數字環境下圖書館前沿問題研討班”上劉煒所作的“語義互操作與關聯數據”介紹報告, 但最早的研究文獻則是2009上海圖書館圖書館劉煒等人發表于《現代圖書情報技術》的《LCSH,SKOS和關聯數據》[7]一文,在該文中作者重點介紹了關聯數據技術在網上發布詞表的Web應用。截止筆者檢索的2012年5月1日,知網中主題為“關聯數據”&“圖書館”的研究論文不足50篇,說明在短短兩三年的時間里,我國圖書館界對其傾入了較大的關注,特別是可以看到2011年和2012年的研究成果占據了較大比例更能說明這一點。

從論文發表的期刊分布上看,期刊的發布較廣,我國圖書館界的主要期刊如《中國圖書館學報》、《大學圖書館學報》等十余家期刊都刊載有相關論文,說明我國的圖書館期刊也認識到了關聯數據在圖書館的應用價值與圖書館學研究關聯數據的學術價值。

從論文的研究主題和內容來看,我國圖書館界學者的關聯數據研究主要分為以下三方面的內容:

(1)對關聯數據內涵的研究?;蛟S是因為業界對關聯數據的研究尚屬起步階段,因此對于關聯數據的概念進行理解辨析的文章較多,同時對關聯數據的原則、優點、原理、技術體系等內涵的研究也較多,如沈志宏、張曉林[8]描述了關聯數據的原理是用一種輕型的、可利用分布數據集及其自主內容格式、基于標準的知識表示與檢索協議、可逐步擴展的機制、來實現可動態關聯的知識對象網絡,并支持在此基礎上的知識組織和知識發現。其技術體系包括;①關聯數據數據內容組織可以是任意數據組織形式下的具體數據內容,但要求能用 URI 予以標識,能通過 HTTP 調用;②關聯數據創建與發布是實現關聯數據的關鍵環節;③關聯數據瀏覽與檢索要求能用標準方法檢索和解析RDF信息;④關聯數據互聯與維護是采用自動或半自動的方法,創建不同數據集數據之間的關聯,并在源內容對象和目標內容對象發生變化時保持關聯信息的準確及時。

(2)圖書館關聯數據的應用研究。關聯數據的圖書館應用價值從一開始就讓我國圖書館界學者看到了其蘊藏的學術研究價值。黃永文[9]將關聯數據在圖書館的應用總結為六個方面,即:①將圖書館資源發布為關聯數據,如OCLC利用SRU服務為VIAF項目提供關聯數據;②利用關聯數據擴展資源發現服務;③實現數據融合與語義檢索服務;④利用關聯數據在學術研究和學術交流中發揮作用;⑤跨機構的關聯數據的開放與復用;⑥利用關聯數據實現圖書館與教學系統之間的集成。在進行應用研究的同時,我國圖書館界學者還對國際業界的應用進行了介紹,如劉煒在最早的關聯數據研究中就介紹了美國國會圖書館MRACXML格式的主題標目轉換為SKOS的技術方法。

(3)圖書館應用關聯數據的機會與挑戰。在對關聯數據的內涵與應用研究到一定程度后,圖書館界學者對關聯數據的隱私保護、資源整合、接口協議、交互模式等問題帶給圖書館的挑戰也進行了思考,如劉媛媛[10]認為不作任何處理直接使用 LOD中的數據會產生數據不完整、所獲數據并不相關、不同數據源的數據不一致、數據劫持 (Hijack) 等問題。李亞婷[11]則認為去如何提供給用戶最可靠、最合適和最相關的數據信息則是圖書館需考慮的問題。劉煒[12]認為圖書館應用關聯數據的最大問題就是封閉性,即無法對封閉系統中的資源進行整合,圖書館購買或租用的大量資源庫需要遠程訪問才能獲得,如果這些資源庫不提供一定的開放接口,關聯數據就無計可施,因此從服務整合的角度,需提供一定的資源導航或術語規范的支持。

2 關聯數據在圖書館的應用實現

根據夏翠娟[13]等學者的研究成果,關聯數據的發布實現主要由資源生成、RDF鏈接、RDF文檔發布和RDF檢索四個實現階段,因此筆者對此主要對其四個實現步驟進行介紹。

(1)圖書館關聯數據的資源生成。圖書館關聯數據的應用最基礎、最關鍵的工作就是圖書館關聯數據的資源生成,圖書館關聯數據資源的創建需要用描述內容對象的內部結構和內容,如作者、書名、出版社等。需要注意的是:①這種描述需用規范的URI描述;②資源的描述深度取決于元數據格式的豐富程度和內容對象的內容深度,并需在描述信息中建立內容對象之間的關聯描述;③由于圖書館的信息資源更新較快,因此圖書館的關聯數據資源的更新頻率也相對較快,需要引入數據更新機制;④資源在創建過程中需注意數據集內關聯數據的自動化生成。

(2)圖書館關聯數據的RDF鏈接。關聯數據通過“鏈接”來為用戶開展服務,并通過鏈接實現不同數據集的關聯[13]。圖書館關聯數據的關聯構建是圖書館關聯數據的資源生成與圖書館關聯數據的資源發布的銜接過程。白海燕[14]認為,關聯數據的關聯構建,可采取基于圖相似度的映射、基于規則的關聯構建和基于實體的文本映射等三種辦法?;趫D相似度的映射是對單一三元組比較方法的擴展,基于實體的文本映射是實現自動關聯的基本方法;這兩種方法具有通用性,但創建的關聯關系類型比較有限?;谝巹澋年P聯構建能創建復雜的關系,但需依賴特定的相關規則和模型。

(3)圖書館關聯數據的RDF文檔發布。圖書館關聯數據的發布是圖書館利用關聯數據的核心,關聯數據的發布就是將圖書館信息資源數據發布為RDF三元組。夏翠娟[15]等學者認為利用資源描述框架數據模型在萬維網上發布結構化數據與利用 RDF 鏈接不同數據源的數據是關聯數據的兩大基本準則,采用的方法可以有:①支持 HTTP 的內容協商機制(根據客戶端信息請求的類型,決定返回HTML的表示形式還是 RDF 的表示形式);②支持采用帶“#”號的URI方式定位到RDF中具體的數據資源。

(4)圖書館關聯數據的RDF檢索。將開放數據資源最終通過智能聯合檢索(smart federated search)與語義檢索呈現給用戶是圖書館應用關聯數據的最終體現。目前,圖書館正在開發數字資源門戶的語義檢索服務,該服務可以將檢索詞匹配到地點、名字、題名和概念,以提供更有意義的檢索結果,另外,Europeana Connect項目正在通過在Europeana之上引入語義層,以實現在對象之間建立語義鏈接[16]。

3 基于關聯數據的圖書館創新服務

3.1 信息資源的發布服務

盡管目前圖書館界非常重視文獻信息資源的共建共享工作,并也付諸了諸多的行動,如CALIS、CADAL、共享工程等項目,但還無法真正實現將圖書館所有文獻資源共享資源,而如果將圖書館的所有信息發布為關聯數據,用戶則可以通過URI來查找世界上任何的一家圖書館資源,信息資源也將成為完全共享的開放信息資源。同時,任何機構、個人的有價值的數據,如發展報告等,也可以通過圖書館的關聯數據發布實現信息的公開化與最大價值化,因此,信息資源的關聯數據發布也將會是圖書館的主要應用服務之一。其實,從圖書館一開始應用關聯數據,數據的發布就是主要方式,如,美國國會圖書館以SKOS格式將國會標題表LCSH全部關聯數據化,并且提供LCSH詞表的下載,并創建不同資源之間的關聯(如LCSH與LIBRIS進行關聯) [17]。圖書館這種信息資源的關聯數據發布,為信息時代的信息資源網絡傳播與服務拓寬了更加廣闊的空間。

3.2 信息資源的發現服務

當前,通過主題檢索等途徑實現圖書館信息資源的發現服務日益被重視和應用,發現服務能擴展傳統的目錄、書目檢索功能,并為讀者展示更多的館藏信息。但由于這種發現服務的實現途徑更多是局限于傳統的書目、MARC數據等,如封面圖片、讀者評價的鏈接等,所以知識信息的揭示深度不足。由于關聯數據允許用戶更大限度的發現、關聯、描述并再利用各種數據,因此圖書館的關聯數據資源還可以實現更加廣泛的信息資源描述、關聯與發布而并不局限于資源本身的信息。這種服務不僅可以幫助用戶對檢索到的書目信息等判斷是否是自己所需的,還可以幫助用戶獲取圖書館以外的信息,發現更多更有用的關聯信息資源。

3.3 信息資源的檢索服務

現有的圖書館檢索系統如OPAC等,讀者均只能實現作者、主題、題名等檢索條件的檢索,但不能提供相關鏈接或關聯的知識檢索與知識發現等服務,對關聯數據的智能化檢索則能改善圖書館現有檢索系統的服務功能并解決上述問題。因為關聯數據的關聯特性,讀者也往往能根據關聯數據的關聯知識,也能根據這些關聯關系去研究相關知識的網絡關系分析,如學科知識的組織與服務網絡等。

3.4 信息資源的異構融合服務

信息社會的發展和存儲介質的更新換代,圖書館的異構資源不管是從數量上還是質量都在迅猛增長,泛在化環境下的數據交換、融合和再利用也在不斷增多,整合、利用這些異構資源成為圖書館的一大資源建設問題。關聯數據的統一標示與描述則會讓圖書館的信息資源數據的識別、交換、再利用變得越來越容易,圖書館與社會信息機構、數據存儲組織之間的合作將越來越緊密,圖書館的價值也將得到更大程度提升。

4 結語

作為社會信息資源的存儲、開發、利用機構,圖書館應用關聯數據有著得天獨厚的優勢,也能夠從關聯數據的應用中收益無窮,既能用技術改善信息資源的組織、利用、檢索服務,也能從根本上改變圖書館在社會信息服務機構中日益下降的地位。從本質上來說關聯數據是一種Web數據服務,是面向機器的,圖書館應用關聯數據也就是相當于從單純的向人(讀者)服務轉向了向人和機器服務,圖書館也就既需通過前臺服務(為用戶服務),也需后臺服務(為機器服務),繼而使得圖書館成為社會信息機構中的基礎組成部分,并能自如應對個性化服務、專業化服務等要求越來越高的讀者需求,提高圖書館的服務效率與服務質量。

參考文獻:

[1]Tim Berners-Lee. Linked data[EB/OL].[2012-04-03].http://www.w3.org/DesignIssues/LinkedData.html.

[2]W3C. Linking Open Data[EB/OL].[2012-04-03].http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData#FAQ.

[3]李琳.關聯數據在圖書館界的應用與挑戰[J].圖書與情報,2011,(4):58-61.

[4]Anders Sderbck, Martin Malmsten. LIBRIS-Linked Library Data[J].Nodalities, 2008,(5): 19-20.

[5]W3C. W3C Library Linked Data Incubator Group[EB/OL].[2011-10-17].http://www.w3.org/2005/Incubator/lld/.

[6]LOD-LAM.Home[EB/OL].[2011-10-17].http://lod-lam.net/summit/.

[7]姚小樂等.LCSH,SKOS和關聯數據[J].現代圖書情報技術,2009,(3):8-12.

[8]沈志宏,張曉林.關聯數據及其應用現狀綜述[J].現代圖書情報技術,2010,(11):1-9

[9] 黃永文.關聯數據在圖書館中的應用研究綜述[J].現代圖書情報技術,2010,(5):1-7.

[10]劉媛媛等.基于 LOD 的關聯參考服務構建研究[J].現代圖書情報技術,2011,(6):66-71.

[11]李亞婷,等. Web 環境下關聯數據的應用[J].情報理論與實踐,2010,(11):122-125.

[12]劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011(2):5-12.

[13]Malmsten M. Making a Library Catalogue Part of the Semantic Web[EB/OL]. [2012-03-01].http://dcpapers.dublincore.org/ ojs /pubs /article /view /927/923.

[14]白海燕.關聯數據及DBPedia實例分析[J].現代圖書情報技術,2010,(3):33-39.

[15]夏翠娟等.關聯數據發布技術及其實現[J].現代圖書情報技術,2010,(3):33-39.

[16]朱大麗.關聯數據與未來圖書館服務[J].新世紀圖書館,2012,(5):52-54.

[17]Haslhofer B. Linked Data is an Attempt to Continue theWell-established InformationOrganizationToolsKnown in Libraries[EB/OL].[2012-03-01].http: //tomheath.com /papers/bizer-heath-berners-lee- ijswis- linked-data.pdf.

作者簡介:楊愛武(1964—),女,華僑大學圖書館館員。

猜你喜歡
創新服務信息資源圖書館
圖書館
“互聯網+”圖書館創新服務研究
加速檔案的現代化管理與實現創新服務的對策
高校圖書館核心業務與創新服務挖掘研究
基于互聯網+行動的圖書館創新服務研究
飛躍圖書館
關于構建黨校圖書館中信息資源的共建與共享方案
談云計算與信息資源共享管理
基于網絡的信息資源組織與評價現狀及發展趨勢研究
網絡信息資源檢索工具和技巧
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合