?

公共數字文化資源整合中的檢索系統框架設計

2016-10-09 06:16李白楊肖希明
國家圖書館學刊 2016年2期
關鍵詞:檢索系統字段資源整合

李白楊 肖希明

?

公共數字文化資源整合中的檢索系統框架設計

李白楊肖希明

針對公共數字文化資源整合中技術環境的特點,提出了跨機構資源檢索系統的整體框架和各部分的具體實施方案,包括元數據整合方案、資源描述格式、建立索引、前端查詢系統設計等,并提出了重視標準化、協同構建和以服務為核心等檢索系統設計建議。圖2。表1。參考文獻11。

公共文化服務機構數字資源整合檢索系統

近年來,國家文化主管部門在“十二五”規劃的指導下大力建設公共文化服務體系,以滿足人民日益增長的公共文化產品與服務的需求,繁榮社會主義文化事業?!吨腥A人民共和國國民經濟和社會發展第十二個五年規劃綱要》《中共中央關于深化文化體制改革推動社會主義文化大發展大繁榮若干重大問題的決定》《國家基本公共服務體系“十二五”規劃》《文化部“十二五”時期公共文化服務體系建設實施綱要》等多個文件[1-3],為我國公共文化的發展規劃提供了從宏觀到具體的指導意見,其中指出了圖書館、博物館、文化館、紀念館、美術館等機構是公共文化服務體系的主要組成部分,應利用“云計算”“三網融合”技術推動全國文化信息資源共享工程、數字圖書館的建設以及基于移動環境的公共文化產品等服務的發展[4]。

鑒于國家文化戰略的宏觀規劃和公眾對于文化產品的具體需求以及未來“十三五”規劃的新要求,公共文化服務體系中的資源亟待整合和數字化。本文從技術角度出發,嘗試根據不同機構的數字產品在公共數字文化資源整合中的特點、現代信息檢索的系統構架與用戶需求,來構架統一檢索平臺以提供一站式服務,期望能夠推動我國公共數字文化服務向數字化、智能化、泛在化的方向發展。

1 多機構數字資源整合的技術環境

不同的公共文化服務機構所擁有的數字產品在內容、形式、類型等方面都有所不同、各有特點,因此形成了復雜的技術環境。資源整合過程中,必須對該技術環境進行分析和解構,從而制定有效的對策。

1.1多源異構環境

公共數字文化資源整合所面對的首要挑戰是資源多源異構的技術背景。從機構來說,公共文化服務體系由圖書館、博物館、美術館等多種機構組成,每個機構所擁有和存儲的數字資源有很大不同。這就是其面對的“多源性”,即數字資源有多個供應源。由于不同的機構所使用的計算機、數據庫和數字產品加工方式各不相同,從而造成數字資源的異構性??鐧C構的數字資源存在數據總量大、數據格式復雜、數據類型多樣的特點,為用戶檢索和利用這部分數字資源造成了阻礙。

1.2互操作協議

互操作是在信息檢索系統中解決多源異構數據問題的關鍵技術,對數字資源整合十分重要。針對公共數字文化產品的特點,檢索系統應采用多種互操作協議,最大限度地支持多種數據和數據庫的類型。目前,數字圖書館應用的互操作協議已經較為成熟,主要為Z39.50與OAI協議。但是,數字圖書館強調目錄與索引功能,相比之下,公共數字文化資源偏重于產品的展示與獲取,傳統的數字圖書館檢索系統互操作協議已經不能完全滿足此需求。多機構數字資源整合環境下的檢索系統,需加入更多的互操作協議以完成更加復雜的數據交換。Java數據庫連接(Java Data-Base Connectivity,JDBC)和開放數據庫互連(Open Database Connectivity,ODBC)是支持SQL語句的API,可以為關系型數據庫提供統一的查詢接口[5]。此外,開放鏈接(OpenURL)是一種附帶有元數據信息和資源地址信息的可供運行的URL[6],采用與原文動態鏈接的方式,能夠解決不同機構之間數字資源互操作的問題。在公共數字文化資源整合實現過程中,應針對數據庫連接查詢的具體類型選擇互操作協議,以實現檢索系統的兼容與擴展。

1.3知識組織模式

在信息時代的數字化浪潮中,各公共機構紛紛參與數字產品的生產和加工。長期以來,圖書館一直是信息資源建設的標桿和模板,傳承并發展了許多信息組織的技術與方法。與圖書館領域不同的是,其他公共文化機構并沒有長期涉獵信息資源建設,缺乏知識組織的技術積淀。因此,在數字資源整合中需要制定統一的知識組織模式,為不同機構的資源整合提供技術指引。為了更好地支持檢索系統的構建,在資源整合時應采用具有前沿性的知識組織技術。目前,語義網(Semantic Web)技術在數字資源建設中應用較為廣泛,對于提升資源利用度和擴展性具有較好的支持。歐洲數字圖書館(Europeana)建設的坎坷歷程證明:在整合海量異構數據資源時,制定統一的知識組織標準至關重要。目前,該項目通過資源語義化處理,實現了一站式提供歐盟成員國1000多個圖書館、博物館等機構的圖書、錄音、圖片、檔案、電影資料等資源。

2 整合型檢索系統框架設計

基于上述對多機構公共數字文化資源特點的分析,對檢索系統的框架進行重構。

2.1整體構架

如圖1所示,整合型檢索系統的整體構架主要由四個關鍵層面構成,第一層是元數據體系,處理不同機構元數據的交換;第二層是資源的描述與組織層,對元數據進行描述和組織;第三層是資源的索引與統一查詢,依據元數據和資源特點建立索引點和索引目錄;第四層是基于前端的用戶界面(User Interface,UI)設計。這種檢索系統構架與資源發現系統類似,但由于要實現多個機構之間的數據交互,因此更加復雜。

圖1 整合型檢索系統基本構架

2.2元數據整合方案

元數據整合是異構數據資源整合的基礎,能夠實現邏輯層面的數據共享與互操作,保障全局檢索的檢準率和檢全率。然而,公共文化部門的數字資源整合中,各個機構的元數據標準各不相同,如有面向文化遺產的CCO(Cataloging Cultural Objects)、面向文獻信息資源描述的MARC(Machine Readable Catalog)、面向地理信息描述的FGDC(Federal Geographic Data Committee)、面向博物館信息計算機交換的CIMI(Computer Interchange

of Museum Information)以及藝術博物館描述集AMICO(Art Museum Image Consortium)等[7,8]。元數據描述方案類型眾多,這就使得資源整合面臨著一定的困難。所幸的是,為了解決未來統一檢索面對的異構元數據問題,元數據之間的映射被提出,它能在一定程度上解決資源整合后的檢索問題。本文基于元數據映射提出元數據整合方案,對前人關于數字資源整合的研究,采用層次分類的方法進行重構,如表1所示。

表1元數據整合的層次劃分與字段描述

層次1來源數據基本信息特點描述擴展信息彈性標簽層次2擁有者;描述者;國家;地區;年代范圍等題名;責任者;版本;語種;收藏機構等載體形態;分類信息;主題詞;標目等;索引項;并列題名;叢編項;提要信息等人工標簽;語義標簽;社會化標簽等

表1總結了不同公共文化機構數字資源元數據描述的字段,并將其劃分為2個元數據層次、5個字段描述類別和對應的元數據字段。本文提出的元數據整合方案具有以下特點:一是保障元數據的厚度適中,以便能夠根據不同的字段進行檢索;二是保障跨機構的數字資源能夠在統一的檢索架構中進行檢索;三是留有一定的擴展性;四是適合利用XML和RDF格式進行語義處理。

如圖2所示,跨公共文化機構的數字資源整合,利用元數據分層和映射完成數據的交換和互操作,使檢索過程中同一指令能夠在不同機構的元數據中進行查詢,將結果統一反饋給用戶。元數據整合是整合檢索系統的基礎構架,其對OAI的支持也使得檢索系統能夠索引到更多來自Web的數字資源??傮w上,該構架利用元數據映射完成數據的交換,進而把不同機構的數字資源進行聯結,使檢索系統能夠實現一次命令,跨庫檢索。

圖2 跨機構數字資源整合的元數據描述與映射構架

2.3資源描述格式

對歐洲數字圖書館、國際博物館協會等機構數字資源整合實踐與研究的調查與分析[9]表明,國際上越來越多的機構開始采用XML(schema)格式作為資源描述語言。事實上,對于數字資源整合而言,XML具有支持跨機構、可擴展、語義化處理等優勢,是理想的資源整合語言結構。萬維網聯盟(W3C)近年來所開發的前端語言格式和資源描述語言都對XML提供了較為良好的支持,這是數字資源在未來能夠得到持續利用的堅實保障。本研究對檢索系統的設計同樣采用XML語言,圖書情報界對于XML語言已經較為熟悉,本文不再贅述,只討論針對公共文化數字資源整合檢索系統的描述結構。假設有機構1(以博物館為例)和其對應的元數據層次,一個簡單的XML描述的案例如下:

/*以博物館為實例*/

/*實例名稱*/

http://museum1.org/ /*實例地址*/

/*數據源項*/

/*定義網址(url)字段為a*/

/*定義作品擁有著(owner)字段為b*/

/*定義作品國家歸屬(nation)字段為c*/

…………

/*基本信息項*/

/*定義作品責任者(author)字段為e*/

/*定義作品版本信息(edition)字段為f*/

…………

/*資源特征項*/

/*定義載體形態(carrier)字段為g*/

/*定義資源分類信息(classification)為h*/

/*定義作品摘要信息(abstract)為i*/

………… /*本例僅說明跨機構數字資源整合中XML字段的定義和描述*/

2.4建立索引

索引是檢索系統中的數據交換環節,系統根據命令進行查詢,在索引中找到對應數據后返回給前端界面。同時,索引也是決定檢索系統響應速度的一個關鍵技術環節?;赬ML的索引主要有節點記錄型索引和結構摘要型索引[10],其實質也是基于SQL Server查詢語言。如上文所述,跨機構的公共數字文化資源整合中存在一定規模的異構數據,在進行索引和查詢時容易造成性能損失,即異構數據檢索中檢全率和檢準率過低導致檢索質量低、檢索時間過長,從而引起檢索效率低。事實上,計算機科學對XML索引查詢進行了廣泛而深入的研究,目前已有較多研究成果,例如研發了面向異構數據源索引查詢的XML-QL、XML-GL、XQuery等語言[11]。我們在構架整合型檢索系統時,需要考慮索引數據的結構和類型,以便在實現檢索時更好地選擇合適的語言進行查詢。在公共數字文化資源整合中預先進行元數據的統一定義,其字段信息可以進行互操作和數據交換,以此建立的索引點(如2.3實例中的a,b,c,d等字段)能夠實現異構數據源的統一檢索,在元數據層面保障檢索質量和檢索效率。

2.5前端查詢系統

隨著HTML5、CSS3和JavaScript等前端語言的發展,前端查詢的界面、方法、標準趨向統一。而上述的前端技術都對XML提供了較好的支持,甚至說是無縫對接。2014年10月29日,萬維網聯盟正式宣布完成HTML5標準規范的制定,新的標準使網頁能夠更好地展現數據驅動帶來的成果,也全面支持RDF和XML格式的查詢和展現,表現出了較強的兼容性和穩定性。

公共文化機構并非像傳統圖書館一樣只有書目資源,不少機構都有大量的多媒體資源,因此新的前端技術無疑是展現多媒體資源的福音。對于檢索系統而言,前端查詢的設計主要是圖形用戶接口(Graphical User Interface,GUI)設計和與后端數據庫的鏈接,以及可檢字段和界面友好性設計。在圖書館領域,資源發現系統已經較為成熟,其界面和字段設計為整合型檢索系統提供了參考。

針對公共文化服務機構數字資源的特點,其前端檢索應具有以下幾個特點:(1)支持統一檢索,即不限字段的自然語言檢索;(2)支持可選字段檢索,根據元數據描述的項目可進行字段設置;(3)檢索界面友好,用戶通過一次輸入或二次輸入就可以找到想要的頁面或資源;(4)展現出資源之間的關聯性和補充介紹。

3 整合型檢索系統設計建議

上述內容給出了整合型檢索系統的基本設計框架,但在系統的構建過程中,還需要注意以下幾個方面。

3.1重視標準化

在摩爾定律的支配下,計算機技術的發展十分迅速,公共文化機構主要屬于信息技術的應用機構,而非研發機構,因此要辯證地看待新技術的應用。在選擇新技術進行公共數字資源建設時,選用標準化程度較高的技術和設備能夠使資源整合中數據標準更加統一、降低資源描述和組織的難度。如前文在設計跨機構的整合型檢索系統時,從底層元數據直到前端技術,采用的均是業界較為成熟、具有貫穿檢索系統全部生命周期的標準化方案。如OAI、XML和HTML5等采用了從數據描述、數據組織到數據展現的全系列標準化語言,能夠在不同的系統中實現兼容性、穩定性和高性能。

3.2協同構建

數字資源整合非一家之功,需多家機構共同努力。由于檢索系統的構建貫穿了數字資源整合的整個生命周期,從資源采集和描述開始,就必須強調多機構的協同構建。理想的協同構建模式是在統一的組織領導下,多機構協同參與,采用同一種標準的數據著錄方案,從源頭實現元數據的標準控制;在資源組織過程中采用同類型的組織語言對其進行描述和數字化。只有實現了底層的數據結構、標準統一,才能夠支持檢索系統實現跨機構的精準檢索。

而在現實中,不同公共文化機構的資源特點、技術力量、人力資源等情況各不相同,同時在數字資源整合服務中不同機構所收獲的利益也不盡相同。這就需要一個強有力的組織機構出面協調各方利益,完成跨機構數字資源整合檢索系統構建中的協同工作。

3.3以服務為核心

公共數字文化資源整合的目的是為用戶提供服務。一方面,是為繁榮社會主義文化事業,滿足人民日益增長的文化需求;另一方面也是為實現社會主義文化成果資源長期保存的目的。因此,整合型檢索系統必須堅持以用戶服務為核心的主旨,在操作性、用戶界面設計、資源可獲取性等方面加以考慮。良好的用戶入口是吸引越來越多的用戶使用檢索系統的保障,也是公共數字文化資源整合可持續發展的保障。

1 中華人民共和國國民經濟和社會發展第十二個五年規劃綱要[J].領導決策信息, 2011(12).

2 李愛玲. 中共中央關于深化文化體制改革推動社會主義文化大發展大繁榮若干重大問題的決定[J].求是, 2011(21).

3 姜曉萍, 陳朝兵. 我國基本公共服務體系的共同趨勢與地區差異——基于國家和地方基本公共服務“十二五”規劃的比較[J].上海行政學院學報, 2013(6).

4 羅云川, 等. “十二五”時期我國公共文化服務體系建設研究[J].圖書館建設, 2011(12).

5 Hunt J. A Beginner’s Guide to Scala,Object Orientation and Functional Programming[M]. Switzerland:Springer International Publishing,2014:311-333.

6 Archimbaud J L. Identifiants des documents numériques:ISBN,ISSN,URL,DOI,OpenURL ...[EB/OL].[2016-01-27]. http://arch ivesic.ccsd.cnrs.fr/sic_01068135/document.

7 Mugridge R L. Cataloging Cultural Objects: A Guide to Describing Cultural Works and Their Images[J]. Library Collections Acquisitions & Technical Services, 2007, 31(3):230.

9 Yeates R. An XML infrastructure for archives,libraries and museums:Resource discovery in the COVAX project[J].Program-Electronic Library and Information Systems,2002,36(2):72 -88.

10 范穎捷. XML索引與查詢的若干關鍵技術研究[D].上海:復旦大學, 2008.

11 周曉濱. 基于DTD的XML-GL與XQuery的查詢轉算法[D].濟南:山東大學, 2009.

(李白楊武漢大學信息管理學院圖書館學專業2014級博士研究生,肖希明教授武漢大學信息管理學院)

Design of Framework of Retrieval System in the Public Digital Cultural Resource Integration

Li BaiyangXiao Ximing

Based on the characteristics of the technology environment in public digital cultural resource integration, this article proposes an integrated framework for interagency resources retrieval system and the concrete implementing schemes for all sections which include metadata integration solutions, resources description formats, creating index, query system design, and so on. Then, this article proposes some suggestions for the designing of the retrieval system,including valuing standardization, collaborative constructing and regarding service as the core. 2 figs. 1 tab. 11 refs.

Public Cultural Service Agencies; Digital Resource Integration; Retrieval System

2015-11-07

*本文系國家社會科學基金重點項目“公共數字文化服務中的資源整合研究”(項目編號:13ATQ001)研究成果之一。

猜你喜歡
檢索系統字段資源整合
圖書館中文圖書編目外包數據質量控制分析
少先隊活動與校外資源整合的實踐與探索
“五育并舉”下家校社資源整合的價值意義
海外并購中的人力資源整合之道
收錄《信號處理》的檢索系統及數據庫
收錄《信號處理》的檢索系統及數據庫
本刊被以下檢索系統及數據庫收錄
本刊被以下檢索系統及數據庫收錄
智慧高速資源整合方式實踐
CNMARC304字段和314字段責任附注方式解析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合