?

語義網環境下數字圖書館信息資源集成模型研究

2014-01-13 02:31劉衛寧
圖書館理論與實踐 2014年1期
關鍵詞:本體語義數字

劉衛寧

(中南民族大學民族學與社會學學院,武漢430074)

語義網環境下數字圖書館信息資源集成模型研究

劉衛寧

(中南民族大學民族學與社會學學院,武漢430074)

語義網;數字圖書館;信息集成

語義網環境下數字信息呈現多樣性、異構性等特點,造成了大量冗余信息的產生,這些信息資源關聯度低,語義異構問題嚴重,影響了用戶獲取信息的體驗和效率。本文為了提高數字圖書館信息資源集成的質量,運用有關語義網的方法和技術實現語義網環境下數字信息資源的整合、集成,并提出了模型框架,在本質上改變現有整合方式的缺陷和不足。

1 引言

互聯網的普及、信息資源的數字化、信息系統的虛擬化,信息的獲取日益方便、簡單和全面,使得用戶能夠比以前更加快捷地查找和獲取所需的信息,導致了信息服務的“非中介化”。[1]加上Web2.0概念的普及,許多Web2.0應用包括博客、微博、社交網站、社區論壇、維基和視頻/音樂/圖像分享網站等進入人們的視野,用戶原創內容(User Generated Content,UGC)網站吸引了眾多用戶,普通用戶的角色開始轉變,從信息用戶變成了信息創造者,提供了大量有價值的信息。人類真正步入了信息大爆炸時代。對海量數字信息資源進行充分的整合、集成,可大大提高用戶使用信息的效率。數字圖書館正是在這樣的背景下應運而生,并成為評價一個國家信息基礎設施水平的重要標志。

2 語義網環境下數字圖書館信息資源集成模型

數字圖書館是基于分布式網絡存在的系統,從分布在不同地理位置的數據庫中抽取元數據,建立元數據庫,同時對元數據庫中的信息進行組織和加工,建立不同領域的本體庫,促進多領域之間的交流和合作,從而實現分布式異構數字信息資源的集成。語義網環境下實現了對信息資源和它們之間的語義關系的描述,呈現數字圖書館信息資源的關聯關系和層次體系,統一標識不同類型的數字化與非數字化資源。通過統一的元數據標準描述和組織信息,當信息資源增長的時候自動更新和改善領域本體庫,實現了信息的語義推理功能,解決信息的語義異構問題。語義網環境下,以信息用戶的需求為導向,將語義技術的優勢融入數字圖書館信息資源集成模型的構建過程中去,使信息用戶獲取和利用信息的過程與數字圖書館信息資源集成的流程保持一致,為數字圖書館信息資源集成模型研究提供了一種新的思路。

有學者提過基于元數據的信息資源集成模型,引入本體技術后又有人提出了基于本體和多Agent的信息資源集成模型,諸如此類的模型很多,但是實際操作性并不強。要么模型過于抽象,不易把握;要么功能模塊過于透明,不易擴展。因此,為了更好地解決信息資源集成問題,本文充分考慮模型的設計目標,遵循模型的設計原則和要求,參照Tim Berners-Lee提出的語義網結構層次模型,探討語義網技術的特點及其在信息資源集成中的作用,提出了一種新的數字圖書館信息資源集成模型,該模型共五層,分別是數據源層、信息描述和組織層、語義整合層、資源存儲層和用戶交互層,如圖1所示。

圖1 語義網環境下數字圖書館信息資源集成模型

該模型在獲取數字圖書館信息資源的基礎上制定元數據標準,使用RDF描述信息,引入語義網中的本體技術構建全局模式,通過RDF/RDFS和OWL賦予信息語義,為了提高本體的語義表達能力,在語義整合層加入語義規則,實現本體的一致性檢測和語義推理,[2]保證本體的準確性,然后運用數據倉庫和本體存儲技術將數字信息資源統一存儲在云端,使整合后的信息可以為用戶提供更加優質的服務。由于信息包括結構化、半結構化和非結構化信息,在數據獲取層需要將非結構化信息和半結構化信息先轉化為結構化信息。為了實現信息的標準化描述,在信息描述和標準化層需要制定統一的元數據標準,參照元數據標準,將數據獲取層的信息同時存儲在RDF/XML文件和數據庫中,在語義整合層構建全局本體,為每個數據源分別構建局部本體,局部本體的構建需要領域專家的參與和完善,在局部本體與全局本體之間建立映射關系,創建映射規則庫,解決語義異構問題。將RDF和OWL本體中的信息存儲在數據庫中,經過ETL后把所有信息可以暫時存儲在ODS(Operational Data Store)中,進一步存儲在數據倉庫中,通過統一人機交互界面接入數據訪問接口,根據不同的需求訪問不同存儲形式的信息資源(包括數據庫、數據倉庫和RDF/OWL文件),實現語義檢索功能,針對不同的使用目的向用戶提供個性化、專業化和智能化的協同檢索和推薦服務;智能檢索引擎既能夠訪問數據庫和數據倉庫,也能夠遍歷RDF/XML和OWL文件中的信息。

3 語義網環境下數字圖書館信息資源集成模型構建過程

3.1 數字圖書館用戶興趣模型的表示

為了滿足用戶的信息需求和興趣偏好,本文提出的模型需要收集用戶基本信息,構建數字圖書館用戶興趣本體庫,通過用戶興趣本體表示用戶的興趣偏好,采用動態機器學習機制獲取用戶興趣概念。[3]根據用戶主動提供的信息以及系統對用戶行為的挖掘和分析(包括分析用戶的Web訪問日志和緩存信息),運用挖掘算法分析用戶的興趣需求,建立高質高效的用戶興趣模型,如圖2所示。根據用戶的實際選擇和反饋信息對已經建立的用戶興趣模型進行修正,確保用戶興趣模型能夠自我更新和不斷完善,從而使得最終的用戶興趣模型能全面而準確地反映用戶的興趣。系統按照初步建立的模型把檢索到的信息推薦給用戶,根據用戶模型對文本進行預處理后形成的關鍵詞集合進行過濾,同時發掘具有共同興趣的用戶群,為數字圖書館用戶提供個性化、專業化和智能化的協同檢索和推送服務。

圖2 數字圖書館用戶興趣模型的構建過程

用戶興趣模型描述了用戶的興趣偏好,同時根據用戶對信息的反饋和評價,更新用戶模型,從而更新知識產品。構建用戶興趣模型需要分析用戶獲取信息的方式,借助領域本體準確、規范地描述用戶感興趣的信息,建立用戶興趣挖掘模型,向用戶提供所需的信息。數字圖書館用戶興趣挖掘運用適當的挖掘算法,計算分析用戶瀏覽網頁時留下的日志記錄信息,發現用戶感興趣的內容。

用戶訪問數字圖書館會產生日志記錄文件,包括訪問日志、引用日志、代理日志和錯誤日志等。日志文件中記錄了大量的用戶訪問信息,包括用戶的ⅠP地址、訪問時間、瀏覽頁面URL、請求方式和字節數等,還有網站服務器接受、處理請求以及運行錯誤等多種信息。通過挖掘相關的Web日志記錄,可以發現用戶訪問Web頁面的模式;通過分析日志中的記錄規律,可以識別用戶的忠誠度、喜好、滿意度,發現潛在用戶,改進服務效果,提高服務競爭力。通過用戶提供的信息,結合用戶的瀏覽行為和訪問日志獲得用戶的偏好,利用本體庫中的相應概念表示用戶模型,根據模型將符合條件的內容推薦給用戶,并在相關反饋的基礎上改進用戶模型。

3.2 數字圖書館領域本體的構建

領域本體庫包含著一個領域中最基本的概念、概念的定義以及各個概念之間的語義關系網絡,它在整個語義檢索過程中起著非常重要的作用。領域本體確定了該領域內普遍認同的確切概念,通過對概念之間的關系進行語義描述,使用戶與機器之間的交流上升到語義層次。用戶在進行查詢時會調用領域本體庫,從中找出與關鍵詞相對應的概念所在的領域,將該領域下的相關概念提供給用戶,幫助用戶生成更精確地查詢,提高查詢效率;領域本體的構建方法如圖3所示。

圖3 領域本體構建

Noy和Hafner提出了本體構建的七個步驟:確定領域和范圍;重用現有本體是否可行;列出本體中的重要術語和主題詞;定義類和類的繼承關系;定義屬性和關系;定義屬性的限制;構建具體實例。[4]

領域本體庫構建完成之后,運用SWRL和描述邏輯對構建的領域本體進行推理得出隱含的信息,同時完成一致性檢測。例如,在某領域本體庫中,許多概念具有交叉相關性,因此,在構建本體過程中,需要定義概念之間的邏輯關系,使用推理機制完成概念相互關系的說明,避免概念的重復構建,保持概念應有的邏輯關系。領域本體庫的構建不是一勞永逸的,因為數字圖書館信息資源是動態變化的。因此,必須根據數字圖書館信息資源的變化及時調整和更新已經構建的本體,維持領域本體在整個系統中的作用,不斷適應用戶的需求。需要利用推理機對本體進行預處理以消除沖突,選擇利用Racer推理機來對本體的概念和實例進行層次分類和調整,消除本體內部不一致性沖突,從而形成一個完整、有效的OWL知識庫。從OWL本體和SWRL規則庫到Jess事實庫和規則庫,要經過事實轉換和規則轉換。由于Jess推理機不能識別OWL格式的本體和SWRL格式的規則,所以在進行推理之前,要對OWL本體和SWRL規則進行轉換。Jess推理引擎是推理過程的核心部分,它基于事實庫和規則庫進行推理,從而得出新的事實。然后,將新的事實添加進原來的本體中,令原本體中隱含的語義關聯得到顯性化,從而為數字信息資源的智能檢索、個性化推送等功能打下基礎。

常用的規則推理引擎有Jess、CLⅠPS、Prolog等,而目前還沒有專門針對SWRL的推理引擎。Jess(Java Expert System Shell)由推理機、事實庫和規則庫三部分構成,支持正向推理和后向推理。盡管Jess不支持基于OWL的本體和基于SWRL的規則,但是我們可以將OWL本體和SWRL規則轉換成Jess推理引擎能夠識別的格式?;赟WRL的本體推理過程如圖4所示。

圖4 基于SWRL的推理

利用領域本體對數字信息資源進行標引,即對文檔集進行內容抽取并分析特征詞,建立概念集之間的關聯,形成具有語義關聯的知識庫。本體提供了學科領域的概念、概念之間的關聯以及領域的核心理論,可以通過本體將信息資源組織成具有網狀結構的、可共享的知識結構體系,表達顯性和隱性的語義信息。這樣文獻資源能夠被更好地組織和劃分,概念間的語義關聯也能被精確定義,為實現知識推理和智能化檢索提供了鋪墊。借助領域本體對信息集合進行語義分析與標注后,形成具有語義關聯的資源元數據集合,然后存入本體知識庫。

3.3 數字圖書館元數據描述框架

對數字圖書館不同數據源的元數據信息分別進行提取,借助XML/RDF文檔加以組織,在無人工干預的情況下,參照原有的數字圖書館元數據標準重新定義,提取不同的應用模式,并存儲在元數據庫中。由于RDF模式(RDFS)具有開放性,用戶可以自行定義和擴展RDF模式,通過XML/RDF對信息資源進行無二義性的描述。為了保護現有的數字圖書館信息資源,充分挖掘數字信息資源,數字圖書館適宜采用多種元數據標準并存的方法。

可行的方案是以Dublin Core元數據為核心元數據庫,多種對應于不同資源類型的元數據方案并存,并以基于XML語法的RDF/RDFS語言將它們封裝在一起,使基于該模型的元數據資源能夠為機器所理解,如圖5所示。

圖5 數字圖書館元數據描述框架

該元數據描述框架是一個靈活可擴展的元數據方案,主要是利用RDF將多種不同類型的元數據進行封裝,既充分保留和利用了數字圖書館中原有的元數據信息,也確保了對不同類型的資源性元數據描述。此外,RDF具有開放、標準和統一的特性,為將來數字圖書館信息資源的遷移奠定了良好的基礎。由于不同類型的元數據集合之間往往需要進行互操作以完成應用需求,定義一個統一的元數據庫是十分必要的,有利于實現不同元數據集之間的轉換和映射。

3.4 數字圖書館信息資源存儲平臺的搭建

數字信息資源的存儲需要搭建一個云計算平臺,將所有信息存儲在云端,數據倉庫和本體存儲技術實現了資源的云存儲,云存儲是一個以數據存儲和管理為核心的云計算系統。通過云計算機技術存儲整合后的信息,能夠為用戶提供更加優質高效的服務。

數據庫中的信息通過抽取、清洗和轉換等ETL過程存儲在ODS、數據集市和數據倉庫中,可以根據需要進行多次數據處理;多媒體文件存儲在多媒體資源庫;網絡信息資源在預處理后參照元數據標準存儲在本體中,表現形式為XML、RDF和OWL文件,RDF信息最為直觀,XML其次,OWL最為復雜,進一步可以將這些文件中的信息存儲在數據倉庫。通過開源框架可以進行本體存儲,常用的有Jena和Sesame。如果是使用Oralce這樣的支持語義功能的數據庫,則需要將RDF/XML和OWL文件先轉換為N-triples格式才能存儲。

4 結語

本文探討了語義網技術在數字圖書館信息資源集成中的作用,并運用語義網技術解決了數字圖書館信息資源集成中的信息表示和語義異構問題,提出了一種基于語義網技術的數字圖書館信息資源集成模型。該模型具有很強的可操作性,各個層次完成相應的工作,通過層與層之間的接口緊密結合,從而實現數字圖書館信息資源的整合,旨在為用戶提供更加優質的個性化服務??紤]到數字圖書館信息資源的多樣性、復雜性、海量數據和個性化等特點,該模型力求抽象,為進一步的完善和擴展打下基礎。

[1]張曉林.走向知識服務——尋找新世紀圖書情報工作的生長點[J].中國圖書館學報,2000(5):32-37.

[2]唐曉波,金鐘鳴.基于本體與規則的語義推理研究[J].情報學報,2011,30(7):695-703.

[3]左暉,等.個性化知識服務中基于Ontology的用戶興趣挖掘研究[J].情報學報,2008,27(1): 18-23.

[4]NoyN,HafnerC.The stateoftheartinontologydesign[J].AⅠMagazine,1997,18(3):53-74.

G250.76

A

1005-8214(2014)01-0086-04

劉衛寧(1975-),男,漢族,山東棗莊人,中南民族大學民族學與社會學學院博士生。

2012-09-27[責任編輯]王鈞梅

猜你喜歡
本體語義數字
眼睛是“本體”
語言與語義
答數字
基于本體的機械產品工藝知識表示
批評話語分析中態度意向的鄰近化語義構建
數字看G20
“社會”一詞的語義流動與新陳代謝
“吃+NP”的語義生成機制研究
成雙成對
專題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合