?

基于本體的高校信息資源集成研究

2015-09-01 07:03
通化師范學院學報 2015年6期
關鍵詞:信息源異構全局

劉 萍

(江陰職業技術學院,江蘇 江陰 214405)

1 引言

目前我國高校各部門各自先后開發了管理信息系統,形成了一個個信息孤島,無法統一訪問各個系統中的異構信息資源,因此,需要對異構信息資源集成.傳統的信息資源集成方式,如:基于XML的信息集成[1],能較好地解決信息源結構和語法上的異構,卻無法解決語義異構.因本體對資源在語義層次上的形式化描述和對邏輯推理的支持[2],可解決語義異構問題.本文提出了基于本體的信息資源集成模型體系結構,并對該模型的關鍵技術進行了研究,最終設計原型系統驗證了該模型的可行性.

2 基于本體的信息資源集成模型體系結構

混合本體方法[3]是基于本體的信息資源集成方法中的一種,該方法建立局部本體與各信息資源之間的關系,并在局部本體之上使用共享的詞匯集合,即全局本體,它包含了領域中的基本術語,它是構建局部本體的基礎.經典的“Wrapper/ Mediator(包裝器/調節器)”體系結構,它通過提供所有異構信息源的虛擬視圖進行集成[4].本文借鑒混合本體和“Wrapper/ Mediator”體系結構,并結合Web Services技術提出基于本體的信息資源集成模型體系結構,如圖1所示.該模型不僅適合高校信息資源集成,而且還可以通過改變本體定義和信息資源改變模型的應用范圍,該模型若應用到企業,可以集成企業各供應鏈上的信息資源,給企業決策提供支持,因此,該模型具有通用性.

圖1 基于本體的信息資源集成模型體系結構

2.1 模型層次結構

模型分為以下三個層次.

(1)信息資源抽取層,該層主要負責獲取分布在各個異構信息資源中的信息.該層設計了Wrapper,其功能是將對底層信息資源的查詢封裝成查詢服務,并把根據局部本體和本體映射構建服務描述信息注冊到服務注冊中心.該層信息源可以有結構化、非結構化和半結構化等.本文主要研究關系數據庫的異構信息集成.

(2)信息集成中介層,該層查詢分析器對用戶請求按本體庫進行推理,找到語義上相似的概念擴展原請求,并按本體庫轉換成全局Ontology_SQL查詢,該查詢類似SQL,但查詢中所用術語是本體庫中的概念和屬性;接著把該查詢提交給查詢分解器,按分解算法分解為Ontology_SQL子查詢集,子查詢集由查詢翻譯器根據本體庫翻譯為SQL子查詢,SQL子查詢提交給查詢處理器,通過發現服務注冊中心的查詢服務獲取查詢結果,并將結果進行合并、去冗余、排序、轉換等處理,將查詢結果返回給用戶.

(3)用戶接口層,該層為用戶提供統一訪問界面,用戶輸入查詢請求,然后在界面上會得到返回結果.

2.2 本體構建

本體在信息集成中起著語義描述、為查詢提供全局視圖和本體推理等作用.因此,本體是解決語義異構問題的核心.下文對本體進行構建.

(1)全局本體構建需要在領域專家的幫助下建立[5].包含如下4個步驟:①分析信息源;②查找和確定術語;③定義全局本體:全局本體中的概念一部分來源于領域專家的抽取,另一部分來源于局部信息源集合,如某信息源中具有代表性的信息經專家判定后可歸納到本體中;④本體編碼:形式化描述出來,因OWL提供豐富的語義表達機制,因此,本文采用OWL來描述本體.

(2)高校信息資源中主要信息源為關系數據庫,本文主要討論該種類型信息源的局部本體構建,并同時產生局部本體與信息資源的映射.基于關系數據庫的局部本體創建策略[6]:每個數據庫對應一個局部本體,表對應局部本體里的類,表名即為類名,用owl:class表示,表中的字段對應局部本體中該類的屬性,屬性名即為字段名,用owl:datatypeProperty表示,除外鍵外所有字段都定義為該形式.外鍵字段定義為類的owl:objectProperty,設置rdfs:range為所參照的表轉換的類,rdfs:domain表示該字段所屬的表轉換的類.

(3)本體映射是解決語義異構問題的核心.建立本體映射為查詢分解提供支持.本文中通過如下規則建立全局本體與局部本體映射.

①兩個概念有相同的父概念,或者有相同的子概念,或者有相同的兄弟,或者存在相同的實例,或者存在相同的屬性,則表示這兩個概念可能相同;

②若兩個屬性存在相同的定義域或值域,或者存在相同的父屬性,或者存在相同的子屬性,則表示這兩個屬性可能相同.

2.3 全局查詢分解算法

全局Ontology_SQL查詢,定義:設C為全局本體中的概念,A為屬性,全局Ontology_SQL查詢定義為元組,其中:Select={Ci.Aij|?i=1,…,n,?j=1,…,m},Ci為全局本體中任意的概念,Aij表示概念Ci對應的某屬性;From={ Ci|?i=1,…,n},Ci為全局本體中任意的概念;Where=Wcon∪WvarWcon{wconi|i=1,…,s}表示將概念的屬性與常量相比較;Wvar={wvar i|i=1,…,t}表示將概念的屬性與其他概念的屬性相比較.

全局查詢分解算法就是使用局部本體中等價的術語替換全局Ontology_SQL查詢語句中的術語.本文提出了一個簡單易用的全局查詢分解算法[7]:

輸入:全局Ontology_SQL查詢,以及全局本體與局部本體之間的映射文件mapping.owl.

輸出:針對每個局部本體的子查詢(也即針對各信息源的子查詢).

算法:

(1)對全局Ontology_SQL查詢進行子句分離,分離其Select、From、Where子句.對于Select子句中的每一個形如Ci.Aij的子項,在mapping.owl中查找類Ci,使用Jena API對該映射文件進行解析,取出與Ci對應的等價類.同理查找屬性Aij,取與之對應的等價屬性,將類與屬性的等價結果組裝成對應各個局部本體的子表達式,將結果寫入Select列表.

(2)對于From子句,在mapping.owl中查找類,取與之對應的等價類進行替換,將結果整合寫入From列表.

(3)對于Where子句中每一個形如C.mD.n提取其類、屬性和關系,在mapping.owl中查找全局類C、D,取與之對應的等價類,并且查找全局屬性m、n,取與之對應的等價屬性,對于Where子句中每一個形如C.mConstant,Constant常量不作處理,僅類似于前面處理C.m,最后將類與屬性的等價結果組裝成對應各個局部本體的子表達式后,將結果寫入Where列表.

(4)最后合并對應的三個子句,組裝出對應各個局部本體的子查詢.

2.4 原型系統

為驗證模型,本文采用JavaEE平臺下的SSH框架進行原型系統開發.開發環境采用MyEclipse2014,應用服務器采用Tomcat7.0.系統采用當前開發Web的主流技術:Struts、Spring、Hibernate、Web Services和Jena等,采用MySQL數據庫存儲信息.用戶通過瀏覽器訪問該原型系統,例如:輸入關鍵字“學生”進行查詢,如圖2所示,查詢出來的結果集里不僅包括“學生”的結果,還包含“新生”、“畢業生”、“成教生”等結果.實驗結果驗證了本文提出的模型能夠解決語義異構問題.

圖2 原型系統的用戶界面

3 總結

本文提出基于本體的信息資源集成模型采用全局本體為信息資源集成提供全局視圖,局部本體描述各信息源的語義,本體的兩級映射降低了集成系統的耦合性.由于高校信息資源中不僅有各類關系數據庫,還有很多資源是網頁和電子文檔,本文僅研究了對關系數據庫這類資源的局部本體構建,未來將研究如何自動創建網頁和電子文檔等信息資源的局部本體,還將在本體映射、查詢優化等問題上繼續研究.

猜你喜歡
信息源異構全局
Cahn-Hilliard-Brinkman系統的全局吸引子
試論同課異構之“同”與“異”
量子Navier-Stokes方程弱解的全局存在性
睡眠者效應
新媒體時代,記者如何正確使用信息源
商周刊(2019年1期)2019-01-31
落子山東,意在全局
異構醇醚在超濃縮洗衣液中的應用探索
LTE異構網技術與組網研究
新思路:牽一發動全局
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合