?

基于本體和語義網的網絡教育資源檢索研究

2011-01-02 06:45郭廣軍王劍波游新娥劉安豐
關鍵詞:本體教育資源檢索

郭廣軍,王劍波,游新娥,劉安豐

(1.婁底職業技術學院,湖南 婁底 417000;2.湖南人文科技學院 計算機科學技術系,湖南 婁底 417000;3.中南大學 信息科學與工程學院,長沙 410083)

2007年1月22日,教育部財政部頒發《關于實施高等學校本科教學質量與教學改革工程的意見》中提出要“積極推進網絡教育資源開發和共享平臺建設,為廣大教師和學生提供免費享用的優質教育資源,完善服務終身學習的支持服務體系”.2010年7月29日,中共中央、國務院正式發布的《國家中長期教育改革和發展規劃綱要(2010—2020年)》[1]對于加快教育信息基礎設施建設中提出要“充分利用優質資源和先進技術,創新運行機制和管理模式,整合現有資源,構建先進、高效、實用的數字化教育基礎設施,推進數字化校園建設”.關于加強優質教育資源開發與應用中提出要“加強網絡教學資源庫建設,開發網絡學習課程,建立數字圖書館和虛擬實驗室,引進國際優質數字化教學資源,建立開放靈活的教育資源公共服務平臺,促進優質教育資源普及共享”.

隨著教育信息化進程的大力推進,網絡教育資源的建設越來越受到國家和各高校的重視.網絡教育作為現代遠程教育的一種重要形式,已成為當今教育的重要組成部分,其優勢在于具有海量的網絡教育資源,該優勢如何利用和發揮好是個大難題,已經成為關系網絡教育成敗的關鍵因素.我國投入了大量的資金用于資源建設,但與發達國家相比,目前我國網絡教育資源仍存在很大不足.一方面,由于網絡教學資源的共享和教學系統的互操作缺乏統一的格式和交換標準以及通用的技術手段,形成信息孤島,難以共享,降低了教育資源的有效性,導致了資源的重復建設;另一方面,面對海量的資源信息,由于管理困難,缺乏智能,使得資源無法精確定位,使用者無法高效快捷查找使用資源.這是當前我國網絡教育資源建設與共享中存在的十分復雜而亟待解決的重要問題.其根本原因在于缺乏資源建設的統一標準(規范)和具體可行的技術方案.標準需要包括資源描述、資源建設、資源調用、資源管理等方面內容.克服這些問題的有效措施是建立網絡教育應用層次的技術標準,從技術上保證教育資源的可共享性和不同體系之間的互操作性.

網絡教育資源指在網絡上蘊藏的各種形式的與教育相關的知識、資料、情報、消息等的集合,包括設計的、利用的和集成的教育信息資源,它們以數字形式在網絡上進行傳播,能夠應用在網絡或現實的教學環境中,起到輔助教學、學習、教研和管理活動的作用.要實現網絡教育系統之間的資源交互和共享,必須實現對網絡教育資源的語義描述,并將網絡教育系統構建在標準結構之上.目前資源的語義較多采用元數據和本體描述,而語義Web提供了語義互操作模型,能有效實現網絡資源的發現、共享和集成應用,本文主要研究網絡教育資源本體構建方法和基于本體的網絡教育資源語義檢索模型與方法.

1 關鍵技術

1.1 語義網

圖1 語義網層次模型Fig.1 Hierarchical model of the semantic web

語義網(Semantic Web,語義 Web)提供了在應用、企業和社區之間共享數據的通用框架,它是現有Web的延伸,其中信息被賦予了良定義(well-defined)的含義,以使人與計算機能更好地協同工作.其目標是面向異質、動態、開放、全球化的Web,通過語義來解決不同應用、企業和社區之間的互操作性問題.2006年,Tim Berners-Lee給出了新的語義網層次模型[2],如圖1所示,其中,①UNICODE和URI層:UNICODE使用國際通用字符集處理資源編碼,實現Web上信息的統一編碼;URI(Uniform Resource Identifier,統一資源標識符)支持語義Web上對象和資源的標識.②XML+NS+XMLS層:將 Web上資源的結構、內容與數據的表現形式分離,支持與其他基于XML的標準無縫集成.③RDF+RDFS層.RDF是語義Web的基本數據模型,用以描述Web資源.RDFS提供了將Web對象組織成層次的建模原語,主要包括類、屬性、子類、子屬性關系、定義域和值域約束.④ 本體層:采用OWL表示本體(Ontology),揭示資源以及資源之間復雜和豐富的語義信息,將信息的結構和內容分離,對信息做完全形式化的描述,使Web信息具有計算機可理解的語義.⑤ 邏輯層:用來提供公理和推理規則,為智能推理提供基礎.⑥ 證明層:執行邏輯層的規則,并結合信任層的應用機制來評判是否能夠信任給定的證明.⑦信任層:提供信任機制,保證用戶Agent在Web上提供個性化服務,以及彼此之間安全可靠的交互.

1.2 本體

Studer等人[3]對本體的定義為:“本體是共享概念模型的明確的形式化規范說明.”運用本體可以把現實世界中某個領域抽象成一組概念和概念之間的關系,提供對該領域的普遍、共享的知識表示,實現在異構分布的計算機系統中被理解和交流.Perez等歸納出構成本體的5個基本元素[4]:① 概念(Concepts)或類(Classes):可指任何事物,如描述、功能、行為、策略和推理過程等,本體中的概念通常構成一個分類層次樹.② 關系(Relations):代表領域中概念之間的交互作用,形式上定義為n維笛卡兒乘積的子集:R∶C1×C2×…×Gn.③ 函數(Functions):是一種特殊的關系,其前n-1個元素可唯一決定第n個元素,其形式化的定義:F∶C1×C2× … ×Cn-1→Cn.④ 公理(Axioms):代表永真斷言,是定義在概念和屬性上的約束和規則.⑤ 實例(Instances):是指屬于某概念類的基本元素,即某概念類所指的具體實體.按照領域依賴程度,本體可分為頂層、領域、任務和應用本體4類[5].頂層本體描述的是最普通的概念及概念之間的關系,如空間、時間、事件、行為等,其他種類的本體都是該類本體的特例;領域本體描述特定領域(如網絡教育資源)中的概念及概念之間的關系;任務本體描述特定任務或行為中的概念及概念之間的關系;應用本體描述依賴于特定領域和任務的概念及概念之間的關系.

2 語義信息檢索

當前面向用戶直接閱讀和處理的Web技術沒有提供機器可讀的語義信息,因而限制了計算機自動分析和智能化處理的能力.傳統的信息檢索方法或搜索引擎,都是以關鍵詞匹配為基礎的,其主要缺陷有:①不能對Web信息提供語義級的組織、理解和處理等以滿足用戶在語義和知識上的需求;②檢索結果只是在字面上符合用戶的要求,檢索返回內容常偏離用戶的需求;③用戶輸入的查詢稍有偏差,檢索系統就無法確定用戶的真正需求,而無法提供正確的結果.為了解決前述問題,可在信息檢索中采用語義技術.語義信息檢索的方法一方面采用語義技術改進傳統的信息檢索,另一方面運用傳統信息檢索幫助語義查詢.在語義檢索中,傳統信息檢索有助于發現可重用的領域本體,為語義查詢增加自適應性,改進問答系統的性能等.也可利用信息檢索中的倒排索引對語義信息進行索引,并回答語義查詢.語義信息檢索的一般框架[6]如圖2所示.

圖2 語義信息檢索一般框架Fig.2 General framework for semantic information retrieval

3 網絡教育資源本體構建

3.1 本體構建方法

目前本體構建[7]沒有統一的標準.1995年Gruber提出了本體構建的五條原則:① 明確性與客觀性:本體應該用自然語言對所定義的術語給出明確、客觀的語義定義.② 完全性:所給出的定義是完整的,完全能表達所描述的術語的含義.③ 一致性:由術語得出的推論與術語本身的含義是相容的,不會產生矛盾.④ 最大單調可擴展性:向本體中添加通用或專用的術語時,不需要修改已有內容.⑤最小承諾:對待建模對象給出盡可能少的約束.

當前比較有影響的本體構建方法有:①TOVE(Toronto Virtual Enterprise)法[8]:用于企業建模過程的知識本體構建,使用一階謂詞邏輯進行集成,主要包含有企業設計本體、項目本體、調度本體和服務本體.② 骨架(Skeletal)法[9]:用于構建企業本體(Enterprise Ontology);③ Methodology法[10]:用于構建化學知識本體(有關化學元素周期表的本體);④ KACTUS工程法[11]:主要解決技術系統生命周期過程中的知識復用問題.⑤SENSUS法[12]:是美國南加州信息科學研究所(ISI)為研發機器翻譯器提供無限概念結構所開發的方法,主要用于自然語言處理.⑥IDEF5法[13]:是美國 KBSI(Knowledge Based Systems Inc.)開發的用于描述和獲取企業本體的方法,它通過使用圖表語言和細節說明語言,獲取關于客觀存在的概念、屬性和關系,將其形式化后作為知識本體的主要架構.IDEF5創建本體的5個步驟:(1)定義課題與組織隊伍;(2)收集數據;(3)分析數據;(4)本體初步開發;(5)本體優化與驗證.⑦ 七步法[14]:由斯坦福大學醫學院開發,主要用于領域本體的構建,其七個步驟:(1)確定本體的專業領域和范疇;(2)考查復用現有本體的可能性;(3)列出本體中的重要術語;(4)定義類和類的層次體系;(5)定義類的屬性;(6)定義屬性的刻面;(7)創建實例.

3.2 網絡教育資源元數據

3.2.1 教育資源元數據標準 目前大多使用學習對象元數據[15](Learning Object Metadata,LOM)作為教育資源的共享標準.LOM是關于學習對象的信息,為學習者或教育者對學習對象的查找、評估、獲取、使用、共享和互操作等提供技術支撐.現有教育資源元數據描述標準[16]:①OCLC的Dublin Core元數據規范:定義了一個所有網絡教育資源都應遵循的通用核心標準,包括Title、Creator、Subject、Description、Publisher、Contributor、Date、Type、Format、Identifier、Source、Language、Relation、Coverage、Rights共15個方面的標準信息.②IEEE的LOM(Learning Object Metadata,學習對象元數據)規范:主要定義了General、Lifecycle、Meta-Metadata、Technical、Educational、Rights、Relation、Annotation、Classification 共 9個類別的數據信息.③IMS的LRM(Learning Resource Metadata,學習資源元數據)規范:描述了IMS元數據的名稱、定義、結構和約束.④ADL的SCORM可共享內容對象參考模型:它借鑒了IEEELOM、IEEE API、IMS CP和IMS SS等,包括內容聚合模型CAM,運行時間環境RTE,排序和導航SN 等.⑤CELTSC(Chinese E-Learning Technology Standardization Committee,中國教育信息化技術標準委員會)的系列規范:共發布了11種試用標準(規范),與教育資源相關的有:CELTS-3學習對象元數據、CELTS-41教育資源建設技術規范和CELTS-42基礎教育教學資源元數據規范.

3.2.2 CELTS-41技術規范 教育資源建設規范的目的是為資源開發者提供一致的標準,達到資源基本屬性結構的一致性,實現資源在區域內的共享,為學習者或教育者等對教育資源的查找、評估、獲取和使用能獲得最大效率而提供支持.同時也為不同資源庫實現數據的共享和互操作提供支持.CELTS-41教育資源建設技術規范[17]的基本結構如圖3所示.

圖3 教育資源建設技術規范基本結構Fig.3 Basic technical specification for education resources constructing

在圖3中,①核心LOM必須數據元素是任何類型的資源都必須具備的屬性標注,包括標識、標題、語種、描述、關鍵字和覆蓋范圍等.②可選數據元素是從學習對象元數據規范的可選數據元素中抽取出來與教育資源密切相關、并對各類教育資源都適用的屬性集合.可根據用戶需求和開發者自身的工作過程作為參考屬性有選擇的使用.③分類數據元素是根據媒體素材、試題、試卷、課件、文獻資料、案例、常見問題解答、資源目錄索引和網絡課程九類資源各自的特點,從LOM模型的可選集中選取與某類資源密切相關的屬性,并補充了一些基本的、必要的特殊資源分類屬性.

3.2.3 本體與元數據的關系 本體和元數據都是伴隨網絡信息處理發展起來的新方法,對知識的組織和管理、信息的檢索都有很重要的意義.它們之間既有聯系又有區別.元數據是關于Web資源和其它一些實體的機器可理解的信息[18].元數據和本體的共同之處在于:都采用標準的編碼語言進行形式化處理,能為資源提供語義基礎,可用于資源組織和資源發現.其差異表現為元數據難以對不同知識體系、不同粒度的資源進行描述,而本體則是提供了不同元數據之間的相互映射機制,可以實現異構系統之間的互操作[19].本體可在某種程度上彌補元數據的不足:①本體能解決信息系統的語義異構問題,包括資源的微觀結構異構以及資源對象間的復雜關聯關系.②本體可通過語義Web服務架構,提供一種在元數據方案之間自動映射機制,解決元數據方案的普遍適應性問題.③本體可以進化,可通過自動和半自動的手段應用新的元數據方案.④本體可以對不同知識系統、不同粒度的資源進行描述,實現異構資源和系統之間的語義聯系.⑤本體可對數字資源的整個生命周期進行描述.

3.3 基于元數據的本體構建方法

本文以七步法為基礎,基于元數據,通過建立元數據和本體構建過程的映射來開發本體,映射關系如圖4所示,左邊為七步法構建本體的具體步驟,右邊是與元數據的映射關系.基于元數據的七步法構建本體方法如下:

圖4 基于元數據的本體構建Fig.4 Metadata-based ontology construction

Step 1:確定本體的領域和范圍.本文選擇CELTSC-41作為教育資源建設技術標準作為元數據方案來構建本體所要描述的領域.

Step 2:考慮現有本體的復用.若系統需要與其他特定的本體知識庫或受控詞匯應用交互,則系統需求可以考慮復用現有的本體知識庫,或者與本體庫建立映射關系.

Step 3:列舉本體的重要術語.可以結合多個元數據方案,提取元數據規范中定義的數據元素和分類信息.

Step 4:定義類和類層次.類是本體知識庫的核心,用來描述領域的概念.從第三步的術語列表中選擇獨立的描述對象術語,類一般是按一定的分類系統定義的.如LOM中的文本類、視頻類、音頻類和創建者類等.

Step 5:定義類的屬性.在定義了類及其層次后,應該描述概念的內部結構,即類的屬性.子類可以繼承或覆蓋父類的屬性.屬性具有逆向性,并可具有默認值.通常,有固有的特性、外在的屬性、局部和關系四類對象特性能變成本體中的屬性.屬性分數據屬性和對象屬性.

Step 6:定義屬性的約束.包括屬性的值類型、值域范圍、基準值等.

Step 7:生成實例.先選擇實例所屬的類,然后生成一組實例,最后填充屬性的值.

4 基于本體的網絡教育資源語義檢索系統

為了實現面向網絡教育資源的語義檢索,首先需要對網絡教育資源進行采集和存儲,并依據語義模板進行語義標注和建立語義索引.當用戶提交查詢請求后,在對其進行規范化處理后,根據一定的查詢擴展機制對該查詢請求進行語義擴展,然后根據擴展后的查詢請求進行檢索,并將檢索結果按照特定的排序邏輯進行排列后返回給用戶.

基于本體的教育資源語義檢索系統框架圖5所示,由資源入庫與語義標注器、本體管理器、檢索預處理器、檢索重構器、檢索引擎共5大部分組成.

圖5 基于本體的教育資源語義檢索系統框架Fig.5 Ontology-based semantic retrieval system framework of educational resources

4.1 資源入庫與語義標注器

資源入庫子系統在對教育資源進行必要的預處理后分類存儲,并提供對資源的修改、刪除和管理功能;語義標注器依據教育資源任務本體,針對不同類型的教育資源構造相應的語義模板.該模塊實現對教育資源元數據的自動提取,并依據語義模板對教育資源進行高層語義表示,隨后將包含教育資源元數據語義標識和高層語義標識的特征文件存入特征文件庫.

4.2 本體管理器

本體管理器負責完成MySQL數據庫對OWL格式本體的存儲和訪問,利用推理引擎實現推理,并將推理結果存入本體信息數據庫,實現對現有本體和本體信息數據庫的更新.

4.3 檢索預處理器

檢索預處理器根據教育資源本體庫和通用詞典判斷用戶查詢請求中的每個檢索詞是否為本體詞匯,首先進行分詞與詞性標注,對中文語句形式的查詢請求進行規范化處理,并依據特定的查詢詞權重賦值策略,為每個查詢詞賦予相應的語義層次和權值,最后形成查詢向量送檢索重構器.

4.4 檢索重構器

檢索重構器訪問教育資源本體庫,獲取查詢向量中每個查詢詞的語義擴展結果,獲取查詢詞的關聯概念以及它們之間的語義距離,將經過語義擴展后重構出標準通用的SPARQL查詢語句提交給檢索引擎.

4.5 檢索引擎

檢索引擎先將SPARQL查詢語句進行語義關系推理,再根據特征文件庫建立語義索引文件并以此響應查詢請求,完成對查詢詞的語義層次歸類,根據收到的查詢詞權重信息和自身的排序邏輯對檢索結果進行排序,并將結果返回給用戶.

5 實驗結果

① 實驗環境:1)硬件環境:CPU為Intel(R)Core(TM)2Duo CPU E7500 2.93GHz,內存為2 GB;2)開發環境:操作系統為 Microsoft Windows XP Professional SP3;系統架構為Struts 2;開發平臺為 JDK1.6.0_10;本 體 編輯與管 理 工 具 是Protégé4.1;分詞工具包為ICTCLAS 5.0;數據庫管理系統為 MySQL 6.0;語義網開發包為Jena 2.8.8∶Jena是HP公司開發的一個基于Java的開放源代碼語義網工具包,為解析RDF、RDFS和OWL本體提供了一個編程環境及一個基于規則的推理引擎.② 實驗結果:實驗表明基于本體的網絡教育資源語義檢索系統原形系統是可用的,其優點表現在:1)能有效實現網絡教育資源的發現、共享和集成應用;2)提高了網絡教育資源檢索的查全率和查準率,提高了用戶滿度.

6 結束語

本文在闡述語義網、語義檢索、本體構建、元數據標準等關鍵技術基礎上,分析了本體與元數據的關系,給出了基于元數據的教育資源本體構建方法.設計了基于本體的網絡教育資源語義檢索系統.實驗表明基于本體的語義檢索提高了網絡教育資源檢索的查全率和查準率.

[1]中華人民共和國中央人民政府.國家中長期教育改革和發展規劃綱要(2010—2020年)[EB/OL].http://www.gov.cnjrzg2010-07/29/content_1667143.htm.

[2]Berners-Lee T,Weitzner D J,Hall W,et al.A Framework for Web Science[J].Foundations and Trends?in Web Science 2006,1(1):1-130.

[3]Studer R,Benjamins V R,Fensel D.Knowledge engineering,principles and methods[J].Data and Knowledge Engineering,1998,25(1-2):161-197.

[4]Perez A G,Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods[A].Proceedings of the IJCAI'99workshop on Ontologies and Problem-Solving Methods(KRR5)[C].Stockholm,Sweden:CEUR Publications,1999:1-15.

[5]Durbha S,King R L.Interoperability in Costal Zone Monitoring Systems:Resolving Semantic Heterogeneities[A].Proc of IEEE Internationa1 Geoscience and Remote Sensing Symposium,IGARSS’05 [C].Seoul:IEEE Computer Society Press,2005:236-239.

[6]高志強,潘 越,馬 力,等.語義 Web原理及應用[M].北京:機械工業出版社,2009.

[7]Huazhu S,Luo Z,Hui W,et al.Ontology and Metadata for Online Learning Resource Repository Management Based on Semantic Web[J].Journal of Southeast University:English Edition,2006,22(3):399-403.

[8]Grüninger M,Atefi K,Fox M S.Ontologies to Support Process Integration in Enterprise Engineering [J].Computational &Mathematical Organization Theory,2000(6):381-394.

[9]Uschold M,King M.Towards a Methodology for Building Ontologies[A].Workshop on Basic Ontological Issues in Knowledge Sharing,held in conjunction with IJCAI-95[C].Montrea1:Morgan-Kaufmann Publishers,1995.

[10]López M F.Overview of Methodologies for Building Ontologies[A].Proceedings of IJCAI-99’s Workshop on Ontologies and Problem Solving Methods[C].Stockholm:Morgan-Kaufmann Publishers,1999.

[11]Esprit Project 8145.The KACTUS Booklet version 1.0[EB/OL].http://hcs.science.uva.nl/projects/NewKACTUS/home.html.

[12]ISI Natural Language Processing Research Group.Ontology Creation and Use SENSUS [EB/OL].http://www.isi.edu/natural-language/projects/SENSUS-demo.html.

[13]Knowledge Based Systems Inc.IDEF5Ontology Description Capture[EB/OL].http://www.idef.com/IDEF5.htm.

[14]Noy N F,McGuinness D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford Knowledge Systems Laboratory Technical Report,2001.

[15]鄭維勇,唐 穎.基于LOM規范的教育資源庫管理系統[J].軟件導刊:教育技術,2007(12):46-48.

[16]陳玲玲.基于本體的教育資源語義檢索研究與實現[D].重慶:重慶大學,2009.

[17]張功杰.基于本體的領域資源語義檢索研究[D].廣州:暨南大學,2007.

[18]Berners-Lee T.Metadata Architecture[EB/OL].http://www.w3.org/Design Issues/Metadata.html.

[19]李金定.敘詞表、元數據與本體之間關系探究[J].圖書館研究,2007(8):61-64.

猜你喜歡
本體教育資源檢索
整合校外教育資源 做好青少年道德教育
基于本體的機械產品工藝知識表示
專利檢索中“語義”的表現
《我應該感到自豪才對》的本體性教學內容及啟示
面向數字化教育資源的Flash到HTML5轉換研究
自主學習視角下的開放教育資源文獻綜述(上)
專題
Care about the virtue moral education
“五老”是金錢買不到的優質教育資源
國際標準檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合