?

語義網理論研究

2010-10-09 07:49朱成兵
赤峰學院學報·自然科學版 2010年4期
關鍵詞:萬維網本體語義

朱成兵

(臺州職業技術學院 機電工程學院,浙江 臺州 318000)

語義網理論研究

朱成兵

(臺州職業技術學院 機電工程學院,浙江 臺州 318000)

語義網是對當前萬維網的延伸和擴展.本文首先闡述了語義網的概念,然后對語義網的體系結構進行了分析.最后,指出了語義網在智能信息檢索、企業間數據交換及知識管理、Web服務等領域的應用價值.

語義網;本體;Web服務

1 引言

萬維網創始人Tim Berners-Lee將萬維網的演化分為兩個階段[1],在第一個階段,萬維網應該是一個有利于人們進行信息交換和相互合作的強大工具.萬維網在最初十年的發展里,基本上實現了這個目標:它以HTml頁面的方式向人提供了大量可閱讀的信息;在第二個階段,這種合作應該延伸到機器.也就是說,連接到萬維網上的機器也應該能夠分析萬維網上的所有數據——包括內容、鏈接以及人與機器之間的交互.如何實現萬維網的第二階段目標正是目前學術界研究的熱點.實現這一目標的難點在于傳統的H T ml語言本身的固有缺陷,這種標記語言的標簽集只是對內容的顯示格式做了標記,由于缺乏針對數據內容的標簽,其數據的表現格式和數據內容糅合在一起.HTml語言的這種特點決定了萬維網上的信息內容很難被機器所理解,從而制約了一些需要對萬維網上的海量數據進行自動化處理應用的開發.雖然近年來人們在自然語言處理(NLP)、機器學習等領域做出了大量的努力,提出了基于概率統計、向量空間等多種方法來增強機器對文本信息的理解能力,但其最終的處理效果還不夠理想.從上述分析可知:由于當前廣泛使用的H T ml存在諸多的弊端,因此為了充分發揮萬維網海量數據存儲的優勢,就需要以一種機器可識別和理解的規范化格式交換web資源信息.

2 語義網的概念

萬維網的創始人Tim Berners-Lee提出的有關下一代萬維網的構想——語義網.語義網是一個夢想:期望Web上的數據通過另一種不同于現在的方式描述和鏈接,使這些數據不僅能以各種靈活的方式展現出來,也能被不同的應用程序所自動處理、綜合、重用.在語義網中,網頁中所蘊含的語義信息能使計算機完成大部分的自動化處理工作.

Tim Berners-Lee并沒有給出語義網的嚴格數學定義,只是在和當代萬維網的對比中,給出了如下的描述:語義網并不是一個從無到有、孤立發展的萬維網,而是對當前萬維網的延伸和擴展,語義網上的信息具有定義良好的含義,計算機能根據概念的定義聲明和邏輯推理規則發現資源對象的含義,使得機—機之間以及人—機之間都能夠更有效地合作處理;在語義網中定義和鏈接的數據能被各種不同的應用以更為有效的方式查詢、重用和集成.總結起來,語義網具有以下幾個顯著特征:

(1)文檔對象VS現實世界對象:語義網不僅是一個存儲文檔對象集合的網絡,它更是一個描述現實世界對象資源關系的網絡.

(2)人可讀VS機器可讀:和當代萬維網相比較,語義網的另一個顯著特征就是其包含了更多機器可閱讀和理解的語義信息.

(3)HTml和語義網的關系:萬維網作為世界上最大的信息儲藏所,其中蘊含的信息量超過世界上任何一個圖書館,在這一點上,HTml功不可沒,正是通過HTml中的超鏈接,才得以將世界上的各種信息資源鏈接在一起.但豐富多彩的現實世界中還存在著各種復雜的關聯關系,這就要求語義網不僅要能反映資源之間的超鏈接關系,而且還應能描述資源對象之間的豐富而又復雜的關聯關系,對這種復雜關聯關系的描述正是語義網的優勢所在.

根據上面的描述,人們給語義網下這樣的定義:語義網就是機器可以理解數據含義的下一代萬維網,其上的“語義”信息蘊含在各資源節點的邏輯聯系中.

3 語義網的組成

3.1 語義網的體系結構

信息資源根據其所處層次的不同,可以被劃分成不同的階或者勢,其中現實世界中未經加工處理的信息屬于零階,在整個信息層次結構中處于最底層;網頁資源信息處在第一階;在對HTml頁面經過初次加工之后,所獲取的網頁標引或索引信息處在第二階;有關信息資源對象的元數據或模式信息則是屬于第三階的信息;而邏輯推理、真值證明等信息理應擁有更高的階值,在信息層次結構中,階值越低的信息越具體詳實,較適合于人為處理;階值越高的信息其抽象程度越高,則更適合于機器的自動化處理.因此,語義網首要解決的問題就是建立起合理的信息層次結構,使其上面的信息是結構良好且有序的.Tim Berners-Lee在Xml 2000大會上描述了語義網的基本體系結構,如圖1所示.

3.2 UNI和Unicode(編碼層)

WEB環境下的各應用之間不可避免地需要相互通信,直接或間接地以機器可讀的格式傳遞信息.這些信息中很大一部分是對Web上資源的描述,因此,首先應該以明確的方式來標識這些資源對象.語義網采用統一資源標識符,URI (Uniform ResourceI dentifier)來標識資源及其屬性,URI是一個Internet標準,記載于RFC 2396中.它和萬維網常用的統一資源定位符URL以及統一資源名稱URN的區別在于URI能表示所有可以字符串作為標識符的資源信息,它既能表示網絡可達的資源,又能描述網絡不可達的資源,URL和URN都是URI的子集.另外,由于語義網的最終目的是要構建一個全球信息的網絡,在這個網絡上應能涵蓋各種語言和文字的信息資源,所以它采用編碼層作為字符的編碼解決方案.這一層位于語義網中的最底層,是整個語義網的基石,它成功地解決了萬維網上資源的定位和跨地區字符編碼格式的問題.

3.3 Xml、Name Space和Xml Schema(語法層)

說起當代互聯網的蓬勃發展,HTml的確立下了赫赫戰功.可是,HTml在制定之初就蘊藏了許多危機,隨著萬維網的不斷發展,這些危機不但沒有減弱,反而越來越突出,甚至已然成為制約H T ml繼續發展的障礙.歸納起來,H T ml語言主要存在以下幾個方面的問題:

(1)數據內容和數據表示不分,這是HTml最大的問題所在.

(2)HTml內部的結構性和條理性較差.

(3)HTml的標簽固定僵化,用戶不能自行擴展,導致很多的特殊信息無法表示,這就使得HTml很難滿足信息共享最大化的要求.

源于對HTml語言現存問題的分析,人們在語義網發展之初,就決定將Xml作為其語法層.和HTml一樣,Xml也是一種置標語言,都屬于SGml的子語言集.但Xml最大的特點在于它是一種可擴展的置標語言,提供了一個標準,根據這個標準,用戶可以根據實際需要定義自己的置標語言,并為你的這個置標語言規定它特有的一套標簽.準確的說,Xml 是一種源置標語言,它允許你根據它所提供的規則,制定各種各樣的置標語言,并可以通過文檔類型定義或Xml Schema來約束這些標簽的內部組織結構.但另一方面,由于X ml標簽可以由用戶自行定制,這樣就可能會造成標簽命名沖突的情況,為了解決這個問題,W3C的X ml小組制定了有關命名空間(Name Space)的標準[2].例如:用戶可以聲明如下標簽定義:

它表明author這個標簽是在K所代表的Name Space:http://foo.bar.com/x ml/customer.dtd中詳細聲明的.這樣即使其他人也自定義了author標簽,只要它們的Name Space不同,也不會造成命名沖突.因此,這一層通過Xml的特性,實現了文檔對自身結構的描述,實現了跨應用的語法互操作層,這是傳統的H T ml語言所無法完成的.

3.4 RDF和RDF Schema(元數據層)

Xml提供了Web數據編碼的語法依據,而RDF則規定了相關資源的語義描述框架.正如其名,RDF并不是一種新的語言,而是一個開放的元數據描述框架,它屬于語義網絡中的元數據層.在RDF資源描述框架中主要涉及到以下三個概念[3]:

資源:資源泛指可通過URI標識的任何事物.

特性:特性是描述某個資源的性質、特征、屬性或關系.

陳述:陳述是有關具體資源對象特性的具體描述.

任何復雜的系統都可以通過合理的分解操作,簡化成一組三元組(或陳述)集合.RDF是基于這一思想的:被描述的事物,具有一些屬性,而這些屬性各有其值,資源可以通過枚舉該資源的相關屬性及屬性取值來描述.R D F通過特定的術語來區分陳述中的各個組成部分,基于RDF的資源描述是由若干條資源陳述組成,并把這些陳述用特定的語法(如Xml,N3等)表示出來.

和Xml類似,RDF描述模型只是提供了一種與領域無關的通用數據描述方式,有關特定域元數據的定義和它們的語義信息描述還需要制定額外的標準或規范.

這個額外的措施就是RDFSchema,實際上在RDF中只定義了少量常用的建模原語,如RDF:Resource、RDF: Property、RDF:Statement、RDF:Subject等,其并沒有給出與具體應用領域相關的建模原語,而RDFSchema規范則進一步定義了與具體應用領域相關的建模原語,能為特定目標的應用提供一個共同的基礎.在RDFSchema中,最基本的建模原語包括:Class,Subclass-of和Property等.有了這些原語之后,你就可以構建與具體領域相關的RDF數據描述模型了.此外,RDFSchema還可以對RDF數據給出一定程度的解釋和合理性驗證.

3.5 Ontology Vocabulary(詞匯層)

RDFSchema可以定義類、子類、超類,并且可以定義特性和子特性,以及它們的約束,包括特性所適用的領域和特性的取值范圍等,因此,在某種意義上說,RDFSchema本身就是一種簡單的本體語言.但是RDFSchema對特定應用領域的概念關系的描述能力還比較弱,有必要進一步的擴展.因此,在語義網絡體系結構中的第三層就是對RDF Schema層的擴展——本體層.

本體這一概念最初起源于哲學領域,古希臘哲學家亞里士多德從哲學的角度對本體做了如下的定義:“本體是對世界上客觀存在物的系統地描述,即存在論,是客觀存在的一個系統的解釋或說明,關心的是客觀現實的抽象本質”.在近一、二十年來,本體論已逐漸被引用于知識表示、共享和重用以及其它相關領域.在人工智能界,最早給出Ontology定義的是Neches等人,他們將Ontology定義為“給出構成相關領域詞匯的基本術語和關系,以及利用這些術語和關系構成的規定這些詞匯外延和規則的定義”.Neches認為:“本體定義了組成主題領域的詞匯表的基本術語及其關系,以及結合這些術語和關系來定義詞匯表外延的規則.”后來在信息系統、知識系統等領域,越來越多的人在研究本體時,給出了許多不同的定義.其中最著名并引用最廣的定義是由Gruber提出的:“本體是概念模型的明確的規范化說明”[4],這個定義主要包含以下四層含義:

(1)概念化:客觀世界中現象的抽象模型;

(2)明確:概念及它們之間聯系都被精確定義;

(3)形式化:精確的數學描述,便于計算機的自動處理;

(4)共享:本體中所反映的知識是大部分使用者所共同認可的.

雖然不同研究者對本體有不同的描述,但是從內涵上看,他們對本體的認識是一致的,都是把本體當作某個領域內(可以是特定領域的,也可以是更廣的范圍)不同主體(人、代理、機器等)之間進行交流(對話、互操作、共享等)的一種基礎設施,即通過本體所提供定義良好的領域概念結構,來描述概念以及領域中的各種關系,以便在不同應用之間達成資源共享.

Ontology提供了語義交換的橋梁,能夠在不同的智能體之間達成有關術語概念的共識,而對概念共享和理解恰恰是構建語義網的關鍵,因此,本體層在語義網體系結構中,處于核心支配地位,為其它各層提供基礎服務.

3.6 Logic、Proof&Trust(邏輯層)

在語義網絡體系結構中,邏輯層的目標就是提供一種規則描述方法,邏輯主要通過能由計算機自動推理的規則集來反映,這些規則集則通過各種機器可所識別的邏輯描述語言表示出來.描述邏輯標記語言(Description LogicmarkupLanguage,DLml)就是這樣的一種方法,它通過DTD封裝了描述邏輯中的邏輯連接詞,可將基于描述邏輯的形式化知識嵌入到被描述的文檔中.針對語義網上的各種不同類型的應用,邏輯層可能會采用多種邏輯語言的實現形式,這一點就和互聯網中的TCP/IP協議的模型中的每一層都會針對不同的硬件和軟件系統采用不同的實現類似.

目前有關語義網的研究主要集中于前三層的研究,對Proof和Trust這兩部分內容在概念上目前還沒有一個成熟的說法.但是語義網的研究者普遍認為Proof和Trust將是下一代萬維網的重要概念,Proof層主要是計算機對其經過推理所得的結論,自動的給出一個合理的解釋.由于Web所特有的開放性,使得任何人都能很方便的發布信息,因此,在語義網絡中,還需要構建一個Trust層,用以對源信息以及推理的可信度提供有效的衡量和評價.

4 語義網的應用

目前,語義網技術正逐漸引起越來越多人們的關注,基于語義網技術的應用研究也越來越多,如智能信息檢索、企業間數據交換及知識管理、Web服務等[5].

4.1 智能信息檢索

海量信息檢索一直是信息學領域的重要研究課題.但是,萬維網上松散雜亂的信息描述方法使得信息檢索面臨了種種窘境.因此要改進信息檢索效果,就必須對萬維網上的信息進行整理和重新規范.當代萬維網上保留有高速發展期間產生的大量普通HTml頁面,整理這些信息的實質性問題就是如何從HTml頁面中提取出語義信息,構建出頁面內容的本體結構,并通過資源描述框架模型來建立頁面的索引信息,前人對傳統萬維網信息內容模型、信息檢索和信息提取、計算語言學、機器學習等方面展開了大量的研究,并取得了很多成果,為網絡信息的整理奠定了很好的基礎[6].一種可行的方法就是采用本體自學習系統,實現本體的自動或半自動提取,盡可能減少人的參與程度.

4.2 企業間數據交換及知識管理

企業間的數據交換和企業內的知識管理一直是基于萬維網的電子商務和ERP系統所著重解決的問題,現有很多項目[7]都圍繞著企業萬維網知識管理而展開,這些項目潛在的假設就是:企業提供的萬維網信息結構可以轉化成為一個巨大的知識庫,這種轉化的重要基礎就是利用基于本體的元數據結構來對企業發布的信息或企業的內部文檔進行標注.圍繞這一假設,需要開發一系列的相關技術和工具:如企業知識的建模、標注工具、本體的構建工具、本體的推理工具等.Ontoweb就是這樣的一個項目,它的目標在于激勵和支持語義網技術從學術界向工業界的轉化,同時也向工業界證實本體在知識管理、電子商務以及企業信息集成方面所具有的潛在價值.

4.3 Web服務

當代萬維網正在從一個文本、圖片、音頻、視頻的靜態信息提供者向服務的提供者轉變,這種轉變體現了“網絡就是計算機,軟件就是服務”的思想.產業界目前推行的WebServices技術,就是通過萬維網向消費者提供了網絡服務功能.由于在Web環境下的分布式計算涉及到平臺的異構性,因此它的核心技術包括Xml作為數據傳輸和交換的標準格式,以SOAP作為發送和接收Xml數據的基本消息協議,底層的傳輸則采用HTTP、FTP、SMT P等Internet協議,服務的描述、查找和發布則采用了WSDL、DISCO、UDDI等協議.當前,WebService并沒有以語義網絡為基礎,基本上還是采用固定的標準化分類方式來描述服務的功能、提供者以及獲取服務的方式,由于WebServices技術只在語法層面上限定了服務描述所采用的協議,因此它們對服務的語義描述能力非常有限,而且缺少必要的靈活性.學術界在語義網研究中提出了一些基于本體的服務描述語言如O WL等[8],這些語言為Semantic Web和WebServices的結合提供了一個良好的契機.通過創建基于本體的服務描述,使得WebService能夠透明的被計算機所理解,同時這種描述能夠被A-gent程序自動發現和處理,增強了消費者和WebServices之間的可交互性.

5 結論

語義網的研究是人類探索如何有效利用知識信息的一次變革,它作為一種智能網絡技術最終能理解人類語言,它的實現必將促進人類對知識的高效利用.

〔1〕Berners-Lee T ,Fischetti M.Weaving the web:The original design and ultimate destiny of the World Wide Web by its inventor.Harper,San Francisco,1998.

〔2〕T Bray,J Paoli,C Sperberg -McQueen.Extensible markup language(xml).W3C,1998.

〔3〕Frank Manola,Ericmiller.RDFprimer.W3C Working Draft[S].田春虎.國內語義Web研究綜述.情報學報,2005,24(2):243-249.

〔4〕王竹曉,殷兆麟,張凝,渠本哲,邢寶燕.基于結構相似性的語義網信息檢索.計算機工程與設計,2006,27(13):2438-2440.

〔5〕董慧,趙霞.基于語義網的本體轉換模型研究.情報科學.2006,25(1):36-42.

〔6〕劉琴.語義Web上的Onto1ogy表示語言研究.計算機工程與設計.2006,27(12):2166-2168.

TP391

A

1673-260X(2010)04-0018-03

猜你喜歡
萬維網本體語義
語言與語義
5 Fast Facts About the World Wide Web on Its 30th Birthday萬維網30年:小知識一覽
萬維網30歲,創始人發公開信表達“不滿意”
基于本體的機械產品工藝知識表示
“上”與“下”語義的不對稱性及其認知闡釋
《我應該感到自豪才對》的本體性教學內容及啟示
認知范疇模糊與語義模糊
專題
Care about the virtue moral education
語義分析與漢俄副名組合
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合