?

面向知識與信息管理的領域本體自動構建算法的探究

2015-07-18 11:24
新技術新工藝 2015年6期
關鍵詞:查準率概念圖權值

張 騫

(陜西職業技術學院,陜西 西安 710100)

面向知識與信息管理的領域本體自動構建算法的探究

張 騫

(陜西職業技術學院,陜西 西安 710100)

本體作為一種描述信息系統概念模型的建模方法,被廣泛應用于信息管理、圖書館信息化建設、自然語言處理和知識工程等諸多領域。結合知識和信息管理,研究在該領域內如何構建領域本體及其相關算法。

領域本體;知識工程;信息管理;構建算法

有關本體的概念最早來源于哲學,亞里士多德通過對哲學的研究,提出存在論的觀點,這就是本體論的前身。本體就是對世界上客觀存在物體的一種哲學描述,牛津詞典的解釋是ontology是現實存在的科學或者研究,Webster中解釋ontology意為本體是一種形而上學的觀點,與存在論相關聯[1]。許多學者對本體論提出了不同的定義和概念,可以使用本體的復數形式,代表所有本體的集合。信息系統和知識工程的本體研究同哲學本體論是相互聯系的,本體論雖是哲學理論中的概念,也適合于信息系統的推理和建模。學者利用本體來描述世界的知識,用于表示特定知識領域的形式化語言,并廣泛應用在人工智能、信息系統和知識工程等領域。Neches認為本體是對特定領域詞匯的術語和關系規則的定義。Gruber認為本體論是概念模型的具體化實現過程。D. Fensel認為本體是重要概念的形式化表述,主要包括4個方面:從客觀事物中抽象出概念模型,精確定義領域本體聯系,數據化概念模型和確認領域本體知識是被認可的。

1 領域本體理論和構建方法

1.1 領域本體理論

Guarino對領域本體理論做了大量研究,分析了概念、概念特性和概念之間的鄰接關系,從元特性出發,提出了一整套本體理論概念[2]。概念間的差別除了定義外,還有概念的相關特性,這些最突出的特征被歸納為元特性,利用數學方法將元特性表達出來。

通過統計學的相關分析,提煉出了領域本體的7個特點:1)持久性,在知識和信息系統管理中,一些實例會永遠屬于該概念,例如一些實意詞匯;2)非持久性,一些實例不會屬于某些概念,例如非實意詞匯會在領域本體構建中剔除出去;3)反持久性,隸屬于某個概念的所有實例都不屬于該概念;4)半持久性,半持久性是差集表示,即求出某個概念中不屬于該概念的某些詞匯單元;5)概念差別,即概念之間的差別性;6)標識性,隸屬于某個概念的實例可以相互區別[3];7)概念之間的相互依賴關系。

本體可以根據使用的語言、表示方法和描述形式等劃分成完全非形式化和半非形式化等,形式化程度決定著計算機自動處理的難度,一般包含實例的特征表達,例如知識工程中,要包含某些詞匯和詞性表示,用概念定義來表示整個文檔,利用文檔概念圖等結構表達文檔。按照應用領域的不同,本體又可以分為概念之間的通信操作、本體格式的互操作和系統工程建設等。本體還可以分為元級本體、通用本體、領域本體和應用本體[4]。其中,元級本體描述的是知識語言所用的互聯本體,例如OKBC本體;通用本體描述的是一些特定的概念,例如自然語言詞匯和時間等對象,這些本體的開發案例有機器可讀詞典等;領域本體是高級本體建構方法,用于描述一些普通工作相關的詞匯,專門用于信息管理和知識工程的相關本體開發[5]。

1.2 領域本體創建流程

本體創建流程示意圖如圖1所示。本體創建流程應先確定應用范圍,然后再進行本體分析、本體表示和本體的檢驗,一切都合格后才能建立適合的本體。文中主要研究知識和信息管理領域,因此主要對象是中英文參考文獻,領域本體對象規模不是很大,但是要求比較高的準確率。本體分析過程中,主要弄清楚領域構建的要素,信息管理的特征要素是詞匯,包括關鍵詞和詞性等內容,需要充分提取重要關鍵詞作為領域本體描述的參數[6]。而語義模型采用概念圖模型,更有利于表達文檔中特征詞匯的重要性。本體評價模型可以通過一些標準評價算法評價,例如相似度和距離函數等。文中利用查全率和查準率構建的綜合評價指標評價所構建模型的準確性,以免單一評價函數帶來錯誤的評價結果,具體方法為:

(1)

式中,recall為查全率,recall=(檢索出的相關信息量/系統中的相關信息總量)×100%;precision為查準率,precision=(檢索出的相關信息量/檢索出的信息總量)×100%。FM指標會綜合地評價領域本體建模構建算法的準確性,可以手動調節λ,使其盡量<0.5,以加大查準率的比例。

圖1 本體創建流程示意圖

2 基于知識與信息管理的領域本體構建算法分析

2.1 文檔前置處理

構建面向知識與信息管理的領域本體需要將領域本體文檔映射成概念圖,利用概念圖的特點構建領域本體。首先要進行文檔前置處理,即初步對語料庫提取文檔信息,包括中文和英文的領域文檔,處理過程如下:首先,語音識別所有中英文文獻,移除沒有實際意義的詞匯,將英文單詞整理成詞根形式,方便統計和查詢;然后,要標記單詞的詞性,例如副詞、形容詞和代詞等,并統計詞組和單詞出現的頻率和詞匯鄰接信息。頻率信息和鄰接信息將作為概念圖的初始值,頻率信息會初始化概念圖頂點值,鄰接信息會初始化概念圖邊值[7]。

2.2 文檔概念圖的生成

概念圖是由節點和邊組成的代表概念,連線表示概念之間的關系,利用概念圖表示詞匯或者詞組的頻率信息,映射出文檔的整體結構。概念圖由頂點、連接頂點的邊、頂點間的標記映射和邊間的標記映射組成[8],反應出詞匯組之間的鄰接關系。頂點即為詞匯,文檔中同樣的詞匯只能表示為1個頂點,邊即為詞匯間的組合,代表了文檔中2個詞匯的相鄰關系。頂點和邊初始化為詞匯間的頻率值和鄰接值,頂點值表示某個詞匯出現的次數,邊值表示2個詞匯連接在一起的次數。這種方法將文檔表示為1組詞匯和詞匯組的連接次數,數據化文檔內容以利于建立領域本體。頂點的權值是其在所有權值中的比重,邊權值也采用同種計算方式,標準化所有的輸入數據。

2.3 概念提取

概念提取主要任務是分類所有類型詞匯,從重要性評價詞匯,將頂點加權之后,利用馬爾科夫聚類算法對定點簇進行聚類,其中的關鍵算法就是馬爾科夫聚類算法。該算法是由馬爾科夫提出,將權值圖轉化成概率矩陣,將每個節點為0的數值都加1,避免奇異矩陣的產生,通過修正隨機過程增加類之間的距離。馬爾科夫鏈更容易出現在頂點密集的區域,類中邊權值會更高,類間的邊權值更低,列權值的分布和類的分布有一一對應關系,因此馬爾科夫聚類更適應于圖模型。馬爾科夫聚類算法會讓權值大的頂點更大,權值小的頂點地位更低,權值采用下式計算:

MCL算法輸入值是一個無向圖,利用權值和擴展參數建立關系矩陣,給每個節點加入自循環,標準化矩陣,采用指數擴展矩陣,再用擴展參數進一步放大矩陣,不斷重復這個過程直到不再變化為止。最終將具有相似性的詞匯聚成一類,消除了語義之間的歧義性。每個類都會產生一個特征概念,馬爾科夫算法在概念圖中隨機游走(Random Walks),不斷重復放大,最終形成一個穩定的頂點值,頂點權值就代表了特征詞匯在文檔中的地位。

2.4 關系提取

在提取文檔概念圖的關系算法中,TF-IWF算法的主要作用是提取多次出現的關鍵詞匯作為候選關鍵詞,其是一種簡單、快捷的文本提取算法。該算法利用TF權值最大值作為關鍵詞,由于概念結構無法反應詞匯的重要程度和代表詞匯的分布和鄰接關系,也不具備權值調整功能,因此該算法精度較低?;诮y計詞匯的方法需要詞長和詞性等先驗信息,利用領域本體詞典提高關鍵詞提取準確度,該算法的時間復雜度是O(n),提取精準度高于TF-IWF算法。SKE算法加入語義部分,其根本方法還是利用詞頻的統計特征。該算法提取的關鍵詞匯能夠體現整個文檔的特征。利用樸素貝葉斯方法的算法通過先驗信息的訓練獲取初始化參數,然后再提取關鍵詞,該算法只能用于小規模文檔,高維聚類技術具有更高的提取效率,更加穩定,且適用于大規模文檔的關鍵詞提取。除了這些算法之外,還可以使用頻繁子圖挖掘算法,該算法流程如下:讀取生成的概念圖數據,按照頂點權值和邊權值進行排序,剔除不符合最小支持度閾值的頂點和邊集合,將剩下的邊和頂點重新排序,將符合頻繁一邊的保存在G1集合中,按照標準詞典順序,對G1集合重新排序,將排序之后的集合保存在G集合中,遍歷G1中的所有邊集,用初始邊權值初始化所有集合的圖,再次使用子圖挖掘算法,在所有圖集合中刪除初始邊權值,如果圖的個數少于最小子圖數目,則停止算法,如果不滿足條件則繼續運行。

2.5 本體評價

本體評價方法主要通過測試文檔進行檢驗,分析領域本體是否能夠完成新文檔的檢測,如果沒有利用領域本體的文檔和使用領域本體的文檔相同,則說明所建立的領域本體是合格的;如果不同,則說明本體需要重新修改參數和重構,對于其中不一樣的地方要做重點改進,在原文檔中增加測試語料庫,直到檢測沒有錯誤產生為止。文中采用的是FM評價指標,FM評價指標由查全率(recall)和查準率(precision)構成,計算公式為:

式中,P+是檢索出的相關信息量;N是系統中的相關信息總量;P是檢索出的信息總量。

查準率是表示文獻中關鍵詞或關系提取成功的占全部文獻的百分比,而查全率即為檢測出的文檔與源文檔的百分比。查準率與文檔數量沒有直接的相關關系,隨著文檔數量的增加或者減少,查準率可能會減少、增大或者不變。而查全率會因為文檔數量的增加而增大;因此,單一函數無法評價本體領域建模的準確性,可以采用權值分配,調節查準率和查全率的關系。相關研究表明,隨著文檔數目的增加,查準率和查全率在多數評價過程中表現相反的作用,查全率要依賴于查準率;因此,提高查準率在整個評價函數中的權重,有利于提高本體領域構建算法的準確性。

3 結語

領域本體已經廣泛應用在知識工程和人工智能等諸多領域,并深受學者關注。本文分析了本體和領域本體的發展現狀和相關方法,從文檔前置處理、概念圖生成、概念提取、關系提取和本體評價5個方面,論述了面向知識和信息管理領域的領域本體自動構建方法。

[1] 李曼,王大治,杜小勇,等. 基于領域本體的Web服務動態組合[J]. 計算機學報, 2005, 28(4): 644-650.

[2] 陳剛,陸汝鈐,金芝,等. 基于領域知識重用的虛擬領域本體構造[J]. 軟件學報, 2003, 14(3): 350-355.

[3] 劉紫玉,黃磊. 基于領域本體模型的概念語義相似度計算研究[J]. 鐵道學報, 2011, 33(1): 52-57.

[4] 張維明,宋峻峰. 面向語義Web的領域本體表示、推理與集成研究[J]. 計算機研究與發展, 2006, 43(1): 101-108.

[5] 王海濤,曹存根,高穎,等. 基于領域本體的半結構化文本知識自動獲取方法的設計和實現[J]. 計算機學報, 2005, 28(12): 2010-2018.

[6] 韓春華,易思蓉,呂???等. 基于GIS的鐵路選線智能環境及領域本體建模方法[J]. 中國鐵道科學, 2006, 27(6): 84-90.

[7] 王超,李書琴,肖紅,等. 基于文獻的農業領域本體自動構建方法研究[J]. 計算機應用與軟件, 2014, 31(8): 71-74.

[8] 滕廣青,畢強. 領域本體與社群分類法結構中心性的比較研究[J]. 情報學報, 2013, 32(10): 1037-1045.

責任編輯鄭練

AutomaticConstructionofDomainOntologyOrientedtoKnowledgeandInformationManagement

ZHANG Qian

(Shaanxi Vocational & Technical College, Xi′an 710100, China)

Domain ontology is a modeling method to describe the concept model of information system, which is widely used in the area knowledge and information management, NLP, knowledge engineering and so on. This paper mentions how to construct domain ontology and related algorithms in the field of knowledge and information management.

domain ontology, knowledge engineering, information management, algorithm

TP 182

:A

張騫(1984-),男,碩士,研究生,主要從事情報學和信息管理等方面的研究。

2015-01-21

猜你喜歡
查準率概念圖權值
一種融合時間權值和用戶行為序列的電影推薦模型
CONTENTS
概念圖在小學高年級寫作教學中的應用研究
如何培養學生應用概念圖進行意義學習
探討概念圖在中學生物概念教學中的應用
基于MATLAB的LTE智能天線廣播波束仿真與權值優化
基于數據挖掘技術的網絡信息過濾系統設計
大數據環境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
基于權值動量的RBM加速學習算法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合