?

基于本體的艦船領域知識表征研究*

2013-07-11 08:48李小軍
艦船電子工程 2013年4期
關鍵詞:特征向量術語本體

王 媛 李 皓 李小軍 許 鵬

(船舶系統工程部 北京 100094)

1 引言

隨著知識經濟時代的到來,知識已經成為企業最重要的戰略性資源。在復雜產品和系統的設計領域,知識的價值更為突出?,F代產品復雜性、產品知識密集程度越來越高,不再局限于幾何數據,更多的是關于設計本身與設計過程的數據,包括設計規則、約束條件、基本原理、參考資料等[1]。如果沒有完善的獲取、表示、存儲、傳遞、共享、重用設計知識的管理體系,將導致各種類型的知識在設計過程中的重用率和共享率極低[2],因此,必須首先建立適合的知識表征方法,為基于知識的檢索[3]和知識推送等提供支撐。

2 基于本體的知識表征方法概述

知識表征是利用計算機對知識進行管理時需要解決的首要問題,即如何采用計算機可理解的特定符號來描述知識[4]。知識表征即把知識用計算機可接受的符號以某種形式描述出來,也就是知識的符號化過程,將知識進行形式化描述,表示成為便于計算機存儲、管理和調用的某種數據結構模式。目前常用的知識表示方法主要有謂詞邏輯表示法、產生式表示法、框架表示法、概念圖知識表示法、語義網絡表示法、面向對象表示法等。

上世紀60年代中期開始,知識表示開始作為一個獨立的研究課題[5],五十多年來,人們研究出了諸多的知識表示方法,包括謂詞邏輯表示法、產生式表示法、框架表示法、概念圖知識表示法、語義網絡表示法、面向對象表示法等,并結合相關的工程領域利用這些方法進行了領域知識的表示和運用。但針對艦船領域的知識表征,上述方法又有其局限性。一階謂詞邏輯作為一種形式語言,遠遠不能表示人類自然語言所能表達的知識,且隨著知識庫中知識的增加,推理所需的事實組合的工作量成指數增加;產生式法的主要缺點是推理效率較低,表達能力較差,所表示的知識規則之間不能直接調用,因此較難表示那些具有結構關系或層次關系的知識;框架法的不足之處是不善于表達過程性的知識,因此它經常與產生式表示法結合起來使用;概念圖法的可操作性和可理解性不強;面向對象知識表示方法的多重繼承不能保證在繼承的時候的單向無環,所以使得多重集成較難控制;語義網絡法的缺點是不能像邏輯方法那樣保證推理的嚴格性和有效性,不便于表達判斷性知識,不便于表達深層知識。而基于本體的知識表征方法[6]是近年來的研究熱點之一,在各個領域處于探索研究階段,其中,領域本體的構建[7]是研究的難點之一。但本體以其強大的語義表達能力和推理能力,將對各個領域內知識表示做出重大貢獻[8]。

目前基于本體的領域知識表示方法成為了研究熱點。在知識表示模型構建中引入本體[9],是因為本體具有良好的概念層次結構和對邏輯推理的支撐,知識表示的語言表達能力比較強[13]。將其引入知識表示模型中,可以保證知識被建模表達后,在傳遞和共享過程中知識理解的唯一性和精確性,使知識搜索、知識積累、知識共享的效率大大提高。

一般來講基于本體的知識表征方法不是一個通用的知識表示方法,與具體的領域相關,不同領域的知識表達模型不同。本文結合領域實際情況整理出知識存在形式的基礎上,基于本體對知識進行表示,為基于知識的語義檢索和知識推送做準備。

3 基于本體的艦船領域知識表征

本體可以提供對該領域知識的共同理解,確定該領域內共同認可的詞匯(術語),并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關系的明確定義。也就是說本體可以通過基本的建模元語來表達領域內知識的語義內涵以及知識之間的語義關系,通過本體建??梢詫崿F某種程度的知識共享和重用,提高系統通訊、互操作和可靠性的能力。下面將從知識存在形式及組織方式歸納整理、領域本體構建、基于本體的知識表示模型、知識特征向量提取技術等幾個方面來進行知識表征的研究。

3.1 知識存在形式及組織方式歸納整理

從領域業務活動出發,深入挖掘需求分析及立項階段、方案階段、工程研制階段、設計定型階段可能產生或使用的知識的存在形式并對其進行準確的定義。通過調研和座談等方式了解現有的知識形式,并對其進行總結分類。

圖1 知識存在形式及組織方式

3.2 領域本體構建

領域本體構建是知識表征的基礎,本體支持知識的形式化規范表示以實現領域知識的重用和共享。在進行本體構建時應該考慮領域本體與領域知識的對應關系,保證領域本體與知識范圍的一致性,從而更好地支持知識應用效果。本研究中采用面向多語義的模塊化領域本體構建方法。

圖2 領域知識構建

步驟1:領域分析

根據現有的知識,包括各種文檔、參考資料、各類數據資源等對所涉及到的領域進行分析,分析后初步確定從以下幾個方面來構建本體(術語):1)應用術語;2)成果形式術語;3)過程術語;4)通用術語;5)領域專業術語。其中,領域專業本體又包括功能術語、任務術語和系統術語。

步驟2:提取重要概念

參照相關標準規范提取所涉及領域內重要概念,如任務術語中對作戰任務形式等相關概念的提取,功能本體中對信息保障、指揮控制等相關概念的提取。概念提取的過程中要保證術語的唯一性,正確性,除去術語的冗余性,二義性,形成領域專業概念的一種規范。

步驟3:模塊化組建本體框架

構建領域本體的框架結構,構建過程按照模塊化的思想進行,如將關鍵術語模塊進行分解,方便部分術語模塊的重用與集成。

步驟4:抽象概念間多語義關系,添加實例

框架構建完成后,按照概念的固有屬性和專有特征進行歸納和修改,對概念建立層次化的分類模型,并定義類之間的關系,建立類之間的語義聯系。在本體中可以表達概念之間的任意語義關系,這里我們采用本體編輯工具protégé進行本體構建,基本的語義關系包括Synonymy(兩個概念的內涵和外延完全相同)、kind-of(一個概念的外延完全包含另一個概念的外延)、instance-of(概念的實例和概念之間的關系)、attribute-of(概念實例與概念屬性的關系)。后期還需要不斷根據需要梳理更多的語義關系,構建出更加完善的本體。

3.3 基于本體的知識表示模型

在明確知識存在形式的基礎上,基于構建好的領域本體對知識進行形式化的表示,給出該領域內基于本體的知識表示模型框架。利用本體對領域各種類型知識進行統一的規范化描述,形成一種計算機可以理解的用于描述知識的數據結構,知識表征模型的整體框架如圖3所示。

知識表達模型分為三個層次:知識層,語義模型層和本體層。

知識層是知識的物理存儲層,由于知識類型繁多,從知識表達所需的預處理技術來分可以把這些知識分為兩大類:文檔類知識和字段組合類型的知識簡稱為知識條目。其中文檔類型的知識包括設計實例、重要報告、標準規范、情報資料、技術文獻、設計模型、仿真模型和優化模型;知識條目類型的知識包括經驗技巧、專家資源、公式資源、性能參數資源、軟件資源和實驗數據等。在進行知識表達預處理的過程中文檔類的知識要先進行文檔解析,然后再進行后續操作。

模型層的目的要基于本體構建知識的語義表達形式,對文檔和知識條目利用相關算法進行分詞和詞頻統計,在此基礎上進行初始特征向量提取,初始特征向量中的元素與本體中元素進行實體語義匹配,語義關聯度高的元素被稱為候選元素。候選元素按照不同的語義表達形式會形成不同的最終特征向量,不同的特征向量各自表達知識的一個語義側面,因此要全面描述一條知識的語義信息可能需要有多個特征向量組合。

本體層是所涉及領域的重要概念的規范化描述,依照層次化多語義的本體構建方法構建領域內本體,為知識建模提供基礎條件。

圖3 基于本體的知識表示模型

3.4 知識特征向量提取技術

明確了知識的具體存在形式并建立完成領域本體后,需要將本體和知識建立關聯,即利用本體對知識進行語義建模。在這個過程中,如果人工構建本體與知識間的關聯不僅難度大、效率低下、準確率低,而且工作量巨大。一般來講人為實現知識的語義建模是不現實的。因此,對自動的知識特征向量提取和表達技術的研究尤為重要。本項研究將知識特征向量提取與表示主要包括如下幾個步驟:1)文檔/知識預處理;2)權重設置與候選向量提??;3)本體解析;4)語義相似度匹配;5)知識特征向量表示與存儲,如圖4所示。

圖4 知識特征向量提取整體流程

預處理模塊是對文檔或知識條目進行分詞及統計處理。主要實現的功能包括:分詞,標注詞性,統計詞頻以及將統計結果保存至數據庫。如果是文檔類的知識事先必須進行文檔解析,解析后的文檔和字段類型的知識都可以利用進行分詞。

特征提取模塊是基于分詞的詞性,將名詞和動詞提取出來,作為初始候選的特征詞。

權重計算模塊是在提取出的名詞和動詞,計算這些詞的權重,選取權重大的作為文檔或知識條目的候選特征向量。候選特征向量中詞的數目由用戶定義精度,一般選取若干個詞。

本體解析與語義匹配模塊是將候選特征向量中帶有權重的候選特征詞與本體元素進行語義匹配,語義相似度大于一定閾值的詞將被選為最終特征詞對文檔或知識進行表示。其中本體的解析和相似度計算是研究的難點。

特征向量表示模塊是將最終特征詞表示成知識的特征向量。

4 結語

知識表征技術是解決知識管理相關問題時所需突破的首要技術,本文闡述了知識表征技術的研究背景及研究現狀,并針對艦船領域特點采用基于本體的知識建模方法,提出了具有三層體系結構的語義知識表達模型。在此基礎上初步建立了所涉及的領域本體的基本框架,采用知識特征向量自動提取技術實現對知識的語義表達,為基于語義檢索提供基礎。在后續的研究工作中需要對所建立的知識模型不斷完善,并在此基礎上進一步研究基于語義知識模型的檢索和推送技術。

[1]陳磊,潘翔,葉修梓,等.基于本體的產品知識表達和檢索技術研究[J].浙江大學學報(工學版),2008(12).

[2]林琳.淺議本體在企業知識庫中的應用[J].現代情報,2007(11).

[3]朱慶生,鄒景華.基于本體論的論文檢索[J].計算機科學,2005(05).

[4]顧巧祥,祈國寧,紀楊建,等.基于元數據的產品數據本體建模技術[J].浙江大學學報(工學版),2007(5).

[5]楊建林.基于本體的文本信息檢索研究[J].情報理論與實踐,2006(05).

[6]劉紅閣,鄭麗萍,張少方.本體論的研究和應用現狀[J].信息技術快報,2005,3(1):1-12.

[7]韓婕,向陽.本體構建研究綜述[J].計算機應用與軟件,2007,24(9).

[8]杜文華,董慧.本體建設工具比較研究[J].情報雜志,2005,(2):5-7.

[9]王珊,張俊,彭朝暉,等.基于本體的關系數據庫語義檢索[J].計算機科學與探索,2007(1).

[10]張莉,姜浩.領域本體半自動化建模工具的設計與實現[J].計算機與數字工程,2009(9).

[11]鐘誠,趙明霞,何秋燕,等.軍事倉儲領域本體的構建[J].計算機與數字工程,2011(9).

[12]陳鈺,張功亮,闞述賢,等.一種基于領域本體的用戶建模方法[J].計算機與數字工程,2011(2).

[13]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].現代圖書情報技術,2010(1).

猜你喜歡
特征向量術語本體
二年制職教本科線性代數課程的幾何化教學設計——以特征值和特征向量為例
克羅內克積的特征向量
眼睛是“本體”
一種基于社會選擇的本體聚類與合并機制
一類三階矩陣特征向量的特殊求法
專題
Care about the virtue moral education
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發展趨勢
矩陣方法求一類數列的通項
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合