?

中文核心領域本體構建的一種改進方法

2010-06-05 09:00諶貽榮李文捷崔高穎
中文信息學報 2010年1期
關鍵詞:后綴上位詞義

諶貽榮,陸 勤,李文捷,崔高穎

(香港理工大學 計算學系, 香港 666666)

1 引言

因特網的飛速發展帶來了海量的信息,但如何有效地利用這些信息,成為一個新技術所帶來的新問題。一個現今被廣泛研究的解決這個問題的方法就是用本體對領域建模。在信息科學領域,本體是一個形式化的,有明確描述的共享的概念化模型[1]。領域本體可以廣泛服務于各種信息應用,如信息檢索、信息抽取、摘要和問答系統等。為滿足各種基于知識信息的不同領域應用的需求,快速準確地建立和更新領域本體意義重大。

本體作為一個概念化模型,有多種分類方法。按照模型的復雜程度可以分為輕量型的本體和重量型的本體。 輕量型的本體只包含概念和關系, 重量型的本體還包含了公理和推導系統。按照本體建模的范圍差別, 又可以分為上位本體[2]、核心領域本體和領域本體。 上位本體對通用的概念建模。一個比較著名的上位本體就是SUMO (Suggested Upper Merged Ontology)[3-4]。領域本體對特定領域建模。而核心領域本體是對領域中的核心概念建模, 并作為一個中間層本體,為上位本體中的抽象概念和領域本體中的特定概念建立聯系。概念大多用自然語言詞匯來表達,然而詞匯和概念的對應并不是一對一的。 詞匯及新增詞匯和概念之間的多對多映射關系,就構成了詞匯本體。典型的詞匯本體有WordNet[5-6],HowNet[7],SinicaBOW[8]等。

為了快速從中文文本和已有資源中有效地學習領域本體,我們所要自動創建的目標本體是重量型的領域核心概念本體。由于中文語義資源有限,我們的實現方法是從中文領域術語庫中先提取核心術語,然后使用雙語術語庫把核心術語通過英文WordNet 的同義詞詞義映射到一個上位本體中, 最后繼承上位本體中和領域相關的概念、關系以及公理,從而構建中文領域的核心概念本體,簡稱核心本體。核心本體也是領域本體半自動創建過程中人工介入的關鍵點。自動創建的核心本體經過人工的整理,可以以較小的代價大大提高領域本體到上位本體的映射質量。

前人在核心本體自動建構上做的研究工作并不太多。大多數的核心本體是手工創建的[8-10]。在中文核心本體建構方面,由于中文本體資源的相對匱乏,工作更少[11]。前人研究比較少的原因至少包括幾點:一是核心本體首先要求存在一個上位本體作為基礎;二是如何界定領域中的核心概念并沒有定論;三是核心本體的建構要求存在聯系上位本體和領域本體之間的相關數據資源。

核心本體建構的一個巨大問題是上位本體是領域無關的,而核心本體是領域相關的并且其中的核心概念要映射到上位本體中。如何有效地利用領域信息來解決這個問題比較關鍵。我們以往的工作就是針對這一問題,并在一定程度上解決了這個問題[12-13]。這篇論文中我們將采用共享后綴詞集特性來進一步提高性能。崔[14]在其研究報告中指出超過90%的中文術語詞匯的中心構件位于后綴位置。由此我們提出基于共享后綴詞的抽取來找到與中心構件相對應的詞義,并基于該詞義來改進相應詞的詞義映射。由于核心術語抽取算法和核心本體建構算法(Core Ontology Construction Algorithm, 縮寫為COCA)[12-13]是本文改進算法的基礎。所以將在第2、3章分別定性介紹一下,詳細的定量計算公式請參考原文。第4章具體給出基于共享后綴詞集的算法,第5章用實驗來驗證方法的有效性并對實驗結果作分析。第6章總結全文。

2 核心術語抽取算法

核心術語是術語庫中能產性高,領域特定的術語。能產性高的術語可以作為術語構件在更多的術語中采用。能產性高的核心概念構成的核心本體更能發揮其作為領域本體和上位本體的中間層的作用。諶在文獻[15] 的工作中提出了核心術語的抽取算法,本文的在該算法的基礎上進行改進。該算法首先做后向最大詞典切分,然后用詞頻排名做領域性過濾。

所謂后向最大詞典切分算法,其輸入是詞典,被切分的對象是詞條,輸出的是切分后的詞典,切分方法是以輸入的詞典為切分詞典,同時對該詞典的每一詞條切分之前,暫時在切分詞典中去掉當前被切分的詞條,然后反向最大切分當前詞條。這樣就保證了詞典的每一個多字詞條都會被切成更小的詞段,這些被切分的詞段就是當前術語的最大術語構件。從另一方面看, 由于是最大切分,就避免了父串對子串的頻率疊加效應,有效地去除了構件嵌套產生的短構件淹沒長構件的效應。比如,“計算機”內嵌了“機”, 如果不采用最大切分法的話,就會造成構件“機”的頻度排名更靠前。而實際上在IT領域,“計算機”作為構件直接合成術語比“機”更頻繁,意義更明確。所以采用最大切分是必需的。

在切分后的詞典里統計術語構件詞頻,按詞頻從高到底排名,就形成了一個術語構件詞頻表。另外取通用領域的詞頻表作為對照。一個術語詞條,如果在領域中的排名比通用領域中的排名高出設定的一個閾值,將予以保留,否則刪除。經過這兩步后,一個核心術語詞表就自動產生了,實驗證明該列表的質量較高。

3 核心本體建構算法—COCA

核心本體建構算法是本文研究者之前用英文發表的工作[12-13],英文名字是Core Cotology Construction Algorithm,縮寫為COCA。該算法首先自動將中文核心術語映射到WordNet中的同義詞詞義,進而映射到上位概念繼承上位本體的和領域相關的概念, 關系以及公理。這個自動映射的算法分別有下面的三個子任務:1. 中文到英文的翻譯(在中英文術語庫的數據上實現); 2. 英文到同義詞詞義的消歧(在WordNet的數據上實現);3.找同義詞詞義對應的上位概念(在上位本體SUMO 和 WordNet 的映射數據上實現)。

第一個子任務實現的假設是, 給定一個中文詞,如果對應的英文越長,該中文和對應英文同時作為其他中英文術語對的子串的次數越多,那么取該英文作為翻譯的概率越大。第二個子任務實現的假設是,給定英文詞,如果該英文詞在語料庫中取一個同義詞詞義的頻率越高,這個英文取該同義詞詞義的概率越大。第三個子任務是在數據中直接獲得的,并且每個同義詞詞義只有一個對應的上位概念,所以不存在最優選擇的問題。

COCA除了基本的三個子任務計算外,還運用了獨立事件并集概率的框架方法來集成各種特性。所謂獨立事件的并集概率就是多個獨立的事件任意一個出現的概率,其公式表達如下:

這里E是獨立事件集;p(x)是概率函數用于返回事件x的對應概率值。如果E是空集{},那么U(p)=0;如果E是集合{x},那么U(p)=p(x);如果E是集合{x,y},那么U(p)=p(x)+p(y)-p(x)p(y)。

之前的工作中已經提出了三個用來提高性能的特性[13], 其中包括(1)合成了多路特性的算法,(2)合成了下位詞特性的算法,以及(3)合成了詞性標記特性的算法。多路特性利用一個中文術語可能通過多個英文翻譯映射到同一概念的現象,把多條路徑疊加權重來計算中文術語到概念的映射權重。下位詞特性利用一個詞的下位詞來改進該詞的概念映射精準率。詞性標記特性利用一個詞經常取特定詞性的偏向性來提高映射精準率。這些特性將和本文的基于共享后綴詞集方法在同一數據集上作性能比較。

本文提出的共享后綴詞集也是作為一個附加的特性在同樣的框架下進行集成的。

4 基于共享后綴詞集的核心本體建構改進算法—COCA_SE

很多共享后綴的中文詞都會有著共同的上位概念。舉例來說,“驅動器”對應的英文“driver”有歧義,一般表示一種“人”(human)——“司機”, 也可以表示一種“設備”(device)。而“驅動器”(driver)有很多共享后綴的詞如“服務器”(server),“傳感器”(sensor) 等。在通用領域,這些詞更多的是“人”的下位詞,而在信息科學領域中,這些詞都應該是“設備”的下位概念,并且都以“器”作為后綴。這個例子提示我們可以用后綴詞來改進詞義的正確映射,從而改進自動建構的核心本體的質量。下面的問題就是如何找到并利用重要的上位概念來改進下位詞在特定領域中的詞義映射。

重要的上位概念有兩個方面的特性。一方面,在共享后綴詞中一個上位概念的下位詞越多,該上位概念就越重要。另一方面,上位概念越抽象,其對下位概念的辨別區分能力就越弱; 也就是說, 一個上位概念和下位概念之間距離越近, 越具體,該上位概念越重要?;谝陨蟽牲c,我們提出了基于共享后綴詞的本體構建改進算法(COCA_SE)。該算法在已有的核心本體算法(COCA)框架上把共享后綴詞特性集成在后處理模塊中來提高性能。

對于每一個中文核心術語TC, COCA_SE算法的處理方法如下:

輸入: 1)共享的后綴TH和共享后綴詞集,2)從COCA中得到的中文和候選概念之間的映射權重,3)WordNet中的概念繼承結構

輸出:調整后的中文和候選概念之間的映射權重詳細步驟:

(1) 共享上位概念權重 (Weight of Shared Hypernym,縮寫為SHW)的計算如下:

SHW(SH|TH)

其中后綴TH是輸入的中文共享后綴詞集所共享的后綴, 同義詞詞義SH是被共享的上位概念,函數ext(TH)返回的是TH的父串中所有術語的集合,函數dep(s) 返回同義詞詞義s在WordNet概念繼承中的繼承深度,synset(TC) 返回中文詞TC的候選同義詞詞義集合。

上述公式利用了前面闡述的共享后綴詞集中的重要上位概念的兩個特性。對于第一個特性,該公式對詞集中匹配的每個詞求和,被更多詞所共享的上位概念自然的會得到更高的權重。對于第二個特性,越抽象的概念其概念深度dep越低,最后算出來的權重也就越低; 反之,越具體其深度越高,公式返回的權重也就越高。

(2) 重要上位概念對術語取同義詞詞義的影響力(Weight Under Hypernym,縮寫為WUH) 計算如下

WUH(S|TC)=WUH(S|TC,TH)

其中函數hpr(s)返回一個同義詞詞義s的全部上位概念構成的集合。

這個公式計算術語TC的一個候選詞義S對應的最重要上位概念的正規化權重。這里最重要的上位概念就是權重最大的上位概念。公式中的分子部分計算權重最大的上位概念的權重,公式的分母部分計算全部候選概念的最大上位概念權重的和,這樣公式WUH()返回的值被正規化為一個百分比,其值介于0到1之間。

(3) 利用獨立事件并集概率公式, 集成重要上位概念權重 (Core Ontology Construction Algorithm with Suffix Enhancement, 縮寫為COCA_SE)的計算如下

其中函數U就是前面提及的獨立事件并集概率公式。兩個獨立事件概率就是通過COCA算法得到的概率和通過WUH算法得到的概率,展開式子后這個概率就等于COCA(S|TC)+WUH(S|TC)-COCA(S|TC)×WUH(S|TC)。

5 實驗和分析

核心本體創建算法首先從中文術語庫中抽取核心術語,然后對應的英文詞條映射每一個核心術語到最好的同義詞詞義候選,并通過該詞義連接到上位本體概念。這些核心術語,對應的同義詞詞義, 上位本體概念以及繼承自詞匯本體WordNet, 上位本體SUMO的各種關系和公理,就構成了自動創建的重量型中文領域詞匯核心本體。在自動創建的過程中,為核心術語找到最好的詞義和上位本體概念是關鍵的步驟,其精準率直接影響自動創建的核心本體的質量。因此算法的選擇核心術語最佳詞義的精準率和選擇最佳對應上位概念的精準率將作為后面實驗的性能指標??梢钥吹竭@兩個精準率的要求都比較高,因為在一個領域中,核心術語還是有可能有幾個相近的意義 (比如“網絡”在IT領域中既可以指電子通訊網絡,也可以指抽象的由節點和節點間的邊構成的一種數據結構),而這兩個指標要求算法必須選擇領域中最合適的才算正確。

首先核心術語抽取算法在來自北京大學計算語言學研究所的中英文雙語IT領域術語庫(Chinese and English IT Term Bank,縮寫為CEITTBank, 包括大約13萬IT領域中文術語)[16]上自動抽取了1 500個能產性高的領域特定的核心術語[15],這些核心術語作為術語構件大約覆蓋了50%的全部術語。 為保證95%置信度時5%的誤差范圍[17], 兩個IT領域的研究人員隨機抽取了400個核心術語來分別人工制作并互相校驗答案。

核心術語建構算法在映射詞義和上位概念采用的數據源包括 CEITTBank WordNet 1.6和Word-Net 1.6與上位本體SUMO的映射數據[18]。 之所以采用WordNet 1.6 的數據是因為上位本體SUMO 只在WordNet 1.6上有完全的映射,也就是每一個WordNet中的同義詞詞義都被賦予了一個上位本體概念。因為核心術語有時即使對WordNet的映射不是最好,但對SUMO 的映射卻仍然正確,例如“靈敏度”(sensitivity),算法映射到生理上的“敏感度”,答案應是物理上的物理靈敏度,但到了上位本體都是一種能力(capability),所以對這兩個資源映射的評估要分別進行。

為了測試共享后綴詞集的改進,我們引入一個基準算法,標記為B。B算法選擇只使用通用領域詞匯本體WordNet中的詞匯詞義頻度(也就是語料庫中某個詞匯取某個詞義的次數),通過選取最高頻的詞匯詞義頻度來選擇最佳的詞義和上位概念。前述第三節講述的不加載任何其他特性只實現三個基本任務的算法標記為S;共享后綴詞集特性標記為4;以前的論文中提出的其他三個特性[13]:多路特性,下位詞特性和詞性標記特性,分別標記為1,2,3。

特性之間可以任意組合,但必須和基本算法結合在一起。由此,我們確定運行如下算法:基準算法B,基本算法S,合成了多路特性的算法S1、 合成了下位詞特性的算法S2、 合成了詞性標記特性的算法S3, 合成了共享后綴詞集特性的算法S4, 合成了前三個特性的算法S123, 合成了全部特性的算法S1234。以精準率(Accuracy)作為衡量性能的指標,測試結果如圖1所示。

圖1 各種特性組合的性能直方圖

從圖1可以看到,在同義詞詞義選擇上,基于共享后綴詞集的改進算法S4取得了最高的性能,S4 的精準率比基準算法B的精準率提高了78.9%。

在上位概念選擇上,S4取得了次高的性能。也可以看到合成算法S1234在上位本體概念的選擇上正確率稍高,但并不明顯, 和只用S4差別非常微小。采用了下位詞特性算法S2的性能也是比較高的,這個方法主要使用了父串的術語集合來改進子串術語的映射性能。本文所述的基于共享后綴詞方法實際上是方法S2的擴展版本,因為后綴詞特性不僅改進了作為子串的術語的映射,同時也反過來改進了作為父串術語的映射。

通過對錯誤的分析可以發現問題主要有三種來源。第一就是通用詞典的引入—WordNet。 例如:“電阻” (resistance) 總是會被錯誤的翻譯成代表 “反對你不贊同的事物的行為” 的同義詞詞義 “resistance, opposition”。在IT領域, 正確的同義詞詞義應該是“材質對電的阻抗;單位是歐姆”, 其對應的上位本體概念是測量單位UnitOfMeasure

(SUMO中的繼承路徑為 “/實例-Entity /抽象物-Abstract /數量-Quantity /物理量-PhysicalQuantity /測量單位-UnitOfMeasure”)?;诠蚕砗缶Y詞的改進算法在一定程度上解決了這類問題。例如, “驅動程序” (driver) 在通用領域,如果不用共享后綴詞特性的話會由于翻譯是driver而錯誤的映射到同義詞詞義“car driver”(司機), 用之后則被正確地映射到 “driver program” (驅動程序)。第二個問題就是有些領域核心術語的詞義并不存在于WordNet中。比如術語 “多路存取” (multi-access) 就是這樣。在我們制作測試答案時發現大約4%的核心術語在WordNet中是找不到詞義的, 所以也就不能自動的被映射到SUMO中上位概念。第三種來源就是缺少上下文信息導致的翻譯錯誤。這是因為雙語術語庫只是一個詞典,缺少足夠的上下文信息。 這就導致術語的幾個詞義在領域中可能都正確,而沒有語境信息無法判定到底那一個最恰當。圖2是自動創建的中文核心本體的一個片段。最頂層的是SUMO中對應的上位本體概念,其下就是繼承的核心概念。這個片段中顯示的全部中文核心術語都正確的映射到了對應的概念,但如果使用基準算法就會有錯誤。 比如“例程”(routine)會被對應到例行公事,而不是例行的計算機程序。

圖2 自動創建的中文核心本體的一個片段

6 結束語

本文提出一種利用共享后綴詞來改進核心本體自動創建的方法(COCA_SE)。它利用共享后綴詞很可能也繼承自相同的上位概念這一觀察現象,找到最佳的上位概念,并利用上位概念調整原來的COCA算法從中文到英文最后到同義詞詞義的映射權重,更好地找到最恰當的同義詞詞義和對應的上位本體。實驗證明,基于共享后綴詞集的算法取得了最好的概念映射性能,提高了自動創建的核心本體的質量。本文中假定共享后綴詞集的特性和其他特性不相關,但實際上關聯是存在的,未來可以采用有指導(supervised)的方法來學習特性之間的融合參數來達到更高的性能。另外一方面,還可以集成更多的信息,如同義詞詞義的定義,互聯網上的詞匯語義資源(如維基百科等),進一步提高性能。

[1] Studer, R., Benjamins, V.R. and Fensel, D. Knowledge engineering: Principles and methods [J]. Data & Knowledge Engineering, 1998, 25(1-2): 161-197.

[2] Navigli, R., Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites [J]. Computational Linguistics 2004, 30: 151-179.

[3] Pease, A., Niles, I., Li, J. The Suggested Upper Merged Ontology: A Large Ontology for the Semantic Web and its Applications [C]// Working Notes of the AAAI-2002 Workshop on Ontologies and the Semantic Web.Palo Alto, California, USA: 2002, 28.

[4] Niles, I., Pease, A. Towards a standard upper ontology [C]// Proceedings of the international conference on Formal Ontology in Information Systems. Ogunquit, Maine, USA: 2001: 2-9.

[5] Miller, G., Beckwith, R., Fellbaum, C., Gross, D., Miller, K. Introduction to WordNet: An On-line Lexical Database*[J]. International Journal of Lexicography 1990, 3: 235-244.

[6] Fellbaum, C., NetLibrary, I. WordNet: an electronic lexical database [M]. USA:MIT Press,1998.

[7] Dong, Z., Dong, Q. HowNet and the Computation of Meaning [M]. Singapore: World Scientific Publishing Co., 2006.

[8] Huang, C., Chang, R., Lee, S. Sinica BOW (Bilingual Ontological Wordnet): Integration of Bilingual WordNet and SUMO [C]// Proceedings of the 4th International Conference on Language Resources and Evaluation. Lisbon, Portugal: 2004: 26-28.

[9] Hirst, G. Ontology and the Lexicon [M]. Handbook on Ontologies, 2004.

[10] Doerr, M., Hunter, J., Lagoze, C. Towards a Core Ontology for Information Integration [J]. Journal of Digital Information 2003, 4: 169.

[11] Tang, A., Zhen, Z., Fan, J. Thesaurus-based Approach to Build Domain Ontology [J]. New Technology of Library and Information Service (in Chinese)

2005: 1-5.

[12] Chen, Y., Lu, Q., Li, W., Li, W., Ji, L., Cui, G. Automatic Construction of a Chinese Core Ontology from an English-Chinese Term Bank [C]// Proceedings of Workshop OntoLex07 From Text to Knowledge: The Lexicon/Ontology Interface, the 6thInternational Semantic Web Conference.Busan, Korea: 2007.

[13] Chen, Y., Lu, Q., Li, W., Cui, G. Chinese Core Ontology Construction from a Bilingual Term Bank [C]// Proceedings of the 6th Language Resources and Evaluation Conference (LREC2008). Marrakech, Morocco: 2008.

[14] Cui, G., Lu, Q., Li, W. Preliminary Chinese Term Classification for Ontology Construction [C]// Proceedings of the 6th Workshop on Asian Language Resources, in the Third International Joint Conference on Natural Lanugrage Processing (IJCNLP). Hyderabad, India: 2008.

[15] Ji, L.N., Lu, Q., L., Chen, Y.: Automatic Construction of a Core Lexicon for Specific Domain [C]// Proceeding of the 6th International Conference on Advanced Language Processing and Web Information Technology. Luoyang, China: 2007.

[16] Kang, W. and Sui, Z.F. Research on Automatic Chinese Multi-word Term Extraction Based on Term Component [C]// Proceedings of the 22ndInternational Conference of Computer Processing of Oriental Languages.Hong Kong: 2009: 57-67.

[17] Scheuren, F., Association, A.S. What is a Survey? [EB/OL]. 1997. http://www.amstat.org/sections/srms/whatsurvey.html. Published by American Statistical Association.

[18] Niles, I., Pease, A. Linking Lexicons and Ontologies: Mapping WordNet to the Suggested Upper Merged Ontology [C]// Proceedings of the IEEE International Conference on Information and Knowledge Engineering. Las Vegas, Nevada, USA, 2003: 412-416.

猜你喜歡
后綴上位詞義
“誅”的詞義演變及其在古籍中的釋義
西夏語“頭項”詞義考
特斯拉 風云之老阿姨上位
詞義辨別小妙招——看圖辨詞
“三扶”齊上位 決戰必打贏
基于ZigBee和VC上位機的教室智能監測管理系統
倍增法之后綴數組解決重復子串的問題
兩種方法實現非常規文本替換
說“迪烈子”——關于遼金元時期族名后綴問題
《詩經》詞義考辨二則
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合