?

基于Web弱指導的本體概念實例及屬性的同步提取

2010-06-05 08:35穗志方
中文信息學報 2010年1期
關鍵詞:實例本體準確率

康 為,穗志方

(1. 北京大學 計算語言學研究所,北京 100871;

2. 北京大學 計算語言學教育部重點實驗室,北京 100871)

1 引言

Ontology可以看作是概念和概念之間關系組織起來的結構,而其中Instance-of和Attribute-of是最基本的兩種關系。作為本體學習的重要部分,本體概念實例提取和屬性提取的研究越來越受到重視。

Hearst提出了利用句法模式從文本中得到上下位關系的方法[1],利用的句法模式如“such NPoas NPi,…,NPn-i(or|and) other NPn”等,這種方法能夠取得較高的準確率,但是基于單一文本的實例提取往往會出現數據稀疏的問題。文獻[2]從Web上提取候選概念屬性,并將判別屬性看作分類問題,利用兩個有指導的分類器來進行分類。文獻[3-4,8]利用無指導或弱指導的方法從非結構化的Web文本中提取概念實例,文獻[6]使用無指導的方法從半結構化的HTML文檔中提取屬性和屬性值對,文獻[6]利用弱指導的方法從結構化的Web文檔中提取概念屬性,近年來隨著Wikipedia的不斷發展,基于Wikipedia的屬性提取也受到關注[7]。

上述的研究大多關注于單獨的概念實例提取或屬性提取任務,而沒有同時進行概念實例提取和屬性提取,只有文獻[8]利用弱指導方法從Web文檔和搜索引擎查詢日志中獲取開放領域的概念的實例和屬性。本文提出了一種基于Web弱指導的本體概念實例和屬性的同步提取方法,利用小規模的種子實例和屬性集,從Web上自動獲取實例和屬性共現的上下文模式,并利用種子實例和屬性的關聯性來評價這些模式。進一步,本文提出兩種方法來評價提取的候選實例和屬性。第一,利用概念實例和屬性的關聯性來互相評價對方的準確度;第二,利用候選實例或候選屬性與種子實例或屬性在上下文模式分布上的相似度來評價準確度。在疾病類實驗結果表明,人工確認候選實例的準確率在前500個結果達到94%,前1 000個結果的準確率也高達93%。

本文的組織結構如下:第二章主要介紹基于Web的本體概念實例和屬性同步提取的基本思想;第三章介紹實例和屬性提取的關鍵技術;第四章介紹實驗設置及對實驗結果的分析評價;最后一章是本文工作的總結。

2 基于Web的本體概念實例和屬性同步提取的基本思想

2.1 基本思想

本體是對某個領域中的概念的形式化的明確的表示。從語義上分析,實例表示的就是對象,而概念表示的則是對象的集合。譬如一個醫學本體中,“疾病”是一個概念,而具體的疾病“感冒”、“高血壓”等是“疾病”的實例,這些實例都有一些共同的特征和屬性,譬如疾病的實例都有“癥狀”、“治療”、“病因”等屬性,這些屬性是用來描述概念及其實例的本質特征。因此,概念實例和概念的屬性之間具有密切的關系,具有相同屬性集合的對象可以認為是同一概念的實例,而一個概念的實例具有相同的屬性集合。在領域語料中,概念的實例往往和其屬性描述同時出現。本文以Web作為語料,利用少量的種子實例和種子屬性,提取實例和屬性共現的上下文模式,并進一步利用上下文模式同時提取概念實例和屬性。本文的工作主要圍繞著以下三個問題進行解決:

1) 如何解決概念實例和屬性提取中的數據稀疏問題?

基于上下文模式進行信息提取,往往會出現數據稀疏的問題,而以Web作為語料就可以較好的解決這一問題。由于Web上信息傳播、共享的便捷性,Web上的信息具有很大的冗余性。對于人而言,這種冗余性會影響信息獲取的效率,而對于基于模式的信息提取任務,由于Web信息的冗余性,在單一文本中會出現數據稀疏的模式,在Web中則可以出現很多次,因此Web信息的冗余性恰恰可以用來解決數據稀疏的問題[9]。進一步,本文通過自動構造查詢請求,利用Google搜索引擎返回的排序靠前的檢索結果作為語料來提取概念實例和屬性。

2) 如何評估候選模式的準確性?

概念實例和屬性往往出現在特定的上下文模式中,本文利用種子概念實例和屬性構造如“IH1AH2”(I為種子實例,A為種子屬性,H1和H2是上下文)的查詢請求,在Google返回的檢索結果中自動提取實例和屬性共現的上下文模式,通過這種方式提取的模式有很多是不準確的,因此我們利用種子實例與屬性的關聯性來評價候選模式的準確性,越能體現種子實例和屬性的模式越準確。例如,對于上下文模式P =“I的A及”,種子實例“感冒”和種子屬性“癥狀”在P上的關聯性表現為,“感冒”和“癥狀”出現在Web時“感冒的癥狀及”在Web上出現的概率,綜合所有這樣的種子實例和屬性的組合情況,就能夠評價出模式P反映種子實例與屬性關聯性的程度。

3) 如何評價提取的概念實例和屬性?

由于Web信息的復雜性,利用Web提取的候選概念實例和屬性時不可避免的有一些噪音,因此需要對候選實例和屬性進行可靠性的評價。本文從兩個方面對候選進行評價。第一,利用概念實例和屬性之間的密切關系來相互評價候選實例和屬性。譬如,對于概念“疾病”,我們有種子屬性“癥狀”、“治療”和“病因”,真正的疾病實例相比于不是疾病的候選實例與這些種子屬性有更為密切的關系,我們用PMI-IR來衡量這種密切的關系[10]。第二,利用候選實例(或候選屬性)和種子實例(或種子屬性)在上下文模式集合′上分布的相似度來評價候選實例(或候選屬性)。譬如,對于疾病的種子實例“感冒”、“高血壓”、“鼻炎”,候選實例“牙結石”比“科學正確”更接近種子實例的上下文分布。本文綜合了以上兩種評價方法,既考慮了概念實例和屬性的密切關系,又把提取對象與其種子的聯系也作為度量。

2.2 整體框架

基于Web的本體概念實例和屬性同步提取方法,其輸入是少量的種子實例和種子屬性,在Web上,利用種子實例和屬性提取上下文模式并進行評價,利用模式提取候選實例和候選屬性并進行評價,最終得到排序后的概念實例列表和屬性列表。系統的框架如圖1所示,它包括三個主要模塊。

圖1 基于Web的本體概念實例和屬性同步提取方法框架

1) 上下文模式的提取和評價模塊:該模塊提取概念實例和屬性共現的上下文模式,并且利用Google評價提取的模式。

2) 候選實例的提取和評價模塊:在該模塊中,利用種子屬性和1)中提取的上下文模式構造查詢請求,利用Google返回的結果提取候選實例,并用基于與種子屬性PMI-IR和種子實例相似度的可靠性評價方法來評價候選實例,并擴充種子實例集合。

3) 候選屬性的提取和評價模塊:該模塊利用擴充的種子實例集合和1)中提取的上下文模式構造查詢請求,利用Google的結果提取候選屬性,并用與2)相似的方法評價候選屬性。

3 關鍵技術

3.1 基于Web的上下文模式的提取和評價

? 上下文模式的提取

實例與屬性的關系其實是一種“I具有A”的關系,如“感冒的癥狀有”、“高血壓的治療需要”等就體現了這種關系,因此我們試圖提取出形如“IH1AH2”的上下文模式,其中I是概念實例,A是屬性,H1和H2是在語料中出現頻次高于閾值F、并且長度小于閾值L的上下文片段。本文利用小規模種子集,構造出給Google搜索引擎的查詢請求,利用Google API獲得每個查詢排名前100的結果,把Google返回結果的網頁標題和結果片段(Snippets)作為提取上下文模式的語料集,記為Corpus P。然后提取“IH1AH2”類型的模式,將得到的模式集合記為。

? 上下文模式的評價

(1)

其中,(,γ)表示將模式“IH1AH2”中的I和A替換為具體的i和a,Hits(q)表示將q作為查詢詞在Google中檢索得到的結果數目。我們將score(γ)小于給定閾值的模式排除,得到最終的模式集合′,再將′中的γ的權重歸一化為score′(γ)。

3.2 概念實例提取及評價

? 提取概念實例候選

基于2.1中提取的上下文模式和種子屬性,我們用具體的種子屬性a替換上下文模式“IH1AH2”中的“A”,并構造查詢請求query =“*H1aH2”,我們通過在Google中檢索query得到符合模式的結果,記做Corpus I。在Corpus I中依據模式集合′抽取概念實例候選,我們采用如下的策略:首先,我們以Corpus I中的句子為單位進行抽取,我們只選擇所有以“*H1AH2”作為開頭的句子,抽取其中匹配“*”的部分,記為集合。然后,進一步對集合中的字符串S進行處理,我們使用前綴和后綴停用詞表去掉S中的噪音前綴和后綴,并只保留長度在2到10之間的字符串,經過上面的篩選,我們最終得到候選概念實例集合ξ。

? 候選概念實例可靠性評價

通過上下文模式提取出來的概念實例候選不可避免的會包含噪音,因此需要對候選實例進行置信度的評價。本文提出了兩種方法來評價候選實例:

1) 基于實例候選和種子屬性PMI-IR的評價方法

一個合法的概念實例應該和種子屬性的相關程度很大,因此我們用實例候選和種子屬性的互信息來衡量實例候選的置信程度。本文中使用Google搜索引擎統計實例候選和種子的PMI-IR來計算實例候選的可靠性P(i),如公式(2)、(3)所示:

(2)

(3)

其中,P(i)是候選實例的可靠性,P(a)是屬性的可靠性,Hits(q)是以q作為Google的檢索詞得到的結果數目,(i,a)是以i和a同時作為Google檢索的關鍵詞,N是Web上所有文本的數目。

2) 基于實例候選和種子實例相似度的評價方法

(4)

其中,Hits(α,γ)是以α,γ共同作為Google的檢索詞得到的結果數目,score′(γ)是2.1中計算的模式γ的權值,N是Web上所有文本的數目。得到所有種子實例的特征向量后,把它們相加并做歸一化得到一個參照特征向量vs。

ii) 用i)中描述的方法為所有的候選實例Icand構造特征向量vc。

iii) 使用Jensen-Shannon divergence[11]計算候選實例特征向量vc和參照特征向量vs的相似度,并根據計算的相似度對候選實例進行排序。

3.3 屬性提取及評價

與概念實例提取類似,屬性提取也分為提取候選屬性和評價候選屬性兩個部分。

? 提取屬性候選

在提取屬性時,我們把實例提取之后置信度高的實例候選添加到實例種子集中。利用Google返回檢索結果Corpus A,我們選擇所有匹配上下文模式“IH1*H2”的句子,抽取其中匹配“*”的部分,記為集合′。對′中的字符串S只保留長度在2到8之間并且出現頻次大于給定閾值的字符串,經過上面的篩選,我們最終得到候選概念實例集合ξ′。

? 屬性候選可靠性評價

1) 基于候選屬性與種子實例PMI-IR的評價

基于PMI-IR的屬性候選可靠性評價與實例候選相似,有所不同的是種子實例集合添加了置信度小于1的實例,公式(5)描述了候選屬性a置信度的評價:

(5)

其中pmi(a,i)與公式(3)中的pmi(i,a)相等。

2) 基于候選屬性與種子屬性相似度的評價

候選屬性的可靠性也可以用其余種子屬性的相似度來衡量,相似度計算的步驟也分為三個:i) 利用種子屬性構造參照特征向量。ii) 為候選屬性構造特征向量。iii) 計算候選屬性特征向量和參照特征向量的相似度,并根據計算的相似度對候選實例進行排序。

4 實驗分析

4.1 實驗數據

本文使用Google API作為獲得Web語料的工具,在構造查詢請求后,我們把Google返回的檢索結果的標題和上下文片段作為提取上下文模式、實例和屬性的語料。本文在醫學領域的概念“疾病”上進行了實驗,我們使用的初始種子實例集為{感冒、高血壓、鼻炎、頸椎病、腎結石},初始的種子屬性集為{癥狀、治療、病因}。

本文中使用一個領域專家人工校訂過的,基于美國國立醫學圖書館編撰的《醫學主題詞表》(MESH)的現代醫學領域Ontology作為實例和屬性提取的黃金標準。作為標準的現代醫學領域Ontology中包含3 904個疾病實例,其中有148中常見疾病。我們使用準確率、覆蓋率來評價實例提取,用準確率評價屬性提取的結果。其中,對于準確率的評價采用了人工確認的方法,對每個自動提取的概念實例都一一進行人工確認。由于我們無法真正得到我們提取的實例和屬性在整個Web上的召回率,本文中采用了覆蓋率作為替代的方法,這里的覆蓋率是指我們提取的實例與作為黃金標準的本體中的實例的交集占黃金標準中實例的比例。

4.2 概念實例提取的實驗結果

我們在概念“疾病”上進行實例提取的實驗,結果得到2 200個候選實例,其中有315個疾病實例在全部疾病的黃金標準中出現,覆蓋率達到了8.1%,有58個實例在常見病的黃金標準中出現,覆蓋率達到了39.2%。表1中給出了實例提取的覆蓋率。人工確認候選實例的準確率在前500個結果達到94%,前1 000個結果的準確率也高達93%,自動提取實例的準確率在圖1中給出。

表1 實例提取在黃金標準實例上的覆蓋率

從結果中我們可以看出在Web上自動提取的概念實例已經覆蓋了相當程度的常見病,同時相比于標準本體,也有315個實例被提取出來,但是標準本體在構造時也并不能囊括所有的疾病實例,在我們提取的結果中有相當一部分實例經過人工確認是合法的疾病實例,而這些實例并不在標準本體中,表2給出了實例提取的結果與黃金標準比較的情況。

表2 實例提取結果與黃金標準比較

圖1 實例自動提取的準確率

從圖1可以發現,經過排序后的候選實例的前 1 000 個結果準確率都達到了92%以上,而前 2 000 個結果的準確率也維持在85%,準確率下降的原因在于經過我們的排序,置信度高的實例候選大多排在了前面,而置信度低的實例大多集中在后面。文獻[4]利用人工選擇的模式在規模為60 000 000的Web文檔集合上提取概念“公司”和“國家”的實例,他們對提取的實例進行抽樣并人工確認其準確性,在“公司”上抽取的實例有1 116個,準確率為90%。對比上述研究的實驗結果,我們的方法利用較少的資源,在提取出更多實例的同時,準確率依然維持較高的水平。

4.3 屬性提取的實驗結果

圖2 屬性自動提取的準確率

我們在概念“疾病”上進行實驗,前30個結果的準確率都達到了60%以上,前20達到70%,前5個結果最高,達到了80%。屬性自動提取的準確率在圖2中給出。文獻[8]利用弱指導方法從Web文檔和搜索查詢日志中獲取開放領域的概念的實例和屬性,其提取的排名前20的候選屬性的平均準確率達到了67%,相比于文獻[8]中使用了5千萬個查詢日志和1千萬個Web文檔,本文的方法使用的資源規模要小很多,但是卻取得了相當的準確率。相比于概念實例,一個概念的屬性的數目要遠遠小于概念實例的數目,因此屬性提取的準確率較實例提取要低一些。

5 結論

本文提出了一種基于Web弱指導的本體概念實例和屬性的同步提取方法,利用小規模的種子實例和屬性集,自動從Web上獲取概念實例和屬性共現的上下文模式,并利用種子實例和屬性的關聯性來評價這些模式。在根據上下文模式提取候選概念實例和屬性后,本文利用概念實例和屬性的關聯性以及候選實例或候選屬性與種子實例或屬性在上下文模式分布上的相似度來評價準確度。以Web作為語料進行實例和屬性提取,充分的利用了Web信息的冗余性,可以有效的克服單一文本中的數據稀疏問題。實驗結果表明,本文方法提取出的概念實例和屬性準確度較高,能夠有效的輔助本體的自動構建。

[1] M. Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora[C]//Proceedings of the 14th International Conference on Computational Linguistics [C]. Nantes, France, 1992:539-545.

[2] M. Poesio, A. Almuhareb. Identifying Concept Attributes Using a Classifier[C]//Proceedings of the ACL-SIGLEX Workshop on Deep Lexical Acquisition. Ann Arbor, 2005:18-27.

[3] O. Etzioni, M. Cafarella, D. Downey,等. Unsupervised Named-Entity Extraction from the Web: An Experimental Study [J]. Artificial Intelligence, June 2005, 165:91-134.

[4] M.J. Cafarella, D. Downey, S. Soderland, O. Etzioni. KnowItNow: Fast, Scalable Information Extraction from the Web[C]//Proceedings of HLT/EMNLP. Vancouver, October 2005:563-570.

[5] N. Yoshinaga, K. Torisawa. Open-Domain Attribute-Value Acquisition from Semi-Structured Texts[C]//Proceedings of the OntoLex 2007. Busan, South-Korea, November 11th, 2007.

[6] S. Ravi, M. Pasca. Using Structured Text for Large-Scale Attribute Extraction[C]//Proceedings of the 17th International Conference on Information and Knowledge Management(CIKM-08). Napa Valley, California, USA, October 2008: 1183-1192.

[7] G. Cui, Q. Lu, W. Li, Y. Chen. Automatic Acquisition of Attributes for Ontology Construction[C]//ICCPOL2009, Springer, 2009:248-259.

[8] M. Pasca, B.V. Durme. Weakly-Supervised Acquisition of Open-Domain Classes and Class Attributes from Web Documents and Query Logs[C]//Proceedings of the ACL-08: HLT. Columbus, Ohio, USA, June 2008: 19-27.

[9] F. Keller, M. Lapata, O. Ourioupina. Using The Web to Overcome Data Sparseness[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia, July 2002: 230-237.

[10] P. Turney. Mining the Web for Synonyms: PMI-IR Versus LSA on TOEFL[C]//Proceedings of the 12th ECML-2001). Freiburg, Germany, September, 2001: 491-502.

[11] L. Lee. Measures of Distributional Similarity[C]//Proceedings of the 37th Annual Meeting of the Association of Computational Linguistics (ACL-99). College Park, Maryland, 1999: 25-32.

猜你喜歡
實例本體準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
眼睛是“本體”
高速公路車牌識別標識站準確率驗證法
基于本體的機械產品工藝知識表示
完形填空Ⅱ
完形填空Ⅰ
專題
Care about the virtue moral education
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合