?

基于領域類別信息C-value的多詞串自動抽取

2010-06-05 09:02王會珍朱慕華朱靖波
中文信息學報 2010年1期
關鍵詞:詞串評測列表

李 超,王會珍,朱慕華,張 俐,朱靖波

(東北大學 自然語言處理實驗室,遼寧 沈陽 110004)

1 引言

多詞串是一種比詞攜帶了更多信息的語言學表示,其應用前景包括信息檢索、機器翻譯、問答系統、詞義消歧以及自動摘要等熱門任務[1]??紤]到人工收集多詞串的高昂代價以及信息時代領域知識的更新速度,如何用自動或者半自動的方法獲取多詞串就成為了自然語言處理領域的一個重要問題。

到目前為止,多詞串的自動抽取方法包括最開始提出的基于語言學規則的方法[2-4]以及后期提出的基于頻率統計的抽取方法[5-8]。 C-value方法是目前用于解決多詞串抽取問題最為常用的方法之一。該方法考慮了候選多詞串的頻次,多詞串的長度以及多詞串間相互包含的信息并以一個有序的多詞串列表作為輸出結果。以前的研究工作已經證明了C-value方法的有效性[9]。

但是,采用傳統的C-value方法進行多詞串抽取時,對于不同領域的抽取過程是獨立進行的,那么就存在一些多詞串在多個領域的計算結果中都會得到較大的C-value值,最終在輸出列表中均獲得較高的排位,也就意味著它們在多個領域中同時具有“較高重要性”,對領域類別具有較弱的指示作用,不應該作為領域多詞串的抽取結果。

本文工作基于如下假設:根據多詞串在不同領域的C-value輸出列表中的位置信息,多詞串的排序可以重新調整以獲得更好的性能。例如:采用C-value方法,多詞串“詳細 信息”在不同領域的輸出列表中都會排在靠前的位置,而多詞串“上海 大眾”僅在汽車領域中獲得較高的排位。在不同領域的C-value輸出列表中具有相近排位的多詞串(例如“詳細 信息”)具有較弱的領域相關性,在調整之后的多詞串列表中應該賦予較低的排位;與之相對,如果多詞串在不同領域輸出列表中的位置分布差異較大(例如“上海 大眾”),在最終輸出結果中應該賦予較高的排位。

基于以上假設,本文提出了一種基于領域類別信息的多詞串自動抽取方法:多類別C-value (Multi-Class C-value)。該方法對C-value在不同領域獨立輸出的結果進行重新排序,得到最終的多詞串輸出列表。

2 多詞串抽取方法

本文提出的多類別C-value(Multi-Class C-value)方法,首先利用傳統的C-value計算方法在各個領域中獨立進行多詞串抽取,生成多詞串列表,然后利用各個多詞串在不同列表中的位置分布信息進行多詞串的重新排序,以獲得最終的抽取結果。

2.1 C-value多詞串抽取

使用傳統C-value方法進行多詞串抽取的操作流程可以歸納如下:1)文本預處理,包括分詞和詞性標注; 2)候選多詞串的抽??; 3)詞性規則過濾; 4)C-value值的計算; 5)輸出各個領域的多詞串列表。C-value的計算方法考慮了候選多詞串的長度(詞串中詞語的個數)、頻次信息以及詞串相互包含的信息,計算公式如下所示:

(1)

其中:a表示候選的多詞串,|a|表示多詞串的長度,f(a)表示多詞串在整個語料庫中出現的頻次,Ta表示以多詞串a為子串的多詞串集合,P(Ta)表示集合Ta中的元素個數。

在利用C-value方法進行多詞串抽取時,除了C-value值的計算,另外一個需要考慮的問題是詞性過濾規則的構建。只有符合詞性過濾規則的多詞串才會參與C-value值的計算。由先前工作可知,大部分多詞串只由名詞、形容詞、動詞、副詞以及介詞組成[10],因此本文所構建的過濾規則只考慮上述五種詞性。

2.2 MCC-value多詞串抽取

2.2.1 MCC-value方法的引入

傳統的C-value方法在各個領域中分別進行多詞串抽取,可以成功地使部分領域相關的多詞串在輸出列表中排在較高的位置。表1給出了在汽車、科技和旅行領域的部分抽取結果。

然而,由于傳統的C-value方法只考慮了多詞串本身在各自領域內的分布信息,而沒有考慮多詞串在不同領域之間的分布,難以避免會有一部分多詞串,在各個領域中都具有較大的 C-value值,而在最終的輸出列表中獲得較高的排位,即該類多詞串在各個領域中具有類似的分布。直覺上解釋,如果某個多詞串在各個領域中的分布類似,表示該多詞串具有較弱的領域相關性,表2顯示了部分該類多詞串。

表1 多詞串在不同領域的輸出列表中的位置情況

表2 多詞串在不同領域的輸出列表中的位置情況

在本文中,多詞串領域指示性的強弱被稱為“領域模糊度”,模糊度的具體計算方法將在2.2.2節中詳述。

本文提出MCC-value方法的動機總結如下:

1) 如果多詞串A只在一個領域的輸出列表中排在很靠前的位置,在其他輸出列表中沒有出現或者是排在很靠后的位置,那么多詞串對領域類別具有較強的指示作用,模糊度較低,能夠作為領域多詞串的抽取結果;

2) 如果多詞串A在多個領域的輸出列表中都出現在很靠前的位置,那么多詞串屬于多個領域,對領域類別的指示作用較弱,其模糊度較高,在最終輸出的多詞串列表中的排位應該被降低。

2.2.2 MCC-value計算方法

本文利用多詞串在傳統C-value方法輸出列表中的位置分布,定義了模糊度計算函數。該函數將被用于對傳統C-value輸出結果進行重新排序,以得到最終的抽取結果。這種考慮多詞串在不同領域之間分布信息的C-value方法稱為多類別C-value(MCC-value)方法。本文首先定義模糊度計算公式,然后詳細介紹如何利用模糊度定義MCC-value方法。

某個特定多詞串的模糊度(表示為AD(t))由該多詞串在各個領域的輸出列表中的位置決定,其計算公式定義如下:

(2)

其中:m表示領域個數,集合S={S1,S2,…,Sm}表示C-value方法得到的m個多詞串集合,p(t,Si)代表多詞串t在第i個領域的C-value輸出列表中的位置,maxp(t,S)代表t在不同領域的輸出列表中位置的最大值,log2(1/m) 是歸一化因子。公式中的分子部分是一個類似于信息熵的計算式,恰好衡量了多詞串在輸出列表中的位置差異性,本文稱該部分計算式為“位置熵”。

利用公式(2)可以計算得到任意一個多詞串的模糊度值。將傳統C-value方法得到的分值(C-value值)與AD值結合在一起,就可得到基于多類別C-value的多詞串自動抽取方法,該方法的計算公式定義見公式(3)。

(3)

其中:Cvalue(t,Si)表示多詞串t在第i個領域用傳統C-value方法計算得到的分值,AD(t)表示利用公式(2)計算得到的多詞串t的模糊度。公式中將Cvalue(t,Si)取對數是減弱Cvalue(t,Si)值對于MCCvalue(t,Si)值的影響。由公式(3)可知,模糊度 與MCC-value的值成反比關系,即模糊度AD(t)越小,意味著多詞串t在多個輸出列表中的位置差異性越大,多詞串對領域的指示性越強,MCC-value方法傾向于提高這類多詞串的排位。

3 實驗

3.1 實驗數據

本文采用的語料來自于搜狗語料庫2.0版本*http://www.sogou.com/labs/dl/t.html。語料庫包含1億個網頁。根據對網頁的URL分析,可以自動得到部分具有領域類別的網頁。本文實驗采用汽車、科技和旅行三個領域的數據。其包含的網頁數量和詞的數量見表3所示。

表3 實驗數據統計信息

3.2 評價方法

本文采用人工校對的方法對三個領域中的多詞串輸出列表分別評測。評測的結果采用準確率作為評測指標。為了提高實驗結果的可信度,本文的實驗結果評測過程中,3名人員獨立進行,并采用了兩種評測方法:針對某個抽取方法得到的多詞串,評測方法1,當3名評測人員中至少有2名人員一致判定多詞串抽取結果正確則認為該多詞串抽取結果正確;評測方法2,判定條件更加嚴格,只有當3名評測人員全部判定抽取結果為正確的條件下才認為該多詞串的抽取結果為正確。

判定領域多詞串正確的基本規則有兩個,第一,多詞串應該帶有明顯的領域信息。例如:“上海 大眾”多詞串攜帶著明顯的汽車領域信息;第二,多詞串在語法上必須完整,例如,“責 聲明”這樣不完整的多詞串并不能作為正確的結果。不符合以上兩個標準的多詞串將判定為錯誤的結果。

3.3 實驗結果

在本文的實驗中,候選多詞串的最小長度為2,最大長度設置為6。由公式(1)可知,除了需要設定候選多詞串的最大長度以外,還需要設定包含當前候選多詞串的更長詞串的最大長度。在本文實驗中該閾值設定為7。具體地說,假設當前候選多詞串t的長度為L,則公式(1)只考慮包含多詞串t而且長度在[L+1,7]范圍內的多詞串參與計算。

從表4中可以看出MCC-value方法較于傳統的C-value方法有顯著的提高。在top-100的級別上,使用評測方法1,汽車領域多詞串抽取的結果準確率由66%提高到78%,科技領域準確率由63%提高到75%,而旅行領域準確率由64%提高到77%。在這三個領域中,準確率分別提高了12%、12%和13%。隨著參與評測的多詞串個數增加(最大達到1 000),C-value和MCC-value的方法都有明顯下降。

表4 利用評測方法1得到的實驗結果

表5給出了使用評測方法2得到的實驗結果。在top-100級別上,準確率由57%提高到68%,科技領域準確率由51%提高到65%,而旅行領域準確率由58%提高到68%。在這三個領域中,準確率分別提高了11%、14%和10%。兩種評測方法都表明:MCC-value方法較于傳統C-value方法有顯著提高,充分驗證了MCC-value方法的有效性。

表5 利用評測方法2得到的實驗結果

3.4 實驗結果分析

MCC-value方法,考慮了多詞串在不同領域的分布情況,有效地降低了模糊度較高的多詞串對于抽取結果的影響,而使用MCC-value方法,加入了多詞串在不同領域的分布信息,有效地減小了這類模糊多詞串對抽取結果的影響。

在多詞串抽取結果中,還發現一些錯誤的多詞串抽取結果,例如:汽車領域中的“鉛 汽油”、“廂 轎車”,這樣的多詞串在C-value方法的輸出列表和MCC-value方法的輸出列表中都排在很靠前的位置,但卻不是完整的多詞串,不能作為正確的抽取結果。包含“鉛 汽油”、“廂 轎車”抽取結果的正確的多詞串是“無 鉛 汽油”、“兩 廂 轎車”這樣的多詞串,而它們卻不符合詞性過濾規則,計算C-value值時,“鉛 汽油”等多詞串就會作為不被其他更長的串包含的情況處理,所以影響了抽取結果的準確率。那么詞性規則的選擇,也一定程度上影響了系統的性能。

4 結論及未來工作

本文首先用C-value的方法對多個領域的文本進行多詞串自動抽取,然后將多詞串在不同領域的分布信息加入到C-value方法中,提出了一種多類別C-value(MCC-value)方法,進行領域多詞串的自動抽取。

最后在汽車、科技和旅行三個領域的數據上進行實驗,較于傳統的C-value方法性能有著明顯的提高。實驗結果表明,此方法在領域多詞串自動抽取的任務中是非常有效的。

下一步工作有:1)進一步研究詞性過濾規則,尋找更適合于多詞串抽取任務的詞性規則; 2)將MCC-value的方法應用到領域知識庫的構建工作中,為領域知識庫的構建提供多詞串信息; 3)將模糊度的概念引入到其他多詞串抽取方法中,比較其在其他方法中的效果。

[1] 段建勇.多詞表達抽取及其應用[D].上海交通大學博士論文,2007.9.

[2] Sophia Ananiadou.Towards a Methodology for Automatic Term Recognition[D].University of Manchester Institute of Science and Technology, 1988.

[3] Sophia Ananiadou.A methodology for automatic term recognition[C]//Proceedings of the 15th International Conference on Computational Linguistics. Morristown,NJ,USA:Association for Computational Linguistics,1994:1034-1038.

[4] Didier Bourigault.Surface grammatical analysis for the extraction of terminological noun phrases[C]//Proceedings of the 14th International Conference on Computational Lingustics.Morristown,NJ,USA:Association for Computational Linguistics,1992:977-981.

[5] Ido Dagan,Ken Church.Termight: Identifying and translating technical terminology[C]//Proceedings of the 7th Conference of the European Chapter of the Association for Computational Linguistics.Morristown,NJ,USA:Association for Computational Linguistics,1994:34-40.

[6] Beatrice Daille,Eric Gaussier,Jean-Marc Lange.Towards automatic extraction of monolingual and bilingual terminology[C]//Proceedings of the 15th International Conference on Computational Linguistics.Morristown,NJ,USA:Association for Computational Linguistics,1994:515-521.

[7] John S. Justeson,Slava M. Katz.Technical terminology: some linguistic properties and an algorithm for identication in text[J]. Natural Language Engineering, 1(1):9-27, 1995.

[8] Chantal Enguehard,Laurent Pantera. Automatic natural acquisition of a terminology[J]. Journal of Quantitative Linguistics,1994,2(1):27-32.

[9] KT Frantzi,S Ananiadou.The C-Value/NCValue domain independent method for multi-word term extraction[J]. Journal of Natural Language Processing,1999,6(3):145-179.

[10] 朱靖波,陳文亮.基于領域知識的文本分類[J].東北大學學報,2005,26(8):733-735.

猜你喜歡
詞串評測列表
學習運用列表法
次時代主機微軟XSX全方位評測(下)
次時代主機微軟XSX全方位評測(上)
小學語文詞串教學之淺見
小學語文詞串教學之淺見
擴列吧
靈動的詞串,寫話的紐帶
攻坡新利器,TOKEN VENTOUS評測
Canyon Ultimate CF SLX 8.0 DI2評測
列表畫樹狀圖各有所長
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合