?

基于關聯規則的術語自動抽取研究*

2014-12-03 08:27王昊賢李廣建
圖書與情報 2014年5期
關鍵詞:術語準確率關聯

王昊賢 李廣建

(北京大學信息管理系 北京 100871)

術語自動抽取是自然語言信息處理中的一項重要課題,在機器翻譯、信息檢索、詞典編纂、文本分類和自動文摘等領域中有重要的作用。目前,人們已經從多個方面提出了各種方法,并且不斷有新的方法出現。本文的目的是研究關聯規則算法抽取術語的可行性及優勢。

1 相關研究

國內外研究人員已經通過大量的研究工作取得了一系列的成果。歸納起來,術語自動提取的方法可以分為基于語言學知識的方法、基于統計學原理的方法以及基于語言學知識和統計學原理結合的方法。

1.1 基于語言學知識的自動抽取方法

基于語言學知識的方法,又稱為基于規則的方法。所謂的“規則”指的是術語的詞法模式、詞形特征、語義信息等,利用這些知識可以從語料中抽取出術語或者識別術語在語料中的位置?;谡Z言學知識的術語自動抽取研究主要集中在上個世紀90年代,以Justeson&Katz算法為代表,該算法首先確定一系列語言性質的規則,然后用這些規則來識別文本中的術語。較為成熟的自動術語抽取系統有 FASTR 系統、Termight系統、Termino 系統、Nodalida 系統、Clarit系統、Heid-96 系統、Lexter 系統和 Naulleau-98 系統等。

1.2 統計學原理的抽取方法

基于統計學原理的抽取方法,主要利用統計學的原理計算出文本的各種統計信息,并利用統計結果選取術語。在線系統Term Extraction通過簡單統計基本詞頻來實現術語識別。Termextractor系統也是如此,通過統計選取高頻詞為術語。RIDF算法則不同,該算法關注低頻詞,在逆文檔頻率(IDF)的基礎上,利用Poisson檢驗來確定術語;互信息方法也是一種比較常用的術語抽取算法,它利用兩個或兩個以上的詞之間的互信息度,來決定這些詞匯是否組成一個復合詞,即它們是否組成了一個術語。

1.3 基于語言學知識與統計學原理結合的抽取方法

目前,單純運用語言學知識或者統計學原理的抽取方法并不多見,因為,基于語言學知識的方法和基于統計學的方法雖各有優勢,但也有明顯缺點。因此,有很多研究將基于語言學知識的方法與統計學原理的方法結合起來,力爭揚長避短。例如,將統計學的策略融入到基于語言知識的抽取方法中去,將二者有效地結合,可以顯著改善術語抽取系統的性能。這方面的代表方法是C-value/NC-value方法,該方法綜合運用結合語言知識和統計信息來提取由多個詞匯組成的術語。C-value/NC-value方法包括了兩個步驟,首先,用C-value方法計算詞匯的出現頻率測量,找出多詞候選術語,然后利用NC-value方法根據詞的上下文信息,最終確定要抽取的術語。近年來,機器學習的方法是這類基于語言學知識與統計學原理結合的抽取方法的一個重要發展方向,并取得了較好的抽取效果,它主要通過利用計算機對先前知識進行學習(訓練),利用這些訓練的經驗來對后續的文本進行相應的抽取,得出準確術語。

2 關聯規則方法及其抽取術語的可行性分析

2.1 關聯規則的基本原理

韓家煒在《數據挖掘概念與技術》一書中給出了關聯規則的確切定義:

項的集合 I={I,I,I,…,I},數據庫中事務的集合T={t,t,t,…,t},每個事務 t則是項的集合,即 t?I。若X→Y,滿足 X?I,Y?I,且 X∩Y=φ,則 X→Y 為 T 中的關聯規則。

關聯規則中,支持度(Support)是指T中的事務同時包含X、Y的百分比:

置信度(Confidence)是指T中事務已經包含X的情況下,包含Y的百分比:

若關聯規則X→Y,同時滿足支持度大于最小支持度Support(X→Y)>minSupport和置信度大于最小置信度Confidence(X→Y)>minConfidence,則認為關聯規則 X→Y是有趣的,即為強關聯規則,其中,最小支持度和最小置信度的閾值均人為設定。關聯規則挖掘就是在事務集合中挖掘強關聯規則。

關聯規則關注兩個事項的共同出現,或者說在前驅出現的條件下,后繼也出現,其經典應用是發現顧客的購買規律(如沃爾瑪超市發現的“啤酒和紙尿褲”的購買規律),在圖書館中進行書目推薦以及火災分析、交通事故處理、森林病害蟲預測和肺腸合病醫案用藥規律研究等。

2.2 術語構成基本原理

術語是特定領域中概念的語言表示,它可以是字、詞語或者字母與數碼符號。按照術語的構成,可將術語分為簡單術語和復雜術語。簡單術語,就是指僅由一個單詞構成的術語。例如:“信息 (information)”、“天 (sky)”、“雨(rain)”等。這樣的簡單術語不能再分解為更小的具有獨立含義的單元。復雜術語,則是指由兩個或更多單詞或語素按照一定的語法或語義結構組成的術語。例如:“信息檢索 (information retrieval)”、“復雜系統 (complex system)”、“計算機系統理論(computer system theory)”等,其中“信息檢索(information retrieval)”是由“信息(information)”和“檢索(retrieval)”構成,“復雜系統(complex system)”是由“復雜(complex)”和“系統(system)”構成。

2.3 關聯規則抽取術語的適用性

從以上關聯規則的定義可以看出,事務組合(X→Y)滿足最小的支持度和置信度,就可以稱之為“規則”,這就說明關聯規則中強調的是事項(即上述定義中的“項”I)的共同出現,或者說在前驅出現的條件下后繼出現。

術語的基本構成方式與關聯規則方法關注的內容具有一定的契合點,例如,如果我們把構成復雜術語的每個單詞或語素(以下簡稱詞匯)看作是“項”,那么,能共同構成一個復雜術語的若干個詞匯(項)必定會同時出現,因而可以根據詞匯之間的關聯程度來達到提取復雜術語的目的。不過,與一般的關聯規則發現中僅強調“共現”有所不同,構成復雜術語的詞匯之間必須具備位置相鄰性,而不是單純的“共現”,也就是說,在經典的關聯規則方法中引入項之間的鄰接性限定,是關聯規則應用于術語抽取的關鍵。

由此,術語抽取中的關聯規則可以表述為:若詞匯X與詞匯Y依次鄰接出現,且滿足最小的支持度和最小的置信度,則可以認為詞匯X和詞匯Y按照XY的次序,組成復雜術語。其中,關鍵的兩個參數即支持度和置信度可以這樣理解,支持度體現了詞匯鄰接出現的頻率,支持度高,說明詞匯鄰接組合出現的次數多,這樣鄰接出現的詞匯往往就會組成一個術語。置信度是指在詞匯X出現的條件下,詞匯Y緊跟其后出現的概率,或者在詞匯Y出現的條件下,詞匯X恰好出現它前面的概率,置信度越高,說明詞匯X和詞匯Y的組成一個復雜術語的可能性越大。所以,可以這樣給支持度和置信度下定義:

支持度為詞匯X和詞匯Y依次鄰接出現的概率,即:

其中,N為用于術語抽取的文本的句數。

置信度為在詞匯X出現的條件下,詞匯Y緊跟X后出現的概率或詞匯Y出現的條件下,詞匯X和詞匯Y依次鄰接出現的概率,即

如此,一個復雜術語的抽取將涉及到一個置信度的集合C,如果抽取者更重視召回率(Recall),置信度可取集合中的最大值(confidence=max(C)),并將它與預定的最小置信度比較,這樣的取值強調在置信度集合C中“存在”比最小置信度大的值,能夠保證召回率。

如果抽取者更重視準確率(Precision),置信度可取集合中的最小值(confidence=min(C)),并將它與預定的最小置信度比較,這樣的取值強調在置信度集合C中的“所有”值均比最小置信度大,能夠保證準確率。

如果抽取者的要求比較苛刻,需要召回率和準確率均較高,但由于召回率和準確率呈反比例關系,取最大值和最小值的方法均不可取,必須選取最大值和最小值之間的合理的數值,這個值可以為置信度集合的算數平均數、幾何平均數以及中位數等。

這里給出的置信度的定義,與經典的關聯規則不同,它不涉及“前驅”和“后繼”的概念,在術語抽取中區分詞匯的“前驅”和“后繼”的意義不大。這里的置信度是指多個詞匯組成新的復雜術語的可能性的大小。

3 實驗結果及分析

3.1 實驗基本條件與內容

實驗的基本條件如表1所示。

3.2 用關聯規則方法進行術語抽取的實驗過程及結果

(1)基本結果展示

表2是利用關聯規則FT-tree算法,對圖書館學情報學領域中英文文摘進行術語抽取所得到的部分術語。

(2)中英文對照實驗

從理論上講,中英文在利用關聯規則進行抽取時僅有預處理部分有所不同。中文不像英文那樣詞與詞之間存在著空格,因此在預處理時需要對中文進行分詞。在中英文對照實驗中,對圖書館與情報學領域的全部中英文數據進行了抽取,實驗使用了49種最小支持度和最小置信度組合,得到了49種抽取結果,表3列出了這49種抽取結果中最高的F-measure值、召回率值或準確率值(最高項用陰影標識)及它們對應的支持度與置信度取值。

表1 實驗基本條件表

從表3中可以看出,在應用關聯規則進行術語抽取時,可以通過合理配置參數(最小支持度和最小置信度)而得到滿意的效果,而且,無論是對于中文文本,還是英文文本,都可以通過配置不同的最小支持度和最小置信度來獲得較好的抽取效果。這說明,用關聯規則方法進行術語抽取不存在語言依賴,如果不考慮不同語言在預處理階段有較大的差別,關聯規則方法可以用于抽取任何一種語言中的術語。

表2 輸出結果表

表3 中英文對照表

(3)數據量大小對照實驗

分別以10條、100條、1000條圖書館學與情報學的英文數據作為抽取對象,每一種數據量都可以得到49種抽取結果,表4列出了這些結果中最高F-measure值、召回率值或準確率值(最高項用陰影標識)及它們對應的支持度與置信度取值。

表4 數據量大小對照表

從表4中可以看出,關聯規則方法不適用對數據量過小的數據集進行抽取,相反,數據量越大,抽取效果越好,而且,對于不同數量的數據集,同樣可以通過配置不同的參數來達到用戶最滿意的效果。

(4)不同學科數據對照實驗

實驗過程中,除圖書館與情報學數據之外,還增加了數學和地球科學的數據,分別對這三種學科的數據進行術語抽取,對每一個學科的抽取結果,做與表3或表4相同的統計分析,得到表5的結果。

表5 不同學科對照表

從表5可以看出,用關聯規則方法對各個學科的文本進行抽取,均能得到較好的結果,這說明,關聯規則應用于術語抽取不存在學科依賴,即使用關聯規則進行術語抽取不存在學科限制。在本實驗中,由于不同的學科具有不同的數據量,同時,各個學科的術語結構、已知術語等有所區別,因而達到最佳抽取結果的參數配置(最小支持度和最小置信度)也有所不同,這再次證明,合理的參數配置是將關聯規則應用于術語抽取的關鍵問題之一。

3.3 關聯規則方法與其他方法的對比實驗及結果

以圖書館學與情報學領域1000條英文文摘數據為處理對象,分別用互信息(基于統計學原理方法)、Justeson&Katz算法(基于語言學知識方法)、C-value算法(基于語言學和統計學結合方法)以及關聯規則的FT-tree算法進行術語抽取,以下是實驗過程中算法的實現難度、算法所需資源以及算法抽取效果等三方面比較結果。

(1)算法實現難度比較

算法實現難度是算法實用性的標志之一。表6列出了實驗中使用的四種算法的核心代碼量、核心內容和人為參與情況。

從表6可以看出,關聯規則有著較小的代碼量,但各個算法的核心代碼量不存在數量級上的明顯差別。在需要加載的內容方面,C-value/NC-value和Justeson&Katz算法需要加載規則,這類算法需要很強的先驗知識,關聯規則和互信息方法則不需要過多的規則,僅在在預處理部分做停用詞拆分和已知術語切分即可。值得一提的是,四種算法均必須人為控制參數,而且這些參數都是至關重要的。從總體上看,關聯規則方法擁有較小的代碼量,較簡單的抽取步驟和少量必須的人為參與,因此,關聯規則應用于術語抽取有著易于實現的優勢。

表6 算法實現難度比較表

(2)算法所需資源比較

運行算法時所需計算機資源的多少,是算法可用性的重要表現。計算機資源最重要的是時間和空間資源。以1000條圖書館學與情報學英文數據(大小為1028kb)為處理對象,統計各算法在術語抽取時的時間消耗以及最大內存占用量,結果如表7所示。

表7 資源占用比較表

從表7中可以看出,FT-tree(關聯規則)和互信息算法具有明顯的運行時間優勢,C-value/NC-value和Justeson&Katz算法除進行基本詞頻統計和參數控制外還需要進行規則的加載和篩選,因而時間消耗較大。在占用內存方面,FT-tree(關聯規則)和互信息算法同樣有明顯優勢,C-value/NC-value和Justeson&Katz算法所使用的規則庫必需常駐內存,同時,為了滿足規則匹配的需要,這兩種算法還要求對每個詞進行詞性的標注等,所以其所需內存較大。這一結果表明,關聯規則算法在算法的可用性即占用計算機資源方面具有一定優勢。

(3)算法抽取效果比較

算法的抽取效果是評價算法優劣的重要方面。此部分實驗,是中英文對照實驗中的運行結果。算法的參數配置,關聯規則選取本節數據量大小對照實驗運行結果F-measure值最高的一組支持度和置信度,其他算法的參數配置來源于相應的參考文獻[1,13,14]。算法的抽取效果從準確率、召回率和F-measure三個指標進行評價,結果如表8所示。

表8 算法抽取效果比較表

從表8中可以看出,Justeson&Katz算法的準確率要高于其他算法,C-value/NC-value算法和關聯規則算法的準確率次之,互信息方法的準確率最低。而實驗結果的召回率與準確率結果相反,Justeson&Katz算法的召回率最低,互信息方法的召回率達到了1。F-measure是綜合評價準確率和召回率的指標,C-value/NC-value算法的F-measure值最高,其次為關聯規則算法以及Justeson&Katz算法,互信息算法的F-measure值最低。綜合來看,就1000條的數據量來講,關聯規則算法取得了不錯的抽取效果,但還有一定的進步空間。

4 結語

本文討論了基于關聯規則的復雜術語抽取方法,從理論上看,關聯規則的基本原理決定了它在充分解決“序”的條件下,可以很好的完成術語的識別和抽取問題。從實踐上看,關聯規則的方法的確可以正確抽取出術語,而且,通過與現有算法的比較,可以發現,關聯規則在算法實現難度和占用資源方面具有非常明顯的優勢。而且,關聯規則在術語抽取時沒有學科和語言的依賴性,這一點,是基于規則的方法所不能比擬的。我們的下一步工作將進一步分析如何合理配置參數以及各種關聯規則算法用于術語抽取時的特點,包括效率、效果和限制條件。

[1] Justeson J, Katz S.Technical Terminology: some Linguistic Properties and an Algorithm for Identification in Text[J].Natural Language Engineering,1995,1(1):9-27.

[2] Jacquemin C.Recycling Terms into a Partial Parser[C].Proceedings of NALP’94,1994:113-118.

[3] Dagan I, Church K.Termight: Identifying and Translating Technical Terminology[C].4th Conference on Applied Natural Language Processing,1994:34-40.

[4] Andy L.Automatic Recognition of Complex Terms:Problems and the TERMINO Solution [J].In Terminolo-gy: Applications in Interdisciplinary Communication,1994,1(1):147-170.

[5] Arppe A.Term Extraction from Unrestricted Text[C].10th Nordic Conference of Computational Linguistics,1995.

[6] Chengxiang Z, Xiang T, Frayling MN.Evaluation of Syntactic Phrase Index CLARIT[C].Proceedings of TREC-5,1996.

[7] Ulrich H, Jauss S, Katja K.Term Extration with Standard Tools for Corpus Exploration:Experience from German[C].4th International Congress on Terminology and Knowledge Engieering,1996:139-150.

[8] Bourigault D, Mullier GI, Gros C.Lexter, A Natural Language Processing Tool for Terminology Extraction[C].7th EUEALEX International Congress on Lexicography,1996:771-779.

[9] Naulleau E.Profile-guided Terminology Extraction[C].the TKE’99: Terminology and Knowledge Engineering,1999:222-240.

[10] Herman E, Chomsky N.Term Extraction [EB/OL].[2014-07-02].http://fivefilters.org/term-extraction/.

[11] Sclano F, Velardi P.Termextractor: a web application to learnthe shared terminology of emergentweb communities[C].the 3rd International Coference on Interoperability for Enterprise Software and Applications,2007.

[12] Church K,Gale W.Inverse Document Frequency (IDF):A Measure of Deviations from Poisson [C].the 3rd Workshop on Very Large Corpora.Cambridge,Massachusetts, USA,1995:121-130.

[13] Frantzi K, Ananiadou S.Extracting Nested Collocations[C].Proceedings of the 16thinternational conference on computational linguistics,Coling 96,1996:41-46.

[14] Frantzi K, Ananiadou S, Mima H.Automatic recognition of multi-word terms:the C-value/NC-value method [J].InternationJournalonDigitalLibraries,2000,3(2):115-130.

[15] 辛欣,李涓子.文本信息抽取平臺的設計與實現——基于機器學習[A].第七屆中文信息處理國際會議論文集[C].中國中文信息學會,2007:7.

[16] 韓家煒.數據挖掘概念與技術[M].北京:機械工業出版社,2013.

[17] 陳定權,朱維鳳.關聯規則與圖書館書目推薦[J].情報理論與實踐,2009,(6):81-84.

[18] 徐曉楠,張曉珺,張偉等.北京市火災關聯規則分析[J].安全與環境學報,2010,(3):151-156.

[19] 羅五明,韓平陽.車輛事故關聯規則的提?。跩].交通與計算機,2003,(2):17-19.

[20] 任長偉,尚艷英,曹彥榮.基于GIS與空間關聯規則數據挖掘在森林病蟲害預測中的應用初探[A].中國地理信息系統協會.第四屆海峽兩岸GIS發展研討會暨中國GIS協會第十屆年會論文集[C],2006:6.

[21] 林煒爍,紀立金,高思華.基于關聯規則的肺腸合病醫案用藥規律探索[J].世界中醫藥,2014,(4):401-404.

[22] Zhang Z, Iria J, Brewster C, Ciravegna F.Java Automatic Term Extraction toolkit[EB/OL].[2017-07-02].https://jatetoolkit.googlecode.com/svn/trunk/2.0Alpha.

猜你喜歡
術語準確率關聯
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
多層螺旋CT技術診斷急性闌尾炎的效果及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
奇趣搭配
拼一拼
文學術語詞典中的“經典”:艾布拉姆斯的《文學術語匯編》
智趣
試論棋例裁決難點——無關聯①
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合