?

基于北京大學中文網庫的語義角色分類

2011-06-28 02:18常寶寶
中文信息學報 2011年2期
關鍵詞:論元謂詞語料

楊 敏,常寶寶

(北京大學 計算語言所,北京 100871;北京大學 計算語言學教育部重點實驗室,北京 100871)

1 引言

語義角色標注是當前淺層語義分析的一種主要的實現方式,主要任務是找出給定句中每個謂詞的動詞——論元結構。語義角色標注意義廣泛,在許多復雜的自然語言處理中,都有很大的用處,它對信息抽取、機器翻譯等研究都會產生巨大的幫助。

語義角色標注的研究最早關注于英文,最早研究開始于Dan Gildea和Dan Jurafsky[1],隨著賓州大學命題庫的建立,語義角色標注任務得到廣泛的國際關注,并取得了許多很好的結果,例如Carreras等[2-3],Moschitti[4]等。另一方面出現了一些相關的國際評測:CoNLL 2004[2]、CoNLL 2005[3]、EMNLP-CoNLL 2007和CoNLL 2008都包含了語義角色標注的任務也促進了語義角色標注研究的蓬勃發展。國內對語義角色標注的關注最早起始于劉挺等[5],他們主要關注的依然是英文語義角色性能的提升。而關注于中文的語義角色標注工作較晚,最開始研究的是Sun等[6]。后來伴隨著中文PropBank的構建,Xue Nianwen開始了比較系統的中文語義角色標注的工作[7-8]。國內還有劉懷軍等[9],丁偉偉等[10-11]對漢語的語義角色研究進行了系統的研究。

縱觀以前的有指導的語義角色標注任務,無論是對英文還是中文的研究工作,大都是基于賓州大學命題庫的語義角色標注體系進行的,CoNLL 2004[2]、CoNLL 2005[3]更是推動了所有研究都基于賓州大學命題庫的研究這一趨勢,因此研究的一大類方法便是在賓州大學命題庫的基礎上,基于特征的研究方法。由于北京大學中文網庫(以下簡稱北大網庫)的建立,網庫的標注方法與賓州命題庫的標注方法有所區別,本文的主要任務是將之前的研究方法使用到新的標注語料中,考察之前的研究方法在新標注體系中的作用,進而討論是否以前的特征選擇會有對標注體系的依賴性問題。

本文以下部分是這樣組織的:第2節介紹中文Proposition Bank和pku網庫標注語料;第3節是具體介紹實驗的相關設置;實驗的相關結果在第4節;第5節主要介紹兩個改進實驗。最后一節是結論與展望。

2 語料介紹

2.1 中文PropBank

中文Proposition Bank(以下簡稱中文PropBank)是賓州大學建設的中文語義角色標注語料庫。它是在中文TreeBank的基礎上添加了一個語義角色標注層,標記出來動詞和對應論元在TreeBank中的位置。表1列出了PropBank中出現的所有論元。PropBank中出現的語義角色可以分為兩大類:核心論元和非核心論元。前一類又可以分為施事、受事、與事等多種論元,由于PropBank中的論元劃分依據的是Dowty[12]的原型理論,所以施事、受事等角色包括的范圍都是很廣的。非核心論元又可以按照功能分出小類,比如ADV、MNR、TMP等就是其中的小類。 結合圖1可知,ARG0-ARG5是核心論元,其他都屬于非核心論元。

表1 PropBank中的論元

2.2 北京大學中文網庫

與賓州大學命題庫相似,北大網庫是在由詹衛東等開發的北大漢語句法分析樹庫的基礎上進行語義標注的,由北京大學中文系袁毓林[13]教授組織完成,語義角色標簽標注在句法樹的節點上。在語義角色設置方面,與PropBank有些區別,尤其是核心論元的設置。具體論元設置如下[13]:

(一) 必有論元:

A. 主體論元:(1)施事A:自主性動作行為的施行者。(2)感事Se:非自主性的心理感覺的主體。(3)經事Ex:某種變化的具有感知性的主體。(4)致事Cau:某種致使性事件的引起者。(5)主事Th:性質、狀態等無施動、感知性的主體。

B. 客體論元:(1)受事P:因施事的行為而受到影響的事物。(2)與事D:動作、行為的非主動的參與者。(3)結果R:動作、行為造成的結果。(4)對象Ta:感知性動作、行為的對象和目標。(5)系事Re:事件中跟主體論元相對的其他各種客體。

(二) 非必有論元

A. 憑借論元:(1)工具I:動作、行為所憑借的器具。(2)材料Ma:動作、行為所用的材料。(3)方式M:動作、行為所采取的方式、方法。(4)原因Rn:動作、行為、事件等發生的原因。(5)目的Ai:發生動作、行為、事件等的目的。

B. 環境論元:(1)時間T:動作、行為、事件等發生的時間。(2)處所L:動作、行為、事件等發生的處所。(3)源點So:動作、行為、事件等開始的時間或處所。(4)終點Go:動作、行為、事件等結束的時間、處所或狀態。(5)路徑Pa:動作、行為、事件等中途經過的時間或處所。(6)范圍Ra:動作、行為、事件等所涉及的數量、頻率、幅度、時間等事項。(7)量幅EXT。

圖1是北大網庫中的一個例子。在這個例子中,出現了三個謂詞,分別是:“毫不在意”、“抹去”、“當作”。對于“毫不在意”,句子中對應的論元成分有:感事“他”,對象“這一切”;對于謂詞“抹去”,句中對應的論元有:施事“他”,受事“它們”和方式“當作蛛絲一樣”;對于謂詞“當作”,對應的論元有:施事“他”,受事“它們”,系事“蛛絲”。

圖1 網庫例句示例

2.3 PropBank與網庫的比較

直觀從論元分類上看,相比PropBank,北大網庫的論元更細致,分別在主體論元和客體論元內部各劃分出五個子類。從語義角色精細等級的理論上[1]看,兩種語料庫確實有所不同。

PropBank的語義角色是編了號的原型角色,是中觀層次上基于特定動詞的角色,又借鑒了宏觀層次上原型角色的抽象性地指派的做法,于是用了數目相對有限的帶編號的論元,每一個具體動詞的語義論元被編了號。對于一個特定的動詞,ArgO通常是表現出Dowty[12]中的原型施事的有關特征的論元,Argl則是原型受事和主事(Theme)。對于這種被編了號的高級論元,無法做出適合于不同動詞的具有一致性的概括。而動詞的特定用法相對應的一組角色叫角色集合,這組角色可以跟一組句法框架相聯系,這組句法框架顯示了那組角色的各種可能的句法變化。而中文網庫的語義角色是屬于所謂中觀層級的語義角色,雖不是基于一個個具體的動詞,而是基于具有句法、語義共性的一類動詞。雖然北大網庫也配套給出了動詞的框架描述,但是針對每個動詞,它的各類角色都標注在語料中,并不需要像PropBank一樣從框架描述中才能確定具體的語義角色。

3 語義角色標注

一般的語義角色標注系統分為四個步驟,分別是剪枝pruning、語義角色識別、語義角色分類以及后處理階段。國內外很多學者對每個過程的研究也非常豐富,對于識別、分類階段的特征挑選方面也進行了細致的研究。本文將只對論元分類部分進行研究。

3.1 實驗數據

北大網庫共70個文件,包括的句子總數為 12 434,論元總數為65 967。我們在劃分訓練集、開發集以及測試集時采用了與文獻[8]大概一致的比例。圖2是網庫中各類論元的分布圖,由圖可見,論元的分布很不均勻,不僅各大類(共四類)的論元總數相差很遠,主體論元、客體論元、憑借論元和環境論元的比例大概為16.5∶18∶6∶1,各類論元內部分布也不均勻。

圖2 網庫中各論元分布圖

3.2 分類器

本實驗采用Zhang Le的最大熵分類器MaxEnt*下載地址http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html.,該分類器實現了包含高斯平滑的最大熵算法,采用LBFGS參數估計方法,可以很方便地處理多類劃分的問題。

實驗的參數設置如下:迭代次數500,高斯平滑參數為15。

在改進實驗中采用了CRF++分類器*下載地址http://chasen.org/~taku/software/CRF++/#features.。

3.3 特征模版

為了使實驗結果與前人實驗結果具有可比較性,本實驗中采用的特征集合與文獻[8]的Baseline一致。特征模版如下:位置:句法成分在謂詞前面還是后面;動詞的框架:動詞的父節點及其所有子節點構成的框架;短語類型:該論元成分的短語類型;首詞:句法成分的第一個詞;尾詞:該句法成分的尾詞;左兄弟的短語類型;擴展的動詞框架:動詞框架及圍繞動詞的np ;目標謂詞;路徑:句法分析樹上句法成分到謂詞的路徑;中心詞:該句法成分的中心詞;中心詞詞性;復合特征:謂詞+中心詞;復合特征:謂詞+短語類型。

4 實驗結果

在網庫語料上,論元分類的準確率為78.86%。對比文獻[8]中的93.1%的準確率,可見該組特征在網庫上的表現差很多。圖3描述了Baseline各類論元的分類準確率。由圖3可見,各類論元中都有分類準確率比較高的論元,也有準確率很低的論元。

為了確定被錯誤分類的論元是被誤歸類到所屬大類的集合中,還是被錯誤的分為別的大類中,我們分別將各大類論元合并,即采用各種不同顆粒的論元分類法,同樣適用上述特征集合,具體實驗結果如表2,由表2可知,當將屬于主體論元類的五種論元合并成一個大類、屬于客體論元類的五中論元合并成另一大類時,分類準確率明顯提升至89.18%,由此可見,這兩大類論元在分類時的內部錯誤占了整個系統錯誤的很大一部分。同時,如果將所有論元按最大粒度的分類方法,分成四大類,相比于第二種分類法,分類的準確率提高了1.7個百分點,由此可見,依然有部分論元被錯誤地分到其他大類別中。

圖3 各論元分類的正確率圖

表2 采用不同論元分類法的實驗結果

5 實驗改進及結果分析

由上述實驗結果可知,論元分類的主要錯誤來自各大類論元內部,產生這個結果也是與語料標注有關的。網庫的語義角色是基于特定謂詞的各論元成分的論旨角色,是屬于所謂中觀層級的語義角色,同一動詞雖然可以有多種義項,但同一義項所帶的論元框架是統一的,因此動詞框架信息對于論元分類,尤其是判斷主體、客體論元會有很多作用。同時,由于同一謂詞的論元配置具有相對固定性,因此采用序列標注的思想對于論元分類也會有正面作用。以下兩個改進實驗就是分別基于上面兩個思想進行。

5.1 動詞相關特征

由上述分析可知,在對主體、客體論元分類時,謂詞相關的特征非常重要。因此仿照前人在PropBank中使用的方法,提取每個句中每個謂詞的論元框架,并添加以下三個特征verbFrame,VerbFrame+headword,verbFrame+phraseType后,總體分類準確率從78.86%提高到94.34%,提升幅度非常大,而在文獻[8]試驗中,加入謂詞框架相關特征后的分類準確率也只是有一個百分點的提升,可見謂詞框架信息對網庫角色分類的至關重要性。

但是這種方法有一個很嚴重的弊端就是:它將所有語料中(包括測試語料中)的每個謂詞—論元框架提取出來當做特征,而在真實情況中,是不可能預先知道測試語料中謂詞的論元框架,因此這種提取特征的方法一定程度上夸大了分類的準確率。前人在針對PropBank的研究中,使用框架特征時普遍存在著這個問題。因此,我們提出一種更貼切現實的謂詞框架提取方法,即只提取訓練語料中的謂詞—論元框架。實驗結果如我們預期的一樣,這種改進的方法使分類準確率較Baseline提升到88.24%,但相比之前提取謂詞—論元框架的方法,準確率降低6個百分點。這樣驗證了我們的觀點。

圖4給出了使用改進后框架特征與使用未改進框架特征的分類結果對比情況??梢?,謂詞框架的相關特征對提高論元分類準確率的效果很大。而且當去除測試語料中謂詞—論元框架信息時的各類論元分類準確率都有所下降,尤其是一些本身數量就比較少的論元,如主體論元中的CAU、EX。

圖4 謂詞框架信息修改前后的分類結果對比

5.2 序列標注的思想

在前面的所有實驗中,我們都是將所有節點一個一個單獨地提取特征,進行分類,各論元之間沒有任何聯系。但實際在一個句子中,某一謂詞的論元之間具有相關性,特定動詞的論元成對出現的可能性很大,例如:受事論元被定義為因施事的行為而受到影響的事物,因此受事常與施事論元成對出現,當前面論元已判定為施事時,后面很可能會出現受事論元。采用序列標注的思想,考慮論元之間的相關性。因此使用CRF++分類器進行分類,總體分類準確率為88.50%。具體每一類論元的分類準確率如圖4。

將上面所有實驗結果與前人結果綜合起來,比較結果如表3。從表3可以看到,相比較與在PropBank上的論元分類,Baseline在網庫上的效果差很多,也就是說Baseline中所使用的特征集合對網庫論元分類的效果并不很明顯,而謂詞框架信息對網庫中的角色分類的作用更加關鍵。然而,在使用修正后的謂詞框架信息,分類準確率明顯下降了不少,由此我們也可以看出前人在PropBank上中使用的謂詞框架信息一定程度上夸大了分類的準確率。另外,采用序列標注的思想,將前一個論元的分類結果加入作為特征,對每種論元的分類準確率都有提升還是很大的,這里只是在Baseline的基礎上使用序列標注,準確率比Baseline提高了近十個百分點,這也驗證了我們對論元之間相關性的猜想。

表3 實驗結果比較

6 結論與展望

本文中,我們全新的語料庫上建立了一個中文語義角色分類系統,并將前人基于PropBank廣泛使用的分類方法應用到新語料庫中,在論元分類階段取得與在PropBank上相當的實驗結果。從實驗結果可以看出,雖然之前的實驗方法在網庫中也能獲得良好的效果,但是我們也驗證了之前研究方法中的在提取謂詞框架信息方面普遍存在的問題。另外論元框架信息在新語料中對提高正確率的重要作用,說明了此特征在不同語料上的良好擴展性,同時Baseline的低準確率也說明其他特征的作用比較弱,可見這些特征在不同語料上的重要性大有不同,因此我們認為特征對語料的依賴性是存在的,因此下一步工作是分別找出兩種語料中的最佳特征組合,進行研究每個特征在兩種語料上的重要性并找出真正不依賴于標注語料的特征集合。另外本文研究只是在北大網庫上的語義角色分類,將來的工作可以繼續關注語義角色標注的第一階段——語義角色識別,并使其與現有的工作結合起來,從而構建一個完整的基于北大網庫的漢語語義角色標注系統。

[1] D.Gildea, D. Jurafsky. Automatic labeling of semantic roles[J]. Computational Linguistics, 2002,28(3):245-288..

[2] Carreras X, Màrques L. Introduction to the conll-2004 shared task: Semantic role labeling[C]//Proceedings of CoNLL-2004,Boston, MA, USA, 2004:89-97.

[3] Carreras X, Màrques L. Introduction to the conll-2005 shared task: Semantic role labeling[C]//Proceedings of CoNLL-2005,stroudsburg, PA,USA, 2005:152-164.

[4] A. Moschitti. A Study on Convolution Kernels for Shallow Statistic Parsing[C]//Proceedings of the 42nd Meeting of the Association for Computational Linguistics, Barcelona, Spain, 2004:335-342.

[5] 劉挺,車萬翔,李生. 基于最大熵分類器的語義角色標注 [J]. 軟件學報,2007,18(3):565-573.

[6] H. Sun,D. Jurafsky. Shallow Semantic Parsing of Chinese[C]//Proceedings of the HLT/NAACL, 2004.

[7] N. Xue, M. Palmer. Automatic semantic role labeling for Chinese verbs[C]//19th International Joint Conference on Artificial Intelligence, Edinburgh, Scotland.2005:1160-1165.

[8] N. Xue. Labeling Chinese Predicates with Semantic Roles [J]. Computational Linguistics, 2008,34(2):225-255.

[9] 劉懷軍,車萬翔,劉挺. 中文語義角色標注的特征工程 [J]. 中文信息學報, 2007,21(1):79-84.

[10] 丁偉偉,常寶寶. 基于最大熵原則的漢語語義角色分類[J].中文信息學報.2008,22(6):20-26.

[11] 丁偉偉,常寶寶.基于語義組塊分析的漢語語義角色標注[J].中文信息學報,2009,23(5):53-61,74.

[12] Dowty,D. Thematic Proto-Role and Argument Selection [J]. Language,1991,67(3):547-561.

[13] 袁毓林. 語義角色的精細等級及其在信息處理中的應用 [J]. 中文信息學報, 2007,21(4):10-20.

猜你喜歡
論元謂詞語料
基于歸一化點向互信息的低資源平行語料過濾方法*
被遮蔽的邏輯謂詞
——論胡好對邏輯謂詞的誤讀
黨項語謂詞前綴的分裂式
康德哲學中實在謂詞難題的解決
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
基于依存樹距離識別論元的語義角色標注系統
異種語料融合方法: 基于統計的中文詞法分析應用
謂詞公式中子句集提取的實現pdf
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合