?

基于依存句法分析的中文語義角色標注

2010-06-05 08:35王步康王紅玲袁曉虹周國棟
中文信息學報 2010年1期
關鍵詞:謂詞語料語義

王步康,王紅玲,袁曉虹,周國棟

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006;江蘇省計算機信息處理技術重點實驗室,江蘇 蘇州 215006)

1 引言

當前根據采用的句法分析結果,自動語義角色標注(Semantic Role Labeling, SRL)可分為:基于短語結構句法分析的語義角色標注和基于依存結構句法分析的語義角色標注。針對前者的研究已較為成熟,并取得了很好的性能,然而伴隨此方法的發展帶來的瓶頸問題也日漸突出,如局部模型的機器學習方法很難有更大進展,語料的稀疏問題嚴重,更有效的特征難以抽取等等,導致了性能無法進一步提高。因此近兩年來基于依存句法的語義角色標注開始受到重視,尤其是CoNLL2008 shared task[1]和CoNLL2009 shared task[2]都將基于依存關系的SRL作為評測主題,推進了基于依存句法的語義角色標注的發展。

依存結構句法分析相比于短語結構句法分析,它表達的句法結構是單詞與單詞之間的依賴關系。從理論上分析,依存句法中的句法—語義接口更簡單、更直觀,并提供了更透明的謂詞—論元關系表達。因此在基于短語結構句法分析的語義角色標注系統遭遇到發展瓶頸后,研究基于依存結構句法分析的語義角色標注更具有現實意義。

本文采用英文語義角色標注的研究方法,使用中文依存句法分析,構建了一個中文語義角色標注系統。文章第2部分簡述了基于依存關系的SRL的相關工作。第3部分介紹了基于依存句法的中文語義角色標注系統,重點描述構建系統的各個步驟,基礎特征和擴展特征。第4部分給出了各個擴展特征的表現,并對實驗結果進行了分析和比較。最后第5部分對本文進行了總結,并對后期工作進行了展望。

2 相關研究

和基于短語結構句法分析的SRL相比,基于依存分析的SRL研究相對較少。在英文方面,Hacioglu等[3]首次采用基于依存分析的方法來實現語義角色標注,所使用的依存樹是由句法樹轉化而來,采用SVM分類器實現了角色的分類,提出了12個特征(依存關系,位置,中心詞,依賴詞等),并且表明謂詞相關信息的重組對性能影響很大。最終在基于手工依存分析語料庫Depbank和CoNLL2004 shared task語料庫上的F1值分別為84.6%和79.8%。而最新的基于依存關系的SRL研究出現在CoNLL2008評測中,具有代表性的工作是Johansson等[4-5]的研究,在文中詳細分析比較了兩種SRL系統在PropBank語料上的性能,文章的貢獻在于分別使用基于部分短語的(Segment-Based)和基于依存關系(Dependency-Based)的衡量標準來公平地比較代表當前最好性能的兩類SRL系統的性能。他們實現的基于依存句法的SRL系統在上述兩項衡量標準下F1值分別為77.97%(WSJ+Brown)和84.29%(CoNLL2008測試集)。

到目前為止,還未有文獻報告基于依存句法分析的中文語義角色標注研究。正在進行的CoNLL 2009 shared task是在CoNLL2008 shared task的基礎上,進行包括中文在內的多種語言的依存句法和語義的聯合分析,最新結果顯示在中文上使用CoNLL2009評測語料達到的最好SRL系統性能是78.60%(Labeled F1值)。在基于短語結構句法分析的SRL方面,代表工作是Xue等[6-7]的研究,其主要工作是比較和分析了中文和英文語義角色標注的性能以及影響因素,在Chinese Propbank上的實驗結果表明:基于手工標注句法樹的SRL系統F1值可達91.3%;基于單一自動標注句法樹,F1值大幅降為61.3%。這說明基于手工分析的中文語義角色標注的系統結果基本與英文的相當,甚至稍微高出一點;但對于自動產生的句法樹,結果要比英文的差得多。

3 中文語義角色標注系統

3.1 語料資源

盡管目前針對中文的依存句法分析研究很多,但是尚未出現通用的大規模標注的中文依存關系語料庫。當然也沒有大規模標注的基于依存關系的語義角色標注語料。因此要進行基于依存句法的自動語義分析研究,首先要解決語料庫的來源問題。

為了便于評測比較,系統使用了兩種語料資源。一種是轉換語料(下文又稱CTB轉換語料),獲得方法類似于CoNLL2008 shared task的語料獲得,基本語料庫是Chinese TreeBank5.0,標注信息來源于PropBank1.0,并且只針對動詞性謂詞標注語義角色。借助MaltParser*http://w3.msi.vxu.se/~nivre/research/MaltParser.html工具將基于短語結構的句法樹庫轉換成依存關系樹庫,并使用Penn2Malt[1]工具將語料轉換成CoNLL2008標注的格式。實驗選取CTB中的前760篇文檔(chtb_001.fid到chtb_931.fid),共10 364個句子,其中(chtb_100.fid到chtb_931.fid)中9 127 個句子作為訓練語料,共有謂詞32 387個;(chtb_001.fid到chtb_099.fid)中共 1 238個句子作為測試語料,共有謂詞4 793個。

圖1 中文依存關系樹實例圖

另一種語料是CoNLL2009 shared task提供的,其中訓練集有句子22 277句,謂詞102 813個,使用開發集*由于CoNLL2009 shared task提供的測試集還沒有公布Gold標注,所以我們用開發集充當測試集。作為測試語料,共有句子1 762句,含有的謂詞數為8 103個。該語料是CTB6.0的一個子集,語義信息則源自Chinese PropBank 2.0。

下面給出了轉換語料中的一個例子,圖1給出了例句的中文依存關系樹圖,圖中ARG表示謂詞角色,W表示單詞,R表示依存關系,G表示詞性。

例:中國進出口銀行與中國銀行加強(.01)合作。

在例句中只有一個謂詞:加強,其中(.01)表示這個謂詞的詞義,該詞義是Chinese PropBank中謂詞“加強”在框架語義中對應的詞義項編號。

3.2 標注步驟

本文構建的基于依存關系的中文SRL系統其標注過程分成了四個部分(如圖2所示):謂詞標注(Predicate Labeling)、預處理(Pre-Processing),語義角色識別(Semantic Role Identification)、語義角色分類(Semantic Role Classification)。

圖2 系統標注過程

其中謂詞標注是識別出句子中的動詞性謂語,并為它們分配詞義。在傳統的基于短語結構句法分析的SRL系統中通常不執行這步,默認謂詞已識別正確。由于CoNLL2008要求進行謂詞標注,所以在此我們也對系統在自動謂詞標注下進行實驗。所采用的自動謂詞標注使用基于統計的方法實現[8],在CTB轉換語料和CoNLL2009語料上的謂詞識別的F1的值分別為96.95%和95.64%。另外為方便比較,在本系統中只采用謂詞識別的結果,不為它們分配詞義。

3.3 預處理

在預處理階段主要對依存關系樹進行剪枝,刪除依存樹上最不可能承擔謂詞角色的關系節點,以消除不必要的結構化信息,有效地減少輸入到分類器中的實例個數。

此前Hacioglu[3]提出了一種簡單的剪枝算法,其方法是:在依存樹中,保留與謂詞具有以下關系的節點:父親,孩子,孫子,兄弟,兄弟的孩子,兄弟的孫子節點,其他節點都被過濾掉。該算法主要針對英文句法樹且謂詞為動詞性謂語。

在仔細分析中文依存關系樹結構的基礎上,我們擴展了Hacioglu剪枝方法,增加了與謂詞具有以下關系的節點,即保留了謂詞節點的祖父節點、祖父的孩子節點,祖父的父親節點等。系統使用該改進的Hacioglu算法后,經過統計進入分類器的訓練實例大大減少(減少約76.9%),同時誤剪率不足1%。

3.4 基礎特征

特征一直是決定語義角色標注系統性能的重要因素。本文在角色識別和角色分類中使用相同的特征集。類似于基于短語結構句法分析的系統,參照Gildea[9]等選取的7個基本特征(謂詞、句法類型、子類框架、分析樹路徑、位置、語態和中心詞),我們選取以下特征作為系統基礎特征。假設上述例句對應依存樹(圖1)中當前節點為“W=銀行”,當前謂詞為“加強”,現將各特征列舉如下:

謂詞原型:當前謂詞的原型。(加強)

謂詞詞性:當前謂詞的詞性。(VV)

子類框架:當前謂詞節點的所有孩子節點的依存關系鏈。(ROOT-SBJ-COMP)

路徑:句法樹上當前節點到謂詞的路徑,即途經節點的依存關系。(SBJ->ROOT)

位置:當前節點的中心詞相對于當前謂詞的前后順序。(before)

依存關系:當前節點所對應的依存關系。(SBJ)

中心詞:當前節點的父親節點所對應的單詞本身。(加強)

3.5 擴展特征

借鑒基于英文依存關系的語義角色標注系統,我們在系統上加入了以下擴展特征。

假設上述例句對應依存樹(圖1)中當前節點為“W=加強”,當前謂詞為“加強”,現將各特征列舉如下,特征如果不存在使用NULL代替。

謂詞的孩子的依存關系鏈:當前謂詞的所有孩子節點的依存關系組成的鏈。(SBJ-COMP)

謂詞的孩子的詞性鏈:當前謂詞的所有孩子節點的詞性組成的鏈。(NN-NN)

謂詞的兄弟的依存關系鏈:當前謂詞的所有兄弟的依存關系組成的鏈。(NULL)

謂詞的兄弟的詞性鏈:當前謂詞的所有兄弟節點的詞性組成的鏈。(NULL)

依賴詞:指當前節點本身單詞。(加強)

中心詞詞性:中心詞的詞性。(NULL)

依賴詞的詞性:當前節點單詞的詞性。(VV)

家族成員:剪枝后剩下的節點,幾乎都是與謂詞在同一個家族樹中,此特征說明了在此家族樹中,當前關系節點與當前謂詞的家族關系,如:father,child,siblings等等。(myself)

謂詞+中心詞:當前謂詞原型+中心詞。(加強+NULL)

當前關系+中心詞:當前節點依存關系+中心詞。(ROOT+NULL)

謂詞原型+路徑:當前謂詞原型+路徑。(加強+ROOT)

依存關系+依存關系前一個詞:當前依存關系的類型+依存關系前一個詞。(ROOT+銀行)

依存關系+依存關系后一個詞:當前依存關系的類型+依存關系后一個詞。(ROOT+合作)

4 實驗結果與分析

實驗采用最大熵分類器[10],其原型是開源軟件maxent-2.4.0*http://maxent.sourceforge.net/,并在此基礎上進行了相關的修改,使輸出符合系統的要求,參數cutoff和interation分別設為2和100。評測時采用CoNLL2008 shared task提供的評測程序eval08.pl[1],仍使用Precision、Recall和Labeled F1對最終系統的性能進行評價。

4.1 特征表現

實驗時我們首先建立一個基于基礎特征的系統,稱為基礎系統;然后把擴展特征單獨加入基礎系統中,得到每個特征的表現,如表1所示。

表1 每個擴展特征和組合特征單獨加在基礎系統上的結果

從表1中可以看出,與依存關系有關的特征(依賴詞和依存關系)對系統性能提高較明顯。特別加入依賴詞特征后,系統在兩種語料上的性能分別提高了5.74%和1.64%,效果最明顯。特征“依存關系+依存關系前一個詞”和“依存關系+依存關系后一個詞”表達了當前依存關系的上下文特征,在分別加入這兩個特征后,系統性能也有提高。這首先說明依存關系對系統性能貢獻很大,反過來也說明系統對依存關系的依賴較強,系統受到依存句法性能的影響。另外從Wang等[11]的研究中可發現,在基于短語結構句法分析的SRL系統中,中心詞特征對系統性能貢獻很大。而實際上,依存句法中的依賴詞就相當于短語結構句法分析中的成分中心詞,因此它們的作用也是類似的,我們的實驗也證明了這一點。而我們在此提出的中心詞概念與前者的中心詞概念有所不同,與之有關的特征也基本未起作用。

與謂詞孩子和兄弟節點有關的特征(謂詞孩子的詞性鏈、依存關系鏈和兄弟節點的詞性鏈、依存關系鏈等)加入系統后,系統性能略有下降。使用這些特征的本意是想表達與謂詞相關的上下文信息,但由于依存關系本身已包含了一些這樣的信息,因此這些特征的作用不大。

4.2 系統結果

在基礎系統上添加了全部擴展特征以后,得到了系統在兩種語料上的性能,結果如表2所示。為評測謂詞標注對系統性能的影響,我們分別在標準謂詞和自動識別謂詞上進行了實驗。

表2 系統結果

從表2中可以明顯看出系統在使用標準謂詞的兩個語料上獲得的性能有所差別,F1值分別為 84.30% 和81.68%,系統在CTB轉換語料上的性能比CoNLL2009語料上高了2.62%。同時系統在自動識別謂詞上的性能都有所降低,說明謂詞標注也是影響系統性能的一個重要因素。相比較而言,轉換語料上由謂詞標注帶來的性能降低比較明顯,準確率和召回率均降低,造成整個F1值下降了3.28%;而在CoNLL2009語料上,準確率降了2.26%,召回率反而有所上升,因此整個系統的F1值下降不明顯,這說明在CoNLL2009語料上系統受謂詞標注性能的影響較小,出現這種情況原因可能在于標注語料庫(CTB5.0與CTB6.0,CPB1.0與CPB2.0)之間的差別,詳細原因有待進一步分析。但總的來說,由于CoNLL2009的語料數據量大,因此結果更加可信。

相比于CoNLL2009公布的中文SRL的系統性能(使用主辦方提供的測試集得到F1值為78.60%),我們的系統在基于自動識別謂詞的CoNLL2009中文開發集語料上的性能與之基本相當。另外相比于基于短語結構句法分析的中文SRL系統(手工標注,標準謂詞,F1值為92.75%),兩者的性能差距很大,這與中文依存句法分析結果不完善有關。因此現階段,中文依存句法分析性能是影響中文依存語義分析的關鍵因素。

相比于英文基于標準依存分析和標準謂詞標注的SRL系統,如Johansson等[5]其F1值為85.52%,中文的SRL系統性能略微有所下降。其中主要的原因可能在于中英文標準依存關系的來源。由于目前兩種語言都沒有大規模手工標注的依存關系語料庫,因此本文中所指的中英文標準依存關系,均由短語結構句法分析轉換得來。對于英文的轉換,CoNLL2008的主辦方經過了精心處理,因此轉換結果較為可靠;而對于中文的轉換,我們的轉換語料只是使用了MaltParser工具進行,該工具是一個針對多語言的句法分析器,因此對中文的許多語言現象不可能做很多的特殊處理,因此轉換結果存在一定的誤差,也就影響了后續的SRL性能。

5 結論及展望

本文使用英文語義角色標注的方法,實現了一個基于依存句法的中文語義角色標注系統。相比于傳統的基于短語結構句法分析的中文語義角色標注,該系統使用依存句法分析結果構建相應句法分析樹,并在此樹上抽取特征,進行語義角色的識別和分類。由于這方面的研究還未開展,同時也缺乏可靠的手工標注的語料庫和統一的評價標準,因此無

法詳細評價系統性能,在此我們只是報告一個初步的實驗結果,起到拋磚引玉的作用。

后續的工作中,我們將在這個方向展開進一步的研究,包括如何選取更為豐富、有效的特征提高系統性能,使用自動依存句法分析進行中文SRL,以及如何進行句法分析和語義分析聯合學習等內容。

[1] CoNLL 2008,http://www.yr-bcn.es/conll2008/, [EB].

[2] CoNLL 2009,http://ufal.mff.cuni.cz/conll2009-st/,[EB].

[3] Kadri Hacioglu. Semantic Role Labeling Using Dependency Trees[C]//Proc.of CoNLL-2004,Boston,MA,US,2004.

[4] Johansson R. and Nugues P.. Dependency-based semantic role labeling of PropBank[C]//Proceedings of EMNLP-2008. 2008.

[5] Johansson R. and Nugues P.Dependency-based syn-

tactic-semantic analysis with PropBank and NomBank[C]//Proceedings of CoNLL-2008.23-24 Aug. 2008.

[6] Xue Nianwen,Palmer M .Automatic semantic role labeling for Chinese verbs[C]//Proc. of IJCAI-2005,2005.

[7] Xue Nianwen, Palmer M. Calibrating features for semantic role labeling[C]//Proc. of EMNLP-2004,2004.

[8] 袁曉虹,王步康,王紅玲,周國棟:基于依存關系的中文謂詞標注研究[C]//全國第十屆計算語言學學術會議(CNCCL-2009),煙臺,2009.7.

[9] Gildea D,Jurafsky D. Automatic labeling of semantic roles[J] .Computational Linguistics,2002,28(3):245-288.

[10] 劉挺,車萬翔,李生.基于最大熵分類器的語義角色標注[J].軟件學報,2007,18(3):565-573.

[11] Wang Hongling,Zhou Guodong,Zhu Qiaoming and Qian Peide.Exploring various features in semantic role labeling[C]//Proceedings of ALPIT’2008. 2008:23-25 .

猜你喜歡
謂詞語料語義
基于歸一化點向互信息的低資源平行語料過濾方法*
被遮蔽的邏輯謂詞
——論胡好對邏輯謂詞的誤讀
黨項語謂詞前綴的分裂式
語言與語義
康德哲學中實在謂詞難題的解決
批評話語分析中態度意向的鄰近化語義構建
“社會”一詞的語義流動與新陳代謝
“吃+NP”的語義生成機制研究
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合