?

基于依存樹距離識別論元的語義角色標注系統

2012-06-29 01:55穗志方
中文信息學報 2012年2期
關鍵詞:論元剪枝語義

王 鑫,穗志方

(北京大學 計算語言學研究所,北京 100871)

1 引言

語義角色標注是淺層語義分析的一種重要手段,基于依存的語義角色標注將依存關系作為基本標注單元,對依存關系識別出的中心詞進行語義角色標注。論元識別和論元分類是標注過程中需要解決的主要問題,而且都可以通過兩類方法得以實現,基于統計的機器學習方法和基于規則的方法。

在基于依存的語義角色標注研究中,現階段主要的論元識別方法都是基于機器學習的。本文通過對依存樹中論元節點的特征分析,發現大于98%的論元節點到目標動詞的依存樹路徑長度不超過3,這說明論元集中分布于依存樹上的一個局部范圍內。充分利用這一特點,本文參考趙海等[1]的剪枝算法,提出一種基于依存樹距離的論元識別方法,通過制訂規則,提取依存樹中由動詞的兒子、父親、兄弟、第一祖父以及父親的兄弟節點構成的候選論元集。在此識別方法基礎上,本文采用機器學習的方法進行論元分類,綜合原句的特征以及由識別所得候選論元構成的骨干句的特征,為候選論元標注相應的角色。在CoNLL2009中文語料上,以正確的依存樹為輸入,系統的F值達到89.46%,與前人的方法81.68%(王步康等[2])相比有很大改善。

2 相關研究

語義角色標注通常分為四個步驟,剪枝、識別、分類、后處理,而前三個步驟都是在完成廣義分類任務,因為剪枝和識別本質都是區分候選對象是否會是論元。這種廣義分類任務可以通過基于機器學習的方法和基于規則的方法來實現,不同系統的實現方法不同。

(1) 全過程不使用規則,完全使用基于機器學習的方法。Pradhan等[3]基于短語結構句法樹使用SVM分類器(Kudo and Matsumoto[4-5])進行論元識別和分類。Johansson等[6]在語義依存分析任務中使用基于線性邏輯回歸模型的LIBLINEAR分類器(Lin,et al[7])完成角色識別和分類。

(2) 剪枝階段使用規則,后續階段使用機器學習方法。Xue等[8]基于短語結構樹使用啟發式規則完成剪枝,使用最大熵分類器進行角色識別和分類。王步康等[2]也提出一種剪枝算法,即在依存樹中,保留與謂詞具有一定關系的節點,如父親、兒子、孫子等,其他節點都被過濾掉,之后再用機器學習方法進行角色識別和分類。

(3) 將剪枝和識別合為一步,并用基于規則的方法完成,只在分類階段使用機器學習技術。丁金濤等[9]使用規則,在CoNLL2005共享任務的WSJ測試集上,基于自動句法分析識別出了 97.17% 的論元,在此基礎上角色標注系統的F值達到了77.84%,在基于單一句法分析的角色標注系統中處于領先位置。

基于機器學習的方法和基于規則的方法各有特點,基于機器學習的方法優點是需要的人工干預少,對研究者語言學背景要求少,但此方法的缺點在于對訓練語料的依賴性強,易出現數據稀疏問題;對訓練語料中未出現的實例,分類效果較差;系統時間效率較低等問題。

基于規則的方法在某種程度與基于機器學習的方法有著互補的關系,此方法中研究者可以根據豐富的語言學知識對規則進行細化,利于處理分類中的細節問題,在一定程度上緩解了數據稀疏問題。此外,由于不必需要大規模語料庫支持也不必進行模型訓練,其在時間性能方面也表現出了較強優勢。然而,由于規則需要人工制定,如果待區分的類別較多,并且某些待區分對象間相似度較高,就極大增加了制定規則的難度以及規則本身的復雜度,因此在一定意義上,相比于多分類問題,其處理二分類問題時優勢更為顯著。

因此,如果可以找到規則與機器學習運用范圍的最佳組合,就可以將兩者優勢相結合,充分發揮規則和統計各自的特點,取得良好的標注效果。對語義角色標注任務來說,剪枝與識別本質是二分類問題,在這兩個階段運用規則方法既可以充分發揮規則在時間性能上的優勢,又不會因為需要區分的類別過多而使規則過于復雜。而對于論元分類,由于論元類別較多,機器學習方法則更具優勢。因此,本文將規則與機器學習相結合,構建出了一個性能良好的角色標注系統。

3 基于依存樹距離的論元識別

3.1 依存樹距離對語義角色的影響分析

在現代依存語法理論(又稱從屬關系語法,配價語法)中,周國光[10]對依存語法進行了定義,“依存語法是一種結構語法,主要研究以謂詞為中心而構句時由深層語義結構映現為表層句法結構的狀況及條件,謂詞與體詞之間的同現關系,并據此劃分謂詞的詞類”。因此,基于依存理論所構建的依存樹,在表達詞語間依賴關系的同時,強調動詞在句子中的重要作用。從這個角度講,在圍繞動詞展開的角色標注任務中,依存樹相比短語結構樹而言,具有明顯的優勢。在某種意義上,依存樹上的某些特征可以直接決定詞語間語義上支配關系的遠近。例如,詞語與目標動詞的距離特征直接決定著這個詞語是否會與動詞有語義上的依賴關系,即是否會成為謂詞的論元,距離特征在依存樹中的作用要大于其在短語結構樹中的作用,主要原因有以下兩方面。

1) 依存樹中節點數量比短語結構樹少(張育等[11]),依存樹中節點都是句子中的詞語,而短語結構樹中除了詞語節點外,還有句法成分節點,因此詞語之間的距離包含了這些句法成分,距離特征對于詞語間關系遠近的決定作用會因此受到影響。依存樹則不會存在此類問題;

2) 依存樹偏重于一種關系結構,是語義層面的表示,節點間距離是他們語義關系遠近的一種形式表現。短語結構樹主要體現的是句子的句法層次結構,節點間距離基于句法關系,對語義的指示程度相對較低。

綜合以上發現,本文提出了基于依存樹距離規則的論元識別方法,充分利用依存樹本身的特點進行語義角色標注。

3.2 基于依存樹的剪枝方法

在基于依存的語義角色標注研究中,趙海等[1]提出一種剪枝規則: 構建集合S,由依存樹中目標動詞到根節點上的節點組成(包括目標動詞和根節點)。集合S中的元素以及依賴于集合中元素的節點就會被保留下來進入識別階段。為了方便說明,本文稱S中的節點為“主節點”。在趙海等[1]中,以上規則只覆蓋剪枝過程,此后,系統還將依賴機器學習方法進行論元識別和分類。規則方法能否進一步放大范圍來完成角色標注中的論元識別這一主要任務?

本文基線實驗將趙海等[1]的剪枝算法直接用作論元識別的規則,結果表明,此方法的召回率較高(R=99.3%),但是準確率很低(P=24.6%),這是因為保留了較多的非論元成分,保留的非論元數量是實際論元數量的三倍。因此,為提高論元識別的準確率,需要對此基線方法進行修改。

3.3 基于依存樹距離的論元識別方法

在基線實驗基礎上,本文對經過識別階段被標注為候選論元的詞語特征進行了分析。表1統計了不同路徑長度對應的真正論元數目,從中發現,真正的論元在與目標動詞的距離特征上表現出了明顯的聚集性: 訓練集的真實論元總計17 547個,其中只有1個論元與目標動詞的距離大于6,而當距離大于4時,論元的數目也急劇減少,這有力說明了依存樹在表達句子語義方面的優勢: 依存樹結構使句中核心詞語間的距離變短,依存樹上的論元分布的局部性更加明顯。如圖1所示,設目標動詞是“鼓勵”,真正的論元是“中國”、“企業家”和“投資”。在短語結構樹中“鼓勵”和三個論元的距離都是3,而且三個論元在樹中分布的位置的局部性不明顯。而在依存樹中,目標動詞與三個論元的距離都是1,而且在樹狀結構中三個論元都處于動詞的下一層,表現出了極好的局部性特征。從表1中我們受到啟發,利用詞語與目標動詞的距離特征,將距離限定在一定的閾值之內,滿足閾值條件下的詞語才可以被選為候選論元進入分類階段,就可以有效地減少非論元被識別為論元的數量,提高識別階段的準確率。

表1 訓練集中不同路徑長度下對應的真正的論元數目

圖1 短語結構句法樹與依存句法樹的比較

基于以上分析,本文提出了基于依存樹距離的論元識別方法: 提取從目標動詞到根節點路徑中與目標動詞距離不大于L的節點構成集合S,集合S中的節點以及依賴于S中節點的節點構成候選論元。在此條件下,候選論元與目標動詞的最長距離被限制為L+1。本文分別設置L=3、2、1進行實驗,結果表明當L=2時,系統性能達到最優,此條件下,被識別為候選論元的節點包括動詞的兒子、父親、兄弟、第一祖先和父親的兄弟。

4 基于機器學習的論元分類

在論元分類階段,由于候選論元的角色與其上下文有較為密切的關系,因此本文采用序列標注模型,以識別所得的候選論元為基本標注單元,選擇了現階段大多數角色標注系統所廣泛使用的特征。表2 列舉了論元分類階段的特征集合。由于論元識別階段刪除了大量的非論元成分,被標注為候選論元的詞語會構成一個新的句子(本文稱之為“骨干句”)。對于候選論元來說,其在骨干句中的語境與其在原句中語境有很大不同,因此對于和語境相關的特征,如表2中基于詞語上下文的特征以及基于當前詞語與目標動詞之間關系的特征,我們從原句以及識別后的“骨干句”中分別提取了相應的特征。

表2 論元分類階段的特征集

5 后處理

為了解決一個句子中出現多個相同核心論元的問題,本文提出了基于距離的后處理方法。從3.3的觀察中可以得出結論,絕大多數論元被限制在以目標動詞為中心的一定范圍內,從某種意義上講,與目標動詞距離近的節點,有更高的概率成為論元。因此,如果多個候選論元被同時標注為核心角色Ai,則可以首先比較這些節點在依存樹上與目標動詞的距離,距離近的候選論元優先獲得此角色,其他候選論元則標注為空。如果基于依存樹的路徑長度相同,則可以比較候選論元與目標動詞在原句中的直線距離,較近的一個被標注為核心論元。

6 數據與實驗結果分析

本文選用CoNLL 2009 Closed Challenge提供的中文訓練集語料進行模型訓練,使用開發集進行系統測試。系統基于正確的依存樹進行實驗, 在角色分類階段, 選用了隨機梯度CRF軟件包*http://leon.bottou.org/projects/sgd,借助此工具本文較快獲得了分類時的最優特征集,并取得了較好的角色標注結果。

6.1 基線識別方法

本文將趙海等[1]中的剪枝規則放大作用范圍來完成論元識別任務,如表3所示,識別階段召回率較高(R=99.3%),但準確率很低(P=24.6%)。因此增強對候選論元的約束,減少被錯誤識別為候選論元的詞語數是十分必要的。表4對比了基線識別方法基礎上的角色標注與王步康等[2]的角色標注結果。兩個實驗采用了相同的數據集和系統輸入,結果表明,本文基線角色標注結果在F值上相比王步康等[2]已經取得了大幅提高(7.3%)。

表3 基線識別方法的識別結果

表4 基線識別方法基礎上的角色標注結果與前人工作的對比

6.2 基于依存樹距離的論元識別方法

表5表示了基于依存樹距離的識別方法中距離對于角色標注系統的影響,其中L采用了3.3節中的定義,即集合S中的主節點與目標動詞的距離不超過L,結果表明,L=2時系統性能達到最優,這說明利用依存樹上節點與目標動詞的距離特征來對主節點進行約束,進而限制候選論元到目標動詞的距離對于取得良好的角色標注性能有著重要意義。表6 表示了L=2條件下識別階段的結果,召回率為98.3%,相比基線實驗,進入分類階段的候選論元數減少了38 345(占基線條件下候選論元總數的35.76%),有力證明了依存樹距離特征對于篩選候選論元的積極意義。

表5 基于依存樹距離的識別方法中距離L對于角色標注系統的影響

表6 基于依存樹距離的識別方法中L=2條件下的識別結果

6.3 后處理

表7列出了測試集上同一語義角色在一個句子中出現多次的數量分布情況。從中可以發現,后處理之前核心論元的重復出現次數總計332,經過后處理,消除了核心論元重復出現的情況。表8是采用基于依存樹距離的識別方法并設置L=2時,后處理前后系統的性能對比,F值提高了0.1%,證明了后處理方法的有效性。

表7 重復出現的語義角色數量統計

表8 后處理前后的語義角色標注性能比較

7 總結

本文提出了一種基于依存樹距離的論元識別方法,由于依存樹結構有利于縮短論元與目標動詞的距離,使論元分布的局部性更顯著,本文充分利用此種局部性特征,制訂規則將距離特征作為判定候選論元的重要條件,實現了基于規則的論元識別。結合基于機器學習的論元分類,基于正確的依存句法分析結果,本文角色標注系統F值達到89.46%,相比前人工作取得了較大改進。

[1] Hai Zhao, Chunyu Kit. Parsing syntactic and semantic dependencies with two single-stage maximum entropy models[C]//Proceedings of the 12th CoNLL-2008, Manchester, August 2008: 203-207.

[2] 王步康,王紅玲,袁曉虹,等.基于依存句法分析的中文語義角色標注[J].中文信息學報,2010,24(1): 25-29,47.

[3] Sameer Pradhan, Wayne Ward, Kadri Hacioglu, et a1. Shallow Semantic Parsing Using Support Vector Machines[C]//Proceedings of NAACL-HLT 04.2004.

[4] Taku Kudo,Yuji Matsumoto. Use of support vector learning for chunk identification [C]//Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal, 2000:142-144.

[5] Taku Kudo, Yuji Matsumoto. Chunking with support vector machines[C]//Proceedings of the 2nd Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-2001).

[6] Richard Johansson, Pierre Nugues. Dependency-based syntactic semantic analysis with PropBank and NomBank[C]//Proceedings of the 12th CoNLL-2008, Manchester, August 2008: 183-187.

[7] Chih-Jen Lin, Ruby C.Weng, S. Sathiya Keerthi. Trust region Newton method for large-scale logistic regression[C]//Proceedings of the 24 th International Conference on Machine Learning, Corvallis, OR, 2007.

[8] Nianwen Xue, Palmer M. Calibrating features for semantic role labeling[C]//Proceedings of EMNLP, Barcelona, Spain, 2004: 88-94.

[9] 丁金濤,周國棟,王紅玲,等.語義角色標注中有效的識別論元算法研究[J].計算機工程與應用, 2008, 44(18), 153-156.

[10] 周國光. 漢語配價語法論略[J].南京師范大學學報:社科版,1994(4):103-106,121.

[11] 張育,王紅玲,周國棟.基于兩種句法分析的語義角色標注比較研究[J]. 計算機應用與軟件, 2010, 27(8): 565-573.

猜你喜歡
論元剪枝語義
真實場景水下語義分割方法及數據集
人到晚年宜“剪枝”
基于YOLOv4-Tiny模型剪枝算法
基于激活-熵的分層迭代剪枝策略的CNN模型壓縮
語言與語義
剪枝
批評話語分析中態度意向的鄰近化語義構建
“吃+NP”的語義生成機制研究
重音滲漏原則下存現動詞論元說之研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合