?

漢語塊分析評測任務設計

2010-06-05 09:02李玉梅
中文信息學報 2010年1期
關鍵詞:功能塊評測句法

周 強,李玉梅

(清華大學 信息技術研究院 語音和語言技術中心,清華大學 信息科學與技術國家實驗室,北京100084)

1 引言

有效的真實文本評測任務設計是提升自然語言處理技術的一個重要途徑。英語方面的一個典型例子CoNLL設計的一系列共享分析任務,包括基本名詞短語識別[1]、文本塊分析[2]、子句識別[3]、命名實體識別[4-5]、語義角色標注[6-7]、依存分析、句法依存和語義角色一體化處理等,從簡單到復雜,通過設計合適的分析任務,構建共享評測數據(Benchmark),吸引了國內外大量感興趣的研究人員探索了各種機器學習模型在不同的分析任務中的應用方法,開發出一組可共享的英語文本句法語義分析工具。

在漢語方面,從2003年起,SigHan分別組織了三屆漢語詞語切分評測Bake-off,大大推動了相關研究技術的發展。2007~2008年,又與中國中文信息學會聯合舉辦了第4屆Bake-off評測[8],進一步增加了漢語詞性標注和命名實體識別評測任務。但與英文相比,在句法語義分析層面上的評測任務則比較少。

受中國中文信息學會委托,從2008年10月起,清華大學和東北大學開始籌辦中國中文信息學會句法評測CIPS-ParsEval-2009[9]。其主要目標是針對漢語描述特點,設計合適的評測任務,開發有效的評測數據集合。并以此為契機,推動國內漢語文本句法分析的研究水平。通過深入研究,我們提出了5項評測任務[9],包括:漢語詞性標注(任務1)、基本塊分析(任務2)、功能塊分析(任務3)、事件描述小句識別(任務4)和句法樹分析(任務5)。其中3項(任務2~4)涉及漢語文本的塊分析問題。本文將對有關內容進行具體介紹和說明。

2 塊分析任務設計

本次評測設計了以下3項塊分析子任務:1)基本塊分析; 2)功能塊分析; 3)事件描述小句識別。其處理要點是對經過正確詞語切分和詞性標注處理的漢語句子自動分析形成不同層次的塊標注序列。對每個子任務,都可以使用以下兩種開發模式:1)封閉學習,即只使用訓練數據習得相關分析模型; 2)開放學習:可以使用其他任何資源習得合適的分析模型。下面通過一個具體實例簡要介紹這3個分析任務,有關詳細標注格式和標記含義可參閱文獻[9]。

原始輸入:要/vM 使/vJY 這/rN 項/qN 工作/n 抓出/v 成果/n,/wP 首先/d 需要/v 這些/rN 部門/n 的/uJDE 主要/b 領導/n 以身作則/v 、 /wD 身先士卒/v 。/wE*相關詞類標記簡要說明:vM-助動詞;vJY-兼語動詞;rN-名代詞;qN-名量詞;n-名詞;v-動詞;wP-分隔點號;d-副詞;uJDE-結構助詞:的、之;b-區別詞;wD-頓號;wE-結句點號。

基本塊分析輸出:[vp-SG 要/vM ] [vp-SG 使/vJY ] [mp-ZX 這/rN 項/qN ] [np-SG 工作/n ] [vp-PO 抓出/v 成果/n ],/wP [dp-SG 首先/d ] [vp-SG 需要/v ] [np-ZX 這些/rN 部門/n ] 的/uJDE [np-ZX 主要/b 領導/n ] [vp-SG 以身作則/v ] 、 /、 [vp-SG 身先士卒/v ] 。/。*相關基本塊標記簡要說明:vp-動詞塊;mp-數量塊;np-名詞塊;dp-副詞塊;SG-單詞語塊;ZX-右角依存結構;PO-述賓關系結構。

功能塊分析輸出:[D 要/vM ] [P 使/vJY ] [J 這/rN 項/qN 工作/n ] [P 抓出/v 成果/n ],/wP [D 首先/d ] [P 需要/v ] [S 這些/rN 部門/n 的/uJDE 主要/b 領導/n ] [P 以身作則/v ] 、 /wD [P 身先士卒/v ] 。/wE

事件描述小句輸出:[E2 要/vM 使/vJY 這/rN 項/qN 工作/n 抓出/v 成果/n ],/wP [E2 首先/d 需要/v 這些/rN 部門/n 的/uJDE 主要/b 領導/n 以身作則/v 、 /wD 身先士卒/v ] 。/wE

我們的塊分析體系設計的基本理念是:塊是句法語義信息的結合體,塊內部的詞語關聯性是句法語義聯系的橋梁。一個理想的塊設計應該既能找到明確的句法判據,又可以形成合理的語義解釋,達到形式和意義的完美結合。目前,基本塊主要采用了內聚性判據,通過分析其內部詞語組成的不同拓撲結構特點來判斷是否成塊;功能塊和事件描述小句主要采用了外延性判據,通過分析它們在更大的事件句式和復雜句子中所處的功能位置及其與其他相鄰成分的句法語義關系來判斷是否成塊。下面幾節將對有關內容進行簡要說明。

1) 基本塊(Base Chunk, BC)

我們把基本塊定義為單個或多個實詞按照一定的關聯關系組合形成的基本信息單元[11]。通過對基本塊內部各種詞匯關聯關系的深入分析,我們提煉出了三種典型的拓撲結構:左角中心結構(LCC)、右角中心結構(RCC)和鏈式關聯結構(CHC),它們覆蓋了基本塊內部的以下句法關聯關系:1)修飾關系:覆蓋體詞塊和謂詞塊RCC和CHC; 2)并列關系:覆蓋體詞塊和謂詞塊CHC; 3)述賓、述補和附加關系:覆蓋謂詞塊LCC。

這樣,就形成了以下基本塊內聚性判據:1)句子中的實詞組合符合上面的一種拓撲結構,則形成一個多詞語基本塊; 2)句子中的其他獨立出現的實詞直接形成一個單詞語基本塊。對分析出的每個基本塊,將給出“成分標記+關系標記”的雙標記描述[11]。

2) 功能塊(Functional Chunk, FC)

漢語功能塊主要描述句子中反映不同事件內容的基本單元。確定依據主要是它們在事件描述小句的不同層次事件句式中所處的功能位置。目前主要考慮了以下兩類事件句式:1)小句層面上的基本句式結構。據此,可以確定主、謂、狀、賓、補等功能塊。2)復雜名詞短語層面上的句式結構變體。據此,確定定語塊、中心塊等功能塊。

為了簡化起見,在本次評測中,我們只考慮各個事件描述小句的事件骨架樹中最低層次(即葉子節點)的功能塊,將它們按照從左到右的順序排列形成整個事件描述小句的功能塊標注序列。

這樣,就形成了以下功能塊外延性判據:選擇事件描述小句的事件骨架樹中最低層次(即葉子節點)的詞語組合形成各個功能塊。對分析出的每個功能塊,將分別使用以下10個功能標記來標注:主語塊(S)、狀語塊(D)、述語塊(P)、賓語塊(O)、補語塊(C)、兼語塊(J)、定語塊(A)、中心塊(H)、獨立塊(T)和其他特殊塊(X)。

3) 事件描述小句(Event Descriptive Clause, EDC)

我們以句號、問號和嘆號等作為完整漢語句子的分隔符。在此基礎上的事件描述小句確定主要依據了以下判定條件:1)以逗號、分號、句號、問號等點號分隔而形成的詞語序列; 2)內部包含完整的主、狀、謂、賓等事件句式,考慮到各種省略情況,其中至少應包含一個謂語塊; 3)復句層面的狀語和獨立語成分可以作為一個特殊的EDC。它們共同形成EDC的外延性判據。

我們使用以下4個標記來標注不同的EDC:1) E1——包含主題信息的EDC;2)E2——主題信息省略的EDC;3) D1——復句層面的狀語塊;4) T——復句層面的獨立語塊。其中E1和E2組成了典型的事件描述小句。

3 評測數據庫分析

以漢語句法樹庫TCT[10]作為統一的數據源,充分利用其中提供的豐富句法成分和關系標記信息,將上面設計的三種塊的句法判據進行具體化和實例化,我們可以自動提取形成不同的塊標注語料庫,從而可以對這三個不同層次的塊分析任務的處理難度進行初步估計。在下面的實驗中,主要選擇了TCT中所有的新聞類文本。其基本統計數據是:文件數185,漢字總數325 806,詞語項總數207 372,句子總數8 137,平均長度為25.49詞/句。

1) 基本塊數據分析

從6個主要基本塊的長度分布數據可以看出[11],真實文本句子中描述實體內容的名詞基本塊和描述動作狀態的動詞基本塊占了大多數,達到單詞語塊總數的91%和多詞語塊總數77%,是我們研究的重點。相對而言,動詞塊的平均長度較短。在多詞語塊中,只包含兩個詞語的塊占了93%以上;而在np多詞語塊中,包含兩個詞語的塊只占了71%左右,約30%的名詞塊長度超過了3個詞語。因此,基本名詞塊的內部描述復雜度更高,進行自動準確分析的難度也更大。

2) 功能塊數據分析

表1列出了功能塊長度分布數據。從中我們可以發現:

表1 功能塊長度分布

? 真實文本句子中P、D、S、O塊占了絕大多數,它們是形成事件句式的基本單元。其中的主要識別難點是復雜的賓語、狀語和主語塊。

? H和A塊主要出現在定語從句中,其平均長度和分布特點基本與S塊相當,但由于出現數量較少,再加上漢語典型歧義結構“V N 的 N”的影響,會導致統計學習模型訓練不充分,從而增大識別難度。而H塊由于前面一般有助詞“的”,會更容易識別。

? 在剩余的4個非典型功能塊中,J和C盡管出現頻度較少,但由于語境特征明顯,其識別難度應該與H塊相當。而T和X則由于組合情況復雜和語境分布特征不明顯,自動識別難度會很大,但由于其絕對數量很少,對整體性能的影響可以忽略。

綜上所述,在我們關注的8個功能塊(PDSOHAJC)中,預期的識別難度排列會是:P, 簡單D,S,O

3) 事件描述小句數據分析

表2列出了不同類型的事件描述小句的長度分布數據。

圖1 不同長度EDC 所占比例分布

表2 事件描述小句長度分布

圖1顯示了其中不同長度EDC 的分布比例。從這些數據可以看出:

? 漢語真實文本中包含完整事件內容的典型EDC塊(E1+E2類)占了95%以上,是自動識別研究的主體。

? 典型EDC塊的平均長度達到9個詞以上,遠高于功能塊和基本塊,并且長度大于10個詞的EDC塊比例超過了30%,長度大于20個詞的EDC塊比例也達到了6%,這就進一步加大了相關EDC塊的識別難度。

? 點號作為事件描述小句的天然分隔符,應該可以在EDC識別中發揮重要作用。但漢語點號使用非常靈活,可用來分隔主、狀、賓等功能塊,可用來分隔各個功能塊內部的并列成分,也可用來分隔復雜從句內部的各個小句,以上這些情況在我們目前的EDC劃分原則下都應包含在某個EDC內部。對目前的2萬多個EDC進行內部信息分析,發現包含

點號的EDC占塊總數的16%,占覆蓋詞語總數的32%。這表明僅僅依靠點號信息來切分EDC會帶來很大的副作用,需要引入更多有效的判別特征。

? 漢語事件描述小句內部的功能塊組合非常復雜,包含多個謂語塊的EDC比例達到了37%以上,其中包括復雜從句和連謂、兼語、并列等復雜謂語結構,它們會形成復雜的事件句式和事件骨架樹。這些情況與靈活的點號使用習慣混雜在一起,對準確識別表征完整事件描述內容的EDC任務,提出了很大的挑戰。

4 評測結果分析

本次評測各個分析任務統一采用塊分析準確率(P)、召回率(F)和F-1測度等評價指標。并針對不同層次的塊分析任務,確定不同的正確性判據(詳見文獻[9])。從中分別選擇“邊界+成分標記”、“邊界+功能標記”以及“邊界”識別正確判據下的整體評價F-1值作為任務2、3、4的主要評價排序指標。

表3、表4和表5列出了參加三個塊分析任務的性能最好的前5個系統的相應評測成績。其中的ID列表示各個參評單位編號,Run-ID列顯示了各個參評隊伍提交的不同系統編號。

從中可以看出,在本次評測提供的完全相同的測試數據集上,Top-5基本塊識別系統的整體F-1值(在“邊界+成分+關系”正確性判據下)達到了90%~92%左右,而Top-5功能塊識別系統的整體F-1值只達到了85%左右,兩者相差了5%~7%。如何分析與挖掘對功能塊識別更為重要的新特征,并把它們有機結合入不同的統計模型中,應該是下一步的研究重點。另外,使用更大規模的功能塊標注語料是否會對性能提升有幫助,也值得深入研究。

表3 任務2的前5個系統的評測結果

表4 任務3的前5個系統的評測結果

表5 任務4的前5個系統的評測結果

最好的EDC識別系統的F-1值達到了80%左右(開放學習),其中使用了外部語義知識庫和功能塊分析器提供的功能塊描述特征。完全使用EDC標注庫信息的最好系統的F-1值為78%左右(封閉學習)。這表明了EDC識別問題的處理難度。如何發現與挖掘小句層面的描述特征,以提升EDC識別性能,將是今后研究的一個重要方向。

5 相關研究工作評述

在基本塊層面,英語方面的工作主要基于Abney(1991)提出的語塊(Chunk)概念[18]。CoNLL-2000在《華爾街日報》語料庫上進行的全面測試表明,在這個體系下建立的英語基本名詞和動詞塊的識別性能達到93%左右[2]。在漢語方面的類似工作有清華大學[13]和哈爾濱工業大學[14]的基本短語描述體系和微軟的塊描述體系[15]等。這些體系的共同點在于它們都是從句法層面上來定義和描述塊信息,主要側重塊邊界確定和句法成分標注問題,不太關心各個塊的內部關系分析。另一類相關的研究則關注類似基本塊的實詞組合的整體語義表現和內部組合關系,典型的工作包括命名實體定義和識別[4-5]、多詞表達的內部詞匯語義組合性評估問題[12]等。

而我們提出的基本塊描述體系則以語義中心驅動的典型拓撲結構分析為基本判據,將以上兩部分的工作有機結合起來,達到了基本塊形式和意義的初步融合。另外,還首次將緊密結合的述賓結構關系納入基本塊描述體系中,使之基本覆蓋了漢語中所有實詞之間的重要詞匯關聯關系,為在此層面上進行漢語詞匯關系的自動獲取研究打下了很好的基礎。

在功能塊層面,英語方面的研究主要集中在語義角色標注(SRL)方面,通過對句子進行淺層語義分析,確定各個目標動詞控制的核心語義角色的準確邊界,在語義層面上直接完成事件框架的分析識別。目前在英語Propbank測試庫上的最好系統的SRL性能F值達到了80%左右[7],近幾年也沒有很大性能提升[19]。對實驗結果的深入分析發現,其中的主要問題出在論元成分識別階段:在81%邊界識別正確的論元成分中,95%以上都可以準確標注上合適的語義角色[7]。而且核心角色和外圍角色的識別性能差異明顯(80% VS 60%),顯示出一定的統計偏置性。

而我們的研究則側重從句法層面先識別出進行可以充當論元成分的功能塊以及相應的事件句式,從而抓住了SRL的核心問題。這個研究從最初的單層次功能塊[16],到逐步細化的二層次功能塊[17],到目前的覆蓋所有基本事件描述小句的功能塊,再配合以事件骨架樹的準確分析,可以實現語義層面的SRL在句法層面上的有效模擬。

在事件描述小句層面,國內外的相關研究不是很多。CoNLL-2001曾提出一個英語子句識別任務[3],其目標是自動識別英語句子中的所有嵌套子句??紤]到這個問題的復雜性,他們把它拆分成三項子任務:子句起點識別、終點識別和完整嵌套結構識別。其中最困難的第三項子任務基本上與我們定義的事件描述小句識別任務相當,只是我們只處理最上層的EDC。當時最好系統的開放測試F1值為78.63%[3],后來,通過改進算法,將分析性能提高到了80.44%[20]。

英語子句一般由先行詞引導,具有比較明顯的形式標記,這是設計嵌套子句識別任務的描述基礎。而漢語各個從句之間一般沒有特別的形式標記,因此我們選擇以點號分隔的EDC作為識別重點,可能更適合漢語的描述特點。

6 總結與展望

本文針對漢語的描述特點,提出了三項漢語塊分析評測任務:基本塊分析,功能塊分析和事件描述小句識別?;谡鎸嵨谋緲俗斓臄祿y計分析和國內外相關體系的對比分析研究顯示,這套塊分析評測任務設計具有以下特點:1)在基本塊層面,以語義中心驅動的拓撲結構分析作為基本塊的主要判據,并加入緊密結合的述賓關系描述,使之基本覆蓋了漢語中所有實詞之間的重要詞匯關聯關系; 2)在功能塊層面,選擇不同層次事件句式中的各個最小描述單元作為處理對象,最大限度地保留了句子中各個不同層面的事件描述信息,形成了進行事件骨架樹分析的研究基礎; 3)在事件描述小句層面,以點號分隔的完整事件單元識別作為突破口,可以形成進行漢語“句→段”意合分析的中樞橋梁。

從目前的評測結果看,這三項塊分析任務的識別難度為:基本塊<功能塊<事件描述小句。在此基礎上,下一步的研究方向是:1)利用基本塊和功能塊的信息互補特點,通過適當的融合處理,獲取信息更完整的功能塊(功能標記+成分標記+中心詞位置),以此作為事件骨架樹分析的葉子節點;2)探索有效的事件骨架樹分析方法,準確識別句子中由功能塊組合形成的不同層次的事件句式,補充“功能塊→事件描述小句”之間的事件信息描述空白。

[1] Introduction to CoNLL-1999 Shared Task: NP braketing [OL].http://www.cnts.ua.ac.be/conll99/.

[2] Erik F. Tjong Kim Sang and Sabine Buchholz. Introduction to CoNLL-2000 Shared Task: Chunking [C]//Proceedings of CoNLL-2000 and LLL-2000. Lisbon, Portugal, 2000: 127-132.

[3] Sang T K and D jean H. Introduction to the CoNLL-2001 Shared Task: Clause Identification [C]//Proc. of CoNLL-2001, Toulouse, France, 2001: p53-57.

[4] Erik F. Tjong Kim Sang Introduction to the CoNLL-2002 Shared Task: Language Independent Named Entity Recognition[C]//Proc. of CoNLL-2002,2002.

[5] Erik F. Tjong Kim Sang & Fien De Meulder Introduction to the CoNLL-2003 Shared Task: Language Independent Named Entity Recognition[C]//Proc. of CoNLL-2003,2003.

[6] Carreras, X. and M`arquez, L. Introduction to the conll-2004 shared tasks: Semantic role labeling [C]//Proc. of CoNLL-2004,2004.

[7] Carreras X. and M`arquez, L. Introduction to the conll-2005 shared tasks: Semantic role labeling [C]//Proc. of CoNLL-2005,2005.

[8] Guangjin Jin, Xiao Chen The Fourth International Chinese Language Processing Bakeoff: Chinese Word Segmentation, Named Entity Recognition and Chinese POS Tagging [C]//Proc. of Sixth SIGHAN Workshop on Chinese Language Processing,2008.

[9] 中文信息學會句法分析評測CIPS-ParsEval-2009介紹[OL]. http://www.ncmmsc.org/CIPS-ParsEval-2009/.

[10] 周強. 漢語句法樹庫標注體系 [J]. 中文信息學報,2004, 18(4): 1-8.

[11] 周強. 漢語基本塊描述體系[J]. 中文信息學報,2007,21(3): 21-27.

[12] Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger Multiword Expressions: A Pain in the Neck for NLP [C]//Proc. Third International Conference of Computational Linguistics and Intelligent Text Processing (CICLing 2002), Mexico City, Mexico, February 17-23, 2002.

[13] 張昱琪,周強. 漢語基本短語的自動識別 [J]. 中文信息學報,2002,16(6): 1-8.

[14] Tiejun Zhao, Muyun Yang et al. Statistics Based Hybrid Approach to Chinese Base Phrase Identification [C]//Proc. of the Second Chinese Language Processing. ACL 2000, Hong Kong,2000.

[15] Li, H., C. N. Huang, J. Gao, and X. Fan Chinese Chunking with Another Type of Spec [C]//Proceedings of the 3rd ACL SIGHAN Workshop, Barcelona, Spain, 2004: 41-48.

[16] 周強,趙穎澤. 漢語功能塊自動分析 [J]. 中文信息學報,2007,21(5): 18-27.

[17] 陳億,周強,宇航分層次的漢語功能塊描述庫構建分析 [J]. 中文信息學報, 2008,22(3): 24-31.

[18] Steven Abney(1991). Parsing by Chunks [C]//Robert Berwick, Steven Abney and Carol Tenny (eds.) Principle-Based Parsing, Kluwer Academic Publishers.

[19] L. Marquez, X. Carreras, K.C. Litkowski, and S. Stevenson. Semantic Role Labeling: An Introduction to the Special Issue[J]. Computational Linguistics, 2008,34(2): 145-159.

[20] Xavier Carreras1, Lluis Marquez, et. al. Learning and Inference for Clause Identification [C]//Proc. of ECML'02, 2002.

猜你喜歡
功能塊評測句法
述謂結構與英語句法配置
次時代主機微軟XSX全方位評測(下)
次時代主機微軟XSX全方位評測(上)
基于IEC61131-3標準運動控制器的設計與應用*
攻坡新利器,TOKEN VENTOUS評測
句法二題
詩詞聯句句法梳理
Ovation系統FIRSTOUT和FIFO跳閘首出比較
Canyon Ultimate CF SLX 8.0 DI2評測
自定義功能塊類型在電解槽聯鎖中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合