篇章視角的漢語零指代語料庫構建*

2021-02-25 12:15葛海柱周國棟

軟件學報 2021年12期

孔芳,葛海柱,周國棟

1(蘇州大學計算機科學與技術學院自然語言處理實驗室,江蘇蘇州 215006)

2(江蘇省計算機信息處理技術重點實驗室,江蘇蘇州 215006)

篇章中提及了某個事物后,當再次論及這個事物時,會采用各種方式來進行上下文的照應,這一現象稱為回指(anaphor).當回指在篇章上沒有任何的形式層體現時,就稱這種回指為零指代(zero anaphor),它是一種特殊的指代現象.相比英文,漢語中零指代出現的頻度很高,正如Kim[1]所統計:漢語中在主語位置出現零指代的情況約占36%,而英文主語位置的零指代不足4%.正因如此,漢語零指代的研究對漢英文機器翻譯、文本摘要以及閱讀理解等眾多自然語言處理任務意義重大,已成為自然語言處理領域針對漢語研究的一個熱點.

例1 給出了一個漢語零指代的具體實例,該實例摘自OntoNotes 中文語料的chtb_0009 文件,其中:零元素用“#”表示,位于相同指代鏈(即具有指代關系)的實體表述、零元素用相同顏色表示.

例1:針對[甘肅]旅游業的發展需求,[人保公司]積極推出海外游客保險,[#]1還在國內首家推出海外散客保險辦法,[#]2使“八五”期間到[甘肅]觀光游覽的海外游客全部得到保險保障.[甘肅省]還積極探索高風險業務,“八五”期間,[#]3參與衛星發射的共保,[#]4分擔的風險金額達一千萬元,[#]5支付賠款五百萬元,[#]6成為西北首家參與航天業務的公司.

例1 共包含6 個零元素,其中:第1 號、第4 號~第6 號零元素指代相同的實體“人保公司”;第3 號零元素指代“甘肅省”;第2 號零元素并不指代某個具體的實體,而是指代前文提到的“人保公司積極推出海外游客保險,還在國內首家推出海外散客保險辦法”這兩個舉措.由此可以看到,完整的零指代消解任務由3 個子任務構成: (1) 零元素識別,即識別出篇章語義上存在、但形式上未出現的那些“成分”;(2) 待消解的零元素識別,即根據零元素出現的篇章上下文來確定其是否回指某個具體的實體;(3) 零指代消解,確定待消解的零元素回指的具體實體,即先行詞的確定.

眾所周知,指代結構屬于篇章的范疇.隨著句子級詞法、句法研究的日益成熟,特別是MUC[2],ACE[3]以及CoNLL-shared Task2011 和2012 系列會議和比賽[2,3]相繼開展,多語言的實體指代語料庫日益豐富,與篇章密切相關的指代結構成為自然語言處理領域的研究熱點之一.相比普通的實體指代消解,零指代消解任務更具挑戰:首先,零元素在形式上不存在,沒有任何顯式的提示信息,需要從篇章語義的上下文中識別出這些隱式的“成分”;其次,漢語在形式的組織上相對松散,相同的語義成分可以以多種不同形式存在,這就造成了某些零元素可以出現的位置并不唯一;最后,因為形式上不存在,很多在實體指代消解中非常有用的詞、數、性等特征都無法提取.因此,如何高效表征上下文特征成為研究的核心.要應對這些挑戰,首先亟需解決的就是零指代結構體系及對應語料資源的構建問題.本文從服務于篇章分析的角度出發,對漢語零指代進行了表示體系的研究,并基于這一體系構建了中等規模的服務于篇章分析的漢語零指代語料庫,為后續在篇章視角下開展漢語零指代消解的研究奠定了扎實的基礎.

本文第1 節介紹漢語零指代資源建設的相關研究.第2 節對篇章視角漢語零指代的表示體系進行詳細說明,并給出基于這一體系進行語料構建的標注規范和標注流程.第3 節介紹了據此構建完成的語料資源.第4 節以該語料為基礎給出了一個完整的漢語零指代消解基準平臺.第5 節對本文的工作進行總結和展望.

1 相關工作

雖然在語言學領域,對漢語零指代現象已經進行了一些比較系統全面的理論研究[6,7],許多研究者從作者和閱讀者的角度出發,以話題鏈為描述手段,歸納總結了漢語話題凸顯的語言描述特點,并強調漢語中零指代現象廣泛存在且沒有任何約束,只能借助語義和語用知識,根據篇章中出現的信息進行零指代的解釋.正是由于零指代的靈活多樣且沒有約束,相關語料資源的標注非常困難.因此,受限于漢語零指代語料資源,在計算語言學領域的相關研究較少,主要包括以下3 類代表性工作.

(1) 針對某一類或多類零指代現象自行構建小規模語料并進行可計算模型的探索.

典型的工作包括:Converse[8]在其博士論文研究中選取CTB3.0 中的205 篇新聞文本進行了第三人稱代詞和零指代的標注.Converse 的標注直接在句法樹上進行,句法是進行各類現象判斷的標準.此外,因為Converse 的研究主要關注第三人稱代詞和零指代,對于不包含第三人稱代詞和零指代的其他指代關系并未進行標注,但各類指代現象間存在明顯的互補性,孤立地進行兩種類別指代的標注可能會隱藏部分重要信息.對標注結果的分析也發現,Converse 標注的零指代只涵蓋了部分句法樹上處于主語位置的零指代現象.使用Converse 的語料,Zhao 和Ng[9]首次提出了一個基于機器學習的漢語零指代方法,并探討了這一任務的困難之處.他們將零元素消解分為零元素的識別和消解,通過與標準句法樹進行對比,構建正例和負例作為訓練實例,借助決策樹來進行分類.但是由于正例和負例的分布嚴重不平衡,因此實驗結果并不理想.Kong 等人[9]在研究了與漢語零指代相關的幾種句法結構的基礎上,選取CTB6.0 中的100 個文檔進行了零指代的標注.Kong 的研究主要關注結構化句法信息對漢語零指代的影響,因此其標注也是以句法樹為參考依據.與Converse 不同的是:他們不僅標注了主語位的零指代現象,也考慮了賓語等其他位置.但100 個文檔的規模較小,也僅僅標注了零元素的先行詞,零指代與普通實體指代間的關系并未進行標注.他們基于這一小規模的語料進一步提出了一個統一的框架進行零指代消解,將這一任務分為零元素識別、待消解項確定和零元素消解.不同于Zhao 和Ng[9]提出的基于特征的方法,他們使用基于句法樹的方法,在零元素識別和消解上相較于Zhao 和Ng[9]都有了明顯的提升.

(2) 將零元素看作句法分析中產生的空語類的一種,借助句法樹中標注的空語類信息進行研究.

早期關于空語類的研究大都采用基于規則的方法.CAMPBELL[10]提出一種基于賓州樹庫的算法來恢復空語類.Chung 等人[11]在研究機器翻譯時發現:在句子中添加空語類,可以有效提升翻譯準確率.仿照Johnson[12]和Gabbard[13]的工作,他們使用基于模式的方法,通過統計語料發現:只有充當代詞成分的零元素能夠提高語料句法結構的完整性,并且可以幫助提升下游機器翻譯任務的準確率.

隨著機器學習技術的發展,很多學者開始嘗試借助機器學習模型進行空語類的回復.Yang 和Xue[14]提出組合詞匯和句法信息進行空語類恢復,他們將空語類的恢復看作是序列標注問題,通過給空語類建立句法特征和詞法特征,使用最大熵模型建立分類器,在每個詞的后面判斷是否有空語類.在標準句法樹上性能較好,F值達到89%,但在自動句法樹上,性能下降至63.2%,以此說明空語類嚴重依賴句法信息.受Yang 和Xue[14]工作的啟發,Cai 等人[15]將空語類的恢復集成到中文句法分析中,通過修改句法解析器,使得它可以用WordLattice(字格)作為輸入,并能夠減少人工干預,自動恢復空語類.這使得在自動句法樹上的性能較Yang 和Xue 有了一定的提升,F值達到67.0%.Kong 和Zhou[16]提出了基于小句的空語類識別方案,認為局部句法信息的準確性相較較高.使用語義角色標注方法獲得短句,針對終端短句,采用線性標注的方法;針對非終端短句,使用結構化分析的方法.此外,考慮到中文逗號意義豐富,為了提高短句識別的準確性,還加入了逗號消岐.中文空語類識別在自動句法樹上的性能F值提升至 74.6%.Xiang 等人[17]將恢復空語類的問題轉化為分類問題.考慮到空語類對句法結構有很強的依賴性,他們將空類型標簽刪掉,并將空語類的位置信息和類別信息轉移到句法樹上層節點,引入句法樹特征、詞法特征以及空語類特征,借助最大熵模型對預測為包含空語類信息的節點進行恢復.Xue 等人[18]首次引入依賴關系,使用空語類的頭信息和后一個詞組成訓練實例,成功解決Yang 和Xue[14]給出的序列標注無法識別連續多個空語類的問題.Zhou 等人[19]通過實驗發現:在句法分析中加入空語類標簽,能夠有效提升準確率.為了更好地描述空語類,他們將空語類標簽重新定義,并提出了基于規則、句法分析以及依賴關系的3 種方法.實驗結果表明:使用新的空語類標簽后,句法分析準確率明顯提高.但空語類表達是成分間的句法依賴關系,與篇章層的零指代存在一定的差異.

(3) 在OntoNotes 語料上進行零指代研究.

語料資源方面,得到大眾認可的漢語零指代語料是OntoNotes 語料[20].該語料的中文部分標注了主語位置的零元素及其所屬的指代鏈情況,為目前的漢語零元素研究工作提供了資源支持.與前面小規模的語料標注相比,該語料的規模擴大很多,但仍然是基于句法信息的零指代資源.使用OntoNotes 語料,一些研究者展開了零指代可計算性的相關研究.典型工作包括:包含零指代識別和消解兩個子任務,Chen 等人[21]第1 個給出了完整的端到端的漢語零指代消解平臺,并給出一組有效的句法和上下文特征,借助這些特征實現了全自動的零指代分析.深度網絡技術的推進,各類向量嵌入工作的開展,Chen 等人[22]基于深度神經網絡模型,將字法、詞法、句法等許多已經驗證有效的特征以向量嵌入的方式融入零指代消解,以此構建了一個神經網絡框架,一定程度上提升了零指代消解的性能.但他們的工作也驗證了,零指代消解的性能受到句法分析性能的嚴重影響.相比標準句法樹,在自動句法樹下的端到端的漢語零指代消解的F值下降了近42%.如何提升自動句法樹下零指代的性能,成為了關注焦點.Yin 等人[23]在Chen 等人[22]的基礎上對神經網絡模型做了拓展,給出了一個深度記憶網絡,利用兩個編碼器對先行詞進行局部編碼和全局編碼,獲取先行詞的局部特征和全局特征,再對零代詞用上下文向量表示來獲取其上下文特征.為了更好地描述零代詞,除了零代詞的上下文信息外,還引入了候選先行詞特征,通過詞嵌入獲取向量之間的語義特征,并為每一層網絡加上注意力信息,實驗結果證明了該方法的有效性.Zhang 等人[24]也嘗試通過將特征向量化的方式來更好地表征先行詞候選以及零元素和先行詞候選的上下文語義信息,再借助神經網絡模型進行零指代消解.Yin 等人[25]在高效表征各類信息的基礎上,還向神經網絡平臺引入了強化學習策略,通過進一步提升神經網絡的學習能力來提升漢語零指代消解的性能.Kong 和Zhou[26]提出零指代不應該被孤立對待,而是應該與普通名詞短語的消解形成完整的整體.基于此觀點,他們提出了一種全新的鏈到鏈的漢語零指代消解方案:首先將零元素聚類為共指鏈,每條共指鏈都作為一個獨立的指代詞,這樣,那些距離較遠的零元素和先行詞可以通過共指鏈的傳遞性進行鏈接;其次,名詞短語也被聚類成不同組,每一個組作為一個先行詞獨立存在.通過將普通名詞短語的指代消解結果看作是對先行詞候選進行過濾的一種手段,以指代鏈為單位進行漢語零指代消解,這樣大大減少了搜索空間,使得零指代消解的性能明顯提升.

從上述相關研究可以看到,語料資源是開展漢語零指代可計算研究不可或缺的條件.為了降低對標注語料的依賴,一些研究者也開展了各種相關研究.為了解決對標注語料的依賴,Chen[27]提出了一種無監督的方法,借助最大熵構建一個候選先行詞排序模型,在包含顯性代詞的語料上訓練得到模型參數后,將其應用到零代詞消解上.實驗結果表明,該方法取得了比監督模型更好的消解效果.但是該方法的局限性在于:他們并沒有研究零代詞的識別,提出的模型只能在零代詞已經正確識別的基礎上進行消解.在此基礎上,為了更好地描述先行詞特征,Chen[28]又提出一種非監督概率模型,為先行詞加入了4 個語法特征:Number(數量特征),Gender(性別特征),Person(人稱特征)和Animacy(有生性特征),并使用EM 算法[29]來推測最可能的先行詞.為了考慮篇章特征,Chen[30]使用SalienceModel(凸顯模型)為每一個有效實體計算得分,并采用聯合的方式識別和消解零代詞.Liu等人[31]為了解決零指代標注語料不足這一問題,將對零指代消解的方法由分類模型轉化為閱讀理解模型.利用大量的偽語料訓練閱讀理解模型,并將此模型應用在零指代消解上.但他們的工作也針對零元素的消解進行了研究,提出的基于注意力機制的神經網絡模型也只適用于零元素已知的情況.

隨著一定規模的OntoNotes 語料庫的發布,漢語零指代消解研究日趨活躍.不過,指代屬于篇章級的語言現象,從句法視角構建漢語零指代的結構體系存在著一些明顯的問題,正如Yang 和Xue[14]分析實驗結果得出的結論:僅關注句法信息,中文零元素的判別與句法層的共享主語現象間很難區分.另一方面,隨著篇章分析相關研究的展開,研究者開始意識到篇章層的信息對于零指代消解意義重大.例如,Sheng 等人[32]在傳統零指代消解平臺中考慮了篇章修辭結構信息,在零元素識別、零元素消解等多個環節,都通過提取各類篇章級的信息來提升性能.相應地,也有一些研究表明,零指代對于中文篇章分析意義重大.例如,奚雪峰等人[33,34]提出一種基于主述位理論的篇章微觀話題結構,其中的隱式主述位本質上就是零元素,它們在話題鏈的形成中意義重大.因此,本文提出從服務于篇章分析的視角來構建漢語零指代的體系結構.

2 篇章視角的漢語零指代表示體系

研究者普遍認為:各語義成分是由驅動謂詞管轄的,語義成分的缺省(零元素)可以通過“謂詞驅動”這一方式進行識別.例如:Cai 等人[15]嘗試在句法分析的過程中,依據驅動謂詞進行空語類的識別;Kong 和Zhou 等人[16]提出,借鑒簡化的語義角色標注(sematic role labeling,簡稱SRL)方法識別子句,再以子句為單位進行空語類和零元素的識別.不過,本質上零元素并不是單純的“缺失的語義成分”,而是在上下文銜接中缺失的有意義的語義成分,需要根據上下文進行判斷.另外,漢語重意合的特點使得漢語表達更加靈活,許多固定句式雖然從謂詞驅動的角度似乎存在語義成分的缺失,但從整體表達的語義信息看又不存在缺失.

例如,例2 所示的句子包含3 個謂詞:“防止”“出現”和“出臺”.其中,“出臺”的各語義成分都齊全,未出現任何省略;“防止”的施事者“新區管委會”在篇章后面提及了,可以認為在“防止”前存在一個語義省略,后文進行了恢復;“出現”的施事者在文中并未提及,說明這一語義對象并非當前篇章關注的焦點,不存在上下文銜接中有語義成分缺失.

例2:為防止出現無序現象,新區管委會及時出臺了一系列規范建設市場的文件.

漢語重意合的特點,決定了漢語零指代表示體系的確立必須從篇章的視角進行.從形式上看,零元素是句子中省略的某個成分;而從語義理解的角度看,省略的這個成分一定包含明確的語義信息,承擔了一定的語用功能,即這個語義成分是依賴于篇章的上下文表述的,是銜接上下文的特殊語義載體.

需要特別說明的是:盛晨等人[35,36]提出從篇章視角分析漢語零指代,他們從篇章視角將零元素分成主干型和修飾型兩大類,同時又根據零元素所處篇章基本單元的句法結構將零元素細分成若干小類.但他們的工作存在兩方面缺陷:首先,大類的劃分是篇章視角的,而小類的劃分是句法層面的,句法雖然利于語料標注質量的控制,但從分類體系的角度,兩種視角存在一定的沖突;其次,盛晨等人[35,36]僅對零元素的分類體系進行了研究,但篇章中更重要的是銜接上下文的零元素,離開指代關系獨立分析零元素對服務篇章的支撐是有限的.受盛晨等人工作的啟發,葛海柱等人[37]進一步梳理了篇章視角的零指代結構.基于盛晨和葛海柱等人的工作,我們從服務于篇章分析和文本理解的目標出發,我們構建了完整的篇章視角的漢語零指代結構體系,它由篇章視角的零元素分類體系和篇章視角的零指代結構兩部分構成,下面分別加以說明.

2.1 篇章視角的零元素分類

在漢語篇章微觀修辭結構表示體系[38,39],將基本篇章單元(elementary discourse unit,簡稱EDU)定義成至少包含一個謂語部分,即至少表達一個命題,認為EDU 是篇章構成的基本單位.從服務于篇章分析的目標出發,我們將EDU 看作考察是否包含零元素的基本單元.與盛晨等人[35,36]的工作類似,依據EDU 內是否存在缺失的語義成分,以及缺失的語義成分在EDU 中是否承擔主干成分,我們將零元素劃分成兩大類,即主干型零元素和修飾型零元素,但不再進行小類的區分.

以例3 所示的句子為例,從篇章分析的視角看,它由3 個基本篇章單元構成,圖中用“[·]”進行分割,分別記作e1,e2 和e3,這3 個基本篇章單元構建形成的修辭結構樹如圖1 所示.

例3:[國家統計局預測,一九九六年全球經濟將繼續保持增長,]e1[這種良好的態勢對中國的發展十分有利,]e2| [φ使其面臨很多發展機遇.]e3

Fig.1 Discourse rethorical structure tree of example 3圖1 例3 中各基本篇章單元形成的修辭結構樹

可以看到:基本篇章單元e1 和e2 在語義成分上是完整的,不存在零元素;但對于e3 而言,獨立觀測這一單元,它表達了兩層含義:一是“其(中國的發展)面臨很多發展機遇”,二是“這種良好的態勢造成了其面臨很多發展機遇”.其中,第1 層含義各語義構成成分完整,不存在零元素;第2 層含義中的施事者“這種良好的態勢”缺失了,因此存在一個零元素,即例3 的e3 中所示的“φ”,它指代前一個EDU 中提及的“這種良好的態勢”,形成了一個零指代關系.在這兩層含義中,主干語義是第2 層含義,即“這種良好的態勢使得其面臨很多發展機遇”,零元素承擔了EDU 內主干語義成分的角色,屬于篇章主干型零元素.

例4 給出了一個包含兩個EDU 的句子示例,這兩個EDU 形成了因果關系.其中,第2 個基本篇章單元e2 表達的主干語義信息是“大量出現的是新情況、新問題”,而“以前不曾遇到過的”是“新情況、新問題”的修飾成分,但在這修飾成分中,謂詞“遇到”的施事者被省略了,它指代的是前一個EDU 中出現的“浦東”.因為此處的語義缺省出現在修飾成分中,我們將這一零元素歸為修飾型零元素.

例4:[浦東開發開放是一項振興上海,建設現代化經濟、貿易、金融中心的跨世紀工程,]e1[因此大量出現的是φ以前不曾遇到過的新情況、新問題.]e2

對比例3 和例4 我們可以看到:相比篇章主干型零元素,篇章修飾型零元素對EDU 內部語義成分間的關系抽取以及局部句法分析的影響較大,它們的存在與EDU 內部的句法結構,甚至是某一短語內的句法結構關系密切,對EDU 之上的粒度更大的篇章分析的影響相對較小.但很明確,準確識別修飾型零元素將有助于明確局部語義成分,幫助更好地表征EDU,從而減少復雜的修飾成分對篇章理解帶來的噪聲.從可計算的角度考慮,篇章主干型零元素與篇章的銜接性和連貫性關聯更大,在這類零元素的自動識別方面,應更多地考慮篇章層面的信息;修飾型零元素更多與EDU 內部的局部句法信息關系密切,這類零元素的自動識別應更多地考慮句法信息的支撐.

對于零元素的標注還存在定位問題.所謂零元素,是形式上不存在,而語義上存在的某個成分.另外,人為對其進行形式上的添加存在位置的不唯一性.就例4 給出的例子看,人為將零元素插入在“以前”這一修飾語的前面或后面都可以,具體參見例5 給出的兩種插入結果.零元素的先行詞是“浦東”,對于e2 這個EDU 而言,語義補全后,“大量出現的是浦東以前不曾遇到過的…”和“大量出現的是以前浦東不曾遇到過的…”,從句法和語義層都是合理的.

例5:

(1) [浦東開發開放是一項振興上海,建設現代化經濟、貿易、金融中心的跨世紀工程,]e1[因此大量出現的是φ以前不曾遇到過的新情況、新問題.]e2

(2) [浦東開發開放是一項振興上海,建設現代化經濟、貿易、金融中心的跨世紀工程,]e1[因此大量出現的是以前φ不曾遇到過的新情況、新問題.]e2

對于上述情況,為了保證語料標注的一致性,對零元素的位置出現多個可選時,要求統一定位在可選的首號位置.當然,在進行可計算研究時,在評測中可考慮在忽略零元素前后的連詞和修飾成分的基礎上進行位置是否正確的判定.

2.2 篇章視角的零指代結構

零指代結構關注零元素與其先行詞之間的關聯關系.篇章視角的零指代結構需要從篇章層確定指代結構的幾個核心要素,具體包括:

(1) 指代關系的考察范圍

指代描述的是篇章層的語言現象,實體指代關系遍布整篇文章.不過,已有的研究(特別是對代詞作為待消解項的研究[40])發現,其先行詞通常在當前句或前兩句.零元素是形式上省略、而讀者可以根據上下文進行語義恢復的對象,其聚焦性強于代詞.因此,與零元素關聯的先行詞通常不會與零元素跨越很遠.基于這一原則,我們將零指代結構的考察范圍限定在相同段落內.由于漢語微觀篇章修辭結構[38,39]將每個段落映射成一棵獨立的篇章修辭結構樹,因此我們將零指代結構的考察范圍限定在零元素所在的篇章修辭結構樹中.

在上下文中承擔了銜接作用的零元素,這類零元素的先行詞一定顯式地在上下文中出現過.為了從語義層更好地確定零元素指代的先行詞,我們首先將實體指代鏈作為考察對象,確認當前零元素指代的是哪一個實體指代鏈.眾所周知:指代結構并不是兩個表述之間的關系,而是若干個表述之間的關系.將零元素關聯到具體的實體指代鏈,一方面可以充分利用已有的實體指代的標注信息和端到端的自動實體指代消解工具;另一方面,也可以較為容易地對零元素是否在上下文中承擔了銜接作用進行準確地判斷.當然,在標注過程中可以根據語義選擇同一指代鏈上的任意一個表述進行指稱關系的標注,最終的先行詞是由該表述對應的指代鏈來表示的.若不存在某個實體指代鏈與當前零元素間有指代關系,我們再進行短語級別的其他指代對象的考察.

(2) 指代關系的分類

從服務于篇章的視角,我們從兩個維度對零指代關系進行了分類.

一是根據指代關系是否跨越EDU 將零指代關系分成EDU 內(intra-EDU)和EDU 間(inter-EDU)兩種,其中: inter-EDU 類型的指代關系發生在兩個不同的EDU 間,銜接的上下文更多的是篇章層對象;而intra-EDU 類型的指代關系發生在EDU 內部,受到局部句法信息的影響更大.例6 給出了一個EDU,其中包含一個修飾型零元素,其指代的對象是該EDU 的主干主語“浦東”,這一指代關系在EDU 內部完成,屬于intra-EDU 類型.可以看到,intra-EDU 類型的指代關系中涉及的零元素一定是修飾型零元素.例7 給出了一個inter-EDU 類型的零指代關系示例,該例子涉及相鄰的兩個EDU,這兩個EDU 之間是并列關系,其中,第2 個EDU 的主干主語缺省,指向第一個EDU 的主干主語.

例6:[浦東不是簡單的采取“干一段時間,等φ積累了經驗以后再制定法規條例”的做法,]e1

例7:[這個開發區位于中國著名風景旅游城——杭州市區內,]e1[φ是一九九一年國務院批準建設的國家級高新技術產業開發區.]e2

二是將inter-EDU 類型的指代關系,根據指代關系關聯的對象是實體、事件還是其他抽象概念,分成了以下4 種.

? EntityType:零元素指代前面提到的實體.例如:在例7 中,第2 個EDU 中的零元素指向前一個EDU 中提及的實體“這個開發區”;

? EventType:零元素指代前面提到的事件,而不是某一個實體.例如:例8 中包含兩個EDU,后一個EDU 中包含一個零元素,而它指代的正是前一個EDU 提及的事件;

? UnionType:零元素指代前面提到多個事件或實體.如例9 給出的例子,該句子包含3 個EDU:前兩個EDU 間構成了并列關系,再與第3 個EDU 構成了遞進關系.在第3 個EDU 中存在一個主干成分的缺失,而這一零元素從語義上指代前面的“從業人員”和“私營企業注冊資金”兩個實體;

? RETType:零元素指代的單元位于此零元素后面或者未顯式出現的某個抽象概念.例10 給出了一個先行詞在待消解項后面出現的示例.

例8:[但全民公決不接受這一方案,]e1[φ也就終止了整個進程.]e2

例9:[從業人員有九萬七千九百六十三人,]e1[私營企業注冊資金達到了三十億零八千多萬元,]e2[φ分別比去年同期增長一成至兩成.]e3

例10:[φ為了造福社會,]e1[王碼電腦公司毅然放棄本來可以賺大錢的機會.]e2

(3) 指代關系的標注位置

實體與事件之間是可以相互指代的,從服務于篇章理解,進行實體和事件的統一指代消解為目標,在進行零元素指代關系構建時,我們參考Proposition Bank 中語義角色標注(semantic role labeling,簡稱SRL)的標注策略,將指代的先行詞定位成篇章修辭句法組合樹中對應的某個結點.

篇章修辭句法組合樹是指以段落為單位,將每個段落映射成一棵獨立的樹.該樹由兩部分組合而成:以EDU為基本單位,向上通過篇章修辭關系構建形成修辭結構樹;再針對每個EDU,抽取其對應的句法樹或句法子樹.例如例3 所示的一個篇章片段,圖1 給出了其對應的篇章修辭樹,將其葉子結點對應EDU 細化成句法子樹就形成了圖2 所示的篇章修辭句法組合樹.

Fig.2 Discourse rethorical and syntatic combination tree of example 3圖2 例3 構建形成的篇章修辭句法組合樹

若零元素指代的是某個實體,其距離最近的表述形式為一個名詞短語,該短語將被映射到修辭句法組合樹中的一個對應的結點.實際上,名詞短語不會跨越EDU,因此它是句法子樹中的某個結點.例如:圖3 給出了例7中第1 個EDU 對應的句法子樹部分,而先行詞“這個開發區”與子樹中方框擴起的“NP”結點對應,該結點可以通過起始葉結點的序號與從該結點向上的層次數的形式進行組合定位,其中,葉結點的序號是從整個篇章的角度進行編號(例7 中的“這個開發區”得到的標注信息是:0+3).

Fig.3 Syntatic subtree of the first EDU in example 7圖3 例7 中第1 個EDU 對應的句法子樹

若零元素指代的是某個事件,其距離最近的事件表述將被標注成先行詞.在各種事件抽取任務中,事件表述被定義為事件觸發詞與事件論元的組合.我們選取修辭句法組合樹中涵蓋事件觸發詞及論元的層次最低的結點作為該事件表述對應的結點.例如:圖4 給出了例8 中第1 個EDU 對應的修辭句法組合樹的句法子樹部分,而先行詞是“全民公決不接受這一方案”這一事件,觸發詞是“接受”,涉及的論元有“全民公決”“這一方案”,根據這些信息可再定位到圖4 中方框擴起的“IP”結點是該事件表述對應的結點,同樣采用起始葉結點在篇章中的序號與向上的層次數的形式來唯一定位該結點.

Fig.4 Syntatic subtree of the first EDU in example 8圖4 例8 中第1 個EDU 對應的句法子樹

當零元素指代的是多個事件或實體的組合時,分別找到各個實體和事件對應的篇章修辭句法組合樹中的結點,再向上找尋它們共同的最低父結點,將該結點作為映射得到的結點.例如:例9 對應的篇章修辭句法組合樹如圖5 所示,先行詞涉及兩個實體,它們分別對應句法子樹部分方框擴起的兩個NP 結點,再向上找到最低的父結點是圓形擴起的“并列”結點.

Fig.5 Discourse rethorical and syntatic combination tree of example 9圖5 例9 對應的篇章修辭句法組合樹

可以看到:通過上述方式,我們可以統一的進行多種先行詞的標注.

3 篇章視角的漢語零指代標注規范的制定和語料構建

3.1 文本數據的準備

我們選取賓州漢語樹庫(Chinese treebank,簡稱CTB)[41]中的前325 篇(chtb0001~chtb0325)文本進行零指代結構的標注,標注的同時進行了成分句法結構、實體指代結構和篇章修辭結構的融合.

CTB 語料由LDC 正式發布,在NLP 領域的很多任務中都有廣泛應用,經過多年的積累,已經包含句法、淺層語義、可比較語料、實體指代消解等多方面的標注信息.首先,CTB 語料提供了標準的成分句法分析結果,為構建篇章修辭句法組合樹奠定了句法部分的基礎;其次,OntoNotes 語料給出了實體指代結構、語義角色標注等多方面的信息,其NW 部分涵蓋了CTB 的這325 個文檔,為零指代結構與普通的實體指代結構的融合奠定了基礎;最后,蘇州大學自然語言團隊發布的基于連接詞驅動的篇章樹(connective-driven discourse tree,簡稱CDT)結構的漢語篇章樹庫(Chinese discourse treebank,簡稱CDTB)[38,39]中也涵蓋了這325 個文檔,為從篇章視角進行零指代結構的標注提供了篇章體系結構的支撐.根據其標注的標準段落、句子信息以及CDTB 中標注的標準EDU信息進行統計,該語料總共包含1 367 個段落(即1 367 棵篇章修辭結構樹),4 098 個句子,6 628 個EDU.

3.2 規范制定和標注過程

標注工作分為3 個階段.

? 第1 階段確定初步的標注規范,并設計開發相應的標注平臺.這部分工作的主要參與者是對可計算有一定理解的資深語言學家,在大量生語料分析的基礎上,同時考慮語料標注的質量以及通用性,充分討論的基礎上形成初步的標注規范.然后對將要參與標注的人員進行初步培訓,確保他們真實理解這一規范;

? 第2 階段是預標注階段,主要希望通過實踐來確認參與標注的人員對規范的理解,同時檢驗規范的可實施性,并在標注過程中對規范進行微調,并得到最終的標注規范;

? 第3 階段是正式標注和質量保證階段.根據最終的標注規范完成所有文檔的標注,對最終的標注文檔逐一校對,通過一致性分析確定分歧較大的語篇,以討論的形式進行修正或刪除不合理項,形成完整的可發布的中文篇章零元素語料庫.

篇章視角的零指代結構的標注是在以段落為單位的篇章修辭句法組合樹上進行,以給定的實體指代鏈為輔助信息.標注過程分3 步進行:(1) 零元素及其類型的確定;(2) 先行詞的確定;(3) 指代關系類型的確定.

為了簡化工作量、提高標注效率以及標注一致性,我們首先將標注工作流程化,在恰當的場合提供必要的輔助信息.給定文本后,從CTB,CDTB 中提取句法和篇章修辭信息,以段落為單位,構建形成篇章修辭句法組合樹.當用戶確定當前段落后,進入標注的3 個階段.

(1) 在零元素及其類型的確定階段,EDU 是零元素確定的基本單位,篇章間的修辭結構或EDU 內的局部句法信息是確定零元素類別的參考依據.因此,將段落以切分好的EDU 為單位進行篇章修辭結構的展現,在標注者指定相應的EDU 后,再進一步展現EDU 對應的句法子樹,讓標注者依據相關信息進行零元素及其類型的確定;

(2) 設定零元素后,進入先行詞的確定環節.完整展現零元素前對應篇章修辭句法組合樹的內容,同時讀取OntoNotes 中標注的實體指代關系,并將相關的表述映射到修辭句法樹中的各結點,在用戶進行先行詞對應結點選擇時,進行實體指代信息的提示;

(3) 選定先行詞后,根據EDU 跨度情況自動確定是inter-EDU 還是intra-EDU 類型,同時讓用戶確定指代對象的類型.根據用戶指定的類型信息,結合零元素位置(段落中第幾個詞的前面,詞的劃分以修辭句法樹中的葉節點為標準)和類型,先行詞對應的結點,形成完整的指代結構信息,將這些信息以獨立的XML 文件格式保存.

根據上述標注流程,我們設計并開發實現了篇章視角的零元素標注平臺,平臺的基本工作流程如圖6 所示.從工作流程可以看到:在標注過程中,標注者對于零元素的位置、類型、先行詞的結點以及指代關系的類型等信息的確定均以“選擇”動作為主.此外,通過標注平臺將一些不可能的位置屏蔽,設定一些必要的約束,例如零元素不能出現在某個詞的內部,一個EDU 最多只能有一個主干型零元素等,以此來保障標注質量,提升標注結果的一致性.

Fig.6 Annotation procedure of chinese zero elments from discourse perspective圖6 中文篇章零元素標注平臺的基本處理流程圖

最終形成的XML 格式的標注信息如圖7 所示.每一個零指代關系對應形成一個ZLink 標簽,而ZLink 標簽中,EDUType 表明的是當前這一指代關系是EDU 內部的,還是跨EDU 的;ANTType 表明的是先行詞屬于哪種類型,具體對應第2.2 節中給出的類別信息;ID 是以段落為單位順序遞增方式的序號.在每個ZLink 中包含兩個基本元素,即零元素和其指代的距離最近的先行詞.零元素給出的是位于哪個詞的前面,position 記錄的是這個詞在段落中的序號,type 用于表明零元素是主干型還是修飾型零元素.先行詞則通過起始位置(position)和層次(level)定位了篇章修辭句法組合樹中對應結點的狀況,若先行詞是OntoNotes 中已標注的實體鏈上的某個表述,則EntityID 用于記錄這個指代鏈的序號.

Fig.7 Annotation result in XML format of chinese zero anaphora structure圖7 漢語零指代結構對應的XML 標注

3.3 標注語料一致性評價及分析

本文采用語料標注領域大家廣泛接受的Kappa 檢驗[42]進行一致性檢驗,以此來評估語料標注的質量.Kappa 計算公式如下:

其中,PO表示觀察一致率,PC表示偶然一致率.通常認為:Kappa 值大于0.75,則表示標注具有較好的一致性;如果Kappa 值小于0.4,則表示一致性較差.

從標注語料中隨機抽取30 篇文檔,再選取兩名標注人員對它們進行獨立標注,再根據標注結果計算標注的一致性.漢語零指代語料的一致性主要包括以下4 個方面.

(1) 零元素位置的一致性:以EDU 為單位,當標注零元素的在EDU 內部的位置相同時,認為零元素標注是一致的;

(2) 零元素類別的一致性:當零元素位置一致,再檢測主干型和修飾型類別是否一致;

(3) 先行詞的一致性:如果標注的先行詞位置相同,認為標注的先行詞一致;此外,當標注的零元素先行詞具有EntityID,且EntityID 相同,即使先行詞位置不同(也就是選取了相同實體鏈上不同的表述作為其先行詞),我們仍然認為這個標注是一致的;

(4) 指代關系類型的一致性:當先行詞一致,再檢測指代的類型Entity,Event,Union 和RET 是否一致.

通過計算,本語料的零元素位置標注的一致性的Kappa 值為0.88,零元素類別標注的一致性Kappa 值為0.85,先行詞的標注一致性的Kappa 為0.82,指代關系類型的一致性Kappa 值為0.81,4 個指標均超過了0.8,表明該語料的標注質量可靠.

3.4 語料規模的統計說明

篇章視角的漢語零指代語料庫共包含325 篇文檔(chtb0001~chtb0325),全部來源于CTB 語料,我們共標注了零指代鏈2 672 個,平均每個段落包含零指代關系1.95 個.因為標注過程中進行了約束,每個EDU 最多只有一個主干型零元素,而實際上包含多個零元素的EDU 極少,只出現2 個,可以看到,包含零元素的EDU 約占EDU總數的40.31%.

下面對篇章視角的漢語零指代語料庫中零元素的分布情況以及指代鏈的分布情況進行了統計分析.

(1) 零元素的段落分布

基于段落對零元素分布進行統計,對應結果見表1.可以看到:在所有的1 367 個段落中,不包含零元素的段落僅占總數的31.09%,有425 個段落.也就是說,漢語篇章表述中,約有68.91%的段落中存在零元素.這也說明了漢語中省略是普遍存在的,漢語零指代是漢語的重要特效之一.

Table 1 Zero elements distribution over paragraphs表1 以段落為單位包含零元素數量的分布統計

(2) 零元素的類別分布

針對零元素類別分布進行統計,其分布結果見表2.可以看到:主干型零元素(Main)占據了絕大部分,其比例高達80.16%,這部分零元素對篇章語義的理解以及篇章層的分析起到至關重要的作用;剩余的修飾型零元素所占比例約為19.84%,該部分主要關聯的是EDU 內部的細節語義,能輔助局部句法和語義分析,在后續的研究中依舊存在不可替代的作用.

Table 2 Zero elements distritution over categories表2 零元素類別分布統計

(3) 零指代鏈的類別分布

表3 給出了零指代鏈在EDU 內和跨越EDU 這兩種情況的數量及比例,可以看到,跨越EDU 的零指代關系占到了絕大多數.這也進一步說明指代是篇章層面的特性,是篇章銜接性的一種體現.

Table 3 Zero anaphora distribution over distances表3 零指代關系的距離類別分布統計

我們對Inter-EDU 類型的零指代關系進行了進一步的類別統計,表4 給出了按先行詞類別進行統計得到的數量分布.從表4 所示的結果可以看到:先行詞是Entity 類別的情況占到了絕大多數,約為94.91%.對這類零指代進行進一步統計發現,先行詞是OntoNotes 中已標注的某個實體指代鏈的零指代鏈有2 188 個,約占實體類零指代的92.41%;還有180 個零元素的先行詞是由未構成實體指代鏈的獨立名詞短語承擔,約占實體類零指代鏈的7.60%.

Table 4 Inter-EDU zero anaphora distribution over types表4 Inter-EDU 類型的零指代關系的指代類別分布統計

(4) 跨EDU 的零指代鏈的距離分布

表5 給出了Inter-EDU 類型的零指代關系跨EDU 數量的分布情況.從統計結果可以看到:零指代關系跨度小于等于3 個EDU 的情況占到了總情況的92.71%,而超過3 個EDU 的零指代關系通常為Entity 類型.

Table 5 Inter-EDU zero anaphora distribution over distances表5 Inter-EDU 類型的零指代關系的距離分布統計

3.5 與OntoNotes中標注的零指代結構的對比

最后,我們將篇章視角的零指代結構的標注結果與OntoNotes 中已標注的句法視角的零指代結構進行了對比.OntoNotes 中選取了*pro*部分進行了零指代信息的標注.在我們選取的325 篇來源CTB 的文檔中,*pro*共有1 077 個,其中,在實體指代鏈上的*pro*為944 個,有133 個*pro*被認為是非待消解的零元素.而我們的篇章視角的零指代語料庫共標注了2 672 個零元素,其中,有1 010 個與OntoNotes 中標注的零元素重疊,與OntoNotes 中標注的實體指代鏈上的零元素重疊的有900 個.這1 010 個重疊的零元素按照我們給出的零元素分類體系進行分類,具體的分布見表6.

進一步觀察這1 010 個重疊的零元素,發現有110 個零元素在OntoNotes 中被視為非待消解項.與OntoNotes語料只關注實體指代不同,在我們的語料中,為了后續進行多種類型指代的聯合學習,語料標注涵蓋了Event,Union 和RET 類型.表7 給出了1 010 個重疊零元素形成的指代關系的類別分布情況.

從表7 給出的類別分布統計結果可以看到:修飾型零元素在EDU 內就完成了指代的消解的情況占到總數的17.03%,而占據絕大多數的仍然是跨EDU 的實體類的指代關系.

Table 6 Distribution over categories of zero elements overlapping with the OntoNotes corpus表6 與OntoNotes 中重疊的零元素類別分布統計

Table 7 Distribution over types of zero anaphora overlapping with the ontonotes corpus表7 與OntoNotes 中重疊的零元素對應的指代關系的類別分布統計

除上述重疊部分,我們進一步分析了不重疊的情況,可以分為兩種情況.

(1) OntoNotes 中未標注零元素,而在我們的語料中將其視為零元素.

例11 給出了一個典型的例子.從統計數據可以看到:我們的語料中包含了2 672 個零元素,是OntoNotes 中標注的零元素2.48 倍.對比標注結果發現:多出的零元素部分,例11 給出的情況占據了很大的比例.這也是Yang和Xue[14]基于多種句法信息進行了零元素識別和恢復的可計算研究后,分析他們的實驗結果得出的一個結論——很難區分是出現了零元素還是句法層面的共享主語.

例11:[去年外商投資企業出口商品中,工業制成品占九成以上,]e1[φ達四百三十八點八億美元,]e2[φ比上年增長了百分之三十六點七,]e3[φ明顯高于全國平均水平.]e4

在篇章表示體系中,EDU 被認為是篇章構成的基本單位,因此篇章視角的零指代表示體系也以EDU 為考察零元素存在與否的基本單元.若它有語義成分上的缺失,而且這個缺失可以從上下文中恢復,我們就將這一缺失的語義成分看作零元素.例11 所示的句子包含4 個EDU,后3 個EDU 中存在明顯的語義缺失,而缺失的對象可以從前面的EDU 中恢復,因此我們認為后3 個EDU 中出現的是零元素,而不是主語共享.而且從指代鏈類型看,出現在e2 中的第1 個零元素和出現在e3 中的第2 個零元素指代的是“工業制成品”,屬于Entity 類型;而出現在e4 中的第3 個零元素指代的是“增長”這件事,屬于Event 類型.

例12 給出了一個篇章視角不存在零元素,句法視角是共享主語的示例,圖8 給出了對應的句法分析結果.例12 僅包含一個EDU,這個EDU 表述的內容是完整的.而“會積極配合學校發展中心”和“密切與學校相關部門聯系與合作”間共享了主語“公司”.我們認為:若VP 節點與其主語位于同一個EDU 內部時,對上層篇章來說,該EDU 表述是完整的,則當前省略表述不作為篇章零元素,而是句法層的共享主語現象.

例12:[他說,公司會積極配合學校發展中心,密切與學校相關部門聯系與合作.]e1

(2) OntoNotes 中標注了零元素,而在我們的語料中未將其視為零元素.

對比語料發現,這一現象共有67 處.其中,位于OntoNotes 標注的實體指代鏈上的零元素有44 處.例13~例19 給出了一些OntoNotes 中進行了標注(*pro*),而我們的語料未標注的零元素示例.從這些例子可以看到:關聯某個具體的驅動謂詞,確實存在句法層面的成分缺失.然而從篇章視角看,這些OntoNotes 中標注的缺失成分都不是銜接上下文的語義成分,它們通常指代的是一些常識性的實體,對篇章的理解幾乎沒有影響.例如,例14 中標注的*pro*與驅動詞“有”相關聯,從句法層看缺失了“有”的施事者,但這個施事者在上下文中是沒有銜接角色的,因此對篇章理解沒有意義.同樣,例16 中,謂詞“出臺”的施事者缺失了,但這個施事者在上下文中并未承擔銜接作用,對篇章理解是沒有影響的.

例13:據了解,目前,*pro*在外商投資企業獲得的人民幣貸款中,有近一半是中國銀行提供的.

例14:*pro*有人預言,隨著九江的進一步開放開發,王翔將從政府劃給他的土地中獲得可觀的利潤.

例15:董建華在*pro*評論該指數時表示,香港特區已連續四年成為全球最自由的經濟體.

例16:如*pro*省里出臺并實施的《四川省鼓勵外商投資優惠政策》等,為外商提供了優惠、寬松的政策環境.

例17:*pro*在*pro*與中國締結友好城市中,以日本為最多.

例18:研究人員介紹說,*pro*國外目前普遍使用的各種化學合成降糖藥對糖尿病并發癥均無多大的防治作用.

例19:鎳儲量占*pro*中國國內已探明儲量的百分之七十.

Fig.8 Syntatic parse tree of example 12圖8 例12 對應的句法樹

4 篇章視角的零指代消解基準平臺

完整的零指代消解平臺由零元素識別和零元素消解兩部分構成,其中:已有的零元素識別相關研究多以句子或子句為單位,依據句法分析的結果從句法成分的缺失這一角度進行,使得零元素識別的性能對句法分析的結果有著嚴重的依賴;另一方面,零元素消解的相關研究則集中在如何更好地表征零元素所處的上下文信息.從篇章視角構建零指代消解基準平臺需要進行以下幾個方面的考慮:首先,既然是篇章層的語言現象,高效的零指代消解必然需要多粒度的篇章信息的支持;其次,篇章級的任務更豐富、更復雜,它們之間必然存在密切的聯系,而這些聯系決定了不能孤立地討論零指代;最后,零指代歸根結底是指代的一種,進行包括實體指代、事件指代在內的多種指代的聯合消解勢在必行.因此,零指代消解應借鑒較為成熟的實體指代框架.

基于上述考慮,我們選擇了Kong 和Zhou[26]給出的鏈到鏈的漢語零指代消解方案作為基準平臺構建的基本方法,在實現上進行了以下改動:(1) 用基于篇章單元(EDU)的零元素識別模塊替換了原來的零元素識別模塊;(2) 將實體指代消解模塊替換成了性能更好的基于神經網絡的實體指代消解平臺[26];(3) 在零元素鏈接環節,將原有的人工特征都作為附加特征進行了向量表征,同時增加了基于Mask 機制的零元素表征;(4) 零指代關系的確定替換成了實體指代消解平臺中的前饋神經網絡方法.關于鏈到鏈的漢語零指代消解方法的細節,請參考Kong 和Zhou 的論文[26];實體指代消解平臺及前饋神經網絡方法,請參考Kong 和Fu 的論文[26].本節主要介紹基于EDU 的零元素識別和基于Mask 機制的零元素表征.

4.1 基于EDU的零元素識別

給定一個EDU,我們認為:構成EDU 的每個詞的前面均有可能存在零元素,唯一不可能存在零元素的位置是最后一個詞的后面.因此,我們將零元素識別看作一個邊界點識別問題,通過編碼-解碼框架來進行,圖9 給出了這一框架的具體構成.

Fig.9 EDU based zero element detection framework圖9 基于EDU 的零元素識別框架

在編碼階段,以EDU 為基本單元作為模型的輸入.將含有n個詞的EDU 記做E={w1,w2,w3,…,wn},其中,wi表示EDU 中的第i個詞.利用預訓練的Embedding 矩陣將每個詞wi映射為低維稠密的詞向量,再將該詞向量與隨機初始化的詞性向量拼接作為BiLSTM 的輸入,借助BiLSTM 動態捕獲文本的序列信息,其在兩個方向上的最后一個隱狀態的拼接d?將承擔解碼器初始狀態的角色:

解碼環節采用指針網絡模型實現,它由解碼器(decoding phrase)和定位器(pointing phrase)兩部分構成.解碼器將啟動單元Um作為輸入,經過一個單向LSTM 后獲得對應輸出dm,其中首次啟動單元為d?,之后的啟動單元為前一次定位器確定位置的詞wi對應的編碼hi:

解碼時,由于每個輸入序列中包含的零元素數量不確定,在得到解碼器的輸出向量dm后,我們使用指向機制(pointing mechanism)[43]計算輸入序列中位于啟動單元之后的零元素的位置,具體公式如下:

其中,h和dm分別為編碼層和解碼器(decoding phase)的對應輸出,j表示輸入序列中詞的位置.假設此時的啟動單元為原序列中的第i個詞,vT,W1,W2均為固定維度的參數,可由訓練得到p,即啟動單元為Um(原序列中wi)時,各位置前包含零元素的概率,最后,取概率最大的位置作為零元素.

訓練時采用“teacher forcing”機制[44]來訓練模型,即:為解碼器提供正確的零元素的位置和啟動單元Um,測試時則使用模型的當前輸出來確定下一步的輸入.以圖9 給出的輸入序列“一是繼續鼓勵和支持外來投資,”為例,具體解碼過程為:

? 首先,將編碼器的輸出d?作為起始啟動單元送入解碼器端的LSTM 得到d0;然后,通過公式(5)和公式 (6)計算輸入序列中所有位置的零元素分布概率,得到“繼續”一詞前面存在零元素的概率最高,因此可以確認第一個分割邊界“Boundary1”,第1 輪解碼完成;

? 再將“繼續”作為第2 輪次的啟動單元,將其對應的編碼端向量送入解碼器端的LSTM 得到d8,同前一步,利用公式(5)和公式(6)計算其右側各位置的零元素分布概率,發現最后一個詞“,”的概率最大,此時,我們認為該EDU 已沒有零元素存在,解碼結束.

4.2 基于Mask機制的零元素表征

與傳統的實體指代消歧相比,在零指代消解中,如何高效地表征零元素是一個難點.本文采用的基于Mask機制的零元素表征方法,其思路來自于BERT 模型[45].該模型訓練時采用Masked Language Model 的方法,即:隨機使用MASK 標記覆蓋每個句子中約15%的詞,用其上下文來預測這些詞.很自然地想到:零元素本質上可以看作被MASK 掉的詞,當有足夠上下文可以預測這些詞時,該MASK 標記對應的向量可以看作是零元素的表征結果.因此,我們可以借助預訓練的BERT 模型來進行零元素的表征.具體做法是:在預處理階段,給零元素所在的位置增加一個“[MASK]”標記,來顯式地表示零元素(訓練時已知正確的零元素位置,測試時借助零元素識別模塊自動識別零元素).

圖10 給出了“一是繼續鼓勵和支持外來投資,”示例中“繼續”前的零元素表征的示意圖.在獲得零元素表征后,與原有的已經向量化的人工特征進行拼接,得到完整的表征后即可進行鏈接消歧.

Fig.10 Mask mechanism based zero element representation圖10 基于Mask 機制的零元素表征

4.3 基準平臺的實驗結果

由于語料規模有限,基準平臺的實驗采用5 倍交叉驗證的方式進行,使用Precision(P),Recall(R),F1-score(F)作為評測標準.驗證集是從訓練集中隨機劃分出的數據,占比為15%,使用早停法(early stopping)來保存驗證集上最好的模型,置信度設為10.模型采用批訓練的方法,訓練輪次為100,批次大小為32,使用adam 學習器進行參數迭代更新,學習率為0.001.在embedding 和LSTM 層后引入dropout 機制,dropout 大小為0.5,LSTM 的層數為1,使用BERT 的“BERT-Base-uncased”版本來生成原始的嵌入,詞嵌入維度300,詞性嵌入維度20,隱藏層維度128.

表8 給出了基于EDU 的零元素識別的性能.從結果可以看出,主干零元素的識別性能遠遠高于修飾型零元素的識別性能.可能的原因有兩方面:一是修飾型零元素占比較低,相應的訓練實例缺乏;二是直覺上修飾型零元素更多地依賴局部的句法信息,基準平臺主要考慮了詞與詞之間的序列信息,后續可通過句法信息的融入進一步改善修飾型零元素的識別性能.此外,從面向篇章理解的視角來看,主干零元素在篇章的組織、話題的演變等方面起著更為重要的銜接作用,高效地識別出主干型零元素,能夠有助于對整個篇章的理解.

Table 8 Performance of EDU based Zero Element Detection表8 基于EDU 的零元素識別的性能

表9 給出了零指代消解的性能.所謂“標準實體鏈”,我們抽取了OntoNotes 中標注的實體指代鏈作為已知信息,僅僅完成將零元素鏈接到對應實體鏈上的工作;而“自動實體鏈”則使用Kong 和Fu[26]的系統自動獲取實體指代鏈(使用OntoNotes 語料重新訓練該系統,將本語料的325 篇文本作為測試集,使用CoNLL 評測得到的實體指代消解的性能為69.66%).從表中列出的實驗結果可以看到:不論是標準還是自動實體指代鏈,零元素的識別性能都對零指代消解的性能產生很大的影響,F1 值下降了大約10%.但相比已有的從句法視角進行的研究(Chen 等人[21,27]以及Kong 和Zhou[26]等,自動零元素下消解性能下降了約20%),下降幅度有所減小,后續將考慮融入更多的篇章級信息來增強系統的魯棒性.

Table 9 Performance of Zero Anaphor Resolution表9 零指代消解的性能

5 總結與展望

從服務于篇章分析和文本理解出發,本文給出了漢語零指代結構的表示體系,并基于這一表示體系選取漢語樹庫CTB、連接詞驅動的漢語篇章樹庫CDTB 和OntoNotes 語料中重疊的325 篇文本進行了漢語零指代的標注,構建了一定規模的漢語零指代語料庫.系統檢測表明:本文提出的表示體系合理有效,構造的語料庫質量上乘,能夠為篇章視角的漢語零指代研究提供必要的支撐.

本文的主要貢獻體現在3 個方面:(1) 從篇章視角構建了漢語零指代表示體系,并據此構建了一定規模的漢語零指代語料庫,為篇章視角的漢語零指代研究提供了支持;(2) 提出的漢語零指代表示體系使用了漢語篇章微觀修辭結構表示體系中定義的基本篇章單元EDU 和篇章修辭結構樹,為探索漢語篇章微觀修辭結構與漢語零指代之間的關系,開展兩者的聯合學習奠定了扎實的基礎,同時也為構建多視角的漢語篇章結構的統一表示體系做了初步的探索;(3) 給出了一個基于EDU 進行漢語零指代的基準平臺,為與實體指代的聯合以及融入更多的篇章級信息奠定了基礎.

接下來我們將進一步修正語料并正式對外發布,同時開展兩個核心工作.一是進行篇章視角的漢語零指代消解研究,側重考慮兩方面:(1) 如何借助豐富的篇章信息來更好地表征零元素及其上下文,從而提升零元素識別及消解的性能;(2) 主干型和修飾型零元素對篇章信息和句法信息的依賴度是不一樣的,后續將對它們分別建模,再借助多任務學習框架進行結合;二是進行漢語篇章零指代和微觀修辭結構的聯合學習研究,側重考慮零指代在篇章邏輯語義關系推進中的作用.