?

基于雙語依存關系映射的中英文詞表構建研究

2013-04-23 12:15劉丹丹錢龍華周國棟
中文信息學報 2013年1期
關鍵詞:詞表中英文語料庫

徐 華,劉丹丹,錢龍華,周國棟

(蘇州大學 自然語言處理實驗室,蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

1 引言

雙語詞表在機器翻譯和跨語言信息檢索等自然語言處理任務中發揮著重要作用。傳統的雙語詞表構建方法是從大規模平行語料庫中通過抽取詞對齊信息得到雙語詞表[1],該方法可獲得較好的性能,然而獲得高質量的大規模平行語料庫需要大量的人力和昂貴的財力,因此對于許多語言對,并不存在這樣的語料庫。所以,近年來研究者都把研究重點轉向了通過第三方中間語言或者非平行的可比較語料庫來構建雙語詞表。

基于第三方中間語言構建雙語詞表的方法利用某一流行的語言(通常是英語)作為中間語言,通過現有的源語言—中間語言和中間語言—目標語言兩個詞表來構建源語言—目標語言的詞表。該方法最早由Tanaka等[2]提出。Kaji等[3]利用英語作為中間語言生成了日文—中文和中文—日文的詞表。Shezaf等[4]也利用英語這一中間語言通過加入非對齊簽名(Non-Aligned Signatures,NAS)特征來改進西班牙語—希伯來語詞表。

基于可比較語料庫構建雙語詞表的方法基于這樣一個假設: 在可比較語料庫中,意義相似的雙語詞語其上下文也應該相似[5]。Fung[6]從可比較語料庫中抽取雙語詞語的上下文信息,利用詞語的共現向量來計算它們之間的相似度。Garera等[7]提出了依存上下文模型,即抽取詞語在依存樹中的前驅節點和后繼節點詞語作為其上下文。由于依存上下文很好地反映了詞語和它的上下文詞語之間的語法關系,摒棄了直接采用詞匯上下文所帶來的噪音,因而獲得了較好的性能。Koehn等[8]組合了諸如同源詞、相似上下文、詞頻等特征,分析了這些特征的作用和貢獻。不過,對于中英文詞表構建來說,同源詞等特征顯然是不起作用的。

本文在依存上下文模型的基礎上,提出了雙語依存關系映射模型,即通過同時匹配依存關系類型和上下文詞語來改進中英文詞表抽取的性能。本文的后續組織結構如下: 第2節回顧了中英文雙語詞表構建的相關工作;第3節詳細闡述了本文的方法—中英文雙語依存關系映射模型;第4節為實驗結果與分析;最后是本文總結和工作展望。

2 中英文詞表構建相關工作

由于中英文語言之間的差異性較大,目前中英文詞表構建系統相對較少。Fung[6]從可比較語料庫中抽取雙語詞語的上下文信息,利用在線詞典與詞語共現向量來計算相似度,并分析了多義詞、中文分詞與英文形態信息等中英文差異性特征對詞表的影響,在中英文詞表抽取上達到了30%的準確率。張永臣等[9]在Web上采集中英文語料庫,采用空間向量模型抽取金融領域的雙語詞表,并分析了種子詞表的選擇對雙語詞表性能的影響。Haghighi等[10]采用匹配典型相關分析(Matching Canonical Correlation Analysis, MCCA)模型構建了包括英文—中文在內的多種語言對的雙語詞表。

Fung[11]提出了上下文異質性(Context Heterogeneity)的概念,所謂上下文異質性就是指詞語前后上下文中出現詞語的個數信息,它反映了該詞語在語料庫中的分布特征。與之類似,Yu等[12]利用依存異質性(Dependency Heterogeneity),即詞語在某些依存關系類型中中心詞或依賴詞的差異性,來抽取雙語詞表。這種方法不需要種子詞表來構建雙語詞表,主要利用詞語在語料庫中的統計信息來辨別詞語,不過該方法的經驗性太強且缺乏相關語言學方面的理論支撐。

3 基于雙語依存關系映射的中英文詞表抽取

從Garera等[7]和Yu等[12]的工作中可以看出,依存信息可以有效地提高雙語詞表構建的性能。本節首先利用依存上下文模型構建一個中英文雙語詞表抽取的基準系統,然后詳細介紹了本文的雙語依存關系映射模型。

3.1 基準系統

Garera等[7]的依存上下文模型通過抽取詞語在依存樹中一定窗口內的上下文詞語來構建特征向量。實驗表明,當窗口大小為±2時其性能最佳。按照Garera等[7]的方法,我們實現了本文的基準系統,具體方法是:

? 上下文抽取。首先抽取詞語在依存樹中的父節點(-1)、子節點(+1)、祖父節點(-2)和孫子節點(+2)上的相關詞語,保留位于種子詞表中的詞語;

? 特征向量構造。利用詞包模型生成上下文向量,并利用點互信息(Pointwise Mutual Information,PMI)來衡量向量中某一個詞語的權重。點互信息定義如下:

其中,N(w,c)代表詞語w與其上下文詞語c的共現頻率,N(w)和N(c)分別指詞語w和c的頻率,N指語料庫的總詞數。由于PMI值的大小存在傾向于詞頻較少詞語的缺陷,因此我們在PMI公式后乘上了折扣因子(Discounting Factor)[13]作為某一特征的權值。

? 相似度計算: 利用余弦相似度(Cosine Similarity)來計算雙語詞匯向量之間的相似度,并從目標語言中選擇一個相似度值最高的詞匯作為源語言詞語的等價詞匯。

其中S和T分別指源語言和目標語言詞語的上下文向量,PMIS,i和PMIT,i分別指第i個在種子詞表中能匹配的源語言和目標語言的詞語互信息值,SimDW為雙語詞語依存上下文的相似度。

該模型利用了雙語詞語與種子詞表中詞語的共現程度來衡量相似度,由于采用詞包模型,且只考慮了依存上下文中的詞匯信息,忽略了其他關鍵信息,如依存關系類型等,因而其性能不夠理想。

3.2 雙語依存關系映射模型

中英文雙語依存關系類型存在著一定的對應關系,Lin[14]提出了一種基于依存路徑轉換的機器翻譯模型,根據依存路徑創建轉換規則,把源語言的依存路徑轉換為目標語言的依存樹片段?;谒墓ぷ?,我們發現在中英文雙語語料庫中詞匯之間的依存信息可以很好地進行匹配。圖1舉例說明了中英文之間的依存關系類型的映射關系。

從圖1可以看出,顯然在兩個平行句子中,對應詞語及其依存關系大都可以很好地匹配。通過對雙語詞匯的上下文進行觀察,我們發現,對于一個雙語等價翻譯對,與其共現的上下文詞語和依存關系類型也能夠進行匹配。如表1所示,“業績”和其等價翻譯詞“achievement”的上下文中,它們的依存關系類型和上下文詞語就可以很好地匹配。不過,由于中英文語言之間的差異性和標記集的不同,并不是所有的依存關系類型可直接匹配,有些依存關系可能對應另外一種語言的多種依存關系。例如,中文依存關系nn,可以匹配英文依存關系中的amod、nn和prep_of。需要說明的是,雖然一種語言的依存關系可能映射到另一種語言的多種依存關系,但在實際匹配時,由于在一個句子中一對詞語之間的依存關系是唯一的,因此只能選擇一種依存關系進行匹配。

圖1 中英文依存關系類型映射關系

表1“業績”和“achievement”的依存上下文中依存關系類型和上下文詞語的匹配

業績Achievement中文上下文英文上下文dobj_創造dobj_createconj_經驗conj_experiencenn_經營nn_operationamod_偉大amod_greatnn_管理nn_management

通過分析中英文兩種語言各自依存關系的特點,我們得到了中文—英文和英文—中文的依存類型的映射關系,如表2和表3所示。根據這些依存類型的映射關系,我們抽取了帶有依存關系類型的上下文詞匯作為上下文特征,并且在特征匹配時兩者都必須匹配。需要注意的是,依存關系直接發生在一對詞語之間,因此,此時的窗口大小為±1。與基準系統類似,我們仍然采用點互信息來衡量帶依存關系的上下文向量的權重,并計算其余弦相似度。此時,雙語之間的相似度同時考慮基準系統中的依存上下文特征和依存關系映射特征,其計算公式如式(4):

其中,SimDW是指在基準系統的依存上下文模型中,雙語詞語之間的相似度,SimDRM指在依存關系映射模型中的相似度,而SimT為總的相似度。S1,T1分別表示在基準系統中的雙語詞語的依存上下文向量,而S2,T2則表示包含依存關系類型的依存上下文向量,α為復合參數。根據實驗測試,當α=0.8時系統性能最好。

表2 中文—英文的依存關系映射

表3 英文—中文的依存關系映射

4 實驗與分析

本節首先介紹了本文實驗所使用的語料庫,然后詳細說明了種子詞表和測試詞表的生成方法,最后分別討論了不同依存關系類型和各種不同特征對構建中英文雙語詞表性能的影響。

4.1 語料庫

我們以中英文“對外廣播信息服務”(Foreign Broadcast Information Service,FBIS) 平行語料庫作為雙語詞表抽取的訓練和測試語料庫。FBIS是新聞領域語料庫,包含約24萬句平行句對,約690萬中文詞,890萬左右英文詞。我們把24萬句語料庫分成兩部分: 11萬句和13萬句,利用中文語料的第一部分和英文語料的第二部分構成非平行的可比較語料庫。此方法與Haghighi等[10]和 Ismail等[15]構建可比較語料庫的方法類似,是常見的從平行語料庫中提取非平行的可比較語料庫的方法。

對于語料庫的預處理,我們首先對語料庫進行句法分析,使用Stanford Parser[16]獲取依存關系和詞性信息。由于英文中存在名詞復數、動詞時態語態等形態特征,我們對英文語料庫進行形態處理以獲取英文詞語的原型形式。

4.2 種子詞表和測試詞表

種子詞表是已知對齊的雙語詞表,它是構建新的雙語詞表的基礎。在上下文模型中,利用待對齊的雙語詞語與種子詞表中的已知詞語的搭配信息來計算雙語詞語之間的上下文相似度,并通過選擇相似度最高的詞語來構建雙語詞表。大多數基于上下文的雙語詞表構建方法都使用種子詞表來匹配上下文詞語,例如,Rapp[5]和Fung[6]均使用規模在20k左右的詞典作為種子詞表,而Haghighi等[10]和 Ismail等[15]都使用100~1 000左右的小型種子詞表。與Haghighi等[10]和 Ismail等[15]類似,我們也試圖在小型種子詞表的基礎上提高雙語詞表構建的性能。我們通過對齊FBIS語料庫并去掉停用詞后,獲取頻率最高的 1 000個詞作為我們的種子詞表。

我們選取名詞作為測試詞表。在去除種子詞表包含的名詞后,選取頻率最高的500個名詞作為測試詞表。在目標語言中,選取5 000個名詞作為候選詞與測試詞語進行匹配,即5 000個詞語中與測試詞語相似度最大的詞作為測試詞語的等價翻譯詞。

4.3 評價標準

我們采用準確率(Precision)和平均排名倒數(Mean Reciprocal Rank,MRR)作為評價標準[12]。準確率是雙語詞表構建中常用的評價標準,指的是在相似度最高的前n個候選詞中的平均準確度。MRR是指正確翻譯詞在候選詞中排名倒數的平均值,衡量正確翻譯詞的相似度在候選詞中的排名次序。本文中準確率只考慮相似度最高的一個候選詞的情況,定義如下:

其中,counttop1指相似度最高的一個候選詞中正確的個數,ranki是正確翻譯詞在候選詞中的排名,N是測試詞表的個數。與準確率不同,MRR不需要考慮n的大小,因而更能全面地衡量自動構建出來的雙語詞表的性能。

4.4 實驗結果與分析

? 不同依存類型對抽取性能的影響

表4列出了在中文—英文和英文—中文兩個方向構建詞表時,不同依存關系類型對性能的影響。為了提高計算效率,我們在基準系統的基礎上采取了重排序的策略,即在基準系統的結果中選取相似度最高的50個候選詞,添加后續特征后重新計算測試詞語與該50個候選詞的相似度。參考Stanford Parser的依存關系類型,我們將上述依存關系映射特征分為論元關系(Argument)、連接關系(Conjunction)和修飾關系(Modifier)三大類進行排序,并采用累加的方式逐步添加到系統中,即每一種依存關系映射特征按照相應順序逐一添加到系統中。

表4 采用雙語依存關系映射的中英文詞表抽取性能

從表4中可以看出,在開始添加特征時,性能有所下降,這是因為在少量特征下,上下文向量較稀疏,不足以區分詞語的語義,反而會引入噪音,導致了性能的降低,但隨著加入特征的增多,上下文逐漸豐富,性能也逐漸提高。最后,中文—英文的總體性能Precision和MRR分別比基準系統高出3.2和4.04, 而英文—中文詞表的總體性能Precision和MRR分別比基準系統高出9.2和9.66。這說明依存關系映射特征能顯著提高中英文詞表構建的性能。另外,雖然由于中文詞性的歧義性,使得英文—中文的基準系統性能明顯低于中文—英文基準系統的性能,但是雙語依存關系映射特征能很好地彌補這一缺陷,從而大幅度地提高其詞表構建的性能。

? 不同特征對性能的影響

表5考察了不同特征對中英文雙詞詞表構建性能的影響,其中①為基準系統,②為僅使用依存關系映射特征,第3行表示依存上下文特征和依存關系映射特征的線性復合(即式(4)),第4行表示在第3行基礎上再考慮位置特征,即在匹配詞語和依存類型時,還要同時考慮依存方向。

表5 不同特征對雙語詞表構建性能的影響

表5的實驗結果表明,單獨使用依存關系映射特征時,無論是中文—英文還是英文—中文的雙語詞表構建,其性能均低于基準系統,這是由于同時匹配詞語和依存關系會導致特征更加稀疏而引起的。另外,Garera等[7]的實驗表明,在依存上下文模型中,共現詞語的依存方向對詞表構建性能沒有促進作用。我們在中英文兩個方向的詞表構建實驗表明,在依存關系映射模型中,方向特征均能提高1個點的準確率,MRR值也都有所提高。這說明在依存類型匹配的前提下,依存方向特征有助于雙語詞表的構建。

5 結論與展望

本文提出了基于依存關系映射模型的中英文雙語詞表構建方法,即在依存上下文模型的基礎上增加了依存關系映射特征,它包含了依存上下文詞語及其類型和方向等三個因素,因而可以更準確地反映雙語等價翻譯詞之間的對應關系。實驗表明,雙語依存關系映射模型在中英文兩個方向的雙語詞表構建上都取得了較好的效果,顯著提高了雙語詞表抽取的性能,同時也表明了該方法對不同語言對具有潛在的適用性。

目前的雙語依存關系映射是通過人工的特征工程方法來實現的,其映射特征并非是最佳特征,也較難應用到不同的語言對上。因此在下一步工作中,我們將利用機器學習的方法自動發掘語言對之間的依存映射關系,進一步提高系統的性能和領域適用性。

[1] Dekai Wu, Xuanyin Xia. Learning an English-Chinese Lexicon from a Parallel Corpus[C]//Proceedings of the 1st Conference of the Association for Machine Translation in the Americas, Columbia, Maryland, 1994: 206-213.

[2] Kumiko Tanaka, Kyoji Umemura. Construction of a bilingual dictionary intermediated by a third language[C]//Proceedings of Conference on Computational Linguistics. 1994.

[3] Hiroyuki Kaji, Shin’ichi Tamamura, Dashtseren Erdenebat. Automatic construction of a Japanese-Chinese dictionary via English[C]//Proceedings of the 6th Edition of the Language Resources and Evaluation Conference. Marrakech, Morocco, 2008: 699-706.

[4] Daphna Shezaf, Ari Rappoport. Bilingual Lexicon Generation Using Non-Aligned Signature[C]//Proceedings of ACL 2010. Uppsala, Sweden, 2010: 98-107.

[5] Reinhard Rapp. Automatic identification of word translations from unrelated English and German corpora[C]//Proceedings of ACL, 1999: 519-526.

[6] Pascale Fung. A statistical view on bilingual lexicon extraction:from parallel corpora to nonparallel corpora[C]//Proceedings of the 3rd Conference of the Association for Machine Translation in the Americas.2000.

[7] Nikesh Garera, Chris Callison-Burch, David Yarowsky. Improving translation lexicon induction from monolingual corpora via dependency contexts and part-of-speech equivalences[C]//Proceedings of the 13th Conference on Computational Natural Language Learning (CoNLL), Boulder, Colorado, June 2009: 129-137.

[8] Philipp Koehn, Kevin Knight. Learning a translation lexicon from monolingual corpora[C]//Proceedings of ACL Workshop on Unsupervised Lexical Acquisition, 2002.

[9] 張永臣,孫樂,李飛,等. 基于Web 數據的特定領域雙語詞典抽取[J].中文信息學報,2006,20(2): 16-23.

[10] Aria Haghigi, Percy Liang, Taylor Berg-Krikpatrick, et al. Learning bilingual lexicons from monolingual corpora[C]//Proceedings of the ACL, Ohio, USA, 2008: 771-779.

[11] Pascale Fung. Compiling bilingual lexicon entries from a non-parallel English-Chinese corpus[C]//Proceedings of 3rd Annual Workshop on Very Large Corpora. Boston, Massachusetts: Jun. 1995: 173-183.

[12] Kun Yu, Junichi Tsujii. Extracting bilingual dictionary from comparable corpora with dependency heterogeneity[C]//Proceedings of NAACL-HLT, short papers, 2009: 121-124.

[13] Dekang Lin, Patrick Pantel. Concept Discovery from Text[C]//Proceedings of Coling 2002: 42-48.

[14] Dekang Lin. A path-based transfer model for machine translation[C]//Proceedings of Coling 2004, Geneva, Switzerland, 2004: 625-630.

[15] Azniah Ismail, Suresh Manandhar. Utilizing contextually relevant terms in bilingual lexicon extraction[C]//Proceedings of Workshop on Unsupervised and Minimally Supervised Learning of Lexical Semantics, Boulder, Colorado, USA, 2009: 10-17.

[16] M-C de Marneffe, B MacCartney, C D Manning. Generating typed dependency parses from phrase structure parses[C]//Proceedings of LREC 2006.

猜你喜歡
詞表中英文語料庫
基于VOLT的藏漢雙向機器翻譯
《隧道建設(中英文)》征稿簡則
平行語料庫在翻譯教學中的應用研究
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
《語料庫翻譯文體學》評介
本刊可直接使用的常用縮略語中英文對照表
本刊可直接使用的常用縮略語中英文對照表
近十年國內外專業學術詞表建立文獻綜述*
語篇元功能的語料庫支撐范式介入
常用聯綿詞表
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合