?

統計機器翻譯中多分詞結果的融合

2010-06-05 08:35馬永亮趙鐵軍
中文信息學報 2010年1期
關鍵詞:分詞語料特征

馬永亮,趙鐵軍

(哈爾濱工業大學 教育部—微軟語言語音重點實驗室,黑龍江 哈爾濱 150001)

1 引言

漢—英統計機器翻譯中:中文語料是由一個個以字為基本單位的句子組成。這與大多數歐洲語言不同,它們的句子是由自然切分的單詞組成的。有研究人員進行了實驗[1],基于單個字切分的漢語語料不能使統計機器翻譯獲得最好的性能。對于實際的漢—英統計機器翻譯系統,常常需要使用中文分詞工具對漢語語料進行預處理。

中文分詞的方法較多, 最早有一些基于最大匹配或者基于詞典的方法 , 隨后出現了基于層次隱馬爾可夫的中文分詞方法[2]。最近,許多state-of-the-art 機器學習算法被廣泛應用在自然語言處理領域,比如最大熵,支持向量機,條件隨機域等?;谶@些機器學習算法,研究者提出了相應的中文分詞方法[3-5]。除了眾多的中文分詞方法,中文分詞還使用了幾種不同的中文分詞標準,比如CTB,PKU,MSR等等。這些標準定義了不同的分詞原則,這使得同樣的中文語料在使用不同標準的分詞工具處理后分詞結果也有較大的差別。例如,圖1給出一個簡單句對的兩個分詞結果和相應的詞對齊結果。

圖2 復雜句對的分詞結果和詞對齊

無疑這兩種分詞結果都是正確的,但是某些情況下我們更希望是第一個分詞結果。因為,在這種情況下我們能夠從句對中獲得詞對齊信息“煎—Fried”。再給出一個對中文分詞來說更加難以面面俱到的例子。我們的目標是翻譯“能把腰部弄短嗎?”,當翻譯結果是“Can you shorten the waist ?”,圖2(a)中的分詞和對齊結果沒有問題。但是,如果翻譯結果是“Can you make the waist a little shorter?”, 我們更傾向于使用圖2(b)中的中文分詞結果。我們認為基于不同方法和分詞標準的中文分詞工具產生的結果盡管不同,但是在特定的上下文和語義中他們都可能是正確而有用的。

這些通用中文分詞方法并不是為統計機器翻譯量身定做的,他們的分詞結果對統計機器翻譯而言也就不可能是優化的。近些年許多研究者對中文分詞在統計機器翻譯中的影響進行了廣泛而深入的研究。文獻[1,6]將中文分詞集成到統計機器翻譯系統的模型訓練和解碼過程中,Chang[7]等的研究表明分詞的一致性和分詞的粒度對統計機器翻譯是重要的, 并且提出了一種直接針對統計機器翻譯對分詞的粒度進行優化的方法。Zhang等[8]進行了比較綜合的研究。 在文獻[8]中, 作者對中文分詞和統計機器翻譯的關系進行了細致的分析, 包括分詞標準、未登錄詞、切分錯誤等對SMT的影響。

在文獻[1,6]和文獻[7]中,作者的主要目的是針對統計機器翻譯來優化中文分詞方法??偟膩碚f,他們要找到單一的一種中文分詞方法,從而盡可能使分詞結果適合統計機器翻譯。但是從我們的觀點考慮,我們可以利用基于不同分詞方法和不同分詞標準的分詞工具的結果,從中獲得對統計機器翻譯而言有用的信息。我們研究的出發點與文獻[8]中融合多個不同分詞結果訓練的模型是一致的。通過進一步研究,我們給出了更一般的結論。

2 層次短語翻譯模型

從Brown等人提出統計機器翻譯方法[9],統計機器翻譯已經逐漸成為機器翻譯的主流技術。多年來,基于短語的統計機器翻譯[10]、log-linear模型[11]、最小錯誤率訓練[12]等較大地提高了統計機器翻譯系統的性能,基于句法的統計機器翻譯也逐漸發展起來。

本文使用的統計機器翻譯系統是新近興起的一種基于句法的統計機器翻譯系統[13]——層次短語翻譯模型,該模型建立在上下文無關文法的基礎之上。給定源語言句子f和一個同步上下文無關文法,則存在有多種推導得到源語言端的f,因此也就對應著會有多種可能的翻譯結果e。在log-linear模型框架下,可以對每種推導如下建模:

(1)

(2)

式中f(D)是推導D對應的源語言句子,e(D)是推導D對應的目標語言句子。

在我們的系統中,我們使用了7個特征,短語翻譯概率, 反向短語翻譯概率, 詞匯化權重, 反向詞匯化權重,詞匯懲罰,規則懲罰,Glue規則懲罰和目標語言語言模型。這些特征的權重通過最小錯誤率訓練進行優化[12]。

3 多分詞結果融合

3.1 三個中文分詞工具

HIT中文分詞系統[14]的基本方法是基于詞典的。為了獲得更高的分詞精度,HIT 中文分詞系統在全切分的基礎上加入了多步處理策略。ICTCLAS[3]是基于層次隱馬爾可夫模型的中文詞匯分析系統。ICTCLAS可以同時提供中文分詞,詞性標注,中文命名實體識別。Stanford Chinese Word Segmenter[7]是基于條件隨機域模型的中文分詞系統。模型除了使用字符、字形、字符復現等特征外,還加入了詞匯化特征。

3.2 翻譯模型特征插值

我們將不同分詞結果對應的訓練語料看成訓練數據的幾個部分,然后對應每個部分訓練一個模型,最后根據目標調整各個模型的權重。通??梢酝ㄟ^兩種方式完成這樣的工作。

第一種方式是線性的,在實際應用中被廣泛采納,可以表示為:

p(x|h)=∑cλcpc(x|h)

(3)

式中p(x|h)是混合后的模型,pc(x|h)是從部分c上訓練的模型,λc是對應的權重。

第二種是log linear模型,可表示為:

(4)

式中ac可以通過全局優化得到。本文使用了與Zhang等[7]相同的方法, 采用線性的方式對多分詞結果進行融合,稱為翻譯模型線性插值。

翻譯模型的特征插值就是對相同類型的特征進行線性插值計算。使用前面提到的3個中文分詞工具對漢英平行語料中的中文部分進行分詞處理,由此得到對應的3個經過分詞的漢英平行語料。然后這3個平行語料分別用于訓練各自的層次短語翻譯模型。特征插值的計算可以描述如下:

λipi(x|h)

(5)

3.3 翻譯模型特征插值

在文獻[8]中, 特征融合被用于與特征插值進行比較。特征融合首先要定義一個主模型,除主模型外的其他模型被定義為輔助模型。然后,將在輔助模型中的翻譯條目加入到主模型中。與特征插值不同的是,只有那些在主模型中沒有的翻譯條目才從輔助模型中加入到主模型中,并且每個翻譯條目的各個特征值不變。文獻[8]中的實驗結果顯示特征插值要比特征融合性能更好,但是并沒有進一步深入研究這一原因。本文繼續使用文獻[8]中對特征融合的定義,我們的研究重點是如何利用多分詞結果提高統計機器翻譯性能。我們認為翻譯模型的特征融合是比翻譯模型的特征插值更有潛力的方法,因為這種方法基于一個明顯的事實:更多的信息會有效地擴大模型的空間,如果能夠有效地控制模型空間增長帶來的噪聲問題,那么翻譯模型的特征融合技術就有希望獲得較好的性能。我們在文章中只探討兩個模型的特征融合。

3.4 特征融合的策略

除去翻譯模型中的特征值,模型中的翻譯條目由兩部分組成源語言部分f和對應的目標語言部分e。我們將輔助模型分為4部分:

?f|||e,f是源語言部分,e是對應的目標語言部分。它們已經在主模型中成對出現。

此外,文獻[15]中提出將特征插值和特征融合的方法結合起來。實驗結果表明,將特征插值和特征融合結合并不能獲得更好的性能。

表1 特征融合的策略

4 實驗

4.1 系統

我們的實驗平臺是一個用C++實現的層次短語翻譯系統[13]。訓練過程中使用GIZA++獲得詞對齊,使用SRI Language Modeling Tookit[16]訓練modified-KN平滑的3-gram語言模型。

4.2 訓練集和測試集

我們在小規??谡Z漢英平行語料上進行了實驗。實驗的語料采用IWSLT2004的訓練集和測試集。實驗采用自動翻譯評價,使用了大小寫相關的BLEU-4自動翻譯評價指標[17]。 訓練集的英語部分用來訓練語言模型。為了優化系統的特征權重,使用最小錯誤率訓練來最大化系統在開發集上的BLEU得分。最后,系統將使用不同的模型在測試集上進行測試。訓練集和測試集的詳細信息見表2。

表2 IWSLT2004語料

4.3 實驗結果

實驗中,我們使用沒有加入任何模型優化方法的層次短語翻譯系統作為Baseline系統。在Baseline系統的實驗中,所有中文語料均使用HIT中文分詞系統進行分詞。表3給出了Baseline系統的實驗結果。表4給出了用Stanford和ICTCLAS分詞系統對所有中文語料進行分詞后系統的實驗結果。

表3 Baseline實驗結果

表4 Stanford和ICTCLAS實驗結果

我們對所有7個特征融合策略進行了兩組實驗。第一組實驗使用HIT中文分詞系統處理的訓練語料作為主模型的訓練語料,Stanford中文分詞系統處理的訓練語料作為輔助模型的訓練語料;第二組實驗使用HIT中文分詞系統處理的訓練語料作為主模型的訓練語料,ICTCLAS分詞系統處理的語料作為輔助模型的訓練語料。兩組實驗中的開發集和測試集均由HIT中文分詞系統進行分詞。表5給出了第一組實驗結果,表6給出了第二組實驗結果。

表5 HIT+Stanford實驗結果

表6 HIT+ICTCLAS實驗結果

最后,我們使用Paired Bootstrap Resampling[18]對系統性能差異的統計顯著性進行衡量。結果顯示,在p=0.05的條件下,HIT+Stanford組中的策略6和HIT+ICTCLAS組中的策略2對Baseline系統、特征差值策略、HPBT(Stanford)和HPBT(ICTCLAS)的BLEU分數提高都具有統計顯著性。

5 實驗結果分析

實驗結果顯示。相對于Baseline系統,兩組實驗分別獲得了1.76和1.89的BLEU分數增長。

我們觀察Baseline系統和使用特征融合方法的系統的輸出,發現特征融合在改進系統性能方面最為顯著的表現就是將Baseline系統無法翻譯的未登錄詞進行了正確的翻譯,而這些翻譯知識正是從輔助模型中獲得的。例如,Baseline中的翻譯結果“I can’t see 屏幕.”改進為“I can’t see screen very well.”“How 按摩 脊背?”改進為“Have massage 脊背?”“一共 is 八十七 dollars.”改進為“八十七 is all together dollars.”等。

前面這種類型的改進可以通過融合多分詞結果中合適的分詞結果獲得正確的詞對齊并產生原本存在于漢—英句對中的對應翻譯項。借助正確的詞對齊,我們可以獲得更準確的短語翻譯。這些通過融合多分詞結果獲得的新翻譯知識是十分有意義的。這種改進可以通過觀察系統輸出、分析訓練和解碼過程方便的認識到,但是我們猜測翻譯模型融合方法不會只通過這種方式改進系統性能,其他復雜、深入的原理還不能通過我們的實驗直觀地反映出來。

因為輔助模型的各個部分之間以及輔助模型的各個部分與主模型之間的相互影響復雜,對應不同中文分詞系統的組合,對于固定的訓練和測試語料,最優特征融合策略并不固定。因此,將這樣的方法應用到大規模語料的處理必須首先確定一個最優的策略。在沒有好的、確定的方法前,這樣的工作比較耗時。

6 結論與展望

本文提出的方法直接利用已有的中文分詞系統的分詞結果,采用多策略特征融合技術得到復合的翻譯模型,使用復合翻譯模型的統計機器翻譯系統性能得到了顯著的提高。

我們的方法使用了多策略翻譯模型融合,每個策略對應使用輔助模型的一部分信息。這些策略并不能都在測試集上得到性能的顯著提高,但是一些策略在實驗中表現出了對Baseline系統較明顯的性能優勢和對特征插值的優勢。實驗結果顯示統計機器翻譯中有效地利用多分詞結果能夠顯著的提高漢英統計機器翻譯系統的性能。同時,我們也認識到我們提出的方法在處理大規模統計機器翻譯時存在效率問題。在未來的工作中,我們將進一步研究在我們提出的方法中融合策略選擇的問題,并且進一步深入發掘來自不同分詞結果的各個模型的內部以及它們之間的作用機制,進一步減小噪聲在復合模型中的影響。希望更多的研究者能夠從中文分詞入手,解決中文分詞在統計機器翻譯中存在的問題,進一步提高與漢語相關的統計機器翻譯的性能。

[1] Jia Xu, Richard Zens, and Hermann Ney. Do we need Chinese word segmentation for statistical machine translation? [C]//ACL SIGHAN Workshop 2004, 2004:122-128.

[2] Hua-Ping Zhang, Hong-Kui Yu, De-Yi Xiong, and Qun Liu. HHmm-based chinese lexical analyzer ICTCLAS[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, 2003:184-187.

[3] Nianwen Xue and Libin Shen. Chinese word segmentation as LMR tagging[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, 2003:176-179.

[4] Taku Kudo and Yuji Matsumoto. Chunking with support vector machines[C]//Second meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies, 2001:1-8.

[5] Fuchun Peng, Fangfang Feng, and Andrew McCallum. Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of COLING 2004, 2004:562-568.

[6] Jia Xu, Evgeny Matusov, Richard Zens, and Hermann Ney. Integrated Chinese word segmentation in statistical machine translation [C]//Proceedings of IWSLT 2005, 2005:141-147.

[7] Pi-Chuan Chang, Michel Galley, and Christopher D. Manning. Optimizing Chinese word segmentation for machine translation performance[C]//Proceedings of the Third Workshop on Statistical Machine Translation, 2008:224-232.

[8] Ruiqiang Zhang, Keiji Yasuda, and Eiichiro Sumita. Chinese word segmentation and statistical machine translation [J]. ACM Trans. Speech Lang.Process, 2008, 5(2):1-19.

[9] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin. A statistical approach to machine translation [J]. Computational Linguistics, 1990,16(2):79-85.

[10] Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of the 2003 Conference ofthe North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003:48-54.

[11] Franz Josef Och and Hermann Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, 2002:295-302.

[12] Franz Josef Och. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, 2003:160-167.

[13] David Chiang. Hierarchical phrase-based translation [J]. Computational Linguistics, 2007, 33(2):201-228.

[14] 趙鐵軍,等.提高漢語自動分詞精度的多步處理策略[J]. 中文信息學報, 2001, 15(1): 13-18.

[15] Yongliang Ma, Tiejun Zhao. Improving Chinese to English SMT with multiple CWS results[C]//International Conference on Asian Language Processing 2009.

[16] Andreas Stolcke. Srilm - an extensible language modeling tookit[C]//Proceedings of the International Conference on Spoken Language Processing, 2002:901-904.

[17] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2001:311-318.

[18] Philipp Koehn. Statistical significance tests for machine translation evaluation[C]//Proceedings of EMNLP 2004, 2004:388-395.

猜你喜歡
分詞語料特征
根據方程特征選解法
離散型隨機變量的分布列與數字特征
基于歸一化點向互信息的低資源平行語料過濾方法*
分詞在英語教學中的妙用
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
不忠誠的四個特征
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
異種語料融合方法: 基于統計的中文詞法分析應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合