機器翻譯系統融合技術綜述

2010-07-18 03:12李茂西宗成慶

中文信息學報 2010年4期

李茂西,宗成慶

(中國科學院自動化研究所模式識別國家重點實驗室,北京100190)

(1)式中P(E|F)是源語言句子F翻譯成目標語言句子E的條件概率,當給定由多個翻譯系統產生的翻譯假設列表時,P(E|F)可以近似地由下式計算得到：

1 引言

在自然語言處理中,幾個相似的系統執行同一個任務時,可能有多個輸出結果,系統融合就是將這些結果進行融合,抽取其有用信息、歸納得到任務的最終輸出結果。系統融合技術已經成功地應用于語音識別、語義角色標注、雙語文本的詞對齊和詞義消岐等任務中。近幾年來,隨著越來越多機器翻譯方法的不斷涌現[1-2],系統融合技術逐漸地應用于機器翻譯領域中,并在各種評測活動中取得了較好的成績。

最早將系統融合技術應用到機器翻譯領域中的是R.Frederking和S.Nirenburg[3],1994年他們將三個不同的翻譯系統(包括基于知識的機器翻譯系統、基于實例的機器翻譯系統和詞轉換機器翻譯系統)的輸出結果采用圖表遍歷算法(Chart Walk A lgorithm)進行融合,然后對融合結果進行后編輯處理得到最終的系統譯文。但是由于當時缺乏有效的譯文質量自動評價工具,系統融合后的性能與參與融合的系統性能無法進行定量的可信度比較。2001年S.Bangalore,F.Bordel,和G.Riccardi將語音識別融合方法中的投票策略(ROVER)[4]引入到機器翻譯系統中[5],利用負對數投票特征和語言模型特征聯合計算最終的一致翻譯結果。在融合實驗中,他們對五個翻譯系統的翻譯結果采用多字符串對齊算法(Multiple String A lignment)構造詞格網絡,實驗結果表明,融合后的譯文質量不低于最好的單個翻譯系統。這引起了機器翻譯領域對系統融合技術的關注。隨后越來越多的機器翻譯方法的涌現和譯文質量自動評價方法的發展,促使機器翻譯領域中出現了較多的關于系統融合方法的研究。

在機器翻譯中進行系統融合可以有多種不同的方法,根據融合過程中操作的目標語言句子層次的不同,本文將其分為三類：

(1)句子級系統融合：針對同一個源語言句子,利用最小貝葉斯風險解碼或重打分方法進行比較多個系統的翻譯結果,將比較后最優的翻譯結果作為最終的一致翻譯結果(consensus translation)輸出。句子級系統融合方法不會產生新的翻譯假設,它只是在已有的翻譯假設里挑選出最好的一個,因此該方法不同于下面將要介紹的兩種融合方法。句子級系統融合方法也常用于詞匯級系統融合方法中選擇構建混淆網絡的對齊參考假設(或稱為對齊骨架)。

(2)短語級系統融合：它利用多系統的輸出結果,重新抽取與翻譯測試集相關度較高的短語表,并采用加權的方法對翻譯概率和詞匯化概率進行估計,利用新的短語表對測試集進行解碼。短語級系統融合方法的核心思想是重解碼(re-decoding)。

(3)詞匯級系統融合：借鑒語音識別中混淆網絡解碼的思想,詞匯級系統融合方法首先將多系統輸出的翻譯假設利用單語句對的詞對齊方法構建混淆網絡(或稱為詞轉換網絡),對混淆網絡中每一個位置的候選詞進行置信度估計,然后進行混淆網絡解碼。在解碼時通常使用的特征包括：詞的置信度得分、語言模型得分、長度懲罰和插入懲罰。

本文2、3、4節將分別詳細介紹這三種層次的系統融合方法。此外,由于詞匯級系統融合方法中構建混淆網絡的翻譯假設對齊方法是近年來系統融合的研究熱點,并且這方面的相關研究工作也比較多,本文將這部分獨立出來,在第5節進行詳細介紹。第6節給出近年來國內外對系統融合項目的測評。最后對各種系統融合方法進行了比較、總結和展望。

2 句子級系統融合技術

對于一個源語言句子,經過多個翻譯系統翻譯后產生多個翻譯假設(即一個翻譯假設的列表,N-best list),句子級系統融合方法就是從這個翻譯假設的列表中,利用貝葉斯風險解碼或重打分方法,從中選擇一個最優的翻譯假設作為最后的一致翻譯假設。句子級系統融合的主要技術有兩種,分別為：最小貝葉斯風險解碼(M inimum Bayes-Risk decoding,MBR)[6]和通用線性模型(Generalized Linear M odel,GLM)[7]。下面分別予以介紹。

2.1 最小貝葉斯風險解碼

給定一個源語言句子,最小貝葉斯風險解碼是從多個翻譯系統產生的翻譯假設列表中選出貝葉斯期望風險最低的一個翻譯假設作為最終譯文。

(1)式中P(E|F)是源語言句子F翻譯成目標語言句子E的條件概率,當給定由多個翻譯系統產生的翻譯假設列表時,P(E|F)可以近似地由下式計算得到：

(2)式中P(E,F)是源語言句子F和翻譯假設E的聯合概率分布,當參與融合的翻譯系統都是統計機器翻譯系統時,它可以根據翻譯系統對翻譯假設的總打分近似獲得。當P(E,F)不可獲取時,可以假設條件概率P(E|F)服從平均分布。

(1)式中的L(E,E′)是損失函數,當使用譯文質量自動評價指標BLEU得分[8]計算最小貝葉斯風險時,它可以表示為：

(3)式中 BLEU(E,E′)是句子級的BLEU得分,與語料庫級的BLEU得分的主要區別在于,為了防止對數運算時,n元語法為0導致數據溢出,它在計算n元語法時需要進行加1或折半平滑。其他通常使用的損失函數包括基于詞錯誤率(Word Error Rate,WER)或翻譯編輯率 (Translation Edit Rate,TER)[9]。

2.2 通用線性模型

通用線性模型融合方法利用重打分策略,對參與融合的每一個翻譯假設進行句子置信度估計,將句子置信度的對數和高階的語言模型及句子長度懲罰進行線性加權聯合求取最終譯文。計算公式如下：

(4)式中Pj是句子置信度,它可以根據相關翻譯假設的排名信息和相關翻譯系統給出的得分進行估計。ν、μ分別是五元語言模型L5grj和句子長度懲罰W j的權重,它們的值可以在開發集上進行優化調整。

在通用線性模型方法中,由于對翻譯假設的句子置信度P j的估計非常復雜,引入可調的參數較多,公式的主觀性太強,且融合效果不如最小貝葉斯風險解碼,近幾年來沒有太大的發展。

3 短語級系統融合技術

短語級系統融合方法首先合并參與融合的所有系統的短語表,從中抽取一個新的源語言到目標語言的短語表,然后使用新的短語表和語言模型去重新解碼源語言句子。當無法獲取參與融合的系統的短語表時,可以通過收集測試集或開發集的源語言句子和每個系統翻譯后提供的相應N-best列表,產生源語言到目標語言的雙語句對,最后使用GIZA++[10]工具包生成新的短語表。

3.1 短語表的合并

給定一個測試集,當參與融合的每個系統的短語表都可以獲取時,一般可以使用M oses解碼器[11]自帶的工具包對短語表進行過濾,得到針對特定測試集的過濾后的新短語表。這樣產生的小短語表只有原來短語表的10%到30%。在收集每個系統過濾后的短語表之后,使用公式(5)對短語的翻譯概率進行線性加權以更新短語表：

式(5)中N s表示參與融合的系統個數,λi是第i個系統對應的權重(1≤i≤Ns),pi(e|f)是第i個系統的翻譯概率。同樣,短語的反向翻譯概率和兩個詞匯化權重的計算方法可以依此類推。

當參與融合的系統的短語表不能直接獲取時,需要重新計算該系統的短語表,一般的做法是：將每一個源語言句子和相應的翻譯系統生成的 N-best列表組成新的N個雙語文本句對,收集測試集的所有源語言句子的N個雙語句對,形成一個針對特定測試集的語料庫,然后使用這個語料庫進行GIZA++詞對齊,即可得到該融合系統的短語表。使用式(5)的方法可以合并多個系統的短語表得到更新后的短語表。有時為了使排名靠前的翻譯假設比排名靠后的翻譯假設在短語表的構造時獲得更大的權重,可以在語料庫構建時,復制多個該翻譯假設和源語言句子的雙語句對,以增大該翻譯假設所產生的短語詞條的權重。通常的做法是：將1-best復制N+1次,2-best復制 N次,...,N-best出現1次。

文獻[12]測試了短語級系統融合方法對翻譯性能提高的上限,通過在短語表中剪除測試集的參考譯文中未出現的短語詞條,融合后的譯文質量比最好的單個系統提高了接近10個BLEU點。這表明短語級系統融合方法在改善翻譯質量上具有很大的潛力。

3.2 一種變形的短語級系統融合

B.M ellebeek等于2006年提出了一種采用迭代算法進行句子分解的方法來實現短語級系統融合[13]。該方法首先對源語言句子進行句法分析,將源語言句子逐步分解成幾個語法功能獨立的塊,然后找出每一塊的中心詞,最后使用幾個翻譯系統進行翻譯,翻譯完成后即進行融合。每個翻譯系統每次翻譯的單位是句子中獨立的塊,系統融合就在這些塊的多個輸出翻譯假設上進行。這種方法在選擇源語言短語塊的最終譯文時,依次使用了以下三個啟發式特征：

(1)投票特征：通過少數服從多數的方式選出源短語塊的翻譯。

(2)語言模型特征：如果投票特征不能決出優勝的短語翻譯,那就選擇在得票數最多的幾個翻譯假設中使語言模型得分最高的那個翻譯假設。

(3)如果經過以上兩個步驟都不能選擇最終的短語塊譯文,那就選擇置信度最高的系統輸出的短語翻譯假設作為最終翻譯。

4 詞匯級系統融合技術

詞匯級系統融合技術利用翻譯假設中詞頻信息進行系統融合。詞匯級系統融合首先從參與融合的翻譯假設中選擇一個對齊參考,將其他的翻譯假設對齊到該對齊參考上,通過翻譯假設間的單語句對的詞對齊信息建立混淆網絡(Confusion network),然后對混淆網絡中每兩個節點間弧線上的候選詞進行置信度估計,最后將候選詞的置信度結合語言模型、長度懲罰、插入懲罰等特征進行混淆網絡解碼,選擇通過最優路徑的翻譯假設作為融合后的譯文輸出。

4.1 構建混淆網絡

在構建混淆網絡時,首先需要選擇一個翻譯假設作為對齊參考假設(alignment reference,有些文獻中稱它為對齊骨架,skeleton,backbone)。對齊參考假設的選擇非常重要,因為它決定了融合后產生譯文的詞序。通常我們使用2.1節中介紹的最小貝葉斯風險解碼方法選擇對齊參考假設。選擇好對齊參考假設后,需要將其他參與融合的翻譯假設對齊到該對齊參考假設上。不同于雙語文本的詞對齊,在詞匯級系統融合中進行詞對齊時,參與融合的翻譯假設都是使用同一種語言,并且翻譯假設中還可能存在語法錯誤,語序不一致,出現大量同義詞和同源詞等等現象,這使得在翻譯假設之間建立詞對齊并不容易,這也是目前詞匯級系統融合方法中備受關注的問題,我們將在本文第5節單獨論述這方面的問題。在建立翻譯假設詞對齊后,詞對齊關系中可能存在對空(null)的情況,這在混淆網絡中用ε符號表示。舉例如下,當給定以下三個翻譯假設時：

p lease show me on thismap.p lease on themap forme.show meon themap,please.

假定選擇第一個翻譯假設作為對齊參考,并使用基于詞調序的單語句對的詞對齊方法[14]進行翻譯假設的對齊。對齊后,翻譯假設之間的詞對齊關系為：

null p lease show me on this map .null p lease for me on the map ., p lease show me on the map .

最終形成的混淆網絡,見圖1。

圖1 混淆網絡實例

在混淆網絡中,每兩個節點之間的弧線上的詞表示它們是最后融合結果中在相應位置的候選詞。詞的置信度(詞對應的括號中的分值)是在相應位置的候選詞中經合并后歸一化的分值,例如在0-1節點間的弧線上出現了兩個“null”(混淆網絡中用ε符號表示)和一個“,”,則在該位置的候選詞“null”和“,”對應的置信度分別為2/3,1/3,取近似值則為0.66和0.33。

混淆網絡解碼通常是搜索一條從起始節點到終結節點之間的最優路徑,然后把通過最優路徑上的候選詞連接起來組合成最終的融合譯文。當只使用詞的置信度特征選擇融合結果時,通過圖1的混淆網絡的最優譯文是“p lease show me on them ap.”。

在混淆網絡解碼時,參考對齊的選擇影響到最終融合后輸出譯文的詞序,因此十分重要。但是,選用貝葉斯風險最小的翻譯假設作為對齊參考假設時,并沒有考慮到同一個源語言句子可以翻譯成多個合理的不同詞序的目標語言句子,并且先驗概率較大的翻譯假設比較小的翻譯假設的詞序合理的可能性大,為了解決這個問題,Rosti等提出了一種多混淆網絡[15]方法,它輪流將每一個參與融合的系統的1-best作為對齊參考假設,并構建相應的混淆網絡,將這些單個混淆網絡連接在一起時,它們就形成了一個多混淆網絡,圖2給出了一個帶先驗概率的多混淆網絡[7]。每個混淆網絡起點都連接到一個空詞(null,圖中表示為ε)所對的弧,空詞后的概率是相應的混淆網絡的對齊參考假設所在系統的先驗概率,終點也連接到一個空詞所對的弧,空詞后括號的分值是1,1取對數后為0,所以該弧線只起連接作用。在多混淆網絡解碼時,一般把起始弧線空詞后所對應的分值同后面的特征值相乘,以保證先驗概率大的翻譯假設的詞序有更大的概率成為融合后譯文的詞序。

圖2 帶先驗概率的多混淆網絡解碼

4.2 解碼時常用的特征和特征權重的優化調整

單純使用詞的置信度進行混淆網絡解碼時,在融合后的譯文中容易插入一些冗余單詞。這些冗余的單詞破壞了原來翻譯假設中短語的連續性,打破了原來翻譯假設的詞序,從而導致融合后最終輸出的譯文不符合語法規則。為了解決這個問題,文獻[15-19]通過引入空詞插入懲罰因子和語言模型等方法來規范融合后產生的新的翻譯假設,同時為了平衡計算語言模型得分容易導致最終的譯文較短,所以,又引入了句子長度懲罰特征。在混淆網絡解碼中引入語言模型得分、插入懲罰因子和長度懲罰因子后,可以建立類似于機器翻譯中的對數線性模型。假設給定一個源語言的句子F,混淆網絡解碼就是求滿足下面式(6)中的目標語言句子E*：

其中α、β、γ、δ分別對應融合過程中產生翻譯假設的詞的置信度PAL、插入懲罰Nnulls(E)、語言模型得分PLM、長度懲罰Nwords(E)的權重。

對于混淆網絡節點i和i+1弧線上的候選詞中第j個候選詞的置信得分,由(7)式給出：

(7)式給出了在有Ns個系統,每個系統提供N個翻譯假設參與融合時,詞的置信度計算公式。其中λu是系統u對應的先驗概率,λv是詞所在翻譯假設的權重,一般采用均勻權重,但是有時為了給排名靠前的翻譯假設中的詞賦以更高的權重,也可以采用基于排名的權重(rank-based),即出自第v個翻譯假設中的每一個詞的概率都要乘上1/(1+v),cw是第u個系統第v個翻譯假設中的詞,如果在混淆網絡節點i和i+1之間的弧線上出現候選詞w i,j,則該值取1,否則取0。μ為歸一化因子,它保證在節點i和i+1之間出現的所有候選詞的總置信度為1。

在上面的混淆網絡解碼中有Ns個系統先驗概率,4個特征權重需要調整,一般采用改進的Powell參數調整算法[20]進行調整。該算法把需要調整的每個特征的權重看成是N維向量空間中的向量,在每一輪迭代中,使用一個基于網格(grid-based)的線性最小化算法優化每一維向量,并產生新的向量來加速優化過程。同樣的算法也可以應用到機器翻譯中對數線性模型的特征權重的調整(即最小錯誤率訓練)[21],但是在混淆網絡解碼時,需要同時調整特征的權重和系統的先驗概率,所以它同最小錯誤率訓練算法并不完全相同。

圖3給出了多混淆網絡解碼的流程圖,多混淆網絡解碼時參數的調整是在給定的開發集上進行的,在參數調整的每一輪循環中,都要執行圖3的流程,直到每一個權重和先驗概率的變化小于規定的閾值。

圖3 多混淆網絡解碼流程

4.3 一種變形的詞匯級系統融合方法

在4.1節中提到,詞匯級系統融合后輸出的譯文中較易插入一些冗余詞,破壞了短語的連續性。K.C.Sim等2007年提出了一種變形的詞匯級系統融合方法[22],他將這種方法稱為一致網絡最小貝葉斯風險解碼(Consensus Netw ork M BR,Con-MBR),該方法不同于上文介紹的通過引入語言模型、插入懲罰等特征來解決這個問題,ConMBR方法把參與融合的每個系統的1-best翻譯假設同詞匯級系統融合后輸出的譯文進行比較,選取其中與融合產生的譯文的貝葉斯風險最小的1-best,并用這個翻譯假設作為最終的輸出譯文。ConMBR方法在混淆網絡解碼時并沒有使用語言模型、插入懲罰、長度懲罰等特征,它只使用了詞的置信度特征。這種詞匯級系統融合方法并沒有產生新的翻譯假設,它只是從原來參與融合的多個系統的1-best中選出一個最優的翻譯假設。ConMBR方法用數學公式表示為：

5 構建混淆網絡的詞對齊技術

在機器翻譯領域中,利用混淆網絡解碼進行系統融合的思想來源于語音識別領域。在語音識別中,多個系統對口語句子的識別結果通過詞錯誤率準則產生詞對齊,利用詞對齊信息構建混淆網絡,解碼后輸出一致的語音識別文本[4]。不同于語音識別領域中識別文本之間的詞對齊,機器翻譯的系統融合在進行翻譯假設的對齊時,不同的翻譯假設之間存在著詞序不一致、同義詞、同根詞、同源詞等等難以處理的情況。而且,它也不同于統計機器翻譯中在大量訓練語料上的雙語詞對齊,系統融合中在翻譯假設之間進行詞對齊時,缺乏足夠的語料。因此,機器翻譯的系統融合中,翻譯假設之間的單語句對的詞對齊是目前詞匯級系統融合研究的一個難點,也是目前研究的一個熱點。

本文根據詞對齊工作方式的不同,將它們分為基于編輯距離的詞對齊、基于語料庫的詞對齊和基于語言學知識的詞對齊。

5.1 基于編輯距離的單語句對的詞對齊

基于編輯距離的單語句對的詞對齊是計算將一個字符串(句子)轉換成另一個字符串(另一個句子)所需的最少編輯次數時,附加產生的一種單語句對的詞對齊。在字符串轉換時,編輯的單元是單詞。

基于詞錯誤率準則(Word Error Rate,WER)的詞對齊：字符串轉換時允許的編輯操作包括單詞的插入(Ins)、刪除(D el)、替換(Sub)。詞錯誤率的計算公式：

(9)式中E是需對齊的字符串,Er是目標字符串,Nr是目標字符串中所含的單詞數,Ins、Del和Sub分別是插入、刪除和替換操作的次數。

基于翻譯編輯率準則(Translation Edit Rate,TER)[9]的詞對齊：字符串轉換時允許的編輯操作包括單詞的插入(Ins)、刪除(Del)、替換(Sub)和語塊的移位(shif t)。翻譯編輯率的計算公式如下：

與(9)式相比,(10)中分子多了一個移位次數shif t。在計算翻譯編輯率的腳本程序Tercom中①http：//www.cs.umd.edu/ ～ snover/tercom/,一般采用動態規劃算法計算單詞的插入、刪除、替換次數,而采用貪婪算法進行語塊的移位操作：通過反復試探,最終選擇一個需要最少的插入、刪除、替換編輯操作數的移位組合。因此,它不是全局最優搜索算法。針對翻譯編輯率準則產生的詞對齊所存在的問題,Li等提出了一種直接調序的單語句對的詞對齊方法[14]?；谠~調序的詞對齊方法(Word Reordering A lignment,WRA)首先找出待對齊的翻譯假設和參考對齊之間的所有公共的連續短語塊,然后對它們進行局部對齊,在局部對齊關系中尋找交叉的短語塊對齊,最后利用啟發式方法進行短語塊之間的調序。

舉例如下,給定以下兩個翻譯假設,當第二個翻譯假設選為對齊參考時：

this color do you think suitsme do you think that color suitsme

基于WER的詞對齊、基于TER的詞對齊和WRA詞對齊如表1,表2和表3所示。

表1 基于WER的詞對齊

表2 基于TER的詞對齊

表3 WRA詞對齊

5.2 基于語料庫單語句對的詞對齊

給定一個源語言句子,將參與融合的每個翻譯系統的翻譯結果組合起來,生成一個翻譯假設列表?；谡Z料庫的單語句對的詞對齊方法利用這些輸出的翻譯假設列表構建語料庫,然后在這種小型的語料庫上訓練單語句對的詞對齊關系。

E.Matusov等2006年提出了直接使用統計機器翻譯中雙語文本詞對齊工具包GIZA++進行單語句對的詞對齊訓練方法[23]。他的理論建模過程如下：

條件概率Pr(En|Em)是給定翻譯假設Em的情況下得到翻譯假設En的概率,它可以通過引入一個隱含的詞對齊關系A來計算：

將(11)式等號右邊的概率進行分解得到：

把(11)和(12)式中Em看成是IBM 模型中的源語言句子F,即可套用IBM模型使用EM算法來進行詞對齊訓練。

在實際的詞對齊訓練中,單語語料庫的構建方式如下：給定一個包含M個源語言句子的測試集,N s個參與融合的翻譯系統對每一個源語言句子提供N個翻譯假設,對應于測試集中的每一個源語言句子,將收集的Ns×N個翻譯假設按任意排列兩兩組合得到Ns×N×(Ns×N-1)個對齊的單語句對,匯總后得到的單語語料庫總共包含Ns×N×(Ns×N-1)×M對對齊句對。使用這種方式構建的語料庫由于Ns和N的值太小,容易導致數據稀疏,一般需要將開發集的數據也添加進訓練語料庫。

微軟的X.He等2008年針對單語文本的詞對齊與雙語文本的詞對齊的不同之處,提出了一種利用間接隱馬模型(Indirect HMM)獲取翻譯假設之間對齊的方法[18]。該方法把對齊骨架中的詞看成是隱馬模型的狀態,翻譯假設中的詞看成是隱馬模型的觀察序列,對齊骨架和翻譯假設之間的詞對齊關系當作隱藏變量,使用一階隱馬模型來估計給定對齊骨架時生成翻譯假設的條件概率：

在式(13)中,發射概率 p(e′j|eaj)利用對齊骨架中的詞和翻譯假設中的詞之間的相似度進行建模,又稱為相似模型(similarity model);而轉移概率p(aj|aj-1,I)對翻譯假設和對齊骨架的詞序重排序進行建模,又稱為位變模型(distortion model)。在計算時,相似概率是語義相似(semantic sim ilarity)和詞形相似(surface similarity)的線性插值。在雙語文本詞對齊時,源語言單詞和目標語言單詞只需考慮語義上的相似概率psem(ei f j);而單語文本詞對齊時,語義相似可以處理同義詞問題,而詞形相似則可以很好地處理同根詞、動詞時態、形容詞比較級等等使用G IZA++進行詞對齊訓練時很難處理的困難。位變概率計算主要取決于對齊的詞之間的跳轉距離,文章中把它們分成幾個經驗值來計算。在得到翻譯假設之間的對齊關系后,該方法采用一種啟發式對齊歸一化規則來處理對齊過程中產生的一對多和對空等不利于轉換成混淆網絡的特殊詞對齊情況。

杜金華等于2008年提出了一種融合語料庫和編輯距離的單語文本的詞對齊方法GIZA-TER[17]。它將翻譯假設按照上述 E.M atusov等使用的GIZA++方法,采用Grow-Diag-Final擴展規則[10]訓練短語的詞對齊。然后采用窮舉法搜索最小化詞錯誤率的一種短語移位組合。這種方法減少了短語被拆分的可能性,融合后的譯文對句子的局部連貫性破壞較小。

5.3 基于語言學知識的單語句對的詞對齊

基于編輯距離的單語句對的詞對齊方法在計算時僅僅依靠詞形的信息來獲取翻譯假設中詞之間的對齊關系,而對于同義詞、同源詞的對齊它僅僅依靠位置關系來判斷;基于語料庫的單語句對的詞對齊方法借鑒了雙語文本的詞對齊建模方法,通過建立相似模型來處理詞義相似的單詞之間的對齊關系。這兩種方法在翻譯假設對齊時沒有或很少考慮到使用語言學知識來進行翻譯假設的對齊。

N.F.Ayan等在2008年提出了一種單語句對的詞對齊方法。這種方法使用WordNet同義詞典來處理詞義相似的單詞：包括同義詞和不同詞性的同根詞。通過查詞典(WordNet)對參與對齊的兩個翻譯假設中出現的單詞詞條進行相互求交處理,來判斷它們是否為同義詞。值得注意的是,WordNet中只收錄了具有實體意義(open-class)的單詞,對于限定詞、小品詞等等它并沒有收錄。對于這個問題,N.F.Ayan等對這些詞分別創建了一個詞性等價類,詞性等價類中的詞可以認為是詞義相似的詞。

使用同義詞典的翻譯假設對齊步驟描述如下：(1)使用WordNet同義詞典抽取同義詞;

(2)利用同義詞信息對對齊參考假設進行擴展;

(3)修改 Tercom腳本程序來處理同義詞匹配。

值得注意的是,N.F.Ayan等在這篇文章中還提到過一種兩步法(two-pass)來構建混淆網絡的對齊策略,它和A.-V.I.Rosti等在同年提出的一種遞增的假設對齊(Incremental Hypothesis A lignment)方法[24]相似,兩種方法都是解決翻譯假設對齊時產生的同一個問題。下面對兩步法進行簡要的介紹。

通常我們在利用翻譯假設之間的詞對齊構建混淆網絡時,多個翻譯假設和對齊參考假設之間的對齊是獨立的,它們分別對齊到參考對齊上,這種情況導致翻譯假設中對空的詞之間不能很好地建立對齊關系。舉例如下,給定下面三個翻譯假設：

I like balloons I like big blue balloons I like b lue kites

當選擇第一個假設為對齊參考假設時,它們產生的兩兩對齊如下：

I like nu ll null balloons nu ll I like big blue balloons null I like nu ll null balloons nu ll I like null null blue kites

將“I like blue kites”對齊到參考對齊“I like balloons”時,它并沒有聯系到“I like big blue balloons”和“I like balloons”對齊中的“big b lue”這兩個對空的詞,這使得“I like blue kites”中的“blue kites”這兩個詞錯誤地對齊到對齊參考假設中的詞“balloons null”。兩步法在翻譯假設詞對齊時,首先將所有的翻譯假設對齊到對齊參考上,構建一個混淆網絡,然后使用這個混淆網絡創建一個新的對齊骨架(也可稱為對齊參考,主要是為了區分起見),在對齊骨架中每一個位置上的詞都是通過投票從該位置的候選詞中選出,再次將所有的翻譯假設對齊到更新后的對齊骨架上形成最終的混淆網絡。

另一種基于語言學知識的單語句對的詞對齊方法是使用基于句法知識：反向轉錄文法(Inversion T ransduction G rammar,ITG)[25]時產生的詞對齊[26]。這種翻譯假設對齊方法是計算invWER翻譯質量評價尺度[27]時產生的一種單語句對的詞對齊。invWER評價尺度是將一個字符串轉化成另一個字符串時最小的編輯次數,同翻譯質量評價尺度WER和TER的不同之處在于,這些編輯操作是反向轉錄文法容許的在句法樹節點上插入、刪除、替換和語塊的移動操作?；趇nvWER的翻譯假設對齊方法的計算復雜度比WER和TER高,但是,融合后輸出譯文的句法結構比使用翻譯編輯率產生的譯文合理。

5.4 單語句對的詞對齊質量對融合性能的影響

在統計機器翻譯中,雙語文本的詞對齊精度的少許提高并不能保證翻譯質量的提高[28]。在系統融合中,針對翻譯假設之間單語句對的詞對齊目前并不存在有效的評價指標,這導致單語句對的詞對齊質量和系統融合的性能之間缺乏定量關聯的尺度。用某種翻譯假設對齊方法進行系統融合,融合后譯文的質量優于使用另一種翻譯假設對齊方法,也只是存在于特定的測試集或開發集上。目前看來,判斷一種翻譯假設對齊方法絕對優于另一種方法還缺乏理論證據和經驗數據,這也是這幾種翻譯假設對齊方法共存的原因。

表4 三種單語句對的詞對齊方法對系統融合性能的影響

表4給出了使用三種不同的基于編輯距離的翻譯假設對齊方法對 2007年國際口語翻譯評測(IWSLT'07)的漢英測試集和2007年全國統計機器翻譯研討會(SSM T'07)漢英測試集的幾個系統翻譯結果進行融合的結果。Primary是最好的單個系統的BLEU得分。從融合結果上看,WRA方法在IWSLT'07漢英測試集(IWSLT07CE)上獲得了最好的得分,但是在 SSM T'07漢英測試集(SSM T07CE)上融合的得分卻最低,并低于參與融合的最好單個系統的性能?；赪 ER的翻譯假設對齊方法則恰恰相反,它在SSM T07CE任務上取得了最好的成績,卻在IWSLT07CE上取得了最差的成績。這可能是由于 WRA方法對于短句(IWSLT07CE測試集為口語領域)有較好的調序能力,而對于長句(SSM T07CE測試集為新聞領域),過多的調序反而破壞了原來翻譯假設的連續性,從而導致了融合性能的降低。

6 關于系統融合方法的評測

近幾年來,機器翻譯領域涌現出了越來越多基于不同方法的機器翻譯模型,如基于句法的統計機器翻譯模型、基于層次短語的統計機器翻譯模型等等。這些多樣化翻譯模型的出現使得我們可以容易地獲取多個翻譯系統的輸出譯文,這大大推進了機器翻譯系統融合的發展。針對系統融合的評測項目也逐漸出現在各種機器翻譯的評測活動[29]中。

我國第四屆全國機器翻譯研討會(CWM T'08)①http：//www.nlpr.ia.ac.cn/cwm t-2008/是最早開展系統融合評測項目的會議。它是在“機器翻譯”項目評測結果提交后,將所有參評單位的N-best結果發給“系統融合”參評單位;各系統融合參評單位在上述的多家機器翻譯系統輸出結果基礎上進行系統融合。這次系統融合評測采用的開發集是SSM T'07提供的語料。共有6家單位參與了系統融合評測項目,他們的BLEU值和 mWER得分如表5所示。

表5 CWMT'08系統融合評測結果

其中,Primary是最好的單個系統,Unit 1-6是參與系統融合項目的單位編號(數據來源于文獻[30])。

表6中Sam pling列表示短語表訓練時隨機抽取的雙語語料占總語料的比例。Primary是參與融合的最好的單個系統,Sentence-level,Phrase-level,Word-Level分別為句子級,短語級,詞匯級的融合系統性能(數據來源于文獻[28])。

表6 三種系統融合方案的性能比較

如表5所示,參評的6家單位中,只有3家在BLEU得分上比最好的單個系統有提高,2家參評單位在mWER得分上比最好的單個系統有所提高。這一方面是由于參加“機器翻譯”項目評測的單位提交的翻譯結果質量參差不齊,最好的系統(BLEU∶28.09,mWER∶68.24)比排名第二的系統(BLEU∶24.12,mWER∶70.58)高出近4個BLEU點。另一方面也說明系統融合的性能缺乏穩定性,還有很多可做的研究工作。

另一個開展系統融合項目評測的是N IST'09機器翻譯評測②http：//www.nist.gov/speech/tests/m t/2009/,這也是NIST評測第一次將系統融合作為一個單獨的項目進行評測。NIST'09系統融合項目是在各機器翻譯參評單位提交翻譯結果后進行的,它分為兩個任務：阿拉伯語—英語和烏爾都語—英語。對于每一個系統融合任務,它將機器翻譯的測試集分成兩部分,接近30%機器翻譯的測試集數據用來做系統融合的開發集,系統融合的開發集對每一個源語言句子提供4個參考譯文用于系統融合的參數調整,接近70%機器翻譯的測試集數據作為系統融合的測試集,以比較各系統融合參評單位的融合性能。

7 比較、總結和展望

7.1 三種融合方法的比較

在機器翻譯系統融合中,一般情況下,最優的輸出譯文不同于原始輸入譯文中的任何一個。

根據前面的介紹,句子級系統融合方法利用參與融合的翻譯假設的句子級別的知識,通過對翻譯假設進行互相比較,或者利用一些反映翻譯性能的本質特征對翻譯假設進行重打分,從中選擇一個最優的翻譯假設。由于該方法并沒有生成新的翻譯假設,所以它能有效地保護原來翻譯假設中短語的連續性和句子的詞序。但是,它融合后輸出的譯文并沒有吸收借鑒其他翻譯假設中詞或短語層次的知識,它只是從句子層面對翻譯假設進行橫向比較,因此它對融合性能的提高不如其他兩種融合方法高。詞匯級系統融合方法將翻譯假設進行對齊,把參與融合的所有翻譯假設的信息轉化成詞匯層面的知識,然后通過混淆網絡解碼將零散的詞匯重新組織成完整的輸出譯文。這種融合方法從詞的層次重組了輸出譯文,因此它能充分利用各個翻譯假設的詞匯級別的知識,取長補短。但是混淆網絡解碼在生成新的翻譯假設時,并不能保證新生成的翻譯假設和參與融合的翻譯假設的詞序的一致性以及短語連貫性,因此,可能出現盡管最終的融合輸出譯文的自動打分較高,但是不符合語法的情況。短語級系統融合方法借鑒其他翻譯系統的短語表知識,利用傳統的基于短語的翻譯引擎來重新解碼源語言的句子。它能有效地保持短語的連續性和譯文的局部詞序。但是目前來看它不能很好地利用非連續短語和句法結構知識來克服譯文的遠距離調序問題。因此,短語級系統融合方法的性能介于前兩者之間。

在實際融合性能上,W.M acherey等2007年對這三種融合方法進行了一個經驗性的比較[31],他們通過對訓練數據進行不同比例的抽樣來觀察參與融合的翻譯系統的輸出結果的相關度和最終融合譯文質量的關系。在實驗中,抽樣尺寸分別為5%,10%,20%,40%,80%,100%,抽樣尺寸越小的翻譯系統之間的相關度越小,每一種抽樣尺寸抽出10組樣本,用這10組樣本單獨進行詞對齊訓練,衍生出10個翻譯系統,將這10個翻譯系統的輸出結果進行融合。融合結果如表6。實驗結果顯示,相關度較小的翻譯系統之間進行融合,三種融合方法的性能：詞匯級系統融合>短語級系統融合>句子級系統融合,而當參與融合的翻譯系統之間相關性較強時,三種融合方法的性能相當。該文給出的建議是,在進行系統融合時,盡量選用相關度較小的幾個翻譯系統進行融合,這樣融合后的譯文能獲得較大的性能提升。

7.2 總結

本文對機器翻譯系統融合方法進行了全面的綜述和分析,介紹了三個層次的系統融合方法：句子級系統融合方法、短語級系統融合方法和詞匯級系統融合方法,闡述了這三種融合方法各自的代表性研究工作,并比較了它們的優缺點和性能。對于當今主流的詞匯級系統融合方法,本文分析了它的關鍵技術：單語句對的詞對齊方法,并將它們分為三類,介紹了它們之中典型的八種方法。本文同時也介紹了當前開展機器翻譯系統融合項目的評測活動,包括NIST'09機器翻譯評測活動。

在對這三種系統融合方法的分析比較中我們可以看出,融合后的譯文質量與參與融合的翻譯系統之間的相關性有關。影響翻譯系統的相關性的因素有很多,包括使用的模型差異,參數訓練方法的互異等等。為了獲得更好的翻譯性能,我們應該將幾個相關性較小的翻譯系統利用詞匯級系統融合方法進行融合。

在介紹詞匯級系統融合的關鍵技術：單語句對的詞對齊方法時,本文將三種基于編輯距離的單語句對的詞對齊技術對系統融合的性能影響進行了比較。實驗數據表明,這三種詞對齊方法在不同的測試集上,有不同的表現,但是沒有一種方法明顯優于另外一種方法。這可能是由于基于編輯距離的詞對齊僅僅考慮詞形完全一致時的情形,并沒有考慮同義詞、同根詞和同源詞的對齊?；谡Z料庫的詞對齊方法為詞形相似和詞義相似的詞建模,較好地解決了這個問題。而基于語言學知識的詞對齊引入了同義詞典或句法分析器來解決詞對齊問題。它們分別用不同的方式試圖獲取質量更高的單語句對的詞對齊。

目前,盡管機器翻譯中的系統融合方法已經在某種程度上證明了,它能有效地改善翻譯譯文的質量,但是對系統融合性能持懷疑態度的研究者依然很多。這主要是由于當前主流的詞級系統融合方法容易打破短語的連續性,插入一些對譯文可讀性破壞較大的詞或者引入一些較嚴重的語法錯誤,而自動評價譯文生成質量的BLEU值并不能很好的捕捉這些情況。BLEU值的少許提高并不真正意味著系統融合對機器翻譯質量的提高。

另一方面,系統融合方法的多樣化導致了融合質量的參差不齊,而且各種方法在所有語料上的性能并不一致。例如,詞匯級系統融合中各種單語句對的詞對齊方法就存在八種以上,另外,還存在各種分配系統先驗權重的方法、詞的置信度估計方法等等,對這些方法組合對比,工程量很大。因此,目前缺乏對系統融合中的各種方法做深入的研究和比較工作。

7.3 展望

機器翻譯模型的金字塔框架[32]把翻譯的發展過程分為基于詞、短語、句法、語義等幾個階段。套用這個發展模式,系統融合的發展目前還處于詞和短語階段：利用詞或短語在各翻譯假設中出現的頻度信息來進行詞或短語的置信度估計。我們認為,通過源語言或目標語言的句法或語義知識來深層次的指導融合,將能較好地克服系統融合中目前所困擾的譯文短語不連續或譯文不符合語法結構、融合性能不穩定等等難題,最終達到多種翻譯方法的水乳交融。

[1] 宗成慶.統計自然語言處理[M].北京：清華大學出版社,2008.

[2] 劉群.統計機器翻譯綜述[J].中文信息學報,2003,17(4)：1-12.

[3] R.Frederking,S.N irenburg.Three heads are better than one[C]//Proceedings of the fourth Con ference on Applied Natural Language Processing.1994：95-100.

[4] J.G.Fiscus.A post-p rocessing system to yield reduced w ord error rates：Recognizer outputvoting error reduction(ROVER)[C]//IEEE Workshop on Automatic Speech Recognition and Understanding.1997：347-354.

[5] S.Bangalore,F.Bordel,G.Riccardi.Computing consensus translation from mu ltiple machine translation systems[C]//IEEE Workshop on Automatic Speech Recognition and Understanding.ASRU'01,2001：351-354.

[6] S.Kumar,W.By rne.M inimum bayes-risk decoding for statistical machine translation[C]//Proc.HLTNAACL.Boston,M A,USA,2004：196-176.

[7] A.-V.I.Rosti,N.F.Ayan,B.Xiang,et al.Combining outputs f rom mu ltiplemachine translation systems[C]//Proceedings of NAACL H LT.Rochester,NY,2007：228-235.

[8] K.Papineni,S.Roukos,T.Ward,et al.BLEU：a method for automatic evaluation ofmachine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics(ACL 2002).Philadelphia,PA,2002：311-318.

[9] M.Snover,B.Dorr,R.Schwartz,et al.A study of translation edit rate with targeted human annotation[C]//Proceedings of the 7th Conference of the Association for M achine Translation in the Americas.Cambridge,2006：223-231.

[10] F.J.Och,H.Ney.A systematic comparison of various statistical alignmentmodels[J].Computational Linguistics.2003,29(1)：19-51.

[11] P.Koehn,H.Hoang,A.Birch,et al.M oses：Open Source Toolkit for Statistical Machine Translation[C]//Proceedings of the ACL 2007 Demo and Poster Sessions.Prague,2007：177-180.

[12] F.Huang,K.Papineni.H ierarchical system combination for machine translation[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computationa l Natural Language Learning.Prague,2007：277-286.

[13] B.Mellebeek,K.Ow czarzak,J.V.Genabith,et al.M ulti-enginemachine translation by recursive sentence decomposition[C]//Proceedings of the7th Conference of the Association for Machine Translation in the Americas.Cambridge,2006：110-118.

[14] M.Li,C.Zong.W ord reordering alignment for combination of statisticalmachine translation systems[C]//International Symposium on Chinese Spoken Language Processing(ISCSLP).Kunm ing,China,2008：273-276..

[15] A.-V.I.Rosti,S.Matsoukas,R.Schw artz.Improved W ord-Level System Combination for Machine T ranslation[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics.Prague,Czech Republic,2007：312-319.

[16] B.Chen,M.Zhang,A.Aw,et al.Regenerating hypotheses for statistical machine translation[C]//Proceedings of the 22nd International Conference on Computational Linguistics(Coling 2008),Manchester,2008：105-112.

[17] 杜金華,魏瑋,徐波.基于混淆網絡解碼的機器翻譯多系統融合[J].中文信息學報,2008,22(4)：48-54.

[18] X.He,M.Yang,J.Gao,et al.Indirect-HMM-based hypothesis alignment for combining outputs from machine translation systems[C]//Proceedings of the 2008 Con ference on Empirical Methods in Natural Language Processing.H onolu lu,2008：98-107.

[19] N.F.Ayan,J.Zheng,W.Wang.Improving alignments for better confusion networks for combining machine translation system s[C]//Proceedings of the 22nd Internationa l Conference on Computational Linguistics(Coling 2008).M anchester,2008：33-40.

[20] R.P.Brent.Algorithm s for m inim ization without derivatives[M].Prentice-H all,1973.

[21] F.J.Och.M inimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1.Sapporo,Japan,2003.

[22] K.C.Sim,W.J.By rne,M.J.F.Gales,et al.Consensus Netw ork Decoding for Statistical Machine T ranslation System Combination[C]//IEEE International Con ference on Acoustics,Speech and Signal Processing(ICASSP 2007).2007：105-108.

[23] E.Matusov,N.Ueffing,H.Ney.Computing consensus translation from mu ltiple machine translation systems using enhanced hypotheses alignment[C]//The 11th Con ference of the European Chap ter of the Association for Computational Linguistics(EACL-2006).Trento,Italy,2006：33-40.

[24] A.-V.I.Rosti,B.Zhang,S.Matsoukas,et al.Incremental hypothesis alignment for building confusion netw orksw ith application to machine translation system combination[C]//Proceedings o f the Third W orkshop on Statistical Machine Translation.Columbus,Ohio,USA,2008：183-186.

[25] D.Wu.Stochastic inversion transduc tion grammars and bilingual parsing of parallel corpora[J].Computational Linguistics.1997,23(3)：377-403.

[26] D.Karakos,J.Eisner,S.Khudanpur,et al.M achine Translation System Combination using ITG-based A lignments[C]//Proceedings of ACL-08：H LT,Short Papers(Com panion Volume).Columbus,Ohio,USA,2008：81-84.

[27] G.Leusch,N.Uef?ng,H.Ney.A novel string-tostring distancemeasure with app lications to machine translation evaluation[C]//Proceedings of MT Summ it IX.2003：33-40.

[28] K.Ganchev,J.V.Graca,B.Taskar.Better A lignments=Better Translations?[C]//Proceedings o f ACL-08：H LT.Columbus,Ohio,2008：986-993.

[29] 張劍,吳際,周明.機器翻譯評測的新進展[J].中文信息學報,2003,17(6)：1-8.

[30] 趙紅梅,謝軍,呂亞娟,等.第四屆全國機器翻譯研討會(CWMT'2008)評測報告[C]//機器翻譯研究進展(第四屆全國機器翻譯研討會論文集).北京,2008：2-32.

[31] W.M acherey,F.J.Och.An Em pirical Study on Computing Consensus Translations from Mu ltiple Machine Translation Systems[C]//Proceedings of the 2007 Joint Conference on Em piricalMethods in Natural Language Processing and Computational Natural Language Learning.Prague,2007：986-995.

[32] K.-Y.Su.To have linguistic tree structures in statisticalmachine translation?[C]//Natural Language Processing and Know ledge Engineering(IEEE NLPKE'05).Wuhan,China,2005.