?

面向神經機器翻譯的樞軸方法研究綜述

2022-08-19 08:20黎家全王麗清蔣曉敏徐永躍
計算機工程與應用 2022年16期
關鍵詞:源語言目標語言語料

黎家全,王麗清,李 鵬,蔣曉敏,徐永躍

1.云南大學 信息學院,昆明 650091

2.云南廣播電視臺,昆明 650500

近年來,神經機器翻譯(neural machine translation,NMT)發展迅速[1-4],已替代統計機器翻譯(statistical machine translation,SMT)成為機器翻譯領域的主流方法。但神經機器翻譯過度依賴于大量的平行訓練數據,在低資源語言的翻譯任務上,神經機器翻譯的性能會急劇下降[5-6]。因此,低資源神經機器翻譯(low-resource neural machine translation)一直是神經機器翻譯領域的一項重大挑戰[7]。

針對低資源機器翻譯的數據匱乏問題,基于樞軸的方法(pivot-based methods)為此提供了思路?;跇休S的方法曾經在SMT 中得以應用[8-11],目前也作為零資源NMT的一個強基線存在。它通過引入一種語料資源豐富的第三方語言作為樞軸,利用樞軸語言的平行語料來橋接源語言和目標語言[12],在一定程度上緩解了因數據匱乏帶來的機器翻譯質量差的問題。

最經典的樞軸策略也就是樞軸翻譯(pivot translation),是先從源語言翻譯到樞軸語言,再從樞軸語言翻譯到目標語言,最終得到目標語言的翻譯結果。雖然該方法簡單有效,但需要經過兩步翻譯,既造成了錯誤傳遞問題[13],又增倍了解碼時間。

因而,又有了將樞軸思想應用于擴充訓練數據的偽平行數據生成(pivot-based pseudo-parallel data generation),以及應用到模型訓練和構建中的遷移學習和多語言翻譯模型構建的方法。

根據樞軸思想在神經機器翻譯中的不同應用,本文從直接取得翻譯結果的樞軸翻譯、基于樞軸的偽平行數據生成和基于樞軸的模型構建三方面,通過對不同方法的概述、總結、比較和分析,歸納不同方法的優點、局限性和應用場景,并對未來可能的研究趨勢和關鍵技術問題進行展望,為相關研究提供參考。

1 樞軸翻譯

樞軸翻譯,也被稱為級聯方法(cascaded approach)[14]。如圖1所示,該方法使用一種語料豐富的語言作為中間橋梁,通過樞軸語言將源-樞軸和樞軸-目標翻譯模型連接起來。這樣,就可以借助于樞軸語言的平行語料間接地實現源語言到目標語言的翻譯,進而達到提高低資源語言翻譯質量的目的。

圖1 樞軸翻譯Fig.1 Pivot translation

樞軸翻譯從結構上,屬于間接方式,并沒有得到源和目標之間的直接翻譯模型,也因此導致錯誤傳遞問題。尤其是在樞軸語言的平行語料缺乏的情況下,錯誤傳遞問題會更加突出,此時樞軸翻譯的質量甚至比直接翻譯的更差[15]。同時,這種兩步翻譯的方式也增倍了解碼時間。針對這個問題,目前的主要解決方法可分為三種。

(1)減少源-樞軸的翻譯錯誤

一方面,通過增加源-樞軸一側的訓練數據[16-17],提高源-樞軸模型的翻譯質量。另一方面,還可以利用樞軸翻譯與模型結構無關的特點,將樞軸-目標模型擴展為多源NMT[18-20],盡可能地消除在源-樞軸翻譯中所帶來的翻譯歧義。但在上述兩種方法中,兩個翻譯模型仍然是分開訓練的,而且在訓練期間沒有任何關聯。

(2)增加源-樞軸與樞軸-目標兩個模型的關聯

為了進一步緩解錯誤傳遞問題,提出了對源-樞軸和樞軸-目標模型進行聯合優化的方法[21-23],以加強兩個翻譯模型在訓練期間的關聯。Cheng[22]通過共享樞軸語言的詞嵌入,聯合訓練兩個模型,使得兩個模型在訓練過程中相互促進。相對于傳統的樞軸翻譯方法,聯合訓練方法減少了錯誤累積,翻譯質量有所提升。Ren 等[23]在此基礎上,又提出了一種雙向的期望最大化(expectationmaximization,EM)算法,來直接訓練源-目標模型,并在四個翻譯方向上進行聯合的迭代訓練,進一步提高了質量。

(3)選擇相似度更高的樞軸語言

除了平行語料規模外,語言相似性也會影響樞軸翻譯的質量。一般而言,樞軸語言跟源語言和目標語言的語言相似性越高,對樞軸翻譯就越有利[24-25]。Leng 等[26]綜合平行語料規模和語言相似性兩個因素,設計了一種學習路由算法,該算法可以自動選擇一種或多種樞軸語言來進行多跳翻譯,有效地改善了無監督翻譯在遠程語言之間的翻譯質量。

總體來說,樞軸翻譯由于本質上依賴于所選樞軸語言與源和目標之間的語料數據、語言相似度,以及兩個模型本身的性能,其間接生成結果的方式是導致錯誤傳遞問題的根本原因。因此,提出了利用樞軸思想進行數據增強以及直接構建模型的方法。

2 基于樞軸的偽平行數據生成

基于樞軸的偽平行數據生成是以樞軸語言作為中間橋梁,生成源語言和目標語言之間的偽平行數據,用于數據增強。通過訓練數據的擴充,實現對翻譯系統進一步的改進。但不足在于偽平行數據的質量不能保證,當偽平行數據包含過多的數據噪聲時,反而會損害翻譯的質量。

從分類上,主要有利用平行語料和利用單語語料的生成方法。

2.1 基于平行語料的生成

按照生成方向的不同,利用樞軸語言的平行語料庫來生成偽平行數據可以分為:源端偽數據生成和目標端偽數據生成。源端偽數據生成是利用回譯方法(backtranslation)[27],將樞軸-目標平行語料的樞軸語言一側反向翻譯為源語言[28]。

目標端偽數據生成是將源-樞軸平行語料的樞軸語言一側正向翻譯為目標語言[29]。最后將翻譯結果與原有語料組合,進而形成源語言-目標語言的偽平行數據。利用平行語料的生成方法如圖2所示。

圖2 利用平行語料的生成方法Fig.2 Generation method based on parallel corpus

偽平行數據給低資源語言的機器翻譯帶來了一定程度的質量提升。文獻[30-31]將樞軸語言回譯到源語言,擴充了大量的偽平行語料,并與原有語料混合,提高了低資源語言對的翻譯質量。Park 等[32]生成源端和目標端的偽數據并混合,同時增強了編碼器和解碼器的能力,相比只生成源端或目標端偽數據的方法取得了更好的數據增強效果。

但利用平行語料的生成方法需要依賴一個翻譯模型,因此該翻譯模型的質量越高,生成的偽平行數據質量就越高,對源-目標翻譯模型的質量提升也就越大[33]。如果該翻譯模型的質量較低,生成的偽數據會包含過多的數據噪聲,以致損害最終翻譯系統的性能[34-35]。因此,選擇生成源端還是目標端的偽數據,主要根據生成偽平行數據的翻譯模型質量來選擇。

盡管利用平行語料的生成方法避免了錯誤傳遞問題,但受數據噪聲的影響,可能會取得比樞軸翻譯更差的翻譯性能。為了減弱數據噪聲對源-目標翻譯模型的影響,可以在數據生成階段進行優化。通過最大期望似然估計(maximum expected likelihood estimation)方法最大化合成源語言句子的期望[36],或者加強在單詞級別的數據生成[37-38],均可有效減少偽數據生成過程中產生的翻譯錯誤,比直接生成偽數據的方法及樞軸翻譯方法獲得更高的BLEU分數。

2.2 基于單語語料的生成

與基于平行語料的生成方法類似,基于單語語料的生成方法也有兩個生成方向,即分別基于反向和正向的樞軸翻譯方法,生成源端偽數據和目標端偽數據。除此之外,由于樞軸語言的單語語料在三種語言中往往是資源最豐富并且質量最高的,Currey等[39]還將樞軸語言分別翻譯到源語言和目標語言,生成了更多高質量的偽平行數據。

同樣是利用目標語言的單語語料,直接回譯的方法沒有足夠的源-目標平行語料訓練回譯模型,而經過樞軸語言間接回譯到源語言,則可利用樞軸語言的平行語料訓練兩個質量較高的回譯模型,得到比直接回譯更好的結果[40-41]。

一般而言,單語語料比平行語料更容易獲取,因此利用單語語料的生成方法可以擴充更多的偽平行數據,給翻譯模型帶來更大的增益[39,42]。然而,利用單語語料的生成方法需要依賴于兩個翻譯模型,只要存在一個模型的質量較低時,生成的偽平行數據就會存在大量的數據噪聲,反而導致結果質量更差[43]。

因此,無論是利用平行語料還是單語語料的生成方法,都對生成偽數據的翻譯模型質量有著較高的要求。相對于利用平行語料的生成方法,由于單語語料規模更大,利用單語語料可以生成更多的偽平行數據。但也因為利用單語語料的生成方法需要依賴于兩個翻譯模型,所以生成的偽平行數據質量也更差。

3 基于樞軸的模型構建

基于樞軸的模型構建(pivot-based model construction)是將樞軸思想與遷移學習或多語言神經機器翻譯等技術結合起來,直接對源-目標翻譯模型進行訓練,省去了生成偽平行數據的步驟,弱化了數據噪聲的影響,最終得到的是源-目標的翻譯模型。

基于樞軸的遷移學習和樞軸結合多語言神經機器翻譯方法均可利用源-樞軸和樞軸-目標翻譯模型的參數,將樞軸語言的翻譯知識遷移到源-目標的翻譯中。兩者的不同在于,前者采取遷移參數的方式,將兩個預訓練模型的參數遷移到最終的模型上并進行微調。后者則采取共享參數的方式,為所有的語言對聯合訓練一個通用的模型,省略了微調的步驟。

3.1 基于樞軸的遷移學習

在低資源語言翻譯中,遷移學習技術是將高資源語言對的模型參數遷移到低資源語言對上[44],使低資源語言對獲取到高資源語言對的翻譯知識。

與基于樞軸的方法類似,遷移學習也引入了一種第三方語言(稱為輔助語言)。但兩者的不同在于,遷移學習通常只利用源語言-輔助語言和輔助語言-目標語言平行語料庫中的一個[45-46],并沒有同時使用兩個平行語料庫來對源語言和目標語言進行橋接。

為了能同時利用源-樞軸和樞軸-目標平行語料,Kim等[47]將樞軸策略應用到遷移學習中,提出了基于樞軸的遷移學習方法,如圖3所示。該方法首先預訓練源-樞軸和樞軸-目標翻譯模型,然后直接將源語言編碼器和目標語言編碼器組合起來,最后經過微調得到最終模型。

圖3 基于樞軸的遷移學習方法Fig.3 Pivot-based transfer learning method

這種方法的優勢體現在:源-樞軸翻譯模型的編碼器和解碼器不是隨機初始化的,而是分別從兩個預訓練模型遷移過來,這為源-目標翻譯模型提供了一個良好的訓練起點,使編碼器和解碼器在微調之前就學習到了一些翻譯知識。因此,無論是低資源語言對還是高資源語言對,都能從樞軸語言的知識遷移中獲益,并取得比直接翻譯更高的翻譯質量[48-49]。Yu等[50]還研究了語言相關性對遷移學習的影響,結果表明樞軸語言與源語言或目標語言之間的相似性越高,對遷移學習也越有利。

然而,源-目標翻譯模型的編碼器和解碼器分別來自兩個不同的預訓練模型,這會導致編碼器和解碼器之間的輸入/輸出不一致,從而放大了預訓練模型與最終模型之間的差異。

為了減小差異,主要的改進思路是讓源語言和樞軸語言共享同一個編碼器,使得樞軸語言能更平滑地橋接預訓練的源語言編碼器和目標語言解碼器。一種方法是凍結源語言編碼器,并使用源語言和樞軸語言的聯合詞表,使得編碼器能有效地表示這兩種語言[47]。另一種方法是利用源-樞軸平行語料和源語言單語語料,通過跨語言預訓練技術,直接預訓練一個源語言和樞軸語言的通用編碼器[51]。結果表明,以上兩種方法均比圖3 的方法取得了更好的遷移效果。

3.2 樞軸語言結合多語言神經機器翻譯

多語言神經機器翻譯(multilingual neural machine translation,MNMT)是通過參數共享,在一個通用模型上實現多個語言對的翻譯[52-54]。在低資源語言翻譯中,由于缺乏可用的平行語料,MNMT中的源語言和目標語言采用了樞軸語言實現橋接。本文僅從MNMT的樞軸語言機制,以及如何更好地利用樞軸語言的角度進行分析。

MNMT 可以看作一個隱式的樞軸系統,因為在多語言翻譯模型訓練和翻譯的期間,樞軸語言都是不可見的。因此,這種利用樞軸語言的方式也被稱為隱式橋接(implicit bridging)[55]。隱式橋接通過共享編碼器、解碼器以及中間的注意力機制來實現[56-57]。這樣,受益于跨語言的知識遷移[58],低資源語言可以從高資源語言中學習翻譯知識,從而提高低資源語言對的翻譯質量。在樞軸語言選擇上,現有研究大多采用英語作為樞軸語言[59-60],使用以英語為中心的語料庫訓練多語言翻譯模型。

與傳統的樞軸翻譯方法相比,MNMT 可以直接實現未經訓練的語言對之間的翻譯,即零樣本翻譯,避免了錯誤傳遞和時間增倍的問題。但有研究表明,MNMT在零樣本翻譯場景下的性能不佳,而且通常落后于樞軸翻譯方法[61-62]。

為了提高MNMT 的零樣本翻譯質量,研究者們提出了一種多橋模型(mutil-bridge models)[63]。該模型加入了非英語語言對的平行語料訓練,利用多種樞軸語言的數據來改善低資源語言翻譯的質量。例如,Rios等[64]僅添加了少量的非英語平行語料,就使6個零樣本翻譯方向的BLEU 平均提高了3.1 個百分點。Fan 等[65]利用語言相似性對語言進行分組,在使用英語作為樞軸語言的同時,又在每個語言組中選取1~3種高資源語言來橋接組內之間的語言,提高了多個非英語低資源語言對的翻譯質量。

4 主要樞軸方法的對比分析

針對樞軸思想在神經機器翻譯領域的應用,表1從不同方法的機制、適用場景、優點、局限性等方面進行了分析和比較。

從表1中可以看出,樞軸翻譯和基于樞軸的偽平行數據生成都屬于間接建模的方法,這分別帶來了錯誤傳遞問題和數據噪聲問題。雖然樞軸翻譯方法簡單方便,但其兩步翻譯的過程既造成了錯誤傳遞問題,又增倍了解碼時間。

表1 主要樞軸方法對比Table 1 Comparison of pivot-based methods

基于樞軸的偽平行數據生成則利用偽平行數據訓練源-目標翻譯模型,避免了錯誤傳遞。但生成的偽平行數據質量不能保證,如果存在過多的數據噪聲,反而會對翻譯模型的質量產生負面影響。

基于樞軸的模型構建則通過利用源-樞軸與樞軸-目標翻譯模型的參數,直接對源-目標翻譯模型建模,在避免錯誤傳遞的同時,也弱化了數據噪聲的影響。但此類方法在零樣本翻譯場景下性能不佳,甚至比不過傳統的樞軸翻譯方法?;跇休S的遷移學習由于沒有可用的源-目標平行語料用于微調,使得遷移后的最終模型難以適應源-目標翻譯任務。樞軸結合多語言神經機器翻譯則共享所有語言的參數,因此可以從更多的語言中獲取知識,一定程度上提高了零樣本翻譯的性能。

盡管如此,樞軸結合多語言神經機器翻譯方法仍然成為了目前的研究熱點,并擁有著廣闊的研究前景。主要原因有:第一,能在單個通用模型上進行多個語言對之間的翻譯,因此被廣泛應用于谷歌翻譯等多語種翻譯引擎中;第二,可以有效利用多種語言的數據,進一步解決了平行語料匱乏的問題。

5 結束語

基于樞軸的方法為解決目前低資源語言的機器翻譯問題提供了思路,有效地緩解了訓練語料匱乏的問題,提高了低資源語言神經機器翻譯的質量。然而,基于樞軸的方法仍然存在一些問題和挑戰,需要未來進一步研究和探索。

(1)錯誤傳遞問題

樞軸翻譯在零樣本翻譯場景下仍然具有競爭力,但錯誤傳遞問題限制了其性能提升。因此,如何更好地減少錯誤傳遞來改善樞軸翻譯,仍有待進一步的研究。

(2)非真實數據建模

受限于生成偽平行數據的翻譯模型質量,基于樞軸生成的偽平行數據的質量不能得到保證,還可能面臨生成數量較少的問題。因此,考慮提升偽平行數據的質量,以及將基于樞軸的偽平行數據生成方法與其他數據增強方法結合使用,擴大偽平行數據的數量,是非常有意義的研究方向。

(3)源語言編碼器與目標語言解碼器不匹配問題

在基于樞軸的遷移學習中,由于源語言編碼器與目標語言解碼器來自兩個不同的預訓練模型,導致兩者在輸入/輸出方面的不一致性。研究樞軸語言與源語言或目標語言之間通用空間表示的可能性,或者研究選用相似性高的樞軸語言,為這個問題的研究提供了思路。

(4)樞軸語言語料匱乏

對于一些資源極度匱乏的低資源語言而言,與樞軸語言之間的平行語料也將變得難以獲取。因此,結合多語言NMT 利用多種樞軸語言的數據,或者考慮利用圖像和音譯等多模態數據作為樞軸[66-69],有待進一步研究和探索。

總之,未來如何將樞軸思想應用在更多渠道、更大規模、更高質量的數據生成和增強,以及基于模型的生成和泛化方面,仍有待學者們進一步地創新和研究,以期為低資源神經機器翻譯的研究提供更多的思路和參考。

猜你喜歡
源語言目標語言語料
基于歸一化點向互信息的低資源平行語料過濾方法*
中國大學生對越南語虛詞的誤用
林巍《知識與智慧》英譯分析
瀕危語言與漢語平行語料庫動態構建技術研究
淺析日語口譯譯員素質
教材插圖在英語課堂閱讀教學中的運用及實例探討
以口譯實例談雙語知識的必要性
從目的論角度看《紅高粱》中文化負載詞的翻譯
國內外語用學實證研究比較:語料類型與收集方法
多媒體英語學習法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合