?

融入翻譯記憶庫的法律領域神經機器翻譯方法*

2023-10-07 03:45曾文顥張勇丙余正濤
電子技術應用 2023年9期
關鍵詞:目標語言雙語檢索

曾文顥,張勇丙,余正濤,賴 華

(1.昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2.昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)

0 引言

近年來,隨著深度學習的發展,神經機器翻譯(NMT)在大量翻譯任務上取得了巨大成功[1],面向法律領域的機器翻譯也得到了領域內學者的大量關注。法律領域機器翻譯在法律條款、合同文本和涉外公證文書等實際場景中也具有重要的應用價值。

目前融入外部信息是提升特定領域機器翻譯的有效途徑[2-5]。相較于傳統的生成模型,引入外部信息可以讓模型獲得訓練數據中沒有的附加信息,降低文本生成的難度,減少對訓練數據的依賴?,F有的融入外部信息的方法主要分為三類:基于雙語詞典、基于翻譯記憶和基于翻譯模版。

基于雙語詞典的方法[6]用于解決低頻詞和術語翻譯等問題,利用雙語詞典作為外部資源輸入神經網絡結構。Arthur 等人[7]提出一種通過使用離散詞典來增強神經機器翻譯系統的方法,以解決低頻次翻譯錯誤問題,這些詞典可以有效地編碼這些低頻單詞的翻譯。

基于翻譯記憶的方法主要分為以匹配片段為單位融合和以匹配句子為單位融合這兩類方法,其中以句子為單位融合是現在的研究主流,通過融入翻譯記憶可以讓模型獲取到更多的語義信息。Cao 等人[8]使用門控機制來平衡翻譯記憶的影響。Gu 等人[9]和Xia 等人[10]使用輔助網絡對翻譯記憶庫進行編碼,然后將其集成到NMT 架構中。Bulte 和Tezcan 等人[11]及Xu 等人[12]利用數據擴充來訓練神經機器翻譯模型,該模型的訓練實例是通過翻譯記憶庫擴充的雙語句子。He 等人[2]針對現有的基于翻譯記憶的方法缺乏普適性的問題,提出了一種高效且準確的融合翻譯記憶的NMT 模型,它僅使用一個雙語句子作為其翻譯記憶。

基于翻譯模版的方法是通過利用翻譯模版蘊藏的句法結構信息約束譯文結構的生成,以提升翻譯模型性能。Kaji 等人[13]利用雙語詞典獲取雙語句子對的耦合單元,然后生成翻譯模板。Liu 等人[14]提出了一種樹到字符串算法,該算法利用單詞對齊信息來對齊源解析樹和目標序列,然后獲得翻譯模板。Shang 等人[15]通過使用帶有特殊符號的源端和目標端選區解析樹來屏蔽最大長度名詞短語從而構建翻譯模版庫。

盡管上述的方法提升了翻譯性能,但在翻譯法律領域文本時,翻譯效果還不理想,因為它們僅采用單一的融入策略。法律文本作為一種專業語言,具有用詞準確、規范、結構嚴謹的特點,其文本的權威性、精確性不僅體現在選詞、用詞上,同樣也體現在固定結構的使用上。如表達“禁止性”的程式化語言結構,中文的表達通常是“禁止”“不得”等,翻譯成英文通常使用“be prohibited”“be not allowed”等詞組,誤用短語、詞組會對立法文本的權威性、精確性產生影響。如圖1 所示,待翻譯的源句為表達“禁止性”的法律文本,正確的表達結構應為“shall be prohibited”,而翻譯模型翻譯為“is forbidden”。雖然融入翻譯記憶可以讓翻譯模型學習到更多的語義信息,但生成的譯文在句子結構上和法律語言正確的表述規范有一定差距。觀察到法律領域的文本大多具有固定的表達結構,通過構建翻譯模版并融入到翻譯模型中,利用翻譯模版蘊含的結構信息進一步約束譯文結構的生成,可以使模型生成的譯文更符合法律語言的表達規范。

圖1 融入翻譯記憶的神經機器翻譯示例

翻譯記憶庫通常由源語言-目標語言句對構建,由于法律領域公開的雙語對齊語料有限,若利用源語言-目標語言句對構建法律領域翻譯記憶庫,模型可利用的外部資源并不豐富。目前在低資源語言機器翻譯研究方面,單語語料是研究熱點之一,研究表明單語語料的利用對于翻譯性能的提升影響非常巨大。在法律領域,雖然公開的對齊語料有限,但互聯網上具有大量的單語數據,若僅用目標語言數據構建翻譯記憶庫,可以大幅擴充翻譯記憶庫規模。

基于上述分析,針對在資源受限的場景下,現有的翻譯模型在法律領域翻譯任務中性能欠佳的問題,本文提出了一種融入翻譯記憶庫的法律領域神經機器翻譯方法。為了驗證方法的有效性,本文在MHLAW 和UNDOC 數據集上進行了實驗,均取得好的翻譯效果,翻譯效果有所提升。本文的主要貢獻如下:

(1)提出了一種新的領域翻譯記憶庫,在原有的翻譯記憶庫基礎上,引入了具有法律特點的翻譯模版。

(2)僅使用單語領域數據構建翻譯記憶庫,在一定程度上緩解了因雙語語料稀缺限制翻譯記憶庫規模的問題。

1 翻譯記憶庫的法律領域神經機器翻譯方法

1.1 翻譯記憶

翻譯記憶最初來源于專業翻譯人員的翻譯歷史,它可以為翻譯的源句提供最相似的源-目標句對。在最近的研究中也證實翻譯記憶也可以用于改善神經機器翻譯的性能,因為神經網絡具有更好的擬合能力,能自動從句子中學習上下文知識。

在神經技巧翻譯中,如何根據源句從翻譯記憶庫中檢索最相似的翻譯記憶以及如何將檢索到的翻譯記憶更好地融入到模型中都是重要的研究內容。

1.2 翻譯模版構建

不同的法律規范在翻譯時存在差異,為了使用翻譯模版更加精確地指導模型翻譯,首先需要對法律文本進行分類。本文在構建的數據集中挑選出一部分具有代表性的法律文本,按照禁止性規范、義務性規范和授權性規范對文本進行人工標記分類,訓練分類模型,用于在后續訓練過程中預測輸入語句的類型。

翻譯模版是對一個句子的抽象概括。在法律翻譯任務中,最重要的是保留句子結構的完整性,動詞、副詞、連詞和介詞這些詞性的詞共同反映了整個句子的結構,所以在構建模版過程中需要對這些詞性的單元進行保留。

首先,使用詞性標注器對文本進行詞性分析,對文本中的每個詞語進行標注。然后對文本進行命名實體識別,識別出特殊詞匯(如機構團體、地名等),并將這些特殊詞匯使用標簽進行替換(例如“證券交易管理委員會”被標簽[ORGANIZATION]替換),其他普通名詞使用標簽進行遮蔽。最終構建的模版庫樣例如圖2所示。法律語句分類結果拼接在每個語句后,“FL”表示禁止性規范,“DL”表示義務性規范,“GL”表示授權性規范。

圖2 翻譯模版構建樣例

2 模型

本文所提出的模型總體框架如圖3 所示,包括檢索模塊和翻譯模塊兩個部分。

圖3 融入翻譯記憶庫的法律領域神經機器翻譯模型結構圖

本文引入翻譯模版對常規的翻譯記憶庫進行了拓展,因此構建的領域翻譯記憶庫包括翻譯記憶和翻譯模版。其中翻譯記憶DS 是目標語言句子的集合,翻譯模版DT 是目標語言翻譯模版的集合。給定源語言輸入X,得到X的句子模版Xtem,Xtem用于檢索相關的目標語言翻譯模版,檢索模型根據檢索函數在DS 和DT 中選擇一些相關的翻譯記憶{DSm}和翻譯模版{DTn}。然后,翻譯模型以檢索到的翻譯記憶,翻譯模版和源語言輸入X為條件,使用概率模型生成Y。為了激勵翻譯模型更多地關注相關性高的句子和模版,將相關性分數也輸入到模型中。

2.1 基于語義和結構相似性的檢索模型

檢索模型負責從翻譯記憶DS 和翻譯模版DT 中為源句X選擇最相關的句子和翻譯模版。使用一個簡單的三編碼器框架來實現檢索模型,將檢索與源句最相關的句子和模版簡化為最大內積搜索(MIPS),最后通過具有高性能的數據結構和搜索算法來完成檢索。

將源語言輸入X和候選句子DSm,X的模版Xtem和候選模版DTn的相關性分數分別定義為f(X,DSm)、f(Xtem,DTn):

其中,Esrc、Etgt_s和Etgt_t分別是將X、DSm和DTn映射到d維向量的源句編碼器,目標句子編碼器以及目標語言模版編碼器。

在實際過程中,為了提升在實際情況下模型運行效率,使用FAISS[16]對所有翻譯記憶和翻譯模版進行預先計算和索引。

研究表明,當翻譯記憶的候選數量大于1 時,模型翻譯效果最好。Gu 等人[9]和Xia 等人[10]將優化后的候選數量設置為5,Zhang 等人[17]中甚至將其設定為100。但是隨著候選數量的增加,模型翻譯速度下降明顯,因為計算復雜度與候選數量的大小線性相關?;谥暗难芯?,將翻譯記憶的候選數量設置為5。由于翻譯模版是用于約束句子結構,認為引入過多的翻譯模版會干擾譯文句子結構的生成,因此翻譯模版的候選數量設置為1,在后面的實驗會進行驗證。

2.2 引入語義和結構信息的翻譯模型

為了對檢索端提供的目標語言翻譯記憶和翻譯模版編碼,在標準的編碼器-解碼器框架上新增了記憶編碼器,用于編碼檢索模型檢索到的翻譯記憶{DSm}和翻譯模版{DTn},生成具有上下文信息的詞嵌入,其中Lm和Ln是DSm和DTn的token 序列長度。首先對翻譯記憶計算交叉注意力:

其中,αm,a是DSm中第a個token 的注意力分數,ct是翻譯記憶嵌入的加權組合。解碼器的隱狀態ht通過翻譯記憶嵌入的加權和來更新,ht=ht+ct。然后對翻譯模版計算交叉注意力:

最后解碼器的隱狀態更新為:ht=ht+ctt。其中φ、ω是控制相關性得分權重的可訓練標量,Wz、Wts、Wv和Wtt是可訓練的權重矩陣。

2.3 訓練策略

若直接初始化檢索模型,這會導致檢索到的翻譯記憶DSm和翻譯模版DTn與源句X的相關度非常低,以至于翻譯模型在訓練過程中習慣于直接忽略檢索到的信息。因此首先在句子層面和token 層面進行交叉對齊任務來預訓練檢索模型。

句子層面的交叉對齊任務是在給定一組其他翻譯的情況下為源句找到正確的翻譯。在訓練過程中,從訓練集中隨機抽取K對源-目標句對,M和N分別是由Esrc和Etgt_s編碼器編碼的源語言向量和目標語言向量的矩陣。R=MNT是關聯度分數的矩陣,每行對應一句源句,每列對應一句目標句。當i=j時,每個源-目標句對(Mi,Nj)都應對齊。句子層面的交叉對齊任務的目標是沿矩陣對角線的分數最大化,損失函數公式為:

Token 層面的交叉對齊任務是為了在給定源語言表示的情況下預測目標語言中的token,反之亦然。對應的損失函數為:

其中,Xi和Yi表示第i個源句或目標句中的一組token 集合,token 的概率通過線性投影和softmax 函數計算。翻譯模版也是采用同樣的方式進行,最后預訓練的聯合損失為。預訓練檢索模型相當于對檢索模型做了熱啟動工作,檢索模型能檢索到與源句相似性更高的翻譯記憶和翻譯模版,模型可以更好地學習如何捕獲翻譯記憶和翻譯模版的信息來指導解碼過程。

3 實驗與分析

3.1 數據集

由于公開的法律領域雙語數據有限,在進行實驗前,在Bilingual Laws Information System(香港雙語法例資料系統)和Westlaw China 網站上爬取了數據,在過濾篩選并結合人工校對后,獲得16 萬中英法律平行句對。為驗證本文方法的泛化性,還在聯合國正式文件系統上下載了文本數據,并隨機抽取了20 萬句對。中文句子不同于英語句子,句子中沒有明顯的詞語間隔,本文使用Jieba 分詞工具對中文語料進行分詞。

將預處理好的平行語料拆分為訓練集、驗證集和測試集。將法律領域數據集命名為MHLAW,聯合國正式文件系統下載的數據集命名為UNDOC。數據集劃分情況如表1 所示。

表1 數據集

3.2 實驗參數設置

檢索相似性分數最高的5 句翻譯記憶和1 句翻譯模版,批次處理大小為512,學習率為0.004,詞嵌入的維度為512,采用Adam[18]作為加快模型訓練速度的優化器,每組實驗訓練10 萬步。

3.3 基線模型

選 擇Transformer[19]、Xia 等人[10]和He 等人[2]所提出的模型作為對比實驗的基準模型,使用BLEU[20]來評測本文提出的法律領域機器翻譯模型的性能。以下是對3種模型的介紹:

(1)Transformer:原始的Transformer 模型,參數設 置和本文保持一致。

(2)Xia 等人(2019):將檢索的相關翻譯記憶構建成一張圖,在解碼端融入,且在訓練階段使用微調來調整模型的相關參數設置。

(3)He 等人(2021):在標準Transformer 基礎上,在編碼端使用詞對齊和相似度分數對檢索到的目標端翻譯記憶進行編碼,并在解碼端增加Example Layer 模塊融入翻譯記憶。

3.4 實驗結果分析

為驗證本文方法的有效性,本文分別在中-英、英-中兩個翻譯方向上使用MHLAW 數據集進行了實驗。為了便于直觀地觀察和對比,保證實驗結果的可靠性,每組實驗結果的BLEU 值都采用相同的測試集計算。結果如表2 所示。

表2 本文方法與其他基線模型對比結果

根據表2 的實驗結果可以看出,本文方法通過融入翻譯記憶和翻譯模版后BLEU 值有所提升,在中-英翻譯方向下,比3 個基線模型翻譯結果分別高出1.28、1.22 和1.10 個BLEU 值,在英-中翻譯方向下分別高出1.17、1.01 和0.96 個BLEU 值。本文方法優于其他基線模型的原因在于本文方法不僅使用跨語言檢索模型,相比于Xia 等人和He 等人使用的模糊匹配檢索方式,跨語言檢索模型與其下游翻譯模型做為一個可學習的整體,可以針對翻譯目標進行端到端的優化;而且還考慮到法律文本具有大量的固有結構,將翻譯模版也融入到模型中,相比于僅融入翻譯記憶的模型,本文的模型能進一步獲得翻譯模版所蘊藏的句子結構信息,并能很好地加以利用。因此證明本文方法對提升法律領域機器翻譯效果的有效性。

為進一步探索本文方法是否能學習其他特定領域的知識,本文在聯合國正式文件領域進行了實驗,以驗證本文方法在其他特定領域的翻譯效果。由于本文并未對UNDOC 數據集的文本進行類似法律領域的文本分類,因此構建翻譯模版的步驟與構建法律領域翻譯模版相比省略了文本分類環節,其他構建流程一致。實驗結果如表3 所示。

表3 使用UNDOC 數據集對比實驗結果

從實驗結果看,本文方法在中-英翻譯方向上較兩個基線模型分別提升1.08、0.95 和0.56 個BLEU 值,在英-中翻譯方向上比兩個基線模型提升0.33、0.29 和0.28 個BLEU 值。即使在法律領域以外的翻譯任務上,本文所提出的方法同樣能通過挖掘記憶模版庫中的句法結構信息以及語義信息,學習到特定領域的知識,指導模型翻譯出效果更好的譯文。

通過以上實驗可以看出,本文方法在MHLAW 和UNDOC 數據集上都較基線模型有所提升。由此也證明本文方法具有泛化性。

為測試使用不同雙語語料規模預訓練檢索模型以及翻譯記憶庫規模對模型性能的影響,將MHLAW 和UNDOC 數據集隨機切分為4 份相同規模的子數據集。實驗設計為:分別使用第一個子數據集和第二個子數據集的雙語數據預訓練檢索模型,在后續測試過程中使用其他子數據集的目標語言數據逐步擴充翻譯記憶庫。

實驗結果如表4 所示。隨著翻譯記憶庫數據的增加,模型的性能隨之提升,翻譯記憶庫的擴增讓模型接受到更多的外部信息。同時,在翻譯記憶庫規模相同的情況下,訓練檢索模型所使用的雙語語料數據越多,模型的翻譯效果越好,因為使用更大規模的語料訓練檢索模型,檢索模型能更好地學習如何檢索最匹配的目標語言信息。該實驗不僅表明本文所提出的方法具有可插拔性,只需使用目標語言數據擴充翻譯記憶庫規模便能提升翻譯性能,而且也驗證了使用交叉對齊任務預熱檢索模型方式的必要性,相似性更高的翻譯記憶對提升模型性能具有積極作用。

表4 不同語料庫規模的實驗結果

為進一步驗證候選翻譯模版數量對翻譯效果的影響,本文在MHLAW 數據集上進行了實驗。從表5 可以看出,候選翻譯模版的數量對實驗結果影響較大,隨著翻譯模版候選數量的增加,譯文BLEU 值反而降低。盡管翻譯模版所蘊藏的句法結構信息可用來約束譯文結構的生成,但實驗表明,過多的翻譯模版反而干擾句子結構的生成,降低了翻譯效果。

表5 翻譯模版數量設置對模型性能影響的實驗結果

表6 僅融入翻譯模版的實驗結果

3.5 消融實驗

為了驗證翻譯模版對實驗性能的影響,僅將翻譯模版作為外部資源,單獨融入到模型中,本文在MHLAW數據集上進行實驗。實驗結果如6 所示。

可以觀察到單獨融入翻譯模版時,模型的BLEU 值相比同時融入翻譯記憶和翻譯模版時分別降低了0.82%和0.33%。實驗表明,同時融入翻譯記憶和翻譯模版相比于單一的融入方式,對模型的約束更強,指導的效果更好,可以帶來更大的收益。

3.6 翻譯樣例

表7 描述的是一個翻譯樣例,以證明本文方法的效果。待翻譯源句“禁止任何組織或者個人擾亂社會經濟秩序?!笔且环N禁止性規范,該句重點在于禁止破壞社會秩序,在英文翻譯中表示強調的部分應當置于句首。而基線模型均將表示強調的部分置于句末,不能體現該法律條款的禁止性,不僅在結構上與參考譯文有較大差別,而且在法律翻譯中“秩序”通常翻譯為“order”,基線模型卻將其翻譯為“programme”。與基線模型相比,本文方法生成的譯文在句子結構和用詞上都更加符合參考譯文的表述。

表7 譯文質量對比

4 結論

針對法律領域訓練數據稀缺的問題,本文提出一種融入翻譯記憶庫的法律領域神經機器翻譯方法。首先用目標端數據構建法律領域翻譯記憶庫,然后使用雙語對齊語料預訓練檢索模型,進而利用檢索模型從翻譯記憶庫中檢索與源句相關的翻譯記憶和翻譯模版,最后將檢索到的翻譯記憶和翻譯模版融入到模型中,借助翻譯記憶的語義信息和翻譯模版的句子結構信息指導模型翻譯,提升法律領域機器翻譯性能。實驗結果表明,在資源受限的場景下本文方法能夠有效提升法律領域機器翻譯的性能。下一步,將探索利用知識圖譜進一步提升法律領域機器翻譯性能。

猜你喜歡
目標語言雙語檢索
2019年第4-6期便捷檢索目錄
中國大學生對越南語虛詞的誤用
專利檢索中“語義”的表現
快樂雙語
快樂雙語
快樂雙語
概念任務下中英雙語者非目標語言的詞匯通達
多媒體英語學習法
國際標準檢索
國際標準檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合