?

基于雙語詞典的遠距離語對無監督神經機器翻譯方法

2024-04-02 03:42黃孟欽
現代電子技術 2024年7期
關鍵詞:源語言目標語言詞典

黃孟欽

(昆明理工大學信息工程與自動化學院,云南昆明 650500)

0 引 言

2013 年,Nal Kalchbrenner 和Phil Blunsom 提出了端到端編碼器-解碼器結構[1],這一創新將神經機器翻譯引入了主流研究領域。近年來,基于深度學習的方法逐漸在機器翻譯領域占據主導地位。這些方法在許多語言對之間的翻譯任務上表現出色,有些情況下甚至超越了人類翻譯的質量。

然而,基于神經網絡的翻譯模型高度依賴于可用平行數據的數量和語言之間的相關性。在一些擁有豐富平行語料的語言對,尤其是同一語系的語言對上,神經機器翻譯已經展現出了卓越性能[2]。但在實際應用中,存在很多語言對之間缺乏足夠平行語料的情況,有些語言甚至沒有可用的平行數據,導致神經機器翻譯的性能下降。

為了減少神經機器翻譯模型對平行數據的依賴,文獻[3]提出了無監督神經機器翻譯(Unsupervised Neural Machine Translation, UNMT)方法。這種方法僅利用兩種語言的單語語料庫進行翻譯,而不使用平行語料,從而擺脫了對大量平行數據的需求。在某些語言對上,無監督神經機器翻譯已經取得了出色的效果,甚至能夠媲美有監督神經機器翻譯。然而,在一些遠距離語言對,例如中-英語言對,其翻譯效果仍然不夠理想。這主要是因為遠距離語言對之間的對齊信息較為稀缺,語言之間的相似性較低。因此,針對遠距離語言對的無監督神經機器翻譯面臨著一個難題,即如何讓源語言和目標語言在潛在空間中實現有效的對齊。

為提供更多對齊信息,研究者們開始嘗試引入外部知識來輔助模型學習兩種語言之間的對齊關系。文獻[4]探索了使用詞典輔助無監督神經機器翻譯的方法,將翻譯過程分解為兩個階段:首先,利用源語言到目標語言的雙語詞典,將源語句中的部分詞替換為詞典中對應的目標詞,生成粗略的中間譯文;然后,將生成的中間譯文輸入神經機器翻譯模型,以獲得流暢的目標語言譯文。這種方法旨在為翻譯模型提供更多對齊信息,從而改善遠距離語言對的翻譯效果。

1 相關工作

1.1 無監督神經機器翻譯

神經機器翻譯在取得卓越性能時的一個前提條件是擁有大量的平行語料,這些語料用于訓練模型以學習源語言和目標語言之間的映射關系。然而,在應用中確實存在很多語言對之間缺乏足夠平行語料的情況,比如德語和俄羅斯語之間的翻譯。構建平行語料庫需要昂貴的成本,而缺乏平行語料會顯著降低神經機器翻譯模型的性能[5]。

為了減少神經機器翻譯模型對平行數據的依賴,研究人員開始嘗試不使用平行語料,而是僅使用兩種語言的單語語料庫來訓練模型,被稱為無監督神經機器翻譯[3]。這種方法有助于克服對平行數據的嚴重依賴,從而能夠在缺乏平行語料的情況下進行翻譯。然而,需要注意的是,無監督神經機器翻譯仍然面臨一些挑戰,尤其是在遠距離語言對的情況下,語言之間的對齊信息非常有限,導致翻譯質量受到影響。

1.2 雙語詞典歸納

雙語詞典歸納(Bilingual Lexicon Induction, BLI)[6]用于在缺乏兩種語言之間平行語料的情況下,利用各自語言的單語語料生成對齊的雙語詞嵌入,并通過這些嵌入來歸納出雙語詞典。雙語詞典歸納的核心思想在于學習一個映射函數,該函數能夠將兩種語言中的詞嵌入映射到一個共同的向量空間中,以便于進行后續的對齊操作。雖然沒有直接的平行語料,但通過將單語語料中的詞嵌入映射到共享的空間中,可以在一定程度上實現不同語言之間詞匯的對應關系。

通過雙語詞典歸納,可以在缺乏平行數據的情況下,利用單語語料中的信息構建一些基本的語言關聯,從而實現單詞級別的翻譯任務。這對于處理缺乏大量平行語料的語言對或語種之間的翻譯任務非常有幫助。

1.3 預訓練語言模型

在早期,一些方法開始嘗試利用預訓練模型的表征向量來初始化神經機器翻譯(Neural Machine Translation, NMT)模型的表征向量。這一策略顯著提升了模型的訓練效果,特別是對于訓練數據稀缺的語言對而言。這表明預訓練模型的表征向量可能在NMT模型訓練中發揮了一定作用,因為它們包含豐富的語義信息。

其中,跨語言模型(Crosslingual Language Model,XLM)預訓練是第一個嘗試將預訓練應用于跨語言方向的方法。這種方法在多語言文本數據上進行預訓練,使得模型能夠同時學習兩種語言的語法和文本特征。這種跨語言預訓練方法有助于模型在不同語言之間進行知識遷移,從而提高跨語言任務的性能。當前,研究者們在跨語言預訓練語言模型領域進行了大量嘗試,主要的跨語言模型包括BERT[7]、XLM[8]、XLM-R[9]、MASS[10]、mBART[11]等。這些跨語言預訓練模型的出現豐富了多語言NLP 研究領域,為不同語言之間的自然語言處理任務提供了強大的工具和基礎。

雖然兩者造型差不多,但光路完全不同。從D500的光學取景器看到的是反光板反射到對焦屏上的光線,而X-H1的電子取景器看到的是傳感器接收到畫面。當然,D500也可以切換到實時取景模式,但切換時反光板需要抬起,這意味著光學取景器失效(必須使用機背屏幕取景),而且D500引以為傲的相位對焦傳感器也同樣會失去用途,轉而使用原始的反差偵測對焦。相比之下,無反結構的X-H1不會面臨這個問題,無論使用取景器還是屏幕,相機的對焦方式都不會發生變化。

1.4 XLM

盡管BERT[7]在自然語言處理領域取得了顯著的成就,但是不同語言之間的BERT 模型并不具有相互通用性,即它們學習到的知識不會被共享。因此,Facebook對BERT 進行了改進,提出了XLM[8],以便于在多種語言之間進行訓練,從而使模型能夠獲得更多的跨語言信息。XLM 的方法主要分為兩種:基于平行語料的有監督方法和沒有平行語料的無監督方法。

因果語言模型(Causal Language Modeling, CLM)和遮蔽語言模型(Masked Language Modeling, MLM)使用單語語料進行訓練,而翻譯語言模型(Translation Language Model, TLM)是MLM 的擴展,不同之處在于它使用平行語料進行訓練。在TLM 任務中,將MLM 的輸入單語語料替換成雙語平行語料,然后模型試圖預測源語言和目標語言之間的對應關系,這使得模型能夠借助平行語言的信息來提升翻譯質量。翻譯語言模型結構如圖1所示。

圖1 翻譯語言模型結構

2 方 法

2.1 雙語詞典的獲取

在本研究中,采用文獻[12]提出的方法,借助無監督的單詞嵌入映射技術,從僅使用源語言和目標語言的單語語料庫中提取雙語詞典。具體而言,首先使用Word2Vec[13]將源語言和目標語言的單詞表示成分布式向量,即各自的單詞嵌入。接下來,使用文獻[12]的無監督單詞嵌入映射方法,利用自學習或對抗性訓練來學習一個映射函數f(X) =WX,將源語言和目標語言的單語詞嵌入映射到一個共享的嵌入空間中,然后利用CSLS[14]計算詞向量之間的相似性。最后,選擇在共享空間中相似性最高的詞嵌入,以提取本文中要使用的雙語詞典。

2.2 Dict-TLM

TLM 任務是一種有監督的任務,其目標是訓練能夠進行翻譯的語言模型。通常情況下,這種任務需要大量的雙語平行語料進行訓練,但很多語言之間缺乏足夠的平行語料,這導致訓練比較困難。本文提出了一種改進的方法,采用詞典融合的策略代替傳統的平行語料進行模型訓練。

這種方法的基本思想是利用單語語料和雙語詞典訓練語言模型。具體來說,模型首先接受源語言的句子作為輸入;然后,不同于TLM 的平行語料輸入,模型還接受把源語言句子用雙語詞典處理后的數據作為輸入,在此輸入中,模型會將源語言句子中在雙語詞典出現的單詞替換為相應的目標語言翻譯詞,這一步可以看作是一種跨語言信息融合的過程。

接下來,模型會對源語言句子和目標語言翻譯句子的部分單詞進行隨機遮蔽。具體地,約80%的詞會被用[MASK]進行遮蔽,約10%的詞會被隨機的標記替換,而余下的約10%將保持原樣。這個步驟有助于模型學習到源語言和目標語言之間的對應關系,同時也鼓勵了模型對上下文的理解和單詞預測能力的提升。

需要強調的是,本文使用的雙語詞典是通過無監督的方式獲得的,這意味著不需要依賴于任何平行語料。通過使用被替換過的源語言句子進行訓練,模型可以從兩個方面獲得信息:首先,模型通過源語言的上下文單詞來預測被遮蔽的詞;其次,模型通過被替換的目標語言單詞進行學習。這樣,語言模型不僅能夠學習源語言的信息,還能夠學習兩種語言之間的對應關系。這些額外的跨語言信息在后續的翻譯任務中將提供有力的支持,使得模型能夠更好地進行翻譯工作。這一方法為解決缺乏平行語料的語言翻譯任務提供了一種有效的替代方案。

Dict-TLM 模型的預訓練結構如圖2 所示。

圖2 Dict-TLM 模型結構

3 實 驗

3.1 數據的獲取

本文的實驗中,采用了Facebook 于2018 年提出的完全無監督方法,即vecmap,從兩種語言的單語數據中獲得雙語詞典。該方法的獨特之處在于詞典的生成過程不涉及任何平行語料的使用,而是通過無監督的方式生成一個種子詞典,作為后續詞嵌入學習的初始知識。

在本文的實驗中,使用WMT14中2007年和2008年新聞數據集中的英文以及中文單語數據集,每種語言都包含了500 萬個句子。選擇中國科學院自動化研究所在2015 年發布的CASIA-2015 數據集作為平行語料庫,將平行語料中的目標語言語料替換為用雙語詞典處理后的源語言語料。對于后續的預訓練任務,所有的數據都使用mosesdecoder 提供的tokenizer 進行正則化處理,中文語料使用斯坦福大學的NLP 工具進行分詞處理。

3.2 實驗環境設置

在本文的所有實驗中,所采用的模型架構是Transformer[15],具體包括1 024 個隱藏單元、8 個注意力頭、GELU 激活函數[16]、0.1 的丟失率以及學習位置嵌入。使用Adam 優化器[17],采用線性預熱策略[15],學習率在訓練過程中從10-4逐漸增加到5×10-4。

在預訓練階段,采用XLM 中的TLM 作為預訓練語言模型。TLM 任務是遮蔽語言模型的改進版本,類似于BERT 的遮蔽語言模型任務。在TLM 訓練過程中,隨機遮蔽了源語言句子和目標語言句子中部分單詞,其中80%的詞用[MASK]進行遮蔽,10%的詞用隨機的token進行替換,最后10%的詞保持不變。

3.3 實驗結果及分析

本文采用BLEU[18]作為評價指標,來比較本文方法和其他方法的性能差異。這種評價方法認為翻譯系統翻譯出來的譯文和人工翻譯的譯文越接近,那么翻譯系統的翻譯質量就越高。

本文進行了兩個模型的訓練。首先,以Lample 等人使用單語語料進行的機器翻譯方法作為基準,對比了本文方法和UNMT 方法。表1 中總結了在英中和中英語言對上的基線方法和Dict-TLM 方法的性能表現。

表1 各個模型在不同的語言對上的BLEU 值

如表1 所示,實驗結果表明,本文方法在中英語言對上的BLEU 分數相對于傳統的無監督神經機器翻譯提高了4%,而在英中語言對上的BLEU 分數也提高了4%。通過分析實驗結果,可以得出結論:將源語言句子中在雙語詞典存在的單詞替換為相應的目標語言翻譯詞,并以此作為源語言對應的平行語料進行模型訓練,有助于模型更好地學習跨語言信息,從而實現源語言和目標語言之間更好的對齊,進而獲得更出色的翻譯效果。

4 結 論

本文介紹了一種創新方法,將源語言句子在雙語詞典中存在的單詞替換為相應的目標語言翻譯詞,用以替代TLM 中的平行語料作為預訓練模型的輸入。這一方法的主要優勢在于減少了模型對平行語料的依賴,給遠距離語言對之間提供了更多的對齊信息,從而提高了對這些遠距離語言對的翻譯效果。研究結果顯示,這一方法在無監督神經機器翻譯中實現了顯著的性能提升。

盡管取得了令人滿意的進展,但在沒有平行語料的情況下如何進一步提升無監督神經機器翻譯的性能仍然是一個值得深入研究的問題。未來的研究方向包括如何在無監督情況下獲得更高質量的雙語詞典,以及如何更有效地將這些詞典與翻譯模型融合,以更好地輔助模型實現更出色的翻譯性能。

猜你喜歡
源語言目標語言詞典
米沃什詞典
林巍《知識與智慧》英譯分析
淺析日語口譯譯員素質
評《現代漢語詞典》(第6版)
教材插圖在英語課堂閱讀教學中的運用及實例探討
詞典例證翻譯標準探索
跨文化視角下對具有修辭手法諺語英譯漢的研究
以口譯實例談雙語知識的必要性
概念任務下中英雙語者非目標語言的詞匯通達
多媒體英語學習法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合