詞性信息在神經機器翻譯中的作用分析

2023-02-04 09:26鄭一雄朱俊國余正濤

中文信息學報 2023年12期

鄭一雄,朱俊國,余正濤

(1. 昆明理工大學信息工程與自動化學院,云南昆明 650000;2. 昆明理工大學云南省人工智能重點實驗室,云南昆明 650000)

0 引言

隨著深度學習的發展,神經機器翻譯模型在各種翻譯任務上都取得了卓越的成效。其中,Transformer模型[1]是目前使用最廣泛的神經翻譯模型。Transformer模型與其他神經機器翻譯模型的最大區別在于它完全基于注意力機制。但由于注意力機制的工作原理尚不明確,Transformer模型仍是一個“黑箱”,無法直觀理解它的工作機制,難以在原有模型的基礎上進一步提升翻譯質量。因此,本文主要針對Transformer模型中注意力節點在機器翻譯過程中的作用進行可解釋性研究。

2015年由Bahdanau等人[2]首次將注意力機制應用在神經機器翻譯領域,2017年由Vaswani等人[1]提出了完全基于注意力機制的Transformer模型。雖然基于注意力機制的翻譯模型已經取得了很好的翻譯性能,但研究者難以用人類可理解的方式解釋其工作機制。針對這一問題,目前已有研究者對注意力機制的可解釋性開展了相關研究,如Bahdanau[2]、Serrano[3]等人研究了注意力權重相對于源語言單詞和目標語單詞之間的關系,Vig[4]、Raganato[5]等人分析了Transformer模型中編碼器自注意力節點關注的源語言的語言學信息,Michel[6]、Wang[7]等人分析了注意力節點與譯文質量的關系。與過去的解釋工作不同的是,本文的方法可以分析Transformer模型中各類型注意力節點關注的目標語的語言學信息,并通過屏蔽負作用節點的方法來提升模型的翻譯性能。

本文利用屏蔽節點的方法,對已經訓練好的翻譯模型進行分析。主要方法是保持模型參數不變,分析屏蔽節點前后模型輸出譯文的變化情況,通過這種方法分別對Transformer模型內部的單節點和節點組合與譯文中不同詞性的詞的關系進行分析。屏蔽注意力節點會導致模型輸出的譯文發生變化,根據這種變化就可以定量計算出注意力節點對各詞性單詞正確翻譯的貢獻程度,在此基礎上就可以分析不同節點的重要程度,對節點進行針對性的選擇和屏蔽,從而優化模型,在原有模型基礎上進一步提高翻譯質量。

本文分析了德語到英語和俄語到英語的Transformer翻譯模型。實驗結果表明,根據本文提出的方法計算得到的節點詞性貢獻度,可以選出各詞性相關的負作用節點。通過屏蔽模型中負作用節點,相比原始模型,能夠在newstest2020-deen測試集上提升機器翻譯模型的BLEU值1.13,在newstest2020-ruen測試集上提升BLEU值0.89。

1 相關工作

目前,對注意力機制進行解釋分析的方法主要有三類,分別是注意力權重法、探針法和節點屏蔽法。注意力權重法主要用注意力權重的大小來分析各注意力節點所關注的單詞。Bahdanau等人[2]認為注意力權重的大小反映了各源語言單詞對各目標語單詞的聯系程度。Serrano等人[3]也通過實驗發現注意力權重可以反映各源語言單詞對目標語單詞的貢獻程度。由于自注意力機制的作用是提取句子內各單詞間的關系,Vig[4]、Manning[8]等人研究了Transformer模型的編碼器的自注意力機制,用注意力權重來分析節點對源語言單詞的關注情況,從而分析節點所關注的語言學現象。探針法的主要方法是保持Transformer模型編碼器訓練好的參數不變,在其后連接一個簡單解碼器進行各項語言學任務,通過語言學任務上的表現來衡量編碼器各部分對源語言的語言學信息的學習情況。Raganato等人[5]使用探針法分析了Transformer模型中各編碼層對于源語言句法信息和語義信息的學習情況。節點屏蔽法主要是根據屏蔽節點后BLEU值的變化情況來對節點進行分析。Michel等人[6]通過分析屏蔽注意力節點前后BLEU值的變化情況,發現有些注意力節點在翻譯中的貢獻程度較小,可以通過屏蔽這類節點來壓縮模型和提升模型速度。

注意力權重法和探針法主要對Transformer模型的編碼器自注意力節點和源語言的語言學現象進行分析,不能將解釋工作和譯文質量聯系起來。節點屏蔽法主要研究屏蔽節點對BLEU值的影響,沒有從語言學角度分析各節點的作用。本文提出的方法可以對Transformer模型中所有類型的注意力節點進行研究,分析各節點所關注的詞性信息,并且在注意力節點和譯文質量之間建立起聯系,通過屏蔽對詞性信息具有負面作用的節點來提升譯文的翻譯質量。

2 面向詞性的翻譯模型解釋方法

2.1 Transformer模型

Transformer模型是一個序列到序列的神經機器翻譯模型,由編碼器和解碼器組成。在Vaswani等人[1]提出的Transformer模型結構中,編碼器由6個編碼層組成,解碼器由6個解碼層組成。編碼層主要由編碼器自注意力層和前饋神經網絡層組成,解碼層主要由解碼器自注意力層、編碼器-解碼器注意力層、前饋神經網絡層組成。本文主要的研究對象是上述三種注意力層中的注意力節點。

Transformer模型與過去的神經機器翻譯模型的最大差別在于,Transformer模型內部沒有循環神經網絡,而是完全由注意力節點構成的。自注意力層的主體為多頭注意力,多頭注意力由多個注意力節點的輸出值拼接而成。Transformer模型處理一個句子時,首先根據詞嵌入向量和注意力權重計算其Q、K、V向量,然后計算各注意力節點的輸出。注意力節點輸出值的計算如式(1)所示。

(1)

之后將層內所有注意力節點的輸出值進行拼接,得到多頭注意力輸出值。其計算如式(2)所示。

其中,WO是每個注意力節點的權重,hi=Attention(Qi,Ki,Vi)。

2.2 節點屏蔽

本文主要將Transformer模型中的注意力節點作為研究對象,嘗試理解Transformer模型中各注意力節點在翻譯過程中的工作機制,分析Transformer模型中不同節點對于翻譯各詞性單詞以及整體翻譯質量的作用。屏蔽節點時,需要對計算多頭注意力的方法進行調整。在將各注意力節點輸出值合并為多頭注意力前,將需要屏蔽的注意力節點的輸出矩陣置為0矩陣,式(2)中的每個hi的計算方式進行修改如式(3)所示。

其中,φi是屏蔽參數。對于注意力節點hi,需要屏蔽hi時將φi置為0,不需要屏蔽hi時將φi置為1。屏蔽節點組時,則需要對屏蔽的各個節點同時進行屏蔽操作。

2.3 節點詞性貢獻度的計算

本文用節點詞性貢獻度來反映屏蔽節點對各詞性單詞的翻譯準確率的影響情況,從而分析節點對各詞性單詞正確翻譯的貢獻程度。本文分別計算了單節點詞性貢獻度和節點組詞性貢獻度,其中計算單節點詞性貢獻度的方法共三步:

第一步是對參考譯文用stanfordCoreNLP進行詞性標注,依據是賓州樹庫(Penn Treebank)中的詞性類型。賓州樹庫中,一些詞性被拆解為詞性子類,如形容詞被拆解為一般形容詞、形容詞比較級、形容詞最高級,本文將名詞、動詞、形容詞、副詞的單詞各自進行聚類,并統計出參考譯文中各詞性單詞的總詞數,參考譯文中詞性p的總詞數記為totalp,ref。

第二步是不屏蔽節點,使用完整模型進行翻譯,用模型輸出的譯文與參考譯文進行比較,獲得每種詞性正確翻譯的總詞數。完整模型的輸出譯文中詞性p的正確翻譯的總單詞數的計算如式(4)所示。

其中,對于參考譯文中第j個句子中詞性p的第i個不重復單詞wi,統計其在參考句子中出現的次數nwi,ref,模型輸出的翻譯結果中出現的次數記為nwi,model。每個句子中,詞性為p的不重復單詞共有m個,數據集上共有s個句子。

第三步是分別屏蔽每個節點,用式(4)的方法計算每種詞性正確翻譯的總詞數,統計屏蔽節點h后模型輸出譯文中正確翻譯的詞性p的總單詞數,如式(5)所示。

其中,對于參考譯文中第j個句子,詞性p的第i個不重復單詞wi,統計其在參考句子中出現的次數nwi,ref,wi在屏蔽節點h后模型輸出的譯文對應句子中出現的次數為nwi,maskh。每個句子中,詞性為p的不重復單詞共有m個,在數據集上共有s個句子。最終計算得到節點h對于詞性p的節點詞性貢獻度,如式(6)所示。

其中,totalp,ref指參考譯文中詞性p的單詞總數。節點詞性貢獻度difp,h表示屏蔽節點h后,詞性p單詞的翻譯準確率的變化情況。difp,h反映了節點h對于詞性p單詞正確翻譯的貢獻程度。difp,h>0表示屏蔽節點h后,詞性p單詞的翻譯準確率上升,說明節點h對詞性p單詞的正確翻譯具有負面作用,difp,h越大,該節點的負面作用越大,屏蔽該節點后詞性p單詞的翻譯準確率上升越多,將difp,h>0的節點記為負作用節點;difp,h<0表示屏蔽節點h后,詞性p單詞的翻譯準確率下降,表示節點h對詞性p單詞正確翻譯具有正面貢獻,difp,h越小,該節點的正面貢獻越大,屏蔽該節點后詞性p單詞的翻譯準確率下降較多,將difp,h<0的節點記為正貢獻節點。

計算節點組詞性貢獻度的方法是根據difp,h對所有節點的貢獻進行排序,分別選出對于各詞性difp,h最大和最小的50個節點作為高貢獻節點組和負作用最大節點組。對于詞性p相關的節點個數為n的高貢獻節點組記為Grouphigheffect,n、Grouppositive effect,p,n,負作用最大節點組記為Grouphigheffect,nGroupnegative effect,p,n。對于高貢獻節點組,按照difp,h從小到大的順序,由0到50每次遞增10個節點進行批量屏蔽;對于負作用最大節點組,按照difp,h從大到小的順序,由0到50每次遞增10個節點進行批量屏蔽。具體的節點組實驗與分析見3.3。當屏蔽節點個數為n時,詞性p單詞的翻譯準確率的變化程度記為節點組詞性貢獻度difGroup, p, n,其計算如式(7)所示。

3 實驗與分析

3.1 實驗設置

本文主要使用Facebook在2019年發布的transformer.wmt19.de-en和transformer.wmt19.ru-en預訓練翻譯模型。兩個翻譯模型均有編碼層和解碼層各6層,每層有16個注意力節點。預處理使用moses進行分詞,使用subword_nmt進行BPE處理。兩個翻譯模型在解碼時均設置beam size為5,batch size為8,最大解碼長度為200,長度懲罰系數為1。最終使用sacreBLEU計算BLEU值。

本文將newstest2019-deen和newstest2019-ruen作為開發集進行單節點分析。根據單節點的節點詞性貢獻度選出各詞性的相關節點組,將newstest2020-deen和newstest2020-ruen作為測試集,進行屏蔽節點組的分析和提升譯文質量的實驗。transformer.wmt19.de-en預訓練翻譯模型在newstest2020-deen數據集上的BLEU值為30.47,transformer.wmt19.ru-en預訓練翻譯模型在newstest2020-ruen數據集上的BLEU值分別為32.7。本文主要對目標語進行分析,故統計數據集參考譯文中各詞性單詞的數量,如表1所示。

表1 實驗數據依據詞性的分布情況

3.2 對單節點的分析

本文主要使用節點詞性貢獻度difp,h來反映節點h對于正確翻譯詞性p的單詞的貢獻程度。對difp,h的計算方法如前文2.3所述。difp,h>0表示屏蔽節點h后,詞性p單詞的翻譯準確率上升,表示節點h對詞性p單詞正確翻譯具有負面作用,difp,h越大表示負面作用越大;difp,h<0表示屏蔽節點h后,詞性p單詞的翻譯準確率下降,表示節點h對詞性p單詞正確翻譯具有正面貢獻,difp,h越小表示正面貢獻越大。

對于每種詞性,根據difp,h繪制了熱力圖,圖1展示了在newstest2019-deen數據集上,名詞、動詞、形容詞、副詞、介詞、限定詞六種主要詞性的節點詞性熱力圖。該熱力圖反映了屏蔽模型單個節點對于翻譯該詞性單詞的影響情況。在熱力圖中,圖的縱坐標為層序號,表示節點所在的注意力層。0～5表示編碼器自注意力層的1～6層,6～11表示解碼器自注意力層的1～6層;12～17表示解碼器的編碼器-解碼器注意力層的1～6層。橫坐標為層內節點序號,層內節點序號表示節點在層內的序號,用0～15表示一層內的16個注意力節點。熱力圖每個格子的顏色深淺反映了該節點的節點詞性貢獻度的大小,格子上的數值為節點詞性貢獻度的百分數。

圖1 屏蔽單節點對于各詞性單詞翻譯準確率的影響

根據節點詞性貢獻度的正負將節點劃分為正貢獻節點和負作用節點。difp,h<0的節點為正貢獻節點,difp,h的值越小,節點顏色越淺,節點h對于正確翻譯詞性p單詞的貢獻越大;difp,h的值越大,節點顏色越深,表示節點h對于正確翻譯詞性p單詞的貢獻越大。difp,h>0的節點為負作用節點,節點顏色較深,表示節點h對于翻譯詞性p的單詞有負面作用,屏蔽該節點會使詞性p的單詞的翻譯準確率提高。

節點詞性熱力圖反映了每種詞性相關的注意力節點在模型內部的位置分布情況、每種詞性相關節點的數量情況以及各注意力節點對于正確翻譯某種詞性單詞的貢獻程度。為了便于比較各詞性間的差異,各詞性熱力圖的色條使用了相同的上下界?？梢钥闯鲇猩倭抗濣c對于多種詞性信息都有較大貢獻,如編碼器第6層第1個節點,即熱力圖中坐標為(0, 5)的節點,在各熱力圖中顏色都較淺,說明該節點對六種詞性單詞的正確翻譯都有較大貢獻;有些節點對于多種詞性都有負面作用,如編碼器自注意力層第6層第12個節點,即圖中坐標為(11, 5)的節點,在各熱力圖中顏色都較深,說明該節點對六種詞性單詞的正確翻譯都有負面作用;而大部分節點對于某些詞性具有正面貢獻,對另外一些詞性具有負面作用。

對于不同詞性,貢獻較大節點的數量是不同的。名詞作為出現頻率最高的詞性,對于名詞的翻譯有正面貢獻的節點較多。此外,有些注意力節點對于多種詞性信息都有貢獻,這說明對于一個節點,不應該明確地將其劃分為是否關注某種詞性,而應該通過節點詞性貢獻度定量地分析節點對于各詞性單詞正確翻譯的作用。

從熱力圖顏色的深淺可以看出,對于形容詞、副詞來說,顏色較深或較淺的節點較多,即屏蔽單個節點對詞性單詞翻譯準確率影響較大的節點較多;而對于名詞、動詞等詞性來說,顏色較深或較淺的節點數較少,即屏蔽單節點對詞性單詞翻譯準確率影響較大的節點較少。出現這種現象的原因可能是屏蔽單節點對詞頻較低詞性的單詞翻譯準確率影響較大。

另外,由熱力圖深淺可以看出三種注意力節點的深淺有一定差異。通過進一步對比deen和ruen翻譯模型上的實驗結果,發現Transformer中編碼器自注意力、解碼器自注意力和編碼器-解碼器注意力三種注意力節點的詞性信息貢獻度有一定區別。圖2對比了deen和ruen的翻譯模型在動詞上的情況。圖中橫坐標為層序號,表示節點所在的注意力層,0～5表示編碼器自注意力層的1～6層,6～11表示解碼器自注意力層的1～6層,12～17表示編碼器～解碼器注意力層的1～6層?？v坐標為各層的動詞正貢獻節點的節點詞性貢獻度的絕對值之和。兩個模型上,均發現有0～5層和12～17層的值相對較大、6～11層的值相對較小。說明兩個模型上解碼器自注意力節點對動詞翻譯的貢獻相對較小,另外兩種注意力節點對動詞翻譯的貢獻相對較大。實驗結果顯示,兩個模型在其他詞性上也有解碼器自注意力節點貢獻相對較小,另外兩種類型的注意力節點貢獻相對較大的現象,這也與Michel等人[6]、Wang等人[7]的研究結果相一致。

圖2 不同類型注意力節點對動詞的詞性貢獻程度

3.3 對節點組的分析

將newstest2019-deen和newstest2019-ruen數據集作為開發集,在兩個翻譯模型上計算各節點的節點詞性貢獻度,其中兩個模型均有288個注意力節點。對于每種詞性,按照節點詞性貢獻度對所有節點進行排序,選出貢獻最大和負作用最大的節點各50個分別作為該詞性的高貢獻節點組和負作用最大節點組,并以隨機屏蔽節點組作為對照試驗,對節點組進行批量屏蔽,將newstest2020-deen和newstest2020-ruen作為測試集,統計屏蔽節點組后譯文的變化情況。兩個翻譯模型的實驗結果顯示負作用最大節點組中有部分節點對于詞性信息的負面作用較大,屏蔽這部分節點可以提升譯文質量。

3.3.1 節點組與詞性信息

對于各詞性,分別在開發集newstest2019-deen和newstest2019-ruen上根據節點詞性貢獻度選出對于兩個翻譯模型貢獻最大和負面作用最大的各50個節點作為詞性p的高貢獻節點組和負作用最大節點組,由0到50每次遞增10個節點進行批量屏蔽。根據3.2節中計算得到的節點詞性貢獻度,發現除名詞外,其他詞性的正貢獻節點和負作用節點個數都超過50個,而名詞有22個負作用節點和6個無影響節點(節點詞性貢獻度為0的節點)。因此,名詞的負作用最大節點組選取了名詞的22個負作用節點、6個無影響節點和22個正面貢獻最小的正貢獻節點。分別在兩個測試集上計算高貢獻節點組和負作用最大節點組在屏蔽前n個節點時詞性p的節點組詞性貢獻度difpositive,p,n和difnegative,p,n。另設隨機屏蔽組作為對照組,屏蔽了兩個實驗組相同的節點數,進行10次隨機屏蔽實驗,計算各詞性翻譯準確率變化情況求平均值,獲得隨機屏蔽組貢獻度difstochastic,p,n。

newstest2020-deen的實驗結果如圖3所示。其中橫坐標表示屏蔽的節點的個數n,縱坐標表示對應的節點組詞性貢獻度。mask positive heads折線表示屏蔽高貢獻節點組Grouphigheffect,n的情況,mask negative heads折線表示屏蔽負作用最大節點組的情況,mask heads stochastically折線表示隨機屏蔽對照組的情況。

圖3 屏蔽詞性相關節點組對詞性單詞翻譯準確率的影響

由圖3可以看出,對于每種詞性,屏蔽高貢獻節點組時,該詞性單詞的翻譯準確率會顯著下降;屏蔽負作用最大節點組時,該類詞性的翻譯準確率多數呈先小幅提升后小幅下降的形態,隨機屏蔽對照組的下降程度介于兩者之間。

3.3.2 節點組與BLEU值

圖4反映了在newstest2020-deen上屏蔽各詞性相關的節點組對BLEU值造成的影響。其中橫坐標表示屏蔽節點的個數n,縱坐標表示屏蔽詞性p相關的n個節點時,BLEU值的變化情況。mask positive effect heads折線表示屏蔽高貢獻節點組的情況,mask negative effect heads折線表示屏蔽負作用最大節點組的情況,mask heads stochastically折線表示隨機屏蔽對照組的情況。

圖4 屏蔽詞性相關節點組對于譯文BLEU值的影響

對于實驗選取的六種詞性而言,屏蔽相關節點組后,可以看出BLEU值和相關詞性的翻譯準確率變化情況在折線圖上具有相似的形態。對于每種詞性,模型中都有部分節點于其正確翻譯具有正面貢獻,屏蔽這部分節點會使該詞性的翻譯準確率和譯文整體的翻譯質量顯著下降,可以說這部分節點對于該詞性單詞的正確翻譯具有較大的貢獻,包含了較多的語言學知識,對于翻譯模型較為重要。

在newstest2020-deen上,屏蔽限定詞、介詞的負作用節點組后, BLEU值先有微小的提升,然后下降,而屏蔽名詞、動詞的負作用節點組時,BLEU值較屏蔽其他詞性負作用節點組時有較大的提升?？梢钥闯瞿Ｐ椭杏胁糠止濣c對于模型翻譯性能具有較大的負面作用,屏蔽這類節點可以使模型翻譯質量提升較多。

屏蔽負作用節點組對BLEU的影響如表2所示。從表2可以看出:

表2 屏蔽負作用節點組對BLEU的影響

對于transformer.wmt19.de-en預訓練翻譯模型,在newstest2020-deen上,屏蔽對于名詞負面作用最大的30個節點時BLEU值提升最多,由30.47提升至31.60;屏蔽對于動詞負面作用最大的20個節點時BLEU值提升最多,達到了31.40。對于transformer.wmt19.ru-en在newstest2020-ruen上,屏蔽名詞負作用最大的30個節點時,BLEU值提升最多,由32.70提升至33.59。

在此基礎上, 使用組合屏蔽多種詞性相關節點組的方法進行了實驗,實驗結果發現,在transformer.wmt19.de-en模型上,效果最好的是同時屏蔽30個名詞負作用節點和20個動詞負作用節點,這種組合方法較屏蔽其他詞性節點組合而言,對模型翻譯性能提升最多,可以使newstest2020-deen的BLEU提升至32.15,這種方法在transformer.wmt19.ru-en模型上使newstest2020-ruen的BLEU值提升至33.71。

由圖4可以看出,屏蔽不同詞性相關節點組對翻譯性能的影響不同。當屏蔽節點個數較多時,不同詞性相關節點的重合程度較高,屏蔽節點個數較少時,不同詞性相關節點重合程度較低。為了減少節點重合的影響,以屏蔽10個正面貢獻最大節點為例,可以看出屏蔽名詞相關節點組使BLEU值下降最多,屏蔽動詞、限定詞、介詞相關節點組使BLEU值下降程度次之,屏蔽副詞使BLEU值下降較少。這種情況可能是由于各詞性單詞的詞頻不同,由表1可以看出,對于newstest2020-deen數據集,在六種詞性中,名詞的詞頻最高,動詞、限定詞、介詞的詞頻中等,形容詞、副詞的詞頻較低,而BLEU值的計算機制決定了屏蔽詞頻越高的詞性相關節點對BLEU值的影響越大。

另外,對于限定詞、介詞和從屬連詞,由于其正確翻譯對于上下文信息要求較高,屏蔽節點個數較少時對BLEU值的影響相比其他詞性較小,而屏蔽節點個數較多時,對BLEU值影響相比其他詞性較大。由圖4中可以看出,對于限定詞、介詞和從屬連詞,屏蔽10個負作用最大節點時,其BLEU值下降程度低于名詞和動詞,而屏蔽50個負作用最大節點時,其BLEU值下降程度高于名詞和動詞。

3.3.3 屏蔽負作用節點以改正翻譯錯誤

對于某些詞性,模型中存在一些節點對于該詞性單詞的正確翻譯具有負面作用,屏蔽這類節點可以提高該詞性單詞翻譯準確率并改正一些翻譯錯誤。下面列舉兩個來自newstest2020-deen的典型句,通過屏蔽由newstest2019-deen選出的名詞負作用最大的10個節點改正了名詞翻譯缺失的翻譯錯誤,從而提升了翻譯質量。

典型句1:

參考譯文:TheBritishPrimeMinisterJohnson has sharp criticism for the ‘capitulation act’ ratified by parliament.

原模型譯文:Mr.Johnson has been a fierce critic of the surrender bill passed by Parliament.

屏蔽名詞負作用節點組譯文:BritishPrimeMinisterMr.Johnson has been a fierce critic of the surrender bill passed by Parliament.

典型句2:

參考譯文: Although extremely practical, inductive technologyviaQistandardshould not be used.

原模型譯文: Inductive technology is extremely practical, but should not be used yet.

屏蔽名詞負作用節點組譯文: Inductive technologyviaQi-standardis extremely practical, but should not be used yet.

可以看出,通過屏蔽10個對名詞負作用最大節點,翻譯模型將典型句1中缺失的British PrimeMinister和典型句2中缺失的via Qi standard正確翻譯出來,改正了名詞翻譯缺失的錯誤。

4 結論

目前Transformer模型在神經機器翻譯中被廣泛使用,但它對于使用者而言仍是“黑箱”模型,這使得研究者難以在原有模型的基礎上進一步提升翻譯質量。針對Transformer模型,本文主要研究了其注意力節點和詞性信息的關系,通過屏蔽節點的方法,分別對單節點和節點組進行分析。由實驗結果發現部分節點對模型的翻譯性能具有負面作用,屏蔽這些節點可以在測試集上提高譯文質量。未來工作中,我們計劃從其他語言學信息的角度,進一步解釋神經機器翻譯模型的工作機制。