?

基于句法和語義的英漢翻譯記憶系統

2022-11-09 04:38謝宛玲
微型電腦應用 2022年10期
關鍵詞:庫中英漢翻譯短語

謝宛玲

(西安醫學院,國際合作與交流辦公室, 陜西,西安 710021)

0 引言

翻譯記憶是一種基于數據記憶庫強大功能,調用已翻譯的語料庫,對具有復雜性的語言進行翻譯的機器翻譯手段。翻譯記憶系統是基于翻譯記憶技術而開發的翻譯系統。在進行翻譯的過程中,將人工翻譯的資料儲存于數據記憶庫中,然后在下一次翻譯時進行調用。對比翻譯對象與數據記憶庫中的資料,通過匹配度完成對象的替換、給出翻譯建議或進行人工翻譯等流程,最終完成譯文[1-5]。由于專業領域資料的重復率較高,各個行業的重復率低則為20%,高則達70%,所以譯者會進行大量無效的重復工作。如果利用翻譯記憶技術進行翻譯,則可以通過對數據記憶庫資料的調用,免除這部分無效的工作,提高工作效率。因此,基于目前的翻譯產品市場現狀,翻譯記憶技術是為數不多的可用于專業翻譯的機器翻譯技術[6-8]。

與國外翻譯市場相比,國內的專業翻譯市場中翻譯記憶技術還不夠普遍。因此,推廣翻譯記憶技術和開發相關翻譯系統和平臺,是極具有發展前景的研究方向。筆者開發一種基于句法和語義的英漢翻譯記憶系統,對該系統的整體架構、語義計算及句子結構算法以及數據記憶庫的設計進行介紹。

1 英漢翻譯記憶系統的整體流程

圖1是本文所涉及的基于句法和語義的英漢翻譯記憶系統的整體流程。在利用翻譯記憶技術進行翻譯前,首先在輸入窗口將待翻譯的原文輸入,然后對所輸入的內容進行檢索,同時與記憶庫中的資料進行對比。依照相似度計算的方法對所輸入的內容與記憶庫中的內容進行相似度計算,相似度為[0,1]之間。相似度為0,說明二者完全不匹配,這時進行人工翻譯,并產生譯文,同時將人工翻譯的結果儲存到記憶庫中,以供下次翻譯時進行調??;相似度為1,則說明所輸入的內容與記憶庫中的內容完全匹配,則機器直接進行翻譯并生成譯文;相似度處于0~1,則根據最相似的例句給出相應的譯文,然后再通過人工復檢對譯文進行復用或修改,最后得到滿意的翻譯結果,并將相應的結果儲存到數據記憶庫中。

圖1 翻譯記憶系統的整體流程

2 英漢翻譯記憶系統的語義計算

本文所設計的翻譯記憶系統的語義相似度計算是基于WordNet詞典進行計算的。WordNet詞匯矩陣模型如表1所示。表1中行代表單詞的詞義(meaning),列代表單詞的詞形(form)。矩陣中的表項則說明該單詞具有某種詞義,例如:T11則說明F1可以表達M1的詞義;存在T11、T12和T15,則說明單詞F1、F2和F5均可以表達M1的詞義,即F1、F2和F5為同義詞;而同時存在T12和T32則說明單詞F2可以同時表達M1和M3的詞義,即F2為多義詞。

表1 WordNet詞匯矩陣模型

在進行語義相似度計算時,利用WordNet中的Similarity1.04軟件包中的stoplist對句子中虛詞、冠詞、介詞和代詞進行去除。利用stoplist對句子進行逐詞掃描,當遇到stopword時,便將其刪除。由于所刪除的詞語一般不會在句子中指代具體的詞義,因此不會對句義造成影響,因此不計入相似度的計算中,語義計算的相應代碼,如圖2所示。

3 英漢翻譯記憶系統的句子結構比較

本系統的句子結構比較是通過對句法分析來進行的。通過規則對自然語言進行分析,確定每1個單詞或短語的作用以及彼此之間的關系,然后利用句法分析樹進行表達。例如“TIFF IFD array has wrong size”的句法分析樹如圖3所示。首先將句子拆分為名詞短語和動詞短語;然后再逐級進行拆分,直到確定每1個單詞的作用和與其他單詞之間的關系。在進行相似度計算時,如果2個句子的句法分析樹完全一致,則說明2個句子的結構相同。本系統所采用的分析方法為淺層分析法,僅對名詞短語、動詞短語等非遞歸性短語進行分析。這種分析方法的效率較高,且結果也較為準確。句子結構分析的代碼如圖4所示。本系統利用Apple Pie Parser方法對句法結構進行分析后,過濾掉句子中的單詞,然后以字符串的形式對句子的結構進行表示和比較。如果2個句子的字符串結構相同,則說明這2個句子的結構是相同的。

圖3 翻譯記憶系統的句法分析樹

4 英漢翻譯記憶系統的記憶庫設計

本系統的記憶庫含有詞匯級別、句子級別和更深層次級別3個級別。其中:詞匯級別進行譯文生成較為簡便,但后期的譯文加工較為繁瑣;句子級別的譯文加工過程簡潔明了,但譯文生成較為繁瑣;更深層次級別生成譯文時信息量大,后期加工繁瑣。由此可見,通常進行記憶庫設計時既要考慮前期加工過程,又要考慮后期加工過程,而且要同時兼顧檢索和系統管理2個過程。本系統所設計的記憶庫結構如表2所示。

表2 翻譯記憶系統的記憶庫結構

本系統進行翻譯時是基于句子進行翻譯的,對句子的句法結構進行分析后,將待翻譯的句子與數據記憶庫中的資料進行相似度計算,得到[0,1]之間的結果,然后分0、1和(0,1)進行處理。若為0,則直接進行人工翻譯;若為1,則直接進行機器翻譯;若為(0,1)則根據圖5的過程進行翻譯。利用將“TIFF IFD array entry has wrong size”與“TIFF IFD array entry has invalid value”進行句子結構的相似度計算,然后根據機器翻譯結果給出譯文;隨后人工對譯文進行復檢,翻譯正確的部分進行復用,翻譯不正確的部分進行修改,然后得到最終的譯文,并將其儲存在數據記憶庫中。

圖5 翻譯記憶系統的翻譯過程

5 總結

本文設計了一種基于句法he語義的英漢翻譯記憶系統,并對其翻譯流程和關鍵技術進行了介紹。本文所設計的系統是基于數據記憶庫,對待翻譯句子的句法結構進行分析,并進行相似度計算,根據不同的計算結果采取不同的處理方式。若與數據記憶庫中的句子完全匹配,則直接進行機器翻譯給出譯文;若完全不匹配,則通過人工翻譯將結果儲存于數據庫中;若部分匹配,則先進行機器翻譯,再進行人工復檢,得到最終譯文,并儲存于數據記憶庫中。這種基于數據記憶庫的翻譯方法,可以避免人工翻譯的重復工作,提高翻譯工作的效率,應用前景廣泛。

猜你喜歡
庫中英漢翻譯短語
英語專業學士學位論文摘要的元話語特征研究
頭韻的英漢翻譯在《學術英語》的實踐和研究
街頭的人
功能強大的濾鏡庫
高校英漢翻譯課程思政建設的思考與實踐
高校英漢翻譯理論與技巧探究
從今天開始
The Impact of Media on Society
《健民短語》一則
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合