?

基于英語翻譯應用視角下的計算機智能校對系統開發研究

2020-05-11 11:44孫瑞
微型電腦應用 2020年2期
關鍵詞:英語翻譯

摘 要: 隨著人工智能等計算機相關技術的發展,利用計算機進行英語翻譯工作也逐漸成為研究方向之一,受限于算法及匹配度等因素影響,英語翻譯仍存在瓶頸。因此,提出了基于英語翻譯應用視角的計算機智能校對模型并進行開發研究,該模型能夠在單詞級別上直接整合附加注釋——包括語言標記或自動生成的單詞類?;诖四P偷膶嶒灡砻?,基于英語翻譯應用視角下的計算機智能校對模型可以在自動得分和更多語法連貫性方面帶來更好的翻譯表現,最后還從硬件、軟件兩方面探討了計算機智能校對系統開發。

關鍵詞: 英語翻譯; 智能校對; 訓練樣本

中圖分類號: TP311 ? ? ?文獻標志碼: A

Research on the Development of Computer Intelligent Proofreading System

Based on the Perspective of English Translation Application

SUN Rui

(Xian Innovation College, Yanan University, Xian 710100)

Abstract: With the development of computer-related technologies such as artificial intelligence, the use of computers for English translation has gradually become one of the research directions. Due to factors such as algorithm and matching degree, English translation still has bottlenecks. Therefore, this paper proposes a computer intelligent proofing model based on the perspective of English translation application and conducts research and development. This model can directly integrate additional annotations at the word level, including language markers or automatically generated word classes. Experiments based on this model show that the computer intelligent proofing model based on the perspective of English translation application can bring better translation performance in terms of automatic score and more grammatical coherence. Finally, the development of computer intelligent proofreading system is discussed from both hardware and software aspects.

Key words: English translation; Intelligent proofreading; Training samples

0 前言

隨著人工智能等計算機相關技術的發展,利用計算機進行英語翻譯工作也逐漸成為研究方向之一[1、2]。當前最先進的計算機機器翻譯方法,即所謂基于短語的模型,但僅限于小文本塊的映射,由于沒有明確使用語言信息,可能是形態學、句法或語義。通過將其集成到預處理或后處理步驟中,已經證明這些附加信息是有價值的[3-5]。一般而言出于兩類原因,需要將語言信息更緊密地整合到翻譯模型中:以更一般表示形式操作的翻譯模型,例如詞條而不是表面形式的詞,可以利用更豐富的統計數據并克服由有限的訓練樣本引起的數據稀疏性問題,翻譯的許多方面可以在形態學、句法或語義層面上得到最好的解釋[6]。將這些信息提供給翻譯模型可以直接建模這些方面,例如:句子級別的重新排序主要由一般句法原則驅動,局部協議約束在形態學中出現等,然而這些翻譯卻只能針對短語有效[7]。許多學者已經進行了許多嘗試以向統計機器翻譯模型添加更豐富的信息,其中大部分都集中在對統計系統的輸入進行預處理或對其輸出進行后處理[8、9]。因而我們將基于短語的方法擴展到統計翻譯,提出了基于英語翻譯應用視角下的計算機智能校對模型,該模型允許在單詞級別進行額外注釋,在框架中的一個詞不僅是一個標記,而是一個代表不同注釋級別的因子向量如圖1所示。

豐富的形態通常對統計機器翻譯構成挑戰,因為源自相同引理的多種單詞形式將數據分段并導致稀疏的數據問題。如果輸入語言在形態上比輸出語言更豐富,那么在將輸入傳遞到翻譯系統之前,它有助于在預處理步驟中對輸入進行干擾或分段[10、11]。

本文描述了因式轉換模型的動機、建模方面和計算有效的解碼方法,并簡要介紹了許多語言對的結果。統計機器翻譯中的缺點是形態學處理不當,每個單詞形式在其中被視為一個標記[12-13]。這意味著翻譯模型會將單詞“house”視為完全獨立于單詞house,樣本數據中的任何房屋實例都不會為房屋的翻譯增加任何知識。在極端情況下,雖然房屋的翻譯可能是模型已知的,但房屋可能是未知的,系統將無法翻譯它。雖然這個問題在英語中沒有顯示出來——由于英語形態學上的變形非常有限,但它確實構成了形態豐富的語言,如阿拉伯語、德語、捷克語等的重大問題[1]。因而,可以在引理水平上對形態豐富的語言之間的翻譯進行建模,從而匯集來自共同引理的不同單詞形式的證據。在這樣的模型中,我們引入了因式轉換模型分別翻譯引理和形態信息,并在輸出端組合這些信息以最終生成輸出表面詞,如圖2所示。

2 基于英語翻譯應用視角下的計算機智能校對模型 ?基于英語翻譯應用視角下的計算機智能校對模型(Computer Intelligent Proofing,簡稱CIP模型)嚴格遵循基于短語的模型的統計建模方法,主要區別在于樣本數據的準備和從數據中學習的模型類型。

2.1 翻譯分解

將輸入詞的因式表示轉換為輸出詞的因式表示被分解為一系列映射步驟,這些步驟將輸入因子轉換為輸出因子,或者從現有輸出因子生成額外的輸出因子。在本模型中,轉換過程分為以下3個映射步驟:1、將輸入引理轉換為輸出引理;2、翻譯形態和POS因素;3、根據引理和語言因素生成表面形式[2]。分解的翻譯模型建立在基于短語方法的基礎上,該方法將句子的翻譯分解為小文本塊(所謂的短語)的翻譯,如圖3所示。

2.2 樣本訓練

首先,訓練數據須用其他因素注釋,會涉及在語料庫上運行自動工具,因為手動注釋的語料庫很少且生產成本很高。其次,需要為并行訓練中的所有句子建立一個單詞匹配機制,單詞對齊方法可以對單詞的表面形式或任何其他因素進行操作。再者,每個映射步驟都構成整個模型的一個組成

部分,從訓練的角度來看,這需要從單詞對齊的平行語料庫中學習翻譯和生成表,并定義評分方法,幫助用戶在模糊映射之間進行選擇。

2.3 組件組合

與基于短語的模型一樣,CIP模型可以將因式分析模型視為幾個組件的組合,這些組件定義了一個或多個在對數線性模型中組合的要素函數[3]如式(1)。pef=12exp∑ni=1λihie,f

(1) ?Z是在實踐中被忽略的歸一化常數,為了計算給定輸入句子f的翻譯概率,必須評估每個特征函數hi,如式(2)。hLMe,f=pLMe=

pe1pe2e1..pemem-1

(2) ?需要考慮由語言模型翻譯和生成步驟引入的特征函數,輸入句子f到輸出句子e的翻譯分解為一組短語翻譯j,j。

對于翻譯步驟組件,給定評分函數τ,在短語對j,j上定義每個特征函數hT如式(3)。hTe,f=∑jτj,j

(3) ?對于生成步驟組件,給定評分函數γ的每個特征函數hG僅在輸出字ek上定義如式(4)。hGe,f=∑kγek

(4)2.4 高效解碼

CIP模型將短語翻譯分解為若干映射步驟會產生額外的計算復雜性。在基于短語的模型中,很容易識別短語表中可用于特定輸入句子的條目。波束搜索解碼算法以空假設開始,通過使用所有適用的翻譯選項生成新假設,以相同的方式產生進一步的假設,依此類推,直到創建覆蓋整個輸入句子的假設,最高得分完全假設表示根據模型的最佳翻譯[4]。

由于所有映射步驟對相同的短語分段進行操作,可以在啟發式波束搜索之前有效地預先計算這些映射步驟的擴展,并將其存儲為轉換選項。

在給定映射步驟的情況下,需要注意轉換數量的組合過量,可能會創建太多的翻譯選項來處理。目前通過早期篩選擴展來解決這個問題,并且默認情況下將每個輸入短語的翻譯選項數量限制為最大數量,然而,這并不能完全解決選項過多的問題。

3 實驗與系統開發

3.1 語法輸出

在第一組實驗中,翻譯單詞的表面形式并從中生成額外的輸出因子(見圖4),通過添加形態學和淺層句法信息,使用高階序列模型使得句法連貫,結果如表1[3-6]所示。

(1) 英語——德語系統在完整的751 088句Europarl語料庫上進行了訓練,在輸出端添加詞性和形態因子并進行微小改進,因子模型將長度≥3的名詞短語中的不一致誤差從15%減少到4%。

(2) 英語——西班牙語系統在Europarl語料庫的40 000個句子子集上進行了訓練,使用序列模型在輸出端使用形態學和詞性因子,導致僅變形和變形+POS的絕對改善。

(3) 英語——捷克系統接受了華爾街日報20 000句的訓練,表明添加所有特征會導致較低的表現(27.04%),所有模型的得分遠高于BLEU 25.82%的基線。

3.2 形態分析與生成

本文使用52 185句新聞評論語料庫對語言對德語—英語進行了實驗。實驗結果表明使用詞性語言模型時的改進——BLEU評分從18.19%增加到19.05%。從表面單詞翻譯映射轉向引理/形態映射會導致性能下降至BLEU得分為14.46%[10、11],如表2所示。

替代路徑模型優于+POS LM的表面形式模型,BLEU得分為19.47%,該測試集具有3 276個未知單詞形式與2 589個未知單詞形式。因此,引理/變形模型能夠翻譯687個附加單詞。

3.3 使用自動Word類

最后,通過將詞語通過其上下文相似性聚集在一起,能夠找到可能導致更通用的模型統計相似性。在IWSLT 2006任務上訓練了模型,在輸出側添加詞類作為附加因子(如圖4所示)。

通過分解翻譯模型,可以通過添加生成步驟將此步驟集成到模型中。綜合評估模型的表現優于標準方法,BLEU評分為21.08%至20.65%,如表3所示。

3.4 系統的開發

3.4.1 系統架構

此研究英語翻譯計算機智能校對系統架構設計圖5中的5大模塊共同組成了該校對系統主要結構部分,如圖5所示。

圖5中的5大模塊在進行英語翻譯校對過程中形成的工作行為數據,通過工作日記模板記錄下來的,然后這些記錄就是為后臺工程師查看系統工作狀況提供了真實的依據,從而為他們研究本系統工作過程存在的問題,制訂有針對性,且有效的處理措施提供了便利,最后達到優化校對系統的目的。

用戶模塊主要為用戶提供登陸、搜索、查詢等服務的模塊;翻譯校對模塊顧名思義就是對英語翻譯模塊翻譯的結果進行校對;搜索模塊主要對語句中詞匯特點進行分析與選擇;工作模塊的功能就是立足于英語翻譯智能校的基礎之上,對英語翻譯智能校對進行及時完成。工作模塊接收到校對命令之后,它就會接收到來自翻譯模塊的搜索鏈接,英語翻譯模塊依據分析等待校對語句的各個詞匯特點,依據它的相似度把翻譯結果進行排序,最后從中選出最符合實際的翻譯結果。那么用戶就能夠在用戶模塊就能查尋到相應譯文結果[11]。

3.4.2 硬件設計

(1) 關于搜索模塊設計。 搜索模塊在接收到用戶登陸系統提供的信息時,立即對有相關詞匯進行處理與特點搜索等方面工作。此模塊為了完成此操作,通過建立映射線程方式,獲取等待校對詞匯實際意義,以及搜索學科內容,從而為即將校對的詞匯的特點提取奠定基礎。此映射線程是屬于一對多模式的線程,等待校對詞匯的學科內容包括線程上的全部映射點,與學科內容非常接近的學科也將含括了少數映射特點。這種能夠保障在可能接近答案的出現在搜索范圍之內,戶由于其表達過錯而導致搜尋結果的錯誤率大大減少。

(2) 行為日志設計。行為日志主要是對用戶在使用該校對系統時,所發生的各種行為,以數據展現出來的記錄。倘若用戶第二次使用此系統時,行為日志就會對用戶使用的足跡出現了記錄。倘若用戶對同一類英語翻譯產生了多次校對,系統就能夠智能地增添詞匯翻譯范圍。就能夠搜索到更多用戶可能所需要的結果,以此來提升系統的校對性能,從而使得該智能校對系統的精準性得到提升。

3.4.3 軟件設計

英語翻譯與英語翻譯校對兩者共同之處,就是通過一種方式的文本向另一種方式文本轉換。所以,英語翻譯計算機智能校對過程,從本質上而言,就是對沒有翻譯的語句進行翻譯的過程。把校對的結果與剛開始翻譯的結果進行對比與更換,從而實現英語的翻譯的智能校對。

此文中英語翻譯錯誤的結果用H來進行表示,而正確的英文翻譯結果是由來表示,由H向轉變就是英語翻譯的整個過程。優化短語翻譯模型的英語機器翻譯措施如式(5)。=arg max M(D|H)=arg max M(M|D)×M(D)

(5) ?英語機器翻譯的措施所取得的結果中的詞匯翻譯精確度還是有所欠缺,而采用智能英語翻譯措施就對其詞匯翻譯精準度比較重視。也就是(5)式中的M(D)精準度。因此對(5)進行優化的基礎實現計算機智能校對;此外還有從優化短語翻譯模型的計算機智能化校對措施所對應的偽代碼來實施代碼校對[12]。由于篇幅關系,其實施的詳細方法,筆者在此就不再展開論述。在英語翻譯智能化校對過程中,最重要的就探尋適合劃分等待校對詞匯的H措施,對劃分結果進行一個一個校對,從而獲得排列成D順序的校對結果。

4 總結

總之,本文采取短語模型的統計建模方法設計了一款新型智能化英語翻譯校對系統。文章首先從翻譯分解、樣本訓練、組件組合、高效解碼等方面方分析英語翻譯應用視角下的計算機智能校對模型;接著對其進行語法豐富輸出實驗,實驗結果表在自動分數(BLEU高達2%的增益)方面,以及語法一致性的衡量標準,CIP模型都有所增加。因而說明在分解翻譯模型的框架內,可以成功地利用附加信息來克服當前主導的基于短語的統計方法的一些缺點;最后從系統架構、系統硬件、以及軟件等方面簡要了分析系統設計過程。

參考文獻

[1] 馬云彤. 基于Android和iOS移動終端的作者遠程校對方法[J]. 中國科技期刊研究, 2015, 26(2):180-184.

[2] 程顯毅, 孫萍, 朱倩. 基于HNC的中文文本校對系統模型的研究[J]. 微電子學與計算機, 2009, 26(10):49-52.

[3] 李春蘭. 英語口語自動發音校對系統設計[J]. 現代電子技術, 2017, 40(24):59-61

[4] 基于統計翻譯框架的蒙古文自動拼寫校對方法[J]. 中文信息學報, 2013, 27(6):175-180.

[5] Haehn D, Knowles-Barley S, Roberts M, et al. Design and Evaluation of Interactive Proofreading Tools for Connectomics[J]. Visualization & Computer Graphics IEEE Transactions on, 2014, 20(12):2466-2475.

[6] Aiawami A K, Beyer J, Haehn D, et al. NeuroBlocks-Visual Tracking of Segmentation and Proofreading for Large Connectomics Projects[J]. IEEE Transactions on Visualization & Computer Graphics, 2015, 22(1):738-746.

[7] Chan A H, Tsang S N, Ng A W. Effects of Line Length, Line Spacing, and Line Number on Proofreading Performance and Scrolling of Chinese Text[J]. Journal of the Human Factors & Ergonomics Society, 2014, 56(3):521-534.

[8] 王文輝,吳敏華,駱力明,等.基于相似度算法英語智能問答系統設計與實現[J].計算機應用與軟件,2017,34(6):62-68.

[9] 斯·勞格勞.蒙古語固定短語識別算法的設計與實現[J]. 中文信息學報,2017,31(5):1316-1320.

[10] 李業剛,梁麗君,孫福振,等.融入雙語最大名詞短語的機器翻譯模型[J].計算機應用研究,2017,34(5):1316-1320.

羅滔.試論英漢語言差異對英語筆譯的影響及翻譯策略[J].鄂州大學學報,2004(20):64-65.

[11] 朱麗云,徐靜嫻.中華文化負載詞翻譯研究——基于2013—2018年全國大學英語四級段落翻譯題的分析[J].英語教師,2019():67-69.

[12] 王茹.英漢翻譯中的插入語翻譯策略——以《自尊心理學》的漢譯為例[D].北京:北京外國語大學,2018.

(收稿日期: 2019.06.24)

作者簡介:孫瑞(1983-),女,榆林人,碩士,講師,研究方向:機器翻譯等。文章編號:1007-757X(2020)02-0145-04

猜你喜歡
英語翻譯
逆向思維在大學生英語翻譯教育中的導入和培養
人工智能支持下如何開展高校英語翻譯活動課教學
數字化時代英語翻譯教學新模式探究
新形勢下再議大學英語翻譯教學概述
文化建構與文化欠缺對英語翻譯實踐的影響探索
旅游英語翻譯中常出現的問題及解決措施
“互聯網+”背景下高校英語翻譯教學模式的創新思考
英語翻譯教學中的德育滲透
以學生為中心的高職英語翻譯教學探析
英語翻譯中跨文化視角轉換及翻譯技巧的思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合