?

人機耦合視域下的機器翻譯質量評價方法

2023-03-23 12:18么娟邵輝
現代英語 2023年18期
關鍵詞:譯文人工錯誤

么娟 邵輝

(北京工業大學,北京 100124)

在過去的幾十年中,技術進步在翻譯研究領域占據越來越重要的地位。 從計算機文檔編排工具的應用,到20 世紀90 年代的計算機輔助翻譯記憶,一直到最近的人工智能、機器學習以及智能語音識別系統,機器翻譯在翻譯研究和日常翻譯實踐中都發揮了越來越重要的作用。 為了更好地評價機器翻譯發展現狀,必須首先回答如何定義機器翻譯質量以及怎樣測量機器翻譯質量這兩個重要問題。

一、 翻譯質量的定義

機器翻譯質量并不是一個獨立于傳統“翻譯質量”研究之外的概念。 在傳統翻譯質量研究領域同樣存在普適質量標準和功能質量標準之爭。 普適質量觀認為,有些翻譯準則(如符合目的語語法、真實準確反映源文意義),是任何翻譯情境和功能都要滿足的翻譯準則;而功能質量觀則認為,翻譯行為受翻譯目的驅動,因此如果不知道譯文的翻譯目的,質量評價也就無從談起。 而且譯文翻譯目的也不一定受源文目的約束,譯文可能面臨與源文完全不同的文化社會環境、服務不同的翻譯目的[1]。

不同質量觀視角下對翻譯質量的不同評價標準應運而生。 House 將翻譯質量評價分為四類:①心理社會學方法;②基于反應的方法;③基于語篇和話語的方法;④功能—語用主義流派。 Chesterman 則認為翻譯質量體現在多種互動關系當中,包括:譯文與源文的互動(與源文相比譯文是否適恰、對等或相似);譯文與目的語同類文本的互動(譯文在目的語語境下是否流暢、可接受);譯文與翻譯目的(skopos)的互動(譯文是否達成翻譯目的);譯文與行業標準的關系(翻譯過程是否符合行業過程質量標準);譯文與譯者的互動(譯者在工作過程中的滿意度以及是否獲取合理酬勞)。

二、 機器翻譯質量評價方法及分類

機器翻譯同樣面對多樣化的質量評價標準,同時技術進步還使得機器自動質量評價成為可能。 面對多種多樣的機器翻譯質量評價方法,文章借鑒House 及Chesterman 等人的質量評價標準,將機器翻譯質量的評價方法分為人工評價和機器自動評價兩大類[2]。

(一)人工評價方法

即便機器翻譯水平已經經歷了重大進步,人類勞動在整個翻譯產業當中仍然發揮著重要的作用。其中一大核心就是通過人工對機器翻譯結果進行評價、審核以及譯后編輯。 根據評價過程文章將人工評價區分為心靈主義、錯誤類型標注和用戶評價三大類。

1. 評價譯文整體水平的心靈主義方法

與傳統翻譯評價類似,機器翻譯領域的心靈主義方法關注譯文的整體水平,未對具體語言細節進行過多分析。 從具體操作化層面,評價人員可以采用排序法(ranking)比較機器翻譯與人工翻譯,或者比較不同類型的機器翻譯結果,然后按照從高到低的方式進行質量排序。

(1)排序方法的使用評價

排序法的優點是簡單易操作,能夠以較低成本達到對機器翻譯質量的大體測量。 缺點是由于缺少具體的質量評價標準,這種評價方式易受到評價人主觀因素及質量評價水平的影響,評價者自信度不足。 而且由于缺乏對具體質量標準的描述,排序法無法深入分析翻譯質量排名高低背后的原因,也難以為后續軟件改進提供支持。

(2)對排序法的改進

為改進排序方法質量標準模糊的問題,部分研究將翻譯質量定義為適當和流暢。 適當也稱準確或忠誠,指譯文對傳達源文意義的準確傳達;流暢則是指譯文是否符合譯入語的語法詞匯標準。 通常對適當的評價以源文為核心,需要評價者具備雙語能力;而對流暢的評價則以譯文為核心,理論上評價者只需具備目的語能力即可。

2. 關注譯文細節的錯誤類別評價方法

相較于心靈主義方法的整體評價視角,錯誤類別評價方法傾向于分析性評價視角。 除了機器翻譯質量整體水平,研究者還希望對現有機器翻譯的具體問題進行評估,這就需要對翻譯結果中的錯誤進行識別。

對翻譯錯誤的識別基于傳統翻譯評價研究,Vilar et al.是該領域研究的先驅,通過對比中英、西英翻譯,將翻譯錯誤劃分為不同類別。 這些對錯誤類型的歸納研究同樣可以使用在機器翻譯質量評價當中,作為機器翻譯錯誤的識別框架。

3. 關注機翻使用者體驗的評價方法

機器翻譯質量可以從利益相關者體驗的角度進行評價和測量。 在機器翻譯領域,利益相關者主要分為兩大群體:翻譯作品用戶和譯者。

(1)翻譯用戶評價

相較于心靈主義和錯誤類型研究對翻譯結果的關注,部分學者認為翻譯質量的核心評價標準來自翻譯用戶。 用戶并不一定追求理想中的完美翻譯,不同用戶對翻譯質量存在不同期待。 因此,在用戶反應方法論下,翻譯質量好壞并不存在某種外在標準,而是最終由用戶來認定:用戶喜歡、滿意的翻譯就是好的翻譯。

用戶研究經常涉及的核心概念是譯文的可接受性、可讀性和可理解性。 可接受性指譯文是否符合讀者的期待或需求。 可讀性主要關于文本是否易于閱讀,主要測量指標包括譯文高頻詞及恰當搭配的使用頻率等。 可理解性主要關注讀者是否能夠理解譯文。 兩者的區別在于,可讀性源于文本本身,可理解性則關注讀者對文本的理解。 因此,即便是可讀性同樣的文本,可理解性由于讀者的教育背景、對文本的熟悉程度可能有所不同。 在可理解性測量上,一些研究要求讀者完成內容填空、回答閱讀理解題目,或復述文本內容來檢測其是否理解譯文內容。

(2)翻譯者體驗方法

機器翻譯技術發展的目的是輔助人類活動。 與傳統翻譯研究相比,翻譯結果使用者除了最終用戶,還有從事翻譯工作的譯者,因此譯者的使用體驗也成為質量評價的重要指標。 高質量的機器翻譯應該使翻譯者滿意、為翻譯者提供方便。

對可用性測量可以使用主客觀兩種方式。 從主觀方面來看,可以對翻譯者軟件使用的滿意度進行測量,這類研究通常采用調查研究方法。 從客觀方面來看,有些研究從是否降低翻譯者工作量的角度測量機器翻譯質量,在實踐中經常通過測量譯者“譯后編輯”工作量來對翻譯質量進行定義。

譯后編輯工作量可以分為三個維度:時間、技術和認知。 時間維度指測量人工在譯后編輯上所花費的時間,技術維度指人工在編輯中對機器翻譯進行修正的次數,認知維度指譯后編輯對人工造成的認知負荷。

譯后編輯工作時間通常是容易測量的指標,但是編輯時間通常受譯文長度影響,譯文越長需要編輯的時間也就越長。 同時不同編輯者的工作效率本身也存在差異,同一個編輯者在面對不同體裁、不同疲勞程度之下效率也有差異。 因此,在以編輯時長作為測量指標的研究當中,需要通過對編輯者隨機分組或打亂機器譯文出現順序等手段來控制編輯者效率和譯文體裁差異對研究結果帶來的影響。 對編輯者認知負荷,現有研究常用眼動研究或Translog鍵盤記錄來進行測量。 隨著現代技術發展,研究者開發出頭戴式磁共振成像儀,更加精確地記錄譯后編輯過程中的人腦活動[3]。

目前譯后編輯評價的局限在于人工編輯并不一定總能提升譯文翻譯質量。 譯后編輯人員可能會對譯文進行非必要調整。 相對真正需要改動的重大錯誤(語言錯誤或誤譯),很多時候譯后編輯是進行了一些非絕對必要的改動,如詞匯選擇、增加個別單詞、調整語序或標點。 不同人工評價者之間同樣存在較大差異,事實上并不存在所謂理想中完美的人工評價者[4]。

(二)自動評價方法

心靈主義方法和利益相關者反應方法的共同特點是以人工方式進行質量評價。 但人工評價在使用上經常存在耗時長、成本高、評價一致性欠缺的缺陷,因此很多研究者致力于創建機器自動評價模型。在這些模型中比較有代表性是錯誤類別評價模型和模擬人工評價模型。

1. 錯誤類型評價

在傳統錯誤類型描述的基礎上,研究者開發了機器自動錯誤識別模型。 該類模型起源于阿姆斯特丹的本地化行業標準協會。 其運行邏輯是將翻譯錯誤劃分為不同類型,以此來計算一篇譯文中錯誤類型的分布。

目前,在機器自動錯誤識別領域代表性模型是多維度質量矩陣(MQM)和動態質量框架(DQF)。MQM 模型由歐盟資助,由德國研究中心開發。 該系統將翻譯錯誤劃分為不同類別,不同類別之下最多包含四層逐漸細化的錯誤層級,總共設計了180 多種錯誤類型,并且根據錯誤嚴重程度將錯誤劃分為無錯、小錯、大錯、重大錯誤四種不同權重。

2. 錯誤類型評價方法的困難和挑戰

對錯誤類別進行細致分類可以為機器質量評價提供更加精確的信息,并且保障研究的一致性和可比性,但分類過細也容易造成一些錯誤難以歸類,會降低錯誤類別模型的普適性:一些在特定語言或文化情境運行良好的模型在不同語言或情境下精確度可能有所降低。 但是無論如何,一套完整精細的錯誤類別架構都可以為后續研究提供參照。 研究者可以在現有模型基礎上進行改進或本土化調整。

從整體開發邏輯上,自動錯誤識別系統在方法論上傾向普適質量觀,試圖開發出一套評價系統來對所有譯文進行評價。 但是在翻譯質量領域并不存在簡單的普適評價標準,也很難使用同一套錯誤類別系統來評價不同目的或文體的翻譯結果。 因此,自動錯誤識別系統在升級改進過程中試圖容納翻譯的復雜性、將文體、翻譯目的等多樣標準納入評價系統中。

MQM 和DQF 都試圖在原有基礎上納入功能主義評價標準。 在形成本地評價系統之前,兩類系統都需要用戶首先回答一些核心問題:評價什么,誰來評價,在哪評價,何時評價,為何評價等。 不同之處在于,MQM 在系統中內置大量翻譯評價指標,用戶可以根據不同的翻譯情境和功能需求對翻譯質量指標類別和權重自行定義;而DQR 則是根據用戶需求,對評價機制進行定制。

3. 模擬人工評價方法

目前,另一種主流的機器自動評價方法是模擬人工評價方法,即將機器譯文與前期篩選的代表性人工譯文進行對比,然后根據機器翻譯與人工譯文是否相似來為機器翻譯打分。 BLEU,TER 和METEOR 等模型都是基于這種評價思路搭建[5]。

這類統計評價模型的運行機制是,模型會對機器翻譯文本與同類人工翻譯文本進行對比,如翻譯方式相近,則機器翻譯文本質量較高。 因此,為模型提供的人工優秀譯文參照越多,模型對譯文質量評價的有效性越高。 但多數人的翻譯方式在特定情境下不一定就是高質量的翻譯。 因此,該模型在原有統計評價基礎上引入神經網絡方法。 將翻譯發生的特定主題情境納入評價機制,精準搜索并參照特定語境之下的特定翻譯結果,提供最優翻譯評價方案,以便將大眾評價與具體情境結合起來。

模擬人工評價方法的評價效率高、成本低、結果可比性強,但其也具有一定局限性。 首先,機器翻譯質量標準是代表性人工翻譯,這些代表性譯本仍然需要人工進行篩選和設置,此過程具有較高主觀性。其次,根據翻譯實踐經驗,同一源文會產生不同譯本,這些譯本即便存在差異也都具有較高的翻譯質量,因此筆者認為只有與代表性譯本相似的翻譯才是高質量翻譯這種評價方式本身也具片面性。 而且在這種評價方式之下,機器翻譯也絕對不可能產生“創造性”,因為機器翻譯質量的天花板就是進行對標的參考文本,與參考文本不同的譯文都會被識別為不當翻譯。

三、 結論

雖然機器翻譯以及自動評價模型的發展日新月異,人機耦合的工作模式仍然占據重要地位。 人類智慧貫穿整個機器翻譯質量評價的全過程,機器翻譯質量評價最終反映的是人類的價值觀、意識形態以及由此產生的對翻譯本身和翻譯質量的理解。 關于追求普適還是功能的翻譯觀,不同的質量評價方式也有不同側重。 需要注意的是,翻譯質量的定義和測評方法多種多樣,不同研究之間可能由于對質量定義不同或操作方法多樣而存在結果一致性不足的情況,對同樣的譯文,人類質量評價結果與機器自動評價結果可能也有所不同。 所以翻譯質量評價研究論文需要將本研究對“翻譯質量”的概念化定義和具體操作化方式進行明示,以提高研究透明度及可復制性。

猜你喜歡
譯文人工錯誤
人工3D脊髓能幫助癱瘓者重新行走?
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
在錯誤中成長
人工,天然,合成
人工“美顏”
譯文摘要
I Like Thinking
新型多孔鉭人工種植牙
不犯同樣錯誤
《錯誤》:怎一個“美”字了得
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合