?

基于語料庫的翻譯單位本體性研究

2020-09-03 03:51李康熙
關鍵詞:歧義語料庫譯文

李康熙,孟 潔

(合肥工業大學 外國語學院,合肥 230601)

一、引 言

眾所周知,文本的翻譯并非是逐詞進行的。首先,單詞本質上是多義的(polysemous),在脫離上下文語境時很難確定其具體涵義;其次,源語與目標語的詞法、句法和語義體系不盡相同,因此多數情況下無法在詞匯層面上建立二者的一一對應關系。鑒于以上事實,翻譯學研究中引入了翻譯單位這個概念,用于描述譯者在翻譯過程中所使用的操作單位。

不幸的是,盡管翻譯單位的概念很早即已提出[1]21,且在翻譯學研究中引起了足夠多的討論,但是由于研究方法上普遍缺乏對翻譯單位本體的重視,一定程度上造成了翻譯單位概念的混亂。彭長江[2]認為某些學者“往往不明確否定巴氏[巴爾胡達羅夫]定義的核心,實際上將其拋棄,卻不為翻譯單位重新下定義”。司顯柱[3]也曾指出在翻譯單位問題上,各家立論之間彼此相互對立,互不相容。只有回歸翻譯單位的本體性研究,才有可能厘清翻譯單位的基本性質,并為后續研究提供準確的概念參照體系。

本研究擬轉變現有的翻譯單位研究的范式,通過語料庫定量研究方法來代替傳統的定性研究方法來界定翻譯單位的內涵與外延。在詳細對比各種翻譯單位定義的基礎上,本研究總結了翻譯單位的四種基本屬性,并據此對雙語平行語料庫中的翻譯單位進行手工標注。最后對標注結果進行統計分析,進而加深人們對翻譯單位概念的本體性認識。

二、翻譯單位定義

縱觀翻譯單位的研究歷史可見,早期的翻譯單位研究傾向于對翻譯單位給出明確的定義,其中具有代表性的定義及其翻譯如下:一是最小的話語片段,其全部符號結合得如此緊密以至于不可能分開翻譯[1]21。二是在譯文中能夠找到對應物的源文單位,但它的組成部分單獨地在譯文中卻并沒有對應物。換言之,翻譯單位就是源語在譯語中具備對應物的最小(最低限度)的語言單位[4]。 三是最小的可以獨立于其他部分而作為一個整體翻譯的源文片段[5](1)此處為Newmark對Vinay & Darbelnet提出的翻譯單位定義的重新闡述。。四是譯者在翻譯時所關注的源文片段,該片段在目標語中需要作為一個整體來對待[6]。五是翻譯過程中最小的無歧義的(源文)語言單位[7]。六是兩類(翻譯)單位稱為話語層翻譯的分析單位和轉換單位。話語層翻譯的分析單位指一個相對完整的語言材料,它能幫助我們對話語內部、話語外部以及屬于理解語言心理機制等方面的非語言因素做出恰當分析的單位。話語層翻譯的轉換單位指在譯文中能夠找到相應的源語單位,不過它的組成部分不一定能在譯文中找到對應物[8]。

這些代表性的翻譯單位定義的共性是顯而易見的,即它們都認為翻譯單位是源文的某一級語言單位,它由于某種因素在翻譯過程中作為一個整體來對待。這些定義還暗示著,翻譯單位并非一成不變地固定在詞匯這個級別,否則我們將沒有任何必要去研究這種翻譯現象。對比發現,各翻譯單位定義之間的差異主要在于如何界定翻譯單位這個方面。本研究總結認為,翻譯單位的定義屬性包括以下四個方面:

一是緊密性(compactness),即源文某語言單位內部各成分密不可分,因此不可以分開逐個翻譯或根據字面意思進行翻譯。如上所述,Vinay和Darbelnet的翻譯單位(見定義一)就是根據緊密性來定義的。

二是獨立性(independence),即源文某語言單位與上下文其他成分相對獨立,也就說無需參照上下文即可給出翻譯對應物。獨立性可以看作是緊密性的對立面。前者從語言單位的外部特征來界定翻譯單位,后者則從語言單位的內部屬性著手。根據定義,獨立性是Newmark的翻譯單位的根本特征。

三是無歧義性(lack of ambiguity),即源文某語言單位在語義上是自足的。將無歧義性作為翻譯單位根本屬性的代表人物是Teubert[7,9]。他注意到很多詞匯單位都是多義性的,其具體意義取決于上下文語境,所以最小的可翻譯單位應該是單詞和其相關的上下文語境的組合,這些上下文語境提供了消除詞匯歧義的所有必要信息。

四是無對應性(lack of correspondence),即源文某語言單位本身在譯文中有對應物,但其下一級組成單位卻沒有對應物。強調翻譯單位的無對應性特征的代表人物是巴爾胡達羅夫。與基于源文分析的緊密性、獨立性和無歧義性特征不同,無對應性特征不是根據源文各符號之間的銜接關系來判斷翻譯單位的?;跓o對應性定義的翻譯單位是轉換性的,一切視源文某單位是否在譯文中具有對應物而定。

以上四種定義屬性分別從不同的角度來界定翻譯單位,體現了翻譯單位的多重特征。在翻譯的分析過程中,翻譯單位取決于源文某單位內部各成分之間的緊密性、與上下文之間的獨立性、語義上的無歧義性等特征;而在翻譯的轉換過程中,翻譯單位則取決于該語言單位及其組成成分與譯文單位的對應關系。對于同一源文單位,根據不同的定義屬性可能會得到不同的判定結果。通過下面的語料標注過程和結果分析,我們可以清晰地發現這四種界定標準之間的區別和聯系。

三、數據搜集及處理

本研究劃分翻譯單位的標準是根據上文提到的四種定義屬性來制定的。其中,緊密性、獨立性和無歧義性三種屬性是作為一個整體來處理的。這主要是出于兩方面考慮:其一,三者都是從源文的角度來分析翻譯單位的,因此切分結果彼此重合之處很多;其二,緊密性與獨立性劃分標準的主觀性較強,在實際操作時很難處理,而結合無歧義性標準之后則能夠獲得較為確切的分析結果。相對而言,無對應性標準則是從源文與譯文的對比角度來分析翻譯單位的,與其他三種標準差異較大,因此本研究將其區別對待。

本研究中翻譯單位的標注語料來自NIST 2002機器翻譯評測項目的測試集[10]。該語料庫包括491對句珠,體裁全部為新聞語料,見表1。

表1 用于翻譯單位標注的語料庫情況

此語料庫中的所有句珠都是1∶1的對齊模式。這意味著在標注過程中不可能出現比句子更大的翻譯單位的情況。對于每一對句珠,我們用中括號對英文中的翻譯單位進行手工標記。例如:

此例是按照無對應性標準來劃分翻譯單位的。其中,短語foreign military presence的各個組成部分在譯文中都有確定的對應物,因此,根據無對應性定義,此短語中的每個單詞都是翻譯單位。相反,如果根據緊密性或獨立性定義,foreign military presence整個短語可視為一個整體概念,因此更適合被標記為一個短語層的翻譯單位。從無歧義性的角度看,foreign和military兩個詞基本上是單義的,但是presence卻是一個多義詞。只有根據上下文中的特征詞military才可以斷定它指的是軍隊進駐,而不是一般意義上的出席或者存在。鑒于此,綜合緊密性、獨立性和無歧義性三種屬性的分析結果,本研究將foreign military presence標注為一個基于源文分析(即綜合考慮緊密性、獨立性和無歧義性三個標準)的翻譯單位,用中括號標注如下:

詞性標注是語料預處理的常見步驟。本研究對英文和中文文本進行詞性標注的工具為Stanford POS Tagger工具包[11]。之所以使用詞性標注工具是為了發現翻譯單位的統計分布與詞性之間的統計關聯。

四、結果分析

傳統的翻譯單位研究方法通常依賴個人內省經驗,導致研究結論主觀性較強。相反,本研究根據語料庫中的真實翻譯實例進行統計分析,從而能夠獲得更加客觀可信的結論。以下是從雙語對應語料庫的標注結果中得到的幾個主要研究發現。

1.翻譯單位的統計分布

根據無對應性標準,本研究從上述語料庫中共劃分出8 568個翻譯單位,而基于源文分析的翻譯單位共7 295個。具體的標注結果見表2和表3。

表2 基于無對應性的翻譯單位統計

表3 基于源文分析的翻譯單位統計

由表2可見,基于無對應性的翻譯單位主要集中在一元組(unigram)和二元組(bigram)這兩個層次上。需要指出的是,本語料的體裁為新聞稿,其中有大量的人名或地名采用音位(字位)層的翻譯方式,從而導致該層次的翻譯單位比例比正常文本大很多,可見文體是影響翻譯單位大小的因素之一。另外,所有的音位(字位)層翻譯單位實際上僅僅是由591個單詞切分而成的,約占整個英文語料的4.33%。如果按照單詞數目來計算的話,實際上以音位(字位)層作為翻譯單位的比例是遠低于三元組(trigram)翻譯單位的。通過對比兩類翻譯單位的統計結果,本研究發現以下規律:

其一,與基于無對應性的翻譯單位相比,基于源文分析的翻譯單位平均長度更大。前者的平均長度是1.25詞/單位,后者則達到2.49詞/單位。

其二,基于源文分析的翻譯單位分布區間更大。在極端情況下,翻譯單位的長度達到12個單詞,如cost the US corporations and government agencies billions of dollars in losses,由于cost和in losses之間的遠距離依存關系(long-distance dependency),導致該單位中各部分不能分開獨立翻譯。

其三,基于源文分析的翻譯單位分布更加均勻。從表3可見,雖然此類翻譯單位以三元組為主,但是與其他長度的翻譯單位相比,統計學差異并不明顯。相反,基于無對應性的翻譯單位則呈現出截然相反的趨勢,多達53%的無對應性翻譯單位都出現在單詞這個層次上。換句話說,基于無對應性的翻譯單位的分布規律性更強,而基于源文分析的翻譯單位則主要呈隨機分布的特點。

除了長度上的差異之外,本研究還發現兩類翻譯單位的切分結果是密切聯系的。一般來講,基于源文分析的翻譯單位與基于無對應性的翻譯單位呈現一種包含與被包含關系。具體來說,前者一般是后者的同級或者上一級語言單位。前者傾向于將詞與其上下文語境組合為翻譯單位,后者則傾向于以詞為翻譯單位。

這種現象是很容易解釋的。各種基于源文分析的翻譯單位,不管是出于內部的緊密性、與上下文的獨立性還是無歧義性考慮,最終的結果都要求這些源文單位在譯文中具有對應物。這是所有翻譯單位定義所暗含的前提假設。只有在找到源文某單位在譯文中的對應物之后,我們才會進一步討論它是否符合緊密性、獨立性或無歧義性標準。如果不符合以上翻譯單位標準的話,我們將繼續分析該單位的上層語言結構,依此類推?;跓o對應性的翻譯單位的判斷過程與此恰恰相反:在確定了源文某單位在譯文中的對應物之后,我們將分析該單位的下層結構在譯文中的對應情況。當且僅當它的內部某成分在譯文中缺乏對應物時,才可以判定它是一個基于無對應性的翻譯單位。

以上分析清晰地表明,翻譯單位本質上是一個動態的復雜概念。隨著分析的角度不同,翻譯單位的大小不盡相同。而且,即使選擇了確定的角度,我們也不能一勞永逸地將翻譯單位固定在某個特定的語言層次。鑒于此,本研究認為,我們有必要采取兼容并包的方式來重新定義翻譯單位,即源文中任何一個語言單位,只要它滿足上述四種定義屬性中的任何一個,即可將其認定為翻譯單位。只有這樣,我們才能將翻譯單位概念應用于整個翻譯的分析和轉換過程中。

2.翻譯單位的影響因素

影響翻譯單位的因素是多方面的。結合詞性標注工具本研究發現,翻譯單位既與單詞詞性、源語與目標語的相似程度等客觀因素,又與譯者的翻譯策略等主觀因素密切相關,見表4。

表4 不同詞性的英文單詞與漢語的對應情況

由表4可見,源文單詞詞性不同,作為翻譯單位(基于無對應性標準)的幾率也不相同。其中,實詞比虛詞更有可能在譯文中找到對應。名詞、主要動詞、形容詞和副詞在譯文中具有對應物的比例都在80%以上,但是冠詞、代詞、連詞、助動詞、嘆詞和小品詞等虛詞在譯文中的對應比例通常較低。這些虛詞通常與鄰近的實詞組合在一起成為翻譯單位,如agree to/贊成和call on/呼吁。多達75%的二元組翻譯單位是由一個實詞和一個虛詞組成的。

除此以外,翻譯單位還與翻譯的具體語言密切相關。某些語言之間的親緣關系如此接近,以至于大多數時候源文的詞,甚至是比詞更小的音素或詞素都可以作為翻譯單位;另一種極端情況是,翻譯涉及的兩種語言差異如此之大,以至于譯者只能在比詞更大的層次上建立對應關系。毋庸置疑,英漢翻譯的翻譯單位肯定與英法翻譯的翻譯單位有著截然不同的分布特征。

譯者的主觀策略也一定程度上能夠影響翻譯單位的大小。以本語料庫中nuclear weapon為例。一種情況下,譯者省略了weapon的對應詞武器,將其譯為核子,此時整個短語便成為一個基于無對應性的翻譯單位。同時,我們在語料庫中還發現另外一種譯法,即nuclear weapon/核武器。由于此例中的每個源文單詞在譯文中都能找到對應物,翻譯單位不再是短語,而是單詞。由此可見,譯者在翻譯時總是擁有一定的自由度,通過個性化的遣詞造句方式來影響到翻譯單位的大小。

五、結 論

本研究從翻譯單位的主要定義出發,通過分析它們在內涵和外延方面的細微差別,最終總結出四種基本的翻譯單位定義屬性,即緊密性、獨立性、無歧義性和無對應性。然后,應用基于語料庫的定量研究方法分析了各類翻譯單位屬性之間的區別和聯系。

研究發現,基于源文分析的翻譯單位定義分別將緊密性、獨立性和無歧義性作為判斷的標準,而基于無對應性的翻譯單位定義則將譯文與源文之間的映射關系作為判斷的依據。盡管存在種種差異,各翻譯單位定義的共性在于它們都強調了同一類語言現象,即譯者在翻譯過程中并不總是在詞的層次上進行翻譯操作的。

從翻譯單位的統計分布來看,基于源文分析的翻譯單位比基于無對應性的翻譯單位長度更大,分布更均勻。但是兩者之間也是緊密聯系的。一般來說,前者與后者呈現一種包含與被包含關系。雖然在翻譯的分析過程中,譯者出于某種考慮將源文某單位作為一個整體對待,但是在后續的轉換過程中,譯者仍然有可能將此整體單位拆分并逐個建立譯文對應。這體現出譯者在翻譯時“大處著眼,小處著手”的思維過程。

總而言之,翻譯單位是多種主客觀因素共同作用的結果。它與源文的單語特征(如詞性)、源語與目標語的關系(如語法和詞匯的相似性)以及譯者的主體性(如個性化的遣詞造句)等因素密切相關。為了更好地描述翻譯過程的全貌,本研究主張采取兼容并包的態度,將翻譯單位定義為源文的某一語言單位,它由于具有緊密性、獨立性、無歧義性或無對應性四種屬性之一,因此被視作一個整體來翻譯。

猜你喜歡
歧義語料庫譯文
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
平行語料庫在翻譯教學中的應用研究
現代漢語歧義類型的再討論
《語料庫翻譯文體學》評介
eUCP條款歧義剖析
語文教學及生活情境中的歧義現象
弟子規
弟子規
基于關聯理論的歧義消除研究
語篇元功能的語料庫支撐范式介入
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合