平行語料庫設計及對應單位識別

2010-12-07 02:12李文中

當代外語研究 2010年9期

李文中

(河南師范大學語料庫研發中心,新鄉,453007)

本研究屬于國家社科基金項目“基于語料庫英語本土化研究及應用,編號:07BYY022”及“平行語料庫對應意義單位研究,編號:07BYY002”研究。本文基于李文中2006年在“上海交通大學慶賀楊惠中先生執教50周年暨應用語言學研討會”的演講“From Translation Units to Corresponding Units: a Corpus-driven Approach”,以及李文中在2007年“第五屆中國英語教學國際研討會暨第一屆中國應用語言學大會”主題研討會“Corpus-based Language Research”上的主題發言:“Corresponding Units: Identification and Application”。

1. 作為翻譯數據源的平行語料庫

語料庫語言學研究的出發點是自然語言,其研究成果的應用也應回歸到自然語言,研究的基本目的和任務是探索語言中的意義。在一個自然文本中,任何一個意義單位的識別和理解都不能脫離其共生的語境,也不能脫離文本中該意義單位與其他意義單位構成的復雜同義解釋關系。同理,任何文本也不是孤立的,理解一個文本需要借助其他同義文本或已知信息的參照。翻譯是一個高度依賴語境的過程,在翻譯過程中,譯者交互的對象包括文本、讀者,以及其他譯者?！昂玫姆g”是指那些在譯者社團中通過談判交際不斷被重復的翻譯,并通過重復應用得以確立。因此,當前的翻譯文本不僅僅是一種終端產品,還是聯接前后翻譯文本的重要環節,繼承了以往翻譯文本中大量的翻譯特征?；谄叫姓Z料庫的對應單位翻譯轉換對比分析,其主要意義在于充分尊重語言事實,尊重翻譯事實。

對應單位指對應源文本和目的文本中任何可識別的文本塊或片段。對應單位具有意義的完整性和相同性,并且具有各自的句法結構特征。由于其對語境高度敏感,并在結構上動態變化,對應單位可逆或不可逆。我們研究的問題是:1)在平行語料庫中如何界定等值性,如何在操作層面測量它？2)如何在平行語料庫處理中體現語料庫驅動原則？3)雙語視角對識別對應單位有何意義？本研究的目的是通過開發平行語料庫,確定對應單位識別程序,并建立對應單位數據庫。本研究的主要目標為:1)建立一定規模的平行語料庫,其語料應范圍廣泛,包括政治、經濟、科技等領域的現存中英文互譯文本。2)開發語料庫處理軟件,包括平行語料庫雙語對應單位的提取、儲存、記憶及檢索工具。3)漢英翻譯研究:基于所建平行語料庫,以初期在有限領域建立的模型為基礎,深入研究雙語文本的翻譯對應關系,并建立動態開放的對應單位數據系統。4)漢英對比研究:在雙語語料庫的基礎上進行文本的平行、對應及關聯研究,分析兩種語言的意義屬性、評價體系及批評價值。研究方法主要包括:1)利用網絡等手段,搜集平行文本語料,建立包括廣泛均衡語料的平行語料庫。2)對應單位識別:前期通過大量人工干預,在有限領域內建立初始模型,通過對應的識別單位數確認句子對應,利用后臺數據庫計算對應單位的頻率,再通過文類、體裁等參數確定對應單位的分布及頻率。3)對應單位分析。4)基于建成的平行語料庫和開發的軟件開展相關研究。

Teubert認為,正如自然語言運用一樣,翻譯實踐中譯者群體構成了一個特殊的語用話語社團,一切翻譯活動和行為都在這一特定的話語內進行。譯者通過翻譯活動,實現交互和談判,并促生和確立源語言和目的語之間的意義對應和翻譯轉換(Lecture,2004)。在這里,翻譯的過程不是簡單的詞語或句子對等,也不像Weaver所說的那樣,是一種信息的編碼和解碼過程(1949,轉引自馮志偉2003)。翻譯是一項復雜的社會活動和語用事件,是一種語言交際行為。翻譯中意義的轉換和對應產生于譯者內部的交流和溝通,并實現于譯語文本。在這一交互過程中,“正確的翻譯被采用并重復,錯誤的翻譯被淘汰”(Teubert 2005)。所以說,翻譯知識既不來自詞典,也不來自預設的規則和知識原型,而是存在于翻譯文本中的翻譯事實。平行語料庫通過收集大量的雙語對應文本,通過對翻譯事實的系統描述,利用概率統計發現重復出現的翻譯對應單位,以確立翻譯的對應性。

與基于語料庫實例研究不同的是,我們所說的平行語料庫不是作為類比和推理的基礎數據,而是作為翻譯知識庫;平行語料庫的作用也不僅僅是為了提取翻譯實例,而是把翻譯文本與數據庫作為一個交互處理的整體。在構建平行語料庫時,我們提出以下幾個基本原則:1)平行文本的來源和領域必須嚴格界定。領域越廣闊,文本翻譯的對應性變異就越大。能適應所有文本的翻譯對應非常少,如人名、地名、機構名稱等,有時甚至這些普遍被認為無歧義的名稱,在不同領域的文本中也會表達不同的含義,從而產生獨特的對應。在語料庫處理中,盡可能劃分一個大領域內部的層級關系,并應用XML標準進行標注。2)選取的文本類型應從科技領域及對應關系相對單純的平行文本開始。語用結構復雜、話題多元、且對應相對自由的平行文本一般不作為初始研究的對象,如虛構性文本。文學文本的自動翻譯幾乎難以逾越。3)平行文本的對齊是分析的結果,而不是前提。僅僅追求文本結構形態的對齊,如通過人工介入或通過概率計算達到對齊的目的,仍需人工對句子進行分析和判斷,這是由于對齊后的文本要么單位過大,如段落和句子,要么過小,如單詞,都難以得到有效利用。4)文本應保持整體性和原貌,與標注信息分開(Sinclair 2005:1-16)。標注系統應動態開放,允許定制并多層多次標注。

2. 對應單位的界定及工作原則

Sinclair(2005)在提出“意義單位”這個概念時,主要考慮的是為語言分析確立一個基本的分析單位,這個單位必須是構成文本最小的意義單位,它由核心詞(core)和搭配詞構成,所以又稱作“詞項”(lexical item)。意義單位的單義性通過詞項內部的微型語境得到保證。意義單位可以作擴展分析,或稱為“擴展的意義單位”,在抽象度上依次分析其類聯結結構特征、語義傾向以及語義韻(參見李文中2010)。意義單位這一概念體現了Sinclair的學術思想,即1)意義在多詞序列(搭配)中得到呈現①,多詞序列體現了真實的語用環境,并框定其意義取向;2)意義、形態、結構模式甚至語用意向是一個相互依存的統一體,任何一個構成元素都不可分割和抽離。3)意義單位確立的基礎是復現頻率(frequency of recurrence)。其基本理據是,在詞語層面,單個或多個詞共現,并呈線性組合,順序固定,結構相對穩定,或只允許部分變異;該單位具有復現概率,在文本中表現為固定詞語序列或詞塊;在語義層面,詞語組合表達意義完整,具有單義性;在發生學層面,意義單位的選擇大多不是單個詞語的多次選擇,而是同時選擇的,是一連串說出來的;在語音學層面,該單位表現為一個連續的語音流,與其它意義單位具有明顯的界限。該單位在文本中具有可預測性,使文本理解從分析走向綜合。意義單位的提出為多詞序列(或稱詞塊、多詞組合)分析提供了理論基礎,具有重要的語言學意義。但意義單位是一種單語理論,其統計基礎是復現頻率,且必須通過人工分析才可以獲得。在此基礎上,針對雙語平行文本,Teubert(2004)進一步提出“翻譯單位”概念,即“源語言表達由一個節點詞加上所有搭配詞構成,并且在目的語文本中只有一個無歧義的等值表達,如果存在多個等值表達,則這些表達具有同義關系”。Teubert認為翻譯單位是平行文本中可識別的最小的等值單位,具有單義性,不能被進一步分析,并且具有可逆性(reversibility)。

我們注意到,翻譯單位這一概念雖然基于雙語視角,但在平行文本處理中仍存在難題:1)由于強調“最小分析單位”和“可逆性”,翻譯單位與詞語對等這兩個概念幾乎沒什么區分;有些單位在平行文本中對應嚴謹,卻不一定是最小的;翻譯單位確立后,其意義仍然極不穩定,其“無歧義”屬性很難得到保證②。如以下對應包含多個翻譯單位(用中括號“[]”隔開):

表1 對應及翻譯單位

2) “可逆性”標準忽視了不同源語言文本翻譯視角的差異及語言具體運用語境的差異。如漢語源文本“打白條”的對應是“issue IOU”,但英語源文本中的“issue IOU”就不一定對應“打白條”,因為“IOU”和“白條”的文化含義和運用語境不一樣?！按髶Q血”的例子亦是如此。3)翻譯單位與意義單位一樣,是一種分析理論,而不能用于識別操作。因此,我們提出“對應單位”這一概念,即“平行文本中意義對應完整、并具有清晰邊界的任何片段或序列”(李文中2006)。對應單位是平行文本雙語視角下確切對應的片段,其序列可擴展,其意義在抽離語境后仍能保持相對穩定；在大型平行語料庫中,可以通過計算同現對應單位的閾值,擴展對應單位的序列；對應單位具有可逆性或不可逆性,這要取決于翻譯文本的具體語境。與翻譯單位不同,對應單位是針對平行文本處理的操作概念,用于對應片段(或對應塊)的識別和提取,是對以后分析的文本準備。對應單位的識別標準是對應邊界的適當性和確切性。在此原則下,表1中“安家費”作為一個整體與“settling-in allowance”構成對應單位,因為“安家”與“settling-in”、“費”與“allowance”的對應邊界并不清晰。下表中所列都被看作是單一的對應單位,其內部不再分割:

表2 對應單位的邊界

對應單位識別的工作原則為:1)人工識別與智能識別相結合原則。對翻譯的對應性判斷依賴雙語語言文化及行業知識的運用,這是計算機不可能做到的,所以初始階段需要人工判斷和識別文本中的對應單位,軟件系統對識別出的對應單位自動提取和標注,并利用數據庫管理起來。之后,軟件應用對應單位數據庫對新入庫文本進行智能識別和提取,剩余部分仍由人工完成。2)最優邊界原則。由于對應單位的定義非常靈活,所以人工識別對應單位時較難把握其邊界。最優邊界原則即是在保證對應完整、邊界清晰的前提下,對對應單位做最小劃分。如“中國社會各階級”(the classes in Chinese society)可以進一步分為“中國社會”(in Chinese society)和“各階級”(the classes)。人工劃分的大小并不是一個關鍵問題,但如果劃分的對應單位太大,其在語料庫中的復現頻率就越低,這可能對系統后續的智能翻譯構成風險。3)窮盡原則。盡可能匹配最大量單位,使剩余非匹配文本片段減到最少。所以,不同源語言的對應單位應分別標注。4)區分連續性單位和非連續性單位,標記并提取非對應單位。如表2中“以……為代表的”在源語言中是一個非連續性單位,而對應的目的語卻是一個連續的單位③。對應單位識別完成后,系統對平行文本進行檢查,并把非對應單位標注起來。實際上,非對應單位標注后,也作為一個序列看待,這是因為數據庫要與文本不斷交換數據,平行文本應保持完整并與數據庫對應起來。

3. 系統設計與開發

我們在設計系統時,主要考慮到以下需求:1)基于網絡服務器,面向多用戶群開放的動態交互平臺,體現“用戶既是享用者,又是參與者和貢獻者”的思想。一方面,多家單位需要分工合作,需要系統對數據實時匯總和發布。另一方面,用戶群共同使用并識別平行文本中的對應單位,分享和交流對應單位的識別和判斷經驗與知識,系統追蹤和記錄參與者識別與判斷行為,并通過系統智能匹配體現出來。2)把建庫、分析及識別翻譯看作一個動態的過程,并整合這幾大模塊,使軟件系統在學習和訓練中成長。以往的平行語料庫建庫、分析及應用被分為多個相互獨立的階段,平行文本庫和數據庫完成后成為封閉系統,個別系統甚至把文本庫棄之不用,只保留數據庫,這可能會導致數據衰老,不堪應對日益變化的語言運用。3)人工介入遞減原則。在初始階段,需要大量人工介入,隨著平行庫及數據庫的壯大和成長,系統智能匹配能力增強,人工介入應逐步減少,在以后階段,人工只對系統析出的非對應塊進行判斷和識別。4)模塊化管理及軟件熱插拔思想。平行語料庫系統內部各個模塊應相對獨立,并且可定制。軟件一次開發完成后,不需要重復開發。

系統的基本工作流程可分為:1)平行文本的導入與預處理,包括文本清理、段落和句子XML自動標注和管理。2)對應單位智能識別和人工識別。3)對應單位自動提取及入庫管理。4)處理后平行語料庫入庫及數據庫關聯(見下圖)。

圖1 平行語料庫建庫及對應單位識別流程示意圖

圖2 軟件系統對平行文本的預處理

在智能匹配時,軟件在目的語文本制定區域內查找,并根據頻率顯示最佳選擇,由人工判斷是否接受。為便于人工觀察,智能匹配在一個獨立窗口顯示匹配的單位和語境。智能匹配可以隨時中斷,開始人工識別和匹配。識別者在源語言文本和目的語文本中通過“點擊選中”或“拖拉選中”選擇對應單位,并點擊入庫④。

圖3 對應單位智能匹配

平行語料庫統計和檢索分析分為兩大模塊:1)對應單位檢索和基本信息統計。2)全文檢索及索引分析。在這里,檢索詞及語境信息都是可以定制的,所以我們把它稱作“語境中的自適應單位”(Self-adapted Unit in Context,SUIT),以和傳統語料庫中的KWIC區別開來。

圖4 對應單位檢索及基本信息統計

圖5 對應單位的索引分析

在平行文本索引檢索中,實現對應單位的平行檢索,這時對齊的基本依據是各個對應塊,在進一步計算對應單位的共現搭配,只計算所檢索的對應單位左右位置的線性序列。

圖6 對應單位的搭配統計

4. 翻譯對應的復雜性

盡管目前該平行語料庫尚未完全建成,但初始檢索和統計顯示的翻譯對應復雜性,卻遠遠超出我們最大膽的想象。從呈現的對應關系上,我們發現以下幾種情況:1)一對多或多對一對應,即一個源語言表達在目的語文本中具有多種翻譯,詞語序列越短,翻譯的變異性越強。如“發展”一詞僅在政治領域文本中就有十余種不同的譯法,使用的詞語(歸元處理后)包括“develop,accelerate,advance,cultivate,promote,evolution,expand,furthering,improve,introduce,move,progress,grow”；作為對比,以英語為源語言文本中的“develop”一詞分別被譯為“發展、建設、開拓、加強、樹立、形成、產生、開發、建立、拓寬、搞上去、闡明、推動”等。2)零對一或零對多對應。由于兩種語言語境應用及語體運用特征不同,源語言中通過語境指涉或預示的意義,在目的語文本中得到重構,或者在源語言文本中顯性表達的意義,在目的語文本中通過指涉進行隱性表達。此外源語言中的贅詞在翻譯過程中被濾除,如漢語中的“X+水平、問題、情況”結構,后加的詞語如不表達實際意義一般不被譯出。3)簡對繁或繁對簡對應。源語言的習語、略語或成套的表達在目的語中往往被展開或解釋,如“米袋子省長負責制”(譯語:provincial governors assuming responsibility for the rice bag (grain supply))中對“米袋子”,“打破‘三鐵’”(譯語:break the Three Irons: iron armchairs (life-time posts), iron rice bowl (life-time employment) and iron wages (guaranteed pay))中對“三鐵”的解釋等。與上述對應關系相比,功能詞的翻譯對應更加復雜多變。這表明,以詞語為依據進行形態、結構和意義分析及轉換十分靠不住。也有人把這種翻譯的變異性歸結為缺乏規范和標準,對翻譯研究表現出一種規約性態度。我們認為,翻譯研究應該是描述性的,研究者不應該凌駕于翻譯實踐之上,而隨意對翻譯事實作出價值性判斷。

5. 結語:難題與討論

在對應單位識別及應用中,我們發現尚存在以下難題:1)對應單位的邊界問題與人工判斷的可靠性問題。從表面來看,每個識別者在判斷對應單位時,依靠的是個人知識經驗以及對語境的把握,似乎是以直覺和經驗為主,且每個人判斷的標準及標注的邊界不盡一致,這樣很容易得出結論:對應單位的判斷僅僅是實驗性的,結果并不可靠。此外,人工判斷某一個單位時,添加了XML標簽,似乎是對文本進行了人工干預,使用了預定義的框架,不符合“干凈文本”原則和語料庫驅動思想。這是一種誤解甚至是曲解。理由如下:

(1) 人工判斷不是憑空作出的,必須以雙語視角及對應邊界為依據,對文本中的對應單位進行判斷,判斷的結果可能存在長度上的差異(即對應單位的大小),而不會產生對應移位或非對應錯誤。

(2) 人工判斷錯誤不可避免,因而有可能產生非對應性錯誤,但該錯誤被重復的幾率很小。當另一個識別者(在智能識別過程中)看到這種不得當的對應單位時,會拒絕接受,并重新作出判斷。我們可以把識別者看成是一個社團,其互相溝通的基本平臺是動態數據庫支持的對應界面,以及對數據庫中對應單位的多次重復判斷。一個對應單位的每一次被認可和接受,不僅增加了該單位的頻數,也使得該單位的地位逐步得到確立?？山邮苄詮姷膶獑挝豢偸菚唤邮?反之得到拒絕。群體行為的重復構成了對應單位的概率基礎。這種多人多次的判斷,實際上就是對某一單位的多重驗證,這種驗證不僅來自人工,還來自實際的文本,其過程可表述為:

a) 當前文本中必須有完全匹配的序列；

b) 識別者依據自己的經驗和直覺認可這種對應。

以上二者缺一不可。

(3) 反過來說,假定一個“錯誤”的判斷也被多次重復和接受,且有很高的復現率,那么需要重新評價的不是數據庫中對應單位,而是該單位是“錯誤”的說法本身就有問題。

(4) 關于可靠性。當我們說什么東西是否可靠時,必須有一個基本指向和參照,任何事物本身無所謂可靠與不可靠,可靠性是一種主觀認知。也就是說,當我們說某個數據是否可靠時,實際上是參照某種理論和框架體系而言的。說直白一些,就是想拿數據做什么:當研究者有一個具體目標框架體系時,才會產生所使用數據是否可靠的問題。以后的研究者可以完全拋開對應單位這種數據,直接到原文本中去爬梳；目前的對應單位實際上只是一種經過組織的底層數據。對應單位的識別與標注與任何先入為主的語言學研究無關。但如果研究者的目的是觀察雙語文本,研究翻譯事實,對應單位的提取改進了數據呈現的方式,同時也提高了數據的可用性。當然,對應單位本身是一個操作概念,是一種處理和呈現數據的方法,但可以從對應單位中生發理論或驗證某個理論。2)進一步限制平行文本的領域和文類問題。在設計平行語料庫初始階段,應盡量避免大而全,避免虛構性作品,盡量限定一個特定領域并選擇翻譯對應較為嚴謹的文本。3)對應單位的分類和分析。對應單位不是一個預先設定的理論概念,所以對它的分類和分析是后延的。同時,也不能在對應單位識別過程中就建立分類框架。

在平行語料庫系統進一步開發中,我們將充分利用網絡數據庫資源,進行給定文本中對應單位的識別和判斷,提高系統的可操作性,也為平行語料庫的應用開發奠定基礎。

附注:

① Sinclair也提到，單個的詞也可能構成意義單位，但屬于個別現象(Sinclairetal. 2004)。

② 一個翻譯單位在原語境中是無歧義的，但抽離以后就難說了。

③ 2007年12月與衛乃興、濮建忠共同修訂了操作原則，并通過“上海交大國家課題研討——平行文本對應單位識別Workshop”討論確定如下：1)基本原則。A.區分源語文本和目的語文本；B.雙語視角原則：以平行文本相互參照確定對應單位的邊界，要求邊界清晰對應；C.預測原則：確立一個對應單位時，預測其將來的應用性價值。2)操作原則。A.習語原則：優先判斷源語文本中習語、成語、熟語等成套出現的單位；B.專指名稱原則：判斷源語言文本中的專指名稱，如人名、地名、機構組織名稱、術語等，作為對應單位的依據；C.自由判斷原則：對一些詞語的自由組合，是否進一步拆分，個人判斷不一。應用自由判斷原則，即操作者根據自己的判斷，確定對應單位的邊界，如“真正的朋友”(“real friends”)是一個單位還是兩個單位，由個人判定。D.虛詞處理原則：對一些獨立使用的虛詞，如冠詞、介詞、連詞以及代詞或含有話語指代的詞語，不進行對應處理。E.非連續性對應單位的處理原則：對一些非連續性對應單位，使用不同的標簽標記；軟件界面作出響應。

④ 該系統的技術開發由河南師范大學語料庫應用研發團隊軟件工程師韓朝陽負責。

Sinclair, J. M., S. Jones & R. Daley. 2004.EnglishCollocationStudies:TheOSTIReport[M]. London/New York: Continuum.

Sinclair, J. 2005. Corpus and text—Basic principles [A]. In M. Wynne (ed.).DevelopingLinguisticCorpora:AGuidetoGoodPractice[C]. Oxford: Oxbow Books: 1-16. Available online from http:∥ahds.ac.uk/linguisitc-corpora [Accessed 2009-05-12].

Teubert. W. 2004. Translation Unit [R].新鄉:河南師范大學.

Teubert, W. 2005. My version of corpus linguistics [J].InternationalJournalofCorpusLinguistics10(1): 1-14.

馮志偉.2003.機器翻譯的現狀和問題[A].徐波,孫茂松、靳光瑾主編.中文信息處理若干重要問題[C].北京:科學出版社:353-377.

李文中.2010.語料庫語言學的研究視野[J].解放軍外國語學院學報(3):37-40.

李文中.2006.From translation units to corresponding units: a corpus-driven approach[R].上海交通大學慶賀楊惠中先生執教50周年暨應用語言學研討會,上海交通大學.