張緒華
(上海交通大學,上海,200240)
由于能夠提供兩種語言之間豐富的匹配信息,平行語料庫已經成為語料庫語言學研究的一個重點,在語言對比研究、翻譯研究、外語教學、雙語詞典編纂以及機器翻譯等領域有著重要的應用價值。國外已經建成的大型平行語料庫有加拿大漢莎英—法平行語料庫、奧斯陸大學英語—挪威語平行語料庫等;國內有中科院計算語言研究所的大規模漢—英對應語料庫、北京大學計算語言學研究所等單位聯合開發可在線檢索的“BABLE漢—英平行語料庫”和北京外國語大學的“通用漢—英對應語料庫”,以及上海交通大學在建的英漢雙向平行語料庫等。
建設平行語料庫面臨的瓶頸問題是語料庫文本語言單位對應的精確性,這主要是不同的語言在語序、句子結構和邏輯意義的表達方面都存在著明顯的差異(甄鳳超、張霞2004)。所謂平行語料庫的對齊指從源語言文本和翻譯文本中找出互譯片斷的過程,可實現為段落、句子、短語、單詞等不同級別的對齊。但目前研究者普遍采用的對齊方法或不適用于漢英語料的對齊或對齊精度不高。針對這些問題本文提出一種新的對齊方法:即“錨點②與重疊信息”(anchor and overlap)。這種方法能更大限度利用雙語文本中對譯的語言信息將文本對齊,避免了基于長度對齊方法的錯誤蔓延問題和基于詞匯對齊方法中由于錨點不足導致的對齊效果不理想的問題,提高了平行語料庫對齊的效率。
本文首先簡述已有的句子對齊方法,然后結合語言樣本實例,介紹基于“錨點與重疊信息”漢英句子自動對齊方法的步驟。
在平行語料庫句子級對齊(記作AS)方法中,一個句子級對齊單位是一個二元組,記作AS=
例1:1:1句對:在這個美好的夜晚,我很高興同大家在這里相聚,參加2005年北京《財富》全球論壇的開幕式。
I am very delighted to be with you here to join in the opening ceremony of the 2005 Fortune Global Forum in Beijing on this beautiful evening.
例2:1:2句對:北京就是一座有3000多年悠久歷史的文明古城,800多年前北京開始建都。
The city of Beijing, with its long history of over 3,000 years, stands testimony to that effort.
It became the nation’s capital over 800 years ago.
用手工完成庫容龐大的平行語料庫的句子對齊不太現實,因此我們需要采用一定的方法,通過計算機程序實現雙語文本的自動對齊。90年代初期國外學者開始了平行語料庫句子層次自動對齊的研究,并提出了幾種不同的方法,包括基于長度的對齊方法(length-based method)、基于詞匯的對齊方法(lexical-method)和基于長度和詞典相結合(the combination method)的對齊方法(黃俊紅、黃萍、范云2004)。
基于長度的對齊方法假定源語言文本的句子長度與譯文句子長度有很強的相關性,即源語言中的長句翻譯為目標語時仍然是較長的句子,短句則翻譯為較短的句子。在基于長度的對齊方法中,有的研究以句子中的單詞數作為長度度量的方法(Brown 1991),有的以句子中的字符數作為長度度量的方法(Gale & Church 1993)。在語源相近的語言如英語和法語中,基于長度的對齊方法很有效。Brown和Gale分別用這兩種基于長度的方法對加拿大漢莎英—法雙語語料庫進行自動對齊處理,準確率達到98%以上(轉引自王建新 2005:121)?;陂L度對齊方法的特點是把句子對齊看作是句子長的函數,并且不需要額外的詞典信息。缺點是一旦此方法偶然出錯,便不可能自動糾正,致使錯誤蔓延,對齊準確率嚴重下降。
基于詞匯的對齊方法又被稱為基于詞典的對齊方法。Kay和R?scheisen(1993)最早提出基于雙語詞典的對齊方法,雙語詞典包含詞匯的對譯信息,是進行詞對齊的重要資源。這種方法基于以下假設,即包含最大數量對譯詞的一對句子是最佳對譯句?;谠~匯的對齊方法相對可靠準確,但由于計算起來相當復雜且速度較慢,目前還沒有充分證明基于詞匯的方法適合于大型語料庫(黃俊紅等 2004)。Church(1993)則采用同源詞法(cognate)進行平行語料庫對齊。此方法假設兩種語言中有共同的前幾個字母的詞匯通常是互譯詞,并以這些互譯詞為錨點進行對齊。由于英語和非印歐語系的漢語沒有同源詞根的存在,所以不可能將這種方法應用于英漢平行語料的對齊。
以上兩種方法各有優劣,研究人員試圖將它們結合起來使用,先利用雙語中對應的詞匯信息對語料庫進行對齊處理,無法對齊的部分再使用長度關系對齊或在基于長度對齊的基礎上,再利用詞匯對齊關系改進對齊效果。Wu(1994,轉引自王建新 2005:122)用此方法對齊了相當一部分漢英雙語的香港漢莎(Hong Kong Hansard)語料庫,準確率達到92.1%。
各國學者陸續提出了各種對齊方法,但基本上多為以上三種方法的變形或改良,如McEnery和Oakes(2001)在CRATER項目中的對齊方法。針對漢英雙語對齊,國內的劉昕等(1998),錢麗萍等(2000)研究者也進行了一些改進的對齊方法研究。目前很多學者在進行雙語對齊研究時,大多數都是在段落對齊的基礎上進行句子對齊的研究。
英法等印歐語言之間存在巨大的相似性,已有專門軟件如Multiconcord對其進行自動句對齊處理,精準度很高。漢語和英語隸屬于不同的語系,兩者之間由于標點、句式和語篇上的明顯差異,實際翻譯中常不以句子為單位翻譯,自動句對齊處理準確度只有60%左右,因此這一工作仍需人工完成(Wang 2001)。北京大學計算語言學研究所同中國科學院計算技術研究所、清華大學智能技術國家重點實驗室聯合開發的“面向新聞領域的漢英機器翻譯系統”的句子自動對齊程序就是采用基于長度的方法,自動對齊結果仍需要人工校對(柏曉靜等2002)。
目前漢語和英語之間進行句子層次的對齊方法尚不完善,本文認為應該充分利用雙語中的對譯信息,突破以往著眼于英語的對齊方法,將漢語作為源語言,英語作為目標參照語言進行對齊研究,并提出一種新的平行語料庫的對齊方法,即“錨點與重疊信息”。
“錨點與重疊信息”主要是基于如下思路:擁有最多共同錨點和重疊信息的n個(n≥0)漢語句子和n個(n≥0)英語句子被認為是平行句對,并被整理為平行句對的形式。這種方法主要有五個步驟:
(1) 在漢英對譯文本中尋找對譯的錨點;
(2) 回譯英文為漢語并尋找重疊信息;
(3) 給錨點和重疊信息賦值;
(4) 標記句子邊界并完成句子級的雙語對齊;
(5) 對自動對齊結果進行人工校對,得到在句子層次上對齊,并帶正確的句子邊界標記和對齊標記的雙語平行語料庫。
我們以2005年胡錦濤同志在北京《財富》全球論壇開幕式上的講話的中英文材料作為語料來說明該方法的對齊步驟。語料漢語部分為2078個漢字,45個句子;對應的英文為1356個單詞,51個句子。
雙語文本的對齊由程序自動實現,然后由人工校對。我們的編程環境是Visual FoxPro 6.0。FoxPro具有軟件包和編程語言的特點,有著與自然語言相似的指令和函數,能夠對未賦碼或已賦碼的語料進行處理,適合語言學計量研究(Fan 2005)。步驟(2)中使用的翻譯軟件是Dr. eye譯典通。
Brown(1991)在對漢莎語料庫進行對齊時,引入了錨點的概念,認為錨點的作用就是將整個語料庫分成一些小的對齊片斷。錨點的自動提取算法已很完善,國內外有很多學者做過大量的討論和嘗試,如K-vec算法和基于詞對匹配特征的DK-vec(Fung & McKeown,1994)算法,以及王斌(2000)針對以上方法的改進算法等,在錨點的自動提取上都有很好的效果,我們在這里不再贅述。
現在假設,我們有一個通過自動提取算法提取的漢英對應錨點表。當然此表不可能將文本中所有對應詞囊括在內,而只包含部分對應詞語。我們將每一對對應錨點編號,號碼是不可譯的彼此相區別的符號。如圖1:
圖1 雙語對應錨點及編號
既然在步驟(1)中得到的錨點不可能包括文本中所有對譯詞,為了確保自動對齊的準確率,應該更大限度地利用漢英文本中的對譯信息資源,在漢英文本中尋找更多的對譯信息。具體做法是:將漢英文本中的對應錨點用其相應的編號依次代替(例1經過替換成為例3),然后把替換后的英語文本用翻譯軟件Dr. Eye回譯成漢語(例4)。此時,經過回譯的文本中沒有被替換為錨點編號的詞語被回譯成漢語,而代表錨點的編號則與漢語文本(例3)中的一致。
例3:在這個a6的a5,我很高興同大家在這里相聚,a8 a9年a10《a11》全球a12的a13式。
I am very delighted to be with you here to a8 in the a13 ceremony of the a9 a11 Global a12 in a10 on this beautiful a5.
例4:我很高興能與你在這里a8在a13典禮,這個a9a11的全球a12在a10在這片美麗的a5。
不難發現,例3和例4擁有相同的錨點a5、a8、a9、a11、a12和a13等,以及一些相同的詞語,如,“我”、“很”、“高興”以及“全球”等。這些詞語就是“錨點與重疊信息”中的重疊信息。重疊信息包含漢英文本中提取對應錨點后剩下的對譯信息,如對譯的動詞、形容詞、副詞,還包括在自動提取錨點過程中漏掉的對譯的名詞等。重疊信息將在自動對齊時對數量有限的錨點起到補充的作用,降低由于錨點不匹配造成的句對錯誤對齊的幾率,提高對齊的準確性。
接下來給錨點和重疊信息賦值。觀察經過步驟(1)和(2)處理過的文本,我們發現重疊信息可靠性相對較低。原因在于英語自動譯回漢語時很多句子中都出現了“的”、“了”或“是”等漢字,降低了其作為重疊信息的可靠性,因此我們賦予重疊信息低于錨點的權值,重疊信息賦值為1,錨點的權值賦為2。
此步驟要完成漢英文本句子邊界的標記,以及句子級對齊。首先由程序自動完成句子的邊界標記,然后把替換了錨點的漢語文本和回譯為漢語的文本分別進行詞類歸并(tokenization)。歸并后的漢語文本作為源語言,抽取其中第1句,與回譯的漢語文本的1~10句分別疊加(從回譯的漢語文本中抽取句子的具體數量需根據漢英文本間句對數差別而定。由于語料分別為45個漢語句子和51個英語句子,相差不到10個句子,所以我們把參數設為10),其中權值最高的就被確定為對應句對(權值相同的句對需人工處理),并進行對應句對的記錄,以此類推。標注后用同樣的方法處理沒有找到對應漢語句的英語句,直到全部雙語句子找到相對應的句子。
圖2 對應句對記錄
圖2為對應句對的記錄,豎列代表漢語,橫列代表英語。橫列和數列的交值為兩個句子的權值,Freq列為最大的權值,最后一列Sentali即為最高權值的句對,S1代表漢語第一句,冒號后的S1表示對應英語第一句。最后程序按照Sentali中對應句對記錄抽取漢語原文和英語譯文句子進行對齊實現(見圖3),自動對齊的準確率達到90%以上。
圖3 自動對齊結果
通過對自動對齊結果的人工校對,我們得到了100%對齊的漢英平行語料庫(例5)。我們對語料庫進行了簡單的對齊標注,
例5:
本文介紹了一種以漢語作為源語,英語作為目標參照語,利用漢英中的對譯信息進行句子層次對齊的“錨點與重疊信息”方法。這種方法在處理漢英語料對齊時具有很好的效果,其基本思路為:擁有最多共同錨點和重疊信息的n個(n≥0)漢語句子和n個(n≥0)英語句子被認為是平行句對,并被整理為平行句對的形式。這種方法的不足之處在于過分依賴語言資源以及翻譯軟件,希望在后續的大型語料庫對齊研究中加強對齊算法本身的復雜性,以減輕對語言資源的依賴。與其他對齊方法相比,這種方法能更大限度地利用雙語文本中的對譯信息,避免基于長度的方法的錯誤蔓延問題和基于詞匯方法的錨點不足導致的對齊效果不理想的問題,并且取得了很好的實踐應用效果。
附注:
① 衷心感謝范鳳祥教授在筆者撰寫本文過程中給予的悉心指導。
② 錨點即在雙語文本中相似位置出現的詞匯對譯信息,是進行對齊的重要資源,主要包括雙語對譯的專有名詞、普通名詞、數字和標點符號等(McEnery & Oakes,2001:213)。
Brown P. F. 1991. Aligning sentences in parallel corpora [A].Proceedingsofthe29thAnnualMeetingoftheAssociationforComputationalLinguistics[C]. Berkeley, CA, USA: 169-176.
Church, L. W. 1993. Char_align: A program for aligning parallel texts at the character level [A].Proceedingsofthe31thAnnualMeetingoftheAssociationforComputationalLinguistics[C]. Columbus, Ohio: 1-8.
Fan Fengxiang. 2005. Quantitative linguistic computing with FoxPro [A]. In Kalius?enko, V, K?ehler R & V. Levickij (eds.).ProblemsofQuantitativeLinguistics:ACollectionofPapers[C].Chernivtsi: Ruta: 335-348.
Fung Pascale & Kenneth W. Church. 1994. K-vec: A new approach for aligning parallel texts [A].Proceedingsofthe15thInternationalConferenceonComputationalLinguistics[C]. Kyoto/Japan: 1096-1102.
Fung Pascale & Kathleen R. McKeown. 1994. Aligning noisy parallel corpora across language groups: Word pair feature matching by dynamic time warping [A].Proceedingsofthe1stConferenceoftheAMTA[C]. Columbia/Maryland, Association for Machine Translation in the Americas.
Gale, W. & K. Church. 1993. A program for aligning sentences in bilingual corpora [J].ComputationalLinguistics19 (1): 75-102.
Kay, Martin & Martin R?scheisen. 1993. Text-translation alignment [J].ComputationalLinguistics(19): 121-142.
Manning Christopher D. & H. Schütze. 2001.FoundationsofStatisticalNaturalLanguageProcessing[M]. Cambridge: MIT Press.
McEnery Tony & M. Oakes. 1996.SentenceandwordalignmentintheCRATERproject[A]. In Jenny Thomas & Mick Short (eds.).UsingCorporaforLanguageResearch[C]. London: Longman: 211-231.
Wang, L. X. 2001. Exploring parallel concordancing in English and Chinese [J].LanguageLearning&Technology(3): 174-178.
柏曉靜、常寶寶、詹衛東.2002.構建大規模的漢英雙語平行語料庫[A].黃河燕主編.2002全國機器翻譯研討會文集:機器翻譯研究進展[C].北京:電子工業出版社:124-131.
黃俊紅、黃萍、范云.2004.專門用途語類翻譯平行語料庫研究述評[J].重慶大學學報(社會科學版)(6):91-94.
劉昕、周明、朱勝火、黃昌寧.1998.基于自動抽取詞匯信息的雙語句子對齊[J].計算機學報(8):151-158.
錢麗萍、趙鐵軍、楊沐昀、高光來.2000.基于譯文的英漢雙語句于自動對齊[J].計算機工程與應用(12):59-61.
王斌.2000.基于未對齊漢英雙語庫的翻譯對抽取[J].中文信息學報(6):40-44.
王建新.2005.計算機語料庫的建設與應用[M].清華大學出版社,北京.
王克非.2004.雙語對應語料庫研制與應用[M].外語教學與研究出版社,北京.
甄鳳超、張霞.2004.語料庫語言學發展趨勢瞻望——2003語料庫語言學國際會議綜述[J].外語界(4):74-76.