?

《西游記》漢越平行語料庫的創建

2023-12-02 04:00劉克強
紅河學院學報 2023年6期
關鍵詞:譯本西游記語料

劉克強,張 賢

(紅河學院國際語言文化學院,云南蒙自 661199)

《西游記》是中國古代神魔小說的代表作,魯迅先生在《中國小說史略》中精辟地指出,《西游記》“諷刺揶揄則取當時世態,加以鋪張描寫……作者稟性,‘復善諧劇’,故雖述變幻恍惚之事亦每雜解頤之言,使神魔皆有人情,精魅亦通世故?!盵1]誠哉斯言,《西游記》以其深刻的內涵和富于個性的審美特征不僅令無數國人而且令越南讀者關注和陶醉。已有的文獻表明最遲十八世紀越南人就接觸了《西游記》。但據黎亭卿考察,直到1909 年,陳奉瑟(Trn Phong Sc)才率先開始翻譯《西游記》[2]。此后的半個世紀里,其他多位譯者也開始翻譯這部名著。其中瑞亭(Thình)譯(以下簡稱瑞譯本),Chu Thin(周天)校訂,由河內普通出版社1961 年出版的《西游記》一經出版便受到讀者良好反響,該譯本是根據作家出版社1957 年排印本翻譯的,全書分作八卷:卷一到卷八分別對應原文一至十回,十一至二十二回,二十三至三十四回,三十五至四十八回,四十九至五十八回,五十九至七十回,七十一至八十四回,八十五至一百回。書中附有《吳承恩的思想、生活及其〈西游記〉的來源》《〈西游記〉的思想意義》,《〈西游記〉的藝術成就》《〈西游記〉的評論與研究》四篇文章和插圖多幅。據出版者在書前介紹,該譯本只刪節了不影響小說故事情節的一些文字,所附插圖是依據上海人民美術出版社出版的畫冊拍照的,有關小說及其作者的材料是人民文學出版社提供的,出版者并對此表示感謝[3]。該譯本是在越南市場再版和重印數量最多的全譯本,目前最新印本是2020 年由河內文學出版社出版。此外,NhSn(如山),Mai Xun Hi(梅春海),Phng Oanh(方鶯)合譯(以下簡稱如譯本)、由河內文學出版社1982 年到1988年間印刷出版的全譯本共8 冊,2007 年再版整合為2 冊,2015 年再次出版后全譯本確定為3 冊。另外,坊間還有2003 年信息文化出版社Bi Hnh Cn(裴幸瑾)譯本和2019年文學出版社Lan Phn(杜蘭芳)譯本及其他節譯本,但從再版次數、印刷數量和讀者評價等方面考量,目前瑞譯本和如譯本是在越南最受大眾歡迎的兩個譯本。

瑞譯本問世距今有60 多年了,國內目前僅有零星的介紹該譯本的情況[3,4]。至于其他譯本幾乎查詢不到相應的資料。在越南,瑞譯本和如譯本多次重印,讀者眾多,但相應的研究也是鳳毛麟角。既然瑞譯本和如譯本有如此影響,有必要進行相應的系統研究,而基于平行語料庫的研究是實現量化研究的重要手段,獲得的結論科學。通過建立《西游記》原文及瑞譯和如譯一對二漢越句對齊平行語料庫,對原文中的佛教詞匯、道教詞匯、成語、俗諺、歇后語、慣用語、格言、淮安方言及江淮方言九個方面進行標注;對譯文進行詞性標注及漢越詞標注,可探索解決以下問題:

(1)漢語典籍中的佛教、道教文化在越南語中是如何體現的?

(2)固定且典型的漢語表達如何移植到越南語的?

(3)漢語方言又是如何得到跨語言重生的?

(4)兩個譯本間的區別與聯系如何?在詞匯使用及文體上存在哪些差異?

為回答以上問題,必須創建《西游記》一對二漢越平行語料庫,下面從文本電子化、句對齊、標注及檢索四個層面介紹該平行語料庫的創建過程。

一、文本電子化

文本的電子化是建立語料庫的第一步,也是最基本的步驟。電子化過程一般包括掃描、識別、校對三個環節。當然,理想狀態是從出版社直接購買電子版本。瑞譯本和如譯本均未見電子文檔,只有紙質書在售賣,因此首先要將紙質文本電子化,轉化成計算機可以讀取和編輯的文檔,常見的操作是用掃描儀將文檔掃描成圖片,然后利用OCR 軟件識別成可編輯的電子文檔。這里使用CZUR Scanner軟件,其正確率在95%以上,掃描轉化后進行校對;至于漢語文本,我們選擇質量較好的一個網絡文檔,拷貝后對著紙質書(《西游記》作家出版社1957 年版,瑞譯的底本;如譯也以此版為底本)進行逐字校對。事實上,經過反復校對后,往往還存在些許錯誤,因此,在此后進行對齊工作時,仍須留意語料是否有錯誤,一旦發現立即改正,目的是將錯誤降到最少。電子化后,對原文和兩個譯文進行字詞數統計,結果為:《西游記》字數為715,163,瑞譯本的總詞數為466,061;如譯本的總詞數為492,979。

二、對齊

“語料間的對齊在平行語料庫的建設及應用中都是一個關鍵步驟”[5]。語料對齊指在兩種或多種語言文本的不同語言單位之間建立對應關系,即確定源語文本的哪個語言單位和目標文本的哪個語言單位互為翻譯關系[6]。對齊的方式按語言單位從大到小劃分,可分為段落、句子、短語和詞對齊四種,相應的對齊難度呈遞增趨勢。段落對齊相對較為容易,其次為常見的句對齊,短語對齊和詞對齊目前正在進行研究。對齊的工具可分為在線和線下兩種,前者如Tmxmall 在線對齊工具(https://www.tmxmall.com/aligner)、金聲語料對齊助手(https://gs-lam.com/aligner)等;后者包括三類:1.軟件內嵌的語料對齊模塊;2.獨立的語料對齊工具;3.編程對齊工具[7]。第1 類如Trados Studio的Align Documents,memoQ 的LiveDocs,Déjà Vu的對齊模塊及Transmate 的對齊模塊等,第2 類如ABBYY Aligner,LF aligner 和AutoAligner 等。盡管這些線上線下工具可以處理多種語言間的語料對齊(memoQ 甚至可以支持超過150 種語言),自動對齊的準確率和效率都有很大的提升,但結果仍然需要人工校對和干預。對于一對一(一種語言文本對應另一種語言文本)尚且如此,對于一對多(一種語言文本對應另外兩種及以上語言的文本,或一種語言文本對應另外語言的兩個及以上的文本),軟件目前無能為力,只能采用人工手動對齊方式進行。為了幫助人工實現一對多,上海外國語大學語料庫研究院胡開寶教授領銜的團隊研發了SISU Aligner 2.0.0(可通過http://corpus.shisu.edu.cn/cyylkrj/list.htm 提供的信息下載),可用于雙語或多語文本的平行對齊,實現“一對一”“一對二”或“一對多”平行文本的編輯、對齊等。該軟件支持漢語、英語、阿拉伯語、法語、泰語、維吾爾語、烏爾都語、西班牙語、匈牙利語、藏文等多個語種的文本處理。對齊后導出的語料格式可兼容ParaConc 等平行語料檢索工具。圖1 是加載漢語原文、瑞譯及如譯后的界面(本文以《西游記》第二回內容為例,為節省篇幅,略去原文和兩個譯文的文字)。

圖1 加載原始文本后的界面

從圖1 可以發現,加載原始語料后,語料是以段落的形式呈現的。為了實現句子層次的對齊,需要對語料進行句子切分。在漢、英語中,通常將句號、問號及感嘆號作為句子結束的標記。因此,按軟件的操作說明:使用快捷鍵 Shift+Ctrl+R,出現 Replace all,紅色框內填代表句子結束的標點,如漢語的“?!薄?!”“?”(一次只填寫一個,僅引號內)然后回車,出現 With 界面,with后輸入需要換行的標點符號+ (此處的標點符號跟上一步的必須一致),如。 ,然后回車。就可以將漢語的所有句子進行切分;同理,英語語料按“.”“!”“?”切分。得到的結果見圖2(“第二回”“悟徹菩提真妙理”及“斷魔歸本合元神”后分別按下回車鍵)。

圖2 語料句子切分后的界面

切分句子后,根據原文句意,進行對齊,存在原文一句對應譯文各一句的是理想的狀態,大多數情況下,需要尋找原文與兩譯文的語意交集,通過句子組合的方式進行處理后才能對齊,如果出現原文沒有翻譯的部分,則在相應的位置標上;同理,如果譯文找不到對應的原文,則在相應的位置標上。圖3 是本回對齊后的界面,其中在瑞譯中出現“//”符號,是因為其前沒有句子標記,以示區別。

圖3 語料對齊后的界面

對齊后的語料已經成為平行語料庫,可進行檢索。但往往根據目的的需要,對語料進行標注,以便通過檢索標注后的語料達到研究目的。

三、標注

標注就是對語料庫中的原始語料進行加工,把表示語言特征的賦碼添加在相應的語言成分上,以便計算機識讀。Leech[8]認為,語料庫標注可以為語料庫帶來增值,故建議要大力提倡。標注根據研究的需要可以在語言的各個層次上進行,如語音、語法、句法、語義、語用標注等。標注是研究目的的一種體現形式,根據研究需要,我們對語料的詞匯、語法層次進行標注。前者包括漢語語料的佛教詞匯、道教詞匯、成語、俗諺、歇后語、慣用語、格言、方言(淮安方言及江淮方言)的標注,后者則是對越南語語料的詞性及漢越詞進行標注。

漢語語料的標注采用機輔人工標注的方式進行,主要使用BFSU Qualitative Coder 軟件,該軟件是北京外國語大學中國外語與教育研究中心許家金教授設計、賈云龍負責開發的一款綠色共享軟件。經過簡單的二次開發后,將標注按鈕重新設計成為佛教、道教、成語、俗諺、歇后語、慣用語、格言、淮安方言及江淮方言九個。標注時只要選擇相應的按鈕,選中對應的詞匯,就可實現自動標注,非常方便。此外,BFSU Qualitative Coder 還可對標注進行統計和檢索,功能相對齊全。

(一)漢語語料標注

根據研究的需要,漢語語料主要是對佛教詞匯、道教詞匯、成語、俗諺、歇后語、慣用語、格言、淮安方言及江淮方言九個方面進行標注。由于這九個方面有交集部分,如《西游記》第二回中出現“天女散花”這個詞匯,既是佛教用語,也是成語。因此分別以獨立文件的方式進行,最后生成九個文件,同時也便于檢索。

1.佛教詞匯標注

《西游記》作為神魔小說,尤其是表現去西天取經的故事題材,其中大量出現了佛教詞匯。另一方面,佛教傳入中國后注入了大量新詞匯,許多佛教專用語在漢語中得到廣泛的使用,成為中國傳統文化中不可分割的一部分。本研究中所認定的佛教詞匯是指已經定型、翻譯自佛典中的漢譯詞匯而不是佛教原典中的梵文詞匯,況且那些詞匯在《西游記》中并沒有出現。據梁曉虹的劃分,佛教詞匯從構成方式上有如下五種類型:佛教音譯詞,如袈裟、比丘尼等;佛教意譯詞,如地獄、智慧等;梵漢合璧詞,如菩提樹、禪杖等;佛化漢詞,如因緣、境界等;最后一類是佛教成語,如一塵不染、不二法門等[9]。本文以丁福保編《佛學大辭典》,文物出版社1984年版[10]及任繼愈主編《佛教大辭典》,鳳凰出版傳媒集團2011 年版[11]中出現的佛教詞匯為依據進行標注。共計566 條。標注結果見圖4。

圖4 佛教詞匯標注界面

2.道教詞匯標注

道教是發源于中國、由中國人創立的宗教,所以又被稱為本土宗教。道教對我國古代政治、經濟都發生過深刻的影響,而且對中國傳統文化的形成與發展產生過極其重要的影響。雖然唐僧取經是典型的佛教故事,但《西游記》在流傳發展的過程中便是糅合了佛教、道教思想而誕生的??梢哉f是對道教神話體系構建的最完善的作品,其典型的標志就是《西游記》的人物命名、章回篇目、情節演繹、詩詞韻文等都使用了許多道教詞匯,這些詞匯也為小說增添了些許神秘的色彩。本研究中道教詞匯的確認主要參考以下兩個權威工具書:一是閔智亭、李養正主編,由華夏出版社1994 年出版的《道教大詞典》[12];另一個由胡孚琛主編的《中華道教大辭典》,中國社會科學出版社1995 年版[13]。共計標注道教詞匯180 條。

3.成語標注

成語是一種習用的固定短語,具有豐富的思想內涵和歷史文化背景。體現出意義整體性、結構凝固性和風格典雅性的特征[14]?!段饔斡洝分械某烧Z主要源于以下五種途徑:一是神話傳說,如開天辟地、煉石補天等;二是古代寓言故事,如打草驚蛇、班門弄斧等;三是典籍,如駟馬難追、犬馬之勞等;四是宗教,如醍醐灌頂、天花亂墜等;五是語言習俗,如趁火打劫、沒精打采等。以劉潔修編著的《成語源流大詞典》,江蘇教育出版社2003年版[15]及劉萬國、侯文富主編的《中華成語辭?!罚ㄐ抻啽荆?,吉林大學出版社2009 年版[16]為依據進行標注,共計662 條。其中大部分為四字格,也包含極個別的三字格、六字格及八字格的。

4.俗諺標注

俗諺是俗語與諺語的合稱。是群眾口語中通俗精煉、含義深刻的固定語句。依據武占坤、馬國凡主編的《漢語熟語大辭典》,河北教育出版社1991年版[17]及溫端政主編的《俗語大詞典》,商務印書館2015 年版[18]收錄的俗語與諺語為參照進行標注,共計269 條。這些俗諺大多是關于生產生活哲理、社會生活事理、為人處世法則及人生智慧等方面的啟迪與經驗的總結。語言簡練生動、文字整齊、和諧押韻、寓意深刻,具有獨特的藝術魅力及精神文化價值。

5.歇后語標注

歇后語,又稱俏皮話或引注語,是漢語的一種特殊語言形式。它一般由兩個部分構成,前半截是形象的比喻或隱喻,像謎語的謎面,后半截是解釋、說明,像謎底。在一定的語言環境中,通常說出前半截,“歇”去后半截,就可以領會和猜想出它的本意,所以稱之為歇后語。歇后語在形式上的特殊性、構義上的靈活性、意象的虛擬性及風格的諧謔性[19]使得《西游記》語言生動活潑、幽默風趣。歇后語常常使用比喻和諧音的兩種修辭手法,據此可將其分成兩類:一是喻意歇后語,一是諧音歇后語。依據溫端政等著,由上海辭書出版社2004 年出版的《中國歇后語大全》[20]收錄的詞條進行標注,共計22 例。

6.慣用語標注

慣用語是指口語中短小定型的習用的短語,在形式上大都是以三音節為主,也有三音節以上的。多采用自然、簡明、生動、有趣的隱喻方式表義,具有通俗洗練、含蓄幽默的特點。以黃斌宏主編,由商務印書館國際有限公司2009 年出版的《漢語慣用語詞典》[21]收錄的詞條為依據進行標注,共計39 例,其中三音節有22 例,如弄手腳、裝幌子及小家子等。

7.格言標注

格言,古時也稱箴言,指規諫勸誡之言,人們引用格言的一個主要目的,在于給人以忠告或規勸,從而提高個人的修養。格言,作為人們行為規范的言簡意賅的語句,從句法結構角度說是相對完整、相對獨立的句子,可以獨立用來表達思想。依據溫端政編寫,由商務印書館2016 出版的《新華格言詞典》[22]收錄的詞條進行標注,共計13 條。

8.方言標注

徐朔方[23]詳細敘述了《西游記》的成書過程,并論證了該小說是世代累積性集體創作的結果。作為世代累積型小說,吳承恩是最后的編寫者,語言中無疑有包括吳承恩家鄉的方言。據王毅[24]對《西游記》的方言詞匯進行調查的結果看,認為小說是以淮安方言為基礎方言進行創作的,并且還包括江淮方言等十幾種方言。其中淮安方言區特有詞匯120 條,江淮方言區共143 條。前者如素袋、厭鈍等,后者如不當人、炮燥等。本文用BFSU Qualitative Coder 中的“淮安”及“江淮”兩個標注按鈕進行標注。

(二)越南語語料標注

《西游記》瑞譯及如譯的語料,主要進行兩個方面的標注:一是詞性標注,一是漢越詞標注。

1.詞性標注

詞性標注又稱語法標注,即給語料中的每一個詞賦上相應的詞性,如名詞、動詞等。劉克強[25]梳理了越南語詞性標注軟件的分類,在此基礎上介紹了越南語詞性標注軟件。其中由LHng Phng與法國南錫LORIA 實驗室合作開發的vnTagger 的準確率和召回率可達96%,是目前越南語詞性標注軟件的最好結果,基本可滿足研究使用。我們使用vnTagger 4.2.0 版進行詞性標注。下面以瑞譯《西游記》第二回的部分語料為例來演示標注后的情況。

2.漢越詞標注

從上面標注后的語料帶“<>”為漢越詞,顯然此段中含有khoi ch,hnh lang 及ts共兩個漢越詞。

四、檢索

檢索是實現研究目的,進行研究的最關鍵的步驟。經過句對齊的語料和對齊后進行標注后的語料已經是平行語料庫,都可以進行檢索。根據研究目的,確定檢索對象,得到的結果與目的相一致。檢索一般由檢索軟件來進行。平行語料庫的檢索軟件目前使用比較廣泛的有ParaConc,CUC_ParaConc,BFSU ParaConc,AntPConc,HyConc 和Wordless 等,其中ParaConc 是商用軟件,由新西蘭奧克蘭大學應用語言學系Michael Barlow 教授開發,可用于對最多可達4 種不同語言的平行語料庫進行檢索研究。當然,也可用于對同一源語文本的3 種不同譯本進行檢索研究,功能十分強大,包括“一般檢索”“高級檢索”及“平行檢索”等。其他三款軟件屬于免費共享軟件,功能相對單一。下面選擇ParaConc 對《西游記》原文與兩個越譯本平行語料庫進行檢索,以格言為例,旨在發現格言的越譯情況,結果見圖5。

圖5 《西游記》格言檢索界面

檢索結果發現《西游記》中有13 條格言,三個語言框從上到下順序為原文、如譯及瑞譯,進一步對比研究會得到十分有意義的結論。

五、結語

本文介紹了《西游記》漢越一本兩譯平行語料庫的創建的思路和做法,討論了一本多譯漢越平行語料庫的設計問題,著重描述了文本選擇及電子化處理、句對齊、不同層次的語料標注及檢索等具體問題,目的是通過機輔對齊軟件和標注軟件的支持,建立適合個人研究目的平行語料庫,以期開展匹配于研究目的翻譯研究,特別是促進名著越譯的研究。隨著研究的深入開展,會進行更多維度、更深層次的標注,期望產生更多有價值的成果。同時,時機成熟時,我們會將這個檢索平臺移植到線上共享,供更多的研究者使用,從而充分發揮平臺的使用價值。

猜你喜歡
譯本西游記語料
《佛說四人出現世間經》的西夏譯本
西游記
西游記
西游記
翻譯中的“信”與“不信”——以《飄》的兩個中文譯本為例
基于語料調查的“連……都(也)……”出現的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
《孫子兵法》俄譯本簡介
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合