?

隴藥漢英平行語料庫構建研究

2017-03-28 03:46陳偉
中國中醫藥信息雜志 2017年4期

陳偉

摘要:雙語平行語料庫是專門用途英語(ESP)翻譯研究的新視角。本文以隴藥10種大宗道地中藥材為研究對象,收集權威出版物關于隴藥的中英文對照文獻,建立大型隴藥漢英平行語料庫,并就該庫構建的具體步驟——語料庫的設計,語料的采集、加工、平行對齊和檢索等進行了詳細分析,可為中藥英譯提供參考。

關鍵詞:隴藥;平行語料庫;中醫英語;語料庫建設

DOI:10.3969/j.issn.1005-5304.2017.04.003

中圖分類號:R2-05 文獻標識碼:A 文章編號:1005-5304(2017)04-0009-04

Study on Construction of Chinese-English Parallel Corpus in Gansu Chinese Materia Medica CHEN Wei (Foreign Language Department, Dingxi Teachers College, Dingxi 743000, China)

Abstract: Bilingual parallel corpus is a new perspective of English for Specific Purposes (ESP) translation studies. This article set 10 kinds of Gansu genuine bulk Chinese materia medica as the research objects, and collected Chinese-English data about Gansu Chinese materia medica in the authoritative publications for the establishment of English-Chinese parallel corpus on Gansu Chinese materia medica. This article also analyzed the construction concrete steps in detail - corpus design, data acquisition and processing and bilingual corpus parallel and so on, and provided references for English translation of Chinese materia medica.

Key words: Gansu Chinese materia medica; English-Chinese parallel corpus; TCM English; corpus construction

中醫英語是英語語言在中醫藥對外翻譯與交流過程中逐漸形成的一種獨特的英語表達體系。在中醫國際化進程中,中醫藥翻譯的重要性日益凸顯,其質量在一定程度上影響中醫藥在國際上的認可及推廣程度。甘肅中藥材資源豐富,其大宗道地藥材通稱隴藥。隴藥是甘肅物質文化的重要組成部分,在華夏文明傳承創新區的建設中,相關翻譯不僅是對外傳播中醫的重要渠道,也是傳承文化的橋梁,但目前隴藥英譯良莠不齊。為此,筆者將語料庫數據驅動技術引入相關翻譯,建設隴藥漢英平行語料庫(English-Chinese Parallel Corpus of Gansu Medicine,ECPCGM),為隴藥英譯提供參考。

1 研究現狀述評

1.1 平行語料庫

隨著專門用途英語(ESP)的發展,專門用途平行語料庫也得到相應發展。中醫英譯研究引入語料庫數據驅動技術的設想肇始于21世紀初,目前呈現零星發展態勢。中醫英漢平行語料庫的研究經歷了2個階段。一是設想階段(2003-2009年),學者從宏觀方面提出了建庫設想和理論原則。聞永毅[1]提出中醫英語語料庫建設構想及意義,并一直致力于《黃帝內經》語料庫研究;薛學彥[2]從建立中醫英語語料庫設想方面提出建庫方案;倪傳斌[3]從中醫英語語料庫建設原則方面解析了具體實施方法。但這些研究并不能直接指向實踐。二是創建階段(2009年至今),學者提出了建立中醫平行語料庫細節問題及解決方案。管新潮等[4]開始了英漢醫學平行語料庫的創建與初始應用研究,蘭彩玉[5]則設計并構建中藥漢英雙語平行語料庫。另外,蘭鳳利等[6]基于自建的中醫典籍漢英雙語語料庫,分析了“經絡”與“脈”的翻譯,認為“vessel”指人體內三維的管道,是對“經脈”的恰當譯語。蔣明佳[7]以人民網英文版為語料來源,建立“中醫藥英文報道專門用途小型語料庫”,分析了中醫藥對外報道,指出中醫藥對外英文報道應以中醫藥歷史文化為核心。這些研究拓展了中醫典籍翻譯的研究視野,深化了中醫典籍翻譯研究。然而,以上研究是以中英文著作為范本進行研究,選料單一,研究面窄且不夠深入,尚未建成實現網絡檢索的中醫典籍漢英語料庫。此外,2013年和2014年的國家社會科學基金指南仍有平行語料庫創建和應用項目,表明平行語料庫的創建和應用還不太成熟,中醫藥平行語料庫也不例外。

1.2 隴藥對外宣傳英譯研究

甘肅是全國中藥材優勢主產區之一,人工種植面積位居全國第三,中藥材品種豐富,質地優良?,F有藥用品種1527種,2012年甘肅省將當歸、白條黨參、紋黨、黃芪、紅芪、大黃、柴胡、甘草、板藍根9種藥材確定為甘肅道地大宗中藥材,包括半夏在內,業內有“十大隴藥”之說。為實現把隴藥產業做大做強的目標,甘肅省制定了《甘肅省“十二五”隴藥產業發展規劃》(甘政辦發〔2011〕181號),提出拓寬營銷領域,鼓勵和支持隴藥企業開拓國內外消費市場。

然而,中國知識資源總庫(CNKI)中尚未有隴藥的翻譯研究。相關內容僅散見于藥店的說明書、土特產店中藥飲片及制品的產品介紹,且存在問題較多。①譯文頻繁出現中式英語及毫無意義的字面翻譯等。如甘肅岷海制藥有限責任公司生產的消炎退熱顆粒(Xiaoyan Tuire Keli)、杜仲壯骨膠囊(Duzhong Zhuanggu Jiaonang)、五味子顆粒(Wuweizi Keli)、小柴胡顆粒(Xiaochaihu Keli)和丹參顆粒(Dan shen Ke Li)。這種全用漢語拼音的翻譯方式不倫不類。原因是譯者或英語功底欠佳,或對中醫藥知識知之甚少。②有些是“印象式”(impressionistic)、“隨感式”(essayistic)翻譯,有失嚴謹。因中醫知識匱乏而導致的錯誤翻譯,如把“板藍根沖劑”譯為“Radix Isatidis Lotion”。lotion指外用洗劑,屬不溶性藥物,不能內服。內服沖劑應譯為“dissolvable powder”或“drink”。③中醫術語翻譯領域缺乏統一標準規范。如黃芪,在英文中就有astragalus、astragalus membranaceus、radix astragali及huang qi等多種翻譯,其主要原因是翻譯原則方面的學術分歧[8]。endprint

2 構建語料庫依據

語料庫是指在隨機采樣基礎上收集到有代表性的真實語言材料集合,是語言運用的樣本?;谡Z料庫的翻譯研究也稱語料庫翻譯學,是以語言理論和翻譯理論為指導,以概率和統計為手段,以大規模雙語真實語料為對象,采用語內對比與語際對比相結合的方法,對翻譯現象歷時或共時描寫和解釋,探索翻譯本質的一種翻譯學研究方法。語料庫具有強大的檢索功能,可以利用語言頻率的統計概率計算出高頻詞和低頻詞。因此,如果把某個中醫藥術語輸入ECPCGM,可通過ECPCGM及其檢索工具對詞頻進行搜索,選擇詞頻最高的翻譯版本作為翻譯參考。從雙語文本“共現”(coexistent)中,可發現最易被人接受的詞與詞的搭配形式,對語法研究和詞匯在語言中的使用轉向做了語域再現式的翻譯實例和量化數據,從而提高翻譯的可信度。中醫語言具有辭簡、文約、言煉等語言美學特點,如“滋陰補陽”這類具有特定文化信息的詞,ECPCGM可提供具體語境,突破單句層面上詞對詞的翻譯,使釋義更準確。

3 建立語料庫的基本思路

3.1 總體設計

研究目的決定語料庫的采樣,建立ECPCGM的目的是客觀描述、考察中國學者對隴藥英語研究所表現出的總體特征及隴藥翻譯過程中呈現的共性特征。語言本身是動態發展的,筆者通過初建一個50萬字容的ECPCGM,其他研究者可隨研究的進展,添加適合的語料對該庫進行更新擴容。ECPCGM的建設過程包括總體設計、框架設計、語料采集、語料導入、雙語對齊、語料校對和語料優化管理等步驟,見圖1。

ECPCGM包含2個一級子庫。①著作類:選取上海中醫藥大學出版社出版的新編實用中醫文庫《中藥學》、人民衛生出版社出版的《中醫基本名詞術語中英對照國際標準》、廣東科技出版社出版的《中國中草藥圖典》和上海浦江教育出版社出版的《方劑學》4種英漢對照醫學教材和專著;②電子類:搜集CNKI等數據庫中甘肅道地藥材中英文論文摘要和論文。另下設10個二級子庫(5萬字/詞),內容涉及10大隴藥的植物學特征、生物學特征、生境和主產地、性味與歸經、功能與主治和現代藥理研究6個方面。子庫可分可合,便于研究。

3.2 建庫步驟

3.2.1 語料采集 ECPCGM按照語料的典型性、代表性、權威性和可行性標準,語料取材于公開發行的圖書、電子版論文等。圖書類語料選取上文提到的4部教材和專著,其內容均是英漢一一對照文本,全部由國內中醫藥院校的著名學者翻譯,能夠代表中國學者中藥英譯的最高水平。電子版論文語料取自CNKI學術核心期刊有關隴藥的中英文論文摘要和論文等。

3.2.2 語料整理和加工 語料的加工是語料庫系統性構建中的一個重要環節。該過程含3個步驟,即原始語料的采集、標注和對齊。第一步把采集到的雙語對照文獻,經過良田高拍儀S800掃描,用OCR文字識別轉換成word,輔以人工校對消除文本中錯誤信息,運用Pre Encoder對原始語料進行初步整理、去除噪音等預處理,將其變成可機讀的txt文本。第二步對生語料進行加工,即標注,使生語料變成熟語料,便于檢索和進一步研究。采用語料庫構建流程的簡要XML標記集。文獻信息標注以開頭,以結束,注明語料類型、譯者、語料名稱、出版地和出版日期等基本信息。第三步對齊。由于漢語句子與其英譯未形成一一對應,故應采用Corrector軟件和人工介入對齊。雙語語料的平行對齊是指將源語語料與目的語語料在篇章、段落、詞句和詞匯4個層面建立對應關系。首先實現語料的篇章、段落對齊。語料為1本雙語書籍掃描為1個word文檔,1個文檔中往往包含了中英文2種語體。將所有word文檔轉換為txt文本格式,從每個文件中識別和提取英語和漢語文本進行切分及漢英語料分存,每個篇章級對齊單位中的原文文件與譯文文件的翻譯關系用相同的文件名即書名來體現,但附加不同的文件名后綴:原文文件為ch,英語文件為en。每個段落保存為一行,段落與段落之間保留1個空行,并且在行首和行尾添加段落標記

…,同時賦予段落的編號ID。借鑒蘭彩玉[5]的做法,英漢語句子對齊后在句子邊界采用xml格式標記,句子以開始,以結束,1個句子級對齊單位是1個二元組,記作AS=,si和ti均由1個或多個自然的句子組成,si與ti之間具有翻譯關系。標記嵌套在標記內部,標記嵌套在

…標記內部,并人工輔助對齊。

3.2.3 語料入庫和組織 對齊后的語料需要通過語料庫索引,從而構建成一個整體。索引結構是語料庫的組織方式,也是語料庫檢索和應用的基礎??衫肅UC Paraconc填寫每一文本信息,建立文本信息數據庫、單語索引和雙語索引的結構,方便以后進行檢索。命名要有規律,文件名由“前綴+文件名”兩部分組成,前綴可以自己定義,文件名和后綴名一定要一致,如中文文件名“ch-testX.txt”,英文文件名“en-testX.txt”,ch-是中文前綴,en-是英文前綴,testX是文件名,X取值范圍為1~n,txt是后綴名。存貯采用tmx格式的xml標記語言,統一碼用UTF-8編碼,以便存儲與檢索。雙語保存在一個文本中,也可雙語分開存貯在2個文本中。對雙語保存在一個文本中的平行語料,軟件能自動識別4種對齊形式,即漢語在前、漢語在后、漢語整體在前、漢語整體在后,也可把4種形式的文本混在一起檢索。

3.2.4 語料檢索 語料庫檢索工具很多,常用的共享軟件如Free Text Browser、Web Concordance、Word Smith Tool 4、Concordancer等,可根據需要選擇使用檢索軟件。筆者使用中國傳媒大學研發的免費綠色雙語檢索軟件CUC_ParaConc作為檢索軟件。軟件默認一對一平行語料檢索,其標簽下有3個子標簽:調入語料及設置檢索參數、檢索中英對齊語料、正則式檢索。首先選擇所要檢索的txt文本目錄,可檢索目錄下所有文件夾和子文件夾中的對齊文本。單擊源文本目錄右邊的按鈕,選擇目錄,軟件會自動生成“保存目錄”,默認是在軟件同一目錄下自動創立一個“ParaResult”文件夾,也可通過點擊保存到右邊的按鈕更換保存地址。

4 結語

ECPCGM的創建完成,在理論價值方面,基于ECPCGM的雙語文本和量化信息能為深入開展中醫翻譯提供可靠依據;在技術方面,通過語料庫技術,可挖掘中醫學術語的標準翻譯術語,客觀描述隴藥翻譯過程中呈現的共性特征;在應用方面,該庫和語料軟件結合,可供學習者自主學習研究,并為隴藥英語教學、隴藥的對外宣傳英譯及詞典與教材編寫等提供幫助,另與網絡結合,把開發完成的語料庫在線發布和索引,實現網絡用戶對語料庫的直接訪問,對今后大規模對外翻譯介紹隴藥文獻具有重要借鑒和參考價值,必將促進隴藥及隴藥文化傳承與發展。

參考文獻:

[1] 聞永毅.淺談建設中醫英語語料庫的意義[J].陜西中醫學院學報, 2003,26(5):65-68.

[2] 薛學彥.中醫英語語料庫建立的設想[J].廣州中醫藥大學學報,2004, 26(6):482-485.

[3] 倪傳斌.中醫英語語料庫的建庫原則[J].上海中醫藥大學學報,2005, 19(3):5-6.

[4] 管新潮,胡開寶,張冠男.英漢醫學平行語料庫的創建與初始應用研究[J].當代外語研究,2011(9):36-41.

[5] 蘭彩玉.中藥漢英雙語平行語料庫的設計及構建[J].亞太傳統醫藥, 2014,10(8):1-3.

[6] 蘭鳳利,梁國慶,張葦航.中醫學中“脈”與“經絡”概念的源流與翻譯[J].中國科技術語,2011,13(1):54-58.

[7] 蔣明佳.人民網英文版中醫藥對外報道狀況及語言分析[D].北京:北京中醫藥大學,2014.

[8] 謝竹藩.關于中醫名詞術語英譯的討論[J].中國中西醫結合雜志, 2000,20(9):706-708.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合