?

鞍山全域旅游文化雙語平行語料庫構建與應用

2022-07-14 01:36周衍
魅力中國 2022年3期
關鍵詞:鞍山語料語料庫

周衍

(遼寧科技大學,遼寧 鞍山 114051)

前言

語料庫是為一個或多個應用目標而專門收集的、有一定結構的、有代表性的、可被計算機程序檢索的、具有一定規模的語料集合[1]。20 世紀60 年代,最先興起的是電子語料庫。而后在經過五十多年的發展,語料庫種類越來越多,分類越來越細化。按語種分類,可分為單語語料庫,雙語語料庫和多語語料庫;按對應關系,分為平行語料庫和類比語料庫;按用途分類,可分為通用語料庫和專門語料庫。

近年來許多學者研究開發雙語平行語料庫,采用原文與譯文對齊的方式,實現詞匯、短語、句子、段落、篇章等層面的雙語自動對齊,用戶可以根據自己的需要精確地檢索各層面的對應翻譯,有很強的針對性和實用性。國外雙語平行語料庫的建設開始于20 世紀90 年代中期,其中著名的平行語料庫當屬加拿大的英法雙語議會會議錄(the Canadian Hansards Corpus)、英國曼徹斯特大學的翻譯語料庫(TEC)、奧斯陸大學的英語-挪威語雙語對應語料庫(ENPC) 等。國內平行語料庫的研究主要集中在英漢平行語料庫的構建上。研究的重點主要集中在語料庫的建設與發展技術、平行語料庫在教學或翻譯、語料庫相關內容的分析與比較等領域中的應用等。目前國內規模最大的雙語平行語料庫是王克非教授主持建設的——漢英通用型對應語料庫(PCCE)。與此同時,各地紛紛建立起了多種平行語料庫研究,如衢州生態旅游漢英雙語平行語料庫,河東文化旅游資源漢英平行語料庫,江西英漢平行語料庫等。國內語料庫的構建存在一些需改進的方面:1.語料庫類別少,各種不同用途語料庫急需豐富增加;2.小型語料庫較多,沒形成共聯,可以實現同類型或者用途的多個小型語料庫的聯合應用;3.語料庫沒有大規模應用,利用率極低,應采取不同方式宣傳推廣;4.語料庫中句子段落的對齊方式有待改進,不僅要實現句子、段落層面的對齊,更要實現深層含義的對應?;谝陨喜蛔?,在語料庫構建時,研究者應構建有一定規模,符合約定對齊標準的專門用途語料庫,以滿足更多專業語料庫研究的需要。語料庫的應用也應便于今后更大范圍的連接和推廣,實現共建共聯。

一、語料庫的建設路徑

鞍山的旅游資源包括:世界第一玉佛、亞洲著名溫泉、國家名勝千山、中華寶玉之都和祖國鋼鐵之都。除此之外,鞍山擁有的國家級非物質文化遺產數量居全省首位,多達11 項,如岫巖滿族民間剪紙,岫巖皮影、岫巖玉雕、海城高蹺、評書、千山寺廟音樂,海城民間鼓樂、岫巖東北大鼓等。除了旅游民俗等相關的自然風光、景點介紹、地方民俗風情、傳統文藝及傳統技藝之外,將旅游相關語料,例如:城市概況、賓館飯店、交通指南、購物美食等語料也搜集進語料庫,為游客更好地提供服務。

所有語料的搜集都將編入鞍山旅游英漢平行語料庫,該語料庫的設計主要參考北京外國語大學王克非教授在《雙語平行語料庫∶研究與應用》[2]一書中描述的雙語平行語料庫設計思路進行設計。語料庫的建立旨在整合相關旅游資料,進行旅游資料中英文本的合理分類、篩選、翻譯、對齊、加工、標注,最終建成一定規模的雙語平行語料庫。

語料庫的基本構建過程包括語料采集、語料錄入、語料標注和對齊,以及語料的檢索四個部分。首先是對原始語料進行全面搜集,篩選出較為專業的語料翻譯,之后將所有語料在電子文檔中保存。所有語料都應在經專家的審定之后使用錄入,專家要著重對民族文化特色詞匯進行漢英譯文審定,并對缺少英語譯文的中文語料,進行翻譯,補齊雙語語料,至此,原始語料采集階段工作基本完成,形成原始語料電子文本庫。接下來錄入原始語料,首先是對語料進行校對,刪除消除無用的語言信息,之后分別對英文語料進行基本的詞性標注,最后采取計算機軟件和人工標注相結合的方式進行雙語語料平行對齊,形成漢英雙語平行語料庫。最后一個階段是實現語料檢索。通過平行語料檢索工具,對語料庫的檢索功能進行測試、修正、再測試,最終達到可以進行在線檢索的目標。

(一)語料庫的采集

鞍山旅游雙語平行語料庫立足小型專業語料庫,在語料的收集過程中要保證語料的代表性和專業性[3]。因此,采集所有關于鞍山旅游的原始語料,主要語料來源包括:鞍山政府相關外宣文件、宣傳手冊、調查報告、網站資料、正式出版的書籍、博物館的資料、論文。將旅游相關中英文本進行篩選,盡量選出最新的翻譯譯文進行文本的保存。

(二)語料庫的錄入

采集后對語料進行整理分類。按照自然風光、民俗文化、交通食宿等進行分類。對中文語料進行重新梳理,借助翻譯工具對語料進行翻譯,之后進行人工校對。在對其中文進行翻譯時,要注意:特別是對英文譯文文本,在充分理解了解內涵含義的基礎上,要進行修正和改進使其更加標準化,更加符合慣例,這也以便于將來與其他各地的語料庫接軌。另外,人工校對時一定要保證統一性,尤其是專有名詞,地名等。對于其它沒有英譯文的純中文的語料,翻譯時要多參考查閱資料,做到翻譯盡量準確,符合翻譯原則。最后用軟件的翻譯質量保證功能來評估翻譯的整理語言質量,生成翻譯報告后,請專家再次審核和校對譯文,之后保存譯文進行文本錄入。

(三)語料的標注和對齊

語料的標注指詞性標注,又稱詞性賦碼,是指對語料中的每一個字詞按其在句子中的語法功能對其加注詞性標記,如單數普通名詞、動詞的過去分詞、形容詞的比較級等[4]。

語料的標注和對齊是建好語料庫的關鍵,它直接影響到語料庫建成之后檢索功能的精確性和實用性[5]。標注和對齊采用人工結合軟件的方式進行。先用軟件進行標注和對齊,然后輔之人工方式校對。用tagger 賦碼器對詞性進行標注。再用tmxmall在線語料對齊工具對語料對齊,語料對齊以句子為單位實現漢英對照。再具體實施中,在處理翻譯對照時,由于中英文語序的不同,對句子邏輯關系的處理也不同,有時英文的一個長句會翻譯成幾句中文的短句,中文的多個句子也會合譯為一個英文長句,以便更好地符合中英文語言規則。所以,鑒于中英文句法的差異,翻譯就不能以句子一一對應為對齊方式,應該以句意為對齊方式,以體現完整的意思為基礎。正確使用翻譯技巧來保證中英文文本意義的完整表達,這也體現了翻譯技巧的運用,對翻譯的教學研究都有一定的實際意義和借鑒作用。此外,專用名詞的翻譯可按詞組方式對齊,檢索時,翻譯結果應關聯一些原文的出處,以便游客和學生進一步了解相關背景從而對檢索詞有清楚的理解。最后,使用語料庫軟件進行詞組和句子對齊,軟件對齊完成后,需人工進行調整。

(四)語料庫的檢索

語料標注對齊后,就需要用語料庫軟件將所有語料按一定方式整合起來,實現檢索功能。由于軟件涉及計算機網絡、數據庫技術層面的問題,而語料庫軟件又屬于小眾型應用軟件,所以現成的軟件并不多?,F成的軟件可以使用ParaConc等語料庫檢索軟件語料整合完成后還需經過網絡測試,測試成功后便可以放在網站上對用戶開放,建成后根據用戶體驗不斷持續完善語料庫。

二、鞍山旅游文化雙語平行語料庫的應用

鞍山旅游雙語平行語料庫的建立能夠助力區域經濟發展,提升鞍山外宣水平,助力智慧旅游、智慧城市發展,對鞍山旅游文化的國際傳播具有十分重要的意義。其一,翻譯研究中越來越關注地方化特色。旅游民俗方面的翻譯時,地方化特色的最佳代表,這無疑豐富了此方面的研究成果,為對外宣傳研究提供了可借鑒參考的英文宣傳范本和詳實的實踐例句。其二,根據詳盡豐富的語料資源,可開發新型技術軟件。在此基礎上,探索更實用的檢索方法,創造更多語料庫的互聯互通,運用軟件升級等技術手段推廣鞍山旅游雙語語料庫。

鞍山旅游文化平行語料庫可以為相關學術研究提供借鑒,為語言研究者提供語料豐富的對比平臺。研究者可以通過語料庫研究鞍山文化的語言特征的差異和共性,為進一步研究旅游文化提供了方法和途徑。依托鞍山旅游雙語語料庫在鞍山高校內開展語言與文化對比研究,可根據語料庫的文本搜索功能獲取的大量原始資料,可對旅游雙語文本的風格、句法、詞匯等進行比對和分析,進行定量和定性結合的研究。

鞍山旅游文化雙語平行語料庫還可以為鞍山地區高校的翻譯教學,相關專業的培養提供豐富、有針對性的翻譯實例。這些語料庫中的直觀文本能夠成為學生學習翻譯提供資料,激發學生的學習熱情和對城市的熱愛,提升課堂教學效果,對培養翻譯人才、旅游從業人才的培養都有積極的作用。

結語

目前我國已經建立了一些地域性的雙語平行語料庫、有力的服務和推動當地旅游產業的發展。為順應旅游國際化的趨勢,促進對外宣傳,各地建立本土化的旅游雙語平行語料庫勢在必行。因此,廣泛搜集鞍山旅游資源,構建旅游文化平行語料庫是為廣大游客提供優質的旅游翻譯服務,幫助人們充分認識旅游資源文化的內涵,從而提升品牌質量以及旅游市場價值。

猜你喜歡
鞍山語料語料庫
海量標注語料庫智能構建系統的設計與實現
基于語料庫的清末民初日源外來詞漢化研究
鞍山烈士紀念館
鞍山銀行發展問題及對策分析
淺談視頻語料在對外漢語教學中的運用
可比語料庫構建與可比度計算研究綜述
運用語料庫輔助高中英語寫作
等比數列前n項和(一)教學紀實
語料庫與譯者培養探索
英語教學中真實語料的運用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合