?

基于語料庫的景點介紹文本翻譯系統構想

2019-09-10 07:22豐建泉
學業 2019年3期
關鍵詞:語料庫

豐建泉

摘要:提供更好的英文導游服務是提高景點對外國游客吸引力的一個重要途徑。然而,當前很多景點的英文介紹并不規范,質量參差不齊。對此,文章提出建設基于語料庫的景點介紹文本翻譯系統來解決這一問題。文章基于雙語平行語料庫、機器翻譯、用戶生成內容、網絡資源再生以及虛擬學習社區等理論,初步提出了系統模型并分析了優勢。該模型有助于未來開發實用的翻譯系統,提高英文導游質量。

關鍵詞:語料庫;景點介紹文本;翻譯系統

一、引言

旅游產業是我國經濟的重要組成部分,近年來一直保持著良好的發展態勢,來自英語國家的外國游客也是旅游業的重點目標群體。在這一背景下,有必要提高服務質量以吸引更多的外國游客,其中,提供更好的英文導游服務是一個重要方面。當前很多景點主要依靠添加景點的英語介紹牌和提供會講英語的導游員來應對這一問題,然而,這兩種方式存在著一定的弊端,比如:(1)景點英文介紹文本不規范,錯誤頻出,有些冷門景點根本沒有英文介紹;(2)英語導游員水平參差不齊,參考材料匱乏,無法向外國游客清楚展示景點的文化內涵;(3)不同的旅游服務單位各自為戰,景點英文資料來源五花八門,既造成了資源的浪費,也造成了英文翻譯文本的統一性太差。針對這樣的問題,有必要開發一個統一的在線景點介紹文本翻譯系統,使用動態的平行語料庫,實行開放式服務,從而為從業人員和自助導游服務提供資源支持,使不同單位和個人使用的英文介紹文本能夠基本一致,提高英語導游質量和效率,吸引更多的外國游客資源。

二、理論基礎

(一)雙語平行語料庫

語料庫是指大型的存儲于計算機的真實文本資料庫,其語料除了原始文本外,常常還包含經過專業的語言學特征信息標注,可供研究人員利用計算機進行檢索。[1]近年來,人們已將語料庫研究工具與方法廣泛應用于語篇分析、語言對比、詞典編撰、翻譯系統開發等領域并取得很大的進展。[2]語料庫可以分為單語語料庫、雙語語料庫和多語語料庫。應用于翻譯應用的目前主要為雙語語料庫,尤其是雙語平行語料庫,即兩種語言文本在詞、句或段落層面一一對齊,目前一般在句子層面進行對齊。利用語料庫進行翻譯的研究由來已久,目前國際上比較知名的雙語平行語料庫有挪威的“英語-挪威語平行語料庫”、英國的“德語-英語文學文本平行語料庫”等等。[3]我國雙語平行語料庫的建設也已經得到了很多單位和部門的支持,出現了一些通用英語和專門用途英語的雙語平行語料庫,比如紹興文理學院開發的中國古典文學漢英雙語平行語料庫。面向旅游業的雙語平行語料庫比較典型的是香港理工大學開發的新型雙語平行旅游語料庫,旨在促進香港旅游翻譯研究以及旅游英語教學。南華大學為了促進當地的旅游英語及旅游英漢互譯教學,也開發了衡陽旅游漢英雙語平行語料庫。由此可見,利用雙語平行語料庫來開發景點介紹文本翻譯系統是可行有效的。

(二)機器翻譯

機器翻譯是通過計算機技術和算法將自然語言從源語言高效翻譯成目標語言的一種技術。長期以來,機器翻譯一直都屬于高精尖技術,當前人工智能熱度高漲,機器翻譯也成為了該領域的一個重要組成部分。隨著計算機存儲容量的不斷提高,計算機運行速度的加快以及電子雙語語料的出現,基于語料庫的機器翻譯系統大幅提高了機器翻譯系統的性能。[4]基于語料庫的機器翻譯方法,是根據現有的真實語料,通過概率分析的方法,對語料庫的內置語料進行測試解析,在統計分析的基礎上計算出語言的概率信息,再以概率信息為依據反向分析真實的語言材料。[5]我國的機器翻譯研究在經歷了眾多的探索之后,也逐漸走向了應用階段。進入新世紀以來,機器翻譯已經得到了全面普及應用,金山詞霸,有道翻譯,百度翻譯等一系列電腦應用的開發,基本滿足了普通用戶對于翻譯的需求。雖然這些這些應用在準確度方面有所欠缺,但是針對專業性和行業性很強的文本來說,翻譯結果已經比較令人滿意。機器翻譯的成功案例為景點介紹文本的翻譯提供了參考。從技術上來說,當前的機器翻譯技術已經能夠基本滿足特定領域的文本翻譯要求。景點介紹文本是一類特殊文本,其數量和風格相對比較固定,這對于實現基于雙語平行語料庫的機器翻譯來說是有利的,能夠提高翻譯結果的準確性。如果系統能夠盡可能多地收集各地景點的英漢雙語介紹文本并導入語料庫,則系統的實用性和翻譯的準確性都會有大幅的提升。

(三)用戶生成內容與網絡資源再生

隨著信息技術的不斷發展,當前網絡已經從Web 1.0發展到了Web 2.0、3.0時代。這一時代的顯著特征是網絡用戶不再是簡單的信息接受者,而是能夠成為信息的創造者,即除了專業人士外,普通用戶同樣能夠制作并上傳資源,從而促進網絡資源的更新。這一過程涉及兩個重要概念,一是用戶生成內容,二是網絡資源再生。用戶生成內容是指數字環境下由普通大眾而不是網站運行人員提交的任何內容,這些內容可能是用戶原創,也可能由用戶從其他來源復制得到。[6]用戶生成內容強調了大眾對網絡信息資源的貢獻,體現了集體智慧的優勢。網絡資源再生是指網絡信息資源能夠不斷的更新和發展。有研究人員用超循環理論來解釋網絡信息資源再生,認為信息資源再生是一個復雜的適應系統,也是一個超循環的過程;在資源再生的過程中,不同用戶的觀點和意見相互影響、共同發展,從而導至體現不同立場觀點的資源相互作用并共同進化,如此循環往復實現資源的序化和完善。[7]用戶生成內容促使現代社會信息共享發展到一個更高的層次,而網絡資源再生則促使信息資源能夠不斷地得到優化。充分利用這兩者優勢,能夠推進雙語平行語料庫的建設,增強景點文本翻譯系統的準確性和可靠性。通過將雙語平行語料庫進行在線開放,能夠吸引更多的相關從業人員加入語料庫的建設,動態持續擴充語料庫的規模,同時,也能夠不斷地對現有平行語料進行編輯和更新,提高語料的準確度。從業者的廣泛參與能夠大大提升語料庫的規模和質量,由此文本翻譯質量也會得到相應的提高。

(四)虛擬學習社區

互聯網的興起促進了虛擬社區的發展。隨著技術的進步,人們可以突破時空的限制,通過基于互聯網而形成的虛擬網絡尋求人際、社交和職業上的幫助,這使得建立網絡虛擬社區成為了可能。[8]虛擬學習社區是虛擬社區的一個類型,是由具有共同興趣及學習目的的人組成的學習團體在Internet上構建的虛擬學習環境,他們通過相互的交流、互動、討論和協作,共享觀點、思想、資源、知識、學習經驗和集體智慧,從而促進知識建構和個體智慧的發展。[9]虛擬學習社區概念對于開發在線動態文本翻譯系統具有很大的參考價值。在信息技術的支持下,英語導游從業人員如果通過在線平臺聯系起來,就相當于形成了一個具有特定目的的大規模虛擬學習社區,在獲取準確的英文介紹文本這一目標上大家的期望是一致的,在相同驅使力的作用下,相互之間能夠形成一種協作關系,共同維護系統的運行。社區中的每一位成員也是文本翻譯系統的用戶,能夠通過系統獲取、上傳或更新文本;同時,成員之間也能夠進行溝通交流,相互交換經驗、共同進步。通過虛擬學習社區的運作,基于雙語平行語料庫的文本翻譯系統能夠更好地發揮作用:首先,相互之間的交流互動能夠促進信息共享,為平臺挖掘到更多的優質平行語料;其次,相互之間的討論切磋能夠幫助及時發現語料問題,減少錯誤;第三,學習社區形成一種文化和信念能夠促使相關從業人員提高自身的業務素質,形成良性循環。

三、景點介紹文本翻譯系統

當前基于語料庫的翻譯系統并不少見,很多詞典軟件都帶有該功能,在簡單的語境下能夠滿足基本的需求。然而,市面上并沒有專門針對國內旅游景點介紹文本的通用翻譯系統。并且,一般翻譯系統對于用戶而言都是封閉的,用戶即使發現問題也無法參與改進,這對于系統的持續性優化是不利的。對此,文章擬提出一個在線運行的面向旅游景點介紹文本的翻譯系統,以期提高翻譯系統的針對性、開放性和進化能力。

(一)文本翻譯系統模型

該系統模型的設計基于多個維度的考慮:互聯網為文本翻譯系統提供了運行平臺,雙語平行語料庫為系統的搭建提供了物質基礎,機器翻譯為系統的運行提供了技術基礎,用戶生成內容和網絡資源再生為系統的更新和優化提供了機制保障,而虛擬學習社區則為系統的運行提供了廣泛的人力基礎。據此,本文提出了如下基于語料庫的景點介紹文本翻譯系統模型(見圖一):

圖一景點介紹文本翻譯系統模型

文本翻譯系統由兩大部分組成:一是進行社區管理的用戶模塊;二是執行語料庫建設和翻譯操作的功能模塊。用戶模塊能夠創建新用戶,注冊成功的用戶將獲得翻譯文本、調用文本、編輯更新現有語料庫文本等功能,還能夠利用平臺交流工具與同行進行交流互動,融入虛擬學習社區。用戶模塊強調的是人的因素,目的在于驅動用戶在使用系統的同時增加投入,為改善系統和發揮系統的效益貢獻一份力量。功能模塊的核心是語料庫模塊和翻譯模塊。語料庫模塊具體為漢英雙語平行語料庫,該庫是開放的,支持用戶對現有的文本進行編輯和更新,支持手動輸入雙語平行句對,同時也支持導入市面主流語料庫軟件生成的雙語對齊文本。語料按照景點名稱關鍵詞進行存檔,能夠不斷地得到擴充。翻譯模塊能夠按照用戶的檢索要求從系統語料庫中獲取文本,一種方式是直接按照景點名稱關鍵詞調取可以直接使用的語料,另一種方式是自定義文本,由系統通過機器翻譯的算法生成參考翻譯文本。

(二)文本翻譯系統特色

基于雙語平行語料庫的景點介紹文本翻譯系統充分利用了自然語言處理技術的優勢以及當前網絡發展帶來的資源生成新模式和協作工作模式,能夠集結眾人智慧和資源,促進信息共享,改善信息質量,提高工作效率。首先,該系統能夠將分散的人員形成合力,避免資源的浪費和重復勞動。該系統基于互聯網運行,所有從業人員能夠通過該系統形成一個大型的虛擬學習社區。每一個人都能夠將自己所擁有的景點介紹文本資源上傳到系統,成為系統內置雙語平行語料庫的一部分,每個人都可以提出翻譯需求,交由眾多的從業者共同解決問題,并將結果歸入內置語料庫。其次,該系統能夠凝結集體智慧,提高系統的自我進化能力,保證語料庫和翻譯的質量。在該模式下,成員協同工作將成為常態,每一個人都可以發表自己的觀點,甚至對現有的語料庫文本進行編輯修改。在網絡時代,認知是分布的,更多人的參與往往能夠博采眾長,減少問題出現的幾率,提高最終結果的準確性。從事英語導游工作的人員群體規模較大,每個人都具有獨特的視角,該系統能夠綜合不同人的觀點,促進語料質量的提升。第三,該系統能夠打通信息渠道,提高工作效率和質量。雙語平行語料庫的建立以及翻譯功能的完善能夠為相關從業人員提供豐富的信息資源,使原本需要自己單打獨斗對付的問題在短時間內又好又快地得到解決。個人的視野也將得到擴展,有利于更好地進行導游工作。第四,該系統能夠用于旅游產業的其他方面,具有很強的應用潛力。通過將系統內置于智能移動終端,并增加當前較為成熟的文本朗讀功能,即可成為信息量龐大的英文自助語音導游終端。通過增加語音識別、二維碼掃描等功能,更是能夠成為自助導游利器。最后,該系統能夠為教育服務。當前旅游專業英語教學的可用資源并不足夠,來源比較單一。該系統能夠為教師和學生提供豐富的案例和信息,能夠應用于技術支持下的各種學習場景和教學模式,從而提高教學質量。

(三)文本翻譯系統難點

該系統融合了計算機技術、自然語言信息處理、社會交際網絡等多維視角,在開發過程中具有若干難點。首先,機器翻譯的算法是保證翻譯結果準確度的關鍵,雖然當前已經有比較成熟的算法,但將算法進行適應性修改并融入新系統仍是需要深入研究的技術問題。其次,語料庫是進行機器翻譯的基礎,直接影響到翻譯結果的優劣。語料庫的建設具有特定的模式和規則,需要對語料庫的開放式編輯入口進行合理設計,降低技術門檻,保障普通用戶能夠順利上手。第三,系統需要比較龐大的用戶群體來推動系統的運行和進化。各地景點相關從業人員是分散的,如何調動和凝聚起來,是需要探討的問題。最后,系統的運行管理值得研究。管理主體、經費來源、激勵機制、責任區分等都是能對系統運行產生重要影響的因素。

四、結語

信息技術的發展為當前社會很多問題的解決開辟了新的視角,基于語料庫的翻譯技術為景點介紹文本的翻譯提供了新的手段。文章論述了搭建翻譯系統的理論基礎,并初步提出了理論模型,為后續系統的開發打下了一定的基礎。本研究的不足之處在于提出的模型還比較粗糙,尚未進入實質性階段。未來研究可以將系統開發作為重點工作,針對景點介紹文本的特點改良現有機器翻譯算法,建設簡潔、易用、有效的翻譯系統。同時,系統運行機制的研究也很有必要,只有真正將相關人員通過系統匯聚到一起,充分調動他們的積極性,才能發揮系統的優勢和效益。

參考文獻:

[1]張彧, 張曉丹. 語料庫與商務英語文本翻譯研究[J]. 吉林師范大學學報(人文社會科學版),2010 (3): 55-57.

[2]梁茂成,李文中,許家金.語料庫應用教程[M].北京:外語教學與研究出版社,2010.

[3]肖庚生, 陳欣.旅游漢英雙語平行語料庫的建設與應用[J].湖南科技學院學報,2012(10):163-165.

[4]徐一燦, 劉繼斌. 機器翻譯的現狀和前景[J]. 海外英語, 2017(21):117-118+148.

[5]楊惠中. 語料庫語言學與機器翻譯[J]. 上海交通大學學報,1993(1) : 98-111.

[6]Shim, S., &Lee, B. Internet Portals' Strategic Utilization of UCCand Web 2. 0 Ecology[J]. Decision Support Systems, 2009 (47) :415-423.

[7]何向陽,熊才平,張文超,等.超循環理論視角下的信息資源再生研究[J].中國電化教育,2014,(2):54-59.

[8]胡勇, 李宇峰. 虛擬學習社區的內涵及其相關研究概述[J]. 現代遠程教育研究, 2012(3):32-42.

[9]甘永成. 甘永成, 祝智庭. 虛擬學習社區知識建構和集體智慧發展的學習框架[J].中國電化教育, 2006(5): 27-32.

猜你喜歡
語料庫
語料庫輔助英美文學教學模式初探
可比語料庫的建立及翻譯教學研究
基于語料庫翻譯學的廣告翻譯平行語料庫問題研究
護理英語語料庫建設探索
如何利用語料庫語言學提高英語教學
淺談語料庫分類及用途
近5年語料庫應用于外語教學的研究綜述
國內外語料庫建設研究簡述
運用語料庫輔助高中英語寫作
關于“nothing succeeds without a strong will”的語料庫研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合