?

基于Python的中英政治語料構建

2021-07-16 10:15劉蜜蜜
讀書文摘(下半月) 2021年4期
關鍵詞:語料庫翻譯

劉蜜蜜

[摘? 要:隨著中國在國際舞臺上影響力的提升,中國的對外宣傳也愈加重要。政治文本要求翻譯忠實、準確,切合時政熱點,這也要求翻譯工作中大量參考已有翻譯。本文重點介紹如何利用Python中的Requests庫進行文本的抓取,以及通過在線語料對齊平臺進行語料對齊,從而利用網頁上的文本信息構建可以為我們所用的語料信息。

關鍵詞:Python;政治文本;翻譯;語料庫]

“一帶一路”倡議之后,國內外關于中國政治的研究越來越多,政治文本翻譯也成為了一個強需求。面對如此海量的政治文本,語料庫和翻譯技術成為一個重要工具。

1政治文本的特點

政務文本主要有兩個特點:一是準確性,二是實時性。政治文本直接牽涉到政治立場和觀點,所以翻譯此類文本應用詞準確,避免引起不必要的誤解,外宣翻譯傾向于完全“忠實”于原文。最行之有效的方式就是找已有的官方譯文進行借鑒。除了對于準確性的要求,政治文本的內容往往具有很強的實時性,往往需要結合時事熱點,例如,2019年之后外宣文本中出現“綠水青山就是金山銀山”的表述,是近些年才被熱議的話題。

2信息時代翻譯的特點

當今的翻譯工作越來越多的受到科技發展的驅使,人工智能、大數據、云的發展,都極大地改變了人們的工作方式和狀態。此外,在全球化與本地化加速發展的現在,翻譯的需求量加大 ,翻譯效率也成為了重中之重。這種情況下,計算機技術也就成為了我們的必然選擇。

譯員對于信息化的需求主要有3個層面:首先,譯員之間需要橫向合作,需要翻譯協作和大型翻譯項目管理軟件。其次,還需要借助眾多譯員的長期雙語語料積累,譯者之前翻譯和求證過的翻譯也是重要參考。最后,不同的譯員之間需要語料共享。

3利用Python抓取政治文本語料

利用Python手段抓取政治文本語料的過程主要分為4步:

3.1確定目標.由于政治文本對于實時熱點的要求比較高,此次任務中選擇英語點津網站的新聞播報欄目的內容進行抓取。在爬蟲之前,其robots協議(反爬蟲規則)顯示英語點津網站是沒有robots文件的,也就是說不對爬蟲加以限制;

3.2頁面分析。下一步我們調出開發者工具進行頁面分析。從代碼中,我們可以看到我們可以知道,版面目錄存放在一個 class = “gy_box” 的 div 標簽下,每一個 div 表示一個版面,而版面的鏈接就在 target = “_blank”, class=”gy_box_img”, shape=”rect” 的 a 標簽中;

3.3利用requests庫獲取文本。

3.3.1安裝requests庫

Requests庫是一個Python第三方庫,處理URL資源特別方便。在Pycharm中的安裝方式是打開 PyCharm,單擊“File”(文件)菜單,選擇“Setting for New Projects...”命令,選擇“Project Interpreter”(項目編譯器)命令,確認當前選擇的編譯器,然后單擊右上角的加號,添加Requests庫。如果使用Python自帶的編輯器,只需要在命令提示符中輸入:

pip install requests

3.3.2 用get獲取信息

使用Python第三方庫requests的get (URL) 方法獲取網頁信息。

import requests

r=requests.get(“https://language.chinadaily.com.cn/a/202003/03/WS5e5e5121a31012821727c044.html”)

r.status_code

r.text[:100]

得到源文本的代碼之后,還需要用正則表達式或者lxml去除網頁內容中的特殊字符,得到只有中英文字符的新聞原文。

3.3.3將文本信息存儲

使用with open (‘文件名, 方式) as變量名, 對獲取的網頁文本信息存儲到本地txt文件。

3.3.4利用語料商城進行語料對齊

我們還需要將得到的語料制作成符合CAT軟件要求的格式??梢岳胻mxmall的在線對齊功能進行調整,選擇“單語文檔對齊”即可很快捷地完成對齊。

4小結

翻譯過程中,譯員們常常尋求專業網站支持,但是這種簡單的搜索還存在著問題。首先,站內搜索效率不高,網頁加載對網速有要求,同時打開網頁太多也會給電腦帶來壓力。其次,政治文本的查詢需要參考來自多個平臺的內容,多次搜索的動作,比較費時費力。

而這種基于Python的方式就可以很好的解決這兩個問題,避免了打開多個網頁的繁雜的查詢過程,可以同時爬取多個頁面,提高了查詢的效率。此外,這種爬取的方式靈活方便,可以即時添加新的語料信息,保證了語料的實時性。

參考文獻

[1]趙振國.基于Python的網絡語料獲取和文本提取方法探索[J].教育現代化,2019,6(14):188-190.

[2]楊麗,孫昂,劉俐.論個人翻譯語料庫的建立和使用[J].企業家天地下半月刊(理論版),2007(11):200-201.

[3]庚庚911. python基礎-文件讀寫with open as語句[EB/OL].https://blog.csdn.net/yetugeng/article/details/83870197?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source= distribute.pc_relevant.none- task. 2018-11-08.

浙江大學? 浙江? 杭州? 310058

猜你喜歡
語料庫翻譯
基于語料庫翻譯學的廣告翻譯平行語料庫問題研究
運用語料庫輔助高中英語寫作
商務英語翻譯在國際貿易中的重要性及其應用
小議翻譯活動中的等值理論
語料庫與譯者培養探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合