?

AgriDEAP農學學術英語語料庫的創建*

2021-01-22 06:04華南農業大學
語料庫語言學 2020年2期
關鍵詞:農學語料語料庫

華南農業大學 呂 靖 鄧 飛

提要:AgriDEAP農學學術英語語料庫是DEAP學術英語語料庫的農學子庫。本文主要介紹AgriDEAP的建設目標、語料來源和建庫方法。同時,本文對AgriDEAP的基本構成和應用前景也做了介紹和探討。

1.引言

隨著學術英語研究的蓬勃發展,當前國內外已建成不少學術英語語料庫,有據可查的至少有數十種。國外的如1:蘭卡斯特學術英語筆語語料庫(LANCAWE)、英國學術英語筆語語料庫(BAWE)、英國學術英語口語語料庫(BASE)、英語作為世界語的學術英語語料庫(ELFA)、學術英語口語語料庫(CASE)、英語科學寫作Coru?a語料庫(CC)、密歇根學術英語口語語料庫(MICASE)、密歇根高年級學生英語論文語料庫(MICUSP)、古英語醫學寫作語料庫(CEEM)、Pearson國際學術英語語料庫。國內的如:交大科技英語語料庫(楊惠中、黃人杰 1982)、廣州石油英語語料庫(祝啟波 1991)、中外科技期刊論文語料庫(胡志清 2007)、《應用語言學》期刊論文語料庫(梁茂成、劉霞 2014)、學習者英語學術論文語料庫和國際期刊論文語料庫(婁寶翠 2017)等?,F有的學術英語語料庫從庫容看,最高的也沒有超過千萬量級,低的只有數十萬詞;從抽樣數量看,每個學術英語語料庫包含的文本數量也不盡相同,少的僅有幾十篇,多的有數千篇,前者如哲學英語語料庫(CEPHiT)只有近40篇,后者如英國學術英語筆語語料庫有2,700多篇;從時間跨度看,既有中古學術英語,又有現代學術英語;從儲存格式來看,不少語料庫既有純文本格式,又有XML格式。當前已有的語料庫涵蓋了口語與筆語、專家與學生、本族語與非本族語、古語與現代語等多種類型,可謂資源豐富,但在學科門類的覆蓋面和代表性、團隊合作的廣泛性和系統性、語料使用的共享度和利用率等方面還有很大的提升空間(崔維霞、王均松 2013;衛乃興 2016;徐秀玲、許家金 2017)。

就專門的農學學術英語語料庫而言,有多位學者曾提出過建設農業或農科學術英語語料庫的設想(如范晶晶、李麗霞 2014;劉萍等 2015;栗娜2015;張律2019),但真正建成的很少,目前已經建成且對外開放的只有華中農業大學的農科學術英語語料庫2(劉萍等 2016),而且這些語料庫的構建設想自成體系,沒有系統考慮與其他學科學術英語語料庫的一致性和可比性。

鑒于以上情況,本課題在中國外語與教育研究中心學術英語語料庫建設項目(DEAP)的統一指導下,建設了農學學術英語語料庫,庫容540萬詞,含1,112篇論文,簡稱AgriDEAP。AgriDEAP將同DEAP的其他子庫一起通過BFSU CQPwe6語料庫平臺面向社會開放,以下將主要介紹該庫的建設目標、建設過程和應用前景。

2.建庫目標

本課題以“中國外語教育基金專用英語語料庫(DEAP)建設項目”的整體理念和方案為指導,在充分考慮農學學科和農學期刊個性的同時,盡力保持與DEAP項目的整體一致性??傮w來說,AgriDEAP主要為了實現以下目標:(1)建成一個500萬詞以上、能夠反映農學國際核心期刊論文的語言特征的語料庫;(2)支撐農學高質量論文的英語寫作和跨學科對比研究,助力我國農學科研的國際交流與競爭;(3)支撐農學學術英語教學的開展,推動農業院校英語學科的特色化建設,特別是為促進農學學術英語詞典及教材的編寫或術語庫的建設,為學術英語教學提供更多的語言資源。

3.語料收集

根據McEneryet al.(2006:5)的定義,語料庫應具備四大基本特征:(1)可機讀;(2)來自于真實語言;(3)經過抽樣選??;(4)有代表性。對建庫最有挑戰的是第(3)和第(4)項要求。代表性是語料庫的靈魂,是語料庫與文本素材庫的重要區別,而保證代表性的關鍵是抽樣的科學性。

3.1 學科

根據國務院學位委員會第六屆學科評議組編制的《學位授予和人才培養學科目錄(2018年4月更新)》,農學專業一級學科“農學”之下包含了9個二級學科:作物學、園藝學、農業資源與環境、植物保護、畜牧學、獸醫學、林學、水產和草學。各二級學科之下又有3—9個三級學科,覆蓋面較廣。但需要注意的是,農學研究實際上未必就只存在于這9大二級學科及其子學科之中,由于學科交叉普遍存在,農學期刊也未必會清晰地按照這些子學科來劃分界線。為了既能反映一些期刊的學科定位,又能反映另一些期刊的綜合特征,我們在每一級學科分類上都設置了綜合類。具體的學科分布情況如表1所示。

表1 AgriDEAP語料的學科分布

各二級學科的語料是通過隨機抽樣來收錄的,抽樣篇數在保持總體平衡的同時,也與它們三級學科的數量多少有一定的關系,其中水產學、林學和獸醫學的三級學科數量最多(各有8—9個),因此被抽出來的總數也相對會多一些。抽出來的語料按照二級學科來編號,語料命名方法是:三個字母的學科簡稱+三位數的順序編碼。

3.2 期刊

在期刊的選擇上,主要收集了各子學科的專業期刊及其綜合期刊的論文,側重考慮期刊的學科代表性和期刊的影響因子,下載了影響因子在各子學科內相對較高的論文,時間跨度為2016—2018年。

期刊的確定主要參考了4個方面的信息與標準:(1)屬于SCI國際核心,影響因子在本三級學科或綜合學科內較高;(2)參考了《中國農業科學院院選SCI核心期刊目錄》;(3)咨詢了相關學科的專家教授;(4)網上搜索國內各子學科的學術帶頭人,根據公開的成果介紹,參照了他們論文發表的期刊名錄。最終確定收集以下期刊中的文章來創建語料庫(見表2)。

表2 AgriDEAP的語料來源

(待續)

(續表)

(待續)

(續表)

以上是AgriDEAP規劃的語料來源,但在實際的下載過程中,每種期刊的下載數量不完全相同。一是因為各種期刊本身的刊期不同,刊文量不一;二是因為有些期刊只在網上公開了部分論文的下載鏈接?;谝陨锨闆r,AgriDEAP建設團隊采集了表2中能夠下載到的近三年的文章,共下載了將近2.5萬篇論文,總詞次逾億詞。

3.3 語料下載及抽樣方法

在論文下載前,根據表2的期刊種類,提前設計好文本下載時需要保存的文件夾和子文件夾層級,目的是避免混亂,減輕后期的元信息標注工作。以三級學科茶學的論文下載為例,文件層級設計為“農學-園藝學-茶學-期刊名-年份-刊期(卷號)-文章”。論文下載后,使用Python命令把每篇文章的路徑提取出來,存入Excel,就相當于完成了每篇語料元信息的提取。

使用以上方法,團隊在Excel中匯總了近2.5萬條語料的信息,對這些語料進行編號,然后使用Excel函數進行“不放回隨機取樣”,先后抽取了約1,150篇文章,將其中的通告、刊訊、其他信息舍棄,剩下的1,112篇論文被納入語料庫。

4.語料整理

語料整理主要包括格式轉換、文本清潔、格式整理和標注等環節,對于一些程式化的問題盡量尋找自動化、半自動化的方法解決。

4.1 格式轉換

網上下載的期刊論文一般都是PDF格式,需要轉成語料庫通用的TXT格式。首先,我們先將PDF轉換為DOC(X)格式,然后再轉換為TXT格式,因為這樣處理便于在WORD上刪除圖形、公式和參考文獻等信息。同時我們使用了Adobe Acrobat DC,可以直接在上面編輯PDF文檔,刪除無關內容,然后直接另存為TXT格式即可。接下來,所有的文件轉換成功之后,在Excel中按照表1的命名規則對語料進行編碼,再用Python程序讀取Excel的新編碼自動對語料重命名。最后,打開保存語料的最外層文件夾,使用右上角Windows系統自帶的搜索功能,搜索所有的TXT文檔,全部存入新文件夾。此時,語料庫已初具雛形。

格式轉換時還應注意編碼問題,英文語料一般應轉換為ANSI編碼。用Adobe Acrobat DC直接轉換的TXT格式為UNICODE編碼,但不宜馬上將其改換為ANSI編碼,因為UNICODE可以表達更多的字符,貿然轉換會造成很多亂碼,影響語料的質量和可讀性。因此,要先選取少數TXT文檔,將其副本轉換為ANSI編碼,然后跟UNICODE原本對比,找出易亂碼的字符,用ANSI可識別的字符統一替換之后再轉換。AgriDEAP主要對兩類情況進行了替換:(1)多字母合體造成的亂碼。多個字母合為整體,無法對單個字母進行修改操作。這種情況多是含f的字母組合,如fl、ff、ffi,看似是2—3個字母,實際只占了一個位置;(2)非西方語言的文字符號容易造成亂碼,如?、?、?等,可改為拼寫相似的c、a、o。因為這些符號多出現在姓名或公式當中,改變后并不影響語料的學術語言特征。由于異常符號較多,這樣處理雖然無法杜絕亂碼,但至少可以減少亂碼,增強語料的可讀性和整潔度。確定替換項目后,使用EmEditor等文本編輯器可以實現對全部語料的批量替換。替換完畢后,再使用EditPlus將所有語料批量轉換為ANSI編碼。

4.2 文本清潔及預處理

文本清潔及預處理涉及了許多細節,這里僅列舉幾項最常見或比較難處理的任務,包括:(1)消除多余的空格、空行;(2)全角、半角標點轉換;(3)刪除文內注(in-text citation);(4)糾正斷頭句;(5)糾正連體句。

對于前兩項任務,使用“文本整理器”可一鍵實現“全角—半角”的全部轉換,并可消除部分冗余的空格或空行。但是“文本整理器”的處理能力有限,一些特殊的空格和空行無法用其消除,而且不支持UNICODE編碼的文本。使用EmEditor結合正則表達式清除了其他多余的空格和空行。

刪除文內注時,考慮了兩種情況:一是“作者+年份”式的文內注,如:“(Johnson 2020)”,需要全部刪除;二是只有年份的文內注,作者是正文的一部分,如:Johnson(2020),只需刪除年份。使用正則表達式在EmEditor中分別刪除了這兩種文內注。

斷頭句又稱折腰句,指一些句子還沒有結束就突然斷開,出現非自然換行。這種情況在語料庫建設中很常見,往往數量眾多,無法用手工排查和糾正。由于干擾因素多,正則表達式分成以下幾步可以實現較好的糾正效果。

(1)斷頭句的基本判斷標準是:上一行以換行符結尾( );下一行以小寫字母或標點符號(逗號/句號)開頭。打開EmEditor,導入所有語料的TXT文本,點擊“搜索-替換”,勾選“使用正則表達式”和“區分大小寫”,輸入以下公式后,點擊“全部替換”,然后點擊“文件-全部保存”。

查找框: ^s{0,2}([a-z.,])| ^s{5,}([a-z.,])

替換框:1

注意:有些正常換行的首個單詞也可能是小寫,特別是一些論文的abstract和keywords這兩個詞全部小寫,它們單獨占一行??梢韵扔谜齽t表達式在這兩個詞前面自動加上一個大寫的輔助標記,再執行以上操作,之后再自動去除輔助標記。

(2)斷行處的新行開頭是數字,彌補辦法如下。

查找框: ^(s{0,2}[0789])| ^(s{0,2}d{2,})

替換框:12

注意:1前有1個空格,同時勾選“區分大小寫”和“使用正則表達式”。本操作無法解決由1—6開頭斷行的數字,因為有些論文的小標題是以1—6作為編號開頭的,它們不是斷頭句,所以不能使用本方法排除。

(3)斷行處是大寫字母或1—6的數字,彌補辦法如下。

查找框:s(of|by|with|the|around|for|in|on|above|is|was|are|were|can|would|should|a nd|this)$

替換框:1

注意:1前有1個空格,勾選“使用正則表達式”,不勾選“區分大小寫”。該公式是用介詞、冠詞、助動詞等非自然結尾詞為判斷標準來迂回查找斷頭句。因為這些詞一般不用句尾,后面緊跟換行符往往屬于異常情況。完成了這一步,絕大多數的斷頭句可以被批量糾正過來。

文本清潔和預處理還有一個常見的棘手問題是連體句,即有些詞句甚至段落在格式轉換過程中丟失了所有空格,如“Ilovecorpuslinguistics”。這種情況也很難在大量的語料中用肉眼識別。AgriDEAP使用Python程序3自動判斷尋找語料中的連體句,并抽取出語料所在的文檔,然后再手工整理。

4.3 格式整理及XML標注

在格式整理方面,AgriDEAP主要對以下三類情況進行了整理和標記:(1)刪除了行文中的數學公式。雖然在最初的格式轉換時,已刪除大量的數學公式,但有些公式不是獨立列出的,而是句子中的一部分,當時沒有刪除?,F在需要手工刪除這些公式,同時用兩個“$”占據原來的位置,以免影響語料的可讀性,使人誤以為缺少了句子成分。(2)刪除了文章中的網址。用正則表達式查找、刪除了語料中的網址,并用三個@來代替,避免成分缺失。(3)排查了每篇論文的結構,必要時打上輔助標記。通過觀察,可以發現農學學術語料最典型的結構是“題目-作者-單位-摘要-關鍵詞-引言-文獻綜述-研究方法-實驗結果-討論-結論-鳴謝”。該結構很模式化,可以用來實現XML的自動標注,但也有例外,如有些語料沒有小標題,這時就可以使用Python程序提取出缺少引言的語料,然后手工核對,對于少數有引言內容但沒有引言標題的語料,添加輔助標記“(Introduction)”,以方便計算機自動識別。

經過格式整理后,對有規范標題的論文,先使用Python程序自動進行XML標注,再手工校對一遍。對沒有標題的論文,使用手工標注。

5.應用前景

AgriDEAP有著廣泛的應用前景,包括但不限于以下方面。

(1)便于開展跨學科的對比研究,本課題的語料庫融入DEAP這一大型學術英語語料庫的架構之下,統一了與其他學科學術語料庫的尺度,為跨學科比較研究提供了可能(許家金、梁茂成 2011)。

(2)可以用于研究農學學術英語的語言特征,如:搭配、措詞、短語結構、句法結構分析,學術話語分析等。

(3)可以用于研究農學學術英語的語篇特征和寫作特點,如:引言、研究方法、結果與討論等篇章結構的寫作方法和語步分析等。

(4)可以用于農學學術英語寫作或翻譯教學課程的開發與教材的編寫。

(5)可以用于提取農學各領域的專業術語和短語,編寫術語詞典和短語詞典,DEAP的醫學子庫已在詞典編纂方面進行了成功探索(許家金 2017)。

(6)可以用于AI的學習和訓練等。

隨著語言學和計算機科學的發展,相信語料庫越來越多的應用潛力會被發掘出來。屆時AgriDEAP將會同DEAP的其他子庫及其他各類語料庫一道,繼續為語言乃至人工智能的研究和應用發揮基礎性的作用。

注 釋

1 Corpus Finder [EB/OL].[2020-02-01].http://www.helsinki.fi/varieng/CoRD/corpora/corpusfinder/.

2 華中農業大學農科學術英語語料庫,網址:http://211.69.132.28/,訪客的賬號和密碼都是test。

3 限于篇幅,本文無法列出Python的程序代碼,該代碼將會發布在www.corpus4u.org論壇里,具體操作視頻會上傳到bilibili.com網站,搜索用戶名biggertree即可見。

猜你喜歡
農學語料語料庫
中國古代農學風土論的形成、演變與價值
基于歸一化點向互信息的低資源平行語料過濾方法*
蒲松齡《農桑經》的農學思想及其當代啟示
農學類專業校企協同育人的探索與實踐
《廣西農學報》投稿指南
《語料庫翻譯文體學》評介
基于JAVAEE的維吾爾中介語語料庫開發與實現
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
語篇元功能的語料庫支撐范式介入
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合