?

通過詞表覆蓋率評測法語文本難度的方法

2017-12-27 09:28
理論月刊 2017年12期
關鍵詞:詞表覆蓋率法語

□ 劉 瀟

(武漢大學 外國語言文學學院,湖北 武漢510620)

通過詞表覆蓋率評測法語文本難度的方法

□ 劉 瀟

(武漢大學 外國語言文學學院,湖北 武漢510620)

在我國英語閱讀研究中,常采用量化方法測量文本。而法語相關研究則幾乎是空白。本研究將法語教學大綱的詞表與國外的常用法語詞表對比,測算這些詞表在不同語料庫中的文本覆蓋率和生詞率,從而估算掌握相應單詞量的學生在閱讀不同類型文本時遇到的單詞難度。結果表明,可將5%的生詞率作為能否獨立讀懂文章的標準。在篩選難詞時,單個詞表易有疏漏,應結合多個詞表綜合判斷。此外,為取得更好效果,應以詞族為計量單詞的單位,兼顧不規則動詞的詞形。

詞表;覆蓋率;語料庫;文本難度

在外語閱讀中,讀者遇到的障礙通常是由生詞引起的。通過詞表中單詞在文本中所占比例,能判斷掌握相應單詞的讀者閱讀時的單詞難度,從而更好地選擇有效的教學材料,促進學生閱讀技能的健康發展。而量化的語料庫方法在我國法語教學中鮮少得到應用。因此,本文選用教學大綱詞表在內的幾種常見的法語詞表,統計它們在教材及其他閱讀材料語料庫中的文本覆蓋率,以供教學參考。

1 文本覆蓋率的作用

在計量詞匯時,首先應該明確統計單詞的單位和方法。一般有以下三個不同單位可供選擇:單詞(mot),即按詞匯的不同形態分別計算。詞目(lemme),即只計算單詞作為字典條目時的形態,忽略其陰陽性、單復數、時態。詞族(famille de mots),即把通過不同構詞法構造的詞根相同的單詞計為一個詞族。如produit,produits和production,按以上單位應計為3個單詞,或2個詞目,或1個詞族。

具備構詞法知識的讀者容易根據詞綴和詞根推測出單詞的含義,尤其是在有上下文的理解過程中。因此,在英語詞匯量的研究中,通常采用詞族作為單位[1]。然而,大部分法語生詞表采用詞目作為統計單位。由于現實條件制約,本文采用詞目作為計量單位。

文本覆蓋率,指的是詞表中單詞在文本中所占比例。統計單詞比例時,常使用兩種計量方式:類符(type,即每個單詞無論出現多少次都只計一次)或形符(token,即每個單詞按實際出現次數計算)。在此與多數研究一致,選取形符作為統計方式。

讀者認識的單詞在文中達到多少比例,才能有效理解文本呢?內申(Nation)和同事認為:讀者至少需要認識文中95%的單詞,才能獨立理解文本,并可從上下文中猜出生詞含義。為實現較流暢、愉悅的閱讀,不需上下文即可理解的單詞則需占文中98%[2]。他在統計時,將專有名詞、明顯的復合詞及感嘆詞計入覆蓋率,不算作生詞。

此外,內申參與開發編寫了Range軟件,可用于分析文本的詞匯深度和廣度。Range軟件自帶3個基礎詞表:Basewrd1,含 998個詞族,共計 4119詞;Basewrd2,含 988 個詞族,共計 3708 詞;Basewrd3,含570個詞族,共計3107詞。前兩個詞表涵蓋英語文本約87%的詞匯,最后一個詞表為最常用的學術詞匯,在學術文本中的覆蓋率為8.5%。在分析文本時,Range生成的文件會顯示該文本中詞匯在這3個詞表中覆蓋的程度。其使用者還可自行編寫基礎詞表,滿足特殊研究需要。目前在我國的英語教學研究中,有著作介紹Range軟件,并舉例說明如何應用該軟件分析應用于教材的文章難度[3],也有使用易讀度軟件AntwordProfiler通過覆蓋率等方式分析文本難度的嘗試[4]。

而在法語教學研究中,少有研究者使用定量分析方法通過詞表和語料庫分析文本。關虹依據《高等學校法語專業基礎階段教學大綱》和《高等學校法語專業高年級法語教學大綱》,制定含4個層級共8500個單詞的新詞匯表,并據此分析學生在作文中體現的掌握和運用法語詞匯的能力[5]。但在教材和閱讀材料研究中,暫未看到類似語料庫方法的實踐。

2 常用法語詞表

在法語教學史上最早的重要詞表是古根內姆等語言學家在1955年發布的《基礎法語》(可在http://www.lexique.org/telAutresBases.php下載)。該詞表包含兩級:第一級1475詞,第二級3500詞。第二版詞表在此基礎上擴充到8774個單詞。該詞表主要是根據詞頻和分布率制定的,語料為275個人訪談所得的口語語料庫,包含163篇文本,312 134個詞,7995個詞目。此外,編寫者還圍繞20個興趣中心補充了320個易聯想(disponibilité)單詞,剔除了 104 個粗俗用詞(如bouquin, foutre, formidable, vélo 等)[6]。

計算機開始廣泛使用后,對詞匯的計量變得更為方便,涌現出許多新詞表。

Lexique3詞表是一個收入詞條較全的開源詞表,包含 142 728 個單詞,對應 47 342 個詞目[7](可在 http://www.lexique.org/telLexique.php下載)。其中單詞的詞頻有兩項。前者是書面文本統計得來,語料庫由法語分析與處理實驗室 (Analyse et Traitement Informatique de la Langue Fran aise,Atilf) 提供的從 1950 年到2000年間出版的218本小說構成,1470萬詞匯量級。后者是口語資料統計得來,語料庫為9474部電影的字幕,5千萬詞匯量級。由于研究對象為文本,本文采用書面文本統計所得的詞頻。

塔克等人認為,基于法語在母語為法國人的使用環境中統計出的詞頻,與法語學習者在學習過程中接觸到這些詞語的順序和頻率存在差異,所以應采用基于課本統計出的分級單詞詞表判斷法語學習者遇到的單詞難度[8]。

FLELex的編寫者統計了28本專為外國學生使用的法語教材和29本目標讀者為外國學生的簡寫法語讀本中的777 835個詞,并將語料按照《歐洲語言共同參考框架:學習、教學、評估》分為6個層級:A1(入門級),A2(初級),B1(中級),B2(中高級),C1(高級),C2(精通級)[9]。FLELex 中共有 14 053 個實詞詞目和 183個語法詞詞目 (可在 http://cental.uclouvain.be/flelex/#tab-download下載),對每個詞目,標注其詞性和在不同層級的教材或簡寫本中標準化計算后的詞頻。由于編寫者采用了兩個分詞器預處理語料,所以有TT和CRF兩個版本,本文采用TT版本。

我國法語專業的教學大綱詞表有兩種:《高等學校法語專業基礎階段教學大綱》(以下簡稱 《基礎大綱》)包括3800個單詞,其中需要熟練掌握的積極詞匯為2600個[10]。 《高等學校法語專業高年級教學大綱》(以下簡稱《高年級大綱》)包括8040個單詞。它是《基礎大綱》3800 詞匯表的擴大[11]。

以下選取Lexique3詞表前4000詞目 (以下簡稱Lexique3-4K),Flelex_TT詞表前4000詞目(以下簡稱Flelex-4K)與基礎大綱對比,Lexique3詞表前8000詞目 (以下簡稱Lexique3-8K)、Flelex_TT詞表前8000詞目(以下簡稱Flelex-8K)與高年級大綱、第二版古根內姆詞表(以下簡稱Gougenheim)對比,測試不同詞表在各語料庫中辨別生詞的能力。

Lexique3詞表中,拼寫相同而詞性相異的詞被計為不同詞項。然而,在大綱詞表中,絕大多數具有多種詞性的詞計為一項。因此,在統計時,將Lexique3詞表中相同拼寫的詞目詞條合并,條目的頻率之和作為統一的詞目詞頻。同時,更正部分高頻詞的詞目標注錯誤,篩選有效的短語,最終得到的詞表含45 512個詞目,125 646個詞條,1117個短語。對 Flelex和Gougenheim詞表也作類似處理。

對教學大綱詞表進行如下預處理:更正了存在的拼寫錯誤;去除了重復收錄的單詞;將相同單詞的不同形式歸并為Lexique3中的詞目。因此得到的單詞數目與各大綱中標明的數目略有差異?!盎A大綱1”為第一學年應掌握的積極詞匯,“基礎大綱1+2”為第一、二學年應掌握的積極詞匯,“基礎大綱全”為基礎大綱中所有詞匯。

3 統計文本覆蓋率

3.1 統計覆蓋率的方法

統計覆蓋率時,詞表中的詞組與自反動詞按照其中去除高頻虛詞之后的單詞計算。

表1是根據Lexique3詞表統計出的詞頻排名前15 000的詞目在每1000詞層級時,分別在Lexique3書面文本語料庫中的覆蓋率:

表1:排名前8000的詞目每1000詞層級在Lexique3書面文本語料庫中的覆蓋率

由表1可見,詞頻最高的1000個詞目的出現次數之和占語料庫所有單詞總數的80%以上。據博多(Baudot)在 22 000 詞條,1 040 150 詞次,800 份語料基礎上對法語詞匯的計量,使用頻率最高的不到3000詞在語料庫中占比為90%[12]。本次采用的Lexique3詞表得到的數據與之相符,較為可信。

詞表中詞目詞頻排名5000以外的詞匯的百萬詞詞頻均小于10,彼此數值差距較小,為中低頻詞,在不同詞表中排名可能會隨語料庫內容不同而有較大變化。例如地名pékin在Lexique3中排名在14 000以外,但對于中國學生,這是較早接觸到的高頻詞。

表2:教學大綱詞表分別的詞目數及在Lexique3語料庫的覆蓋率

以上詞表在Lexique3詞庫中覆蓋率較低。一方面,是因為該語料庫中為原版法語小說,難度較高。另一方面,是因為Lexique3中部分高頻詞不在大綱詞表中,其中包括au,du等縮合冠詞。高年級大綱中缺少et,de,quoi等高頻詞,而僅et一個詞的百萬詞詞頻率就為20 879.73,覆蓋率為2.29%。

為提高由詞表所得生詞的準確性,按以下方法,在未覆蓋的詞中排除對讀者不造成或造成較小閱讀障礙的詞。首先,使用高頻虛詞作為停用詞表。其次,由于人名、地名等專有名詞容易結合上下文得知其所指對象為人物或地點。百以內的數詞在第一學年就已習得,但詞表中易疏漏(如高年級大綱中缺少deux這個高頻數詞)。因此,將人名、地名、百以內的數詞和序數詞作為專有名詞表。此外,其他在句首以外位置都以大寫字母開頭的單詞也視作專有名詞。再次,在Lexique3詞表中找出擬聲詞、感嘆詞。余下的單詞視為詞匯量與該詞表相符的學生的生詞,統計生詞率。

3.2 詞表在教材和分級閱讀材料等語料庫中的覆蓋率和生詞率

測試文本分為4類。第一類是教材,選取北京外國語大學1992年版《法語》1—4冊(以下簡稱北外法語)和《法語綜合教程》1—4冊(以下簡稱綜合教程);第二類是課外分級讀物,采用上海外語教育出版社法語分級注釋讀物叢書(以下稱分級讀物)中A1到B2的4個難度各1冊簡寫本:《美女與野獸》《小法岱特》《環游世界80天》和《巴黎圣母院》;第三類是高年級大綱中推薦的原版小說:《小王子》和《包法利夫人》;第四類是新聞,采用5個新聞網站各1篇不同主題的文章。

首先在教材語料庫中測試各詞表的覆蓋率和生詞率是否符合課本的難度級別順序(表3)。

根據表3可知,判斷文本難度時,用停用詞表和專有名詞等詞表修正后的生詞率的效果好于原始詞表的覆蓋率。如高年級大綱在兩套教材中的2冊、3冊覆蓋率都高于第1冊覆蓋率,而用所有詞表的生詞率判斷,兩套教材的難度都符合相應編排的順序,且數值之間呈階梯狀差異,分界清晰。說明生詞率可作為衡量文本單詞難度的有力標準。

除Lexique3-8K和Gougenheim詞表顯示北外法語的3冊、4冊生詞率比綜合教程相應冊數略高外,其他詞表都顯示,綜合教程每冊難度高于北外法語相應冊數。而綜合教程1和2對應法語專業一年級第一、二學期,3和4對應二年級第一、二學期。綜合教材難度可能明顯高于目標讀者水平。這一現象還可歸因于北外法語編寫時間與教學大綱的年代相近 (基礎大綱參考的教材中雖沒有列出這一版本,但有1962年和1980年的北京外國語學院版《法語》),因此兩者的詞匯重合度高。

表3:教材語料庫的覆蓋率和生詞率

此外,根據以上結果,可沿用英語的相關研究成果,將5%的生詞率作為是否能理解文本的重要指標。掌握基礎大綱1的學生,閱讀北外法語1時生詞率小于5%,學會基礎大綱2后,閱讀北外法語2的生詞率也在5%以下,掌握全部基礎詞匯后,可獨立閱讀北外法語3的大部分課程(表中僅列出整冊書平均值,實際在16課中有6課生詞率超過5%)。這與教學經驗較一致。

再以綜合教程4第一課Texte A的生詞為例,測試各詞表辨別生詞的能力(表4)。

其中,amoureux, attaque,échange, promesse 和royaume僅在Gougenheim中未出現,cours和fois僅在Flelex的兩級詞表中未出現,chasseur,enfer和pied僅在基礎大綱中未出現,établir僅在高年級大綱中未出現,corde和livrer僅在課后生詞表中被列為生詞。這些都是難度相對較低的單詞。

而 archet,caisse de résonance,montreur d’ours,se désaltérer,escopette 這樣在絕大多數甚至所有詞表中都未出現的生詞,確為文中最難的一批單詞。此外,rêveur和violoniste這樣的單詞盡管沒有出現在部分詞表中,但與它們相同詞族的rêve和violon卻在詞表,顯示出以詞目為單位選詞的局限性。

可見,靠單個詞表或專家意見選出生詞,難免會出現疏漏和有爭議的情況。在選用的詞表中,Gougenheim詞表由于年代較早,效果明顯比其他詞表差。

接下來,再測試各個詞表在分級讀物、小說和新聞語料庫中的覆蓋率和生詞率(表5)。

在使用基礎詞表和Gougenheim判斷分級讀物文本難度時,A1的生詞率略高于A2,而其他詞表的結果都符合該系列的分級順序。比較這兩篇文章不在基礎大綱而在高年級大綱的單詞,A1的690個類符中有40個,A2的704個類符中有44個,相差不大。但A1中fée出現 9 次,monstre出現 9 次,épouser出現 8 次,而A2中此類單詞僅sorcier出現4次,所以整體占比小于A1。對于單詞量與基礎詞表相一致的讀者而言,A1和A2這兩冊讀物中的生詞比例可能正如生詞率所顯示的,A1略高于A2。當單詞量擴展,識別A1中反復出現的與童話相關的單詞后,A1的實際單詞難度仍低于A2。

表4:綜合教程4第一課Texte A按不同詞表選出的生詞

表5:閱讀材料、小說和新聞語料庫的覆蓋率和生詞率

所有詞表中,《小王子》的生詞率都在B1和B2級之間,《包法利夫人》則明顯難于B2等級,與教學經驗相一致。

《包法利夫人》和新聞語料庫的對比結果顯示,除Flelex-4K詞表中兩者生詞率相當,Flelex-8K中前者生詞率高于后者外,其他詞表均判定前者生詞率小于后者。這一結果可能說明,Flelex詞表中收錄的單詞更貼近時事,而其他詞表由于語料來源文學作品比例較高,對文學作品的覆蓋率更高。在查驗生詞時發現,新聞語料庫中在Flelex-8K而不在高年級大綱的詞有36個,其中包括 migration, législatif, gestion, logiciel等與政治、經濟、科技相關的單詞?!栋ɡ蛉恕分性诟吣昙壌缶V而不在Flelex-8K的詞有646個,其中postscriptum,ligature,étymologie,laminoir 等單詞都專業性較強。證實了這一推斷。

4 結語

詞匯是語言教學的基礎組成部分,對閱讀等技能的提高尤為重要。相關的語料庫建設和研究能極大促進詞匯教學的科學性和效率。在驗證多個詞表在不同語料庫中的覆蓋率和生詞后,證實了這種方法對評估文本難度的有效性,以及將5%的生詞率作為能否讀懂法語文本標準的可行性。

數據也顯示,無論是語料庫生成的詞表,還是綜合其他詞表成果由專家審閱制定的教學大綱詞表,都有不同程度遺漏高頻或較新單詞的情況,還不可避免地存在少量錯誤。

表6中的科技詞匯,在Lexique3詞表中由于語料庫來源為2000年之前的文本,所以排名靠后,而基礎大綱和高年級大綱的編寫年代較早,缺失其中的三個單詞。在較晚編寫的《大學法語教學大綱》第2版和《大學法語課程教學要求》中,則計入了internet。

表6:部分科技詞匯在英語和法語詞表中的對比①表中英語排名采用Paul Nation(2014)中使用的25個按詞頻排序的1000詞族表,該資源可在http://www.victoria.ac.nz/lals/staff/paul-nation.aspx下載。

為提高詞表的質量和編寫時的效率,需不斷關注最新研究成果,結合多個來源,應用軟件統計的優勢,著重審閱來源中不一致的地方,并查漏補缺,才能得到更符合實際的結果。

在編寫詞表和統計生詞時,以詞目為單位判斷生詞難度存在兩個主要問題。一方面,忽略了不規則動詞等部分單詞的形態變化對讀者的難度。一年級學生認識être的直陳式動詞變位,但不認識其虛擬式形態。另一方面,會將與高頻詞詞根相同的低頻詞誤認為難詞。如productivité在Lexique3詞表中百萬詞詞頻僅為0.34,排名23 963,而與它同源的production詞頻則為14.59,排3988位,為常用詞。

對專有名詞的處理,也不應一概而論。大多數情況下,人名、地名等信息不影響文章內容。但在新聞等特殊情況下,如對相關背景沒有了解,則會讀不懂文章。在科研等文本中,特殊的專有名詞更是內容的核心,不應籠統地不計入生詞。

此外,詞匯計量中詞組的處理也是難點。在對文本分詞時,難以將詞組與其他同時出現的單詞區分。在通過語料庫統計得來的詞表中,既有parce que,d’accord等真詞組,也有la plupart des,la plupart du這樣的假詞組。

盡管詞匯計量已有較長歷史,在實際應用中,由于語言本身存在大量不規則現象、語料本身的質量參差不齊、開發語料庫有一定專業門檻、專家精力有限且主觀性強等條件局限,現存詞表仍需進一步改良和拓展,并應當與語料庫方法和計算機輔助相結合,以適應學生需通過互聯網等方式大量閱讀符合其知識水平的同時代真實語料的迫切需求。

參考資料:

[1]NATION.How much input do you need to learn the most frequent 9,000 words?[J].Reading in a Foreign Language,2014,26(2):1-16,2.

[2]HIRSH D, NATION.What vocabulary size is needed to read unsimplified texts for pleasure?[J].Reading in a Foreign Language,1992,8 (2):689-696,690.

[3]王立非.計算機輔助第二語言研究方法與應用[M].北京:外語教學與研究出版社,2007:45.

[4]吳文彥,韓亞微.《經濟學人》作為大學非英語專業學生閱讀材料的易讀性研究[J].北京印刷學院學報,2013,21(3):33-36.

[5]關虹.基于語料庫的法語語言能力評價[J].解放軍外國語學院學報,2004,27(6):55-58,56.

[6]程依榮.法語詞匯學導論[M].北京:外語教學與研究出版社,2002:190-192.

[7]NEW B,et al.Une base de données lexicales du franC,ais contemporain sur internet:LEXIQUE[J].L'Année Psychologique,2001(101):447-462,453.

[8]TACK A,et al.Modèles adaptatifs pour prédire automatiquement la compétence lexicale d’un apprenant de franC,ais langue étrangère In Actes de la 23e Conférence sur le Traitement Automatique des Langues Naturelles [C].Paris:TALN,2016:4-8.

[9]FRANCOIS T,et al. FLELex:a graded lexical resource for French foreign learners In the 9th International Conference on Language Resources and Evaluation[C].Reykjavik:LREC,2014:26-31.

[10]高等學校法語專業基礎階段教學大綱[M].北京:外語教學與研究出版社,1988.

[11]王文融.高等學校法語專業高年級法語教學大綱:試行[M].北京:外語教學與研究出版社,1997.

[12]SEGUIN H.Fréquences d’utilisation des mots en fran C,ais écrit contemporain.Jean Baudot,1992, Les Presses de l’Universitéde Montréal[J].Revue québécoise de linguistique,1993,22(2):179-181.

10.14180/j.cnki.1004-0544.2017.12.011

H32

A

]1004-0544(2017)12-0068-07

劉瀟(1985-),女,湖北武漢人,武漢大學外國語言文學學院法語系博士生。

責任編輯 李利克

猜你喜歡
詞表覆蓋率法語
民政部等16部門:到2025年村級綜合服務設施覆蓋率超80%
我國全面實施種業振興行動 農作物良種覆蓋率超過96%
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
學術英語詞表研究管窺
——三份醫學英語詞表比較分析
自殺呈現中的自殺預防——法語動畫電影《自殺專賣店》的多模態話語分析
淺談法語學習難點以及應對策略
唱到愛恨纏綿時,以愛化解世仇——法語音樂劇《羅密歐與朱麗葉》
基于噴丸隨機模型的表面覆蓋率計算方法
2015年湖南省活立木蓄積量、森林覆蓋率排名前10位的縣市區
從詞匯角度探究英語和法語的相關性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合