?

英語寫作中詞匯豐富性測量維度、方法與指標研究綜述?

2023-01-30 02:48楊洋
外語與翻譯 2022年4期
關鍵詞:豐富性復雜度學習者

楊洋

馬來西亞博特拉大學

張飛

廣東培正學院

張善富

玉溪師范學院

【提 要】本文在梳理詞匯豐富性測量維度的發展脈絡基礎上,總結了過往文獻中測量詞匯豐富性的維度、方法和指標及其適用范圍和優缺點。此外,本文總結了可以自動計算這些維度和指標的計算機軟件或系統。最后,本文嘗試提出測量詞匯豐富性的未來研究方向:一是在理論和操作方面從新的思路或角度研究能夠更全面反映英語寫作水平的詞匯豐富性測量方法;二是考慮基于中國英語學習者寫作語料庫通過因子分析、路徑分析、比較分析、判別分析等途徑梳理出一套適合測量中國英語學習者詞匯水平的指標模型。

1 引言

詞匯豐富性(lexicalrichness)從狹義上講是指語言使用者或學習者所產出的詞匯多樣性,從廣義上講是指詞匯的復雜程度和范圍。在英語作為外語的教學背景下,詞匯豐富性是英語水平的一個重要指標(Malvern&Richards2013;張會平2020),它們之間存在顯著的相關性(Treffers-Daller,Parslow&Williams2018;Xie&Shen 2015)。

較早的詞匯豐富性研究主要關注以下四個方面:詞匯密度(lexicaldensity)、詞匯復雜度(lexical sophistication)、詞匯變化度(lexical variation)和詞匯獨特性(lexical originality)。與此不同,Engber(1995)認為詞匯錯誤(lexical errors)也是詞匯豐富性的一個重要維度,并認為測量詞匯豐富性應該考慮有錯誤的詞匯變化、無錯誤的詞匯變化以及詞匯錯誤的比例。

Read(2000)在其專著中解釋了將詞匯錯誤作為衡量詞匯豐富性維度的必要性。同時他還指出詞匯獨特性在衡量英語寫作中詞匯豐富性時具有不穩定性。所以,Read(2000)認為好的英語寫作應該具備以下四個特點:1)較高比例的詞匯詞(lexicalword);2)恰當使用適合主題和文風的低頻詞;3)豐富的詞匯量:不重復使用有限的詞匯;4)較少的詞匯錯誤。這些特征正是Read所主張的詞匯豐富性的四個維度:詞匯密度、詞匯復雜度、詞匯變化度和詞匯錯誤。

Daller、Milton和Treffers-Daller(2007)等學者在其專著中提出了“詞匯空間”的概念,并詳細闡述了詞匯知識的維度。他們將詞匯知識劃分為三個維度:詞匯寬度(lexicalbreadth)、詞匯深度(lexicaldepth)和詞匯流暢度(lexical fluency)。按照各維度的含義,上述一些衡量詞匯豐富性的維度可以劃分到詞匯寬度和詞匯深度兩個維度中,而詞匯流暢度反映的是語言學習者能夠以多快的速度從其記憶中檢索并使用一個單詞。然而,一些學者對相同的詞匯豐富性測量維度提出了不同的測量方法。有些學者用一篇作文中不同單詞的數量(numberofdifferentwords;NDW)來衡量詞匯變化度。而有些學者,如Astridya(2018)用類符(type)數和型符(token)數的比值來反映詞匯變化度。還有學者在測量同一詞匯豐富性維度時,提出了不同的指標。鑒于此,本文將系統梳理以往詞匯豐富性研究文獻中出現的測量維度、方法以及指標。

2 詞匯豐富性測量維度、方法與指標

第二語言或外語學習者的英語詞匯知識可以從以下三個方面來評價(Dalleretetal.2007)。一方面是詞匯廣度,它描述了一個學習者能掌握多少詞匯,其表現形式就是詞匯密度、詞匯變化度和詞匯獨特性。第二個方面是詞匯深度,它與學習者對詞匯的掌握程度有關,表現在詞匯復雜度和詞匯錯誤的比例兩個維度。第三個方面是詞匯流暢度。

2.1 詞匯密度

詞匯密度是指一篇文章中實詞或詞匯詞的數量占總單詞數量的比例(于涵靜2017),通常用來衡量文本的信息容量和閱讀難度(金秋、高媛媛2022)。這里的詞匯詞可以簡單理解為名詞、動詞、形容詞和副詞。詞匯密度代表著信息含量程度:一篇文章的詞匯密度越大,代表著這篇文章能夠相對傳遞更多的信息。詞匯密度計算公式如下:

2.2 詞匯復雜度

詞匯復雜度指的是語言學習者在其口語或書面語產出中使用復雜或高級詞匯的程度。不同的學者在計算詞匯復雜度時所使用的指標和詞頻表或者對“復雜詞”的界定并不相同。Linnarud(1986)和Hyltenstam(1988)用一篇文章中復雜詞匯詞數量(Nslex)與總詞匯數量(Nlex)的比值來計算詞匯復雜度。這種計算方法在“詞匯復雜性分析器”(LexicalComplexityAnalyzer)(Lu 2012)中用“詞匯復雜度I”表示,其計算公式如下:

Laufer&Nation(1995)提出了詞頻概貌來分析詞匯復雜度。通過詞頻概貌,可以導出一篇文章中所有類符在以下四個詞表中的分布:最常用1000詞表、次常用1000詞表、學術詞表以及不在上述三個詞表中的單詞詞表——表外詞表。Laufer將后兩個詞表中的詞匯看做復雜詞匯,用復雜詞匯類符數除以總類符數來計算詞匯復雜度,這種計算指標被稱作“詞匯復雜度II”,其計算公式如下:

還有一些學者用寫作中特定詞性詞匯的復雜程度來衡量詞匯豐富性,比如動詞復雜度指標是將最常用200動詞之外的動詞認定為復雜動詞,用復雜動詞類符數與總動詞類符數的比例來計算動詞復雜度。為了消除這種計算方式中樣本量的影響,Wolfe-Quintero、Inagaki&Kim(1998)等改進了動詞復雜度的計算方式,并提出了新的動詞復雜度指標。各動詞復雜度指標計算公式如下:

2.3 詞匯變化度

詞匯變化度是詞匯豐富性的核心,反映了語言學習者的詞匯知識在語言運用中的范圍。詞匯變化度有以下測量方法:不同單詞的數量、型次比(Type-TokenRatio;TTR)以及參數D等。

2.3.1 不同單詞數量及其變型

衡量一篇文章詞匯變化度的基本方法是不同單詞的數量(NumberofDifferentWord;NDW),也就是類符數。然而,NDW的一個關鍵問題是它嚴重依賴于文本的長度。為了消除這一弊端,以往文獻中出現了幾種標準化的NDW指標。例如,“NDW-50”計算一篇文章的前50個單詞中的類符數?!癗DW-ER50”(NDW-期望隨機50詞)是從一篇文章中隨機選取50個單詞,選取10次,然后求10次的平均類符數?!癗DW-ES50”(NDW-期望序列50詞)是從一篇文章中隨機截取10個50詞的序列片段,然后計算10個片段的平均類符數。

2.3.2 型次比及其變型

詞匯變化度的另一個經典測量方法就是“類符-型符比”(Type-TokenRatio;TTR),也叫型次比,即一篇文章中類符(T)數量與型符(N)數量的比值。然而,有研究表明,TTR是詞匯變化度“一個并不令人滿意的測量方法”(Covington&McFall2010:94),因為它對文本的長度很敏感,所以用TTR來反映詞匯變化度并不可靠(Lu2012)。

為了避免TTR對文本長度的敏感性,Johnson(1944)提出了“平均片段TTR”(Mean SegmentalTTR;MSTTR),該方法將文本分成一定數量的等值長度片段,并計算所有片段的平均TTR。MSTTR有效地解決了TTR的樣本量敏感性問題(朱慧敏、劉艷梅2021),但會造成數據的浪費。為了解決這一問題,Covington&McFall(2010)提出了“移動平均TTR”(Moving AverageTTR;MATTR)的概念,其計算原理如下:首先選擇一個“窗口值”(windowsize),即移動片段的長度,例如50個單詞。然后計算第1-50、2-51、3-52……個單詞片段的TTR值,以此類推,直到文本結束。最后,MATTR的值就是這些移動片段TTR的平均值。

TTR雖是詞匯變化度研究中的經典測量方法,由于其局限性,很多學者提出了不同的校正指標,比如“平方根TTR”(RootTTR;RTTR)、“校正TTR”(CorrectedTTR;CTTR)、“對數TTR”(BilogarithmicTTR;LogTTR)以 及“Uber指標”等。TTR及其幾種校正變型的計算公式如下:

TTR的其他一些變型嘗試考察文中某一類詞的詞匯變化程度,如“詞匯詞變化度”(lexical wordvariation)和特定詞性的詞匯變化度。詞匯詞變化度即一篇文章中詞匯詞類符數與詞匯詞型符數的比例;動詞變化度(verbvariation)即一篇文章的動詞類符數除以動詞型符數。同樣的,為了消除樣本量大小的影響,動詞變化度這一指標也得到了校正:“平方動詞變化度”(squared verbvariation)和“校正動詞變化度”(corrected verbvariation)。上述指標計算公式如下:

2.3.3 參數D及其變型

除上述指標外,參數D采用曲線擬合的方法(curvefittingapproach)來測量詞匯變化度。之后,參數D得到了進一步的改進,新的方法可以通過一個名為vocd(Mckee,Malvern&Richards 2000)的計算機軟件自動計算參數值。Mckee等(2000)提出的參數也被稱為vocd-D(?i?ková 2012)。

然而,vocd-D還是受到了一些學者的質疑。比如McCarthy和Jarvis(2007,2010)對vocd-D提出了兩點質疑:一是vocd-D會受文本長度的影響;二是vocd-D和他們提出的另一個詞匯變化度指標HD-D高度重合,卻沒有HD-D精確和穩定。HD-D是計算一篇作文中每個類符在一個隨機抽取的42詞樣本中出現它的型符的概率。

2.3.4 MTLD

上述詞匯變化度的測量方法與指標都沒有考慮到文章的內部結構(?i?ková2012)。為了填補這一空白,McCarthy&Jarvis(2010)引入了“文本詞匯多樣性測度”(MeasureofTextual LexicalDiversity;MTLD)。其原理是計算具有特定TTR值的連續字串的平均長度。

2.4 詞匯錯誤

Engber(1995)引入了“詞匯錯誤”這一術語作為衡量詞匯豐富性的另一個維度。她從詞匯密度、詞匯變化度、不含詞匯錯誤的詞匯變化度和詞匯錯誤百分比四個維度來研究詞匯豐富性。桂詩春和楊惠中(2003)也認為詞匯錯誤是研究外語寫作的重要維度,經過深入分析中國英語學習者的作文,他們將中國英語學習者所犯的詞匯錯誤分為詞性錯誤、動詞短語錯誤、名詞短語錯誤、代詞錯誤等10個大類、52種錯誤類型。

2.5 詞匯獨特性

詞匯獨特性衡量語言學習者或使用者與其寫作小組其他成員的寫作表現,具體指一篇作文中特有詞匯數量的比例。它是用一篇文章中沒有出現在同一組其他作文中的特有詞匯所占的百分比來衡量的。然而,Reed(2000)認為詞匯獨特性并不是研究學習者詞匯水平的一個維度。因此,詞匯獨特性的實用性和通用性不強。其計算公式如下:

2.6 詞匯流暢度

詞匯流暢度表示語言學習者在給定時間內的寫作中產出的詞匯數量(Goodfellow,Lamy&Jones2002)。它反映了語言學習者在必要時是否能快速地從其記憶中檢索到所需詞匯的含義和形式。簡單來講,在限時作文考試中,詞匯流暢度可以用作文長度即單詞數來衡量。

3 結論

本文并沒有窮盡過往文獻中出現的所有詞匯豐富性指標,比如Laufer&Nation提出的詞匯密度指標是計算詞匯詞類符數與總類符數的比值。由于這些指標在近幾年的文獻中已很少使用,本文未做贅述。上文中提到的指標總結在下表1中。

表1 詞匯豐富性測量維度、方法與指標

經過文獻梳理可知,詞匯豐富性研究中出現了詞匯密度、詞匯復雜度、詞匯變化度、詞匯錯誤、詞匯獨特性和詞匯流暢度等測量維度。其中,詞匯流暢度和詞匯獨特性具有很大的使用局限性。詞匯流暢度僅適用于限時寫作中;詞匯獨特性依賴于同組其他作文,僅限同一組作文間相互比較,在近幾年的詞匯豐富性研究中鮮有提及。前四個維度是目前詞匯豐富性研究中的主流測量維度,即Read(2000)所主張的詞匯豐富性測量模型。

在Read(2000)所主張的詞匯豐富性測量模型中,詞匯密度也受到過很多學者的質疑。例如,Malvernetal.2004)認為詞匯密度作為評估寫作水平的指標并不是特別適宜,路小飛(Lu 2012)和?i?ková(2012)認為詞匯密度和寫作質量關系不大,但是這些都不影響詞匯密度作為一個重要的的詞匯豐富性測量維度(張曉東、任嬌嬌2018)。此外,詞匯密度還可以用來區分口語和書面語、區分不同體裁的作文、反映譯者風格(朱珊2021)、衡量翻譯質量(王金銓、于香、吳萬能2021)以及在話語分析中區分不同的語式(程喜2021)。

詞匯復雜度是詞匯深度的重要維度之一,如果說詞匯密度和變化度測量的是語言學習者掌握詞匯的“量”,詞匯復雜度測量的則是詞匯掌握的“質”(王華2021)。詞匯復雜度各指標中對“復雜”詞匯的認定都是基于詞匯使用頻率,即使用頻率較高的詞匯被認定為基礎詞匯,使用頻率較低的詞匯被認定為“高級”或“復雜”詞匯。然而,這一基本理念也并非公允:有些高頻詞也不容易掌握,有些低頻詞反而易學易用。理論觀點和實證研究都表明,頻率并不是學習和使用一個單詞的難易程度的唯一決定因素。到底什么樣的詞匯才算“復雜”,這是一個詞匯復雜度研究需要考慮的問題。

詞匯變化度是詞匯豐富性研究的核心,是學者們最為關注的一個維度,所以文獻中詞匯變化度的測量方法和指標最為豐富。正是由于詞匯變化度的測量指標紛繁復雜,在研究中要慎重選擇指標的使用。TTR雖為眾多指標的基礎,但其基本變型對文本長度過于敏感,需慎重選擇。根據不同指標的原理和計算方法可知,MATTR、MTLD和HD-D的值相對獨立于文本長度,也是最近文獻中較多使用的幾個指標。盡管如此,需要指出的是大部分關于詞匯變化度指標和文本長度的關系研究使用的是2000詞左右的長文本,而中國英語學習者作文長度一般在100-400詞之間。對于哪些指標更適用于這類短文本,還需要做進一步的研究。

最后,相比于上述三個維度,詞匯錯誤是較晚提出的一個詞匯豐富性研究維度。目前詞匯豐富性研究文獻中,詞匯錯誤的研究比重并不高。詞匯豐富性的研究多為量化研究,缺少較為深入的詞匯質性分析,而詞匯錯誤正是從質性角度深入研究詞匯習得的一個重要方向。

目前,詞匯豐富性的大部分指標都可以通過計算機軟件或系統自動計算。比如,通過上傳作文文本,“詞匯復雜性分析器”可以計算并導出表1中詞匯密度和詞匯復雜度所有指標的值以及除參數D和MTLD外詞匯變化度其他的指標值。vocd-D和MTLD可以通過CohMetrix自動計算;通過CHILDES系統中的CLAN軟件也可以計算vocd-D?;谠~頻概貌而設計的Vocabprofile和Range除了可以生成詞頻概貌外,還可以計算詞匯密度和詞匯復雜度。WordSmithTools和AntConc可以計算詞匯密度和詞匯變化度。結合WordSmith Tools和Vocabprofile則可以計算詞匯獨特性。

盡管詞匯豐富性的測量維度、方法和指標經過多年的研究和發展已較為豐富和成熟,但這些方法和指標均各有利弊。詞匯豐富性的測量在理論和操作方面還需要新的研究思路或角度。比如,近幾年有些學者(如Grabchak,Zhang&Zhang2013;Rajput,Ahuga&Riyal2018)提出了基于“熵”的(entropy-based)詞匯豐富性測量方法?;陟氐姆椒ú粌H考慮詞匯的變化性,還考慮類符在一篇作文中的分布是否均衡,這樣就能更全面地反映語言學習者在寫作中的詞匯水平。但新方法的提出需要在理論和操作層面對其信度和效度進行充分的研究論證。

此外,由于詞匯豐富性的測量指標紛繁復雜,在對中國英語學習者語言能力的研究中,對詞匯豐富性的測量指標的使用存在著不統一的現象。例如,李璇(2021)從詞匯密度、詞匯復雜度、詞匯變化度和詞匯獨特性四個維度對中國大學生英語寫作中的詞匯進行了研究,并使用標準化TTR指標來計算詞匯變化度。然而,其他學者如萬麗芳(2010)和張亞(2021),在研究詞匯豐富性時沒有考慮詞匯密度和詞匯獨特性兩個維度,而是研究了詞匯錯誤,而且他們使用Uber指標來測量詞匯變化度。因此,在將來的研究中,可以考慮基于中國英語學習者寫作語料庫通過因子分析、路徑分析、比較分析、判別分析等途徑梳理一套適合測量中國英語學習者詞匯水平的指標模型。

猜你喜歡
豐富性復雜度學習者
你是哪種類型的學習者
十二星座是什么類型的學習者
青年干部要當好新思想的學習者、宣講者、踐行者
一種低復雜度的慣性/GNSS矢量深組合方法
求圖上廣探樹的時間復雜度
基于語料庫的英語作文詞匯“豐富性”現狀分析及對策
電視新聞報道如何擺脫平淡
某雷達導51 頭中心控制軟件圈復雜度分析與改進
高校學習者對慕課認知情況的實證研究
出口技術復雜度研究回顧與評述
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合