詞素位置概率信息在中文雙字詞識別中的作用：詞匯語境多樣性的調節 *

2024-01-31 00:01梁菲菲馮琳琳王昶浩

心理與行為研究 2023年6期

梁菲菲馮琳琳劉瑛王昶浩王潔

(1 教育部人文社會科學重點研究基地天津師范大學心理與行為研究院，天津 300387) (2 天津師范大學心理學部，天津 300387) (3 學生心理發展與學習天津市高校社會科學實驗室，天津 300387)

1 引言

在多數拼音文字書寫系統中(如英語、德語等)，詞間空格作為一種天然的視覺詞切分線索，促進詞匯識別和引導眼跳定位(Clifton et al.,2016;Perea ＆ Acha,2009)。相比之下，中文閱讀沒有明顯的視覺詞切分線索標記詞的開始和結束，其詞切分過程顯得相對復雜且重要(白學軍等,2019; 梁菲菲等,2019; Li ＆ Pollatsek,2020)。中文讀者如何以及利用何種線索進行詞切分，是揭示中文閱讀眼動控制的關鍵。

詞素位置概率是指漢字出現在詞內特定位置的概率信息(梁菲菲等,2022; Liang et al.,2023)。例如，在“抽”字構成的26 個雙字詞中(如“抽象”“抽空”“抽打”等)，“抽”字均用在詞首，其位置線索完全指向詞首，位于詞內特定位置的漢字提供了一定的詞切分信息。前期系列研究均已證明詞素位置概率信息作用于中文閱讀的詞切分(曹海波等,2023; Liang et al.,2017; Liang et al.,2015;Liang et al.,2023)。詞素位置概率信息作為一種亞詞匯水平的統計學詞切分線索，其作用受詞頻的調節(曹海波等,2023)。研究者采用詞匯判斷任務，通過兩項實驗考察高頻詞和低頻詞識別中首、尾詞素位置概率的作用方式。結果發現，高頻詞識別中首、尾詞素位置概率信息均不起作用；低頻詞識別中，首詞素而不是尾詞素的位置概率信息起作用。表明中文詞匯識別中詞頻自上而下調節了詞素位置概率信息的加工方式。

在語言習得領域，詞頻是多數語義表征模型構建的基礎，反映心理學的重復原則(principle of repetition)，其邏輯是，相比于低頻詞，高頻詞獲得更多、更強的記憶痕跡，更容易提取(Rosa et al.,2017)。研究者對基于單純重復原則的詞頻在詞匯組織中的作用提出了質疑。他們發現，相比于詞頻，詞匯的語境多樣性(contextual diversity)更能代表讀者詞匯組織的信息來源。語境多樣性是指詞匯出現在語料庫不同文本中的數量，反映了可能需要原則(principle of likely need)，其假設是，相比于出現在單一語境中的詞匯，出現在不同語境中的詞匯在之后的未知語境中更有可能被需要，從而更廣泛地得到運用(Adelman et al.,2006; Jones et al.,2017)。

基于重復原則的詞頻和基于可能需要原則的語境多樣性，對詞匯識別做出不同預測：如果詞頻更重要，那么不斷重復更有利于詞匯識別，且每一次重復對于詞匯表征的構建同等重要；反之，如果語境多樣性更為重要，那么單純重復詞匯本身所產生的學習效果有限，只有伴隨語境的改變，才能逐步構建完整的詞匯表征(Jones et al.,2017)。研究者就詞頻和語境多樣性在語料庫(Adelman et al.,2006; Johns et al.,2012)、詞匯識別(Huang et al.,2021; Perea et al.,2013; Soares et al.,2015)以及句子閱讀(Chen et al.,2017; Pagán et al.,2020;Plummer et al.,2014)中的預測作用展開大量研究。結果發現，在控制詞頻后，低語境多樣性詞匯的反應時間顯著長于高語境多樣性詞匯；而在控制語境多樣性后，詞頻對詞匯識別速度的影響消失。由此可知，在控制詞頻后，語境多樣性仍能解釋很多變異；而在控制語境多樣性后，詞頻的預測作用消失。根據詞匯遺留假說(lexical legacy hypothesis)(Nation,2017)，閱讀提供諸多不同的語境、情節和經驗。隨著讀者閱讀經驗的累積，這些不同的語境、情節和經驗匯聚成個體關于詞匯的數據庫。僅僅只是一味地重復呈現某個詞，或在同樣的語義中重復某個詞均無法刷新詞典歷史，而伴隨語境的變化才會不斷更新詞匯表征，從而增強學習效果(賀斐,2021; Nation,2017)。由此推斷，語境多樣性這一指標可能更好地反映心理學的詞匯組織原則，在詞匯識別中起到更強的預測作用。

本研究通過兩項實驗同時操縱首、尾詞素的位置概率信息，回答詞匯語境多樣性對詞素位置概率信息加工的調節方式?；谧x者對高語境多樣性詞匯表征的建立更為完善，傾向于整詞通達的加工方式，而低語境多樣性詞匯表征建立相對不完善，需要借助自上而下的整詞通達和自下而上的詞素通達(Coltheart et al.,2001)，本研究預期：如果詞匯語境多樣性調節詞匯通達方式，詞素位置概率信息在高語境多樣性詞匯識別中不起作用，在低語境多樣性詞匯中發揮作用；如果語境多樣性條件不能調節詞匯通達方式，詞素位置概率效應將在高語境和低語境條件下保持一致。

2 實驗1：高語境多樣性詞匯識別中首、尾詞素位置概率信息的作用

2.1 被試

天津師范大學60 名在校生參加實驗，平均年齡為20.20±1.66 歲。所有被試母語均為漢語，視力或矯正視力正常，均不知曉實驗目的。

2.2 實驗設計

采用2(首詞素位置概率：高、低)×2(尾詞素位置概率：高、低)的被試內實驗設計。因變量為詞匯判斷正確率和反應時。

2.3 實驗材料

基于SUBTLEX-CH 語料庫(Cai ＆ Brysbaert,2010)，以logCD=0.85 作為語境多樣性高、低分界點，高語境多樣性條件的logCD 范圍為0.90～3.12，平均值為1.73；低語境多樣性條件的logCD范圍為0～0.845，平均值為0.49。將詞素位置概率高于0.7 定義為高概率條件，低于0.3 定義為低概率條件。操縱首、尾詞素位置概率高低，形成4 種條件，每種條件包括40 個雙字詞：(1) 首高尾高(簡稱“HH”)；(2)首高尾低(簡稱“HL”)；(3)首低尾高(簡稱“L H”)；(4) 首低尾低(簡稱“LL”)。四種條件下目標詞的語境多樣性、詞頻、首詞素筆畫數、首詞素字頻、尾詞素筆畫數、尾詞素字頻差異均不顯著，Fs＜1.71，ps＞0.05。見表1。

表1 實驗1 真詞詞匯特征[M(SD)]

選取相同數量雙字假詞(160 個)作為填充詞，構成詞匯判斷“否”反應。將真字兩兩組合構成假詞，形成與真詞對應的四個條件：HH、HL、LH、LL，每個條件包括40 個目標詞。四個實驗條件下假詞的首詞素筆畫數、首詞素字頻、尾詞素筆畫數、尾詞素字頻差異均不顯著，Fs＜1.94，ps＞0.05，見表2。

表2 實驗1 假詞詞匯特征[M(SD)]

2.4 實驗儀器

實驗采用14 英寸筆記本電腦，分辨率為2880×1800 像素，刷新率為60 Hz，實驗材料為35 號等寬字體。

2.5 實驗程序

使用E-Prime 3.0 編程。被試單獨施測。首先呈現500 ms 的注視點“+”，注視點消失后呈現目標詞，要求被試又快又準地進行真假詞匯判斷，真詞按“F”鍵，假詞按“J”鍵。兩個相鄰試次的時間間隔為1000 ms。實驗材料隨機呈現。正式實驗前有8 個練習試次。

2.6 結果

刪除反應時超過3000 ms 以及3 個標準差之外的試次，刪除數據比例為6.7%。反應時分析只針對正確反應試次。四種詞素位置概率實驗條件下的平均正確率和反應時見表3?；赗(R Development Core Team,2016)語言環境下的廣義線性混合模型(generalized mixed-effects models,GLMMs)和lme4 數據包(Bates et al.,2023)對正確率數據進行分析，采用線性混合模型(liner mixed model,LMM)對反應時數據進行分析，并進行log轉換。將首、尾詞素位置概率作為固定因素，被試、項目作為隨機效應納入模型。模型分析匯總結果見表4。

表3 實驗1 不同詞素位置概率實驗條件下的平均正確率和反應時[M(SD)]

表4 實驗1 不同詞素位置概率實驗條件下正確率和反應時的模型分析匯總結果

正確率分析。首、尾詞素位置概率的主效應均不顯著(|z|s＜1.05)，二者的交互作用顯著(|z|=2.63)。簡單效應分析發現，當首詞素位置概率較高時，尾詞素位置概率的高、低無顯著差異(t=1.02)；而當首詞素位置概率較低時，尾詞素位置高概率條件下的正確率顯著高于尾詞素位置低概率條件(|t|=2.42)。

反應時分析。首、尾詞素位置概率的主效應均不顯著(|t|s＜0.73)，二者的交互作用顯著(t=1.99)，當首詞素位置概率信息較高時，尾詞素概率高、低之間的差異不顯著(|t|=1.03)；當首詞素位置概率較低時，尾詞素概率高、低之間的差異也不顯著(t=1.79)。

上述結果表明，在正確率分析中，尾詞素位置概率作用受首詞素位置概率高低的制約，當首詞素位置概率較高時，尾詞素的位置概率信息不起作用；當首詞素位置概率較低時，尾詞素的位置概率信息開始起作用。而首詞素位置概率信息對尾詞素位置概率信息的調節作用并沒有表現在反應時分析中。

3 實驗2：低語境多樣性詞匯識別中首、尾詞素位置概率信息的作用

3.1 被試

同實驗1。

3.2 實驗設計

同實驗1。

3.3 實驗材料

基于SUBTLEX-CH 語料庫(Cai ＆ Brysbaert,2010)，將詞素位置概率高于0.7 定義為高概率條件，低于0.3 定義為低概率條件。操縱首、尾詞素位置概率高低，形成4 種條件：HH、HL、LH、LL，每種條件下35 個雙字詞。四種條件下雙字詞的語境多樣性、詞頻、首詞素筆畫數、首詞素字頻、尾詞素筆畫數、尾詞素字頻差異均不顯著，Fs＜1.99，ps＞0.05。見表5。

表5 實驗2 真詞詞匯特征 [M(SD)]

為平衡詞匯判斷是否項目數，在材料中加入同等數量填充詞構成“否”反應。將兩個真字組合為假詞構成填充詞。四種條件下各35 個假詞，同樣控制四種條件下填充詞的首詞素筆畫數、首詞素字頻、尾詞素筆畫數、尾詞素字頻差異均不顯著，Fs＜1.70，ps＞0.05。見表6。

表6 實驗2 假詞詞匯特征[M(SD)]

3.4 實驗儀器和實驗程序

同實驗1。

3.5 結果

刪除數據標準和數據分析方法同實驗1，刪除比例為16.8%。四種實驗條件下的平均正確率和反應時見表7，模型分析匯總結果見表8。

表7 實驗2 不同詞素位置概率實驗條件下的平均正確率和反應時[M(SD)]

表8 實驗2 不同詞素位置概率實驗條件下正確率和反應時的模型分析匯總結果

正確率分析。首詞素位置概率的主效應邊緣顯著(|z|=1.94)，尾詞素位置概率的主效應顯著(|z|=3.22)，二者的交互作用不顯著(|z|=1.52)，表明在低語境多樣性條件下，首、尾詞素位置概率在詞匯識別中均起作用。

反應時分析。首詞素位置概率的主效應不顯著(|t|=0.94)，尾詞素位置概率的主效應顯著(t=1.99)，二者的交互作用不顯著(t=1.09)。表明在低語境多樣性條件下，尾詞素位置概率對詞匯識別的時間產生影響。

上述結果表明，在低語境多樣性詞匯識別中，首、尾詞素位置概率信息均起到一定作用。相比之下，尾詞素位置概率信息的影響更為廣泛(同時表現在正確率和反應時上)，首詞素位置概率信息的作用僅表現在正確率方面。

4 假詞分析結果

由于實驗1 和實驗2 被試相同，且填充詞的構詞規則和標準相同，將兩個實驗的填充詞合并分析。數據分析方法同實驗1，刪除數據占總數據的8.4%。四種實驗條件下的平均正確率和反應時見表9，模型分析匯總結果見表10。

正確率和反應時分析的結果趨勢完全一致。首、尾詞素位置概率的主效應以及二者交互作用均顯著(|z|s>2.96)，簡單效應分析表明，當首詞素位置概率較高時，尾詞素位置概率高、低條件下的正確率和反應時均無顯著差異(|t|s＜0.78)；當首詞素位置概率較低時，尾詞素位置高概率詞匯識別正確率顯著低于、反應時顯著長于尾詞素位置概率較低時(|t/z|s>3.88)。該結果表明，當讀者判斷一個詞為假詞時，會同時運用首、尾詞素的位置概率信息進行判斷，且尾詞素位置概率信息的作用受首詞素位置概率高低的調節。當首詞素位置概率較高時，尾詞素的位置概率不起作用；當首詞素位置概率較低時，讀者會運用尾詞素位置概率信息進行判斷。

5 討論

本研究通過兩個平行實驗，同時操縱首、尾詞素的位置概率高低，考察了中文詞匯識別中詞匯的語境多樣性如何調節首、尾詞素位置概率信息的加工。主要發現如下：在高語境多樣性詞匯識別中，當首詞素用在詞首的概率較高時，尾詞素的位置概率信息不影響詞匯識別，但是當首詞素用在詞首的概率較低時，尾詞素的位置概率高低影響詞匯判斷的正確率；在低語境多樣性詞匯識別中，首、尾詞素的位置概率信息均作用于詞匯識別；在假詞識別中，首、尾詞素的位置概率信息均作用于假詞識別，且首詞素位置概率的高低限制尾詞素位置概率信息的加工。研究結果與本研究假設相符，表明詞匯語境多樣性調節了首、尾詞素位置概率信息在詞匯識別中的作用方式。本研究結果對于理解中文詞匯識別和詞切分的認知機制有以下啟示。

相比于詞頻，詞匯的語境多樣性在衡量心理語言學的重復原則時，納入了語境多樣性因素，因此在詞匯識別中具有更強的解釋力(Chen et al.,2017; Pagán et al.,2020; Plummer et al.,2014)。比較本研究和曹海波等人(2023)的研究結果，發現詞匯語境多樣性對首、尾詞素位置概率信息加工的調節作用與詞頻對其的調節作用并不完全一致，在高、低語境多樣性條件下均能激活首、尾詞素位置概率信息，而在高、低詞頻條件下，僅在低頻詞識別中激活了首詞素位置概率信息，因而前者的調節作用在一定程度上大于后者。這在一定程度上表明，雖然詞匯的語境多樣性和詞頻具有中等相關(Hoffman et al.,2013)，但是二者在心理語言學中的含義并不相同。目前主流的中文字詞識別模型(如漢字識別模型)(Taft ＆ Zhu,1997)以及閱讀眼動控制模型(中文閱讀眼動控制模型)(Li ＆Pollatsek,2020)均將詞頻納入模型，作為解釋詞匯加工與識別的重要變量。結合本研究結果以及前期關于詞匯語境多樣性的研究發現，后續研究者可以嘗試將詞匯語境多樣性納入上述模型，以提升該模型的檢驗力。

詞匯語境多樣性如何調節首、尾詞素位置概率信息的加工？依據多字詞的混合通達模型(Caramazza et al.,1988)以及詞匯遺留假說(Nation,2017)的觀點，本研究推測：當一個詞處在多樣化語境中，其詞匯表征質量更高，更傾向于整詞通達模式，此時位于字水平的詞素位置概率信息激活程度較小，因此表現出高語境多樣性詞匯加工中，僅當首詞素的實際位置與其常用位置不相符，造成認知加工困難時，讀者才會利用尾詞素的位置概率信息幫助完成詞匯判斷；當一個詞所出現的語境較為單一時，詞匯表征質量相對較低，此時更傾向于詞素通達模式，因此，首、尾詞素的位置概率信息均在字加工層面被激活，前饋到詞水平加工層級，幫助進行詞匯識別；當判斷一個詞為假詞，作出“否”的判斷時，由于事先沒有假詞的詞匯表征，沒有自上而下來自詞水平信息的反饋，讀者不得不同時依據首、尾詞素的位置概率信息作出判斷。例如，當首詞素不經常用在詞首，尾詞素不經常用在詞尾時，讀者將更快地作出“否”判斷。需要說明的是，為了實現最大限度的操縱，本研究基于語料庫，將詞匯語境多樣性分為高、低兩個水平。但從本質上講，詞匯的語境多樣性是一個連續變量，二分變量無法從連續性的視角描述詞匯語境多樣性對詞素位置概率加工調節作用的變化。后續研究有必要結合全面的語料庫分析以及局部的實驗設計，從連續性視角揭示該問題。

本研究還發現，首詞素位置概率信息的加工在一定程度上限制尾詞素位置概率信息的加工，結果支持中文雙字詞識別中首詞素具有加工優勢的觀點(Ma ＆ Li,2015; Tsang ＆ Zou,2022)。這可能與中文自身的文字特征以及閱讀方向有關：由于中文閱讀的視覺詞匯加工從左至右進行，讀者對首詞素的加工先于尾詞素，使得首詞素在詞匯識別中起關鍵作用。這符合基于拼音文字閱讀提出的自我組織詞匯習得與識別模型(SOLAR)(Davis,2001)和順序編碼模型(SERIOL)(Whitney,2001)的基本主張，即字母的興奮性激活程度從詞匯左側向右側逐步遞減。后續研究有必要在中文詞匯識別模型中納入首、尾詞素加工的不同地位，以增強模型的解釋力。

6 結論

本研究條件下得出如下結論：在高語境多樣性詞匯識別中，僅當首詞素與常用位置不相符時，讀者才會利用尾詞素的位置概率信息完成詞匯識別；在低語境多樣性詞匯識別中，首、尾詞素的位置概率信息均起作用。

詞素位置概率信息在中文雙字詞識別中的作用：詞匯語境多樣性的調節 *

1 引言

2 實驗1：高語境多樣性詞匯識別中首、尾詞素位置概率信息的作用

2.1 被試

2.2 實驗設計

2.3 實驗材料

2.4 實驗儀器

2.5 實驗程序

2.6 結果

3 實驗2：低語境多樣性詞匯識別中首、尾詞素位置概率信息的作用

3.1 被試

3.2 實驗設計

3.3 實驗材料

3.4 實驗儀器和實驗程序

3.5 結果

4 假詞分析結果

5 討論

6 結論

2 實驗1：高語境多樣性詞匯識別中首、尾詞素位置概率信息的作用

3 實驗2：低語境多樣性詞匯識別中首、尾詞素位置概率信息的作用