?

詞邊界標記淺談

2014-11-15 01:30袁子淵朱力
文學教育 2014年11期

袁子淵+朱力

內容摘要:通過分析中文文本呈現特點及字與字、詞與詞間的切分、識別等問題產生之原因,提出一些留學生漢語閱讀材料中標記詞邊界的手段,使造成理解、切分困難的字詞邊界明晰,幫助學生解決閱讀中的詞識別及切分問題。

關鍵詞:詞識別 切分 原因 詞界標記

一.引言

1.選題源起

詞邊界問題最初針對自然語言理解中的“交集型歧義字段”提出,這里指留學生在閱讀中同樣存在詞邊界信息含混而致的詞“識別和邊界切分”問題。有人提出增加空格“分詞連寫”,一定程度解決了問題,但相關研究證明其存在較大差異及矛盾。

多數漢語文本詞界研究都基于“正詞法”分詞連寫的詞間空格作詞邊界標記,人工處理“痕跡”太明顯,脫離語言實際,與閱讀效率、理解正確率之間的關系不明確。如高珊等通過實驗發現,閱讀效率和正確理解率間似無必然聯系。袁嘉等初步考察了對外漢語教學里中級學生遇到的“騎馬詞”, “騎馬詞”產生原因是“似是而非的‘熟面孔文字組合”和“‘先入為主的信息接收心理”。謝曉燕通過實驗歸納了分詞偏誤的基本類型、原因,給出了提高留學生分詞能力的具體建議。

綜合袁嘉、高珊、謝海燕等人的數據及實驗結果、漢語文本實際情況和教學實踐分析看:1.學生并不總面臨詞邊界識別困難;2.詞間空格分詞處理后形成的空格,跟字母文字詞間空格形成的自然界限有本質區別,脫離正常中文文本實際,也不經濟;3.采用詞間空格的教材多為零起點與初級,詞間空格和注音緊密聯系,空格位置缺乏統一標準又各有細微調整甚至與正詞法沖突。李寶貴發現不少教材注音和拼寫方面或多或少存在不規范。

二.留學生中文閱讀文本的一些處理辦法及局限

漢語詞邊界模糊多在書面語中,表意漢字記錄的漢語書面語則喪失了口語所能憑據的大部分排歧條件。

閱讀中學生并不總面臨詞識別和切分問題,故邊界標記手段也最好具針對性。即只適當標記那些學生可能難以區分的邊界,而非切分全文。

1.適當運用停頓與標點符號

標點符號的使用雖是文字記錄語言更為精確的表現,但也存在一定主觀性甚至隨意性,標點在表停頓、語氣和詞語性質等方面的功能并未完全體現出來;詞邊界問題借助標點符號標記詞邊界有利于保持文本的原生態。

2.適當使用點號標記詞界

針對內部本來可以或應有停頓,但卻無停頓的句子,例如:

(1)想不到這里地方不大人卻這么多。

口語中,上句可根據語音停頓、重音等作以下切分:

(2)想不到,這里地方不大,人卻這么多。

即用點號把在口語中清晰而在文本中模糊的語義停頓和劃分重新標注出來,類似句子可作同樣處理。例如:

(3)白天鵝又游回來了。

(4)一天山上下來的客人在他家菜園子里丟了垃圾。

(5)這樣的人才能做研究工作。

相應地可運用停頓和點號作如下處理:

(6)白天,鵝又游回來了。

(7)一天,山上下來的人在他家菜園子里丟了垃圾。

(8)這樣的人,才能做研究工作。

例(3)存在兩種切分,另一種:

(9)白天鵝 又游回來了。

口語中,停頓及韻律可有效區分“白天 鵝”和“白天鵝”,對后一意義,字串“白天鵝”與“又游回來了”間的語音停頓尚未到達能用點號點開的程度,此時用點號標記詞邊界就顯示出了其局限性,可考慮用標號來標記。

3.用標號來標記

標號主要指引號、著重號和專名號。漢語中姓名、地名、專名情況復雜,無特定標記信息,對此類斷詞困難,適當使用標號是有效解決辦法之一。

如“公路局處理解放大道路面積水問題”,用標號(如引號、著重號)作標記可使界限清晰:

(10)a公路局處理“解放大道”路面積水問題。b“公路局”處理“解放大道”路面積水問題。

對這類句子,學生最大的難處在于很可能不知道“公路局”是機構,而“解放大道”是地名。標記了這兩處,學生對句子的切分和理解問題迎刃而解。此類切分困難,用標號作適當標記不失為有效處理方法。

該方法同樣可解決專名、姓名、稱呼等造成的邊界問題。例如:

(11)a教育部長跑活動負責人與商家總經理被曝系師生。b“教育部”長跑負責人與商家總經理被曝系師生。

(12)祝賀老總百戰百勝。

a祝賀老總百戰百勝。

b祝賀“老總”百戰百勝。

于例(12),用引號標記可能會顯得怪異,所以對姓名、稱呼等而起的斷詞困難,結合文意用“專名號”來標記界限可能比用“引號”好:

(13)由于先生表演的雜技很精彩。

a由于先生表演的雜技很精彩。

b由于先生表演的雜技很精彩。

(14)唐鵬和同學走了。

a唐鵬和同學走了。

b唐鵬和同學走了。

但對例(15),以上標記方法會遇到困難:

(15)專家只會診一些特殊的疾病。

上例字串“只會診”可做兩種意思截然不同的切分(這里借助空格切分):

(16)專家 只 會診 一些特殊的疾病。

(17)專家 只會 診一些特殊的疾病。

上兩例“會”是同形同音異義字,例(16)“會”作為語素參與構詞,例(17)“會”為助動詞,上述標記方法可有效切分例(16),但于(17)有困難,若標記“只會”:

(18)專家只會診一些特殊的疾病。

但“只會”不構成獨立意義單位,邊界標記出的語言片段最好是獨立意義單位,這是該標記方法局限之處。endprint

4.對造成斷詞障礙的字詞處理

“斷詞障礙”主要指3和4中所述的現代漢語中保留的一些文言字詞、語用歧義以及口語書面語之間的差異帶來的困難。例如:(19)陳曉辭任國美董事局主席。

(20)可以這樣的方式來做。

例(19)“辭任”的確收錄在《現代漢語詞典》,“辭”基本上仍保留了古語意義,這種標題易引起歧義,如不熟悉“辭任”一詞,不知“陳曉”是名字,可能把“陳曉辭”當成名字,整個標題所表達的意思就變了。不過,姓名標記的確能解決部分問題。

例(20)“可”和“以”連成一個字串組成詞“可以”,但只要把“可”換成“可是”,該斷詞問題便迎刃而解。

但故并非所有句子都能這樣改,較極端的例子,當兩詞指稱相同卻意義不同,如“啟明星”與“長庚星”。例如:(21)金星早晨見于東方稱為“啟明星”。

若改為:(22)金星早晨見于東方稱為“長庚星”。

則是錯的。

5.幾個語用歧義、語義歧義的處理

新聞標題常有“美國會采取措施制裁伊拉克”一類句子,大凡帶“國”字的國名都有類似問題,漢語母語讀者已習慣“美國國會”縮減為“美國會”類的表達方式,但留學生理解卻有困難。

類似用例:(23)微軟在美國已經歷過各式各樣的反壟斷訴訟。

處理方法大致相同,但得具體情況具體分析,例如:(24)縣里的通知說,讓趙鄉長本月15日前去匯報。

“前”字前屬還是后屬直接影響整個句義理解,須用不同手段來實現歧義分解:

(25)縣里的通知說,讓趙鄉長本月15日之前去匯報。

(26)縣里的通知說,讓趙鄉長本月15日當天去匯報。

這類語用歧義解決起來簡單,但易在留學生閱讀文本處理中被忽視,可當作嚴密用詞規范的用例。

另一種語義歧義,是由漢字里的同形異義字引起的,例如:

(27)直到其中的一顆(種子)一時興(xìng)起蘇醒過來。

(28)一時興(xīng)起一股新文化的熱潮。

(29)下一個圈套。

(30)下一局棋。

例(27)(28)兩個“一時興起”同形異構,“興”的讀音區別了漢字“興”所記錄的兩個不同語素,進而區別兩個組合單位。對由同形異義異音字帶來的切分問題,可標注讀。例(29)(30)中同形同音異義字引起的切分問題,標注讀音難起區分作用,因兩例潛在詞邊界位置有差異。例(30)漢字“下”既可為“下棋”的“下”也可為“下一個人”的“下”。此種切分問題尚未找到合適標記法。

三.結語

本文通過詞邊界問題的分析分類針對性地提出了一些詞界標記方法,如標號、點號的適當使用、嚴密用詞、改寫、標注讀音等,其對提及到邊界問題的處理較有效,在書面語系統內部解決邊界問題以保持文本原生態性的思路也是值得參考的。其次,這些標記方法涉及的邊界問題類尚有限,難處理“下一個圈套”類結構;標記方法尚缺乏系統性,一些標記方法實踐時能解決哪類問題尚缺乏系統總結,可考慮在更大規模語料支撐下細化邊界問題分類,再提出針對性標記方法,形成系統性的標記。

參考文獻

1.陳嘉映《語言哲學》,北京:北京大學出版社 2003.

2.高 珊 詞邊界信息對留學生漢語閱讀的影響,北京語言大學2006屆碩士學位論文。

3.李寶貴 漢語拼音正詞法及其在對外漢語教學中的應用,《大連民族學院學報》第7卷第2期,2005.

4.梁菲菲、白學軍 切分空間和切分方式對中文閱讀績效影響的眼動研究,《心理研究》第1期.2010.

5.陸丙甫 增加漢語書寫系統的語法信息,《南昌大學學報(人文社會科學版)》第4期.2003.

6.陸儉明 《現代漢語語法研究教程》,北京:北京大學出版社.2005.

7.任瑚璉 字、詞與對外漢語教學的基本單位及教學策略,《世界漢語教學》第4期.2002.

8.沈模衛、李忠平等 詞切分與字間距對引導式漢語文本閱讀工效的影響,《心理學報》第5期.2001.

9.謝曉燕 中高級留學生漢語閱讀詞界識別能力研究,暨南大學2006屆碩士學位論文.2006.

10.信世昌 “分詞斷句”的閱讀策略訓練—文句的認讀教程發展與實踐,《第六屆世界華語文教學研討會論文集第四冊(教學應用篇)》2000.

11.楊萬兵、蔣利平 不同水平留學生漢語切分歧義識別實驗研究,《語言教學與研究》第3期.2012.

12.楊玉芳 孫健 詞邊界信息在句中的分布,《心理學報》第26卷第1期.1994.

13.葉蜚聲 徐通鏘 《語言學綱要(修訂本)》,北京:北京大學出版社.2000.

14.袁 嘉 “騎馬詞”的成因及對策,《語文建設》第6期.1993.

15.袁 嘉 對外漢語教學中的“騎馬詞”問題,《西南民族大學學報》第6期.1996.

16.周健、謝海燕留學生漢語閱讀分詞和語義提取能力研究,《漢語學習》第2期.2007

17.朱德熙《語法答問》,北京:商務印書館.1983.

(作者介紹:袁子淵,北京大學對外漢語教育學院碩士研究生;朱力,華中師范大學國際文化交流學院講師)endprint

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合