?

語言信息處理與普通話水平測試語法研究

2015-03-28 18:40方永斌魏剛
紅河學院學報 2015年1期
關鍵詞:信息處理普通話方言

方永斌,魏剛

(云南師范大學文學院,昆明 650500)

語言信息處理與普通話水平測試語法研究

方永斌,魏剛

(云南師范大學文學院,昆明 650500)

普通話水平測試進入計算機處理階段已經成為一種趨勢和可能,然而在對普通話水平測試進行計算機處理的過程當中卻困難重重,語法問題是首要解決的問題。立足語言信息處理對普通話水平測試的影響,重點闡述語法問題在普通話水平測試的計算機處理中的作用和地位,結合實際,對現實存在的語法問題進行分析和探究,并試圖從中找到解決對策,以更加完善信息化的普通話水平測試。

語法;語言信息處理;普通話水平測試

前言

隨著現代技術的發展,各領域都或多或少地進入了信息化和知識化階段,語言學也進入了信息化階段,也就誕生了語言信息處理這門學科?!罢Z言信息處理,是用計算機對語言信息(包括口語和書面語)進行編碼、轉換、傳輸、解碼、存儲、分析等進行加工處理的科學?!保?]語言信息處理技術在現代化及信息化建設中的作用越來越引起人們的重視,它對現代漢語的研究也提出了更高的要求。

我國是一個多民族的國家,各民族的交流就需要民族間的共通語,我國的通用語是漢語普通話,漢語普通話(以北方方言為基礎)就成為了我國五十六個民族間交流的通用語,與此同時,普通話水平測試也就顯得更為重要。隨著我國語言信息處理技術的不斷進步,語言信息處理已經應用到了普通話水平測試上,面對國家倡導的努力學習普通話,大力推廣、普及和使用普通話,完善和優化語言信息處理基礎上的普通話水平測試已成為一項十分重要而迫切的任務。推廣、普及和使用普通話一直是我國推行的基本語言國策,普通話水平測試又是這項國策的重要組成部分,而加快和促進普通話水平測試手段的現代化進程則具有重要的歷史意義。

在現代科技的發展和支持下,語言信息處理應用到普通話水平測試上已成為可能,而當下的問題則是調和語言信息處理與普通話水平測試的“矛盾”,例如語音、語匯、語法、“說話”、地區間的不兼容等問題。在實行計算機式的普通話水平測試以來,雖然體現了普通話水平測試的進步以及測試手段的科學化和客觀化,也在很大程度上減輕了測評員的工作負擔,但也存在諸多問題,而語法問題尤為突出,尤其是在“說話”部分。在語言現象飛速發展的今天,語言現象也隨之在“語言杠桿”周圍徘徊,新語言現象的頻繁出現,致使語法手段的“更新”,由此導致的語法問題也層出不窮。比如“很man”,“你走,先”等,因此導致在計算機在對測試對象進行測試時很難正確判斷其說話內容的語法規則,同時,也不適合不同地區、不同地域的普通話水平測試,因此,在對普通話水平測試(PSC)進行計算機處理的過程當中,語法問題就顯得尤為重要。

一 語言信息處理在普通話水平測試中的作用和地位

普通話水平測試(PSC)開始于國家語言文字工作委員會、原國家教育委員會、原廣播電影電視部在1994年10月聯合發出的《關于開展普通話水平測試工作的決定》的通知,2000年又通過立法手段對普通話水平測試加以強調。經過多年的努力,普通話水平測試工作取得了重大的進展和突破,普通話水平測試的各方面都得到了改進和完善,然而,普通話水平測試作為我國新興而復雜的語言測試工程,與我國的漢語水平考試(HSK)及國內外其他一些著名的語言測試相比還顯得不是很成熟,研究成果也不夠豐碩,研究的領域也不是太透徹,還有許多方面需要我們區探尋和研究。在發展過程中,形勢和任務的迫切性要求我們能夠跨領域合作,采用新的研究手段和方法,解決在推廣普通話工作中遇到的突出的理論問題與實踐問題。

1986年1月召開的全國語言文字工作會議提出:“信息處理是一門新興的邊緣科學,有廣闊的前景,加強這方面的研究,對經濟、文化、科學技術的發展具有長遠的意義,因此,當前語言文字工作的任務必須包括這項內容?!痹谡Z言文字工作當中要包括漢語漢字的信息處理,在普通話水平測試中同樣也應該包含語言信息處理這一內容。在當前的社會形勢之下,語言信息處理必須或應該納入到普通話水平測試中,作為普通話水平測試的輔助手段,以響應國家對普通話推廣工作的重視以及各項政策、法規,在提高普通話水平測試效率的同時強化其科學性和客觀性。

隨著推廣普通話工作以及語言信息技術的進步,大部分地區已經采用實驗語音學、語音識別技術和計算機技術作為輔助手段來進行普通話水平測試及評分。與此同時,把普通水平測試的考試管理工作接入現代化信息技術已成為趨勢。然而,“雖有上海、湖北、黑龍江等省市在普通話水平測試科研和管理工作中引入現代化信息技術,但出現各地獨立開發,重復建設、互不兼容、技術水平參差的不協調局面?!保?]這就需要解決各地方音與普通話語音的辯證分析,研發出一套完整而又適合全國各地普通話水平測試的信息管理系統。隨著實驗語音學、語音識別技術和計算機技術在普通話水平測試中的不斷完善,國內已經開始著手語音庫的建立,而且取得了豐碩的成果,“但這些語音數據庫大多是面向信息處理領域。建立普通話培訓和水平測試用標準語音語料庫和‘中介語’語音語料庫,盡快填補國內這方面的空白,并為深入開展測試研究提供一個技術平臺,具有特殊的重要意義?!保?]由此可以看出,普通話水平測試在語音方面得到了較大的發展和重視,同時也在研究領域取得了重大的成就,但是相對于詞匯、語法方面的研究就顯得較為薄弱,在信息處理基礎上的詞匯、語法研究就更顯薄弱。在此,可能會有人認為普通話水平測試是對字、詞、語調等方面的語音的考察,語法便失去了應有的重要地位。在2003年頒布的《普通話水平測試大綱》就明確闡釋了“普通話水平測試的內容包括普通話語音、詞匯和語法”,語法在普通話水平測試中同樣具有重要作用,在“說話”部分,除了考察語音、語匯外,同樣也考察了語法,只是限于現在計算機信息處理的缺失,各方面還有待提高,尤其是需要計算機信息處理智能技術以及機器翻譯的智能化技術的支持,因為“機器翻譯系統是典型的自然語言處理系統”[3]。

綜上,語言信息處理在普通話水平測試中具有重要的作用和地位。首先,語言信息處理技術的發展,一定程度上反映著我國信息化水平的提高,而運用到普通話水平測試中則大幅提升了測試的效率,促進普通話水平測試“質量”的提高,同時也減輕了測評員的負擔。其次,目前而言,語言信息處理對普通話水平測試的語音考核已具備了較完整的管理系統,對測試中遇到的方音辯證問題起到了重要作用,用時也為語音數據庫的建立提供了堅實的實踐基礎。再次,“信息、知識最大最直接的表示就是自然語言”[4],因此通過語言信息處理的發展,普通話水平測試的詞語和語法問題同樣會得到解決,而且,通過數據庫的建立和計算機信息處理技術的智能化,“自然語言理解”也將取得成功。另外,語言信息處理技術的發展,促進著全國通用的普通話水平測試信息管理系統的建立,隨著語言的發展而規范各種語法偏誤,同時也與時俱進,時刻“更新”和容納新產生的語法現象,進一步推進我國的普通話推廣工作。

二 普通話水平測試(PSC)語法研究的必要性

普通話水平測試的內容包括語音、詞語、語法,但是在實際測試當中,測評員有意無意地將重心放在了語音部分,考察詞語朗讀、短文閱讀是都傾向于語音的考核。在“說話”中,由測評員實際測試還好,他們或多或少的會注意語法問題,而在計算機測試當中,計算機是依據語音、語調來確定漢字、詞和句子,再借助語圖來判斷字詞語音,而后再從多字或少字來判斷連貫與否便評定成績,語法問題的重要性的不到體現。

在實際的普通話水平測試中,把語音放在首位是合理的,因為“應試人普通話的口語水平首先體現在語音這個外顯的物質外殼上,相對于語音,詞匯、語法是更深層的兩個系統,特別是語法直覺性小,隱蔽性最大?!保?]正因為詞語、語法是兩個深層次的系統,而語法又是直覺性小,隱蔽性最大的一個系統,這就更能說明,語法是考核不可或缺的一部分,通過對語法的考核才能真正體現普通話水平測試是一種以北方方言為基礎,以“北方話詞匯”作為基本詞匯規范,“以典范的現代白話文著作作為語法規范”的漢語口語測試。

普通話水平測試是一種漢語口語測試,人們可能會進入一個誤區,認為只要能夠與會說漢語普通話的人進行普通話交流便達到目的。在日常生活中的交際中,人們可能不會太注重語法問題,而就算出現語法上的失誤,人們也能夠理解對方所要表達的意義,這主要是基于說話雙方對于某一話題的前提和預設,這些都是說話雙方在潛意識中就已經明了的東西,看來似乎語法的偏誤在日常生活中并沒有嚴重的不良影響。然而,在計算機進行的普通話水平測試當中卻會出現很多問題。

普通話水平測試研究的現狀及揭露的問題,應當引起對語言信息處理基礎上普通話水平測試語法研究的重視?!镀胀ㄔ捤綔y試大綱》明確闡釋了“普通話水平測試的內容包括普通話語音、詞匯和語法”,但是自普通話水平測試借助計算機及語音識別等技術以來,語法在測試中就體現得不完整,這主要是由計算機技術的局限性所致。然而,“語法直覺性小,隱蔽性最大”,且又是《普通話水平測試大綱》明確闡釋的內容,對普通話水平的考核具有重要的參考價值,又對中文信息處理及“自然語言理解”起到了極大的推進作用,因此,對計算機基礎上普通話水平測試的語法研究就很有意義。

三 普通話水平測試語法研究對策及建議

推普工作已經成為了我國的一項基本國策,而普通話水平測試則又是推普工作的重要組成部分,語言信息技術的發展又為普通話水平測試提供了極為重要的輔助手段,促進著推普工作的不斷完善。目前的普通話水平測試基本上都是以計算機為輔助手段,測試過程中遇到了諸多問題,而語法問題最為明顯,針對這一問題,筆者結合前人的研究成果提出以下對策及建議。

(一)語言邏輯語法系統的建立

隨著計算機的發展,人們對語言信息處理的要求越來越高,而語言信息處理的智能化則成為了人們的共同期望和要求,在普通話水平測試的計算機處理過程中,面對日益突出的語法問題,計算機的智能化成為了無數語言研究學者的共同期盼,語言邏輯語法系統的建立則能夠為自然語言理解提供些許幫助,更能為普通話水平測試提供一個完善的語法系統。

“近30年來,邏輯的應用范圍從數學和哲學擴大到語言學和計算機人工智能科學等領域,形成了所謂邏輯、語言和信息計算等學科的交叉研究。這種研究在西方被稱作形式語義學或邏輯語法,自上個世紀70年代以來,其發展態勢極為迅猛,以著名的蒙太格語法為開端,形成了廣義量詞理論、話語表現理論、情境語義學和類型—邏輯語法等理論?!保?]邏輯、語法、計算機技術的交叉和融合已成為當今語言信息處理的趨勢,而且對于語言信息的智能具有重要作用。

就目前而言,普通話水平測試注重的是語音部分,詞匯和語法部分相對薄弱,在“說話”的考核中也同樣沒有注重語法,語音同樣占有了絕對的主要地位。造成這一結果的主要原因是當今計算機技術的局限性,計算機在對普通話水平測試進行語音識別等相關處理時,并不能靈活而又準確的判斷其“說話”內容的語法問題,并能夠做出相關分析和評判,最終對測試對象進行客觀合理而又科學的考核和評定。語言邏輯語法系統是在計算機基礎上進行并完成的,它是以自然語言作為對象,通過語言的邏輯語法來進行信息處理。在普通話水平測試中,以測試對象的錄像作為對象,對其進行語法邏輯的信息處理,結合語音分析,綜合評判測試對象的“語法”能力。

邏輯語法系統是一個極為復雜而龐大的系統,如果想在目前就達到自然語言理解,實現語法的人工智能,準確輔助普通話水平測試似乎還不可能,因為“自然語言遠比人工符號語言復雜豐富得多, 很難在一個框架內對它的句法、語義乃至語用的方方面面進行統一處置” [8],同時也很難將這個復雜、龐大的語法系統融合在語言信息處理當中。實現龐雜的語法系統信息化還需要艱難的努力,更需要計算機的人工智能技術的支持,短時期達到是極為困難的,但構建反映漢語語義特征的系統卻又是勢在必行。

(二)方言詞匯、語法數據庫的建立

漢語普通話具有一定程度的地域性,全國分為七大方言區:北方方言區、吳方言區、粵方言區、閩方言區、湘鄂方言區、客家方言區、贛方言區,五大官話區:華北官話、中原官話、西北官話、西南官話、江淮官話。普通話水平測試雖說是以標準的漢語普通話作為評判標準,但是在針對不同官話區、不同方言區的普通話水平測試時,定會受到地方方言語用習慣的影響,從而出現了與標準漢語普通話具有差異性的語法現象。漢語普通話是建立在北方方言的基礎上,恪守“以典范的現代白話文著作作為語法規范”的語法規則,在出現具有差異性的方言語法現象時,往往計算機是無法準確處理的?!耙嬲行У靥岣咴~義知識庫的質量,需要在詞類劃分基礎上,增加詞義的語法功能分析和語義搭配限制,綜合利用現有的語法、語義資源,提取多義詞的每個意義在不同層級上的各種分布特征”[7],那么,方言詞匯、語法庫的建立就顯得很重要。

根據各地的漢語使用差異,構建實用的漢語方言詞匯、語法數據庫。在此數據庫基礎上,針對不同方言區的測試對象進行信息處理,雖不可能完全準確給予評定,但至少在信息處理上給予了普通話水平測試極大的幫助,使得普通話水平測試信息處理系統更加完善。建立具有地方特色的數據庫就需要普通話水平測試及相關研究者的努力,建立漢語方言詞匯、語法數據庫同樣是一個浩瀚的工程,它需要語言實體和計算機技術的支持,而要實現普通話水平測試信息系統的通用和全面兼容則更需要各方言區的漢語方言詞匯、語法數據庫的支持和糅合。構建漢語方言詞匯、語法數據庫的同時還要建立標準普通話的詞匯、語法數據庫,對方言詞匯、語法的錯誤現象給予糾正。只有在標準普通話的詞匯、語法數據庫和各地漢語方言詞匯、語法數據庫的共同支持下,普通話水平測試“語法考核”的信息化才會成為可能。

(三)人機互動

《普通話水平測試大綱》雖然列舉了普通話與方言常用詞語對照表以及常見的語法差異,而各地的方言詞匯、語法數據庫也為普通話水平測試提供了方言語法的規范,但是在實際測試中卻經常出現普通話與方言界定不清的情況,計算機又如何識別和處理呢?

“人工智能無論怎樣發達, 卻沒有一臺計算機能夠完全代替翻譯人才, 沒有一個機器人能夠接管嚴復、魯迅、傅雷等翻譯家的工作。其根本原因在于語言是文化的載體, 作為翻譯對象的原文本所承載的種種涉及語言甚至超越語言的文化信息, 是人工智能所不能理解和表達的?!保?]普通話水平測試的本質是口語測試,口頭語言不同于書面語,書面語嚴格遵守著語法規則,而口頭語卻是一邊想一邊說,“想”和“說”之間并不會有一個嚴格的邏輯分析,常常出現“反常語法”的現象,導致計算機進行信息處理時出現失誤,這是人工智能或者是近期的計算機信息處理技術不可能解決的問題。語言本身就是一個復雜的系統,而運用在實際生活中則更顯得復雜,想要在短時期內就處理和解決這一問題幾乎是不可能的。此時,只能人工彌補這一缺漏,雖然說人機互動沒有達到語言信息處理的目的,語言信息處理本質是脫離人工處理,進入純信息處理的階段,但目前的計算機技術并不可能達到這一目的,只有在普通話水平測試的各系統都達到完善,計算機信息處理達到相當水平的智能化方可實現。然而,人機互動同樣也提高了普通話水平測試的效率,也減輕了測評員的負擔,在有利的系統支持下,將使得普通話水平測試更加科學化和客觀化。

(四)語法觀念的規范

普通話水平測試中,測評員只是一個測試的監督人員和評定人員,對普通話水平測試的信息化過程的推動并不能起到關鍵作用,先進的計算機信息處理技術和相關語法系統的建立,以及方言詞匯、語法數據庫的構建只是一個輔助的工具,而測試對象語法觀念的規范才能起到關鍵作用。

在進行普通話水平測試過程中,測試對象自覺遵守語法規則,自覺培養語用規范意識,那就使得對普通話水平測試的計算機信息處理事半功倍,加快其信息化進程,促進普通話水平測試的完善,同時加快其語法規范系統化和信息化進程。

綜上所述,在計算機基礎上的普通話水平測試中,要自覺培養語用規范意識,借助語言邏輯語法系統和方言詞匯、語法數據庫的構建,在此基礎上,人機互動,以彌補目前語言信息處理技術的局限,進而規范計算機基礎上的普通話水平測試的語法現象。

結語

在推普工作進行得如火如荼的今天,普通話水平測試越來越成為人們工作、生活、學習中必不可少的部分,而語言信息處理與普通話水平測試的融合則進一步推進了推廣普通話工作的進程。在普通話水平測試的信息處理過程中,語法問題日益明顯,進行語法的規范研究就顯得十分重要。

面對日益突出的語法問題,應當在語法的規范意識基礎上構建語言邏輯語法系統,建立以方言詞匯、語法為主的數據庫,以辨認和識別方言語法與標準普通話語法的差異,同時在必要的時候人機互動,以處理口語測試過程中出現的復雜的語法現象,達到普通話水平測試語法考核的科學化和客觀化。然而,語法的直覺性小,隱蔽性最大,而且“語法知識的抽象程度較高, 規則和詞語的語法屬性信息對實際語言現象的覆蓋面較廣……為了實現自然語言理解, 最終當然要利用語義信息以及包括常識在內的語境信息?!保?]相信在不久的將來,普通話水平測試信息處理系統一定會更加完善,對語音、詞匯和語法等進行的信息處理也會得到規范。

[1]楊瑞鯤,王渝光.語言信息處理與普通話水平測試[M].昆明:云南大學出版社,2010:6.

[2]王暉.普通話水平測試研究的現狀及構想[DB/OL].中國語言文字網.http://www.china-language.gov.cn/89/2007_6_20/1_8 9_1177_0_1182321067328.html.

[3]俞士汶.自然語言理解與語法研究[M]//.馬慶株.語法研究入門北京:商務印書館,1999:241.

[4]畢玉德.面向語言信息處理的朝鮮語知識庫研究[J].中文信息學報,2004,(3):28.

[5]王暉.普通話水平測試研究的詞匯、語法問題探究[C]//.第二屆全國普通話水平測試學術研討會論文集,2004:167-168.

[6]黃新華,金立.面向信息處理的自然語言邏輯研究—皺崇理《邏輯、語言和信息》評介[J].哲學研究,2003,(3):92.

[7]王慧.機器翻譯中基于語法、語義知識庫的漢語詞義消歧策略[C]//.第七屆中國人工智能聯合學術會議,2002:2-3.

[8]李傳玲.語言符號和副語言符號的文化信息處理[J].遼寧醫學院學報(社會科學版),2009,(4):96.

[9]謝四蓮.語法知識在語言信息處理中的作用[J].婁底師專學報,2004,(2):30.

[責任編輯 魯海菊]

Study on the Grammar problems in PSC on the Language Information Processing

FANG Yong-bin,WEI Gang
(Chinese language and literature college of Yunnan Normal University, Kunming 650500,China)

PSC in computer processing stages has become a trend and may, however, in the process of computer processing of PSC is difficult, grammar is the primary problem. Language information processing based on the influence of PSC, emphasis on grammar problem in mandarin level test of the effect and status of computer processing, combined with the actual, analyze the grammar problems of reality and explore, and tries to find the solution, with more complete information of PSC.

grammar;PSC;language information processing

H08

A

1008-9128(2015)01-0093-04

2014-04-20

方永斌(1989—),男,云南羅平人,碩士,研究方向:應用語言學。

猜你喜歡
信息處理普通話方言
方嚴的方言
東營市智能信息處理實驗室
方言
基于Revit和Dynamo的施工BIM信息處理
說說方言
留住方言
地震烈度信息處理平臺研究
CTCS-3級列控系統RBC與ATP結合部異常信息處理
我教爸爸說普通話
17
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合