?

現代漢語句系系統的構建和研究

2010-06-05 09:00亢世勇許小星
中文信息學報 2010年1期
關鍵詞:補語狀語句型

亢世勇,許小星

(魯東大學 中文信息處理研究所, 山東 煙臺 264025)

1 研究背景

根據“三個平面”理論,任何具體的句子都是句型、句模和句類的結合體。對一種語言的句子進行全面的調查以后,通過理性的抽象,可以建立該語言的句型系統、句模系統和句類系統,三個系統互相結合、縱橫交錯就形成一個句系網絡系統。范曉先生提出:一旦將某種族語的句系建立起來,“不僅有利于不懂該族語的人們學習該族語,而且也能使懂得該族語的本族人更好地掌握和運用自己的母語,在現代高技術發展的信息社會里,還能促進機器翻譯(自動翻譯)和人工智能等方面的研究工作”[1-2]。因此范先生呼吁學界,希望能共同努力來構建現代漢語的句系系統,建立研究一門新的學科——句系學。

我們在2005年承擔了國家社科規劃項目“基于大規模標注語料庫的現代漢語句子語義結構系統研究”,以中小學語文課文和對外漢語閱讀材料為基礎,共加工了包含713 430字、28 669個句子的語料。以句子為單位標注了每個句子的句法結構和語義結構信息,建立了“現代漢語句法語義信息語料庫”?;谠撜Z料庫,分別提取和建立了句型系統、句模系統和句干系統,該系統包括句型5 558類、句模13 696類,句干14 211類。為了進一步研究句型和句模的對應機制,也為了讓相互獨立的三個系統有機地結合起來,從而建立一個更有價值的體系,我們在原有成果的基礎上,構擬出一個由句型系統、句模系統和句干系統組成的句系系統。盡管我們的語料還暫時缺少對句子的句類信息的標注,與范曉先生所提出的句系網絡系統相比還不夠全面,但仍可以說是對“句系學”理論研究的一次有益的嘗試。

2 句系構建的理論原則

我們共設置了24個語義成分標記(施事S、受事O、與事T、客事K、系事X、結果R、致事Z、當事D、領事L、分事F、共事Y、目的G、原因C、數量N、依據W、工具I、基準J、時間H、處所P、范圍E、材料M、方式Q、方向A、同源B)和7個句法成分標記(主語S、謂語P、賓語O、狀語D、補語C、兼語J、獨立語T),以句為單位,對每個句子(包括單句和復句)進行句法結構標注和語義結構標注。用“[ ]”來劃分語塊,“[”后標記該語塊的句法成分,“]”后標記該語塊的語義成分。

標注樣例:[S語言/n]D[P是/v]V[O人類/n最/d重要/a的/u交際/v工具/n]X。

上例的句型是[S][P][O],句模是[]D[]V[]X,句干是[S]D[P]V[O]X。

通過對句型、句模、句干三個系統的觀察發現,句型的種類遠遠少于句模和句干的種類,句型和句模存在著一對多的狀況,且句干是由句型和句模結合生成的,所以我們采取以句型為綱,通過尋求句型和句模之間的對應關系來構建句系系統。首先我們對句型系統進行了全面細致的考察和整合。研究發現,復雜句在真實語料中占到絕對多數,但無論多復雜的句型,都可以切分為四個串組“P”“SP”“PO”“SPO”。如[S][P][P][O][P][O][P]可以切分為[S][P]+[P][O]+[P][O]+[P]。所以,可以把“P”“SP”“PO”“SPO”看作構成句型的基本結構,任何復雜句型都是這四類基本結構經過組合后再添加上狀語、補語形成的?;谶@樣的想法,我們按照“P”“SP”“PO”“SPO”把句型系統分為四個子系統。對這四類句型的分類遵循以下原則:

(1) 在忽略各類句型中狀語、補語標記的前提下對句型進行提取和分類;

(2) 提取P類句型時,排除所有含SP、PO、SPO串的句型;在提取SP句型時排除所有含PO、SPO的句型;提取PO句型時排除所有含SP和SPO的句型;

(3) SPO類句型包含了剩余所有句型;

(4) 層級性(系統性)。句系系統是有層級的,處在第一層級上的是P、SP、PO、SPO四個子系統,第二個層級是上位句型系統,每一個上位句型都對應著若干下位句型,下位句型是真實文本中的句子結構,上位句型是對真實文本句子結構的再抽象,剝離了構成句型的非核心成分(狀語和補語),只保留了構成句型的核心成分(主語、謂語、賓語、兼語)。下位句型系統為第三個層級,第四個層級是下位句型對應的句模及該句型句模結合生成的句干。

真實文本句子的句型和句模較為復雜,句型句模的對應機制也是當今語言學研究的重點和難點問題。既然一個復雜的句法結構可以看作是幾個簡單結構的組合體,那么一個復雜的句模也應該可以切分為較小的單位。我們考慮是否可以通過研究簡單句型和復雜句型、簡單句模和復雜句模之間的組合映射規律,從而找到句型句模對應機制研究的一個新的突破點。我們按照“P”“SP”“PO”“SPO”對句型系統進行分類,也正是基于這樣的考慮。

如上文所述,[P]、[P][O]、[S][P]、[S][P][O]是構成句型的基本結構,我們就把這四類確立為四類子句型系統的基礎句型。這四類基礎句型不僅是真實語料中最常見的簡單句,其對應的句模的種類也是非常多的。句型[P]對應著一類句模[]V;句型[P][O]對應著17類句模,共計1 526例;句型[S][P]對應著16類句模,共計2 490例;句型[S][P][O]對應著73類句模,共計5 131例。隨著進一步的深入分析,我們的研究也實現了預期的目標,這也反過來驗證了我們按照“P”“SP”“PO”“SPO”對句型系統進行分類的合理性。

3 復雜句模產生的機制——疊加法

3.1 高頻句干和高頻句模的確立

句型同句模之間存在一對多的對應關系。同一類句型,它同不同類型的句模結合所產生的不同類型的句干對應的例句數也不盡相同。我們按照下面的公式為每一種基礎句型提取出高頻句干,取高頻句干的公式如下:

將一個句型和同其對應的各類句模結合生成的所有句干的例句總數記為數組n,該數組的長度記為N,定義如下兩個函數:

f1(m)

其中,m=1,…,N。那么,當第m種句干的個數滿足下式時就稱為高頻句干:

可以與基礎句型結合生成高頻句干的句模我們稱之為高頻句模。

句型[P]只對應一類句模[]V,結合生成一類句干[P]V。

句型[P][O]與對應的高頻句模結合成的高頻句干有以下5類(見表1),這5類句干的數目占到總數的92.73%。

表1 句型[P][O]對應的高頻句模

句型[S][P]與高頻句模結合成的高頻句干有以下2類(見表2),這2類句干的數目占到總數的99.08%。

表2 句型[S][P]對應的高頻句模

句型[S][P][O]與高頻句模結合成的高頻句干有以下9類(見表3),這9類句干的數目占到總數的90.08%。

表3 句型[S][P][O]對應的高頻句模

3.2 對復雜句模結構的分析

在確立了基礎句型和其對應的高頻句模后,著手展開對復雜句模結構的研究。先考察了由基礎句型簡單疊加而成的新句型,我們把這類新句型稱為典型句型(典型句型是下位句型中的一類,如SPO類句型下的典型句型有[S][P][O][S][P][O]、[S][P][O][S][P][O][S][P][O]等)。在考察時我們使用了解析法,解析法是指先對一個句型進行分解,如典型句型[S][P][O][S][P][O]可以分解為[S][P][O]+[S][P][O],那么[S][P][O][S][P][O]對應的句模也可以相應地分解為兩個小句模。通過分解,可以直觀地了解基礎句型對應的句模的構成情況。

SPO類句型的典型句型[S][P][O][S][P][O]對應著161種語義模式,528個實例(528例指由該句型同161種句模相結合構成的161種句干的總例句數)。按照解析法,[S][P][O][S][P][O]對應的句模之一[]D1[]V1[]K1[]D2[]V2[]X2就可以解析為[]D[]V[]K和[]D[]V[]X兩個小句模,那么,528例就可以解析為1 056個小句模。其中基礎句型[S][P][O]對應的9類高頻句模共出現921個,占到總量1 056個的87.22%。并且以上這些句模的出現的頻度高低基本與它們在基礎句型[S][P][O]出現的頻度高低基本一致。此外還發現由兩個相同語義模式疊加構成的句模有21類182例(如[]D1[]V1[]K1[]D2[]V2[]K2),占到總實例數528例的34.47%。

我們還考察了其他典型句型如[S][P][O][S][P][O][S][P][O]、[S][P][O][S][P][O][S][P][O][S][P][O]等,基礎句型[S][P][O]對應的高頻句模在這些典型句型對應的句模中的出現率是相當高的,也就是說典型句型對應的句?;旧嫌苫A句型對應的幾類高頻句模組合而成。而且,由同類型高頻句模疊加構成新句模的比例也是相對比較高的。為了驗證這一結論,我們還考察了SP類、PO類句型中的典型句型的句模情況,均支持以上結論。

通過分析由基礎句型疊加組合構成典型句型的構成情況,我們得出以下結論:基礎句型對應的高頻句模是構成典型句型對應的句模的主體,且這些高頻句模在典型句型對應的句模中的出現率(即出現頻度)基本與其在基礎句型中出現的頻度一致。此外由相同句模疊加構成新句模的方法(簡稱疊加法)是構成典型句型對應的句模的一個非常重要的方法。

我們又用解析法抽查檢驗了句系系統中除典型句型之外其他句型的情況。

在[S][P][O][P][P][P]句型中,共有句模7類,11個實例,這11例中,S均是四個P的共同主語,我們將這個句型解析為[S][P][O]+[S][P]+[S][P]+[S][P]的組合,觀察這四個小句型對應的句模的結構。其中[S][P][O]對應的句模涉及到[]D[]V[]X(有3個),[]D[]V[]K(有1個),[]L[]V[]K(有1個),[]S[]V[]O(有6個),這四類句模均是句型[S][P][O]對應的高頻句模。句型[S][P]的語義模式只有[]S[]V和[]D[]V兩類,與基礎句型[S][P]對應的高頻句模一致。

經隨機取樣和分析,均可以驗證基礎句型所對應的高頻句模是構成復雜句模的一個重要基礎的判斷。盡管漢語句子語義結構模式復雜,多達上萬種類型,但動名語義關系主要集中在有限的幾種類型。此外,還得知,當一個句型是[S][P]或[S][P][O]與[P]、[P][O]的結合體時,在[S][P][P][O]、[S][P][O][P][P]等這類句型中,處在句首的S經常充當后面多個P共同的主體性語義成分,這一比例高達85%以上;在[P][O][S][P]、[P][S][P][O]這類句首為動詞的句型中,句首的主體性語義成分由位置在其后的S兼任的比例大約在20%左右。

[J]是一個兼語成分(在前期考察基礎句型時,我們把含[J]的句型分化在句型系統的四個子系統中),把[P][J][P]視作含成分[J]句型的基礎句型,單獨考察[J]同語義成分之間的映射關系。在句型[P][J][P]中,[J]對應著的高頻語義成分組合有以下幾類,O1+S2,K1+S2,O1+D2,K1+D2,這四類在該句型對應的句模中占到86.60%。按照前面的研究我們推論這四種語義成分的組合應該是所有含[J]句型中J對應的語義成分組合中的高頻組合。我們單獨抽取出含[J]的所有句型對應的2 130類句模對上述結論加以驗證。經驗證,結論與推論一致。[P][J][P]對應的高頻句模在所有包含[J]的句型所對應的句模中的出現率占到85%以上。

小結:通過驗證,我們主要得出以下兩點結論。

(1) 將復雜的句法結構和語義結構解析為較小結構的組合,基礎句型對應的高頻句模在組合構成復雜的語義結構中占到較大的比重。

(2) 在句子中兼語成分[J]優先映射為O1+S2,K1+S2,O1+D2,K1+D2這幾種語義組合。

3.3 補語、狀語與語義成分的對應情況

前文對復雜句模的產生機制的考察沒有考慮句子結構的非核心成分狀語和補語。實際上,從簡單句模到復雜句模的生成,補語和狀語對應的語義成分是不可或缺的重要因素。下面分別考察補語、狀語同語義成分的對應情況。

我們首先對補語位置出現的語義成分進行了單獨的考察。從四個句系子系統中分離出了“PC”、“SPC”、“SPOC”、“POC”和“PCO”五類動補組合,考察補語位置上的語義成分的情況。

在PC組合中,C主要映射為數量成分(N)、時間成分(H)、處所成分(P)和謂詞性成分(V),各種成分出現的比例如下:

在SPC組合中,C主要映射為數量成分(N)、時間成分(H)、處所成分(P)、謂詞性成分(V),各種成分出現的比例如下:

在SPOC組合中,C主要映射為數量成分(N)、時間成分(H)、處所成分(P)、基準成分(J)和謂詞性成分(V),各種成分出現的比例如下:

在POC組合中,C主要映射為數量成分(N)、時間成分(H)、處所成分(P)、謂詞性成分(V),各種成分出現的比例如下:

在PCO組合中,C主要映射為數量成分(N)、時間成分(H)、謂詞性成分(V),各種成分出現的比例如下:

此外還考察了狀語位置上的語義成分的出現率情況。我們從數據庫中提取出所有的包含[D][P]、[D][P][O]、[D][S][P]、[D][S][P][O]字段的句型對應的語義模式,考察在這四類中狀語同語義成分的對應情況。

[D][P]類中狀語位置上語義成分的出現率構成不等式如下:

P>O>H>T>J>Q>A>Y>S>E>W>C>I>D>N>G>M>K>L>F>R

[D][P][O]類中狀語位置上語義成分的出現率如下:

H>P>T>O>Q>E>I>W>J>Y>D>C>N>M>S>G>A>L>K

[D][S][P]類中狀語位置上語義成分的出現率如下:

H>P>E>W>C>T>J>G>Q>N>K>I>O>M>A

[D][S][P][O]類中狀語位置上語義成分的出現率如下:

H>E>P>W>G>C>T>J>Q>N>D>K>I

上述研究中對補語、狀語位置出現的語義成分的優先序列的考察及結論是比較粗疏的,具體到實際句子中狀語、補語位置對應的究竟是什么語義成分,受到核心動詞的價、述語動詞以及述語動詞所控制的體詞的語義類,還有句子句式等多種因素的制約。這也是我們進一步研究的方向。

4 句系系統

我們結合“現代漢語句系查詢系統”界面的一個截圖(見圖1),直觀地了解句型系統的層級體系和句系系統的概貌。下圖中“句型系統”列表框中顯示出第一層級的四個子系統;以子系統[P][O]為例,包含[P][O]、[P][O][P][O]、[P][P][O]、[P][O][P]等共計184類上位句型;其中上位句型[P][O]下屬[P][O]、[D][P][O]、[D][D][P][O]、[P][O][C]、[P][C][O]等13類下位句型;下位句型之一[D][P][O]對應著78類句模,[]D[]P[]O和句模之一[P][V][O]結合生成的句干[D]P[P]V[O]O在語料庫中共有例句46個,例句集顯示在界面下端的圖框中。

圖1 “現代漢語句系查詢系統”界面截圖

將整個句系系統構建成一個有層級的體系,使得把三個相對獨立的句型、句模、句干系統有序整合在一起成為可能,從而形成更有研究價值的語義資源。按照基礎句型把龐大的句系系統分離為四個子系統,每個子系統中通過提取真實文本句子句法結構的共性特征(核心句法成分)設立上位句型,從而將句型系統中5 558類句型納入2 304類上位句型體系,為句型和句模對應關系、復雜句模的生成機制等研究鋪平了道路。

5 展望

當今的語言學研究中,語義與句法如何接口的問題,或者說探索語義結構轉化/投射為句法結構的理論和方法是語法學家、計算語言學家們十分關心的問題[3]。通過我們的考察研究,了解了現代漢語句子結構系統的復雜性,同時也認識到這種復雜的本質特征中存在著某種規律性。既然對一個完整的句法結構和語義結構的對應關系進行研究較為困難,試將完整的句法結構/語義結構分解為較小的單位尋求組合的規律,未嘗不是一個辦法。盡管我們對句法結構和語義結構之間的映射機制的研究還處于起步階段,本文還沒有提出一套完整的供計算機自動識別和分析句子語義結構的規則,但我們的研究還會持續下去,并堅信一定會取得較大的突破。

[1] 范曉.略說句系學[J].漢語學習,1999(6):1-4.

[2] 范曉.漢語的句子類型[M].上海:書海出版社,1998.1-23.

[3] 陸儉明.句法語義接口問題[J].外國語,2006(3):30-35.

[4] 亢世勇,許小星,等.現代漢語句子語義成分標注研究[C]//蕭國政,等.中文計算技術與語言問題研究——第七屆中文信息處理國際會議論文集.北京:電子工業出版社,2007:173-179.

[5] 許小星,亢世勇.基于標注語料庫的現代漢語句法成分和語義成分對應機制研究初探[C]//蕭國政,等.中文計算技術與語言問題研究——第七屆中文信息處理國際會議論文集.北京:電子工業出版社,2007:156-162.

猜你喜歡
補語狀語句型
典型句型大聚會
朝鮮語狀語在漢語中的對應情況
漢語中的補語在維吾爾語中的對應表達
強調句型的it和引導詞it有什么區別?
狀語從句
“NP V累了NP”動結式的補語趨向解讀
高中英語表示比較和對照關系的句型
翻譯誤區逐個看
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合