?

依存理論視域下的漢語復雜事件句研究熱點與趨勢
——基于CiteSpace文獻計量分析

2024-01-22 05:30吳鋒文周龍豪
關鍵詞:復句語法語義

吳鋒文,周龍豪

(四川外國語大學 中國語言文化學院,中國 重慶 400031)

一、引言

事件(events)分析是一種新興的連接語言與認知的“句法-語義”界面理論[1]。Dowty把“事件”看作現實映射在句子的命題集合[2],當單一現實事件通過邏輯關系聯系之后就構成了復雜事件表達[3-4],因此“復雜事件句”是多個事件命題映射的句子類型,整體表現為一個復合事件,內部子事件(命題)相互關聯。這類句子跨度較大,其句法語義繁復,涵蓋了兼語句[5]、連動句[6]、復句[7]等句子結構類型,形成了一個連續的句型統。

“句處理”是當前中文信息處理的主要任務,其研究現狀是“對單句研究較多,對復句的研究相對薄弱”[8]。目前學界對簡單句的處理已經能夠達到較高的精度,但對包括復句在內等復雜事件句卻無法實現精準的分析,復雜事件的處理存在許多問題。黃嫻、張克亮指出,當前信息處理領域“重實踐而輕理論”的現狀普遍存在,過度依賴規則、數據以及模型,忽視了語言本體知識的剖析[9]。因而,對復雜事件句的處理,目前尚缺乏來自語言學領域的自覺理論思考,也缺少行之有效的分析方法。

依存語法是法國語言學家泰尼埃提出的一種研究句子內部詞與詞之間聯系的語法分析理論[10]。該語法思想自創立以來,被廣泛運用于語言分析和信息處理領域并得以進一步發展,如Robinson提出關于依存語法的“四大公理”[11],Nivre結合實際語料的依存分析探索[12],為依存語法在世界范圍內的應用奠定了堅實基礎。劉海濤指出,依存語法以“配價”為實現條件,最終目的是分析詞與詞之間的“支配-從屬”聯系,構建一個以謂詞為核心的層級樹狀結構,通過依存樹能實現句子的分析、處理、形式化[13]。

已有研究表明,依存語法理論對擁有“意合性”特征的漢語分析有著較強的契合性和可操作性(劉挺[14])。依存分析能夠將復雜的句子序列轉化為一棵二元互聯的句法樹(圖),從而更直觀地表征與呈現句子的整體面貌。以連動句“福貴上坎干活”為例,其依存分析如圖1所示。

圖1 依存分析示意圖

圖1表明兩個事件復合的連動句被分解成為一組組依存對,詞與詞之間互相關聯并通過建立核心謂詞的依存聯系,揭示了不同事件之間的語義聯系,使整個復雜事件的內部結構得到清晰的反映,如將上述圖分析結果轉寫為形式化的計算機語言,有助于實現對復雜事件句的精準分析。

在大數據時代,中文信息處理前進的腳步不斷加快,而復雜事件句的處理是亟待解決的難題。漢語復句的句際關系分析、兼語句和連動句的識別、標注等仍是依存語法研究中的難點,已有資源的分析結果錯誤率較高[15]?;谏鲜霰尘?本論文采用CiteSpace①軟件對從中國知網(CNKI)搜集的有關復雜事件句依存研究文獻進行聚類及可視化分析,引入文獻計量方法研究相關領域的基本面貌,并對計量分析結果展開分析,以期全面反映該領域的研究現狀及熱點,并對研究趨勢進行展望和預測,為面向智能時代的語言學研究創新思路并提供參考。

二、復雜事件句依存研究背景及空間分布

(一)基本研究情況統計

依存語法研究近年來一直是中文信息處理的熱點。有關依存語法的發文量近幾年來呈現出明顯的上升趨勢,在中國知網中以“依存語法”為檢索詞,并增添“語義依存”“句法依存”等作為輔助關鍵詞,檢索年份設定為2000-2022年,檢索范圍設定為“CSSCI+北大核心+CSCD”,共檢索到有效研究文獻266篇。文獻研究趨勢如圖2所示。

圖2 “依存語法”研究的發文趨勢圖

圖2顯示,2000-2006年期間年發文量不足10篇,研究處于起步階段,直到2006年之后發文量有所增加,進入穩步發展的時期。從整體看來呈現上升趨勢,尤其是進入2010年后增速逐年加快,這種趨勢與語言智能研究的主題是密不可分的,技術手段的提升,研究內容的深入以及依存語法的獨特優勢,漢語的依存研究成為當前中文信息處理領域的熱點。

同時,本文對近20年發表在CSSCI期刊上的以“復雜事件句”為研究對象的文獻進行檢索,以“復句”“復雜謂語”“兼語”“連動(連謂)”等詞為檢索詞,經過去重以及篩除一些會議文獻記錄外,最后共整理得到有效文獻1 197篇。該文獻數據具體構成情況見表1。

表1 復雜事件句文獻檢索數量表(CSSCI)

從上表1文獻結果看,復句是最為引人關注的復雜事件句類型,占據研究總量的65%以上,有關兼語式、連動式等復雜事件句的研究則相對較少。值得注意的是,檢索結果中出現了48篇交叉論文,這些成果既符合復句的檢索條件也符合其他句型的檢索條件,該狀況反映出有學者認識到復句、兼語句、連動句的內在統一性從而進行了綜合研究。

(二)研究空間分布

1.軟件介紹

CiteSpace是由陳超美開發的一款科學文獻分析工具,可以將某一學科領域的文獻數據導入,生成可視化圖譜,通過分析可視化結果中節點之間的關聯,發現研究成果間的共現關系與共引關系,追蹤和反映學科研究中的動態與前沿進展[16]。

2.數據統計

隨著語言智能化與信息化要求的提高,運用依存理論進行復雜事件句在本體研究與應用研究的觀點也越來越受到人們的重視。將檢索時間設置為1996-2022年,主題詞設置為“復句+依存語法”“兼語+依存語法”“連動(連謂)+依存語法”分別進行文獻檢索,結果顯示依存理論下復雜事件句的研究成果逐漸成為熱點,不僅發表期刊上的優秀論文不斷增多,并且不少研究者將其作為碩博論文的選題方向進行攻關,產生了許多優秀成果,具體情況如表2所示。

表2 基于依存的復雜事件句研究文獻數量表

由表2可知,在復句、兼語句、連動句相關的依存研究方面,復句依存研究仍是產出量最多的研究方向,相對來說后兩者的依存研究并未引起較高的關注。最終檢索出67篇相關文獻,7篇交叉文獻,占總體的10.4%,相較于本體領域的交叉占比,基于依存理論的復雜事件句的相關研究趨勢有所上升。

3.合作網絡共現分析

不同作者節點之間相互連接,反映出研究的合作情況,本文對文獻中作者之間的合作網絡進行分析,結果顯示當前有關復雜事件句依存團體較為集中,形成了多個合作網絡聚集,共現情況如下圖3所示。

圖3 作者合作網絡共現圖

從圖3分布上看,復雜事件句依存研究形成了三大合作網絡:首先是以楊進才、胡金柱、李源為核心的研究團體,人數較多,研究最為集中,研究人員之間的合作流動性很高,相關成果主要體現為復句的依存研究;其次是以姬東鴻為核心的研究團體,聚類較少,主要討論特殊句式的分析標注問題;再次是楊爾弘、邵艷秋等人形成的合作,其研究方向多集中于語義依存的分析。合作網絡反映出當前研究形成了較為集中的局面,有著較強的合作交流,這一特點有助于復雜事件句與依存研究的發展。

4.機構分布

研究機構的分布已經初具規模,形成了以華中師范大學、北京語言大學、武漢大學為核心的三大主要研究陣地。在機構性質上形成了文理交融的場景,計算機技術以及語言學理論的相互配合,反映出跨學科深度交流與合作,具體如圖4所示。

圖4 研究機構分布圖

三、依存視野下復雜事件句研究主題與熱點追蹤

關鍵詞能夠直接反映某一研究領域的熱點。當多個關鍵詞形成聚類之后往往可以體現研究領域內的主題,為更精確地反映復雜事件句依存研究的內容及現狀,在將文獻信息進行提取之后,對關鍵詞的聚類與共現進行分析,時間切片設置為1年,從時間聚類、平面共現兩個維度來反映復雜事件句依存分析的研究主題與趨勢,并通過突變詞的強度與爆發年份來追蹤研究前沿。

(一)時間聚類及主題分析

時間聚類反映的是相關研究領域中共同主題及其歷時分布,能夠從線性角度直觀呈現本研究領域各研究熱點的歷時發展狀況,將文獻數據導入后得到的時序圖如圖5所示。

圖5 復雜事件句依存研究關鍵詞聚類時序圖

從歷時角度看,該領域在時間軸上呈現出兩個階段:2010年之前的研究是分散的、零星的,研究類別、產出成果等較為單一;2010年之后成果有大幅度增加,研究領域更為廣泛,內容更為多樣,成果產出和研究聚類都變得更為豐富。

從研究聚類看,主要集中于6個方面,分別是“依存關系”“依存句法”“語義資源”“依存語法”“關系詞”“句法分析”等,分布上互有交叉,在系統分析圖3的基礎上,本文認為各聚類關鍵詞分別反映了以下幾方面的主題。

一是“依存關系”的探討是貫穿始終的主題,如何分析復雜事件句的依存關系,并用恰當的形式表示出來,是學界較為關心的問題。

二是“依存句法”“句法分析”“關系詞”代表了學界對復雜事件句本體知識的關注,希望采用依存方法實現對復句關系詞乃至復雜事件句的完整分析。

三是“語義資源”則在2006年之后一直是研究的熱點,構建面向復雜事件句的語義資源,對加快語言智能研究進展有至關重要的作用。

(二)關鍵詞的共現及其熱點分析

關鍵詞的時序聚類從線性角度反映出了研究的主題,而通過在平面內的共現聚類,可以對基于依存理論的復雜事件句的研究內容與熱點進行真實反映,我們將共現頻次(threshold)設置為4③,得到了該研究領域相關的關鍵詞知識圖譜,如圖6所示。

圖6 關鍵詞共現知識圖譜

關鍵詞的共現與分布呈現出較為集中的狀態,將上圖中的內容進行歸納,得到復雜事件句依存研究熱點主題詞聚類表,如表3所示。

表3 關鍵詞共現聚類情況表

關鍵詞共現的次數越多,越能代表研究的受重視程度。通過共現聚類,能夠對研究熱點進行有效反映。結合表3和圖6,我們認為當前學界的研究重點主要體現在以下方面。

一是復雜事件句的依存分析與理論探討。例如,“控制語”“連詞”“搭配網絡”等關鍵詞反映出學界立足于復雜事件句的特征,提出了多種適應依存分析需要的理論與方法,如馮文賀的連詞“虛謂說”和“控制語”說[17]、陳建雄基于上下文意圖的復句分析方法[18]、李源等總結的“綜合分析法”[19]等,各種兼顧結構和語義依存分析方法被提出,推動了依存語法方法論的構建與發展。

二是依存圖思想的提出與應用。依存圖的思想是區別于樹結構的深層語義描寫方法,依存樹分析要求節點與句子序列一一對應,該特征被稱為投影性,但針對復雜事件句依存結構中多父節點②以及依存弧交叉等非投影特點,依存圖思想能更準確地表達復雜事件句的句法語義內容[20]。這方面的主要研究成果有:王躍龍對連動句、兼語句的依存標注問題的探討,提出應將句內所有的依存關系都要考慮到,不僅是事件內部,還要照顧到動詞間的依存聯系,并著手構建漢語依存圖庫[21];丁宇在分析兼語句和連動句的依存圖時,提出了兼語嵌套結構,并將連動句的一個動詞作為事件的支配成分[22]。

三是復雜事件句的依存資源庫建設?!罢Z料庫”“圖庫”“語義資源”“標注”等關鍵詞都是這一主題的集中反映。學界借鑒LTP、UD等大規模的依存資源庫的建設經驗④,對復雜事件句的相關語言資源的構建進行了有益探索,邢翠娟認為句法樹結構無法很好處理漢語中的非投影現象,提出需要構建漢語依存圖庫,就漢語中的連動句、兼語句和復句等復雜事件句的標注問題做了探討,給出了復雜事件的標注范式;鄭麗娟、邵滟秋結合句模理論,區分兼語句的層級結構,構建了兼語依存圖庫[23];胡泉研究并提出了一種自動識別有標復句中搭配關系詞的二階段方法,構建了一個包含457個漢語復句關系詞的“漢語復句關系詞搭配庫”[24]。

四是基于依存語法的句法語義分析。復雜事件句的研究與分析本身也是學界較為關心的話題,不同于面向信息處理的處理方式,復雜事件句的本體依存分析,更需要在方法和思路上實現創新。這方面的研究如肖明以“雖然-但是”類復句為例,利用復雜網絡等理論,通過建立關聯詞之間的語義框架,試圖擺脫傳統的表層句法束縛,促進了有標復句的語義依存分析[25]。

五是面向信息處理的復雜事件句依存探索?!瓣P系詞”“自動識別”“層次”等關鍵詞是這一主題的代表。得益于依存語法在信息處理領域的廣泛適用性,復雜事件句的處理進展迅速,研究成果主要集中在關鍵詞識別、自動句法分析、詞義消歧等方面,如楊進才將對漢語復句關系詞的信息內容、搭配關系、約束條件等方面的深入探索,運用于復句語義依存關系的分析中,利用改進的隨機森林模型,實現了復句關系詞的自動識別[26];黃文燦對傳統樹庫中并列結構等特殊句式的標注不足進行改進,結合神經網絡模型和“綜合分析法”,采用協同訓練,實現復句的依存句法自動分析[29];李源將目光對準中文信息處理中的詞義消歧領域,設計依存句法復合特征模板,運用最大熵模型訓練,提高復句內部詞語尤其是關聯詞的歧義分析精度[30]。

(三)突變詞及前沿趨勢

突變詞是一項重要評測標準,不僅能夠反映研究發展歷程,還在一定程度上能夠預測未來研究中的演化趨勢[31]。我們將γ值⑤設置為0.25,突變時間為2年,得到10個復雜事件依存研究的突變關鍵詞,如表4所示。

表4 Top10突變詞分析結果

突變詞一般由兩個維度來體現:一是突變爆發的起止年份,這一維度代表了在某一時期某個研究熱點持續性的爆發,并且反映了該研究熱點也會對未來的研究進展有持續影響;二是突變的強度,這一維度代表了某一研究熱點的研究價值與受重視的程度,強度越高也反映出該研究對象的關注度越高[32]。從表4的關鍵詞突變數據來看,未來復雜事件句依存研究有以下幾方面的發展。

一是基于機器學習的研究方法會成為今后研究的重要前沿。在突變強度前5的關鍵詞中“神經網絡”“詞向量”等表示機器學習的方法赫然在列?;谝来胬碚摰臋C器學習方法處理復雜的語言現象,近年來受到了學界的關注,機器學習模擬人類大腦的運行機制能夠使處理結構更為精深。今后機器學習的信息處理方式與依存研究的結合將會對復雜事件句的發展起到重要作用,深度學習將會成為該領域未來的發展方向。

二是對語義研究的重視以及將依存分析的維度轉變到語義平面。突變詞中反映語義研究的“語義分析”“語義資源”“特征結構”等均有著較高的突變強度,這表明復雜事件句語義研究是未來研究的重點之一。傳統的復雜事件句多采用句法依存作為研究切入點,句法層面可以表達的信息相對較少,一些外圍語義成分如時間、空間等無法得到準確表達,因此對于該類句式而言,淺層的句法理解不足以支撐該句式信息處理的要求,只有過渡到深層語義平面才能推動復雜事件句句處理的前進。

三是語義依存圖思想,將成為未來具有持續性的研究熱點。從爆發年份看,“依存圖”的爆發年份長達7年,這種情況說明“依存圖”的研究在復雜事件句依存研究領域受到了長時間的關注,而這種關注往往是具有持續性的,表明“依存圖”思想在未來的研究中有可能繼續成為前沿的研究熱點。

四、復雜事件句依存研究的反思與啟示

綜觀近20年來學界現狀,有關復雜事件句的依存研究發展迅速。盡管該領域的研究起步較晚,但也取得了相當可觀的成果,這些成果為智能化時代語言學的本體研究和應用型研究提供了新的思路和有益借鑒。過往成果雖然在不同句型上的分析方法有所不同,但在不同程度上為復雜事件句的信息處理提供了便捷的資源;在探索面向信息處理的自動分析方法上取得了一定進展,特別是在關系詞識別、層次識別、自動分析等方面打下了堅實的基礎。但是過往研究也存在一些需要引起反思和重視的問題,主要體現在以下幾個方面。

首先,復雜事件句依存理論的探索和應用研究尚未形成統一的機制,復雜事件結構的語義描寫機制的系統性亟待加強。兼語句、連動句、復句等都是屬于復雜事件結構,這些句型有著共同的特性,理應采取一種能夠貫通所有類別的系統研究理論。而目前學界尚缺乏一種有關復雜事件句的形式化描寫機制,面向機器理解并不致用。盡管鄭麗娟、楊進才、李源等的成果已觸及復雜事件依存分析的冰山一角,但成果相對零散,缺乏系統性且形式化描寫不足,以至機器理解的精度不高、識別正確率也不高。因而,復雜事件結構的語義描寫機制的相關研究亟待加強。

其次,學界普遍遵循的是“樹結構”的分析模式,而有關“依存圖”的新思想、新探索并不多見。突變詞數據表明,依存圖思想將會在未來繼續成為研究熱點,但當前在構建依存資源庫,標注語言資源時,學界往往還是采用依存樹結構的方式進行標注。復雜事件的非投影性表明依存樹的標注模式并不適合其依存研究。遺憾的是已有資源對復雜事件句還不能做到較為精準的分析,因此“改樹為圖”是未來研究中需要解決的問題。

再次,當前依存語法研究多是面向應用層面的,而基礎與應用結合的綜合性研究極其鮮見。適合信息處理領域的研究可以稱得上是依存語法的優勢,是它的特性之一,可這并不代表依存語法的全部能力,回溯依存語法的歷史,它對語言本體的分析能力同樣有目共睹,配價理論在漢語研究領域的重視就足以證明這一點。因此,我們認為必須注重依存語法與漢語的研究,尤其是復雜事件句的基礎層面的分析研究,努力打造基礎研究與信息處理“對接槽口”。

依存理論下的復雜事件句研究目前正處于穩步發展的階段,需要不斷整合、吸收和借鑒學界已有成果,走本體研究與應用研究相融合的發展道路,更新研究的思路、方法與手段,以期更好地推動中文信息處理“句處理”的前進。隨著“語言學+”研究的深入發展,依存語法的應用型研究的深度與廣度仍有發展空間,因而我們必須緊扣漢語語法事實,從漢語言實際問題出發,不斷拓寬研究領域,推動智能化時代語言學研究向縱深發展,助力“語言+”發展的新趨勢。

猜你喜歡
復句語法語義
連動結構“VP1來VP2”的復句化及新興小句連接詞“來”的形成
漢語復句學說的源流
韓國語復句結構的二分說
語言與語義
跟蹤導練(二)4
Book 5 Unit 1~Unit 3語法鞏固練習
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
復句內部不應當用句號
語義分析與漢俄副名組合
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合