?

基于知網的中文結構排歧工具
——VXY

2010-06-05 09:02郝長伶董振東
中文信息學報 2010年1期
關鍵詞:歧義義項語義

董 強,郝長伶,董振東

(加拿大智達有限公司,蒙特利爾,加拿大)

1 引言

排除歧義是語言信息處理或計算語言學研究中的關鍵問題。中文里的V-X-de-Y歧義性結構在真實文本中是非常普遍存在的。我們曾經統計過一篇不到4頁的短文,里面竟有31個這樣的結構。 我們將31個含有這樣結構的句子,分別輸入兩個不同類型的機器翻譯系統,可以清楚地看到這種歧義判別的正確與否會對自動翻譯產生非常嚴重的影響。這個問題不論采取何種機譯策略都是繞不過去的。讀者不妨也可以試試。

我們研究和開發中文的排歧工具的目的有兩個,一是用來檢驗知網的理論與方法的正確性以及數據的規模和可靠性;二是檢驗我們對于中文處理的觀點和方法,看看是否能夠將知網有效地投入實用?;谶@樣的考慮我們除了不斷改進、強化和提升知網知識庫性能外,還利用知網先后開發了可同時適用中英兩種語言的概念相關性計算器(Concept Relevance Calculator, CRC)、概念相似度計算器(Concept Similarity Measure, CSM)等來作為排歧工具的預備性資源。 近一年來我們開發完成了一個稱之為基于知網的中文句法結構排歧工具(HowNet-based disambiguator of Chinese syntactic structures)。它被簡稱為VXY。

2 VXY

2.1 VXY要解決的歧義

VXY排歧工具所要排除的是中文里十分常見的句法結構歧義,即很多學者曾經討論過的V+NP1+的+NP2 (削蘋果的皮/削蘋果的刀)。中文的V+NP1+的+NP2結構歧義的關鍵點是:V的管轄,即在這類結構里V管轄的是NP1呢,還是NP2?與其他學者所討論的有所不同,我們要解決的是更加復雜和多樣的歧義,即在他們所列出的NP1和NP2的位置上可以是其他詞性的詞語,如表1所示。 正因如此,我們更確切地命名我們的工具為:V-X-de-Y排歧工具,簡稱為VXY。

表1 VXY的各種類型舉例

我們把V管轄的是Y的,定為type1;V管轄的是X的,則定為type2;如果在判別中某一短語既能適用某條type1規則,又能適用某條type2規則,那么就被判定為type3,也即它仍然存在歧義,如“罵鄰居的孩子”,這樣的歧義結構應該需要更大的語境來解決。

需要說明一點,V+NP1+的+NP2的管轄關系,還可能包括V處于被管轄的關系,例如“失事飛機的殘骸”、“進口商品的關稅”、“遇害老人的親屬”等。然而我們不會利用VXY來解決這樣的歧義性結構。這類歧義會利用我們正在開發的其他判別工具解決。

2.2 VXY的組成及其功能

VXY主要由以下三個部分組成:

(a) 判別器:它的主要功能是調用各種查詢和匹配函數,進行詞典訪問、信息提取、規則匹配。用戶填入的詞語是它的輸入;被判別的結果是它的輸出。

(b) 規則庫:存有判別確定V對于X或者Y的管轄關系的規則。到目前為止,VXY規則庫的規則總數約200條。

(c) VXY用戶界面:界面顯示四個部分:第一行列出V、X、Y測試短語輸入框;第二部分顯示判別器所選定的V、X、Y各自的DEF,即義項的概念定義;第三部分列出判別中所選用的規則;第四行給出了判別的最終結果。這個界面是供用戶測試的工具,也是供維護者調試和修改的工具。如圖1所示。

圖1 VXY判別工具界面

特別要指出,實際上,整個知網也應視為VXY的組成部分。VXY是完全基于知網的,它直接利用知網的全部資源,特別是知識詞典。與知網其他的意義計算工具一樣,知網的更新會引起VXY內容上的改善或充實,但不會帶來結構上的負面影響。

VXY的功能是對任意的VXY詞語組合結構中的V對于X或者Y的管轄關系加以判別。判斷的條件是:(a)輸入的組合在意義上應是合理的、真實的;(b)輸入的各個詞語是知網中所包含的。如前所述,判別的結果有三種:type1、type2 以及type3。

2.3 VXY規則的表示

每一條VXY規則包括如下幾個部分:(a)規則名,(b)序號,(c)規則內容。規則內容由兩部分組成:(a)條件部分,(b)動作部分。條件部分是VXY三元組:其中CW代表當前輸入的V詞語;R1代表X,即V右鄰的詞語;R2代表Y,實際上是“的”后鄰的詞語。

CW,R1和R2后面置于方括號[ ]中的是它們各自的語義內容,它們由知網的意義計算函數及其賦值所構成,三者之間由“;”分割,表示“和”。其中動作部分由“$”引導,@表示“調用”動作類型。每條規則均以句號結束。例如:

VXY_TYPE_2 6360 CW[*DEF_HinDic={act|行動}];R1[*DEF_HinDic={entity|實體}]; R2[*DEF_HinDic={method|方法}/{standpoint|立場}]$@type(2).

2.4 VXY的意義計算函數

如前所述,VXY規則采用了知網的意義計算函數。這些函數是知網通用的,應用于各個基于知網的意義計算工具,而并非是VXY所專用的。VXY現今采用如下函數:DEF_HinDic,DEF_inDic,DEF_HostInDic,DEF_WinDic,它們的操作符分別是:=,-,>。

下面一條規則,是在判別“挫傷孩子的自尊心”時,匹配成功的規則:

VXY_TYPE_12490CW[*DEF_HinDic={act|行動}];R1[*DEF_HinDic={human|人}];

R2[*DEF_HinDic={mental|精神}]$@type(1).

根據知網,CW詞語“挫傷”有如下兩個義項,它們的DEF分別是:{wounded|受傷}和{discourage|潑冷水}。其中后者的類義原的上位在知網的分類體系(taxonomy)中表示為:

event|事件

==>act|行動

==>ActSpecific|實動

==>AlterSpecific|實變

==>AlterState|變狀態

==>AlterMental|變精神

==>AlterEmotion|變情感

==>excite|感動

==>discourage|潑冷水

這樣,CW滿足了規則的條件:{act|行動}。

R1詞語“孩子”有3個義項,其類義原的上位在知網的分類體系(taxonomy)中都是:

entity|實體

==>thing|萬物

==>physical|物質

==>animate|生物

==>AnimalHuman|動物

==>human|人

于是R1也滿足了規則的條件:{human|人}。最后R2,其詞語“自尊心”的類義原的上位在知網的分類體系(taxonomy)中是:

entity|實體

==>thing|萬物

==>mental|精神

==>emotion|情感

也滿足了規則的條件:{mental|精神}。因此歧義結構“挫傷孩子的自尊心”被判定為type1,即V(“挫傷”)管轄的是NP2(“自尊心”)。

應注意,規則的意義計算同時兼有詞語義項選擇的功用。如前面CW本來是有兩個義項,為何沒有選中{wounded|受傷}這一義項呢?那是因為該義項類義原的上位在知網的分類體系(taxonomy)中是:

event|事件

==>static|靜態

==>state|狀態

==>StatePhysical|物理狀態

==>change|變

==>BeBad|衰變

==>SufferFrom|罹患

==>ill|病態

==>wounded|受傷

這樣就沒有一個上位可以滿足規則的條件的,而被摒棄了。

3 討論

第一,歧義是語言信息處理的關鍵問題。歧義有種種不同的類型及其不同的特點,解決歧義也就應該有不同的策略和方法。本文所介紹的中文排歧工具是專門對付中文里普遍存在的一種結構性或管轄性歧義的。這類歧義的一個重要特點在于表面上似乎是因為詞類分布產生的歧義(如V+N(V)+的+N(A/V)),但實際上它是高度語義依賴的,是由內在的三元的語義約束決定的,是V對于X或Y的強支配性決定的。請比較下面一組例子:

該組的“V+N+的+N”的前一詞語詞性均為adj(“新穎的”、“容易”),但其中的第一例為type2,而第二例卻為type1。排除這種詞性組合的結構歧義主要是要依靠、或也只能是依靠詞語本身的語義。只有當其自身的語義不可能解決時(例如“咬死獵人的狗”),才需求助于更大的語境。

至于詞匯意義的歧義,雖然也是高語義依賴的,但它們在性質上是完全另外一種類型。因此我們將采用另外的策略和方法。知網已經為此準備好了三種資源:除前已提及的概念相關性計算器(Concept Relevance Calculator, CRC)、概念相似度計算器(Concept Similarity Measure, CSM)外,更重要的是知網的知識詞典中為多義詞語給出的實例。試以詞語“材料”為例,它的三個義項在知網的知識詞典中分別列出如下實例:

(1) DEF={InfoElement|信息元素},(英語=data)

實例:收集~,鮮活的~,熟悉~,調查~,整理~,給~分類編目,手頭的~,掌握~,考研~,又發給我們一堆學習~,參考~,第一手~,上報的~中有記載的,一本~

(2) {Quality|質量:host={human|人}},(英語=makings)

實例:唱歌的~,跳舞的~,不是干這的~,上大學的~

(3) DEF={material|材料},(英語=material)

實例:建筑~,裝修~,買~,家裝~,航天飛機外殼是用什么~做的,房屋~,納米~,~科學

我們相信將上述三種資源有機地結合使用,是實用性地解決詞匯多義的有效途徑。

第二,進一步討論關于VXY工具的規則。首先是規則的依據。知網的“事件語義角色框架”和“語義角色與典型演員”是規則的基本依據。知網的這兩個文件描述了語義角色與典型演員的強支配關系,例如:

“娶” 對于其possession角色:“人,女性”的強支配性

“開辦”對于其PatientProduct角色:“機構”的強支配性

“醫治”對于其content角色:“疾病”的強支配性

“買” 對于其cost 角色:“錢”的強支配性

其次是規則對于詞語的義項的選擇性。當VXY三個詞語的任何一個有多個義項時,規則有能力進行自動的選擇,這是很重要的機制。再者是規則的自動的上下位查詢的機制。

第三,我們應該采取怎樣的策略和方法來解決歧義問題呢?現在我們看到有兩類做法,一類是本質上應屬于語言學本體研究的,或者屬于我們稱之為無計算的“計算語言學”(Computational Linguistics without Computation)的方法;另一類是眼下尚流行的“三部曲”(語料標注、現成的算法、應試性的評測)方法。這兩種方法都不是我們所贊成的。我們主張的是:對于漢語的語言難點應采取“定點清除”的策略,不同類型的歧義應采用不同的方法去解決, 我們正在努力開發不同類型的排歧插件,供用戶選擇、嵌入用戶自己的語言信息處理系統,如文本挖掘、機器翻譯系統等。 換句話說,我們要的是可以經得起任意考核的排歧系統,而不是只能演示或評測幾十個多義詞的“玩具”。

4 今后的工作

我們現已將VXY上傳至http://hownet.kookge.com,我們將通過讀者和用戶的測試反饋來改進和完善它。我們真心地愿意看到有人采用其他的方法(如詞性標注下的“三部曲”)或其他的資源(如Chinese WordNet等)來做出類似的排歧工具并進行開放性的考核,我們相信這樣的比較才會更有意義。

如今,我們已開始開發新的中文排歧工具,如VN、NV工具,用以解決諸如“醫治疾病”/ “走私集團”,“太空行走”/ “群眾抱怨”等管轄關系歧義。同時我們通過我們正在研發的基于知網的英中機器翻譯系統,開發英語的排歧工具。最后,我們愿意與其他機構合作共同開發更多的實用的排歧工具。

[1] Zhendong Dong, Qian Dong, HowNet and the Computation of Meaning[M]. Singapore World Scientific, 2006.

[2] 馮志偉. 自然語言的計算機處理[M].上海:上海外語教育出版社,1996.

[3] 馮志偉.論歧義結構的潛在性[J].中文信息學報,1995,9(4):14-24.

[4] 苑春法,黃錦輝,等.基于語義知識的漢語句法結構排歧[J].中文信息學報,1999,13(1):1-8.

[5] 張克亮.基于HNC理論的句法結構歧義消解[J].中文信息學報,2004,18(6):43-52.

附錄A

1. 關于建議設立“漢語句典”課題的芻議 V設立課題的芻議

2. 難以打開局面的看法,的確反映了很多人的憂慮 A打開局面的看法+反映很多人的憂慮

3. 較為新穎的基于語料庫的統計分析方法以外 A基于語料庫的方法

4. 那是值得研究的問題 V1值得研究的問題

5. 少數人期待有關自然語言的“日心說”的出現 N期待日心說的出現 (1)

6. 目前研究自然語言處理的方法好比托勒密的理論 N研究語言處理的方法

7. 堅持這種扭曲的理論的結果是……。 堅持理論的結果V

8. 兒童學習自然語言的過程 N學習自然語言的過程

9. 要是我們把觀察和思考問題的角度變換一下 P思考問題的角度V

10. 即采用適合計算機的特點的方法 V適合計算機的特點 (1)

11. 可以用一套形式語法系統來描述是這種方法的基石 V是方法的基石 (1)

12. 也是處理這種語言的切入點 V1處理語言的切入點

13. 支撐自然語言大廈的主要支柱可能不是 支撐大廈的支柱V

14. 我們仔細觀察小孩子學說話的過程 N學說話的過程

15. 一個一個地掌握各種句模的用法 Ad掌握句模的用法(1)

16. 從而提高他們的說話和理解能力 Ad提高他們的能力 (1)

17. 尤其是在研究別人的言語 Ad研究別人的言語 (1)

18. 才打破了不能開口的局面 Ad打破開口的局面(1)

19. 我們也有教外國人的《漢語400句》了 V教外國人的漢語400句

20. 以上的說法并不是完全否認“語法”的作用 Ad否認“語法”的作用(1)

21. 舊句模的消亡過程受到全社會成員的參與 N受到成員的參與(1)

22. 《漢語400句》就是一個《1級漢語句典》的雛形 N是句典的雛形(1)

23. 類似于人類自己掌握自然語言的過程 N掌握自然語言的過程

24. 容易考核工作的實際進展 A考核工作的進展(1)

25. 容易判斷自己工作的質量 A判斷工作的質量(1)

26. 我提出上述建立《句典》的建議 N建立句典的建議

27. 任一語句是否屬于本句型的算法 N屬于句型的算法(1)

28. 而這個課題所要解決的是面向計算機的句典 V1面向計算機的句典

29. 根本無法納入我們心目中的《句典》中 Aux納入心目中的句典(1)

30. 以上是個人的淺見 A是個人的淺見(1)

猜你喜歡
歧義義項語義
現代漢語歧義類型的再討論
語言與語義
eUCP條款歧義剖析
語文教學及生活情境中的歧義現象
批評話語分析中態度意向的鄰近化語義構建
“社會”一詞的語義流動與新陳代謝
基于關聯理論的歧義消除研究
“吃+NP”的語義生成機制研究
兩用成語中的冷義項
Enhanced Precision
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合