?

基于HNC的漢語詞語知識庫改進

2012-06-29 01:37王青海馬?;?/span>池毓煥董凌沖
中文信息學報 2012年2期
關鍵詞:詞條中層知識庫

王青海,馬?;?2,池毓煥,李 穎,董凌沖

(1. 裝甲兵工程學院 信息工程系,北京 100072; 2. 中國人民解放軍63861部隊,吉林 白城 137001;3. 中國科學院聲學研究所,北京 100190; 4. 中國人民解放軍63713部隊,山西 忻州 036301)

1 引言

任何一個自然語言處理系統理解自然語言句子,首先要具備詞的知識。詞語知識庫已經被廣泛應用于機器翻譯、信息檢索、問答系統、自動文摘等領域,成為自然語言處理不可或缺的基礎資源。比較著名的知識庫有WordNet、FrameNet、EDR電子詞典、《知網》、HNC等[1]。

目前,HNC知識庫在規模上有一定的發展,但是在可擴展性和數據庫設計上還有待改進?,F有的HNC漢語詞語知識庫相對設計簡單,關聯性不足,增大了HNC符號解析的復雜程度,主要存在以下不足。

(1) 系統做語義距離計算時,要進行單獨的HNC符號解析,檢索周期長;

(2) 概念聯想上完全依靠程序計算,概念之間的映射關系在數據庫中沒有直接的反映。

本文通過分析HNC的編碼特點,改進了漢語詞語知識庫結構,提出了新的漢語詞語知識庫模型,并且通過實例說明了改進后的詞語知識庫在語義距離計算上的優勢,指出了漢語詞語知識庫的發展趨勢和可能存在的問題。

2 知識庫模型的構建

2.1 漢語詞語知識庫模型設計

2.1.1 漢語詞語知識庫模型的提出

HNC理論利用HNC1、HNC2、HNC3和HNC4將詞語、語句、句群、篇章數字化,為計算機把握語義提供基礎[2]。HNC符號有兩個重要特點。

(1) HNC符號是對詞義的漸進表達,給出概念聯想脈絡知識的線索,與語種無關;

(2) HNC符號中不僅蘊含著詞語層面的知識,還蘊含著語句和語境層面的知識。

根據上述特點可知,利用HNC處理自然語言,建立自然語言與概念空間之間的映射是關鍵。

圖1 基于HNC的漢語詞語知識庫模型

知識庫承擔了自然語言與概念空間之間映射的任務。HNC符號中表達概念聯想關系的手段主要有概念矩陣、層次性節點、掛靠表達、組合結構等[3]。本知識庫設計基于HNC1和HNC2,利用自上而下的建庫思想[4],如圖1所示,包括中文詞條、HNC特性、基本句類、常用組合詞和中層特性五個實體。其中,中文詞條通過HNC特性外化它們在概念空間的關聯。此外,與本知識庫設計緊密相關的三層節點和五元組知識會在下面進行簡要的說明。

2.1.2 實體設計的必要性分析

(1) 如圖1所示,將HNC特性作為一個實體,并分HNC編碼、高層特性、中層特性、底層特性、五元組特性和本體層符號六個屬性。其中,后五個屬性是HNC編碼的符號解析。與之前的單表詞庫相比,新的漢語詞語知識庫能夠省去編程時的符號解析環節,有利于概念聯想,降低文字處理系統程序的復雜度,減少不必要的誤差。

如圖2所示,詞語的HNC編碼包括高層、中層和底層,在語義距離計算時都有不可忽視的作用,具體方法參見3.1。概念的五元組特性和概念的層次性、對比性、對偶性、包含性統稱概念同行關聯,簡稱同行[2]。具有同行關聯性的概念有相同或相似的層次符號,因而部分語義距離的計算問題就簡化為對數字串的逐層比較問題。五元組是概念的外在表現,分別描述概念的五個側面: 動態v、靜態g、屬性u、值z、效應r。它們可以多重組合但各有約定的內涵。對比性、對偶性和包含性是概念局部聯想的基本特征。從一個對比性概念就能聯想到另外n-1個概念,從對偶性概念的一方可以聯想到另外一方(或兩方),從一個包含性概念就可以聯想到它的上下方,這為電腦進行概念聯想操作提供了有效的手段[3]。所以,這里將中層特性單獨作為一個實體。

圖2 詞語的HNC編碼層次

本體層符號與掛靠概念相關,掛靠就是把一個概念與相關概念的層次符號直接拼接在一起,是HNC符號中表達概念關聯性的一種方式[3]。在語義距離計算的過程中,本體層是首先要進行判斷的。具體方法參照3.1節的實例。

(2) 通過HNC編碼,設計常用組合詞詞表,建立最常用的詞語之間的聯系。在語言理解的過程中,如果有一個詞語確定了HNC編碼,在知識庫中找到與它組合的常用詞,如果被找到的常用組合詞與上下文相符,則可以確定這兩個詞是一個短語,進而確定常用組合詞的HNC編碼;另一種情況,在合詞階段,遇到常用組合的形式,可以同時確定這幾個詞屬同一語義塊,并確定這幾個詞的HNC編碼。常用組合詞可以提高合詞和語義塊識別的效率,具體辦法參見3.2節。

(3) 語義塊是句類的函數,要理解語句,確定句類,必須要從語義塊上分解句子,以語義塊為單位進行翻譯,然后進行語義塊順序的調整。語義塊必須標注,可以提高語義塊識別的效率。

2.2 詞語知識庫實體屬性設計

2.2.1 中文詞條

(1) 中文編號,是中文詞條的主碼,從數字1開始的編號。多義詞有多個義項,中文編號對應唯一的詞語義項。例如,詞語“中央”有兩個義項,一個是“中心的地方”,另一個是“國家或者政黨政治權利最高的地方”,這兩個義項要有不同的中文編號。

(2) 詞形、拼音根據《現代漢語詞典》填寫,詞形填寫類型是短文本,拼音填寫類型是字符串。

(3) 詞頻,根據已有的HNC漢語語料庫進行統計,填寫類型是數字。

(4) HNC編碼,根據HNC符號規則將詞語的當前義項完全數字化,填寫類型是字符串。

(5) 可屬語義塊,包括四種主語義塊和七種輔語義塊,填寫類型是字符串。其中,主語義塊有特征(E)、作用者(A)、對象(B)和內容(C);輔語義塊有方式(Ms)、工具(In)、途徑(Wy)、參照(Re)、條件(Cn)、因(Pr)、果(Rt)。

(6) 句類編號,是中文詞條的外碼,基本句類實體的主碼,對應唯一的實體基本句類,填寫類型是從1開始的數字。

2.2.2 常用組合詞

常用組合詞的主碼也是中文編號。常用組合詞分四項屬性,緊前、緊后、隔前、隔后,每項屬性填寫的都是HNC編碼。

2.2.3 基本句類

基本句類的主碼是句類編號,范圍是1-57,根據HNC有限的57種句類填寫基本句類名和句類表達式?;揪漕惷奶顚戭愋褪嵌涛谋?,句類表達式的填寫類型是字符串。例句由HNC的語料庫提供,是完成句類成分分析的例句,例句格式如下:

這||是||<{總結|(〗近代以來~|中國|發展}的歷程/}|得出|的結論>。

2.2.4 HNC特性

HNC特性的主碼是HNC編碼。同時,HNC編碼也是它與中層特性聯系的外碼。不同于以往的知識庫,本知識庫不僅根據HNC概念聯想脈絡對詞條進行HNC編碼,還將詞條的高層、中層、底層以及五元組特性分開描述,不用對HNC符號進行分析解讀就能從高層特性直接判定這個詞條所屬的概念屬性,并且,中層特性作為單獨的實體被描述。

2.2.5 中層特性[3]

中層特性的主碼是HNC編碼,包括對比、對偶和包含三項屬性,填寫類型是字符串。

(1) 對比性概念用符號cnk或者dnk(k取值1~n)。n表示對比的總級數;k表示排序中的序號;c表示正序,即序號k越大值越大;d表示反序,即k越大值越小。例如:

幼u10bc51 少u10bc52 青u10bc53 中u10bc54 老u10bc5

冠軍(j00d01,l15,gvc730) 亞軍(j00d02,l15,gvc730)

對比符號在排序、信息查詢的過程中有著不可忽視的作用。

(2) 對偶性概念分為黑氏對偶和非黑氏對偶兩種,用ekm或者m表示,m取值0~7,分為0,1,2,3和4,5,6,7兩組。1、5和2、6表示對偶的雙方,0、4表示統一方,3、7用于表示對偶中的第三方,不同的對偶類型可能沒有統一方或第三方[5]。

(3) 包含性概念的表示式中,“-”是最高一級的包含概念,“-0”表示比“-”還低一級的包含概念,“0”越多包含概念的級別越低,這對于語義塊的識別有很重要的參考意義。例如,對于時間短語“1949年10月1日”,其中“年”、“月”、“日”的HNC編碼可寫成: 年wj10- ,月wj10-0,日wj10-00。

根據符號可判定,這三個詞具有包含的意義,屬同一語義塊。還有另外一種包含信息,例如,“中國”、“上?!边@兩個詞,從上??梢耘卸ǖ牡乩硇畔⒕陀兄袊@一層。

2.3 詞語知識庫填寫原則

知識庫的基本設計思想是概念矩陣的近似實現。HNC符號對詞語之間概念聯想的關系脈絡給出形式化的表達,以服務于自然語言處理的需要[3]。本著便于計算、便于語義塊識別,降低非專業用戶使用難度的原則,漢語詞語知識庫的建庫原則[6]如下。

(1) 以消解模糊、語義塊識別為目的選詞。漢語沒有很嚴格地、如印歐語言那樣的“詞”。收集詞語以概念和語義為中心,考慮詞語的流行性和固定性;

(2) 詞語義項的選擇需要考慮現代流通性;

(3) 符號編碼以句類知識為核心,詞語庫中的各項知識都以句類知識為綱領;

(4) 知識庫的主要知識項都用HNC的符號體系表述,是完全符號化和數字化的。

3 詞語知識庫的應用分析

漢語詞語知識庫的應用有很多。依據知識庫中同行優先、常用組合、概念類別[3]等與HNC相關的先驗知識和已經確定的HNC符號編碼,既可以推測上下文關聯詞的編碼,也可以開展填空造句,或者翻譯的時候也能根據HNC編碼進行語義距離計算從而確定句子最準的目標詞語。下面利用實例簡要分析一下本文提出的漢語詞語知識庫在語義距離計算方面的優越性。

3.1 語義距離計算

以前的單表知識庫,提取高層、中層、底層信息需要專門的程序,改進后卻可以直接讀取。

如表1所示,以“暫?!?、“形勢”、“冠軍”、“亞軍”為例進行語義距離計算,計算公式[7]如下:

SDC(H1,H2)=MAX(Sim(S11,S21), Sim(S11,S22),…,Sim(S11,S2m),Sim(S12,S21), Sim(S12,S22),…,Sim(S12,S2m),

……

Sim(S1n,S21), Sim(S1n,S22),…,Sim(S1n,S2m))

(1)

Sim(S11,S21)=Sim(S11.網絡符號,S21.網絡符號)*( Sim(S11.五元組,S21.五元組)+( Sim(S11.本體層符號,S21.本體層符號)* Sim(S11.中層符號,S21.中層符號)* Sim(S11.高層符號,S21.高層符號)+ Sim(S11.高層符號,S21.高層符號)*Sim(S11.底層符號,S21.底層符號)))))

(2)

表1 中文詞條建庫填寫舉例

要進行高層、底層、五元組、本體層的比較,這些比較都沒有考慮組合符號的作用,也就是說單純的是字符的比較,計算結果用數字0~7表示[7]. 例如,(1) “暫?!迸c“形勢”的HNC符號直接可以抽取五元組信息比較的得出匹配成功,本體層完全匹配,高層部分匹配成功,Sim(S11,S21)的結果為4;(2) “冠軍”與“亞軍”的HNC符號進行分層比較。用本文提出的知識庫進行的只是符號讀取與順序匹配,不用對全部HNC符號進行解析。中層符號有d01,d02,而其他層的比較都匹配,Sim(S11,S21)的結果為7,最終得到的結果是對比性概念。

影響語義距離計算的因素有很多。例如,語義距離計算的兩個詞語的高層概念不同說明概念的基本類型不同,語義距離會很大,但底層有交叉的可縮短它們的距離,這不是本文討論的重點。

本文改進的漢語詞語知識庫模型中,一個中文詞條的HNC編碼是確定的,高層、中層、底層也是可以分別讀出的。從程序實現的角度來講,提取表格中的概念比將每個HNC編碼解析的計算量要小的多,這樣就減小了自然語言處理核心程序的計算量。

3.2 合詞

利用常用組合詞的合詞過程,如圖3所示。常用組合詞主要用來發現和分析前后詞的關聯,便于語義塊的識別。直接給出常用組合詞,可以簡化語義塊識別的組合判定算法,提高程序的效率。如“熱愛學習”,“熱愛”是“學習”的緊前詞,“學習”是“熱愛”的緊后詞;“處于緊張時期”,“處于”是“時期”的隔前詞,“時期”是“處于”的隔后詞。當“學習”的HNC編碼確定時,搜索到常用組合詞“熱愛”在緊挨“學習”前面的位置,可以判定它們可以組成一個短語,增加了同屬一個語義塊的概率,在做語義塊判定時他們之間的關系優先判定。

例如,對于句子“這是總結近代以來中國發展的歷程得出的結論?!崩帽疚母倪M的知識庫,通過合詞,可將“近代以來”劃為一個短語。如果 “近代”、“以來”已經被填入知識庫,常用組合詞匹配成功直接形成短語。如果沒有進行常用詞組關聯,可直接讀取這兩個詞HNC符號的各層編碼,利用3.1節的語義距離計算進行判定。這兩種途徑都比之前用單表進行語義塊判定的計算量明顯減少。

圖3 合詞流程

4 結語

本文設計的HNC漢語詞語知識庫雖然增加了建庫的復雜度,但增強了知識庫的程序可讀性,提高了HNC知識庫的層次性、邏輯性。尤其將HNC符號分高、中、低三層寫入知識庫的辦法,簡化了HNC符號的讀取,減小了因讀取HNC符號造成的處理誤差,同時便于簡化接口程序和搜索算法,方便了知識庫的管理。

填寫HNC知識庫的過程,是從詞語的文字符號向HNC的概念表述符號映射的過程,要求知識庫填寫人員理解和掌握HNC的概念符號體系以及HNC的自然語言理解處理策略。所以,要建好HNC知識庫,還需要大量跨接語言學和計算機科學的復合型專業人才。

[1] 宗成慶.統計自然語言處理 [M].北京:清華大學出版社,2008:48-71.

[2] 李穎,王侃,池毓煥.面向漢英機器翻譯的語義塊構成變換[M].北京:科學出版社,2009.

[3] 苗傳江.HNC(概念層次網絡)理論導論[M].北京:清華大學出版社,2005.

[4] 赫南達斯.數據庫設計凡人入門——關系數據庫設計指南(第二版)[M].北京:電子工業出版社,2005.

[5] 李穎,池毓煥.對偶性概念的HNC闡釋[J]. 中文信息學報, 2004,18(3):39-46.

[6] 苗傳江,劉智穎.基于HNC的現代漢語詞語知識庫建設[J].云南師范大學學報,2010,42(4):15-18.

[7] 晉耀紅.HNC(概念層次網絡)語言理解技術及其應用[M].北京:科學出版社,2006: 50-61.

猜你喜歡
詞條中層知識庫
漢語近義詞辨析知識庫構建研究
北緯30°中層頂區域鈉與鐵原子層的結構和年際變化
利用簡單的公式快速分隔中英文詞條
雙麥克斯韋分布下極區中層塵埃粒子帶電研究
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
衛星狀態智能診斷知識庫設計方法
企業中層管理團隊在運營中的困境與作用
位置與方向測試題
《中層危機》:探討應對的金鑰匙
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合