?

SSD模型及其在漢語詞性標注中的應用

2010-06-05 09:00邢富坤羅智勇
中文信息學報 2010年1期
關鍵詞:詞表解碼語料

邢富坤,宋 柔,羅智勇

(1. 北京語言大學 語言信息處理研究所,北京 100083; 2. 解放軍外國語學院,河南 洛陽 471003)

1 引言

該式可以進一步轉化為下式:

(1)

HMM存在一個重要假設,稱為輸出獨立性假設,其基本內容是當前可能狀態到當前觀察值的發射概率只與當前觀察值有關,而與其他觀察值無關。這種假設在解決某些特定問題時是基本成立的,但是在自然語言中,這種假設與現實差別很大。例如:

例(1) 領導/n 強調/v 深入/v a 細致/a 的/u 工作/vn 作風/n

例(2) 領導/n 要/v 深入/v a 困難/a 的/u 群眾/n 中間/f

假定在這兩句中,只有“深入”是兼類詞,有動詞v和形容詞a兩個可能詞性,需要進行詞性排歧,而其他詞只有唯一詞性。當利用一階HMM模型估計例(1)中“深入”的詞性X時,根據上述公式有:

X)p(u|a)p(vn|u)p(n|vn)p(領導|

n)p(強調|v)p(深入|X)p(細致|

a)p(的|a)p(工作|vn)p(作風|n)

由于除了“深入”以外,其他詞性均唯一且確定,因此可以得到

(深入|X)

同理,我們也可以求出例(2)中“深入”的詞性為

(深入|X)

本文提出了一種模型,稱為SSD(Symbol-and-Statistics Decoding)模型,該模型以n元詞序列為觀察單元,并在相鄰觀察單元間具有n-1元搭接關系,較好地克服了HMM模型的不足。

本文的結構安排是:第1部分對HMM進行介紹及分析;第2部分是對SSD模型的形式化描述及與HMM的對比分析;第3部分介紹SSD模型的參數估計及稀疏數據處理方法;第4部分介紹評價方法;第5部分介紹詞性標注實驗并與最大熵模型進行比較。

2 SSD模型介紹

n元SSD模型的觀察單元是由n個詞組成的序列,而不是單個詞。我們這里給出二元SSD模型的形式化描述,n大于2的模型可由此類推。

利用二元SSD模型求解S=w1w2...wh的最優狀態序列的過程可以表示為:

(2)

為了便于計算,我們在序列S的起始位置統一加入起始標記序列“*開始*-*開始*”,其狀態記為B-B,結束標記序列“*結束*-*結束*”,其狀態記為E-E,則公式(2)可以進一步表示為:

(3)

(4)

通過以上公式求解出由h+2個二元狀態序列組成的最優狀態序列:

,,,...,,∈Q)

顯然,它們唯一地確定了每個觀察所對應的狀態。

SSD模型與HMM模型主要有3點不同:

首先,在n階HMM中,與t時刻的可能狀態qt相關聯的觀察,只考慮了ot;但在n元SSD模型中,則要考慮包含ot的n個基元(詞性標注中為詞)所構成的序列。每一個可能狀態序列的集合由于受到n個觀察值共現的約束,其規模會大大減小,從而模型的搜索范圍大大壓縮。

第二,n階HMM中,涉及t時刻的狀態qt和觀察值ot的概率只有P(ot|qt);而在n元SSD模型中,則有n個發射概率:P(ot-n+1...ot|qt-n+1...qt),...,P(ot...ot+n-1|qt...qt+n-1)。如此,觀察值的前后聯系將對狀態的判斷形成約束。

第三,n階HMM中計算n個狀態的序列到下一個狀態的轉移概率P(qi|qi-n,...qi-1);n元SSD模型則計算的是相鄰且搭接的兩個n元狀態序列之間的轉移概率。當搭接部分相同時,即滿足搭接約束條件時,這個概率同n階HMM中的概率是相同的;當不滿足約束條件時,轉移概率無定義。這一約束條件剪裁掉了大量的搜索路徑,進一步提高了解碼的速度。

下面通過實例說明二元SSD模型求解最優狀態序列的過程,從中可以發現,該句通過符號解碼,不必進行概率計算就可以得到最終的最優詞性序列,如下表所示:

表1 SSD模型解碼結果

表1中陰影部分的節點是由于不滿足前后搭接約束條件而被剪裁掉的節點,當這些節點剪裁掉后,剩下的只有唯一一條可能路徑,這也是最終所要求解的最優路徑。

在實際標注過程中,并不一定每次都能夠通過符號解碼獲得唯一可能路徑。當符號解碼后的可能路徑不唯一時就需要進行數值計算,利用Viterbi算法進行數值解碼,然后得到最優狀態路徑。

3 參數估計及稀疏數據處理策略

SSD模型需要估計的參數有兩個:(1)狀態轉移參數Pt;(2)狀態發射參數Po。我們采用最大似然法估計相關參數,篇幅所限不給出具體過程。

SSD模型采用回退策略解決數據稀疏問題,設某個n元詞序列wj-n+1...wj未在詞表中出現,則根據回退策略取wj-n+1...wj的后n-1個詞組成n-1元詞序列wj-n+2...wj作為替代序列,如果該序列仍然未在詞表中出現,則繼續回退,直至成為二元詞序列?;赝说絪元詞序列時,就使用s元詞表中給出的詞性序列。但如果wj-1wj仍未在二元詞表中出現,則不再回退到單個詞,而將詞wj-1與詞wj的所有可能詞性組合作為wj-1wj的詞性序列。

4 評價方法

(1) 總體標注正確率

(2) 兼類詞標注正確率

(3) 優化幅度

優化幅度=

×100%

5 實驗設計及結果

5.1 語料與預處理

訓練語料與測試語料均來自北京大學標注的1998年上半年《人民日報》,具體劃分為如下:

表2 語料劃分

實驗采用兩種方法,一種方法是利用二階HMM進行標注,另一種方法是利用二元SSD模型進行標注,然后對結果進行對比分析。

在標注之前首先根據標注語料的標注結果對訓練語料與測試語料進行了預處理,將姓名、地名、機構名、數字、時間等進行了歸并,所有姓名(不區分姓與名)以“*姓名*”表示,地名以“*地名*”表示,機構名以“*機構名*”表示,數字以“*數字*”表示,時間以“*時間*”表示,這樣處理后可以排除專名識別對于比較不同模型標注性能的影響。

5.2 實驗結果

表3 封閉測試結果

表4 不同規模訓練語料的開放測試總體正確率結果

表5 不同規模訓練語料的兼類詞標注正確率結果

對于n-gram數據來說,隨著n的增大數據稀疏問題會越來越嚴重。但從n元SSD模型處理數據稀疏的回退方法容易看出,n的增大不會降低n元SSD模型的標注準確性。我們的實驗驗證了這一點。我們利用1998年2~3月《人民日報》語料作為訓練語料,以1998年1月《人民日報》語料作為測試語料, 檢驗SSD模型在完全稀疏條件下的標注性能。所謂完全稀疏,是指在利用n元SSD模型標注時,不使用n元詞表,而只使用1元至n-1元詞表,這使得測試語料中出現的所有n元詞序列都成為稀疏詞序列,這是n元SSD模型可能遇到的最稀疏情況,這時的標注性能可以認為是n元SSD模型的性能底線,測試結果如下:

表6 小規模訓練大規模測試的結果

表7 完全稀疏條件下的SSD模型標注結果對比

從上表結果及錯誤分析發現,完全稀疏的二元SSD模型標注正確率與二階HMM的標注正確率等同且錯誤完全一樣;完全稀疏的三元SSD模型的標注正確率與二元SSD模型的標注正確率等同且錯誤完全一樣。這驗證了,n元SSD模型對于稀疏數據的處理策略保證了當n增長的情況下,模型不會因為數據稀疏問題而造成性能的降低,反而會隨著n的增長,模型的語境觀察范圍得到擴大,其性能會得到不同程度的提高。

為了與判別模型在詞性標注上的性能進行對比分析,我們選用最大熵模型進行實驗,實驗工具使用的是Standford最大熵標注器(http://nlp.stanford.edu/software/tagger.shtml),訓練語料是1998年1月《人民日報》標注語料,測試語料是2月《人民日報》的前5 000句語料,使用的模板是該標注器自帶的漢語詞性標注模板(取當前詞及其左右各一個詞的詞形以及某些類信息(如數字、字母等)為特征,具體參見文獻[9])。結果如下表:

表8 最大熵模型標注結果比較

上述結果說明,在當前的訓練規模條件下,最大熵模型的標注正確率要高于SSD模型和HMM模型,顯示出判別模型在利用語境信息方面的優勢。但是最大熵模型的訓練時間遠高于其他兩種模型,而SSD模型的訓練時間雖多于HMM模型,但是二者相差不過20秒左右,基本在同一個數量級上,且SSD模型的標注正確率高于HMM,盡管低于最大熵模型,但其保持了HMM簡單快捷的優勢,又較HMM的標注正確率有較大幅度提高,具有一定的實用價值。

6 討論與展望

SSD模型訓練復雜度較判別模型要低,解碼速度較快,因此能夠更靈活方便地根據實際需求,迅速訓練并提供所需語言模型,同時,SSD模型還克服了HMM模型的強獨立性假設的不足,能夠利用更多的觀察信息,保證較高的標注正確率。同時,SSD模型也并非絕對不能夠利用語境中的其他特征信息進行狀態判斷,而是有可能將其他有用信息也集成到模型之中,因此,我們下一步的工作重點將研究如何將豐富的語境信息合理地集成到SSD模型之中,使其性能得到進一步提高。

[1] Daniel Jurafsky, James H. Martin. Speech and Languge Processing:An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition[M]. USA:Prentice Hall,2000.

[2] Doug Cutting, Julian Kupiec, Jan Pedersen, Penelope Sibun. A Practical Part-of-Speech Tagger [C]//Proceedings of the Third Conference on Applied Natural Language Processing, 1992:133-140.

[3] Adwait Ratnaparkhi. A maximum entropy model for Part-of-speech Tagging[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1996:133-141.

[4] 俞士汶,段慧明,朱學鋒,等. 北京大學現代漢語語料庫基本加工規范[J]. 中文信息學報,2002,16(6): 58-65.

[5] 梁以敏,黃德根. 基于完全二階隱馬爾可夫模型的漢語詞性標注[J]. 計算機工程, 2005, 31(10):177-179.

[6] 屈剛,陸汝占 一個改進的漢語詞性標注系統[J]. 上海交通大學學報,2003,37(6):897-900.

[7] 洪銘材,張闊,唐杰,等. 基于條件隨機場(CRFs)的中文詞性標注方法[J]. 計算機科學, 2006, 33(10):148-155.

[8] 姜維,關毅,王曉龍. 基于條件隨機域的詞性標注模型[J]. 計算機工程與應用,2006, 21:13-16.

[9] Kristina Toutanova, Dan Klein, Christopher Manning, and Yoram Singer. Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network[C]//Proceedings of HLT-NAACL, 2003: 252-259.

猜你喜歡
詞表解碼語料
《解碼萬噸站》
編制受控詞表的著作權侵權風險及其應對策略
基于歸一化點向互信息的低資源平行語料過濾方法*
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
學術英語詞表研究管窺
——三份醫學英語詞表比較分析
解碼eUCP2.0
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合