?

基于規則和統計的日語分詞和詞性標注的研究

2010-06-05 09:02姜尚仆陳群秀
中文信息學報 2010年1期
關鍵詞:助詞分詞日語

姜尚仆,陳群秀

(1. 清華大學 信息科學與技術國家實驗室,北京 100084; 2. 清華大學 計算機科學與技術系,北京 100084)

1 引言

規則和統計相結合的研究方法是當前計算語言學界主流的研究方法,是今后發展的方向。本文對基于規則和統計的日語分詞和詞性標注進行了研究,提出了一個準確率較高的基于規則和統計的日語分詞和詞性標注算法。

日語分詞和詞性標注是以日語為源語言的機器翻譯系統的第一個模塊,是其重要組成部分。日語分詞和詞性標注還被廣泛應用于日語的各種自然語言處理的任務中。因此,日語分詞和詞性標注算法的研究有著重要的意義。和中文類似,日語的詞語之間沒有明顯的分隔符,日語詞法分析也包括了分詞和詞性標注兩個部分。

對于序列標注,近年來提出了很多算法,包括HMM[1]、ME[2-3]、CRFs[4]和感知器[5]等。中文分詞和詞性標注通常被看成一類序列標注問題,而采用字標注的方法,例如對每個字標注B/I[6]或者B/M/E/S[7]來實現詞語切分。然而,在日語分詞中,這種方法并不能取得很好的效果[8],這一是由于日語詞語相對較長,而字標注的窗口較小,不能獲取足夠的上下文特征,二是由于日語中大量存在的假名作為一種拼音文字,沒有實際的語義。而通常來說,基于詞典的日語分詞算法,即使是最大匹配,也能獲得80%以上的正確率。詞典能提供詞性、鄰接關系、詞形變換規則等很多先驗知識,這些都是字符特征無法獲得的。對于未登錄詞(OOV),也可以通過抽取詞語中的字符特征來進行識別[9]。因此,一些基于詞特征的分詞算法成為了日語分詞的主流算法。文獻[10]使用基于詞的2階HMM,并對某些容易產生歧義的詞語添加了3階特征,以達到效率和效果的平衡。文獻[11]使用了字和詞的混合HMM,分別處理未登錄詞和登錄詞的情況。文獻[8]則使用了基于CRFs的方法,和常用的CRFs不同的是,它使用了基于詞的特征。

另一方面,傳統的分詞和詞性標注方法將兩個步驟串行執行,帶來了誤差累積的問題。近年來,很多研究都在嘗試將兩者合二為一[13-15]。實驗證明,聯合的方法無論是分詞正確性還是詞性標注正確性都有了一定提高。

本文提出了一種基于規則和統計的日語分詞和詞性標注方法。類似于文獻[12,14]中文分詞和詞性標注的方法,本文使用基于感知器的統計模型,并采用了聯合分詞和詞性標注。不同的是,在此基礎上增加了鄰接屬性這種基于規則的特征。我們使用的特征模板和文獻[8]中類似,但由于感知器和CRFs相比模板選擇更為靈活,因此除了鄰接屬性的特征外,還添加了詞性的Trigram特征。實驗結果表明:該方法和開源詞法分析系統MeCab在分詞和詞性標注的準確性上相當。

2 基于規則的日語分詞和詞性標注研究

基于規則的分詞算法是早期日語分詞的常用算法。這種方法的優點是事先總結歸納好的規則可以覆蓋絕大部分的語言事實,準確性高并且計算比較簡單,速度快。本節首先介紹日語的詞語特征,在此基礎上介紹了基于規則的使用鄰接表的分詞算法。

2.1 日語詞語特征

和中文類似,日語的詞語間沒有分隔符,然而,日語又具有一些有別于中文的特點,了解這些特點,對于進行較好的日語詞法分析有著重要的意義。日語主要具有如下一些詞法特征:

1) 日語依靠助詞或者助動詞的黏著來表示每個詞語在句中的成分,因此助詞和助動詞的正確識別對詞法分析的正確性非常重要。

日語中助詞(Particle)和助動詞(Auxiliary Verb)可以統稱為附屬詞,從語法功能上和中文的助詞比較接近。日語中有三種字符類型:平假名(Hiragana)、片假名(Katakana)和漢字。漢字常用于實詞,而且數量眾多,比較不容易產生切分和詞性標注的歧義。片假名一般用于外來詞匯,出現較少且分界明顯。而平假名一共只有50多個字符,卻廣泛存在于各種詞性中,尤其是在附屬詞中數量繁多且詞語長度較短,詞語邊界的劃分更加困難。因此,在日語的詞法分析中,附屬詞通常會詞匯化(Lexicalized),即詞語本身作為和詞性類似特征來使用[8,10]。

2) 日語的動詞、形容詞、形容動詞和助動詞有活用形。

對于屬于這些詞性的詞,其原始形態被稱為基本形。而根據這些詞在句子中的不同成分和作用,又有連體形、連用形、未然形、終止形、假定形、命令形、推量形等不同的活用形。

詞語的活用會影響到鄰接關系。例如,連體形后面通常會連接體言。這種活用形的匹配關系可以用來確定一些分詞或者詞性標注的結果,因此,將這種匹配關系引入分詞算法是可能會有幫助的。其中一種引入的方法就是鄰接屬性和鄰接表。

2.2 鄰接屬性和鄰接表

詞性標注算法通常使用N-gram模型來表示連續n個詞語詞性之間的相關性。然而,僅僅使用詞性的N-gram模型表示能力有限,往往不能描述復雜的語法性質。ME和CRFs成功的解決了這個問題,通過引入各種復雜的、可重疊的特征模板,實現了性能的提高。例如,在中文詞性標注中,字符的特征被廣泛應用[6-7]。

同樣,在日語詞法分析中,僅僅依靠詞性的N-gram模型是不夠的。對于兩個相鄰的詞語,一些細化的詞類別,例如動詞、形容詞、形容動詞和助動詞的活用形類型,人名、地名等命名實體等都可以作為鄰接關系的特征來使用。

基于鄰接表的分詞算法就是這樣一種對相鄰詞語可能的搭配進行分析的算法。鄰接表是事先根據語言學規律歸納總結出來的一套用來表示日語相鄰詞語之間可能的鄰接組合的規則。我們對每個詞語都指定了一個左鄰接屬性和一個右鄰接屬性。任意兩個相鄰的詞語,后一個的左鄰接屬性和前一個的右鄰接屬性的組合決定了這兩個詞語之間的匹配程度。我們用人工總結歸納出102種左鄰接屬性和99種右鄰接屬性,并定義任意的一對組合能否匹配,這種匹配關系就是鄰接表。例如,在詞典中有這樣的詞條:

五 8 6分 11 66

它表示“五”(五)的右鄰接屬性和左鄰接屬性分別為8(代表“JRN8 數詞”)和6(代表“JLN6 數詞”),“分”(分鐘)的右鄰接屬性和左鄰接屬性分別為11(代表“JRNB 単位”)和66(代表“JSF9 後助數詞”)。如果“五”的右鄰接屬性8和“分”的左鄰接屬性66的組合在鄰接表中存在,則“五分”就成為一個可能的詞語搭配。

除了人工指定相鄰兩個鄰接屬性對能否匹配的方法,這種匹配規則也可以使用概率模型來表示,并利用分詞語料庫進行參數估計。由于鄰接屬性通過人工分析了各種可能會影響相鄰詞語搭配的特征,因此能實現較好的分詞和詞性標注結果,同時又不會造成過擬合。

2.3 詞典構成

我們使用的詞典由名詞詞典、形容詞詞典等18部分類詞典組成的大規模的詞典,共有詞條72.7萬。每個詞條除了詞語本身以外,還記錄了詞語的詞性、左鄰接屬性和右鄰接屬性。對于動詞、形容詞、形容動詞和助動詞這些有活用形的詞語,我們根據一個動詞基本形詞典,通過活用形變化規則,生成其所有活用形的詞條。例如下面的動詞詞條:

あたら 56 9 あたる

表示“あたら”所對應的基本型為“あたる”,其右鄰接屬性和左鄰接屬性分別為56(表示“JEM5 未然a-nal”)和9(表示“JLV1 動詞”)。

3 在基于統計的框架下加入基于規則的特征

由于基于規則的方法靈活性較差并且對語言事實的覆蓋面不夠全面等固有缺陷,結合基于統計的方法往往能為性能帶來較大提升。本文使用了基于統計的感知器算法[5]作為整個算法的框架,在其中融合基于規則的特征。感知器算法是CRFs的一種替代算法,并且具有和CRFs類似的性能。這種方法被廣泛應用于詞性標注[5]和中文分詞[12,14-15]中。

3.1 特征模板

本文選取的特征模板如表1所示。在基本模板中,對未登錄詞使用了基于字符的特征,對助詞、助動詞和標點等詞語進行了詞匯化(見2.1節),并使用了詞性的Trigram特征。此外,還加入了鄰接屬性(見2.2節)的特征,由于鄰接屬性和詞性基本上是多對一的關系,因此沒有使用鄰接屬性和詞性結合的特征。

表1 本文算法使用的特征模板①

3.2 參數訓練

輸入:訓練集(X,Y)

算法:

Fort=1…T,i=1…N

3.3 解碼算法

由于感知器算法的訓練參數過程只依賴于解碼,它處理特征模板的能力強大而靈活。對于復雜的特征模板,通??梢允褂眉阉?Beam Search)算法[12]進行解碼。文獻[14]提出了多重集束搜索(Multi-beam Search)算法對使用單一感知器進行聯合分詞和詞性標注的解碼方法進行改進,解決使用集束搜索由于搜索空間過大導致的準確性下降的問題。集束搜索和多重集束搜索用啟發式的方法對搜索空間進行壓縮,通常能得到較優解,而且速度較快。

由于本文使用的特征狀態空間比較簡單,使用Viterbi算法不但可以求得最優解,而且速度也不慢。因此,本文使用Viterbi算法來進行解碼,狀態轉移方程為:

其中,score(p′,p,r,lex)是當前狀態的得分,w是當前詞語,p″,p′,p是最后三個詞語的詞性。當w需要詞匯化時,lex=w;否則lex=NULL。Uni,bi和tri分別表示當前位置Unigram, Bigram和Trigram特征的得分。

4 實驗和結果分析

4.1 訓練數據

實驗使用的訓練語料是北京外國語大學的日漢雙語語料庫,里面的文章來自日語小說原著和翻譯。我們從中選取了7MB的日語原文,對它進行了預處理,劃分出段落46 730段,句子114 228句,然后分別使用一個基于字詞混合HMM的分詞系統(使用了文獻[11]中的方法)和開源日語分詞系統MeCab對這些句子進行詞法分析,其中有10 475句切分結果完全一致。在切分不同的句子中,取出部分針對句子不一致的部分進行修正,共整理出11 000句句子作為訓練語料。由于資源有限,暫時沒有對這部分訓練語料進行人工校對。

4.2 測試集

日語分詞目前還沒有公開的評測,因此我們自己構建了一個小規模的測試集。測試語料來源于網頁,共有9 154句日語句子。使用的對比系統是基于字詞混合HMM的分詞系統和開源日語分詞系統MeCab。其中第一個系統使用了文獻[11]中的框架,利用詞典來識別登錄詞,利用字特征來識別未登錄詞,并加入了基于統計的鄰接屬性規則(見2.2節)。MeCab使用的是文獻[8]中基于詞的CRFs的算法。由于MeCab使用的詞性分類標準和我們標注的標準差異較大,因此MeCab在這個數據集上詞性標注的準確率無法得到。為了比較,實驗結果中添加了文獻[8]中列出的MeCab在Kyoto Corpus上的實驗結果作為參考。對于本文提出的方法,分別測試了使用基本特征模板(見表1)和基本模板加鄰接屬性兩種情況,實驗結果如表2所示。

表2 實驗結果

4.3 結果分析

實驗結果表明,在只使用基本模板的情況下,本文的方法比其他方法略差。而加上鄰接屬性模板后系統的性能超過了基于字詞混合HMM的方法,和MeCab的性能基本相當。一方面,由于感知器算法采用了判別訓練,在訓練集較小的情況下比HMM的生成模型具有更好的效果;另一方面,相對于基本模板,由于加入了鄰接屬性的特征,相鄰詞語的搭配將更加符合語法規則。下面給出一個正確分詞和詞性標注的例子:

①本文使用的詞性:名詞N,量詞U,助詞X,動詞V,形容詞AJ,形容動詞AV,助動詞XV,接助詞XC,連體詞L,連續詞C,副詞D,代詞P,數詞M,感嘆詞I,標點T,格助詞XN,副助詞XD,系助詞S,終助詞XE,接頭詞H。

分詞和詞性標注錯誤的情況大多數是由于未登錄詞導致的,可見系統在處理未登錄詞方面的能力還較弱。這一方面是由于實驗中使用的詞典還不完善,其中存在一些錯誤和遺漏;另一方面也是由于使用的未登錄詞的特征模板相對簡單。此外,分詞正確但詞性標注錯誤的情況也較多。實驗中使用的訓練語料是抽取了兩個已有系統分詞相同的部分,由于兩個系統的詞性標注標準不一致,詞性標注選取了前一個系統的結果,且沒有經過人工校對,這些問題可能會對參數估計產生不良影響。日語中存在一些形容連用和副詞等常見的多詞性的情況也常常產生錯誤。下面是一個錯誤的例子:

原文: この庭はよく叡山を借景としたものです。(譯文: 這個是借睿山為遠景而造的庭院。)結果: この L 庭 N は XS よく AJ 叡山 N を XN 借景 N と XN し V た XV もの N です XV 。 T 人工: この L 庭 N は XS よく D 叡山 N を XN 借景 N と XN し V た XV もの N です XV 。 T

よく在這里有兩種詞性,并且語法上都是合理的,結果選擇了錯誤的那個詞性。要避免這種錯誤一方面需要提高訓練語料的規模和質量,一方面可能需要引入其他的特征或使用其他的模型。

5 結論和展望

本文提出了一種基于規則和統計的日語分詞和詞性標注方法,并且使用基于單一感知器的聯合分詞和詞性標注算法進行訓練和解碼。由于鄰接屬性特征的引入,算法的正確性得到了較大提高,超過了基于字詞混合HMM的系統,和開源日語詞法分析系統MeCab的性能基本相當。鄰接屬性作為一種人工確定的標準,具有很高的區分能力,我們僅僅使用了一些簡單的特征模板,就得到了較好的結果,而且訓練和解碼過程也很簡單。分詞和詞性標注聯合的算法和串行算法相比,也能有效減少誤差傳遞。

當然,更多的特征可能會對結果有進一步的提高,例如更高階的N-gram特征,或者更多的字符特征。我們只在未登錄詞中使用了字符特征,實際上,字符特征可能對已登錄詞的識別也有幫助。此外多重集束搜索算法的提出也保證了加入更多特征后的解碼過程仍然可解。

[1] Lawrence. R. Rabiner. A tutorial on hidden markov models and selected applications in speech recogonition[C]//Proceedings of IEEE, 1989.

[2] Patnaparkhi and Adwait. A maximum entropy part-of-speech tagger[C]//Proceedings of the EMNLP, 1996.

[3] A. McCallum, D. Freitag, and F. Pereira. Maximum entropy markov models for information extraction and segmentation[C]//Proceedings of ICML, 2000.

[4] J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of ICML, 2001.

[5] Michael Collins. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms[C]//Proceedings of EMNLP, 2002.

[6] F. Peng, F. Feng, and A. McCallum. Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of COLING, 2004.

[7] N. Xue and L. Shen. Chinese word segmentation as LMR tagging[C]//Proceedings of ACL SIGHAN Workshop, 2003.

[8] T. Kudo, K. Yamamoto, and Y. Matsumoto. Applying conditional random fields to Japanese morphological analysis[C]//Proceedings of EMNLP, 2004.

[9] K. Uchimoto, C. Nobata, A. Yamada, S. Sekine, H. Isahara. Morphological analysis of the spontaneous speech corpus[C]//Proceedings of COLING, 2002.

[10] M. Asahara. Corpus-based Japanese morphological analysis[D]. Japan: NAIST, 2003.

[11] T. Nakagawa. Chinese and Japanese word segmentation using word-level and character-level information[C]//Proceedings of COLING, 2004.

[12] Y. Zhang and S. Clark. Chinese segmentation with a word-based perceptron algorithm[C]//Proceedings of ACL, 2007.

[13] H. Ng and J. Low. Chinese part-of-speech tagging: one-at-a-time or all-at-once? Word-based or character-based?[C] //Proceedings of EMNLP, 2004.

[14] Y. Zhang and S. Clark. Joint word segmentation and POS tagging using a single perceptron[C]//Proceedings of ACL, 2008.

[15] W. Jiang, L. Huang, Q. Liu, Y. Lu. A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of ACL, 2008.

猜你喜歡
助詞分詞日語
從推量助動詞看日語表達的曖昧性
韓國語助詞的連續構成與復合助詞的區分
分詞在英語教學中的妙用
明朝日語學習研究
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
高校朝鮮語專業學生助詞使用偏誤調查分析
日語中“間投助詞”與“終助詞”在句中適用位置的對比考察
淺析藏漢雙語結構助詞“的”的共性與個性
日常日語
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合