?

基于雙語平行語料的中文縮略語提取方法

2012-06-29 01:37劉友強陳家駿
中文信息學報 2012年2期
關鍵詞:縮略全稱縮略語

劉友強,李 斌,2,奚 寧,陳家駿

(1. 南京大學 計算機軟件新技術國家重點實驗室,江蘇 南京 210093;2. 南京師范大學 語言信息科技研究中心,江蘇 南京 210097)

1 引言

縮略語是短語或詞的全稱的縮寫形式,如“中國”簡稱“中”。由于其省時省力的效果,在自然語言中被廣泛使用,是未登錄詞的主要來源之一。據研究,在一篇典型的中文新聞文章中,近20%的句子包含縮略語[1]。而未登錄詞對于中文的自動分詞與詞性標注等詞法句法分析任務有很大地影響,這使得中文縮略語有較大地研究價值。

一般來說,現代中文縮略語的構成方式主要有四種。(1)語素方式: 縮略語由原詞語各部分的語素構成。例如,奧林匹克 運動——奧運;(2)中心詞方式: 縮略語由原詞語核心的詞構成。例如,人造 地球 衛星——人造衛星;(3)混合方式: 縮略語由語素和中心詞構成方式混合使用而得。例如,中央 電視臺——中央臺;(4)合并方式: 縮略語由原詞語中的并列詞歸納而得。例如,包退、包換、包修——三包。

從整體上看,縮略語研究可以分為縮略語的探測識別、簡稱—全稱的對應(還原生成)兩大類工作。在縮略語的探測識別方面,Zhu,et al.針對單字人名、地名簡稱,采取了基于分類器的預測模型[2];李斌等對漢語單字國名采取了統計評分法進行識別[3]??s略語的自動識別研究工作主要集中于縮略語的“簡稱—全稱”的還原、生成工作以及縮略語詞典的自動構建。在還原、生成方面,Chang 和 Lai將縮略語的生成和還原問題轉化為隱馬爾可夫模型(HMM)問題,使用縮略語詞典進行訓練[1]。支流等設計了一個基于模糊匹配的縮略語還原算法,從縮略語上下文和縮略語詞典中獲得備選的全稱[4]。在縮略語詞典自動構建方面,崔世起等針對未登錄詞,在生語料中使用重復串搜索技術和詞性過濾獲得候選縮略語集和全稱短語庫,再利用語言模型和對齊模型進行候選縮略語和全稱短語的對齊,最后得到148對縮略—全稱語對,準確率為51.4%[5]。武子英等從詞性標注語料中獲得候選縮略語集和全稱短語庫后,利用上下文的相似度對縮略語和全稱短語配對,從而獲得縮略語詞典,準確率達到74.1%[6]。這兩種方法都是在漢語單語文本上的工作,有兩點不足。(1)縮略語的采集效率比較低。多重視“簡稱—全稱”的對應,而作為對應前提的簡稱的自動識別則研究較少;(2)僅使用單語的縮略規則模板,導致準確率不是很高。

中文縮略語的大量存在對漢-外統計機器翻譯也造成一定的影響。Li et al.提出了一種獲得中文縮略語英文翻譯的方法[7]。該方法首先識別英文語料中的實體,并翻譯為中文短語,以此作為全稱短語。然后,根據中文單語語料中短語的共現信息提取出縮略語,以英文實體為其翻譯。該方法的目的是獲得候選縮略語的英文翻譯,因而對于縮略—全稱語對的準確度要求不高。但這啟示我們兩種語言的翻譯關系可以作為聯系全稱和縮略語的橋梁。

本文遵循從雙語對譯關系中挖掘全稱—簡稱關系的思路,嘗試找到一種準確率比較高的自動獲取方法,以中文縮略語為研究對象,取得了不錯的實驗結果。我們首先從句對齊平行語料庫中抽取出中英文短語對。然后根據短語對的一些特征訓練出一個SVM分類器,將短語對根據對應的質量分為“對應”與“不對應”兩類。從對應質量好的那一類短語對集合中,利用一些約束條件和英文翻譯抽取中文縮略—全稱語對。實驗表明,該方法抽取出的縮略—全稱語對有較高地準確度。

2 中文縮略語提取

從句對齊平行語料中提取中文縮略語的過程可分為三個部分: 短語對抽取,短語對分類和縮略—全稱語對的抽取。

2.1 短語對的抽取

這里短語對抽取采用基于短語的機器翻譯[8]的短語對抽取方法,流程如圖1所示。

圖1 短語對抽取流程圖

抽取短語對的步驟:

(1) 對平行語料中的中文分詞,英文全部換成小寫字母并將符號與詞分隔開(Tokenization);

(2) 利用開源的詞對齊訓練工具GIZAC++*http://www-i6.informatik.rwth-aachen.de/Colleagues/och/software/GIZA++.html對平行語料進行詞對齊訓練。詞對齊訓練的目標是獲得語句對中詞的對應關系。如圖2所示,連線的詞之間存在對應關系。注意,由于這里的詞對齊關系是通過統計方法自動獲取的,因而未必完全正確;

(3) 使用開源的機器翻譯系統Moses*http://www.statmt.org/moses,抽取與詞對齊信息一致的中英文短語對。比如從圖2中的中文句子抽取的短語可以是“中共”、“中共 代表團”。不過,這里的短語不一定是語言學嚴格意義上的短語。這里的短語是指由語句中連續的一個或多個詞構成的語句的子串;

(4) 合并相同的短語對,輸出到文件。

圖2 詞對齊示例

抽取短語對的過程中,為了提高效率,我們排除了那些不太可能作為一個縮略語或縮略語英文翻譯的短語。排除條件有: (1)中文或英文短語中含有標點符號;(2)中文短語的邊界詞為“了”、“是”、“個”等三個一些不太可能作為縮略語或其全稱邊界的詞;(3)英文短語邊界詞為介詞,或詞尾為“the”的不太可能作為縮略語或全稱的英文翻譯邊界的虛詞。

2.2 基于SVM分類器的短語對分類方法

由于語料庫中的噪聲以及訓練出來的詞對齊不可能完全正確,使得相當多的一部分中英文短語對事實上并不對應。這些并不對應的短語對會影響到后面縮略語提取的準確度和效率。因此,我們采用四個特征來衡量中英文短語對的對應質量。并據此訓練出一個基于SVM (支持向量機)的分類器[10],將短語對根據對應質量分為“對應”與“不對應”兩類。

對于中—英短語對C-E,其中C=c1c2…cn,E=e1e2…em,采用的四個特征為:

(1)C翻譯為E的短語翻譯概率,采取極大似然估計。

(2) 詞匯化翻譯概率,C中的詞翻譯為E中的詞的概率平均值;

其中A為訓練得到的C-E中詞的對應關系,由于訓練過程中對于相同的C,E可能有不同的對應關系,我們這里采用值最大的φ(E,A|C)作為φ(E|C)的值。其中,w(ei|ci)為根據語料詞對齊信息得到的詞翻譯概率,采用極大似然估計;

(3)φ(C|E),即E翻譯為C的短語翻譯概率。

(4)φ(C|E),即E中詞翻譯到C中詞的概率平均值。

這些特征可以較好地表征短語對齊效果,計算量不高,分類效果也不錯(實驗結果見3.1節)。

2.3 縮略語抽取算法

經上一節分類后得到比較可靠的中—英短語對,接下來的任務就是從這些短語對中提取出候選縮略—全稱語對。算法分為兩部分: 第一部分(2.3.1)抽取出一個縮略—全稱語對的候選集;第二部分(2.3.2)對這個候選集進行過濾,獲得一個準確度較高的縮略語詞典。

2.3.1 匹配約束

我們將中文短語按字長度進行分組,長度不超過5的短語被認為是候選的縮略語。一對中文短語對C1-C2(C1為縮略語,C2為全稱語)被選為一對候選縮略—全稱短語對,當且僅當: (1)C1中的字都在C2中出現;(2)C1和C2存在相同的英文翻譯。

2.3.2 噪音過濾

為提高縮略—全稱短語對的準確性,要對其中的噪音進行過濾。我們對抽取出的候選縮略語對進行了詞性標注,使用的工具為ICTCLAS*http://www.ictclas.org/。我們將候選縮略語的詞性限于名詞(n)、動詞(v)、形容詞(a)、區位詞(b)及數詞(m)。經過觀察,我們發現抽取出的候選縮略-全稱語對的一些特性。主要分為以下幾類。

(1) 候選縮略語為單字的情況。此時的抽取出的候選縮略-全稱語對可以分為以下幾類:

1. 人名、地名等專有名詞的縮略。這是單字縮略最常見的情況。例如,“阿/b-阿根廷/nsf”,“董/nr1-董建華/nr”。這一類縮略—全稱語對準確性比較高;

2. 候選縮略語與候選全稱有相同的意義,但不是縮略語對。例如,“園/ng-公園/n”;

3. 噪音。這類語對并不是縮略—全稱的關系,是由于詞對齊信息不完全正確導致的錯誤。例如,“他/rr-表示/v 他/rr”。這類候選縮略語和全稱語的詞的個數和詞性往往不相同。

因此對于候選縮略語為單字的語對,我們根據詞性標注的結果選取第一類,也即選取縮略或者全稱詞性標注為人名(nr)、地名(ns)、機構團體名(nt)及其他專名(nz)的候選語對。

(2) 候選縮略語字長為2,3,4,5的情況。此時,采用語素構成的候選縮略語正確率很高,而采用中心詞構成的候選縮略語正確率較低,是大部分噪音的來源。針對這個特點,我們選取的候選縮略語對分為以下幾類:

1. 候選縮略語和全稱語為單個詞且被均標注為人名(nr)、地名(ns)、機構團體名(nt)及其他專名(nz)。例如,“國家計委/nt-國家發展計劃委員會/nt”。這里對于專名的處理要求比(1)中嚴格是因為專有名詞的字長較長時更有可能與一些長的短語產生對應關系,盡管這些短語不是它的全稱。例如,“非洲/nsf-非洲/nsf 國家/n”。同樣地,長的專有名詞在上下文中也經常被簡稱為短的非專有名詞,然而,這種縮略形式并沒有被固定下來。例如,“軍委/n-中央軍事委員會/nt”;

2. 語素構成方式。這類候選縮略—全稱語對的準確率較高。根據候選全稱語的詞長,我們再將之分為兩類。候選全稱語的詞長大于1時,我們直接將之選取到縮略語詞典中。例如,“?;鶗?n-海峽/n 交流/vn 基金會/n”。候選全稱語詞長為1時,此時我們的選取條件是: 候選縮略語不是候選全稱語的子字符串。例如,“中科院/n-中國科學院/nt”。這樣做主要是為了排除主要的詞重疊的候選縮略—全稱語對,這類短語對意義相近,但不是縮略—全稱關系。例如,“人大/n 常委會/n-全國人大常委會/nt”。

3. 混合構成方式。以混合方式構成的候選縮略語中,有很大一部分是由字長較短的縮略語和其他詞組合成的短語。例如,“中國/ns 社科院/n-中國/ns 社會/n 科學院/n”由“社科院/n-社會/n 科學院/n”與“中國/ns”組合產生。這一類的候選縮略語對于縮略語詞典沒有太多意義。因此我們只選擇候選縮略語為單個詞的候選縮略—全稱語對,例如,“藏族/nz-藏/b 民族/n”,從而過濾掉由字長較短的縮略語和其他詞組合成的候選縮略語。

綜上所述,我們結合候選縮略—全稱語對的長度、詞性和縮略方式,將符合如下5條規則的候選縮略—全稱語對選出,過濾掉其他的候選語對。

(1) 候選縮略語字長為1,候選縮略語或者候選全稱語為專有名詞。例如,“埃/b-埃及/nsf”;

(2) 候選縮略語為多字,候選縮略語和候選全稱語均為專有名詞。例如,“中央軍委/nt-中央軍事委員會/nt”;

(3) 候選縮略語為多字,采用語素方式縮略,候選全稱語為多個詞組合。例如,“港商/n-香港/ns 商人/n”;

(4) 候選縮略語為多字,采用語素方式縮略,候選全稱語為單個詞且候選縮略語不是全稱語的子字符串。例如,“民盟/n-中國民主同盟/nt”;

(5) 候選縮略語為多字,采用混合方式縮略,候選縮略語為單個詞。例如,“地空導彈/n-地對空/b 導彈/n”;

經過這五條規則篩選后,得到的縮略語詞典的準確率會得到很大地提高。當然,這些規則也不可避免地會排除掉一部分真正的縮略語,使得召回率略有下降。

3 實驗

3.1 實驗過程

(1) 語料預處理??紤]到縮略全稱語對在新聞領域的語料中出現的比較多,我們使用了新聞領域漢英平行語料LDC2003E14*http://projects.ldc.upenn.edu/TIDES/mt2003.html,從中隨機選取了20萬句對。采用Stanford Chinese Segmenter*http://nlp.sttanford.edu/software/segmenter.shtml對中文語料進行自動分詞,將英文語料全部換成小寫字母并將符號與詞分隔開。

(2) 詞對齊訓練。將預處理后的語料用開源軟件GIZAC++訓練得到詞對齊結果。

(3) 抽取短語對。按照2.1節中的方法抽取短語對,最終得到114 446個短語對。根據抽取出的短語對的對應次數和(2)中得到的詞對應次數,可以計算出2.2節中提出的衡量中英文短語對齊質量的四個特征。

(4) SVM短語對分類。從中英文短語對集合中選取186條短語對,根據中英文短語是否對應,手工標注為“對應”和“不對應”兩類。為獲得高召回率,我們放松了對應標準。以標注后的數據為訓練集,得到一個SVM分類器。從短語對集合中隨機挑選出100條短語對(對應和不對應數據各一半)用于測試,結果如表1所示。正確率為81%,召回率為86.36%,F值為83.59%。用SVM分類器對短語對分類后得到結果為正的短語對91 884句,占總短語對數的80.28%。

表1 中英文短語對對應質量分類器的測試結果

(5) 匹配約束。選出(4)中分類后標注為“對應”的中英文短語對。其中的中文短語經過匹配約束(2.3.1)后得到候選縮略—全稱語12 639對。根據候選縮略語的字長統計情況如表2所示。

表2 候選縮略—全稱語對統計

(6) 噪音過濾。對經(5)得到的候選縮略—全稱語對采用ICTCLAS進行詞性標注。對得到的帶有詞性信息的候選縮略—全稱語對進行噪音過濾(2.3.2)。最終得到縮略—全稱語710對。

3.2 實驗結果和分析

經過3.1中的實驗步驟,我們得到最終的縮略—全稱語詞典。表3顯示的是按縮略語字長和組合方式給出的統計結果。結果顯示提取的縮略語以二字長的居多,占到總數的64%。字長為四和五的縮略語比較少。這一方面是我們提取過程中的偏向,另一方面是字長為二的縮略語在自然語言中分布確實很多。在縮略語構成方面,我們的方法偏向于語素構成方式,占總數的71.83%?;旌戏绞秸?6.05%,而中心詞構成方式產生的縮略語主要來源于專有名詞,因而數量不多。另外,對于合并縮略方式構成的縮略—全稱語對我們的算法沒有考慮,原因是這類縮略語和全稱語的英文翻譯往往不相同。

表3 提取出的縮略語統計表

表4 縮略語的準確率評測

我們對得到的710條縮略語進行了評測。統計的結果如表4所示,整體準確率達到86.3%。我們可以看到該方法在不同詞長下的正確率比較穩定。其中錯誤的例子一部分是由分詞和詞性標注錯誤以及短語詞對齊不準確造成,例如,“韓國/nsf-韓三國/nr”及“美/b-韓美/nr”。另外一部分則屬于我們的方法較難處理的,例如,“我軍/n-我國/n 軍用/b”。當然這種情況可以用添加規則的方法解決。但是如果增加過多語言學過濾規則,在自動分詞和詞性標注不夠精確的情況下,又會使得召回率低下。

4 結論及未來工作

本文提出了一種從雙語平行語料中提取縮略語詞典的方法。與其他方法相比,我們利用了語言之間的翻譯關系,獲得較為可靠的候選集。需要的人工標注量很小,最終的縮略語詞典正確率比較高。實驗中,我們的噪音過濾方法使得一些好的縮略語被過濾掉。在今后的研究中我們將探尋更好的解決方法,例如,用更多的信息,如短語的上下文特征,來過濾候選集[6,11]。

本文的方法利用了雙語詞對齊信息作為縮略—全稱語獲取的依據,目前在中小規模數據上得到的縮略語數量還不是很大。但是該方法具有良好地可擴展性和應用價值: (1)在平行語料庫上英漢互增益獲取雙語縮略語詞典。具體步驟為,將本文的方法逆向使用,自動獲取英文的縮略—全稱語資源;利用英文的縮略—全稱語信息,將英文的“縮略—全稱語”當作同義詞,對中文縮略語候選詞對進行擴展,以增益中文縮略語獲取效果;利用中文的縮略—全稱語信息,增益英文縮略語獲取效果;得到英漢雙語對譯的雙語縮略語信息庫;(2)可擴展至其他任意雙語語料庫的縮略語獲??;(3)將雙語縮略語信息庫應用于機器翻譯的雙語詞對齊工作,提高一部分因縮略語造成對齊困難;(4)有助于滿足機器翻譯等語言服務系統對于單語和雙語縮略語的處理需求,解決形如“蘇-Jiangsu province”的雙語對譯問題。

[1] Jing-Shin Chang, Yu-Tso Lai. A preliminary study on probabilistic models for Chinese abbreviations[C]//Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing, 2004, 9-16.

[2] Xiaodan Zhu, Mu Li , Jianfeng Gao, et al. Single Character Chinese Named Entity Recognition[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, ACL, 2003.

[3] 李斌,方芳.中文單字國名簡稱的自動識別[J].計算機工程與應用2006, 42(28): 167-176.

[4] 支流,朱學鋒,段慧明,等.中文縮略語還原技術初探[C]//全國第八屆計算語言學聯合學術會議(JSCL-2005).

[5] 崔世起,劉群,林守勛等.中文縮略語自動抽取初探[C]//全國第八屆計算語言學聯合學術會議(JSCL-2005).

[6] 武子英,鄭家恒.現代漢語縮略語自動識別的方法研究[J].計算機工程與設計2007, 28(16):4052-4054.

[7] Zhifei Li, David Yarowsky. Unsupervised Translation Induction for Chinese Abbreviations using Monolingual Corpora[C]//Proceedings of ACL 2008: 425-433.

[8] Philipp Koehn, Franz Joseph Och, Daniel Marcu. Statistical Phrase-Based Translation[C]//Proceedings of HLT/NAACL. 2003.

[9] F.J.Och, C.Tillmann, H.Ney. Improved alignment models for statistical machine translation[C]//Proceedings of the Joint Conf. of Empirical Methods in Natural Language Processing and Very Large Corpora, 1999, 20-28.

[10] V.Vapnik, C.Cortes. Support vector networks[J]. Machine Learning,1995, 20: 273-293.

[11] Boxing Chen, George Foster, Roland Kuhn. Bilingual Sense Similarity for Statistical Machine Translation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics,2010: 834-843.

猜你喜歡
縮略全稱縮略語
2022年本刊可以直接使用的常用縮略語
2022年本刊可以直接使用的常用縮略語
2022年本刊可以直接使用的常用縮略語
本刊可直接使用的醫學縮略語(二)
常用縮略語匯總
大海失蹤者
2019年本刊可以直接使用的常用縮略語
Prostate resection speed:A key factor for training and broad outcomes?
“人艱不拆”、“累覺不愛”等網絡四字成語與文化
關于縮略語使用的要求
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合