?

不同維度下維吾爾語N?gram語言模型性能分析

2019-06-20 06:07毛麗旦尼加提古麗尼尕爾買合木提艾斯卡爾艾木都拉
現代電子技術 2019年10期
關鍵詞:維吾爾語語料語料庫

毛麗旦?尼加提 古麗尼尕爾?買合木提 艾斯卡爾?艾木都拉

摘 ?要: 針對當前維吾爾語語言模型存在的語料庫數據稀疏問題以及困惑度較高等問題,在SRILM和MITLM兩種工具生成的2?gram,3?gram,…,9?gram語言模型做了對比實驗,試圖找出在一定規模的維吾爾語語料條件下使困惑度最低的N?gram語言模型。通過對比分析最終得出結論,對于基于維吾爾語句子的N?gram模型,維度N取在介于3~5之間較宜,困惑度和計算復雜度等因素考慮N=3為較優。這一結論將有助于維吾爾語自然語言處理的發展。

關鍵詞: N?gram語言模型; 性能分析; SRILM; MITLM; 困惑度; 平滑算法; 機器翻譯

中圖分類號: TN912.34?34; TP391.1 ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)10?0027?04

Performance analysis of Uyghur N?gram language models in different dimensions

Mewlude Nijat1, Gulnigar Mahmut2, Askar Hamdulla2

(1. School of Software Engineering, Xinjiang University, Urumqi 830046, China;

2. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

Abstract: In allusion to the problems of sparse corpus data and high perplexity degree of the current Uyghur language models, a contrast experiment was carried out for the 2?gram, 3?gram, 4?gram,…, and 9?gram language models generated by the SRILM and MITLM tools, so as to find out the N?gram language model with the lowest perplexity degree under a certain scale of Uyghur corpus. It is concluded from the contrastive analysis that it is better to determine the value of the dimension N between 3 and 5 for the N?gram model based on Uyghur sentences, and N=3 is more appropriate considering the factors of confusion degree and computation complexity. The conclusion can contribute to the development of Uyghur natural language processing.

Keywords: N?gram language model; performance analysis; SRILM; MITLM; perplexity; smoothing algorithm; machine translation

語言模型(LM)在自然語言處理中占據重要的位置,用于自然語言處理,主要描述自然語言中的統計和結構方面的內在規律,是根據特定語言的客觀事實而進行的語言抽象數學模型。近年來,語言模型在基于統計模型的語音識別、機器翻譯、拼寫糾錯、詞性標注、印刷體或手寫體識別、句法分析和拼寫錯誤等相關的自然語言處理研究工作中廣泛應用。維吾爾語語言模型是維吾爾語自然語言處理技術的重要基石,因此對維吾爾語自然語言處理系統來說,構建一個可靠的語言模型具有重要意義。目前流行的語言模型是N元語法模型(N?gram Model)[1],此模型作為統計語言處理的主流技術已被廣泛應用于自然語言處理應用中。本文針對當前維吾爾語自然語言處理過程中存在的語料庫資源匱乏、數據稀疏等問題,試圖找出使困惑度較低的語言模型,分別用SRILM和MITLM兩個語言模型工具生成模型,從對困惑度的度量出發,對2?gram,3?gram,…,9?gram模型的結果進行綜合比較和分析,進而確定基于維吾爾語句子的N?gram模型中較佳的N值。

1 ?N?gram語言模型與度量標準

1.1 ?N?gram語言模型

N?gram語言模型元語言模型是生成模型的典型代表。為了估計一個句子的概率,將句子的生成過程假設為一個馬爾可夫過程。馬爾可夫假設某一詞的出現概率由該詞前面的一個單詞所決定,前一個詞對這一詞的轉移概率可以采用極大似然估計來獲得,基于這些轉移概率,利用鏈式法則就可以直接估計一個句子的概率[2]。

1.2 ?度量標準

根據模型計算的測試數據的概率是評價一個語言模型最常用的度量,用于評價N?gram模型的最常用的指標是交叉熵(Cross?entropy)和困惑度(Perplexity) [3]。

1.2.1 ?交叉熵

交叉熵是用于衡量估計模型和概率分布之間的差異的概念。如果一個隨機變量q(x)用于近似p(x)的概率分布,那么隨機變量x和模型q之間的交叉熵定義為:

[HX,q=HX+Dpq=-xp(x)log2 q(x) ? ? ? ? ? ? ? ?=Eplog21q(x)]

由此,可以定義語言[L=Xi~px]與其模型q的交叉熵為:

[H(L,q)=-limn→∞1nxn1p(xn1)log2 q(xn1)]

式中:[H(L,q)]表示L的語句;q(x)表示估計模型。因為無法從有限的數據中獲取真實模型的概率,所以需要做出一個假設:假定L是遍歷的隨機過程,即當n無窮大時,所有句子的概率和為1。

[H(L,q)=-limn→∞1n log2 qxn1≈-1nlog2 qxn1]

交叉熵與模型測試語料中分配給每個單詞的平均概率所表達的含義正好相反,模型的交叉熵越小,模型的表現越好[1]。

1.2.2 ?困惑度

通常用困惑度來代替交叉熵衡量語言模型的好壞。給定語言L的樣本,L的困惑度[ppq]定義為:

[ppq=2HL,q≈2-1nlog2qln1=qln1-1n]

式中,困惑度的概率函數正比于由語言模型產生測試數據的log似然的負值。在交叉熵上的一個遞減函數即是困惑度。語言模型在測試語料的似然度越大,困惑度越小,語言模型對這種語言的擬合也就越成功,模型對測試語料的擬合能力越強[1]。語言模型設計的任務就是尋找困惑度最小的模型。

在實際應用中使用最多的是三元語言模型,更高階的語言模型使用很少。N取小有兩個方面的原因:一是,模型大?。ɑ蛘呤强臻g復雜度)幾乎是以語料庫大小為底,N為指數的指數函數;二是,使用N元模型的速度(或者時間復雜度)也是一個指數函數。因此N不能很大,當N在1~3時,模型的效果上升明顯,N值從4開始效果提升不是很明顯,但資源的耗費卻增加得非??靃4]。

2 ?維吾爾語形態特性與平滑算法

維吾爾語是黏著性語言,共有32個字母,包括8個元音字母和24個輔音字母。每個字母按照出現在單詞中的詞首、詞中、詞尾的位置不同會有不同的寫法。32個字母一共有126種書寫形式。詞法形態變化豐富是維吾爾語的特點。維吾爾語的構詞、構形都是通過在詞干后面連接不同的詞尾來實現的且可以不斷的綴接 [5],理論上可以構成無限大的詞表,由此也就會產生數據稀疏問題。就維吾爾語這一類黏著性語言而言,存在很大的數據稀疏問題,導致最大似然估計(MLE)對該語言而言不再是一種很好的參數估計方法。對于N?gram語言模型,訓練數據稀疏會導致兩種錯誤的概率評估:小概率的事件和零概率事件。采取平滑技術是解決數據稀疏問題的主要方法。數據平滑技術(Smoothing)主要采用最大似然規則的概率估計進行調整,保證語言模型任何概率都不是零,并且使得模型參數概率分布的趨向更加均勻合理。該技術較低的概率被調高,較高的概率被調低。

數據平滑的基本思想是:訓練樣本中出現過的事件的概率適當減小,將減小得到的概率密度分配給訓練語料中沒有出現過的事件。這個過程稱為數據平滑(datasmooting),也稱為折扣(discounting)。本文采用的語言模型生成工具中用到的平滑算法有:Witten?Bell 平滑和修正的Kneser?Ney(ModKN)[3]。ModKN算法具有以下的特點:ModKN使用的方法是插值方法,而不是后備方法,對于出現次數較低的N元語法采用不同的減值,實現了基于留存(held?out)數據進行減值估計,而不是基于訓練數據的對比試驗。在該對比試驗中發現,修正的ModKN平滑算法比其他的平滑算法效果要好得多[6]。

3 ?實 ?驗

3.1 ?數據準備

自然語言處理的前提工作是構建一個高質量的語料庫,它是建立語言模型非常重要的一個步驟,語料庫質量的優劣直接影響到語言模型的性能。本文收集的維吾爾語料主要來自維吾爾語版本的《新疆日報》,《人與自然》,《世界》和《世界周刊》節目臺詞等官方提供的較高質量的維吾爾語語料。語料的預處理主要包括原始數據分段、段落分句、內容篩選、統一文件格式保存、特殊處理特殊符號、數字替換、編碼轉寫(阿拉伯文格式轉換為拉丁文格式)等。最終建立的語料為26萬個維吾爾語句子,將整個語料庫分成了兩個部分,分別為訓練集(Training Data)、驗證集(Validation Data)和測試集(Test Data)。其中訓練語料用于N?gram語言模型的訓練;2 500句作為驗證集,用于在MITLM模型中powell方法來進行參數優化;2 500句作為測試語料,對模型進行測試。訓練集規模255 048 sentences,5 306 368 words,測試集規模2 500 sentences,52 630 words,驗證集規模2 500 sentences,51 384 words。

3.2 ?實驗工具

1) SRILM

SRILM是著名的約翰霍普金斯夏季研討會的產物,由SRI實驗室負責開發維護。它是一個生成和使用統計語言模型的工具包,廣泛應用于語音識別、機器翻譯等自然語言處理領域。將經過分詞及預處理過的單語料文本作為它的輸入數據,輸出數據為輸入數據中的N?gram文法概率[7]。SRILM的主要目標是支持語言模型的估計和評測。訓練數據中得到一個模型稱之為模型估計,評測則是計算測試集的困惑度。支持的平滑算法包括Good?Turing平滑、Absolute平滑、Witten?Bell 平滑和Modified Knerser?Ney 平滑等常用的平滑算法。

2) MITLM

麻省理工學院語言建模工具包MITLM是用于有效估計涉及迭代參數估計的統計N?gram語言模型的工具。除標準語言建模估計外,還可以使用smoothing參數指定不同的平滑算法支持調整平滑、插值和N?gram加權參數。支持的平滑算法包括Good?Turing平滑,Absolute 平滑、Witten?Bell 平滑和Modified Knerser?Ney 平滑等常用的平滑算法。默認情況下,MITLM使用修改的Modified Knerser?Ney平滑(ModKN)。除了支持常規的ModKN平滑外,Powell優化算法還采用validation集合對生成的模型參數進行再次調整,數值優化,最終得出更優的結果。

3.3 ?實驗結果與分析

實驗一:用SRILM和MITLM兩個工具,分別生成2?gram,3?gram,4?gram,…,9?gram語言模型,并對困惑都進行對比。實驗二:將本實驗得到的語言模型在文獻[8]中的漢維統計機器翻譯系統中進行測試。測試實驗中在原來目標語言語料中作為額外語料加入本文中的26萬句維吾爾語語料,用SRILM工具ModKN平滑算法分別生成3?gram,4?gram和5?gram語言模型,進行翻譯BLEU值對比。結果如表1、表2所示。

實驗一結果分析:在SRILM中,默認的Witten?Bell 平滑算法得出的語言模型困惑度比ModKN平滑算法得出的模型的困惑度要高;同樣采用ModKN平滑算法的情況下,MITLM優化前的困惑度比SRILM的困惑度要低;MITLM用Powell優化之后困惑度又明顯下降。無論用SRILM還是MITLM得到的語言模型,從1~3元模型困惑度有大幅度降低,但從3~5元模型困惑度雖然有逐步降低,但降低幅度較小;從5~9元模型困惑度基本平穩。

表1 ?N?gram模型困惑度對比

表2 ?5?gram模型在統計機器翻譯中BLEU值對比

實驗二結果分析:在3~5元語言模型中,采用5元語言模型的統計機器翻譯BLEU值較高,但相差不大,這也跟語言模型困惑度從3元模型開始困惑度變化幅度小有關。

4 ?結 ?語

本文從對困惑度的度量出發,綜合比較和分析了基于維吾爾語句子的N?gram模型中N值的選擇。實驗結果表明,隨著N值的增加,語言模型性能的增加不是正比的關系,而是隨著N的增大逐漸出現平穩趨勢。將對2?gram,3?gram,4?gram,…,9?gram模型的結果進行對比,并得出結論:對于基于維吾爾語句子的N?gram模型,從模型困惑度和計算時間復雜度等多方面考慮,N的取值范圍應介于3~5之間,N=3為較優。所以最后得出結論:在N?gram維吾爾語語言模型及其幾種平滑算法的試驗中,雖然Powell方法優化之后的ModKN平滑算法得到的5?gram以及較高階的語言模型的效果在維吾爾語N?gram模型中表現比較良好,但考慮到資源消耗和效果增加不明顯的原因,選擇使用3?gram語言模型。

參考文獻

[1] 宗成慶.統計自然語言處理[M].北京:清華大學出版社,2013.

ZONG Chengqing. Statistical natural language processing [M]. Beijing: Tsinghua University Press, 2013.

[2] 李春生.一種體現長距離依賴關系的語言模型[J].科技視界,2014(5):55?56.

LI Chunsheng. A language model reflecting long?distance dependence relation [J]. Science & technology vision, 2014(5): 55?56.

[3] 文娟.統計語言模型的研究與應用[D].北京:北京郵電大學,2010.

WEN Juan. Research and application of statistical language model [D]. Beijing: Beijing University of Posts and Telecommunications, 2010.

[4] 吳軍.數學之美[M].北京:人民郵電出版社,2012.

WU Jun. Beauty of mathematics [M]. Beijing: Posts & Telecom Press, 2012.

[5] 王賀福.統計語言模型應用與研究[D].上海:復旦大學,2012.

WANG Hefu. Application and research of statistical language model [D]. Shanghai: Fudan University, 2012.

[6] 張亞軍.維吾爾語的N?gram語言模型及其平滑算法研究[D].烏魯木齊:新疆大學,2010.

ZHANG Yajun. Research of Uyghur N?gram model and smoothing algorithm [D]. Urumqi: Xinjiang University, 2010.

[7] 唐亮.維吾爾語統計語言模型中建?;难芯縖D].成都:電子科技大學,2013.

TANG Liang. Research on modeling primitives in Uyghur language statistical language model [D]. Chengdu: University of Electronic Science and Technology of China, 2013.

[8] MAHMUT G, NIJAT M, MEMET R, et al. Exploration of Chinese?Uyghur neural machine translation [C]// Proceedings of International Conference on Asian Language Processing. [S.l.: s.n.], 2017: 176?179.

[9] 張亞軍.維吾爾語的N?gram語言模型研究[J].電腦知識與技術,2011,7(17):4177?4179.

ZHANG Yajun. Research of Uyghur N?gram model [J]. Computer knowledge and technology, 2011, 7(17): 4177?4179.

[10] 古麗尼尕爾·買合木提,熱木土拉·買買提,毛麗旦·尼加提,等.基于雙語對話文本的漢、維口語翻譯技術研究[C]//第十四屆全國人機語音通訊學術會議論文集.連云港:中國中文信息學會語音信息專業委員會,2017:490?494.

Gulnigar Mahmut, Multura Maimaiti, Mewlude Nijat, et al. Research on Chinese?Uyghur oral translation technology based on bilingual dialogue texts [C]// Proceedings of the 14th National Conference on Man?machine Speech Communication. Lianyungang: Speech Information Specialty Committee of Chinese Information Processing Society of China, 2017: 490?494.

[11] 努爾艾力·喀迪爾,彭良瑞.基于SRILM的阿拉伯和維吾爾文語言模型建立方法[C]//第三屆全國少數民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯合學術研討會論文集.烏魯木齊:中國中文信息學會,2010:94?97.

Nurali Kadir, PENG Liangrui. A method to build Arabic and Uyghur language model based on SRILM [C]// Proceedings of the Third National Minority Youth Natural Language Information Processing and the Second National Multilingual Knowledge Base Construction Joint Academic Seminar. Urumqi: Chinese Information Processing Society of China, 2010: 94?97.

[12] ZHANG Wenyang. Comparing the effect of smoothing and N?gram order: finding the best way to combine the smoothing and order of N?gram [D]. Melbourne: Florida Institute of Technology, 2015.

[13] SADIQUI A, ZINEDINE A. A new method to construct a statistical model for Arabic language [C]// Proceedings of the Third IEEE International Colloquium in Information Science and Technology. Tetouan: IEEE, 2015: 296?299.

[14] ALUM?E T, KURIMO M. Efficient estimation of maximum entropy language models with N?gram features: an SRILM extension [C]// Proceedings of the 11th Annual Conference of the International Speech Communication Association. Chiba: [s.n.], 2010: 1820?1823.

猜你喜歡
維吾爾語語料語料庫
《語料庫翻譯文體學》評介
統計與規則相結合的維吾爾語人名識別方法
基于語料調查的“連……都(也)……”出現的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
維吾爾語話題的韻律表現
維吾爾語詞重音的形式判斷
基于JAVAEE的維吾爾中介語語料庫開發與實現
《苗防備覽》中的湘西語料
現代維吾爾語中“-0wat-”的進行體特征
國內外語用學實證研究比較:語料類型與收集方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合