?

融合主題及上下文特征的漢緬雙語詞匯抽取方法

2021-02-05 03:26毛存禮余正濤高盛祥王振晗張亞飛
小型微型計算機系統 2021年1期
關鍵詞:詞典雙語準確率

李 越,毛存禮,2,余正濤,2,高盛祥,2,王振晗,2,張亞飛,2

1(昆明理工大學 信息工程與自動化學院,昆明 650500) 2(昆明理工大學 云南省人工智能重點實驗室,昆明 650500)

1 引 言

緬甸語屬于一種資源稀缺型語言,漢-緬雙語平行資源相對稀缺,但互聯網中有一定規模的漢語-緬語雙語資源,這些雙語資源大多是主題相關,內容相似的可比文檔.漢-緬雙語可比文檔語料中存在一些具有互譯關系的雙語詞匯數據,這些互譯詞語一般出現在語義相近但語言不同的上下文環境中.抽取這些數據能有效改善漢、緬雙語平行資源稀缺問題,進一步為開展跨語言檢索研究[1,2]及機器翻譯[3,4]提供資源支撐.

在先前的工作中,有研究者利用雙語LDA和上下文向量組合的方法從可比語料中抽取雙語詞匯,取得不錯的效果.但對于資源稀缺的緬甸語來說,構建漢緬雙語LDA需要大量標記好的雙語平行語料,同時詞袋模型表征的上下文向量沒有考慮上下文語義和詞語位置的影響,且維度較高.

在前人的基礎上,為了獲取具有上下文語義特征的上下文向量,克服漢緬雙語LDA難以構建的問題.本文提出了一種融合主題及上下文特征的漢緬雙語詞匯抽取方法:本文首先利用單語LDA結合種子詞典的方法抽取到具有主題特征的主題雙語詞匯,然后用多語言BERT對主題候選詞的上下文語義進行向量化表示,得到具有上下文語義特征的表示向量,再計算上下文的相似度得到具有上下文語義特征的雙語詞匯,最后與主題雙語詞匯加權組合得到更高質量的雙語詞匯.

2 相關工作

目前,針對從可比語料抽取雙語詞匯問題,主要有以下四類方法:

1)基于雙語詞典的方法,其主要思想是通過一個種子詞典學習到一個映射矩陣,將兩種語言的詞向量表示在同一語義空間中計算雙語詞向量的相似度抽取雙語詞匯,如,Artetxe[5,6]等人提出基于種子詞典來抽取雙語詞匯,在大量的單語語料中訓練表征成單語詞向量,再通過種子詞典學習到雙語映射關系,將兩種單語詞向量映射到同一個語義空間,計算兩種語言的詞向量的相似度來抽取雙語詞匯.但此類方法依賴于大規模且高質量的雙語詞典.

2)基于樞軸語言的方法,其主要思想是將源語言和目標語言翻譯成一種通用語言,在通用語言的語義空間中計算相似度抽取雙語匯.如,Kim等人[7,8]提出一種基于樞軸語言抽取雙語詞匯的方法,首先將源語言轉換為英語,再將目標語言轉換到英語最后在同一語義空間下計算相似度完成雙語詞匯的抽取.然而此類方法需要建立大規模對齊語料庫,并且依賴于機器翻譯的翻譯效果.

4)基于上下文的方法,其主要思想是具有相似含義的詞很可能出現在跨語言的相似上下文中.如,從Rapp等人[12]開始,他們利用Harris(1954)[13]提出的分布假設,提出了一種基于上下文的方法(CBM)抽取雙語詞匯,將跨語言詞匯相似度計算問題轉化為計算源語言和目標語言詞匯對應的上下文向量的相似性來抽取雙語詞匯.此類方法的缺點是忽略了詞序關系對上下文向量的影響且容易出現高維問題.

3 融合主題及上下文特征的漢緬雙語詞匯抽取

我們提出的雙語詞匯抽取方法如圖1所示,基本思路如下:

圖1 融合主題特征及上下文特征的漢緬雙語詞匯抽取架構Fig.1 Chinese-Burmese bilingual vocabulary extraction architecture integrating topic features and context features

3.1 基于主題特征的漢緬雙語候選詞匯抽取

LDA(Latent Dirichlet Allocation)[14]是用來在一系列文檔中發現抽象主題的一種統計模型.換句話說就是在一篇文章中有一個中心思想,那么一定存在一些出現頻率比較高的詞.LDA也是一種生成模型,一篇文章中每個詞都是通過“以一定概率選擇某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到的.每個主題下的主題詞都服從一個多項式分布(Multinomial distribution).LDA的概率圖模型如圖2所示.

圖2 LDA概率模型圖Fig.2 LDA probability model

在圖2中,α,β分別是文本-主題和主題-詞匯分布的先驗參數.d代表一篇文本.θ為文本中主題-文檔的概率分布參數,φ則為每一個主題分布下詞語的分布參數.Z表示為其中一個主題,W表示為一個詞匯,M表示文檔總數,N表示所有文檔中的詞的總數.由于吉普斯采樣具有簡單、快速的特點,所以本文采用吉布斯采樣[15]方法來訓練.假設我們從一組漢語詞匯表WS抽取出一個詞wi,給定一個漢語主題分布zk.則其詞-主題概率分布為:

(1)

其中,n代表主題分配到詞匯表中的單詞次數.|WS|代表詞匯表中不同單詞的總數.∑j=1|WS|n分配給主題的單詞總數.首先利用LDA主題模型從漢緬新聞篇章抽取到漢緬主題集合,得到每個主題下的詞-概率分布,其次通過漢語篇章文本和緬甸語篇章文本抽取到的各自主題來訓練漢語和緬甸語的主題詞向量,分別令xi表示漢語主題詞的連續向量表示,zj表示緬語主題詞的連續向量表示.利用種子詞典學習到映射矩陣W,通過映射Wxi到緬語語言空間,計算Wxi與zj向量之間的余弦相似度,如果漢緬雙語詞向量之間的相似性越高,那它們之間是互譯詞匯的準確率也越高.本文采用余弦相似度計算漢緬雙語詞向量之間的相似度,計算公式如下所示:

(2)

然后對上述相似度進行排序,選取前N個緬語作為漢語單詞的候選翻譯列表.

3.2 基于BERT的候選詞匯的上下文表征

基于此,本文采用 Google開源的BERT模型來構造候選詞匯的上下文特征表示,可以從候選詞匯的前后單詞中學習其上下文關系.BERT的設計基于Transformer[19]網絡結構.Transformer對當前的輸入,分別計算Key,Query,Value向量,并基于上述向量對每個輸入使用注意力機制,以獲得當前輸入與上下文語義的關系和自身所包含的信息.通過多層累加和多頭注意力機制,不斷獲取當前輸入更為合適的向量表示.所以利用多語言BERT模型訓練主題雙語詞匯能得到更好的上下文特征表示,設Si為漢語主題詞的上下文特征表示,Tj為緬語主題詞的上下文特征表示,則余弦相似度為:

(3)

一旦提取上下文雙語詞匯,我們將它們與主題雙語詞匯相結合.結合后,詞匯的質量將得到提高.因此,我們進一步使用組合詞匯作為新的種子詞典,繼而抽取到更好的漢緬雙語詞匯.通過重復這些步驟,上下文雙語詞匯和組合雙語詞匯質量將被反復改進,直至模型收斂.

3.3 基于聯合的方法抽取漢緬雙語詞匯

(4)

其中λ是兩種方法線性結合過程中的超參數.我們首先使用主題特征的方法為漢語單詞生成一個前N個候選列表(緬甸語候選詞).然后通過上下文特征向量計算候選列表詞中的相似度.最后,我們進行組合.因此,組合過程是一次對基于主題特征抽取的候選詞的重新排序實現漢緬雙語詞匯抽取.

4 實驗結果與分析

4.1 實驗數據跟參數設置

為了避免數據的單一性,我們分別從漢-緬雙語網站、緬甸官方新聞網站、中文新聞網站、微信公眾號等網絡平臺獲取778篇漢-緬雙語可比文檔,覆蓋了政治,軍事,娛樂等多個方面,這些語料包括政治領域271篇,軍事領域296篇,娛樂領域211篇,合計778篇.其中漢語的平均句子長度為23,緬語的平均句子長度為18,如表1所示.

表1 漢-緬雙語可比文檔數據集Table 1 Chinese-Burmese comparable document data set

接著我們對搜集到的語料進行預處理,利用昆明理工大學智能信息處理重點實驗室研發的緬甸語分詞工具對緬甸語進行分詞,利用jieba分詞工具對漢語進行分詞,去除停用詞等處理.此外,通過人工方式構建了一個小規模的漢-緬雙語種子詞典,如表2所示.

表2 訓練漢-緬雙語詞向量的種子詞典規模Table 2 Seed dictionary scale for training Chinese-Burmese bilingual word vectors

LDA模型中設置訓練的超參數α=0.1,β=0.1,迭代次數為500次,每篇文章的主題數為5;詞向量維度設置300維;對于我們提出的方法,我們根據經驗設置線性組合參數λ=0.8.

4.2 實驗方法和評價指標

為了驗證本文方法在漢緬雙語詞匯抽取的效果,設計了3組對比實驗.

對比實驗1.本文與當前其他方法的對比實驗

對比實驗2.不同種子詞典規模對詞匯抽取的影響

對比實驗3.在不同P@N值下詞匯抽取的準確率

本文將準確率P@N(前N個候選翻譯的準確率)作為評價指標,定義如下:

(5)

其中,S代表實驗中對應的是測試詞典中詞的總數;wi代表測試詞典中的源詞,|T(wi)|代表在測試詞典中源詞對應的目標詞匯.

4.3 實驗分析

實驗1.當前的雙語詞匯抽取方法與本文方法實驗結果比較.

表3 本文方法與其他方法抽取雙語詞匯的準確率Table 3 Accuracy of bilingual vocabulary extraction with this method and other methods

由表3可知,我們提出的方法可以顯著提高漢緬雙語詞匯的準確率.實驗結果也表明明顯優于其他幾種方法,同基于雙語LDA+CBW的方法相比,本文方法準確率提升了3.82%,主要原因在于BERT不僅僅是只關注一個詞前文或后文的信息,而是整個模型的所有層都去關注其整個上下文的語境信息,得到更好的上下文特征表示向量.同基于雙語詞典的方法和基于樞軸語言的方法相比,本文方法準確率分別提升了11.07%和13.27%.主要原因在于基于雙語詞典的方法未考慮到雙語可比文檔的主題特征對候選翻譯的有效約束和基于樞軸語言的方法容易出現一詞多譯,錯譯等問題.

實驗2.種子詞典規模對抽取詞匯效果的影響.

圖3 不同種子詞典規模下的準確率Fig.3 Accuracy at different seed dictionary sizes

其次,種子詞典是漢緬兩種語義空間的中間橋梁,其規模大小對抽取的準確率也有著非常重要的影響.我們將種子詞典分成不同比例的規模大小,然后進行對比實驗.實驗結果如圖3所示.從圖3中可以看出,伴隨著種子詞典規模的擴大,抽取到的漢緬雙語詞匯準確率一直在逐漸上升.當詞典規模比例從0.8增加到1的時候,準確率上升的比較慢,主要原因是漢緬可比文檔中,常見詞已經得到補充,而生僻詞的出現導致模型達到飽和.

實驗3.為驗證方法的準確率與抽取的候選詞個數之間的關系,實驗還比較了P@1、P@5 和 P@10 的準確率.具體實驗結果見表4.

表4 本文方法在不同P@N值下的準確率Table 4 Accuracy of this method under different P@N values

分析表4可知,本文方法的準確率隨候選詞的增多而逐漸上升,當候選詞數量為 1 時便可獲得較高的準確率,而當候選詞為10 時,準確率可以達到74.58%,這同時說明了不同語言在向量空間上具有同構性.

5 總 結

為了抽取漢緬雙語詞匯,本文提出了一種融合主題及上下文特征的漢緬雙語詞匯抽取方法.有效利用了漢緬雙語主題的特征信息和上下文信息,進而抽取到質量更高的雙語詞匯.實驗結果表明,本文方法相比其他僅使用主題特征和上下文特征的方法相比,準確率有明顯提升.同基于雙語LDA+CBW的方法相比,本文克服了漢緬雙語LDA難以構建的問題,同時利用BERT訓練得到具有上下文語義特征的上下文表示向量,進一步提升了漢緬雙語詞匯的準確率.在未來的研究當中,我們可以將該方法用于其他稀缺語言中,如漢語-老撾語、柬埔寨等東南亞語言雙語詞匯抽取,為開展面向漢語-東南亞語跨語言檢索及機器翻譯研究提供數據支撐.

猜你喜歡
詞典雙語準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
多層螺旋CT技術診斷急性闌尾炎的效果及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
米蘭·昆德拉的A-Z詞典(節選)
米沃什詞典
“函數及圖象”錯解詞典
快樂雙語
快樂雙語
快樂雙語
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合