?

基于句子關聯圖的漢越雙語多文檔新聞觀點句識別

2020-10-18 12:57黃于欣余正濤
計算機應用 2020年10期
關鍵詞:雙語關聯觀點

王 劍,唐 珊,黃于欣,余正濤*

(1.昆明理工大學信息工程與自動化學院,昆明 650500;2.云南省人工智能重點實驗室(昆明理工大學),昆明 650500)

(*通信作者電子郵箱ztyu@hotmail.com)

0 引言

漢越雙語觀點句識別旨在從描述同一事件的多篇漢越雙語新聞文檔中識別出能夠傳遞作者情感、表征作者觀點的句子,對開展跨語言事件分析和輿情分析等有著重要的支撐作用。

傳統的觀點句識別任務包括單語言觀點句識別和跨語言觀點句識別。單語言觀點句識別主要利用單語信息,基于情感詞典或機器學習算法實現觀點句識別。前者主要依據情感詞典來判斷句子是否包含情感特征。如文獻[1]通過建立觀點詞集,通過計算句子中觀點詞的強度來實現觀點句識別?;跈C器學習方法則將觀點句識別視為傳統的分類任務,通過選擇合適的主客觀分類特征和機器學習分類算法實現觀點句分類;文獻[2]利用主觀詞和客觀詞作為分類特征訓練樸素貝葉斯分類器來實現觀點句識別;文獻[3]中提出了通過隱馬爾可夫模型抽取情感特征,對句子進行序列標注,通過賦予句子不同的權重來實現觀點句的識別。相比單語觀點句識別任務,跨語言觀點句識別相關研究較少。目前常用的主要有基于雙語詞典、基于平行語料和基于機器翻譯和基于雙語詞嵌入模型的方法?;陔p語詞典方法的是將句子看成要素的集合,通過預先構造的雙語對齊詞典來實現跨語言句子要素對齊,然后基于雙語對齊要素實現觀點句識別?;谄叫姓Z料的方法則利用平行語料間的對齊關系進行映射,得到目標語言信息。文獻[4]利用詞對齊的雙語平行語料進行跨語言觀點挖掘,提出了一種基于依存關系的細粒度觀點挖掘算法;文獻[5]中提出了一種利用源語言主客觀分類器及平行語料來對目標語言進行觀點句分類。然而這類方法要求在做觀點句識別時,必須有高質量的平行語料?;跈C器翻譯的思想是利用機器翻譯將源語言翻譯為目標語言,將跨語言問題轉換為單語言觀點句識別。文獻[6]中提出了源語言翻譯到目標語言和目標語言翻譯到源語言兩種跨語言方式,然后在單語上進行觀點句分類。這類方法過于依賴于機器翻譯的性能,而越南語屬于低資源語言,機器翻譯性能不佳。因此基于機器翻譯的跨語言觀點句識別方法在漢-越等低資源語言上不適用。近年來,利用雙語詞嵌入來實現跨語言文本的語義空間對齊,解決不同語言之間差異性成為了重要的研究方向[7-9]。如文獻[7]中提出了一種基于注意力機制(Attention Mechanism)的跨語言表征方法,并結合長短期記憶網絡(Long Short Term Memory Network,LSTM)實現跨語言情感分類;文獻[10]中提出一種基于雙語詞嵌入,融合主題特征、位置特征和情感特征的跨語言觀點句識別方法。綜上所述可以看出,通用的觀點句識別任務,不管是單語言還是跨語言,都將其作為一個基于句子內部情感特征的分類任務,而很少考慮不同句子間的關聯關系對觀點句識別的影響。

針對漢越雙語多文檔新聞觀點句識別任務,僅通過判斷句子內部的情感特征難以達到很好的效果。在描述同一事件的多語言文檔中,句子之間存在復雜的關聯關系,這些關聯關系對觀點句識別有著重要的支撐作用[11-12]?;诖吮疚亩x了兩類關聯關系,即事件要素關聯和情感要素關聯。如表1所示,漢越雙語話題“一帶一路”中的兩個句子均包含事件要素“阮春?!薄爸袊本?,這種關聯稱為事件要素關聯。此外,這兩個句子均出現了情感詞“重要”,這種關聯稱為情感要素關聯。本文認為具有較強關聯關系的句子是不同來源媒體所共同關注的焦點,更容易成為觀點句。因此提出通過構造句子之間的關聯關系圖來表征多語言、多文檔句子之間的關聯特性,并結合深度學習框架,融合句子編碼特征和關聯特征實現跨語言觀點句分類。

表1 漢越雙語新聞文檔示例Tab.1 Example of Chinese-Vietnamese bilingual news document

1 基于句子關聯特征的觀點句識別模型

本文提出了一種基于雙向長短期記憶(Bi-directional Long Short Term Memory,Bi-LSTM)網絡[13]和句子關聯特征的漢越雙語新聞觀點識別模型。首先構建漢越雙語句子關聯圖,生成句子關聯特征;然后基于雙語詞嵌入和Bi-LSTM 獲得漢越雙語同一語義空間下的表征;最后聯合句子的編碼特征和關聯特征構造觀點句分類器??傮w結構如圖1 所示,模型共分為四個部分:句子關聯圖構建、雙語詞嵌入層、編碼層和觀點句分類層。圖1中:wi,k表示第i個句子的第k個詞;hi是句子編碼表示;ea表示相同語言頂點之間的邊;eb表示不同語言頂點之間的邊;v1、v2、v3、v4代表漢語句子;va、vb、vc、vd代表越南語句子;Avg 表示對句子編碼特征和句子關聯特征加權平均來獲得最終的觀點分類特征。

圖1 基于句子關聯特征的漢越雙語新聞觀點識別模型Fig.1 Chinese-Vietnamese bilingual news opinion sentence recognition model based on sentence association features

1.1 漢越雙語多文檔新聞句子關聯圖構建

漢越雙語多文檔句子關聯圖能夠體現不同語言、不同文檔的句子間關聯關系,對于開展多文檔觀點句識別有著一定的支撐作用。首先定義了事件要素關聯和情感要素關聯兩種關聯關系;然后構造以漢越雙語句子為頂點,以關聯關系為邊的句子關聯圖;最后基于句子關聯圖,通過TextRank 算法[14]計算句子的關聯特征。

1.1.1 事件要素關聯

事件要素包含事件發生的時間、地點、人物和組織機構等信息。利用不同新聞句中事件要素的共現次數來表示不同句子間事件要素的關聯強度。具體來說,首先抽取漢越雙語新聞句子中的命名實體作為事件要素,得到的漢語事件要素的集合記為和相應的越南語事件要素集合記為。對于漢越雙語句子sk,將其表征為相應要素集合,即:sk={a1,a2,…,ak},其中事件要素ak為漢語或越南語對應的事件要素。為了計算不同語言句子的要素關聯強度,首先利用漢越雙語詞典對抽取的要素進行對齊,得到對齊的漢越雙語事件要素集合Acv=。最后通過計算不同句子的事件要素共現次數來確定其關聯強度,共現次數可以通過判斷兩個句子是否包含相同的要素,即任意語言的兩個句子si、sj的要素集合是否存在交集。特別說明,不同語言句子的要素關聯強度需要利用對齊的漢越雙語事件要素集合中的實體共現來實現。具體計算如式(1)所示:

其中:C(si∩sj)表示新聞句si和sj的共現要素數;C(si)表示句子si的要素個數。

1.1.2 情感要素關聯

情感要素關聯是指漢越雙語新聞句子中包含的情感詞的關聯關系,通過計算不同句子間情感詞的相似性來衡量其關聯關系。為了實現情感要素關聯,首先抽取不同語言新聞句中所包含的情感詞,其中,漢語新聞句情感詞抽取利用知網情感詞典和臺灣大學情感詞典[15],提取出每個句子中的情感詞集。針對越南語情感詞典資源缺乏的問題,采用漢越雙語詞典翻譯漢語情感詞典,來構建越南語情感詞典。抽取后得到每個越南語句子中包含的情感詞集合。通過計算任意兩個句子si和sj所包含情感詞的相似性作為句子的情感關聯強度。其中情感詞相似性通過漢越雙語詞向量的余弦相似度得到,如式(2)所示:

最終兩個句子的情感關聯強度通過計算兩個句子的所有情感詞相似度的最大值得到。如式(3)所示:

1.1.3 漢越雙語多文檔句子關聯圖的構建

其中:Fa(si,sj)為句子的要素關聯強度;Fb(si,sj)為句子的情感關聯強度。特別說明,為了降低模型的復雜性,設置邊的權重閾值ε,如果W(vi,vj) >ε則保留這條邊,反之則刪除這條邊。

最后在已構建的圖G上,利用TextRank 算法計算得到漢越雙語的句子關聯特征,如式(5)所示:

其中:R(vi)是句子vi的句子關聯特征;W(vj,vi)為頂點vi和vj的邊的權重;nb(vi)為與vi有關聯關系的鄰居節點;d=0.85,為阻尼系數。

1.2 雙語詞嵌入層

雙語詞嵌入的目的是為了把不同語言的詞語映射在同一語義空間內,以實數向量的形式來表示詞語,同時保證語義相近的詞語在向量空間上也足夠接近,是一種解決跨語言問題的通用框架。首先利用雙語詞向量模型將漢語、越南語兩種不同的語言映射到同一個語義空間下。對于給定的句子si={wi,1,wi,2,…,wi,k},其中wi,k表示第i個句子的第k個詞,利用式(6)計算得到其雙語詞嵌入表征:

1.3 語義編碼層

編碼器的目標是把輸入的文本映射為向量表示,獲取其深層的語義特征。使用雙向長短期記憶(Bi-directional Long Short Term Memory,Bi-LSTM)網絡作為編碼器,編碼器在接收到每個雙語詞向量后,順序更新其隱藏狀態,輸出句子向量。具體來講,通過Bi-LSTM 編碼器對雙語詞嵌入進行編碼,如式(7)所示:

其中:ei,k為在第i個句子中第k個詞的雙語詞向量表示;hi,k為隱層向量。編碼狀態中,前向LSTM 順序讀入句子中包含的每個詞產生前向隱式狀態序列,其中表示第i個句子中第k個詞,后向LSTM 逆序讀入句子中包含的每個詞產生后向隱式狀態序列,采用編碼器最后時刻的前向和后向對應的隱層狀態拼接,構成句子的編碼表示,如式(8)所示:

1.4 觀點句分類器

在獲得句子的語義編碼之后,需要對其進行降維來獲得其語義特征,如式(9)所示:

其中:Ws和bs為訓練參數;sigmoid函數為激活函數。

最后聯合句子關聯特征和句子語義特征獲得最終的觀點分類特征,如式(10)所示:

采用二分類的交叉熵損失函數對模型進行優化。

其中:yi是第i個樣本的標簽;是模型預測樣本是正樣本的概率。

2 實驗與結果分析

2.1 數據集構造

由于目前還沒有公開的漢越雙語新聞語料,因此利用爬蟲工具從中文新聞網站和越南新聞網站收集新聞文檔。選擇三個中越共同關心事件的雙語新聞文檔作為數據集,共計200 篇文檔,2 832 個句子,詳細信息如表2 所示。對每個話題下的新聞文檔按照90%、5%、5%隨機劃分訓練集、驗證集和測試集。

表2 漢越雙語新聞文檔數據集Tab.2 Dataset of Chinese-Vietnamese bilingual news documents

2.2 評價指標

采用準確率P、召回率R、F1值作為評價指標。計算公式如下所示:

其中:a表示模型將觀點句預測正確的個數;b表示模型將非觀點句預測為觀點句的個數;c表示模型將觀點句預測為非觀點句的個數。

2.3 實驗參數設置

采用的2 層的Bi-LSTM 網絡獲取漢越雙語的語義特征,其中雙語詞嵌入維度為300 維。Bi-LSTM 隱狀態設置為512維。為避免模型過擬合,dropout 設置為0.3。模型訓練批次大小設置為64,訓練200輪次。采用Adam 優化器對模型進行優化,學習率為1E -3,同時在模型訓練過程中加入梯度裁剪,最大梯度裁剪為5。

2.4 實驗結果及分析

為了驗證本文方法的有效性,第一組實驗在7 個基準模型上進行實驗,結果如表3 所示。其中:卷積神經網絡(Convolutional Neural Network,CNN)設置卷積層和全連接層皆為一層,卷積濾波器的大小設置為2、3、4;單向長短期記憶網絡(Long Short Term Memory Network,LSTM)參數設置與Bi-LSTM 相同,具體如2.3 節所示。僅使用關聯特征則利用TextRank算法得到的關聯特征值對句子進行排序得到相應的觀點句。

表3 不同模型觀點句識別結果Tab.3 Results of opinion sentence recognition of different models

從表3 可以看出,三種模型在都不使用關聯特征時,Bi-LSTM 模型取得了最佳的性能,這也說明Bi-LSTM 在文本數據上強大的建模能力。但是同時可以看出,在不使用關聯特征時,性能最佳的Bi-LSTM 模型也僅能獲得63.8%的準確率,比僅利用關聯特征的準確率低了7.4%。這也說明了在多文檔觀點句識別過程中,模型僅依賴深度學習模型的輸出無法得到很好的語義表征。本文認為造成這種現象有兩個原因:一個是因為數據集規模較小,模型訓練不充分;另一個原因是漢越雙語詞向量質量不高,在詞嵌入階段存在誤差。另外還能看出,僅使用關聯特征相比三種深度學習模型在準確率、召回率和F1值均能夠獲得較好的性能,這也說明了本文提出的句子關聯特征建模方法是有效的,并且在深度學習模型中融入句子關聯特征是有效的。最后可以看出,聯合建模深度學習模型和句子關聯特征,模型性能有一個較大幅度的提升。相比Bi-LSTM 模型,加入句子關聯特征,模型準確率提升了15.1%,相比僅使用關聯特征,模型準確率提升了7.7%。這些都充分說明了本文提出的結合語義特征和關聯特征能夠有效提升漢越雙語多文檔觀點句識別任務的性能。

第二組實驗是為了驗證式(4)中參數α和β對模型性能的影響,這兩個參數分別表示事件要素和情感要素在計算關聯特征時的比例對關聯特征有著重要的影響。實驗結果如表4所示。

表4 超參數α和β對模型性能的影響Tab.4 Effect of hyper-parameter α and β on model performance

從表4 可看出,模型在α=0.3,β=0.7 時取得了最佳性能,這也表明情感要素在計算關聯特征時更重要。本文認為這也說明了觀點句識別中情感詞仍然是一個重要的影響因素。當α=0.9,β=0.1 時模型性能最差,這也反映了僅使用事件要素來表征關聯特征并不能很好地反映不同句子之間的情感關聯關系。

設計第三組實驗來驗證超參數ε對模型性能的影響,其大小決定了多文檔關聯圖的稀疏程度:ε值越大,則關聯圖越稀疏;反之則越稠密。實驗結果如表5所示。

表5 超參數ε對模型性能的影響Tab.5 Effect of hyper-parameter ε on model performance

從表5可以看出,超參數ε=0.5時模型性能最佳。同樣可以看出ε過小或者過大,模型性能均有顯著的下降。特別是ε=0.9 時,相比ε=0.5,模型F1值下降了6.9%,這也說明ε=0.9 時,圖模型過于稀疏,很多句子間的有用的關聯關系被丟棄,從而導致句子關聯特征產生較大偏差。

3 結語

針對漢越雙語多文檔觀點句任務,提出一種在深度學習框架下,在模型分類層融入句子關聯特征的觀點句識別方法。實驗結果表明,融入句子關聯特征能夠顯著提升漢越雙語觀點句識別模型的性能。在下一步研究中,擬開展利用深度神經網絡聯合訓練句子關聯特征和句子語義特征,探索利用圖卷積神經網絡等方式利用句子關聯圖來提升觀點句識別模型性能。

猜你喜歡
雙語關聯觀點
“一帶一路”遞進,關聯民生更緊
觀點
奇趣搭配
智趣
業內觀點
快樂雙語
快樂雙語
快樂雙語
試論棋例裁決難點——無關聯①
新銳觀點
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合