?

融合卷積收縮門控的生成式文本摘要方法

2024-02-29 04:39甘陳敏唐宏楊浩瀾劉小潔劉杰
計算機工程 2024年2期
關鍵詞:解碼器解碼編碼器

甘陳敏,唐宏,楊浩瀾,劉小潔,劉杰

(1.重慶郵電大學通信與信息工程學院,重慶 400065;2.重慶郵電大學移動通信技術重慶市重點實驗室,重慶 400065)

0 引言

自動文本摘要技術是自然語言處理領域中的重點研究方向,將信息瑣碎的長文本壓縮精煉后,產生一段關鍵信息集中且語言簡潔的短文本,獲取有價值的內容[1]。

依據產生方法的不同,自動文本摘要技術可分為抽取式(Extractive)方法和生成式(Abstractive)方法[2]。盡管機器模型難以完全理解自然語言的深層詞意,生成式方法易產生重復冗余的內容,不能完全把握文本關鍵信息[3],但是生成式摘要更符合人類邏輯思維對文本的撰寫習慣,比抽取式方法的應用更加廣泛。

當前,在生成式文本摘要方法中基于深度學習的主流模型是結合注意力機制的Seq2Seq 模型[4],遵循編碼-解碼框架,編碼器能夠準確地編碼輸入文本,學習文本的隱含特征和重要信息,解碼器根據上下文的注意力分數提取信息解碼生成摘要。特別地,隨著文獻[5]提出將基于循環神經網絡(RNN)作為編碼器和解碼器構建文本摘要生成模型,融合注意力機制取得優異成績。后續大部分研究開始在此基礎上加以創新,更新了一系列網絡模型,使得文本摘要評價指標ROUGE[6]的分數有所增加。

針對Seq2Seq 模型受到詞表限制,難以解決集外詞(OOV)的困擾,文獻[5]在指針網絡[7]的基礎上設置“開關”,提出Switching Generator-pointer 模型,獨立計算生成概率和復制概率來緩解上述問題。文獻[8]提出復制機制,從輸入序列復制生詞到輸出序列中,彌補集外詞的空缺。文獻[9]結合復制機制和指針網絡提出指針生成網絡(PGN),巧妙地利用覆蓋機制[10]緩解重復詞語問題,在CNNDM 數據集上獲取當時最優結果。隨著對神經網絡模型認識的不斷深化,RNN 原理架構的弊病逐漸暴露。比如,RNN 及變體都是逐詞按序處理,難于實現并行計算,導致在訓練模型和生成摘要階段效率低下。此外,RNN 在編碼階段得到的前后信息僅簡單地拼接,對單詞間的聯系缺乏有效建模,不可避免地出現丟失文本關鍵內容,生成的摘要中包含重復和冗余詞句,主次顛倒,偏離文本原意。

文獻[11]提出一種全新的完全基于注意力機制構建的預訓練語言模型Transformer,具備快速并行計算的能力和強大的特征提取能力,逐漸被應用于文本摘要任務。文獻[12]引入BERT[13]模型,提出一個通用的編碼框架,能同時用于抽取式摘要和生產式摘要。文獻[14]將BERT 與生成式預訓練Transformer(GPT)[15]聯合預訓練組成BART 模型,在摘要數據集上進行微調,其ROUGE 評價獲得當下較高的分數。文獻[16]提出語言生成任務(ERNIE-GEN)模型,通過連續預測語義完整的跨度生成流程,訓練模型生成更接近人類寫作模式的文本。此外,文獻[17]提出的間隔句以Transformer 結構為基礎,探索為抽象文本摘要量身定制的預訓練目標。上述模型在Transformer 的基礎上設計新的訓練方式,卻未能尋求更適用于文本摘要任務的模型結構。

本文以Transformer 為基礎預訓練語言模型,利用其優勢設計性能更佳的文本摘要生成模型。在編碼器階段,選擇BERT 作為編碼器提取文本特征并生成編碼字向量,在解碼器階段,搭配基礎Transformer 解碼架構,設計兩種改進的解碼器,包括共享BERT 作為解碼器部分模塊和采用GPT 作為解碼器部分模塊,以更有效地融合編碼輸出和解碼輸出,提升模型性能和文本摘要生成的質量。

1 基于Transformer 和卷積收縮門控的文本摘要模型

本文在Transformer 模型的基礎上進行改進和完善,提出基于Transformer 和卷積收縮門控的文本摘要模型,模型結構如圖1 所示,包括編碼器、卷積收縮門控單元和解碼器。編碼器采用BERT 模型讀取輸入文本構建編碼表示,由卷積收縮單元和門控單元組成的卷積收縮門控單元篩選與全局語義相關的有用信息作為編碼輸出。解碼器除了選擇基礎的Transformer 解碼模塊構建TCSG 模型外,還設計了共享BERT 編碼器作為解碼器部分的ES-TCSG 模型與采用GPT 作為解碼器部分的GPT-TCSG 模型。

圖1 文本摘要模型Fig.1 Text summarization model

1.1 問題形式化

給定源文檔D,將其表示為輸入序列X={x1,x2,…,xn},其中n表示輸入序列的長度。自動文本摘要技術的目標就是將D作為模型輸入,經過訓練生成簡短文本摘要序列Y={y1,y2,…,ym},其中m表示輸出文本長度,且輸出文本長度m要遠小于輸入文本長度n。模型通過輸入序列X逐步最大化得到生成摘要序列Y的概率,盡可能提高生成的摘要Y和參考摘要Y′的相似度。

1.2 編碼器

BERT 能夠雙向建模做到并發執行,可以獲取更多的上下文信息,全面地反映句子語義,更適用于需要編譯大量文本的任務。其結構基于多層Transformer 的編碼模塊,主要包含多頭注意力層和前饋網絡層。多頭注意力層期于獲取單詞之間的聯系分數和上下文表示向量,如式(1)所示:

其中:自注意力機制的輸入是由同一單詞轉換成的查詢(Q)、鍵(K)、值(V)3 個向量,且Q=K=V=x;分別為對應第i個頭的可學習的參數矩陣;Wo∈Rhdv×d表示線性變換,dk和dv分別對 應K向量和V向量的維度,d表 示模型輸入輸出維度,h表示多頭注意力層的頭數,且dk=dv=d/h。

前饋網絡層作用在多頭注意力層之上,以此增強模型的非線性擬合能力,計算公式如下:

其中:W1∈Rd×df、W2∈Rdf×d表 示線性變換,df表示該前向反饋層的維度;b1和b2為偏量參數。

此外,本文解碼模塊也都基于Transformer 結構,其方法及公式與編碼模塊相同,故本文不再贅述。

1.3 卷積收縮門控單元

相對比其他自然語言處理任務,文本摘要更注重把握文本重要內容,生成語義通順內容簡介的摘要。因此對于文本摘要任務,除了能有效地提取關鍵信息外,還需要減少生成重復冗余信息,尤其是生成式摘要模型。文獻[18]引入自匹配機制,在編碼階段增加全局自匹配層獲取全局信息和全局門控單元抽取文本核心內容,去除冗余。文獻[19]提出由卷積門控單元組成的全局編碼框架,改善源端信息表示,并基于新的編碼表示進行關鍵信息篩選。而文獻[20]在Transformer 模型上引入卷積門控單元,設計3 種連接方式的解碼器,充分利用卷積門控的優勢去篩選文本關鍵內容。實驗結果表明,有效地融合BERT 和卷積門控單元能大幅提升模型性能。

受上述研究的啟發,本文同樣在卷積門控單元的基礎上緩解摘要中重復冗余的問題。與上述研究不同,提出的卷積收縮門控(CSG)單元進一步加強了模型抑制冗余信息的能力,如圖2 所示。

圖2 卷積收縮門控單元Fig.2 Convolutional shrinkage gating unit

卷積門控單元主要由多個不同卷積核的卷積神經網絡(CNN)模塊、采用自注意力機制的注意力模塊和門控網絡模塊組成。本文沿用CNN 模塊使用多個(內核大小k=1,3,5)一維卷積提取n-gram 特征,遵循Inception 的設計原則,選擇兩個3 核代替5核,以避免內核大幅增加計算量(見圖2 右側虛框內)。具體計算公式如式(5)所示:

其中:ci為卷積輸出;Wc表示權重 參數;δ是非線 性ReLU 激活函數;di-k/2,…,di+k/2表示卷積核窗口的滑動位置i為窗口的中間位置;b為偏量。卷積單元能實現參數共享,提取句子中的共同特征。注意力層在CNN 模塊結果上能實現特征表示的自關注,深度挖掘全局語義相關的信息。然而,每個特征表示都融入全局信息會造成冗余。為有效地減少干擾,進一步抑制無用信息,本文采用帶有軟閾值的深度注意力模塊代替自注意力機制。

軟閾值化是一種常用的信號降噪方法,通過對閾值進行設置,將低于該值的特征截斷為0,其他特征也朝著0 進行調整,即“收縮”[21]。本文將 其思想引入到文本處理中,根據文本編碼表示設置一定的閾值,刪除小于閾值絕對值范圍內的特征表示,期于抑止不重要單詞的干擾和構建高分辨特征。計算方法如下:

其中:x是輸入特 征;y是輸出特征;τ是正參數的 閾值。軟閾值并非將負特征直接設為0,而是根據它們的實際貢獻程度來選擇保留部分有價值的負特征。由式(6)可以觀察到,輸出對輸入的導數為1 或0,能有效避免梯度消失和爆炸問題。

人工操作設置合適的閾值是當前一大難題,此外,閾值參數的最佳值也因情況而異。為避免該情況,需要尋求在深層體系結構中模型能夠自動確定閾值。壓縮與激勵網絡(SENet)能將關注點放在特征通道之間的聯系上。SE 模塊通過壓縮和激勵操作幫助神經網絡學習每個特征通道的重要程度,并依此去減少對當前任務無用的或不必要的特征,又稱作“特征重標定”策 略[22]。如 圖2 所示,首先將CNN 模塊的輸出c作為輸入通過全局平均池化(GAP)進行特征映射并壓縮,將通道中整個空間特征編碼為一個全局特征,得到一維向量g;然后將向量g傳播到兩個全連接層(FC)中,衡量通道間的相關性,并得到和輸入特征相同數量的權重,輸出一個縮放參數;最后在末端應用能將縮放參數控制在(0,1)范圍內的Sigmoid 函數。計算表達式為:

其中:W1和W2表示權重參數;δ是ReLU 激活函數;σ是Sigmoid 歸一化函數;α為對應的歸一化后的縮放權重參數。類似于注意力機制,將α視為對每個特征通道經過選擇后的重要程度,乘以對應通道的特征向量,完成在通道維度上對原始特征的重標定,并將加權后的特征向量作為模塊的輸出,使模型具備更高的分辨能力去判斷各個特征通道的貢獻度。計算實現過程如下:

其中:τ表示閾值;Zc表示輸入c的特征映射。在開始時,閾值需要預先設置為趨于0 的正參數,并在后續學習中自動修正。通過帶閾值的深度注意力機制削弱無用特征,保留核心信息。

最后,門控單元基于上下文的全局信息控制從編碼器到解碼器的信息流篩選得到最終的編碼輸出h:

其中:hb表示BERT 的輸出;hc表示卷積收縮門控單元的輸出。hc通過Sigmoid 函數在每個維度上輸出介于0~1 之間的向量,該值接近0 則刪除大部分信息,接近1 則保留大部分信息。

1.4 解碼器

在文本摘要任務中,解碼器作為決定摘要生成質量的最后一個關鍵點是必不可少的。它將編碼器輸出和解碼器上一時間步輸出合并在一起作為輸入,來計算當前時間步的輸出。本文將致力于探求最佳的解碼結構來更有效地融合編碼輸出和解碼輸出,在Transformer 結構基礎上對比3 種不同連接方式的解碼器變體,并進行實驗和分析。

1)Base-Decoder:基于多 層Transformer 解碼模塊,根據文本編碼信息初始化解碼器后,對當下時間步t之前所有解碼輸出(即已經生成的摘要)序列Y={y0,y1,…,yt-1}進行編碼,得到新的解碼隱狀態序列S={s0,s1,…,st-1}。之后根據S與編碼輸出h預測當下時間步t的解碼輸出yt。以此類推,最終生成摘要序列。

2)ES-Decoder:在解碼過程中,解碼器需要對解碼輸出重新編碼,而編碼器對文本輸入序列進行編碼,兩個模塊在功能上具有相似性。文獻[23]在Transformer 結構上提出編碼器共享,直接將編碼器代替功能相似的解碼器模塊,優化模型性能。故本文參考其思路將BERT 編碼器作為解碼模塊,去掉解碼器中多余的多頭注意力層,整合冗余模塊。在訓練過程中,編碼任務均交給編碼器,可以減少模型參數,降低復雜度。同時,由于同一空間映射能夠深度挖掘輸入序列與輸出序列之間的聯系,進而增強編碼器的編碼能力。

3)GPT-Decoder:不同于BERT,GPT 只采用Transformer 的解碼架構。由于解碼模塊中的mask機制,GPT 通過觀察文本中單詞的上文來預測單詞,使得GPT 更擅長處理文本生成任務。因此,本文采用GPT 架構作為解碼模塊,并添加額外的多頭注意力層和前向反饋層合并處理編碼輸出和GPT 輸出。解碼模塊各層都會維護自己的權重值,每層處理過程相同但計算結果不同。為加強解碼模塊對關鍵信息的敏感程度,在額外的多頭注意力層之間外接殘差網絡,創建直接路徑來傳遞注意力分數[24],將式(1)更改為:

其中:PPre表示上一層注意力分數。將上一層注意力分數直接傳遞給下一層,加強各層之間的聯系,同時還能穩定模型訓練,減少訓練時間。經過多頭注意力和前向反饋層的輸出模塊得到輸出向量m,最終經過Softmax 層生成下一個單詞,如式(11)所示:

其中:Wm表示權重參數;b為偏量。此外,本文各解碼模塊層數均為N=6。

2 實驗結果與分析

為驗證本文所提模型的可行性和有效性,本文在中文數據集LCSTS 和英文數據集CNNDM 上訓練模型。為了驗證每個改進策略對模型的影響效果,對改進模塊獨立進行實驗研究,訓練模型和分析結果,不斷優化并獲得最佳模型。本文選取多種生成式方法的基準模型進行對比,并細化分析本文模型的性能和實驗結果。

2.1 數據集

使用兩種不同類型的摘要數據集進行實驗,研究并分析模型的表現。

中文數據集LCSTS 是一個短文本新聞摘要數據集[25],摘錄于新浪微博,規模超過200 萬。該數據集包括3 個部分,即24 萬對用于模型訓練的文本和摘要數據、10 000 條人工標記的簡短摘要與相應的簡短文本的相關性用于模型的驗證以及用于模型測試的1 000 對數據。

英文數據集CNNDM 是從美國有限新聞網(CNN)和每日郵報收錄上千萬條新聞數據作為機器閱讀理解的語料庫。文獻[5]在此基礎上改進成文本摘要數據集。該數據集有匿名和非匿名兩種版本,本文使用后者,包含28 萬個訓練數據對、1.1 萬個驗證數據對和1.3 萬個測試數據對,固定詞匯表有5 萬個單詞。

2.2 評價指標

針對自動文摘模型性能評價,普遍采用由文獻[6]提出的ROUGE 自動摘要評價方法,其基本思想是統計生成摘要與參考摘要之間重疊的基本單元(n元語法、詞序列和詞對)的數目,以此客觀地評價模型生成摘要的質量。本文從常見的3個粒度來計算重疊數目:ROUGE-1(1-gram),ROUGR-2(2-gram)和ROUGE-L(最長公共子序列),其分數越高,表明模型生成摘要的質量越高,模型性能越好。

2.3 參數設置

本文使用標準的編碼器-解碼器結構,均以Transformer 為基礎,BERT 與解碼器均設置為6 層結構,所有多頭注意力機制擁有8 個頭,隱藏層神經元個數為512,字向量維度為512,前向反饋層的中間層大小為2 048。使用dropout 方法避免過擬合,比率設為0.1。由于網絡的復雜性,為保證模型的穩定性,在訓練階段,實驗分別使用β1=0.9 和β2=0.999的Adam 優化器用于編碼器和解碼器,將初始學習率分別設置為lr1=0.0428 和lr2=0.1,并采用預熱與衰減策略設置學習計劃。為加快訓練和測試速度,針對LCSTS 數據集,設置訓練批次大小為128,初始文章最大長度為200,摘要最大長度為50;而CNNDM數據集的處理批次為64,初始文章最大長度為800,摘要最大長度為100。在測試時,使用束寬度為4 的束搜索方法選擇候選摘要序列。

2.4 實驗對比與分析

本文模型與以下基準模型在LCSTS 數據集和CNNDM 數據集上進行性能對比,并直接從文獻實驗數據中抽取結果。

1)words-lvt2k-temp-att[5]:基 于RNN 的Seq2Seq模型,利用時間注意力機制跟蹤注意力權重,阻止關注相同部分。

2)RNN-context[25]:提 出LCSTS 中文 數據集,在Seq2Seq 模型的基礎上進行實驗研究。

3)PGN-Coverage[9]:在指針生成網絡模型的基礎上結合覆蓋機制,計算覆蓋向量來避免重復問題。

4)CGU[19]:在Seq2Seq 模型基礎上提出全新的全局編碼框架,利用卷積門控單元改善源端信息表示,捕捉關鍵信息。

5)Transformer[11]:基于注 意力機 制構建 的Seq2Seq 模型,具有快速計算的能力,能在更短的時間內獲取更優的實驗結果。

6)BERTabs[12]:將BERT 模型引入文本摘要任務中,利用其強大的表征能力獲取文本編碼信息,提升生成摘要的質量。

7)CBC-DA[20]:在編碼部分融合BERT 和卷積門控單元,解碼部分采用3 種不同的結構探討更有效的融合方式去改善模型性能。本文選取文獻中效果最佳的模型。

本文分階段獨立驗證各改進方法的有效性,由此對以下模型做出說明:

TCSG:使用BERT 進行文本編碼,利用卷積收縮門控單元篩選合適的編碼信息輸入基礎Transformer 解碼器中生成摘要。

ES-TCSG:在TCSG 的基礎上共享BERT 作為解碼器的部分之一,剔除模型功能重復的模塊,減少模型的參數。

GPT-TCSG:在TCSG 的基礎上充分利用GPT 的文本生成能力作為解碼器部分之一,并添加額外的殘差注意層加強解碼器各層之間的聯系,穩定模型。

不同模型在LCSTS 上的ROUGE 值如表1所示。

表1 各模型在LCSTS 上的ROUGE 值 Table 1 ROUGE values for each models on LCSTS

表1 中數據顯示,本文模型在LCSTS 數據集上的實驗結果均優于對比模型。由表1 中ROUGE 值分析可知:在前6 個基準模型中,CBC-DA 模型效果最好,而本文模型TCSG 與之相比,評價分數分別高出0.7、0.7 和0.4 個百分點,充分說明本文提出的卷積收縮門控單元能進一步抑制重復冗余信息,在文本摘要生成中發揮積極作用。同時,ES-TCSG 模型的3 個ROUGE 值相較于TCSG 模型分別提升了0.1、0.4 和0.2 個百分 點,GPT-TCSG 模型則提升1.3、1.2和0.9 個百分點,表明本文充分利用Transformer 架構的優勢能獲取更佳實驗結果的解碼器形式。尤其是GPT-TCSG 模型表現最突出,能提取完備的文本特征,生成質量更優的摘要。

不同模型在CNN/DM 上ROUGE 值如表2所示。

表2 各模型在CNNDM 上ROUGE 值 Table 2 ROUGE values for each models on CNNDM

表2 中展示了本文模型和對比模型在CNNDM數據集上ROUGE 分數。本文所提出的3 種模型的實驗結果均有不同程度提升。類似于LCSTS 數據集上的分析,在相同條件下,對比TCSG 和BERTabs模型,TCSG 的評價分數分別提升了0.64、0.79 和0.62 個百分點,說明本文模型在長段落數據集上仍表現出色。此外,ES-TCSG 和GPT-TCSG 模型進一步提升了ROUGE 值,優化了模型性能。

2.5 消融分析

為進一步展示模型中各模塊的性能和重要程度,本文選擇在CNNDM 數據集上進行消融實驗,結果如表3 所示。

表3 消融實驗對比分析結果 Table 3 Comparative analysis results of ablation experiments

由表3 實驗結果分析可知:

1)實驗細化分析各模型的貢獻程度,在Transformer 模型的基礎上加上CSG 單元得到表中第3 行數據,對比第2 行Transformer 模型實驗結果,驗證CSG 單元能有效指導編碼器挖掘文本全局信息和深層聯系,減少無用特征。同時,保持CSG 和解碼器不變,對比第3 行和第4 行數據,表明BERT 作為編碼器能大幅提升模型提取文本表征的能力,更全面地反映句子語義,獲得更佳的實驗結果。最后3 行數據說明不同解碼結構對實驗結果的影響,與TCSG 和ES-TCSG 模型對 比,GPT-TCSG 的性能 顯著提高,GPT 作為解碼模塊能充分發揮其結構優勢,生成更高準確率的摘要。

2)針對模型訓練時效問題,本文復現基于RNN的PGN+Coverage 模型和基于自注意力機制的Transformer 模型,同本文模型一樣通過20 萬次迭代,統計每個模型的訓練時長,以10 000 為單位計算耗時,結果如表3 中最后一列所示。對比PGN+Coverage 模型,本文模型均在更短的訓練時長內獲取更高的評價分數。對比Transformer 模型,本文模型架構復雜度增加,以時間為代價換取更佳的實驗結果。特別地,由最后3 行可知,ES-TCSG 模型相比于另外2 種本文模型,時效有所改善,驗證了將編碼器共享作為解碼器部分能提升模型訓練速度。

綜上所述,通過對比分析,模型中的各模塊均是必需的,且充分發揮其作用,來提高模型性能和生成摘要的質量。

3 結束語

本文提出基于Transformer 和卷積收縮門控的文本摘要方法。首先采用BERT 作為編碼器盡可能獲取更多的上下文語義信息;然后利用卷積收縮門控單元進行文本關鍵信息篩選,強化全局信息,抑制冗余信息的干擾;最后設計3 種不同連接方式的解碼器融合編碼和解碼信息,探索更適用于文本摘要生成任務的模型結構。在LCSTS、CNNDM 數據集上的實驗結果表明,所提模型在ROUGE 評價指標上比基準模型效果更優,能獲取更優質的文本摘要。下一步將考慮加強編碼器和解碼器之間的銜接和聯系,以及模型預訓練方式的設計和優化,采取更好的預訓練目標減少模型的訓練時間,提升模型性能。

猜你喜歡
解碼器解碼編碼器
《解碼萬噸站》
科學解碼器(一)
科學解碼器(二)
科學解碼器(三)
線圣AudioQuest 發布第三代Dragonfly Cobalt藍蜻蜓解碼器
解碼eUCP2.0
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
基于FPGA的同步機軸角編碼器
基于PRBS檢測的8B/IOB編碼器設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合