集成顯著性話語上下文窗口采樣方法的長對話摘要生成模型

2024-01-30 03:07吳杰王鵬鳴熊正坤

北京大學學報（自然科學版） 2024年1期

關鍵詞：錨點話語顯著性

吳杰王鵬鳴熊正坤

北京大學學報(自然科學版) 第60卷第1期 2024年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)

10.13209/j.0479-8023.2023.078

國家自然科學基金(62166018, 62266017)和江西省重點研發計劃(20203BBE53029)資助

2023–05–18;

2023–08–01

集成顯著性話語上下文窗口采樣方法的長對話摘要生成模型

吳杰1王鵬鳴2,?熊正坤1

1.華東交通大學信息工程學院, 南昌 330013; 2.溫州理工學院數據科學與人工智能學院, 溫州 325035; ?通信作者, E-mail: zhangwuji115@163.com

針對對話語料的特點, 提出一種集成顯著性話語上下文窗口采樣方法的長對話摘要生成模型。該模型分為兩個模塊: 1)顯著性話語上下文窗口采樣模塊將對話話語進行顯著性評估, 以顯著性話語作為采樣錨點, 然后設置采樣窗口, 將采樣錨點左右相鄰的話語一起提取為片段, 提取出來的片段包含更豐富的話語關系; 2)片段間信息融合摘要生成模塊利用 Transformer 塊, 將相互獨立的片段進行信息融合, 加強片段之間的語義關系, 并且為片段在生成摘要期間分配混合權重。利用一致性損失機制, 鼓勵顯著性話語上下文窗口采樣模塊確定更佳的采樣錨點。在基于查詢的長對話摘要公開數據集 QMSum 上的實驗結果表明, 該模型在ROUGE 評估指標上的分數高于現有最好的模型。

長對話摘要; 窗口采樣; 顯著性話語; 信息融合; 生成模型

近年來, 長對話摘要任務成為自然語言處理領域新興的研究熱點。長對話摘要旨在將冗長的對話文本濃縮成能夠包含原對話關鍵信息的簡短文本。對話文本產生于會議、客服和閑聊等生活場景中, 對這些文本進行摘要, 可以提取到所需的關鍵信息。會議記錄是記錄會議對話內容的重要手段, 然而閱讀冗長的會議記錄比較費時費力。因此, 會議摘要非常必要, 可以幫助與會人員快速理解會議的關鍵決定和需要完成的任務。同時, 根據不同類型用戶的需求, 需要產生不同的摘要。如圖 1 所示, 給定一段會議的對話文本, 可以通過查詢“通過上述對話, 學校的主要目的是什么?”來獲取所需的關鍵信息, 即得到符合查詢內容的摘要。

基于 Transformer[1]的大規模預訓練模型(比如BART[2]和 T5[3])在一些短文本摘要任務中的性能已達到人類水平[4], 但在長對話摘要上的表現不盡人意。與文檔摘要相比, 長對話摘要文本內容無結構, 對話角色多, 對話內容冗長, 關鍵信息較為分散, 導致對話文本的數據結構較為稀疏, 模型難以一次性地輸入整個對話內容, 并且對話中的噪聲較多。因此, 長對話摘要任務具有一定的挑戰性。

為了能利用整個長文本信息, Gidiotis 等[5]提出一種先分割后生成的方法, 先將輸入分割成多個片段, 再對每個片段分別進行摘要, 最后將摘要片段組合在一起。Zhang 等[6]提出多階段生成摘要框架, 利用分割好的片段與標準摘要匹配, 先生成粗粒度的摘要片段, 再生成細粒度的完整摘要。但是分割再生成方法會讓片段之間失去聯系。為了能讓模型感知整個長序列文本, Reformer 模型[7]使用局部敏感哈希注意力, 使輸入長度序列擴展到 64k, 并進一步減少內存消耗。然而, 稀疏注意力會犧牲預訓練帶來的好處。此外, 層次模型重點關注話語結構和角色信息, 試圖從不同的角度挖掘信息, 提高生成摘要的效果。HMNet[8]是一個兩級層次結構的處理冗長會議記錄的摘要生成模型, 包含話語層面信息和對話角色信息的層次結構。上述模型僅關注模型的效果, 沒有考慮內存與計算成本。

Sun 等[9]認為生成摘要只需要對話中的關鍵信息, 不需要利用整個對話文本, 因此提出提取器–生成器混合模型。提取器主要提取對話文本的關鍵內容, 主要目的是既能提取到所需要的信息, 又能去除對話文本中包含的噪聲[10]。然而, 以前的提取器與生成器是單獨訓練的, 提取不到充分的重要信息, 導致生成摘要時發生級聯錯誤[11][12]–13]。Mao 等[14]提出一個聯合訓練框架 DYLE 來彌補信息的丟失, DYLE 是一種用于長對話摘要的動態潛在提取方法。DYLE 聯合訓練一個提取器和一個生成器, 生成器可以在每個時間步驟中動態地為每個提取的對話話語分配權重。動態權值使解碼過程可解釋, 并通過降低不相關片段的權重來降噪提取。DYLE 還利用一致性損失, 為提取器提供訓練信號, 將提取器和生成器橋接起來, 進一步優化提取器。

由于對話中的關鍵信息往往離散地分布在對話文本中, 因此提取出的關鍵信息是互相獨立的。然而, 在對話中出現的顯著性話語與其周圍的話語是緊密聯系在一起的, 因此, 僅僅依靠這些顯著性話語信息生成摘要是不充分的, 顯著性話語相鄰的話語信息能夠為摘要的生成提供更豐富的話語關系。因此, 本文提出一種集成顯著性話語上下文窗口采樣方法(SDCWS)的長對話摘要生成模型, 包括一個顯著性話語上下文窗口采樣模塊(CWS)和一個融合片段間信息的摘要生成模塊(IF)。利用一致性損失機制, 將兩個模塊聯合訓練, 鼓勵顯著性話語上下文窗口采樣模塊感知更佳的顯著性話語采樣錨點。最后, 在 QMSum[15]數據集上進行實驗, 與現有模型進行對比, 驗證本文方法的可靠性。

圖1 基于查詢的對話摘要案例

1 集成顯著性話語上下文窗口采樣方法的長對話摘要生成模型(SDCWS)

SDCWS 模型的框架如圖 2 所示。首先, 顯著性話語上下文窗口采樣模塊將對話文本的話語進行顯著性評估, 以顯著性話語為采樣錨點, 利用采樣窗口將其上下文提取為片段。此外, 提取初始對話中的顯著話語作為訓練顯著性話語上下文窗口采樣模塊的監督信號。然后, 片段間信息融合摘要生成模塊將采樣好的相互獨立片段聯系起來, 并生成片段在摘要生成期間的混合權重, 該權重由動態權重和全局權重組成。最后, 通過一致性損失機制, 將顯著性話語上下文窗口采樣模塊與片段間信息融合摘要生成模塊橋接起來。

1.1 問題定義

給定對話文本={1,2, …,u}和一個可選擇的查詢, 其中對話話語u代表每個角色r及其發言s的串聯表示, 即u=r:s。目標是生成長度為的摘要={1,2, …,y},y表示摘要的每個單詞。我們將該任務表示為訓練一個模型, 給定對話文本和可選的查詢及其第個時間步前生成的單詞yy, 直至生成長度為的摘要:

其中,表示模型的參數。

1.2 顯著性話語上下文窗口采樣模塊(CWS)

受提取–生成方法啟發, 對話中的顯著性話語對摘要生成的重要程度更高, 但是其相鄰的話語對摘要生成也具有重要作用。本文對話語u進行顯著性程度評估, 以顯著性話語程度高的前個話語作為采樣錨點, 將采樣窗口大小設為, 將對話采樣提取為包含顯著性話語的若干片段。

h=Encoder() , (3)

其中,h表示每個對話話語u的隱藏層狀態。

其中,代表多層感知機,表示參數。

接下來, 選擇顯著性程度高的前個對話話語作為采樣錨點S:

利用采樣窗口, 將對話文本采樣提取為個文本片段={1,2, …,T}, 每個文本片段的序列長度為。

最后, 將該摘要生成任務表示為

我們提取對話文本的若干重要話語o, 作為訓練顯著性話語上下文窗口采樣模塊的監督信號, 以便提取到顯著性話語作為采樣錨點。本文使用貪心算法提取重要話語o, 設置一個空集合, 迭代地從對話中選擇一個對話話語u放入集合中, 使得對話話語u和集合中已存在的對話話語的串聯表示與標準摘要的 ROUGE-1, ROUGE-2 和 ROUGE-L 的 F1平均值最大。對于訓練顯著性話語上下文窗口采樣模塊, 計算顯著性話語采樣錨點S與重要話語o的交叉熵損失(重要話語損失):

為顯著性話語上下文窗口采樣模塊的參數。

1.3 片段間信息融合摘要生成模塊(IF)

經過顯著性話語上下文窗口采樣模塊后, 從對話文本中提取出個文本片段, 但這個文本片段之間的信息被割裂。為了減緩這一不可避免的缺陷, 我們提出一個能夠融合各個片段之間信息的摘要生成模塊(IF)。該模塊在摘要生成模塊的編碼器與解碼器之間增加了個 Transformer 塊, 對片段間的信息進行交互, 并且得到生成摘要前片段的全局權重。

h=Encoder() , (9)

圖2 集成顯著性話語上下文窗口采樣方法的長對話生成摘要模型的整體框架

其中,1,2, …,T表示個片段。

片段間信息融合摘要生成模塊的損失函數表示為生成摘要與標準摘要的負對數似然函數:

其中,表示摘要生成模塊的參數,y表示生成的第個單詞。

1.4 一致性損失機制

2 實驗

2.1 數據集

QMSum[15]是一個基于查詢的多域會議總結任務, 包含產品會議(AMI[16])、學術會議(ICSI[17])、威爾士議會和加拿大議會的委員會會議 3 個領域的會議, 對話文本的平均長度為 9069 個單詞, 標準摘要的平均長度為 69 個單詞。將數據集分為訓練集(80%)、評估集(10%)和測試集(10%)。

2.2 基準模型對比

本文采用以下幾個基準模型進行對比實驗。

1) Pointer-Generator Network (PGNet)[18]: 是一個具有復制機制和覆蓋損失的序列到序列模型, 并且在許多生成任務中充當基線模型。

2) BART-large[2]: 是一種用于語言生成、翻譯和理解的去噪預訓練模型, 在許多生成任務上取得不錯的成果, 包括摘要和抽象問題的回答。

3) HMNet[8]: 是最先進的會議總結模型, 通過一個層次結構來處理長時間的會議記錄, 通過一個角色向量來描述發言者之間的差異。

4) DYLE[14]: 是一個動態的先提取再生成模型, 將提取器和生成器聯合訓練, 并將提取的文本片段視為潛在變量不斷優化提取器, 在長輸入摘要方面取得良好的性能。

5) SUMM[6]: 是一個用于長對話和長文檔的多階段摘要模型, 采用先分割文本后生成摘要的方法, 先生成粗粒度的摘要, 再生成細粒度的摘要。

2.3 評估指標和參數設置

我們采用 ROUGE 指標[19]評估摘要生成的質量, 包括 ROUGE-1, ROUGE-2 和 ROUGE-L, 每個指標都包含精確率、召回率和 F1 值。使用 pyrouge 軟件包來計算分數。

對于顯著性話語上下文窗口采樣模塊和片段間信息融合摘要生成模塊, 我們分別使用 RoBERTa-base[20]和 BART-large[2]作為骨干模型, 模型初始參數來自 DYLE[14]。

超參數設置: 顯著性話語采樣錨點S設置為25, 采樣窗口大小分別設為 100/300/500。片段間信息融合 Transformer 塊設置為 2。

在訓練階段, 隨機打亂訓練集, 采用批量訓練, 批量大小設置為 8。使用 Adam 優化器[21], 顯著性話語上下文采樣器的學習率為 0.00005, 片段間信息融合生成器的學習率為 0.0000005, 批量大小設置為 8, 訓練 4 個 epoch。使用一塊 NVIDIA A40, 顯存為 48G 的顯卡訓練。

3 結果和分析

3.1 評估結果

我們使用 ROUGE 評估指標來衡量生成的摘要質量, 采用 F1 值衡量各個模型之間的差別。在數據集 QMSum 上的評估結果如表 1 所示。本文方法在窗口大小為 500 的情況下, ROUGE-1, ROUGE-2和 ROUGE-L 取得的分數分別為 36.10, 11.50 和32.01, 性能表現優于基準模型。值得指出的是, 與提取生成方法 DYLE 相比, 本文模型有很大提升, 在 ROUGE-1, ROUGE-2 和 ROUGE-L 上分別提高1.68, 1.79 和 1.91, 證明顯著性話語周圍的話語對摘要生成也是重要信息, 通過對這些信息進行多重采樣可以增加模型的性能。與分割方法 SUMM相比, 本文模型有顯著性的提升, 只分別提升 2.07, 2.22 和2.53, 表明本文模型在一定程度上能夠充分利用對話文本的信息, 可以增強片段之間的聯系。

3.2 采樣窗口大小分析

為了探究采樣窗口大小對模型性能影響, 我們通過改變采樣窗口的值來評估模型生成摘要的ROUGE-1, ROUGE-2 和 ROUGE-L 的分數。由圖 3可知, ROUGE 分數隨采樣窗口的增大而增加, 這是因為包含的信息越多, 生成摘要的質量越好。另外, 當采樣窗口增大, 某些話語會被多次采樣到片段中, 表明這些話語對生成摘要質量的提升有重要作用。特別的是, 當采樣窗口大小為 300 時, ROUGE-2 和ROUGE-L 的分數提升較明顯, 在計算資源開銷與DYLE 相當的情況下, 本文模型生成的摘要質量比DYLE 好。

表1 QMSum數據集實驗結果

注: *表示 ROUGE 評估結果的提升具有統計顯著性(<0.01), 括號內數據表示窗口大小; 粗體數字表示最優結果。

3.3 消融分析

為了驗證本文模型的有效性, 在采樣窗口大小為 300 的情況下, 分別對顯著性話語上下文窗口采樣方法(CWS)與片段間信息融合(IF)方法進行消融實驗。在數據集 QMSum 上的消融實驗結果如表 2所示。

圖3采樣窗口大小對模型的性能影響

當去除顯著性話語上下文窗口采樣方法(CWS)后, ROUGE-1, ROUGE-2 和 ROUGE-L 分別下降0.61, 0.89 和 0.76。這表明 CWS 定位了顯著性程度高的話語作為采樣錨點, 進一步證明顯著性話語鄰近的話語也包含生成摘要的關鍵信息。當去除片段間信息融合方法(IF)后, ROUGE-1, ROUGE-2 和ROUGE-L 分別下降 0.66, 0.42 和 0.84, 表明將提取出來的各個對話片段進行上下文語義交互對生成摘要非常重要。如果把兩者都去除, 模型就退化為DYLE。從表 1 可以看出, 本文模型采樣的顯著性話語更豐富, 生成的摘要質量更高。

表2 在QMSum數據集的消融實驗結果

注: “–”表示在模型中刪除該方法。

3.4 案例分析

我們選取 QMSum 數據集中的兩個例子, 分別對模型 SDCWS 和 DYLE 進行對比。圖 4 為 DYLE生成的摘要在 ROUGE-L 上分數最高的例子與SDCWS 的對比?？梢钥闯? 在 DYLE 生成的最好摘要情況下, 模型 SDCWS 展現出與其相當的性能, 兩者之間生成的摘要內容重合度幾乎一樣。

圖 5 為模型 SDCWS 生成的摘要在ROUGE-L分數最高的例子與 DYLE 的對比?？梢钥闯? DYLE幾乎沒有生成與標準摘要相匹配的摘要, 而模型SDCWS 生成的摘要內容與標準摘要高度匹配, 摘要質量明顯好于 DYLE。因此, 顯著性上下文窗口采樣方法能提取更豐富的話語關系, 生成的摘要質量更好。

灰色文字表示與標準摘要匹配

4 結論

本文提出一種集成顯著性話語上下文窗口采樣方法的長對話摘要生成模型。該模型利用顯著性話語上下文窗口采樣模塊中的話語顯著性程度, 評估感知顯著性話語采樣錨點, 從而將顯著性話語鄰近的話語信息提取出來, 為摘要生成提供更豐富的話語信息。利用片段間信息融合摘要生成模塊, 有效地將提取出來的話語片段之間的語義相聯系, 提高了摘要質量。利用一致性損失機制, 將顯著性話語上下文采樣模塊和片段間信息融合摘要生成模塊聯合訓練, 鼓勵顯著性話語上下文窗口采樣模塊感知更佳的顯著性話語采樣錨點。在數據集 QMSum 上的實驗結果表明, 本文方法 SDCWS 顯著地優于現有的提取生成方法和分割生成方法。

未來的研究中, 將在多個長對話數據集中進行實驗, 進一步驗證本文方法的可靠性。同時, 將在長文檔數據集上驗證本文模型對長文本摘要的通用性。

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // NIPS. Long Beach, 2017: 5998–6008

[2] Lewis M, Liu Yinhan, Goyal N, et al. BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension // Procee-dings of the 58th Annual Meeting of the Association for Computational Linguistics. Online Meeting, 2020: 7871–7880

[3] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 2020, 21(1): 1–67

[4] Tang Tianyi, Li Junyi, Chen Zhipeng, et al. TextBox 2.0: a text generation library with pre-trained language models // Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Abu Dhabi, 2022: 435–444

[5] Gidiotis A, Tsoumakas G. A divide-and-conquer app-roach to the summarization of long documents. IEEE/ ACM Transactions on Audio, Speech, and Language Processing, 2022, 28: 3029–3040

[6] Zhang Yusen, Ni Ansong, Mao Ziming, et al. SUMM: a multi-stage summarization framework for long input dialogues and documents // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin, 2022: 1592–1604

[7] Kitaev N, Kaiser L, Levskaya A. Reformer: the effi-cient transformer [EB/OL]. (2020–01–13)[2023–05–30]. https://arxiv.org/abs/2001.04451

[8] Zhu Chenguang, Xu Ruochen, Zeng M, et al. A hie-rarchical network for abstractive meeting summa-rization with cross-domain pretraining // Empirical Methods in Natural Language Processing (EMNLP). Online Meeting, 2020: 194–203

[9] Sun Xiaofei, Sun Zijun, Meng Yuxian, et al. Sum-marize, outline, and elaborate: long-text generation via hierarchical supervision from extractive summaries // Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, 2022: 6392–6402

[10] Bajaj A, Dangati P, Krishna K, et al. Long document summarization in a low resource setting using pre-trained language models // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Krishna, 2021: 71–80

[11] Zhang Haoyu, Cai Jingjing, Xu Jianjun, et al. Pre-training-based natural language generation for text summarization // Proceedings of the 23rd Conference on Computational Natural Language Learning. Hong Kong, 2019: 789–797

[12] Logan L, Song Kaiqiang, Dernoncourt F, et al. Sco- ring sentence singletons and pairs for abstractive summarization // Proceedings of the 57th Annual Mee-ting of the Association for Computational Linguistics. Florence, 2019: 2175–2189

[13] Xu Jiacheng, Durrett G. Neural extractive text summa-rization with syntactic compression // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, 2019: 3292–3303

[14] Mao Ziming, Wu Chen, Ni Ansong, et al. DYLE: dynamic latent extraction for abstractive long-input summarization // Proceedings of the 60th Annual Mee-ting of the Association for Computational Linguistics. Dublin, 2022: 1687–1698

[15] Zhong Ming, Yin Da, Yu Tao, et al. QMSum: a new benchmark for query-based multi-domain meeting summarization // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Techno-logies. Online Meeting, 2021: 5905–5921

[16] Carletta J, Ashby S, Bourban S, et al. The AMI meeting corpus: a pre-announcement // International Workshop on Machine Learning for Multimodal Interaction. Berlin, 2005: 28–39

[17] Janin A, Baron D, Edwards J, et al. The ICSI mee- ting corpus // 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing. Hong Kong, 2003: 7769054

[18] See A, Liu P J, Manning C D. Get to the point: sum-marization with pointer-generator networks // Procee-dings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, 2017: 1073– 1083

[19] Lin C Y. ROUGE: a package for automatic evaluation of summaries // ACL. Barcelona, 2004:74–81

[20] Liu Zhuang, Lin Wayne, Shi Ya, et al. A robustly optimized BERT pre-training approach with post-training // Proceedings of the 20th Chinese National Conference on Computational Linguistics. Huhhot, 2021: 1218–1227

[21] Kingma D P, Ba J. Adam: a method for stochastic optimization [EB/OL]. (2015–06–23) [2023–05–30]. https://arxiv.org/abs/1412.6980v6

A Long Dialogue Summary Model Integrating Salience Discourse Context Window Sampling Methods

WU Jie1, WANG Pengming2,?, XIONG Zhengkun1

1. School of Information Engineering, East China Jiaotong University, Nanchang 330013; 2. School of Data Science and Artificial Intelligence, Wenzhou University of Technology, Wenzhou 325035; ? Corresponding author, E-mail: zhangwuji115@163.com

A long dialogue summary generation model with integrated salience discourse context window sampling method (SDCWS) is proposed according to the characteristics of dialogue corpus. The model is divided into two modules. 1) The salience discourse context window sampling module (CWS) evaluates the dialogue discourse for salience, uses the salient discourse as the sampling anchor point, and then sets the sampling window to extract the discourse adjacent to the left and right of the sampling anchor point together as fragments, containing richer discourse relations. 2) The inter-fragment information fusion summary generation module (IF) uses the transformer block to fuse information from mutually independent fragments, enhancing the semantic relationships between fragments and assigning blended weights to fragments during summary generation. The loss-of-consistency mechanism is used to encourage the salience discourse context window sampling module to determine better sampling anchors. Experimental results on the publicly available query-based long conversation summary dataset QMSum show that scores of the proposed model are significantly higher than the best existing model on the ROUGE evaluation metric.

long dialogue summary; window sampling; salient discourse; information fusion; generating models