?

基于Prompt的兩階段澄清問題生成方法

2024-03-05 10:30王培冰張寧張春
計算機應用研究 2024年2期

王培冰 張寧 張春

收稿日期:2023-07-02;修回日期:2023-08-23? 基金項目:國家重點研發計劃資助項目(2019YFB1405202)

作者簡介:王培冰(1997—),男,河南許昌人,碩士研究生,主要研究方向為自然語言處理(21120463@bjtu.edu.cn);張寧(1958—),男,北京人,研究員,博導,博士,主要研究方向為鐵路信息、智能信息處理、嵌入式系統;張春(1966—),女(滿族),北京人,研究員,博導,碩士,主要研究方向為鐵路信息、智能信息處理.

摘? 要:在自然語言相關系統中,當用戶輸入存在歧義時,生成澄清問題詢問用戶有助于系統理解用戶需求;基于Prompt的方法可以更好地挖掘預訓練語言模型的潛在知識,但往往需要手動設計模板,限制其生成澄清問題的多樣性。為解決這一問題,提出了TSCQG(two-stage clarification question generation)方法。首先,在動態Prompt模板生成階段,利用歧義上下文和預訓練語言模型生成動態的Prompt模板;然后在缺失信息生成階段,將Prompt模板與外部知識相結合,充分利用預訓練語言模型的生成能力生成相應的缺失信息。實驗結果表明,在CLAQUA數據集的多輪對話情況中,BLEU值和ROUGE-L值分別達到了58.31和84.33,在ClariQ-FKw數據集上,BLEU值和ROUGE-L值分別達到了31.18和58.86。實驗結果證明了TSCQG方法在澄清問題生成任務上的有效性。

關鍵詞:預訓練語言模型;Prompt;澄清問題生成;自然語言系統

中圖分類號:TP391??? 文獻標志碼:A

文章編號:1001-3695(2024)02-015-0421-05

doi:10.19734/j.issn.1001-3695.2023.07.0271

Two-stage clarification question generation method based on Prompt

Wang Peibing,Zhang Ning,Zhang Chun

(School of Computer & Information Technology,Beijing Jiaotong University,Beijing 100044,China)

Abstract:In natural language-oriented systems,generating clarification questions to ask users when their input is ambiguous can help the system better understand the users requirements.Although Prompt-based approaches can better exploit the latent knowledge of pre-trained language models,they often require hand-designed templates,constraining their diversity in generating clarification questions.To address this limitation,this paper proposed the two-stage clarification question generation(TSCQG) method.Firstly,in the dynamic Prompt template generation stage,the TSCQG method used the ambiguous context and the pre-trained language models to generate Prompt templates.Then,in the missing information generation stage,it combined the Prompt templates and relevant external knowledge and capitalized on the generative potential of the pre-trained model to gene-rate relevant missing information.Experimental results demonstrate that the BLEU value and ROUGE-L value of the multi-round dialogue situation on the CLAQUA dataset reach 58.31 and 84.33,and the BLEU value and ROUGE-L value on the ClariQ-FKw dataset reach 31.18 and 58.86,respectively.The experimental results validate the effectiveness of the TSCQG method in clarification question generation tasks.

Key words:pre-trained language model;Prompt;clarification question generation;natural language system

0? 引言

在一些需要與人進行交互的自然語言系統中,比如對話系統、搜索系統等,用戶的輸入難免會因為詞匯的多義性、上下文信息缺失等原因導致系統難以理解用戶的意圖,最終導致系統返回給用戶不準確的答案,降低用戶的體驗度。在對話系統中,對話出現歧義是很常見的現象,如何處理自然語言的歧義性將是模型優化中的一個關鍵挑戰。Liu等人[1]發現即使是大型自然語言處理模型如GPT-4[2],也面臨著語言歧義導致模型難以準確理解句子真正含義的問題。Shao等人[3]指出澄清問題生成(clarification question generation,CQG)是指當用戶的輸入存在歧義時,系統可以向用戶生成自然語言問題來對缺失信息提問以滿足信息需求。Zou等人[4]通過調查發現,對于用戶的歧義輸入,提供針對性的澄清問題可以大幅度減少用戶與系統的交互,提高搜索結果的準確性,從而提高用戶滿意度。

目前對于CQG的研究還相對較少,主要可以分為自動生成的方法和基于模板的方法。對于自動生成的方法,主要是通過歧義上下文和外部信息直接生成澄清問題,如Rao等人[5]基于生成對抗網絡使用強化學習算法來生成澄清問題,之后使用基于相關答案的判別器對生成的澄清問題進行評估,從而優化生成器模型。而基于模板的方法則是預定義一些澄清問題模板來引導生成澄清問題,如Xu等人[6]采用分階段生成澄清問題的思想,首先將歧義上下文輸入到模板生成模塊中來生成相關澄清問題模板,再通過實體渲染模塊來生成槽位詞,最終生成澄清問題;Wang等人[7]基于模板引導澄清問題生成,通過交叉注意力機制來訓練模型學習用戶的輸入、外部知識以及模板信息之間的關系,以此找到最合適的模板和槽位詞。然而對于自動生成的方法,其效果高度依賴于訓練數據的數量和質量,在訓練數據量較小或質量較差的情況下,生成的澄清問題質量會受到較大影響,可能會出現語法錯誤、生成的澄清問題過于一般化等問題,同時整個過程解釋性較差。對于基于模板的方法,雖然可以保證最終澄清問題的質量不會出現語法錯誤,但是需要人工對數據集進行統計分析并從中觀察,手動設計對于該數據集較為通用的模板。該方法可擴展性較差,其生成的結果缺乏多樣性,同時耗費大量人力。

近幾年,隨著數據量和計算能力的增加,各大研究機構開始利用大規模的數據集和計算資源預訓練語言模型,如谷歌的BERT[8]、OpenAI提出的GPT[9]系列模型等。這些預訓練模型使用海量的數據和大量的計算資源進行訓練,能夠捕捉更多的語言結構、語義信息和常識,從而提高了模型的泛化能力。為了讓預訓練模型更好地適應具體任務,研究人員逐漸采用預訓練-微調策略,在此策略下,模型在大規模數據集上進行預訓練,然后下游任務訓練微調某些層或參數以適應具體任務。如Majumder等人[10]為生成高質量的澄清問題,首先通過全局和局部的知識對比找到缺失信息,然后再通過BART[11]和PPLM[12]生成有效的澄清問題。

將預訓練語言模型應用在澄清問題生成任務中將會極大提升模型理解用戶歧義和生成澄清問題的能力,然而如果預訓練語言模型和下游任務訓練目標不同,會產生兩者之間的差異?;赑rompt范式的方法可以更好地激發預訓練模型所蘊涵的知識,Prompt范式的思想是通過某個模板將要解決的問題轉換成語言模型預訓練任務類似的形式來進行處理。如圖1所示,對于用戶的初始輸入,通過結合相關模板的方式將其轉換成預訓練模型訓練時的輸入形式。例如,為了預測文本“I missed the bus today.”的情感類型,可以使用Prompt模板構建“I missed the bus today.I felt so[MASK]”并使用遮蓋語言模型 MLM(masked language model) 來預測[MASK]的輸出,而[MASK]的輸出就是文本的情感類型。但是Prompt性能的好壞非常依賴于模板以及表意與任務的匹配程度,大部分工作依然采用手工方式構建模板和表意,即使是經驗豐富的設計者也難以人工發現最優的Prompt模板。為了能夠動態地生成Prompt模板來激發大規模預訓練語言模型蘊涵的知識,最終生成流利順暢且多樣性較高的澄清問題,本文提出了基于Prompt的兩階段澄清問題生成方法TSCQG。在動態Prompt模板生成階段,通過用戶輸入的歧義上下文,先動態生成合適的Prompt模板;在缺失信息生成階段,通過上一階段生成的Prompt模板和相關的外部知識生成對應的澄清問題所需要的缺失信息;最后將缺失信息插入到Prompt模板中生成最終的澄清問題。通過實驗,TSCQGY方法在CLAQUA[6]和ClariQ-FKw[13]兩個公開的英文澄清問題數據集上的性能相比于現有的基線均有所提升,實驗結果說明了TSCQG方法的有效性。

1? 基于Prompt的兩階段澄清問題生成研究

TSCQG方法如圖2所示,它主要由動態Prompt模板生成模塊和缺失信息生成模塊兩部分組成。在動態Prompt模板生成階段,先利用T5(text-to-text transfer transformer)[14]模型,通過用戶輸入的歧義上下文信息自適應地生成合適的Prompt模板,該模板不僅為下一階段生成澄清問題缺失信息提供先驗知識,同時也為最終生成的澄清問題提供框架。在缺失信息生成階段,主要是利用上一階段生成的模板和相關的外部知識,基于Prompt范式使用BART(bidirectional and auto-regressive transformer)[11]模型,讓模型識別出對于該澄清問題模板,相關外部知識的哪些重要信息能夠補全澄清問題的缺失信息,最后將缺失信息插入到Prompt模板中,生成完整的澄清問題。

1.1? 問題定義與解決方案

本文中,澄清問題生成任務的定義為:給定有歧義的上下文C=[c1,c2,…,clenc],lenc表示歧義上下文的長度,ci表示歧義上下文第i個token;歧義上下文相關的外部知識K=[k1,k2,…,klenk],lenk表示外部知識的長度,ki表示第i個外部知識的token。模型可以輸出一個澄清問題Q=[q1,q2,…,qlenq]來詢問用戶關于歧義上下文C的缺失信息,以此滿足信息需求,其中lenq表示輸出澄清問題的長度,qi表示澄清問題的第i個token。歧義上下文是指在歷史上下文對話語句中,用戶的輸入未能明確表達自己的意圖,其常見的特征包括詞語的多義性、語義角色的模糊性等;外部知識為歧義上下文中相關實體的外部信息。以CLAQUA數據集為例,輸入的歧義上下文C為“What is Aldaras ingredient?”,其中相關的外部知識K為關于Aldara的實體類型和描述,由外部知識可知,關于Aldara,一種是“brand Aldara”,另一種是“non brand Aldara”,因此模型生成澄清問題Q為“Which one do you mean,brand Aldara or non brand Aldara,when you say the active constituent?”來詢問用戶想問的是哪類Aldara。受文獻[6]的啟發,本文并不是直接將歧義上下文C和外部知識K一起作為輸入,而是將此任務視為兩階段的任務來處理。在動態Prompt模板生成階段,使用歧義上下文C生成Prompt模板T:“Which one do you mean,[MASK],when you say the active constituent?”;在缺失信息生成任務,使用Prompt模板T和外部知識K生成缺失信息M:“brand Aldara or non brand Aldara”。最終將T和M結合生成澄清問題Q。

1.2? 動態Prompt模板生成模塊

在動態Prompt模板生成任務中,可以將任務描述為

T=f(C,Θ1)(1)

其中:Θ1是模型的參數。Prompt模板T是將澄清問題的缺失信息用[MASK]替換之后的序列。如Aldara的例子中,歧義上下文C為“What is Aldaras ingredient?”,Prompt模板T為“Which one do you mean,[MASK],when you say the active constituent?”為該任務的輸出。由于Prompt模板中不包含相關的缺失信息,所以也就無須結合相關的外部知識,只需將歧義上下文作為輸入,再利用大規模預訓練語言模型的優勢就可以很好地生成。需要注意的是,因為生成的模板中需要包含[MASK],所以在訓練時需要先將[MASK]當作一個token加入到模型的分詞器中。該任務選取的預訓練語言模型為T5模型,T5模型采用了Transformer[15]網絡結構,通過自監督的方式進行多任務學習,然后對這些轉換后的文本進行無監督訓練,從而獲得一種通用的表示能力。T5模型的架構包括編碼器和解碼器,分別用于對輸入文本進行編碼和解碼。編碼器和解碼器由多個Transformer塊組成,每個塊由多頭自注意力機制、前饋網絡以及層歸一化組成。在本文中,模型輸入的是用戶的歧義上下文,輸出為動態的Prompt模板。

為了捕捉歧義上下文中不同位置的相關性,進而對輸入序列編碼,在T5的編碼階段使用了多頭注意力機制對嵌入向量進行計算。首先將歧義上下文C變為嵌入向量X=[x1,x2,…,xn],xi∈Euclid Math TwoRApdembedding,其中每個xi是輸入序列中對應的嵌入詞向量,dembddding為嵌入向量的維度。對于T5的位置編碼,采用的是相對位置編碼,即每個位置編碼都是一個標量,并添加到每一個嵌入詞向量中。然后通過X和三個參數矩陣WQ、WK、WV的計算來獲得每個注意力頭的查詢向量Q、鍵向量K和值向量V,其中Q=XWQ、K=XWK、V=XWV,WQ,WK,WV∈Euclid Math TwoRApdmodel×dk是模型可學習的參數,dk表示預定義的單頭維度。自注意力計算公式為

Att(Q,K,V)=softmax(QKTdk)V(2)

第i個頭的注意力得分為headi=Attention(Qi,Ki,Vi),那么最終的多頭注意力機制得分為

mulAtte(Q,K,V)=concat(head1,head2,…,headh)·Wo(3)

其中:concat表示將每個頭的注意力張量拼接起來;h表示頭的數量;Wo為可學習的參數矩陣。

為防止模型梯度爆炸或梯度消失,采用殘差網絡和層歸一化對輸出向量Z進行處理。T5采用了一種簡化版的layer normalization,去除了layer norm的bias,并且將layer norm放在殘差連接外面。T5模型的解碼層用于將歧義上下文的編碼進行解碼,輸出所需的Prompt模板。解碼模塊與編碼模塊非常相似,由多層堆疊的子模塊組成,每一層主要包括遮掩多頭自注意力機制、交叉注意力機制和全連接前饋網絡。解碼器的輸入是編碼器的輸出向量以及目標Prompt模板中已經生成的部分,用來生成下一個目標詞語的概率分布,并根據該分布生成目標詞匯,一直循環進行直到輸出整個序列,其中的每個詞匯都是根據其前面已經生成的詞匯而生成的。模型的損失函數為交叉熵損失函數和正則化項的加權和。交叉熵損失函數可用于度量生成序列與目標序列的相似程度,正則化項在損失函數中被廣泛使用以避免模型過擬合,相關公式如下:

lossce(x,y)=-1L∑Lt=1yt log (st)(4)

其中:L表示序列的長度;yt表示目標序列中第t個token的one-hot表示;st表示模型在第t個時間步的輸出。

lossreg(θ)=12‖θ‖22(5)

其中:θ表示模型的參數;‖θ‖22表示θ各個元素的平方和,即模長的平方。

loss=α lossce(x,y)+β lossreg(θ)(6)

其中:α和β分別表示交叉熵損失函數和正則化項的權重。

1.3? 缺失信息生成模塊

對于缺失信息生成任務可以表述為

M=f(T,K,Θ2)(7)

其中:Θ2為模型的參數。在該任務中,通過第一階段生成的模板T和相關的外部知識K,利用Prompt的思想,使用大規模預訓練語言模型生成缺失信息M,再將T和M結合生成澄清問題Q。如Aldara的例子中,模型需要上個任務生成的Prompt模板和相關的外部知識來生成缺失信息“brand Aldara or non brand Aldara”。

BART模型是一種用于生成式自然語言處理任務的預訓練語言模型,其預訓練任務主要有text infilling和sentence permutation,主要是將帶有噪聲的文本輸入到模型中去,模型的任務是將其還原為正常的序列。通過這種方式,BART可以利用部分信息重新構建整個文本。而在缺失信息生成模塊,該階段的任務同樣是對上一階段生成的模板中[MASK]信息的預測,這與BART的text Infilling預訓練任務是非常接近的。因此,上一階段動態生成的Prompt模板可以很好地利用到BART學習到的知識來生成相關缺失信息。

BART模型采用的是標準Transformer模型,其包含的編碼器和解碼器都與Transformer模型基本一致,不過做了一些改變,比如將ReLU激活函數改為GeLU激活函數,還有將解碼器的各層對編碼器最終隱藏層額外執行cross-attention等。

在該模塊,輸入的是Prompt模板T和外部知識K,兩者通過〈SEP〉特殊符號連接起來,其輸入記為U={t1,t2,…,[MASK],…,tlent,〈SEP〉,k1,…,klenk},其中ti為Prompt模板序列,ki為外部知識序列。首先將U輸入到編碼器中:

Z=Encoder(U)(8)

編碼器將輸入序列U轉換為一個捕捉了輸入序列語義信息的上下文編碼信息Z,之后將Z輸入到解碼器中;解碼器通過自回歸的方式逐步生成每一個token,直到生成完整的缺失信息M。

M1:i=Decoder(Z,M1:i-1)(9)

自回歸過程中,解碼器根據上下文編碼信息Z和已生成的部分序列M1:i-1 來生成下一個標記M1:i。模型最終得到的是Prompt模板中的缺失信息,也就是對[MASK]位置的相關預測。

模型的損失函數為交叉熵損失函數,用于度量生成的序列與目標序列之間的差異。損失函數的計算如下:

loss=-∑mi=1log P(Mi|Z,M1:i-1)(10)

其中:P(Mi|Z,M1:i-1)表示在給定上下文表示Z和已生成的部分序列M1:i-1的條件下,生成下一個標記Mi的概率。

2? 實驗及分析

2.1? 數據集

本文實驗采用CLAQUA和ClariQ-FKw數據集來評估TSCQG方法的性能。這兩個數據集的統計信息如表1所示。

CLAQUA數據集于2019年公開發布,涵蓋多個領域的對話和相應的澄清問題,并支持三種與澄清相關的任務,包括澄清識別、澄清問題生成和基于澄清的問題回答。本實驗主要關注澄清問題生成任務,該數據集包含單回合對話情況和多回合對話情況。在本實驗中對這兩種情況都進行了測試。ClariQ-FKw為對話搜索相關的數據集,包含(query,fact,quesiton)三元組,query是用戶的初始查詢,fact是相關的類型信息,question是人工生成的澄清問題。數據集包含1 756個訓練示例和425個驗證示例。由于沒有測試集,將訓練集的20%作為測試集。

2.2? 基線模型

本文選取了三個文本生成模型Transformer、Coarse-to-fine[6]、SHiP[3]作為基線模型。其中Transformer采用傳統的編碼器-解碼器框架,該框架首先將歧義上下文通過注意力機制進行編碼,然后依次解碼為目標澄清問題;Coarse-to-fine由模板生成模塊和實體渲染模塊組成,分別生成模板和槽位詞組成最終的澄清問題;SHiP是端到端的自監督模型,該框架結合了分層Transformer機制和指針生成器機制來生成澄清問題。

2.3? 實驗細節

對于數據集CLAQUA,在動態Prompt模板生成階段,需要先將輸入的上下文和相關的外部知識分離出來,只需要用上下文來生成模板。在缺失信息生成階段,需要將模板和外部知識通過〈SEP〉符號連接起來并輸入到BART模型中去。而對于ClariQ-FKw數據集,由于目標澄清問題沒有預定義的模板,通過觀察數據發現,絕大部分澄清問題的形式都是類似的,可以先進行數據預處理,將目標澄清問題分離出澄清問題模板和缺失信息兩部分以供模型訓練。

本文中T5和BART的模型參數均使用預訓練模型的參數進行初始化。兩階段的訓練超參數基本一致,優化器采用的是Transformers庫提供的AdamW[16]動態優化算法。學習率設為2E-5,在訓練時,對學習率進行調整以優化模型的性能,學習率調整器的類型設為Linear,預熱步數設為50。在兩個模型上微調的epoch均為20。實驗中對比的基線模型,超參數均參考原始論文及其代碼設置。

2.4? 實驗結果及分析

為驗證TSCQG方法的有效性,在兩個澄清問題生成數據集上與基線模型進行對比,同時在這兩個數據集上進行消融實驗,對兩階段澄清問題生成方法的有效性和Prompt范式的有效性進行了驗證,并測試了模型參數規模對實驗結果的影響。

2.4.1? 性能對比分析

表2給出了各個模型在各個數據集上的實驗結果,以及消融實驗和模型參數對比實驗的結果。從實驗結果可以看出,標準的Transformer模型在生成澄清問題方面已經具備了一定的能力,證明了Transformer的編碼器-解碼器框架對于澄清問題生成任務的有效性。Coarse-to-fine模型的性能高于Transfomer模型,說明在編碼器-解碼器框架的基礎上分別生成模板和缺失信息對于生成澄清問題是有意義的。SHiP模型的效果更進一步說明使用自監督的方式對模型進行預訓練以及分層Transformer機制和指針生成機制對生成任務的有效性。而TSCQG方法性能均優于基線模型,首先這得益于大規模預訓練模型的潛在知識,同時基于Prompt范式的兩階段方式可以更好地激發大規模語言模型蘊涵的知識,使其生成的澄清問題更加流利通順且多樣性高。

2.4.2? 消融實驗

為驗證兩階段生成方法的有效性,設計了消融實驗no-BART,直接將上下文信息和外部知識結合起來,然后輸入到T5模型中去生成澄清問題。為驗證Prompt范式的有效性,設計了消融實驗no-T5,不使用Prompt模板,單單利用外部知識來生成缺失信息。從no-BART消融實驗可以看出,得益于大規模預訓練語言模型的潛在知識,直接將上下文和外部知識結合起來,雖然生成的澄清問題效果不錯,但是性能依然略低于TSCQG,證明了兩階段生成方式的有效性。no-T5實驗性能低于TSCQG的性能,證明了通過Prompt模板,能夠更好地激發BART模型的預訓練知識,生成更為準確的缺失信息。

2.4.3? 對比實驗

為驗證T5和BART模型在本任務中相較于其他模型更有優勢,使用BERT和UniLM[17]模型分別替換T5和BART模型,設計了對比實驗BERT-BART、T5-BERT、UniLM-BART、T5-UniLM。由表2結果可知,雖然BERT和UniLM也屬于大規模預訓練語言模型,但是無論是替換T5還是替換BART,其結果都不如T5和BART相結合的性能,說明在動態生成Prompt模板方面,T5模型可以根據上下文信息生成質量更高的Prompt模板;在缺失信息生成方面,Prompt模板可以更好地激發BART模型的潛在知識,生成更準確的缺失信息。

2.4.4? 模型參數對模型性能的影響

為評估參數對模型性能的影響,設計了實驗R-T5-small,即使用T5-small模型來替代T5模型;設計了實驗R-BART-small,即使用BART-small模型來替代BART模型。

T5-small模型的參數規模約為原模型的1/3,BART-small模型的參數規模約為原模型的1/8,然而兩者與TSCQG的模型性能相差不多,甚至在CLAQUA的multi-turn數據集上,R-BART-small要優于TSCQG,其原因是BART模型的參數更多,需要更多的訓練數據來準確地估計這些參數。而CLAQUA數據集的規模不足,與BART模型的參數規模不匹配,模型可能無法充分學習到參數之間的關系,導致性能下降。同時過多的參數也可能使得模型更容易過度擬合訓練數據,導致在測試數據上的性能下降。

2.5? 樣例分析

如表3所示,本文挑選了CLAQUA中multi-turn數據集的兩條數據作為樣例,將TSCQG生成結果與其他兩種模型的生成結果進行對比。通過觀察可以發現,TSCQG生成的澄清問題相較于Coarse-to-fine和SHiP包含更多必要的關鍵詞或短語,能夠準確地針對原問題中的模糊之處進行澄清,并且能夠引導回答者提供具體的信息或解釋。

3? 結束語

生成澄清問題對提高自然語言系統理解用戶準確語義有著重大意義,目前基于大規模預訓練語言模型微調的方法還較少,而Prompt范式的方法可以更好地激發大規模語言模型蘊涵的知識。為將基于Prompt范式的方法應用到澄清問題生成任務中,同時可以動態地生成Prompt模板,本文提出了基于Prompt的兩階段澄清問題生成方法TSCQG。在動態Prompt模板生成階段,通過將歧義上下文輸入到T5模型中生成Prompt模板;在缺失信息生成階段,通過Prompt模板和相關外部知識來生成缺失信息,最終將兩者組合成完整的澄清問題。從實驗結果可以看到,TSCQG優于其他基線模型。 澄清問題生成可以幫助對話系統更好地與用戶進行交互,進一步提升用戶體驗。隨著對話系統的發展,澄清問題生成會更加智能化和靈活,未來的澄清問題生成可以通過自適應學習和個性化技術,根據用戶的偏好和歷史對話數據生成更適合用戶的澄清問題,這將提升對話系統的個性化服務和用戶滿意度。同時,未來的澄清問題生成可以更加充分利用知識圖譜和上下文信息,通過結合知識圖譜中實體和關系信息以及對話的上下文,澄清問題生成可以更準確地理解用戶的意圖,生成更具針對性的澄清問題。目前關于澄清問題生成的數據集還相對較少,而大部分的方法也都是有監督的學習,未來的研究將進一步探索如何在小樣本或者零樣本的基礎上生成通順且特異的澄清問題。

參考文獻:

[1]Liu A,Wu Zhaofeng,Michael J,et al.Were afraid language models arent modeling ambiguity[EB/OL].(2023-04-27).https://arxiv.org/pdf/2304.14399.pdf.

[2]OpenAI.GPT-4 technical report[EB/OL].(2023-03-27).https://arxiv.org/pdf/2303.08774.pdf.

[3]Shao Taihua,Cai Fei,Chen Wanyu,et al.Self-supervised clarification question generation for ambiguous multi-turn conversation[J].Information Sciences,2022,587(3):626-641.

[4]Zou Jie,Aliannejadi M,Kanoulas E,et al.Users meet clarifying questions:toward a better understanding of user interactions for search clarification[J].ACM Trans on Information Systems,2023,41(1):article No.16.

[5]Rao S,Daumé III H.Answer-based adversarial training for generating clarification questions[C]//Pro of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:143-155.

[6]Xu Jingjing,Wang Yuechen,Tang Duyu,et al.Asking clarification questions in knowledge-based question answering[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2019:1618-1629.

[7]Wang Jian,Li Wenjie.Template-guided clarifying question generation for Web search clarification[C]//Proc of the 30th ACM International Conference on Information & Knowledge Management.New York:ACM Press,2021:3468-3472.

[8]Devlin J,Chang Mingwei,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:4171-4186.

[9]Brown T,Mann B,Ryder N,et al.Language models are few-shot lear-ners[C]//Proc of the 34th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2020:1877-1901.

[10]Majumder B P,Rao S,Galley M,et al.Ask whats missing and whats useful:improving clarification question generation using global know-ledge[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2021:4300-4312.

[11]Lewis M,Liu Yinhan,Goyal N,et al.BART:denoising sequence-to-sequence pre-training for natural language generation,translation,and comprehension[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2020:7871-7880.

[12]Dathathri S,Madotto A,Lan J,et al.Plug and play language models:a simple approach to controlled text generation[EB/OL].(2020-03-03).https://arxiv.org/pdf/1912.02164.pdf.

[13]Sekulic′ I,Aliannejadi M,Crestani F.Towards facet-driven generation of clarifying questions for conversational search[C]//Proc of ACM SIGIR International Conference on Theory of Information Retrieval.New York:ACM Press,2021:167-175.

[14]Raffel C,Shazeer N,Roberts A,et al.Exploring the limits of transfer learning with a unified text-to-text transformer[J].Journal of Machine Learning Research,2020,21(1):5485-5551.

[15]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.

[16]Loshchilov I,Hutter F.Decoupled weight decay regularization[EB/OL].(2019-01-04).https://arxiv.org/pdf/1711.05101.pdf.

[17]Dong Li,Yang Nan,Wang Wenhui,et al.Unified language model pre-training for natural language understanding and generation[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:13063-13075.

[18]Rao S,Daumé III H.Learning to ask good questions:ranking clarification questions using neural expected value of perfect information[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2737-2746.

[19]Zhang Zhiling,Zhu K.Diverse and specific clarification question generation with keywords[C]//Proc of the Web Conference.New York:ACM Press,2021:3501-3511.

[20]Wang Zhenduo,Tu Yuancheng,Rosset C,et al.Zero-shot clarifying question generation for conversational search[C]//Proc of the ACM Web Conference.New York:ACM Press,2023:3288-3298.

[21]Imran M M,Damevski K.Using clarification questions to improve software developers Web search[J].Information and Software Technology,2022,151(11):107021.

[22]Zhao Ziliang,Dou Zhicheng,Mao Jiaxin,et al.Generating clarifying questions with Web search results[C]//Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2022:234-244.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合