?

知識驅動的對話生成模型研究綜述

2024-01-11 13:14許璧麒馬志強周鈺童賈文超
計算機與生活 2024年1期
關鍵詞:結構化研究者實體

許璧麒,馬志強,2+,周鈺童,賈文超,劉 佳,呂 凱

1.內蒙古工業大學數據科學與應用學院,呼和浩特 010080

2.內蒙古工業大學內蒙古自治區基于大數據的軟件服務工程技術研究中心,呼和浩特 010080

對話系統作為人工智能領域最重要的分支之一,目標是使機器通過人類語言與人進行交互,并具有極大的學術價值和商業價值,而同時也面臨著巨大的挑戰。早在1950 年,圖靈在Mind[1]上發表文章提出了采用人機交互的方式來檢驗機器智能,之后國內外研究者們對如何建立對話系統展開了深入的研究。目前主要的對話系統主要包括任務型對話系統和開放域對話系統。任務型對話系統致力于幫助用戶完成任務,而開放域對話系統的主要目的是產生與人類相似的回復,從而提高用戶的使用體驗。開放域對話系統的良好表現是人機交互的最終目標,因此成為了自然語言研究領域最具吸引力的領域之一[2-6]。盡管研究者們提出了多種用于對話生成的模型,但這些模型通常會生成通用的回復,并不能提供適當的信息,原因在于這些模型僅能從對話數據中學習語義交互,而并不能深入理解用戶輸入、背景知識和對話上下文。因此,研究者們發現,外部知識是人類在對話中打算使用的知識信息,如果模型能夠訪問和充分利用外部知識,那么它就可以更好地理解對話,從而生成恰當的回復,推動對話的順利進行。最近,為了解決這一問題,研究者們嘗試通過引入外部知識來增強對話生成模型對輸入語句的理解,使對話生成模型利用外部知識中提供的信息來生成擬人的回復。

知識驅動對話生成任務旨在利用不同形式的知識來強化對話生成模型來生成更合理、更具多樣性、更富含信息量和擬人的回復。Lowe等[7]和Dodge等[8]最早嘗試在對話系統中引入外部知識,提出了知識驅動的對話生成任務。目前,研究者們針對對話生成模型引入外部知識展開了一些研究,這些引入的知識可以分為結構化知識和非結構化知識。結構化知識也可以被稱為知識圖譜,以知識三元組的形式存在,目前常用的知識圖譜根據儲存內容的不同可以分為:通用知識圖譜、行業知識圖譜和任務知識圖譜。其中通用知識圖譜有YAGO[9]、Wikidata[10]、Freebase[11]、DBpedia[12]、ConceptNet[13]等;行業知識圖譜有MusicBrainz[14]、GeoNames[15]、DrugBank[16]等;任務知識圖譜有WikiM[17]、DB111K-174[18]、IsaCore[19]等。結構化知識便于檢索,能夠有效地表示出不同實體之間的關聯信息。Xu 等[20]將一個結構化的特定領域的知識庫整合到一個具有回憶門機制的對話生成模型中。Zhu 等[21]提出了一個使用復制網絡的端到端的對話生成模型,并引入結構化知識。Zhou 等[22]將大規模的常識知識引入到對話生成模型中,使用動態注意力促進模型更好地生成回復。Liu等[23]將知識圖譜和文本文檔互相融合,產生了相互強化的優勢,進一步強化了模型生成對話的能力。然而,由于結構化知識存在著有效信息少的問題。越來越多的研究者們開始關注如何引入非結構化知識到開放域對話系統中,這種知識通常由文本形式的事實描述組成,其中包含了豐富的語義信息,可以有效促進對話生成,在開放域對話場景中得到廣泛應用。Zhou 等[24]提出了一個基于文檔的數據集,并且將文檔中的知識和對話歷史拼接在一起送入解碼器中以生成回復。Li 等[25]設計了一個增量變換器來編碼多回合的話語以及相關文檔中的知識,來提高對話生成模型對話上下文的一致性和知識相關性。

研究知識驅動的對話生成模型是非常有價值的研究方向,目前相關工作仍處于初期探索階段。對于知識驅動對話生成模型這一方向尚未形成一致的明確定義和通用的框架,并且現有成果還未經過全面梳理和系統總結。本文將知識驅動的對話生成模型作為研究對象,歸納并詳細描述了知識驅動的對話生成研究涉及的問題,同時重點闡述了研究者們針對解決每個問題的相關研究,最后聚焦于知識驅動的對話生成未來的發展方向。

1 知識驅動的對話生成任務和問題描述

根據對知識驅動的對話生成任務和知識驅動的對話生成現狀的研究。大多數現有的知識驅動對話生成任務都是在知識獲取、知識表示、知識選擇以及知識融入對話四個方面進行深入研究。

知識獲?。褐饕獋戎赜趯υ捝赡P腿绾螐奈谋净驈钠渌R來源學習各種知識的過程。即給定對話上下文U={U1,R1,U2,R2,…,Ui,Ri,…,UT}和其他知 識K={K1,K2,…,Ks,…,Km},對話生成模型M從對話上下文U和其他知識K中獲取知識k={k1,k2,…,ks,…,km}。

知識表示:主要側重于對話生成模型如何在其密集的參數中編碼、存儲和表示知識。對知識表征機制的研究將有助于更好地理解和控制模型中的知識,也可能激勵研究者們更好地理解人類大腦在對話中的知識表征。即對話生成模型M對獲取到的知識k={k1,k2,…,ks,…,km}進行知識表示。

知識選擇:主要側重于關注對話生成模型如何從獲取的知識中選擇正確的知識或刪除不需要的信息。即給定對話上下文U={U1,R1,U2,R2,…,Ui,Ri,…,UT}和獲取的知識k={k1,k2,…,ks,…,km},對話生成模型M通過對話上下文U和獲取的知識k選擇出符合當前上下文語境的知識ks。

知識融入:主要側重于關注對話生成模型如何有效地利用選擇的正確的知識生成合適的、高信息量的回復 。即通過給定上下文U={U1,R1,U2,R2,…,Ui,Ri,…,UT}和選擇出符合當前上下文語境的知識ks,對話生成模型M生成包含知識的回復

2 數據集

當前的知識驅動的對話生成模型的研究都是需要大量的數據驅動的,因此知識驅動的對話數據集的質量和多少制約著知識驅動的對話生成的效果。許多研究者們收集并整理了大量的知識驅動的對話數據集,對這些數據集進行處理后,就可以用處理后的數據集來訓練知識驅動的對話生成模型。表1 為具有代表性的知識驅動的對話數據集。

表1 知識驅動的對話數據集Table 1 Knowledge driven conversation dataset

3 知識驅動的對話生成模型研究

目前,研究者們對知識驅動的對話生成模型的研究主要針對如何知識獲取、知識選擇、知識表示和知識融入四個方面做出了大量的工作。本章將針對這四個方面分別從知識獲取模型、知識表示模型、知識選擇模型和知識融入的對話生成模型四個方面進行介紹。

3.1 知識獲取模型

在知識獲取期間,對話生成模型從不同的知識來源學習知識,目前,知識獲取主要有兩個來源:文本數據和結構化數據。本節將根據知識來源對知識獲取模型進行分類,分為基于文本數據的知識獲取模型和基于結構化數據的知識獲取模型。

3.1.1 基于文本數據的知識獲取模型

目前,為了從文本數據獲取知識,對話生成模型通常在大規模文本語料庫上進行訓練學習,本小節將重點關注基于文本數據的知識獲取模型如何從純文本數據中獲取知識的方法。

因果語言建模的目標是預測輸入序列中的下一個標記。Radford 等[38]、Brown 等[39]、Ouyang 等[40]以及Scao 等[41]在捕獲上下文依賴和對話生成方面證明了因果語言建模具有良好的有效性,因果語言建模的一個局限性是模型以單向的方式獲取知識,它只能從左到右捕獲上下文信息。Devlin 等[42]和Liu 等[43]為了從文本數據中獲取知識,通過掩碼語言建模建立知識獲取模型,掩碼語言建模的目的是隨機屏蔽輸入中的一些標記,然后預測基于序列其余部分的掩碼標記,如圖1所示。因果語言建模只能以單向方式獲取信息,而掩碼語言建??梢詮淖蟮接液蛷挠业阶髢蓚€方向捕獲上下文的知識。Raffel 等[44]和Song等[45]通過序列到序列模型(sequence to sequence,Seq2Seq)語言建模建立知識獲取模型,使用解碼器-編碼器架構進行訓練,首先向編碼器提供掩碼序列,而解碼器用來預測掩碼標記。Lewis等[46]使用自編碼器建立知識獲取模型,首先用隨機掩碼符號破壞輸入序列,然后將輸入碼輸入到雙向編碼器中,用自回歸解碼器計算輸入的概率。

圖1 掩碼語言建模的知識獲取模型結構Fig.1 Structure of knowledge acquisition model for mask language modeling

知識獲取模型通過訓練學習來獲取文本數據中的知識,但是知識獲取模型如何獲得知識的潛在機制仍然有待探索。為了了解其中的潛在機制,一些研究者們研究了模型訓練的過程,Achille等[47]試圖找出模型在訓練學習中是否存在獲取知識的關鍵時期。Liu等[48]致力于在神經網絡中尋找知識獲取的數學解決方案。Saphra 和Lopez[49-50]分析了長短期記憶網絡(long short-term memory,LSTM)[51]在訓練過程中獲取知識的關鍵時期,使用奇異向量分析方法[52]和LSTM構建知識獲取模型,如圖2所示。

圖2 奇異向量分析的知識獲取模型Fig.2 Knowledge acquisition model for singular vector analysis

現在的大多數研究者們的研究都集中在結構相對簡單的神經網絡上,只有部分的研究者們在大規模的語言模型中考慮獲取知識。Chiang 等[53]首先研究了ALBERT(a lite BERT)模型[54]在訓練過程中知識是如何獲取的。具體來講,他們研究了模型在訓練期間的語法知識、語義知識和外部知識,發現模型學習過程因知識而異,有更多的訓練步驟不一定會增加模型知識獲取的能力。Perez-Mayos 等[55]研究了訓練的語料庫的大小對RoBERTa(robustly optimized BERT)模型[56]知識獲取能力的影響,發現在更多數據上訓練的模型包含更多的語法知識。Liu等[57]也研究了RoBERTa 對各種知識的知識獲取過程。研究發現,與能夠快速、穩健地學習的語言知識相比,外部知識的學習速度緩慢。ChatGPT 是一種基于大模型的聊天機器人,ChatGPT通過訓練一個大型的神經網絡模型,建立詞向量和語言模型,學習通用的語言規則和語義表示,為對話生成提供支持,并通過預測任務學習和微調學習優化模型來獲取知識。

表2為各類基于文本數據知識獲取模型的原理、優點及缺點。

表2 基于文本數據的知識獲取模型Table 2 Knowledge acquisition model based on text data

從文本數據中獲取知識的方法可以很容易地進行擴展,而且知識來源也很容易獲得。但是模型獲取知識的潛在機制不是很清晰,由于知識獲取過程是隱性的,會導致模型產生錯誤的預測。

3.1.2 基于結構化數據的知識獲取模型

除了從文本數據中獲取知識外,研究者們還可以通過向對話生成模型中注入結構化知識來獲取知識。為了從結構化數據中獲取知識,目前研究的重點是將不同類型的結構化數據的知識注入到對話生成模型中。結構化數據的主要類別包含實體知識、事實知識、常識知識和語言知識。

為了明確地學習實體知識,許多研究者提出了對話生成模型的實體知識導向任務。Sun 等[58]和Shen 等[59]使用整體級掩碼來增強模型的知識獲取能力,該模型首先識別句子中的命名實體,然后對這些實體對應的所有標記進行預測。Xiong等[60]提出了一種實體檢測方法,該檢測將句子中的命名實體隨機替換為相同實體或相同類型的其他實體,知識獲取模型應該確定哪些實體被替換。Yamada 等[61]將單詞和實體視為獨立的標記,并分別進行掩碼語言建模,以學習上下文的單詞表示和實體表示,增強模型的知識獲取能力。Fevry 等[62]提出一個EAE(entities as experts)模型,將實體檢測與掩碼語言建模聯系起來,將文本中的實體與特定的實體記憶相匹配,如圖3所示。Logeswaran 等[63]和Gillick 等[64]在知識獲取模型中引入實體知識的其他信息,如實體描述,以進一步幫助模型學習實體知識。Peters 等[65]和Yamada 等[61]利用單詞對實體的關注來使模型獲取知識。

圖3 EVE模型結構Fig.3 Structure of EVE model

在結構化知識中,事實知識通常表示為三元組(主體實體,關系,對象實體)。近年來,研究者們一直致力于幫助對話生成模型獲取更多的事實知識,以更好地生成回復。研究者們在知識獲取模型中引入知識圖譜來獲取知識,Zhang 等[66]提出了一種聚合器,將文本中實體中相應的知識嵌入和標記嵌入相結合。Wang等[67]同時訓練掩碼語言建模模型和知識圖嵌入模型,提出了一個KEPLER(knowledge embedding and pretrained language representation)模型,模型既可以產生信息文本又可以知識嵌入,如圖4 所示。Wang 等[68]添加了一個適配器,將知識注入知識獲取模型中,而無需更新原始參數。該適配器經過訓練,以確定標記之間的關系類型。Qin 等[69]提出了實體識別任務來預測給定主體實體和關系的對象實體,以及關系識別任務來預測關系對之間的語義連接。Liu 等[70]認為,將整個知識庫整合到知識獲取模型中可能會導致知識噪聲問題,并建議從與每個輸入句子相關的特定子圖中學習。Soares 等[71]提出,通過“空白匹配”的目標,僅從整個鏈接文本中學習關系知識,首先用空白符號替換文本中的實體,然后當它們具有相同的實體對時,使關系表示更接近。知識獲取模型中學習常識知識最常見的策略是在訓練之前將知識轉化為自然的語言表達。Bosselut 等[72]、Guan 等[73]、Shwartz 等[74]首先將常識知識三元組轉化為自然語言,然后根據這些知識增強數據對對話生成模型進行訓練。Ma等[75]將結構化常識知識轉化為模型學習自然語言的問題。

圖4 KEPLER模型結構Fig.4 Structure of KEPLER model

研究者們發現知識獲取模型還可以明確學習語言知識,如情感知識、詞匯知識、語法知識等。為了讓知識獲取模型獲得情感知識,Ke 等[76]首先用POS標簽和情緒極性標記每個單詞,然后將單詞級和句子級情緒標簽與掩碼語言建模結合起來。Tian 等[77]提出了一個SKEP(sentiment knowledge enhanced pretraining)模型,從未標記數據中挖掘情感知識,然后利用這些情感信息進行情緒掩碼、情緒詞預測和詞性預測,如圖5 所示。在詞匯知識方面,Lauscher等[78]首先從WordNet[79]和BabelNet[80]獲取單詞相似性信息,然后在BERT 訓練前還添加單詞關系分類。Song 等[81]構造了一個用注意力對齊校準的依賴矩陣和一個用來整合依賴信息的融合模塊,知識獲取模型可以獲取詞匯知識。在語法知識方面,Sachan等[82]研究通過在Tranformers[83]的輸出上添加syntax-GNN 和使用注意力合并文本嵌入,來為模型注入語法知識。為了進一步獲取語法知識,Bai 等[84]使用多個注意網絡,每個網絡編碼語法樹中的一個關系。隨著大模型研究的極大推進,并在知識獲取方面取得了進展,大模型可以通過外部知識庫接口、外部模型集成和增強學習等方式來獲取結構化知識。這些方法可以豐富大模型的知識庫,提高對話生成的準確性、流暢度和智能程度。

圖5 SKEP模型結構Fig.5 Structure of SKEP model

基于結構化數據的知識獲取模型如表3所示。

表3 基于結構化數據的知識獲取模型Table 3 Knowledge acquisition models based on structured data

結構化數據可以很明確引入到對話生成模型中,但是受到結構化數據的成本、領域、規模和質量的限制,使得模型很難進行擴展和使用結構化數據以外的新的知識。

3.2 知識表示模型

知識表示主要研究了知識表示模型如何編碼、轉換和存儲所獲得的知識。在模型中,知識被編碼為密集的向量表示,并保存在模型參數中,但每種知識是如何被編碼、轉換和存儲到參數中仍然需要進一步研究。目前,已經開始對知識表示進行了研究,本節將首先根據知識表示的方法對這些研究進行介紹。

3.2.1 基于梯度方法

Dai 等[85]首先引入了知識神經元的概念,這是與事實知識相關的Transformer 神經元,如圖6 所示。Geva 等[86]假設知識神經元位于前饋網絡中,然后通過向模型提供含有掩碼的知識表示提示,識別出在前饋網絡中得分最高的知識神經元,并基于梯度的方法進行計算,如圖7所示。

圖6 知識神經元表達模型結構Fig.6 Structure of knowledge neuron expression model

圖7 梯度計算的前饋網絡結構Fig.7 Feedforward network structure for gradient calculation

3.2.2 基于因果啟發方法

Meng 等[87]將Transformer 中的神經元替換成了知識神經元,它們對預測某些事實知識具有最強的因果關系。這些神經元通過因果關系分析來定位。具體來說,他們通過比較token embedding 之間預測的概率變化來計算對事實預測的因果關系。通過實驗證明了前饋網絡模塊在事實知識表示中起到決定性的作用。

3.2.3 基于注意力方法

注意力頭也可以編碼知識相關信息的表示,Clark 等[88]和Htut 等[89]研究了注意頭中編碼的語言知識,發現雖然一些注意頭與語法的特定方面相關,但語言知識是由多個注意頭分布和代表的。Lin等[90]發現,對話生成模型的注意力權重可以編碼語法知識信息,編碼之后可以更準確地表示這些句法屬性。

3.2.4 基于分層方法

Lin 等[90]對語言知識進行了分層探測,為每一層訓練一個特定的分類器,發現低層編碼token 的位置信息,而高層編碼更多的成分信息。Liu 等[91]分析了對話生成模型在知識表示上的分層可轉移性,發現中間層通常具有更好的性能和可轉移性。Wallat等[92]提出利用對話生成模型中每一層的LAMA(language model analysis)[93]來捕獲事實知識,并發現大量的知識存儲在中間層中。Juneja 和Agarwal[94]還基于知識神經元進行了分層的事實知識分析,并證明了大多數知識(例如,巴黎是“某個國家”的首都)可以歸于中間層,在最后的幾層中將被提煉為事實(例如,巴黎是法國的首都)。

近年來,學術界和工業界極大推進了大模型的研究,并在知識表示方面也取得了巨大進展,如ChatGPT的推出,引起了廣泛關注。大模型在獲取到知識后,對于不同類型的知識,大模型需要采用不同的編碼方式。例如,對于文本類型的知識,可以采用詞向量表示法將其轉化成向量格式。對于圖片類型的知識,則需要先進行特征提取,然后將提取出來的特征嵌入到向量空間中。在編碼的過程中,通常需要考慮向量的維度、采樣方法等因素,以便進行后續的研究。

為了更清晰地介紹知識表示模型,表4從各類知識表示模型的原理、優點及缺點進行介紹。

表4 知識表示模型Table 4 Knowledge representation model

3.3 知識選擇模型

知識選擇是知識驅動對話生成任務中的關鍵步驟,關于知識選擇模型,目前,研究者們一般采用對話歷史和知識之間的語義一致性作為知識選擇的基礎,以及通過帶有知識標簽的數據來訓練模型進行知識選擇。而在對話場景下,對話歷史和知識之間存在一對多的關系,因此有必要研究不依賴于數據來訓練的知識選擇模型。盡管當前有許多知識圖譜和語料庫可用于提取知識信息,但不同對話場景需要的知識信息通常是多樣的。因此,知識選擇模型需要選擇外部知識中與當前對話場景相關的關鍵信息,以便為該場景提供更符合要求的知識信息。結構化知識包含明確實體信息和實體間關系。因此,研究人員可以考慮將用戶消息中的某些實體信息與知識庫信息進行對應,以選擇關鍵知識。相比之下,非結構化知識由文本構成,其中蘊含了不同的語義信息。這使得選擇相關內容變得更加困難,尤其是在開放域的對話環境中更為復雜。如何在對話中進行知識選擇仍是待解決的問題。本節將對不同的知識選擇模型進行介紹。

Lian 等[95]提出一個采用新的知識選擇機制的知識選擇模型,利用知識的先驗和后驗分布來進行知識選擇,從話語中可以推斷出知識的后驗分布,它確保了模型在訓練過程中對知識的適當選擇。同時,利用從話語和回復中推斷出的先驗分布來近似后驗分布,以便在推理過程中即使沒有響應,也可以選擇合適的知識,使得模型能在無知識標簽引導的情況下學習如何選擇知識,如圖8 所示。Zhang 等[96]提出了一個Cake 模型,該模型引入了一個知識預選步驟,利用話語歷史語境作為先驗信息,選擇最相關的外部知識。Dinan 等[97]進行了多次實驗,分別利用Seq2Seq 模型和管道式技術來構建知識選擇模型,并通過設計損失函數來監督模型的選擇過程。實驗結果表明,Seq2Seq 模型在利用知識來回復方面具有良好表現,而管道式模型則在知識選擇的準確性方面具有優勢。

圖8 知識選擇模型結構Fig.8 Structure of knowledge selection model

Seq2Seq 模型由于通常簡單地利用知識信息,在進行編碼過程中,對知識信息的置信度會大大降低,容易導致詞語組合出現錯誤。為了解決這個問題,Lin 等[98]提出循環知識交互機制,通過注意力機制動態地選擇知識,在解碼過程中產生回復。Kim 等[99]則將知識選擇建模轉化為序列決策過程,同時考慮對話歷史和知識的選擇歷史,以更好地進行知識選擇。Zheng 等[100]提出了一種基于差異感知的知識選擇模型,它首先計算當前回合中提供的候選知識句子與前一個回合中選擇的候選知識句子之間的差異。然后,將差異信息與上下文信息進行融合或分離,以促進最終的知識選擇。通過大量的實驗證明,他們的模型能夠更準確地選擇知識,并生成更多信息豐富的回復。Eric 等[35]評估了開放域對話知識選擇的現有狀態,表明現有關于知識選擇數據和評估的方法存在缺陷。Eric 提出了一個新的框架來收集相關的知識,并基于維基百科語料庫創建了一個增強數據集WOW++,可以在知識選擇模型上進一步研究。為了更清晰地描述知識選擇模型的研究現狀,對解決的問題、使用的數據集、涉及的評價指標以及模型的性能進行了梳理,如表5所示。在評價指標方面,A.E代表自動評價,M.E 代表人工評價。A.E 主要包括困惑 度(perplex,PPL)[102]、BLUE[103]、ROUGE[104]、Ent、Dist[105]、知識相關度(knowledgeF1,KF1)以及F1。M.E使用人工的方式對內容層面的適宜性(App)、知識層面的信息性(Inf)、語言流利度(Flue)以及人工評價分數(Avg)等方面對模型性能進行打分。

3.4 知識融入的對話生成模型

開放域對話系統的最終任務是生成富含信息量且多樣的擬人回復,而不僅僅是傳遞描述性的事實信息。這些回復可能包含專有名詞或稀有名詞等難以處理的詞匯。為了在生成回復時融入知識,對話生成模型不能簡單地復制已選擇的知識到回復中,而需要有機結合對話歷史和知識信息。目前,大多數研究者采用將對話歷史和知識信息直接拼接的方式進行解碼,但這種方法較為簡單,融合效率低,生成的回復沒有很好地嵌入知識信息。另外一些研究者采用指針網絡[106]來融入知識,雖然這種方法提高了模型的生成多樣性,但無法學習到知識中的關鍵信息。因此,如何將對話歷史和知識信息有機地融合在一起,是知識驅動的對話生成任務中的重要問題。本節將對不同的知識融入的對話生成模型進行介紹。

Zhou 等[107]提出了一個CCM(commonsense knowledge aware conversational model)模型,它在對話生成模型中引入了大規模的常識知識來促進語言理解和生成。該模型從一個知識庫中檢索相關的知識圖,然后用靜態圖注意機制對圖進行編碼,這增強了帖子的語義信息,從而支持更好地理解用戶的上下文,如圖9 所示。Jung 等[108]提出了AttnIO 模型,它是一種雙向圖檢索模型,在每個遍歷步驟中計算注意權重,因此模型可以選擇更廣泛的知識路徑,而不是一次只選擇一個節點。在這樣的方案中,即使只有目標節點,模型也可以預測足夠的路徑。Zhang 等[36]提出了一個ConceptFlow 模型,生成了更有意義的對話回復。它通過一個常識性的知識圖來探索概念級的對話流。最后,它使用了一個門來決定在詞匯詞、中心概念詞和外部概念詞之間生成對話。Xu等[109]將知識圖譜作為外部知識來源來控制粗層次的對話生成,對話得到了常識性知識的支持,對話生成模型可以使用更合理的方式引導對話生成。Moon 等[110]提出了DialKGWalker 用于對話生成,他們計算了預測的知識圖嵌入和真實的知識圖嵌入之間的相關性得分,以促進預測。此外,他們還應用了一個基于注意力的圖生成器來生成基于相關性分數的圖路徑,以完成對話生成。Zhan 等[101]通過結合對話級語境表示和圖表示來用于對話生成,他們首先基于編碼的上下文和響應對來構建對話圖,然后對對話圖進行推理,以得到一個圖表示。最終的得分是通過將上下文表示和圖表示的連接向量傳遞到一個前饋網絡來計算的。知識融入的對話模型研究如表6所示。

圖9 CCM模型結構Fig.9 Structure of CCM model

表6 知識融入的對話模型Table 6 Dialogue model for knowledge inclusion

4 未來展望

雖然關于知識驅動的對話生成模型研究已經取得一些成果,由于對話系統還可以向生成高質量和更加擬人化的回復發展,知識驅動的對話生成研究還有非常大的發展空間。隨著對知識驅動的對話生成的深入研究與其他相關技術的發展,以下總結的幾個方面可能是未來的研究方向:

(1)認知啟發的知識表示方法:知識表示是認知科學、神經科學、心理學和人工智能都在關注的問題,本文可以借鑒其他相關領域的思想來設計一種認知啟發的知識表示方法。因此,與其他學科進行交叉,借鑒其他學科的思想來設計一種認知啟發的知識表示方法是未來研究方向。

(2)對話場景轉移下的知識選擇:在對話場景轉換時,對于學習信息的需求因對話情境而異,這需要模型通過對外部知識中的學習內容進行選擇,以獲得更符合當前談話環境的相關信息。在非任務導向的對話環境中,情境更加復雜多變,對話主體會隨著會話進程的發展而不斷變化,不同主體之間容易混淆,使得內容選擇變得更加困難。當前的內容選擇技術存在局限性,在遇到不同主題轉變的對話情況下,模型缺乏邏輯推理功能,不能從當前對話中推斷出正確的內容,導致對話模式無法產生高質量語句。因此,在主題轉移等復雜對話場景中提升知識選擇的方法是未來研究的方向。

(3)知識驅動情感對話生成:人們在交流信息的活動中,不但涉及文字與語言內容,也涉及到情感內容和情緒狀態。對話系統的重要任務就是讓機器人在回復用戶時掌握人類的情感,而在交流過程中增加情感信息則可以增加使用者的信心,并且情感信息可以促使機器人與用戶之間的溝通過程變得更加自然,加入情感信息后,模型回復后生成的語言也變得更加擬人化?,F在的知識驅動的對話生成模型中并沒有關注情感信息,如何將融入知識的情感信息加入到知識驅動的對話生成模型中是未來研究的方向。

(4)碎片化的知識融合使用:隨著互聯網的高速發展,信息能夠被快速溝通與傳播,能供人類使用的信息也就越多。在此情況下,信息通常是零碎的、離散的、雜亂的。部分信息存儲在百度百科、維基百科之類的百科類型頁面中,但還有很多信息都是包含在大量的非結構化文字中,比如關于知乎等問答社區上的問答內容,以及關于小紅書等該類型社區的帖子內容。并且不同信息的內容的形式也不同,有些信息是離散的,有些是連續的。然而并不是所有能夠理解的數據都是溝通所需要的,如何高效地控制和利用大量的碎片化數據,可以極大地提高溝通流程的可靠性,也可以增加模型的可理解性,這可能就是未來研究的方向。

(5)基于增量式學習的對話系統:現有語言模型可以生成非常流暢和自然的語言,但它們缺乏多樣性和靈活性,而在對話中,多樣性和靈活性非常重要。尤其是在處理開放域對話時,回答的多樣性和靈活性可以提高對話質量和用戶滿意度。通過增量式學習動態地向模型中加入新信息和知識,使對話系統可以不斷學習和進步,從而實現對話的多樣性和靈活性,這可能是未來研究的方向。

5 總結

隨著對話系統的發展,知識驅動的對話生成模型已經被越來越多的研究者們關注。生成高質量和更加擬人化的回復的知識驅動的對話生成模型是研究者們努力的方向。本文對知識驅動的對話生成模型研究展開綜述,首先對現有的研究進行收集整理并總結出知識驅動的對話生成任務的定義,對構建知識驅動的對話生成模型遇到的問題進行描述;其次對現有的知識驅動的對話數據集進行了總結;針對知識驅動的對話生成模型的問題進行了回顧,包括知識獲取、知識表示、知識選擇和知識融入,對各個問題進行了相關研究的介紹,并提出了一些未來的發展方向。

猜你喜歡
結構化研究者實體
高等教育中的學生成為研究者及其啟示
促進知識結構化的主題式復習初探
結構化面試方法在研究生復試中的應用
前海自貿區:金融服務實體
研究者稱,經CRISPR技術編輯過的雙胞胎已出生??茖W將如何回應?
研究者調查數據統計
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
醫生注定是研究者
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合