?

深度編碼網絡下的英語點餐機器人交互系統設計

2021-10-12 00:37母濱彬
食品與機械 2021年9期
關鍵詞:精準度編碼架構

母濱彬 王 平

(1. 廣安職業技術學院,四川 廣安 638000;2. 蘭州理工大學電氣工程與信息工程學院,甘肅 蘭州 730050;3. 蘭州理工大學機器人系統實驗室,甘肅 蘭州 730050)

點餐機器人情感交互(Human machine emotional interaction)的設計理念自被提出之后,一直是人工智能、多維建模、仿生系統等領域的研發重點[1-2],并涉及到上下文語境感知與情感意識等算法。

隨著機器學習與神經網絡等科技[3]在對話生成領域的發展,國內外科研工作者提出了一些新方法。Radulescu等[4]采用規則提取法獲取相關語義數據,該方法算法簡單且實時性好,但需要人工翻譯大量規則,領域間的移植性差;Chakraborty等[5]將知識先驗后驗模型引入Seq2Seq編解碼的架構中,該模型也叫做Du-Model,可根據動態意圖自動生成回復,但該方法不能充分理解與應用情感交互的前后信息;Paladines等[6]采用Multi-RNN網絡拼接上下文與用戶輸入生成自動回復,但該方法不能區分情感交互背景、線索與主旨等重要信息,情感交互常常言不達意;張涼等[7]將多視角GAN引入深度學習架構中,該方法抑制梯度彌散的效果較好,但提取特征能力不強;王孟宇等[8]設計了RCNN網絡和HRED模型情感交互生成方法,該方法可及時獲取短句語義,對語義情感分析較為到位,但當網絡層次較深時,常出現梯度彌散的狀況;易煒等[9]在循環網絡中引入注意力權值,可挖掘情感交互中的關鍵信息,但仍難發掘語義中的隱含信息和風格。

試驗擬研究點餐機器人情感交互的設計思路與理念,以期設計出以人為本的智能情感交互方法的機器人,為智能服務業提供技術支持。

1 研究基礎

1.1 Seq2Seq網絡解析

文中提出的SeqGAN模型基于Seq2Seq模型(Sequence-to-Sequence generative model,Seq2Seq)改進而來。Seq2Seq模型是基于深度學習方法[10]的交互生成元模型,該模型可將基列信號采用編解碼生成新基列數據,并能夠處理自然語言的自適應基列映射的問題。Seq2Seq可輸入文本、圖像或語音等基列,并輸出文本。

圖1中設定英語點餐源語M={m1,m2,…,mn},其尺度為n,輸出目標語句W={w1,w2,…,wK},其尺度為K;{h1,h2,…,hn}與{v1,v2,…,vn}分別為編碼器與解碼器的隱層參量,如式(1)。

圖1 Seq2Seq網絡解析Figure 1 Seq2Seq network

vi=t(wi-1,vi-1,c),

(1)

式中:

vi——解碼器第i個輸出詞的隱狀態;

wi-1——第i-1個輸出詞;

vi-1——第i-1個詞的隱狀態;

c——語義狀態參量;

t()——多層卷積構成的非線性變換。

Seq2Seq網絡的目標解析式如公式(2)所示。

P(wi|w1,w2,…,wi-1)=d(wi-1,vi),

(2)

式中:

P(wi|w1,w2,…,wi-1)——目標輸出語句的條件概率;

d()——Seq2Seq網絡的目標解析式;

wi——第i個輸出詞;

vi——相應的隱狀態。

1.2 LSTM神經網絡模型解析

隨著待處理的英語點餐交互語言序列增長,RNN模型會產生梯度彌散的問題,長短存儲神經網絡(Long short-term memory,LSTM)[11]是在RNN模型基礎上的改進,該模型增加記憶單元,可利用門控模塊讓記憶單元保存全部英語點餐交互語言序列數據。如圖2所示,LSTM神經網絡模型包括遺忘、輸入與輸出3組門控元。

圖2 LSTM神經網絡模型解析Figure 2 LSTM neural network model

2 基于BLSTM-SeqGAN網絡的英語點餐交互系統

2.1 整體架構

Seq2Seq網絡在機器學習[12]、智能情感交互等領域運用廣泛,但該模型將單個輸入基列統一為確定尺度,存在語義信息不能涵蓋全部輸入數據,數據丟失等問題。此外,實際應用中,單獨使用該模型生成的英語點餐語言往往乏味、單一和機器化,面對長難句,往往詞不達意。因此,引入約束型GAN架構和主旨型注意力模式,從輸入語言中準確捕獲語義,并生成確定情感的信息。圖3為基于BLSTM-SeqGAN網絡的英語點餐交互整體架構,包括輸入部分(Input Embeding)、編碼部分(Encoder)、主旨注意力機制(Attention)以及約束型SeqGAN網絡所構成的解碼模型(Decoder)。

圖3 基于BLSTM-SeqGAN網絡的英語點餐交互整體架構

2.2 基于BLSTM的編碼網絡

2.2.1 BLSTM神經網絡 針對輸入的英語點餐交互語言序列,若利用單向LSTM網絡處理,則隱層所包括的數據為當前時刻之前獲取的,為保證情感交互中英語點餐交互語義的充分理解,則需保障編碼過程能獲得前后序列數據。選用BLSTM即雙向長短存儲神經網絡構建英語點餐交互的編碼模型,與LSTM神經網絡相比,BLSTM神經網絡可獲得正向與反向的隱層輸出,其基本架構如圖4所示,這是由于BLSTM神經網絡包括正向與反向的LSTM編碼層,并通過正反向的連接組成。

圖4 BLSTM神經網絡的基本架構Figure 4 Basic architecture of BLSTM neural network

2.2.2 基于BLSTM的編碼網絡 BLSTM神經網絡采用正向LSTM和反向LSTM分別完成歷史數據與將來數據的過濾與保存,通過連接正反向LSTM神經網絡可獲得英語點餐交互語言數據的中間參量表示,基于BLSTM的編碼網絡如圖5所示。在英語點餐交互語句編碼前,分解為英語點餐交互源語序列M={m1,m2,…,mn},g=1,2,…n,正反向LSTM神經網絡編碼的隱層向量分別為yz={yz1,yz2,…,yzn}和yf={yf1,yf2,…,yfn},如式(3)所示。

圖5 基于BLSTM的編碼網絡Figure 5 BLSTM based coding network

ysg=[LSTM(yzsg,mg),LSTM(yfsg,mg)],

(3)

式中:

ysg——s時刻第g個英語點餐交互源語得到的隱層狀態;

mg——第g個英語點餐交互源語;

yzsg——s時刻第g個英語點餐交互源語的正向LSTM隱層向量;

yfsg——s時刻第g個英語點餐交互源語的反向LSTM隱層向量;

LSTM(yzsg,mg)——s時刻正向LSTM編碼網絡得到的隱層狀態;

LSTM(yfsg,mg)——s時刻反向LSTM編碼網絡得到的隱層狀態。

2.3 主旨型注意力模式

注意力模式[13]是基于人的觀察特點與邏輯,可有效獲取數據的典型特征。在英語點餐交互語言序列的情感交互處理中,并不是全部單詞的重要程度都相應,而是根據英語點餐交互語言特征和情感交互場景區分單詞的優先級和重要性。文中提出的主旨型注意力模式可通過賦權值的方式提取不同情感主旨的文本數據,如積極或消極的情感/情緒。如圖6所示,將編碼裝置中的輸出{ys1,ys2,…,ysn}和語境中的主旨單詞{c1,c2,…,cn}傳輸至注意力模式中。

圖6 主旨型注意力模式Figure 6 Attentional pattern

(4)

式中:

kd——獲取門權值;

qs-1——獲取門kd讀得上一刻的語境信息。

(5)

式中:

ysg——s時刻的隱層狀態;

y(s-1)g——s-1時刻編碼的隱層狀態向量;

fs-1——前一刻獲得的英語點餐交互詞參量;

wg——與語境相關的向量;

bg——與情感主旨相關的向量;

LSTM[y(s-1)g,fs-1,wg,bg]——基于[y(s-1)g,fs-1,wg,bg]輸入的LSTM編碼。

2.4 約束型SeqGAN解碼網絡架構

2.4.1 約束型GAN架構 英語點餐情感交互的生成回復,需充分考量當前輸入的英語點餐語言信息與上下文約束,因此在傳統GAN網絡中引入約束o,利用約束o完善生成與判別進程的同時,增強調控度與適應性。約束型GAN網絡架構如圖7所示。

圖7 約束型GAN網絡Figure 7 Constrained GAN network

2.4.2 約束型SeqGAN網絡架構 在約束型SeqGAN網絡的基礎上生成英語點餐情感交互回復,以“start”作為起始信號,激勵生成裝置得到回復。該網絡中包含了全連接層(Fully connected-net,FC-net)、多尺度卷積和語義向量模擬層(Semantic vector simulation layer,SVSL)。該網絡可分為3個功能模塊,其中,回復生成模塊S是基于LSTM的編解碼部分,可將輸入的英語點餐語言數據完成實值參量的映射,并基于該數據生成回復;語義向量模擬層則依據生成裝置產生的英語點餐語言數據分布獲得語言向量并傳送至判別裝置,并將獲得的反饋信息傳送至生成裝置;判別裝置則利用深度學習方法獲得語句的語義,并通過卷積操作判別是真實或生成回復,從而調整生成裝置參量,縮小生成語言與真人英語點餐情感交互回復間的差距。約束型SeqGAN網絡架構如圖8所示。

圖8 約束型SeqGAN網絡架構Figure 8 Constrained SeqGaN network architecture

在生成裝置部分可依據輸入中間層英語點餐語言數據Em={Em,1,Em,2,…,Em,n}得到相應的情感交互數據Ew={Ew,1,Ew,2,…,Ew,J},該模塊的訓練目標是基于確定的輸入英語點餐語言—情感交互消息對的過程中獲得最佳條件概率P(m|w)。其步驟為:編碼裝置可將輸入英語點餐交互語言數據轉換為語言向量E(w),生成裝置則依據該向量估測情感交互消息中各詞產生的概率,如式(6)所示。

(6)

式中:

P(m|w)——英語點餐語言—情感交互消息對最佳條件概率;

E(w)——語言向量;

Ew,1,Ew,2,…,Ew,J——情感交互數據。

生成模塊中的消息情感交互回復部分如圖9所示。

圖9 生成模塊中的消息情感交互回復部分Figure 9 Generates the message dialogue responsesection of the module

2.5 模型訓練

模型訓練的過程就是不斷優化英語情感交互生成模型的過程?;贐LSTM-SeqGAN的模型在訓練的過程中選用了dropout策略[14],該方法能夠避免參量過擬合。模型的目標函數選用交叉熵解析模型。在模型訓練中,選用困惑指標Per分析生成英語點餐交互語言的狀態,該指標越低則模型狀態越好,如式(7)所示。模型優化則選用Adam策略[15],學習率可動態調整,若校驗集中的損失超過前五次校驗值,則將學習率減小。

(7)

式中:

Per——困惑指標;

n——輸出英語點餐交互語言序列的長度;

wg——輸出英語點餐交互語言序列W中第g個單詞。

3 基于深度編碼網絡的英語點餐情感型交互試驗

BLSTM-SeqGAN下的英語點餐情感型交互生成實驗的硬件配置為ROG STRIX-RTX 2080Ti的計算機,8核CPU,16 G內存,硬盤容量為8 T,顯存容量為12g*4;軟件選用matlab與python混合編程?;緟⒘吭O定:dropout的比值設0.3,Adam的學習速率設定為0.000 1,英語點餐單詞嵌入層設置為256維,樣本集中訓練次數epochs設為10,完成一個epochs的迭代次數iterations為550。數據集選用的WordReference Forum和daily dialog語料庫中共包含11 356組英語點餐交互,daily dialog語料庫具有上萬組多輪情感交互,包含各類點餐交互者,并主要覆蓋七類情緒,能夠表現各類點餐生活場景,主題涉及文化點餐、旅游點餐、健康型點餐、工作點餐、兒童食品點餐等,能夠適應各層次學習者用英語交互的需求。并依據0.85∶0.10∶0.05分割成訓練、校驗與測試三類語料集,語料集的分割統計如表1所示。對比試驗的基線模型選用Du-Model與HRED-Model。

表1 語料集的分割統計狀態

3.1 生成情感交互質量對比

選用的基線模型為Du-Model[5]與HRED-Model[8]。Du-Model是基于Seq2Seq模型下利用前驗與后驗知識的認知型多輪情感交互模型,HRED-Model在深度RNN網絡編碼架構下傳送隱層英語點餐交互語言向量,這兩種基線模型在多輪情感交互任務中取得的效果遠優于Seq2Seq模型。表2給出試驗設計方法(BLSTM-SeqGAN)和兩種基線方法的情感交互生成實例。從生成的情感交互可以看出,針對英語長難語句,Du-Model易出現丟失源語句的狀況,使得該模型偏向于產生常規回復;針對語境或主題復雜的英語語句,HRED-Model對前后文的提取能力不強,對英語語義的理解和情感傾向易帶來偏差。如例2所示,當顧客提出他的雞蛋是溏心的(沒有太熟),這個句子帶有消極情感。Du-Model和HRED-Model都未充分理解語句的情感狀態,誤以為情感是積極狀態,帶來回復偏離語境的問題。Du-Model向顧客推薦皮蛋(皮蛋屬溏心類蛋),HRED-Model則建議顧客再點一份飲料,搭配口感更佳;而BLSTM-SeqGAN法判斷顧客語義消極,因而回復歉意并讓顧客稍等后再上一份煎蛋,貼切語義。BLSTM-SeqGAN法采用主旨型注意力模式,并利用正向和反向LSTM分別完成歷史與將來數據的過濾與保存,生成的情感交互回復更加自然。

表2 試驗設計方法和兩種基線方法的情感交互生成實例

3.2 情感交互生成指標對比

3.2.1 困惑指標對比 采用式(7)給出的困惑指標完成BLSTM-SeqGAN與Du-Model法和HRED-Model法在單個epoch下的對比,如圖10所示。與兩種基線方法相比,試驗設計的方法困惑指標更小,并伴隨迭代數目增加而穩定程度更高。

圖10 試驗設計方法與兩種基線方法的困惑指標對比

3.2.2 精準度指標對比 精準度指標模型Precision如式(8)所示。BLSTM-SeqGAN、Du-Model和HRED-Model 3種方法在首個epoch中的精準度曲線如圖11所示,該epoch中的精準度變化程度大,三者穩定達到的精準度分別為74.9,70.1,65.4,其中BLSTM-SeqGAN法可以較快地進入最優狀態,且精準度更高。

圖11 試驗設計方法和兩種基線方法的精準度指標對比Figure 11 Comparison of precision indexes

Precision=(RP+RN)/(RP+EP+RN+EN),

(8)

式中:

RP——“Right Positive”,即樣本被準確預測為積極情感/情緒的主題;

RN——“Right Negative”,即樣本被準確預測為消極情感/情緒的主題;

EP——“Error Positive”,即樣本被錯誤預測為積極情感/情緒的主題;

EN——“Error Negative”,即樣本被錯誤預測為消極情感/情緒的主題。

3.3 算法的效能對比

圖12給出試驗設計方法與兩種基線方法在10個epoch中的精準度變化狀態。在前8個epoch的網絡訓練中,隨著epoch個數增加,3種方法的精準度不斷增加,BLSTM-SeqGAN法的精準度明顯高于兩種基線方法。此外,在8個epoch之后,Du-Model法與HRED-Model法由于產生了過擬合狀況,精準度逐漸降低。試驗設計了BLSTM-SeqGAN架構,并在訓練過程中選用dropout策略方法,能夠有效規避過擬合問題。表3給出3種方法在單個epoch中的平均訓練時間和最優精準度。由表3可知,BLSTM-SeqGAN法的效率與準確率均優于兩種基線方法。

表3 試驗設計方法和兩種基線方法的平均訓練時間和 最優精準度Table 3 Average training time and optimal accuracy of the three methods

圖12 試驗設計方法和兩種基線方法在10個epoch中的精準度變化狀態Figure 12 Precision changes of the three methodsin 10 epochs

4 結論

在Seq2Seq網絡和LSTM神經網絡模型的基礎上,引入約束型GAN架構和主旨型注意力模式,實現基于BLSTM-SeqGAN網絡的英語點餐情感交互生成,可從輸入語言中準確捕獲語義,并生成確定情感的信息。在訓練過程中選用了dropout策略,該方法能夠避免參量過擬合,模型優化則選用Adam策略,學習率可動態調整。而且BLSTM-SeqGAN法生成的情感交互回復更加自然,困惑指標更小,并伴隨迭代數目增加而穩定程度更高,并能夠較快進入最優狀態,精準度更高。此外,在單個epoch中的平均訓練時間最短。

目前,研究尚存在參數訓練需要的數據量大,網絡結構仍較為復雜的問題。在未來的研究工作中,將分析如何利用少量的訓練數據獲取更通用的情感特征。

猜你喜歡
精準度編碼架構
基于FPGA的RNN硬件加速架構
生活中的編碼
功能架構在電子電氣架構開發中的應用和實踐
《全元詩》未編碼疑難字考辨十五則
讓黨建活動更加有“味”——禮泉縣增強“兩新”黨建精準度
子帶編碼在圖像壓縮編碼中的應用
基于云服務的圖書館IT架構
Genome and healthcare
基于高精度差分法的線性常微分方程邊值問題研究
VoLTE時代智能網架構演進研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合