?

一種用于多域對話狀態追蹤的知識增強與自注意力引導的圖神經網絡

2024-02-28 08:31劉漳輝林宇航陳羽中
小型微型計算機系統 2024年1期
關鍵詞:注意力編碼建模

劉漳輝,林宇航,陳羽中

(福州大學 計算機與大數據學院,福州 350116) (福建省網絡計算與智能信息處理重點實驗室,福州 350116)

0 引 言

隨著信息技術發展的不斷進步,建立一個強大的任務型對話系統越來越受到研究人員的關注.對話狀態追蹤(Dialogue State Track,DST)是任務型對話系統[1-3]的重要組成部分,其目標是根據對話上下文得到當前對話狀態.對話狀態是從對話開始到當前對話的用戶目標的總結,通常表現為多組槽-值對的組合的形式,也可能包括對話所屬的領域、用戶意圖等信息.對話狀態的準確性會影響任務型對話系統中下游的對話策略學習任務的性能,因此獲得正確的對話狀態十分重要.

近年來,深度學習方法在對話狀態追蹤任務上獲得了廣泛的應用[4-7].預訓練語言模型能夠精確高效地獲取特定語境下的上下文語義信息,因此出現了許多基于BERT[8]等預訓練語言模型的對話狀態跟蹤模型[9-12].由于各槽位對應的槽值信息僅依賴于上下文中的部分關鍵詞而不是完整的上下文,一些對話狀態跟蹤模型[9,10]進一步利用注意力機制[13]評估上下文中不同詞語對特定槽位的重要性.但是,上述模型均未對槽位間的相關性進行建模,而不同槽位間的相關性對于跨域對話狀態追蹤十分關鍵.例如人們傾向于在游玩的景點附近用餐,因此槽位“景點區域”與“餐廳區域”所對應的槽值很可能相同.即使對話中未提及“餐廳區域”槽位,模型也應該能夠推理出其槽值.針對槽位相關性建模,一些研究工作提出共享所有槽位參數的方法[4,14],并引入新的編碼方式與額外信息來增強槽位表征[15,16],提升模型對于相似槽位的推理能力.此外,由于圖神經網絡具備對圖節點間的依賴關系進行建模的強大能力,一些研究工作[17-20]以槽位作為圖節點構建圖神經網絡,并根據節點間的邊關系融合槽位信息,對槽位間的相關性進行建模.但是,構建圖神經網絡需要準確的先驗知識以建立鄰接矩陣,且槽位發生改變時(刪除/新增)需重新建立鄰接矩陣,可擴展性較差.另有研究工作[21]利用相似度算法構建槽位相似度矩陣,但其槽位相關性建模能力嚴重依賴相似度算法的性能,且只考慮了槽位間的語義關系而忽略了槽位間的共指(一個槽位的值可能來自其他槽位)、共現(槽值間有很高的共現概率,如餐廳的名字與其所提供的菜品高度相關)等關系,無法獲得全面的槽位間的相關性信息.有鑒于此,有研究工作嘗試利用注意力機制建模槽位間的相關性[22],但是注意力機制計算得到的表示槽位間相關性的注意力分數矩陣為稠密矩陣,即使是不相關的槽位間也存在微小權重,使得信息可能在無關槽位間傳播,從而引入噪聲.

綜上,圖神經網絡與注意力機制在建模槽位間的相關性問題上都取得了不錯的效果,但是仍然存在一些亟待解決的問題.圖神經網絡依賴人工構建鄰接矩陣,不具備擴展性.利用相似度算法計算槽位間的相關性,難以發現槽位間的共指、共現關系.利用注意力機制評估槽位間的相關性,存在大量的槽位間的弱相關關系,易產生噪聲干擾.針對上述問題,本文提出了一種知識增強與自注意力引導的圖神經網絡網絡(Knowledge-Enhanced &Self-Attention Guided Graph Neural Network,KESA-GNN).主要貢獻如下:

1) KESA-GNN通過引入外部知識嵌入來增強槽位信息,首先從ConceptNet知識圖譜[23]中提取槽位實體的相關知識嵌入,再將其與預訓練語言模型BERT編碼的槽位表征進行融合,為模型提供豐富的槽位語義信息.模型無需重新訓練即可以根據豐富的槽位語義信息自適應處理新增的槽位.

2) KESA-GNN 提出了一種自注意力引導的槽間相關性捕獲機制,該機制首先利用多頭自注意力計算得到表示槽位間相關性的注意力分數矩陣,再利用Max-NRelation算法對該稠密矩陣進行稀疏化,避免微小權重造成的噪聲干擾,最后將其作為鄰接矩陣引導圖神經網絡中槽位間的信息的傳播,使得相關槽位之間的信息融合更加精確,從而進一步提升模型對于槽位對應槽值的推理能力.

3) 本文在大型多域對話數據集MultiWOZ 2.0上進行了廣泛的實驗以驗證KESA-GNN的性能.實驗結果表明,與最新的基線模型相比,KESA-GNN取得了優于所有基線模型的性能.

1 相關工作

隨著深度學習的崛起,研究人員將各類深度神經網絡應用于對話狀態追蹤任務.Henderson等人[24]提出的利用深度全連接神經網絡計算所有槽值在每個槽位上的概率來預測槽值.Mrkic等人[25]提出神經信念追蹤(Neural Belief Track,NBT)模型,利用表示學習方法將候選槽位-槽值對和對話中的詞嵌入到稠密的單詞向量中,并在解碼階段對二者的表示進行推理計算,從而判斷該槽位-槽值對是否出現在對話中.一些研究工作[4-7]則利用循環神經網絡捕獲對話上下文之間的語義相關性來提升模型的預測能力.但是,上述模型對于槽位和對話歷史上下文的建模是相互獨立的,沒有對兩者之間的關系進行顯式建模.

近年來,預訓練語言模型[8,26]在下游任務上展現出優秀的語義編碼能力,受到了廣泛關注.例如,Lee等人[9]提出的SUMBT模型(Slot-Utterance Matching for universal and scalable Belief Tracking)用BERT編碼槽位表征與對話表征,之后通過注意力機制建模槽位與對話之間的關系.Zhou等人[10]在SUMBT模型基礎上提出了DST-DCPDS模型(Multi-Level Fusion of Predicted Dialogue States and Conversations),DST-DCPDS模型在利用預訓練語言模型對槽位與對話編碼后,進一步采用層級注意力機制,幫助槽位準確定位對話歷史中與該槽位緊密相關的上下文信息.

上述模型雖然能夠較準確地預測每個槽位的值,但卻忽略了槽位間的相關性.在多領域對話中,槽位與槽位之間可能存在共指與共現等關系,因此對槽位間的相關性進行建模尤為關鍵.Wu等人[4]通過共享槽位間的參數讓不同槽位的信息可以相互流動,能夠更有效地估計槽位間的相關性.Lin等人[16]給槽位描述增加類型信息(時間、地點等,如槽位“hotel-area”被描述為“area of the hotel”),能夠更有效地捕獲跨槽的共現信息,促進跨領域的信息傳播.

由于圖神經網絡能夠有效建模圖節點間的依賴關系,一些研究工作[17-20]采用圖神經網絡建模槽位間的相關性.Zhu等人[17]提出了CSFN-DST模型(Context and Schema Fusion Networks).該模型定義了包含3種節點(領域,槽位,域槽對)以及四種邊關系的無向圖來描述槽位之間的相關性,并提出一種上下文-模式融合網絡對對話上下文與槽位關系模式圖進行融合編碼,最后利用網絡輸出的每個域-槽節點的表征來預測槽位的最終槽值.Wu等人[19]提出了GCDST模型(Graph-based and Copy-augmented multi-domain Dialogue State Tracking).該模型定義的圖節點只有域-槽表示一種類型,但與CSFN-DST類似定義了四種邊關系.Chen等人[18]則提出了SST模型(Schema-guided multi-domain dialogue State Tracking).該模型定義了兩個模式圖(Schema Graph),第一個圖的節點為所有的領域token和槽位token,該圖與由歷史對話上下文中的所有詞表征進行融合編碼以獲得上下文相關的節點表征.另一個圖的節點為域-槽對表示,最后在圖上經過信息傳播后得到最終槽位表征用于預測槽值.上述模型利用圖神經網絡能夠較好地建模槽位間的相關性,但是由于模式圖為人工構建,當槽位發生改變時(新增或刪除)模式圖須重新構建,缺乏可擴展性,且也無法準確地反映出槽位間的各類關系.Hu等人[21]提出的SAS(Slot Attention and slot information Sharing)模型利用余弦相似度或K均值聚類算法獲得槽位間的相似度矩陣,但是SAS的性能受到相似度算法準確度的制約,且用于判別兩個槽位是否相似的相似度閾值難以確定.總體而言,上述模型僅根據槽位名稱來估計槽位間的相關性,忽略了槽位間諸如共指、共現等隱含關系,無法準確全面地估計槽位間的相關性.Ye等人[22]提出的STAR模型(Slot Self-Attentive Dialogue State Tracking)則同時利用槽位名稱以及與槽位相關的上下文,通過槽位自注意力來更精確地捕獲槽位間的關系.但是,注意力機制利用注意力分數來表示槽位間的相關性,即使是無關槽位間也有微小的相關權重,從而帶來噪聲干擾.

2 模 型

2.1 任務定義

Bt=DST(Mt,Dt,Bt-1)

(1)

2.2 模型架構

KESA-GNN模型如圖1所示.KESA-GNN由上下文編碼層、槽位-槽值編碼層、槽位-上下文注意力層、注意力引導的圖神經網絡層以及槽位-槽值匹配層構成.上下文編碼層采用預訓練語言模型BERT對對話上下文進行編碼,獲得上下文語義表征.槽位-槽值編碼層對槽位與槽值進行編碼,分別得到槽位與槽值的語義表征,并通過外部知識嵌入增強槽位表征.槽位-上下文注意力層通過計算上下文表征與槽位表征之間的注意力,獲得與槽位相關的上下文表征.自注意力引導的圖神經網絡層利用槽位相關的上下文表征與槽位表征來發現槽位間的關系,并且融合自注意力與圖神經網絡的輸出作為最終槽位表征.槽位-槽值匹配層計算槽位表征與各個候選槽值間的相似度,選擇具有最大相似度的槽值作為該槽位的預測結果.

圖1 KESA-GNN整體架構Fig.1 Overall architecture of KESA-GNN

2.3 上下文編碼層

近年來,在各類下游任務中,BERT[8]與GPT-2[26]等預訓練語言模型顯示出強大的上下文語義表示能力.因此,KESA-GNN使用預訓練語言模型BERT作為上下文編碼器,獲得對話上下文的語義表征.BERT是一種基于Transformer編碼器[13]的語言表示學習模型.BERT可以為輸入句子中的每個標記生成對應的表征,也可以生成整個句子的聚合表征.此外,為了更適應對話狀態跟蹤任務,KESA-GNN對BERT進行領域微調.若當前為第t回合對話話語Dt,則上下文編碼層的輸入為Xt:

Xt=[CLS]⊕Mt⊕Bt-1⊕[SEP]⊕Dt⊕[SEP]

(2)

其中Mt為歷史對話話語,Bt-1為上一回合預測出的對話狀態,[CLS]與[SEP]是BERT添加的標記(Token).

將Xt輸入BERT,上下文編碼器層的輸出Ht為:

(3)

其中Ht∈|Xt|×d為上下文中所有的詞表征向量構成的矩陣,d為表征向量的維度,|Xt|為Xt中詞表征的總數,BERTfinetune表示該BERT模型參與訓練微調.

2.4 槽位-槽值編碼層

與上下文編碼層類似,槽位-槽值編碼層也采用BERT進行編碼.不同的是,槽位-槽值編碼層使用[CLS]標記對應的輸出向量作為槽位表征.對于不同類型的槽位描述使用T5-DST[16]中提出的模板,有助于不同槽位之間的知識轉移.此外,槽位-槽值編碼層引入ConceptNet知識圖譜的外部知識嵌入來增強槽位表征,從而增強槽位的語義信息.槽位-槽值編碼層將槽位描述的各個單詞作為索引得到對應知識嵌入,知識增強的槽位表征編碼方式如下:

(4)

(5)

(6)

(7)

對于槽值,令槽位Sj的由n個候選槽值構成的槽值集合為Vj={vj,1,vj,2,…,vj,n},將集合Vj中的每個槽值輸入BERT進行編碼,以[CLS]標記對應的輸出向量作為該槽值的表征向量.槽值的編碼方式與槽位的編碼方式一致,利用未微調的BERT模型作為編碼器,在降低模型復雜度的同時,減小槽位-槽值匹配層計算選擇候選槽值的難度,具體編碼方式如下:

(8)

(9)

2.5 槽位-上下文注意力層

在對話上下文中,每個槽位所關注的對話上下文部分各不相同.因此模型需要能夠有效區分上下文不同部分對各個槽位的重要性,從而提取出與特定槽位相關的信息.KESA-GNN采用多頭注意力機制評估各槽位與上下文不同部分之間的語義關聯性,獲得各槽位需要關注的上下文信息.KESA-GNN將槽位-槽值編碼層得到的知識增強槽位表征矩陣Sehc作為Q(Query)矩陣,將上下文表征Ht作為K(Key)、V(Value)矩陣,利用注意力機制從上下文中提取出與特定槽位相關的信息.具體計算公式如下:

(10)

C=MHA(Sehc,Ht,Ht)=W4Concat(a1,a2,…,aM)

(11)

其中M為注意力頭個數,ai∈為第i個注意力頭的輸出,W1,W2,W3∈(d/M)×d,W4∈d×d為待學習的參數矩陣,MHA為多頭注意力機制,Concat(·)表示拼接操作,C∈d×J為槽位感知的上下文表征,即特定于各個槽位的上下文信息.

為了不丟失原有的槽位信息,KESA-GNN將槽位感知的上下文表征C與知識增強的槽位表征Sehc經多頭編碼后的信息拼接,然后輸入一個前饋神經網絡進一步融合二者的特征信息,得到包含了各槽位信息與特定于各槽位的上下文信息Sctx,具體計算過程如下:

Sctx=W6ReLU(W5[Sehc;C]+b5)+b6

(12)

其中W5∈d×2d,W6∈d×d,為前饋神經網絡的參數矩陣,b5,b6∈d為偏置項.通過上述計算Sctx∈d包含了各槽位信息與上下文信息,能夠為模型的后續各層捕獲槽位間的相關性提供充分的槽位語義信息與特定于各槽位的上下文語義信息.

2.6 自注意力引導的圖神經網絡層

盡管槽位-上下文感知注意力已經提取出各個槽位相關的上下文信息,但是由于自然語言對話中存在各種表達方式,模型仍然無法有效捕獲某些存在共指、共引等關系的槽位的上下文信息.此外,槽位-上下文注意力層分別計算各個槽位的上下文相關信息,并未考慮槽位間的相關性.KESA-GNN采用自注意力引導的圖神經網絡層,進一步學習槽位間的相關性.

為了初步發現槽位之間的相關性,將Sctx輸入一個層的具有M個頭的槽位多頭自注意力網絡.具體來說,每個多頭自注意力層都有兩個子層.第1個子層是槽位的多頭自注意力層,第2個子層是一個MLP,具有兩個全連接層,在兩者之間有一個ReLU激活層.每個子層在多頭注意力層之前使用歸一化,之后是殘差連接.令F0=Sctx為第1層的輸入表征,對于第l(1≤l≤L)層槽位多頭自注意力層的輸入為Fl-1,輸出為Fl,具體的計算過程如下:

(13)

(14)

(15)

(16)

(17)

Ssa=LayerNorm(Linear(FL))

(18)

其中Ssa∈d×J.

由于通過槽位多頭自注意力網絡得到的槽位間注意力分數矩陣Asa是一個稠密矩陣,不相關的槽位間也會有微小的連接權重,對槽位之間的信息傳播帶來噪聲.為了降低噪聲影響,KESA-GNN采用Max-NRelation算法對注意力分數矩陣進行稀疏化,只保留各槽位間最相關的MAX_N個關系,之后采用稀疏化后的注意力分數矩陣Aadj∈M×J×J作為圖神經網絡的鄰接矩陣,以引導圖神經網絡進行槽位間信息的傳播,避免無關的槽位間的特征信息傳播,從而減弱噪聲影響.該算法具體步驟如算法1所示.

(19)

(20)

(21)

(22)

其中W9∈(d/M)×d,W10∈d×d為共享參數矩陣,“;”為拼接操作,σ(·)為激活函數.

算法1.Max-NRelation

輸入:L層多頭槽位自注意力的注意力分數矩陣Asa∈L×M×J×J,需要保留的關系數MAX_N

輸出:表示槽位之間相關性的鄰接矩陣Aadj

1.n←MAX_N

2.Asa←sum(Asa,dim=0)//將Asa按層數維度求和,維度變為(M,J,J)

3.Asa←softmax(Asa,dim=-1)//將Asa按最后一個維度做softmax歸一化

4.tmp←sort(Asa,dim=-1,dexcending=true)//按最后一個維度降序排序

5.n_head←Asa.shape[0]

6.n_slot←Asa.shape[1]

7.Aadj←zerolike(Asa)//初始化鄰接矩陣

8.forhinrange(n_head)do

9. forsinrange(n_slot)do

10. forjinrange(n_slot)do

11. ifAsa[h][s][j]≥tmp[h][s][n]then

12.Aadj[h][s][j]←1//保留連接

14. end if

15. end for

16. end for

17.end for

18.returnAadj//維度為(M,J,J)

在經過堆疊的L′層上述多頭圖注意力計算后,將每一層的輸出都通過跳躍知識連接[27]與最后一層的輸出做拼接操作,以便模型能夠在最后一層有選擇地組合不同層的節點聚合表示,進一步降低噪聲影響.最后將拼接后的特征通過一個最大池化層進行降維:

(23)

Sga=MaxPooling(Concate(G′1,G′2,…,G′L′))

(24)

其中Aadj∈M×J×J的M個維度為J×J的鄰接矩陣被分配給多頭圖注意力網絡的M個注意力頭.G′l∈d×J為第l層多頭圖注意力層的輸出(1≤l≤L′),Gs∈d×J為L′層多頭圖注意力層輸出的節點表征.

此外,由于槽位與圖注意力的輸出表征仍可能包含一些噪聲.為了進一步降低噪聲影響,KESA-GNN設計了一種門控機制,將二者的特征信息通過一個門控函數過濾噪聲,進一步提高模型的魯棒性.具體的計算過程如下:

Scat=[Ssa;Sga]

(25)

Sgate=Gate(Scat)

(26)

Sfinal=LayerNorm(W11Sgate+b11)

(27)

其中Scat∈2d×J為槽位自注意力與圖注意力網絡的輸出表征Ssa,Sga拼接后的槽位表征.W11∈2d×d是可學習的權重參數矩陣,b11∈d是偏置項.d×J為最終的到的槽位表征矩陣.門控函數Gate(·)使用ReLU函數.

2.7 槽值匹配與模型訓練

(28)

(29)

3 實 驗

3.1 數據集與評估指標

為了驗證KESA-GNN模型的有效性,本文選擇在MultiWOZ 2.0[28]數據集上進行對比實驗分析.這是兩個最大的面向任務型對話任務的公開數據集.MultiWOZ 2.0數據集共有10348個多回合對話樣本,這些對話樣本涉及到{attraction,hotel,restaurant,taxi,train,hospital,police}7個領域.每一個領域都有多個預定義的槽位,總共有35個槽位.由于hospital領域與police領域不包含在驗證集和測試集中,與以往研究工作相同,本文實驗只采用剩下的5個領域,共有30個槽位.表1展示了詳細的數據集統計情況.

表1 數據集統計信息Table 1 Data statistics of MultiWOZ 2.0

在評價指標方面,本文遵循TRADE[4]、CSFN-DST[17]、SST[18]、SAS[21]、STAR[22]等研究工作,同樣采用聯合目標精度(Joint Goal Accuracy)對KESA-GNN模型和基線模型進行性能比較.

3.2 實驗設置與對比算法

實驗使用BERT-base-uncased模型作為對話上下文編碼器,該模型由12個子層,768個隱藏單元,12個注意力頭.除此之外,另外一個不參與訓練微調的BERT-base-uncased模型被用來編碼槽位和槽值,外部知識嵌入采用ConceptNet提供的19.08/mini.h5單詞嵌入.KESA-GNN中,槽位-上下文多頭注意力層、自注意力引導的圖神經網絡中的槽位多頭自注意力與多頭圖注意力的注意力頭數都被設為4,槽位-上下文多頭注意力與槽位多頭注意力的層數為6層,多頭圖注意力的層數為4層,隱藏層維度均設置為768,與BERT輸出的維度相同.Max-N Relation算法的中MAX_N的值被設為10.考慮到BERT已經做過預訓練,而模型的其它部分需要從頭學習,對兩個部分使用不同了的學習率.對于BERT采用的學習率為1×10-5,并且對其12個子層做學習率逐層衰減,衰減率為0.95.對于模型其它部分,設置學習率為2×10-4,訓練批大小為8,dropout設為0.1.模型的最大輸入長度為512個詞,若超過將會被截斷.

為了驗證KESA-GNN模型的有效性,本文選擇了TRADE[4]、CSFN-DST[17]、SST[18]、DSGraph[20]、SAS[21]、STAR[22]、SAVN-DST[29]等最新的基線模型與之對比.

3.3 模型性能分析

KESA-GNN模型與基線模型在兩個數據集上的實驗結果如表2所示.其中KESA-GNN模型在MultiWOZ 2.0上的聯合目標精度上相較于對比模型獲得了最佳值,為55.71%,相較于對比模型中性能最優的DSGraph模型,KESA-GNN模型的性能提升了0.85%.這是因為KESA-GNN能夠依賴包含外部知識的豐富的槽位信息有效捕獲槽位之間的相關性,并依據Max-N Relation算法獲得的槽位相關性矩陣精確地引導圖神經網絡進行槽位之間的信息傳播,降低了槽位弱相關關系帶來的噪聲影響模型性能.從實驗結果可以看出,KESA-GNN所提出的基于自注意力引導的圖神經網絡的槽位關系建模方法優于基線模型所采用的槽位關系建模方法.

表2 KESA-GNN與基準模型在Joint Goal Accuracy(%)方面的比較Table 2 Comparison of KESA-GNN and baseline models in terms of Joint Goal Accuracy(%)

3.4 消融實驗

本節將通過消融實驗分析KESA-GNN模型的不同模塊對整體性能的貢獻.消融模型包括KESA-GNN w/o KE以及KESA-GNN w/o SA-GNN.KESA-GNN w/o KE表示從KESA-GNN中去除槽位知識增強;KESA-GNN w/o SA-GNN表示從KESA-GNN中去除注意力引導的圖神經網絡.

消融實驗的結果如表2所示,可以看出KESA-GNN w/o KE的性能與其他消融實驗相比存在較大差距,說明提出的槽位知識增強方法可以引入正確的外部知識引導模型學習槽位之間豐富的語義相關性.KESA-GNN w/o SA-GNN的性能與KESA-GNN相比較差,說明提出的自注意力引導的圖神經網絡可以有效降低在弱相關槽位之間的信息傳播帶來的噪聲影響.此外,KESA-GNN w/o KE的性能差于KESA-GNN w/o SA-GNN,說明槽位知識增強引入的外部知識有助于提升模型下游槽位相關性建模的準確度,從而提高模型性能.

4 總 結

針對現有的多域對話狀態追蹤模型對跨域對話中槽位關系建模所存在的可擴展性差以及噪聲影響問題.本文提出一種注意力指導的圖神經網絡稱為KESA-GNN來建模槽位之間的相關性.該方法結合了注意力機制與圖神經網絡.KESA-GNN首先使用預訓練模型BERT編碼獲得上下文以及槽位、槽值表征向量.然后,KESA-GNN用BERT編碼輸出的初始槽位表征向量與外部知識嵌入融合獲得知識增強槽位表征,有助于不同槽位之間的知識轉移以及提升模型對于槽位相關性的發現能力.再利用槽位-上下文注意力從上下文中檢索出特定于每個槽位的關鍵上下文信息.在槽位相關性建模方面,KESA-GNN首先利用堆疊的多頭自注意力層來初步建模槽位之間的相關性,并利用Max-N Relation算法將表示槽位之間相關性的稠密的注意力矩陣稀疏化(過濾弱相關降低噪聲影響)后作為圖神經網絡的鄰接矩陣指導槽位之間的信息傳播.最后,將槽位自注意力與圖神經網絡輸出的槽位表征通過一個門控融合機制相融合作為最終槽位表征.KESA-GNN是完全由數據驅動的方法.在用圖神經網絡建模槽間關系時,無需人工構建鄰接矩陣,而是繼承了槽位自注意力自主捕獲的槽位相關性矩陣,提高了模型的可擴展性.為了評估KESA-GNN模型的性能,本文在大型多域對話數據集MultiWOZ 2.0上進行了實驗.結果表明,KESA-GNN的性能優于最新的對比模型.

猜你喜歡
注意力編碼建模
讓注意力“飛”回來
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
聯想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
《全元詩》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應用
Genome and healthcare
基于PSS/E的風電場建模與動態分析
不對稱半橋變換器的建模與仿真
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合