?

面向低資源場景的實體知識獲取研究綜述

2024-02-13 15:10徐道柱趙凱琳康棟馬超馮禹銘李紫宣弋步榮靳小龍
大數據 2024年1期
關鍵詞:源域實體樣本

徐道柱,趙凱琳,康棟,馬超,馮禹銘,李紫宣,弋步榮,靳小龍

1. 西安測繪研究所,陜西 西安 710054;2. 中國科學院計算技術研究所,北京 100086;3. 航天恒星科技有限公司,北京 100089

0 引言

實體獲取是指從非結構化文本中抽取特定類型的實體,例如在自然環境領域中抽取地形、災害和地名等實體類型。在“2月28日在四川甘孜州瀘定縣發生4.8級地震,該縣由于處于青藏高原與四川盆地交界處,經常發生地震”這句話中,“四川甘孜州瀘定縣”和“地震”分別為地名和災害類型的實體,“青藏高原”和“四川盆地”為地形類型的實體。實體獲取是信息抽取的核心任務,直接影響信息檢索、知識問答、機器翻譯、知識圖譜構建等下游任務。近年來,隨著大數據時代的到來、知識圖譜以及自然語言處理等領域的快速發展,基于深度學習的實體獲取技術已取得長足進步。但是,隨著新的應用場景和應用領域的不斷出現,數據的來源和渠道不斷拓寬,缺少高質量標注數據成為構建深度實體獲取模型的主要挑戰之一。例如在自然環境領域中,災害、地形類型的實體數據或者標注數據稀缺,而對無標簽數據進行標注將會消耗大量的時間和人力。因此,如何在低資源場景下進行實體獲取,逐漸受到人們的關注。該任務叫作低資源實體獲取,也被稱為小樣本實體獲取。

低資源實體獲取旨在從含有少量樣本的實體類型中學習到實體獲取模型。目前,低資源實體獲取一般依照N-way K-shot的形式進行構建,即一個N-way K-shot任務包含一對支持集和查詢集。支持集包含N個實體類別,每個類別包含K個帶標簽樣本,查詢集包含與支持集相同的N個實體類別,每個類別包含Q個待預測樣本。訓練階段和測試階段均包含多個N-way K-shot任務,訓練只在含有大量標注樣本的源域上進行,測試只在含有少量標注樣本的目標域上進行。圖1展示了一個在自然環境領域中獲取低資源實體的實例。

圖1 低資源實體獲取實例

雖然實體獲取經歷了長時間的研究,但是低資源實體獲取在近幾年才被提出并逐漸成為熱門問題。面對標注數據稀缺的難題,低資源實體獲取問題的解決思路如下:在大量源域數據上得到一個預訓練模型,通過遷移學習將某些知識遷移到目標域上,并進行快速泛化。根據不同的遷移學習方法,本文將目前的工作分為3類:基于元學習的低資源實體獲取方法、基于多任務學習的低資源實體獲取方法和基于提示學習的低資源實體獲取方法?;谠獙W習的方法在多個低資源實體獲取任務上學習元知識(模型的初始參數或者超參數等),使模型快速適應新的小樣本任務?;诙嗳蝿諏W習的方法通過拆分主任務或者引入輔助任務來挖掘任務之間的聯系,從而提升低資源實體獲取的效果?;谔崾緦W習的方法為預訓練語言模型設計合適的提示,從而提高模型在小樣本任務上的泛化能力、減緩過擬合問題。這3類模型均在低資源實體獲取任務上取得了先進的成果。

本文首先從基于元學習、基于多任務學習和基于提示學習這3種方法介紹低資源實體抽取的工作進展。其次,總結了低資源實體獲取的基準數據集以及代表性方法在這些數據集上的效果。然后,對這3種方法的研究現狀以及優缺點進行了總結。最后,梳理了低資源實體獲取目前面臨的挑戰,并展望了未來發展方向。

1 基于元學習的方法

小樣本學習中的元學習方法的核心思想是通過雙層次優化過程使元學習器在多個先驗任務上學習到任務無關的元知識,最終實現在新任務上的泛化[1]?;谠獙W習的低資源實體獲取的通用流程如下:首先,在源域上構建多個實體獲取任務,每個任務包含相應的支持集和查詢集;然后,使用元學習算法從源域的大量任務中學習到元知識,這些元知識可以提高模型在目標域上的性能;最后,在目標域上微調模型以適應目標域的數據和任務。該模型利用源域上學習到的知識來快速適應目標域的任務,從而獲得更好的性能?;谠獙W習的低資源實體獲取方法可以分為4類:基于度量的元學習方法、基于優化的元學習方法、基于記憶的元學習方法和基于信息增強的元學習方法。

基于度量學習的元學習方法通過距離函數學習到泛化性更強的編碼器,從而提升低資源實體獲取的效果。2019年,Fritzler等[2]提出了一種基于原型網絡[3]的方法,即Proto模型,該方法將同一類型實體表示的平均值作為該類型的原型,然后基于實體類型原型表示和詞語表示的相似度進行實體分類。Yang等[4]將在源域上訓練的監督實體獲取模型作為特征提取器,提出了一個基于最近鄰學習和結構化推理的實體獲取模型,分別是NNShot模型、StructShot模型。針對低資源實體獲取任務的標簽依賴問題,Hou等[5]提出了L-TapNet+CDT模型,如圖2所示。該模型設計了一種分數轉移的遷移機制,使得條件隨機場(conditional random field,CRF)[6]能夠適用源域和目標域的實體類型集合不一致的場景。此外,該模型將標簽語義的表示融入類型原型表示中,增強了低資源場景下實體的原型表征,從而提升低資源實體獲取的效果。但這些方法只從源域學習特定類型的語義特征和中間表示,這會影響目標域的泛化性,導致性能次優。為此,Das等[7]提出了一種新的對比學習技術,即CONTaiNER模型,用于優化低資源實體獲取的序列間分布距離,從而提升了模型在目標域上的泛化性。上述方法通過標記分類來解決低資源實體獲取問題,忽略了實體邊界信息,不可避免地會受到大量非實體標記的影響。針對這個問題,Wang等[8]提出了一種開創性的基于跨度的原型網絡SpanProto,該網絡通過兩階段方法處理低資源實體獲取,包括跨度提取和分類,如圖3所示。

圖2 L-TapNet+CDT 模型結構[5]

圖3 SpanProt 模型架構[8]

基于優化的元學習方法,通過設計更好的優化策略或優化器來增強元學習器捕捉不同任務的共性能力,最終達到更好的遷移效果。Li等[9]設計了一種顯式區分任務相關參數和任務無關參數的元學習模型,在該模型的優化過程中,內部循環更新任務相關參數,外部循環通過二階導數更新任務無關參數。為了更好地實現領域相關和領域無關特征的解耦,Li等[10]在低資源實體獲取任務上第一次引入了模型無關的元學習方法(model agnostic meta learning,MAML)[11]和領域對抗訓練方法,使模型能夠在多個源域的混合數據上訓練。具體地,該模型設置了兩個優化目標,使編碼器提取的特征在豐富性和領域無關性上達到平衡。

基于記憶模塊的元學習方法通過設計外部記憶模塊存儲源域樣本的表示,并利用注意力機制引入源域信息,從而增強目標域樣本的特征表示。為了將源域中實體類型知識更好地遷移到目標域的新類型上,Zhang等[12]設計了一種能夠適用于零樣本場景的記憶增強模型MZET,該模型利用外部記憶模塊存儲源域中的舊實體類型的表示,并通過對舊類型表示和新類型表示之間的相關性進行建模,將詞語和新實體類型的相似度度量轉換成詞語和舊實體類型的相似度度量。

基于信息增強的元學習方法通過引入外部信息來增強原型表征,從而提升基于原型網絡的低資源實體獲取效果。Ji等[13]提出了一種基于實體級原型網絡的方法,從而解決實體標簽依賴和語義空間中原型過于接近的問題。Wen等[14]引入了句子級別的語義信息來提高模型的魯棒性。然而,大多數工作是基于標記的相似性為每個標記分配一個標簽,忽略了實體的完整性。Wang等[15]提出的ESD模型是一種增強的基于跨度的分解方法,將低資源實體獲取任務轉化為測試查詢和支持實例之間的跨級匹配問題。而Ma等[16]提出了一種分解元學習方法DecomMetaNER,該方法通過使用元學習連續處理小樣本跨度檢測和小樣本實體類型分類來解決低資源實體獲取問題,將小樣本跨度檢測視為序列標記問題,并通過引入MAML算法來訓練跨度檢測器,以找到能夠快速適應新的實體類型的模型初始化參數。Huang等[17]采用了類型描述增強的策略,提出了DFSNER模型,該模型在實體類型原型表示上通過單詞-單詞級和單詞-類型級的對比學習和膠囊網絡進行信息增強,并且引入了一個由類型描述引導的掩碼語言模型學習目標,從而更好地利用實體類型的語義信息。

總的來說,由于在小樣本任務上建立了魯棒高效的元學習器,基于元學習的方法緩解了在目標域上過擬合的問題,但效果受限于目標域樣本質量。元學習方法在低資源實體獲取任務中具有廣泛的應用前景。隨著研究的不斷深入,該領域的發展趨勢將更加注重模型的普適性和可解釋性,引入跨模態元學習和多任務元學習等新的研究技術,從而提升模型在低資源實體獲取任務中的性能。

2 基于多任務學習的方法

由于目標域中實體類型的標注樣本非常有限,使用單任務學習方式進行低資源實體獲取的效果會受到很大影響。相比之下,任務之間的相關性可以幫助模型利用有限的數據更好地學習泛化特征,因此,多任務學習方式能夠更好地挖掘任務之間的聯系,從而提高每個任務的表現。此外,多任務學習還可以提高模型的魯棒性,更好地適應不同領域和任務。

基于多任務學習的方法通常分為以下幾個步驟:首先,設計合適的任務分解方式,將低資源實體獲取任務分解成多個子任務或引入輔助任務;其次,設計共享編碼器和與任務相關的私有模塊,其中共享編碼器用于提取通用特征,私有模塊用于與學習任務相關的特征;然后,在域數據上進行模型的預訓練,提高模型的泛化性能;最后,在目標域上進行模型微調,以適應目標域的數據和任務。

將低資源實體獲取任務拆分成多個子任務,能夠減少由于源域和目標域實體類型集合不一致而產生的遷移偏差。拆分后的子任務通常包括針對多個實體類型的詞語級別匹配任務、實體邊界檢測任務和實體分類任務。Bapna等[18]第一次將低資源實體獲取任務建模成詞語級別匹配任務,先通過LSTM編碼句子表示,再拼接實體類型描述的表示,最后輸入LSTM進行序列標注。在此基礎上,Lee等[19]增加了注意力機制以更好地將實體類型信息融入詞語表示,并使用CRF作為序列標注器。為了有效利用目標域的少量標注樣本,Shah等[20]在對輸入樣本的詞語進行編碼時增加了注意力機制,以平衡標注樣本中不同詞語的權重。Liu等[21]第一次提出了不需要額外資源的零樣本跨領域適應實體獲取模型MTL+MoEE,如圖4所示。該模型聯合實體邊界檢測任務和實體分類任務,同時引入了混合專家模型以平衡不同類型的實體表示,提升了模型的魯棒性。

圖4 MTL+MoEE 模型結構[21]

為了更好地將源域的知識遷移到目標域上,可以設計輔助任務來幫助低資源實體獲取。針對零樣本場景,Zhang等人[22]提出了一個多域數據混合、多階段、多任務的訓練框架,從任務、語言和領域3個維度劃分知識,并探究了如何選擇訓練數據和微調任務問題。該框架引入了掩碼語言模型任務和基于機器閱讀理解的實體邊界檢測任務,增強了底層編碼器的跨域表示能力,從而提升性能。

總的來說,基于多任務學習的方法可以通過多個學習目標的約束,在更充分的監督信號上學習到泛化表示能力更好的模型。該方法的優點在于,通過在多個相關任務之間進行約束,提供額外的訓練信息,從而提高每個任務的表現。另外,設計一些與實體獲取相關的輔助任務,可以幫助模型更好地將從源域獲得的知識遷移到目標域上。然而,基于多任務學習的方法也存在一些問題。首先,輔助任務的增益效果難以提前估計,需要通過實驗來確定哪些任務對主任務性能的提升效果較好;其次,在多任務學習過程中,需要平衡不同任務對主任務學習的影響,以免影響主任務的學習;最后,在多任務學習中,不同任務之間可能存在沖突,這需要對任務、模型架構等進行多次設計。

針對基于多任務學習的方法,未來的發展趨勢包括更有效的任務設計、更好的數據利用、更好的領域適應能力以及更好的跨語言學習能力。如何設計更加有效的輔助任務,如何利用源域和目標域的信息來提高模型的泛化能力,如何在不同的領域之間進行遷移學習,如何將在一種語言上訓練的模型遷移到另一種語言上,這些都將成為基于多任務學習的低資源實體獲取方法的重要研究方向。

3 基于提示學習的方法

隨著大規模預訓練語言模型的發展,提示學習成為自然語言處理領域的新研究范式[23-24]。其核心思想是將下游任務轉換成與預訓練階段形式相似的任務,從而最大化利用預訓練語言模型的泛化能力?;谔崾緦W習的方法的通用流程如下:首先,確定下游任務類型和目標領域,將下游任務改造為與預訓練階段形式相近的任務;其次,通過對目標域標注樣本進行優化或選擇提示,對預訓練模型進行微調來進行目標域上的低資源實體獲取。

近年來,低資源實體獲取領域開始探索將該任務建模成Seq2Seq任務,并利用具有強大泛化能力的預訓練模型來解決小樣本問題。先前的方法依賴于源域和目標域之間相似文本特征進行知識遷移,而Cui等[25]提出了一種基于雙向自回歸變換器(bidirectional autoregressive transformers,BART)的提示學習模型Template-based BART,如圖5所示。在訓練階段,該模型接收待預測樣本作為輸入,并為正確預測結果對應的提示輸出產生最高的概率分數。在測試階段,該方法需要枚舉所有句子片段和所有實體類型提示的組合,以得到對某一句的預測結果。

圖5 Template-based BART 模型結構[25]

預訓練模型的自編碼任務通常要填充句子中缺失的部分,在低資源實體獲取任務中具有很大的潛力,可以更好地表示和抽取文本信息。然而,傳統基于提示學習的方法存在搜索空間過大、提示設計困難等問題。針對這些問題,Ma等[26]提出了EntLM模型,該模型提出了一種新的適用于掩碼語言模型的提示構造方式,這種方式使用原句子作為輸入提示,然后選擇某一實體類型的高頻詞語作為標簽詞,在標簽詞替換后得到輸出提示,從而獲得更好的文本表示。Huang等人[27]針對低資源實體獲取任務中實體標簽不足的問題,提出了COPNER方法,通過引入面向特定類別的詞匯來進行對比學習和度量推理。

近來的一些研究表明,將實體獲取任務建模成一些其他成熟領域的任務,能夠提升低資源實體獲取的效果。Sun等[28]發現將繼承預測任務應用在小樣本學習問題中,可以有效發揮預訓練模型的能力,具體流程為將原句子和預測結果對應的提示一起輸入預訓練模型,無監督地選擇存在繼承關系、預測概率最高的一對作為下游任務的預測結果。Li等人[29]將低資源實體獲取任務轉化為文本繼承預測任務,提出了基于提示學習的文本繼承方法PTE,利用預訓練語言模型對候選實體進行打分,從而得到最終的實體標簽。Liu等人[30]則提出了QaNER方法,將實體獲取問題轉化為問答問題,并在已有的問答模型上添加提示學習,取得了更好的效果。

總的來說,基于提示學習的方法對低資源實體獲取任務形式進行了改造,使其與預訓練階段保持一致,從而降低了微調參數對目標域標注數據的需求,更充分地利用了預訓練語言模型的泛化能力。然而,傳統的提示學習方法需要枚舉所有句子片段和所有實體類型提示的組合,導致搜索空間過大。最新的連續型提示學習的缺點在于提示的設計會影響學習效果,在小樣本場景下缺少充分的監督信號去優化或篩選高質量的提示。

基于提示學習的低資源實體獲取方法的未來發展方向是將提示學習與其他技術結合以提高實體獲取的效果。例如,使用強化學習來設計有效的提示,或者使用元學習來針對不同的數據集和任務進行模型調整。此外,還可以使用其他更有效的方法,如圖神經網絡方法和注意力機制方法等,更好地表示和抽取文本信息。同時,可以提出更多新的提示學習范式,將實體獲取問題轉化成其他成熟領域的問題。

4 數據集與實驗

在低資源實體獲取中,常用的基準數據集有SNIPS、Few-NERD和CrossNER。此外,本文針對自然環境領域構建了一個低資源實體抽取數據集FewBE。接下來,對這4個數據集進行介紹,并對低資源實體獲取方法在這些數據集上的實驗結果進行總結和分析。

4.1 數據集

SNIPS數據集[31]是一個槽填充數據集,常用于實體獲取任務。該數據集標注了39種細粒度實體類型,官方劃分了7個不同的數據域,即GetWeather、PlayMusic、AddToPlaylist、BookRestaurant、SearchScreeningEvent、RateBook、SearchCreativeWork,分別簡稱為We、Mu、P1、Bo、Se、Re和Cr。該數據集通過留一法來構建低資源實體獲取評測任務,具體而言,選擇一個數據域用于測試,一個數據域用于驗證,其他數據域用于訓練,在不同數據域上總共劃分出7個任務。

CrossNER數據集[32]是一個完全標注的跨域實體獲取數據集,涵蓋5個不同的領域,分別為政治、自然科學、音樂、文學和人工智能,并為不同的領域提供專門的實體類別。此外,該數據集還提供了與各個領域相關的4個語料庫,包括OntoNotes 5.0、CoNLL-03、GUM和WNUT-17。

Few-NERD數據集[33]是一個專門為低資源實體獲取任務設計的數據集,也是當今最大的開源實體獲取數據集之一,標注了8個粗粒度實體類型和66個細粒度實體類型。同時,官方還給出了兩種不同的評測任務以及相應的數據劃分,分別為Few-NERD-INTRA和Few-NERDINTER。在Few-NERD-INTRA任務中,在源域上的訓練集和在目標域上的驗證集和測試集的實體類型屬于不同粗粒度類型。在Few-NERD-INTER任務中,它們在粗粒度類型上有交集,在細粒度類型上無交集。由于采樣的數據的類型數和樣本數存在差異,這兩個任務都有4種不同的設定,即5-way 1~2-shot、5-way 5~10-shot、10-way 1~2-shot和10-way 5~10-shot。

數據集FewBE是本文針對自然環境領域構建的低資源實體獲取構建的數據集,包含地形、災害和地名3種實體類型,其中地形包含高原、平原、盆地、山地和丘陵5類實體類型,災害包含了臺風、海嘯、地震、暴雨洪澇、干旱和泥石流6類實體類型,地名包含了一級、二級、三級和四級行政區劃4類實體類型,共計18類實體類型,其中每一類含有20個標注樣本。與Few-NERD相同,本文給出了兩種評測任務和數據集劃分方式,即FewBE-INTRA和FewBE-INTER。在FewBE-INTRA任務中,源域上的訓練集包括災害和地名兩個大類,目標域上的測試集包括地形大類,源域與目標域在大類上沒有交集。在FewBE-INTER任務中,它們在粗粒度類型上有交集,在細粒度類型上無交集。由于采樣的數據的類型數量和樣本數量較少,這兩個任務都有2 種不同的設定,即3-way 1-shot和5-way 1-shot。

4.2 實驗結果

針對SNIPS數據集,本文選取了L-TapNet+CDT、ESD和DFS-NER作為代表性模型。表1給出了各方法在SNIPS數據集上5-way任務設置下的性能對比。從表1可知,L-TapNet+CDT的平均F1值就可以達到70%左右,說明在該數據集上的低資源實體獲取任務相比于其他兩個數據集更簡單。此外,隨著低資源實體獲取技術的不斷發展,實驗效果也在不斷提升,但提升效果相比其他兩個數據集較慢。近幾年在這個數據集上的工作較少,遇到了瓶頸。從表1中同一模型的橫向對比可以看出,模型在不同數據域上效果差異較大,例如DFS-NER在Bo和Mu領域相差24%,說明該模型不能同時適用于所有領域,泛化性有待提升。

表1 SNIPS 數據集低資源實體獲取結果

針對CrossNER數據集,本文選取了L-TapNet+CDT、DecomMetaNER和Spa n Proto這3 個代表性模型,其中SpanProto是目前的最先進模型。表2給出了這些模型在CrossNER數據集上5-way任務設置下的性能對比。通過不同模型間的縱向對比可以看出,近年來隨著低資源實體獲取技術的更新,新出的模型效果提升較大,但實驗結果仍有很大的提升空間。從同一模型的橫向對比可以看出,不同領域之間的實驗結果差異較大,說明同一個模型對不同領域的普適性和泛化性較差,該結論與SNIPS數據集相似。

表2 CrossNER 數據集低資源實體獲取結果

針對Few-NERD數據集,本文選取了在該數據集的開源網址上評測過的幾個模型,如Proto、NNShot、StructShot、CONTaiNER、ESD和DecomMetaNER等,以及當前最先進的SpanProto模型,展示了這些模型在Few-NERD數據集上設置為1~2-shot的性能對比,見表3。根據實驗結果可知,SpanProto相比于最早的低資源實體獲取模型Proto,在每個任務上的提升均有30%~35%,說明近幾年低資源實體獲取技術取得了長足進步。此外,SpanProto模型在該數據集上的平均實驗結果相比于SNIPS數據集來說較差,說明該數據集上的低資源實體獲取任務更難,實驗結果仍有較大的提升空間。

表3 Few-NERD 數據集低資源實體獲取結果

針對FewBE數據集,本文選取了一些小樣本實體獲取的開源模型進行效果評測,如Proto、NNShot、StructShot、DecomMetaNER和ESD等,表4給出了這些模型在FewBE-INTRA和FewBE-INTER兩種測評任務上設置為3-way 1-shot和5-way 1-shot的性能對比。通過縱向對比可以看出,低資源實體獲取方法在近年來取得了長足進步,該結論與Few-NERD數據集上的結論類似。通過橫向對比可以看出,同一模型在INTRA和INTER兩種數據集劃分方式上的性能差異較大,表明了災害、地名和地形實體類型之間存在較大差別。

表4 FewBE 數據集低資源實體獲取結果

5 挑戰與展望

由于真實領域中某些類型的實體樣本量或標注樣本很少,而對樣本進行標注會耗費大量人力和時間,近年來低資源實體獲取逐漸獲得關注。根據不同的遷移學習方法,本文將低資源實體獲取分為基于元學習、基于多任務學習和基于提示學習的方法。本文對以上3種方法進行了總結,比較了它們的優點和缺點,具體見表5。

表5 3類低資源實體獲取方法的優缺點

總體來說,低資源實體獲取方法已經取得了不錯的進展?;谠獙W習的方法在大量任務上學習到能夠提高模型泛化能力的元知識,因此不易在目標域過擬合,但是這類方法的性能不穩定,且嚴重依賴目標域的標注樣本?;诙嗳蝿諏W習的方法由于多個優化目標的約束,泛化表征能力較強,但是嚴重依賴于輔助任務的質量,還需要平衡不同的輔助任務對主任務的影響程度?;谔崾緦W習的方法利用預先設計好的提示,能夠降低對標注數據的依賴,但是該類方法在小樣本場景下的監督信號十分有限,并且嚴重依賴于提示的設計與選擇。

5.1 挑戰

通過對當前方法的優缺點分析,本文對低資源實體獲取目前面臨的挑戰進行了總結。

(1)訓練成本較高

目前的低資源實體獲取方法,均需要在大規模源域數據集的大量任務上對模型進行預訓練,而這需要花費大量的時間和計算資源。

(2)方法與任務結合不緊密

很多小樣本方法聚焦在模型層面,沒有與實體獲取任務進行有效結合。在實體獲取任務中,現有的方法往往忽略了不同類型實體之間的關聯、實體與文本上下文之間的聯系、先驗的知識圖譜等知識,而這些知識可能會對該任務的性能有所提升。

(3)對新的實體類型的適應性不足

在新領域構建實體獲取模型,除了缺乏領域內的標注數據,可能會不斷出現人為定義的新實體類型。然而,目前很多工作中的目標域是單一特定的,目標任務的實體類型集合是已知的,這些工作通過使用標簽特定的解碼框架來提升效果,但是無法泛化到新的實體類型和目標域上。

目前基于提示學習的方法由于設計了與任務相關的提示,在下游的低資源實體獲取任務中無須引入額外的參數,在一定程度上緩解了訓練成本高的問題?;诙嗳蝿諏W習的方法,需要針對低資源實體獲取任務進行拆分或者引入相關的輔助任務,因此該類方法與實體獲取任務結合相對緊密,但仍然忽視了隱含在實體獲取中的知識,比如不同實體類型之間的關聯?;谠獙W習的方法在大量任務上學習到了幫助實體獲取的元知識,在新領域上泛化性較好,能夠提高對新領域實體類型的適應性,但是在不同領域上的效果相差較大,仍然不能適用于所有的新領域。在當前的工作中,已有元學習和多任務學習、元學習和提示學習這兩種結合方式,但是沒有嘗試多任務學習和提示學習、3種方法的結合方式。

5.2 展望

通過對當前研究進展的梳理,本文對未來低資源實體獲取的發展方向的展望如下。

(1)在數據和預訓練模型層面,可以更好地利用知識圖譜等先驗知識,從而減少模型對大規模預訓練數據、訓練時間和計算資源的需求,降低模型的訓練成本。隨著ChatGPT[34]等大規模預訓練模型的興起,可以考慮利用這些模型卓越的小樣本學習能力來提高在自然環境等低資源領域的實體獲取效果。但在真實領域中,需要考慮應用場景、模型訓練部署成本等因素,讓這些大規模預訓練模型真正落地。

(2)在任務層面,將小樣本學習方法和實體獲取任務結合得更緊密,在模型中更好地融入實體以及上下文的知識,比如不同類型實體之間的關聯、實體與文本上下文之間的聯系、實體文本中不同詞之間的依賴關系等。

(3)在方法層面,針對不同方法有不同的展望。針對基于元學習的方法,設計更好的元學習器,以提高模型的普適性和可解釋性。如何設計元學習器使其學習到更多、更有效的元知識,從而增強實體獲取模型在不同新領域新實體類型上的泛化性,將是一個重要的研究方向。針對基于多任務學習的方法,設計更好的任務拆分方案或者設計更有效的輔助任務,還需要平衡不同任務對主任務學習的影響程度。針對基于提示學習的方法,設計更簡單、有效的提示。在小樣本場景下,需要利用有限的監督信號去優化或篩選高質量的提示。此外,可以嘗試將這3種方法進行結合,以應對低資源實體獲取中不同方面的挑戰。

6 結束語

由于自然環境等真實領域中實體樣本不足,低資源實體獲取越來越受到人們的重視,并且在真實領域展現出良好的應用前景。近來,隨著ChatGPT等一系列在低資源場景下具有高學習能力的大規模預訓練模型的廣泛應用,低資源實體獲取也面臨了一些機遇和挑戰。在真實應用領域中,需要設計讓大規模預訓練模型真正落地的方案,在亟須解決的問題和場景中發揮作用。

猜你喜歡
源域實體樣本
用樣本估計總體復習點撥
基于參數字典的多源域自適應學習算法
前海自貿區:金融服務實體
推動醫改的“直銷樣本”
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
可遷移測度準則下的協變量偏移修正多源集成方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合