?

端到端方面級情感分析綜述

2024-03-05 01:41潘美琦馬致遠劉高飛秦紀偉
小型微型計算機系統 2024年3期
關鍵詞:極性術語標簽

潘美琦,馬致遠,2,劉高飛,秦紀偉

1(上海理工大學 健康科學與工程學院,上海 200093)

2(南京大學 計算機軟件新技術國家重點實驗室,南京 210093)

0 引 言

互聯網的普及催生了包括購物網站、社交媒體、搜索引擎等在線平臺的急劇增加,隨之而來產生了大量用戶相關的非結構化文本,由此帶來的通過對用戶進行分析和挖掘的需求也日益增加.其中,準確地通過對產品評價、社交網站的討論、娛樂平臺上的輿論信息、新聞文章、政治辯論等文本判斷人們對某個話題表達的觀點[1],有助于個人、企業、政府了解人們對產品、營銷活動、政治議程的看法,進而為預測和推薦產品、服務、娛樂內容[2]提供支持,還可以應用于股票市場、金融預測等領域.因此作為文本挖掘領域的重要研究方向,情感分析(Sentiment Analysis,SA)技術和相關工具的研究發展十分重要.

按照處理對象的不同,SA分為文檔級、句子級和方面級3類.文檔級和句子級SA旨在給出整個文檔或句子的情感極性,這兩類SA任務假設一段文本只表達一種觀點,忽略了一個文檔可能會出現多種觀點的情況.另外,它們僅提供句子或文檔整體的情感極性,不表明情緒的主體,不適用于對手機、電腦等具備細粒度情感極性的評價進行分析.如圖1例句a句子級別情感分析可以判斷出句子的整體情感為負向,但無法提取情緒的目標實體.因此,需要更細粒度的文本分析任務來用于判斷句子中人們對實體或實體屬性表達的情感,即方面級情感分析(Aspect-based Sentiment Analysis,ABSA).如圖1例句b表達了對實體餐廳“Saul”的積極情感,例句c針對的是餐廳的食物味道.類似地,還有筆記本電腦、屏幕大小、手機的性能等.

圖1 情感分析例句Fig.1 Sentiment analysis example sentences

ABSA通過提取顯式的方面(即方面術語提取)和檢測每個提取的方面術語的情感極性(即方面情感分類)來確定人們對特定方面的態度.傳統上,方面提取和極性分類被視為兩個獨立的任務分開處理,無法充分利用兩個任務之間的聯合信息.因此,最近越來越多的研究集中在利用深度神經網絡以端到端的方式解決ABSA問題,同時訓練和解決兩個子任務,稱為端到端方面級情感分析(End-to-End ABSA,E2E-ABSA).如圖1例句d,要求提取其方面術語“Moules”、“lobster ravioli”,并分別確定它們的情感極性為“積極”和“消極”.盡管與其類似的任務,方面類別情感分析(Aspect Cate-gory Sentiment Analysis,ACSA)能夠提取方面所屬的類別并確定情感極性,但針對如圖1例句d的評論,任務將兩個方面均分類為食物質量,無法做更細粒度的區分.而方面情感三元組等更多元素提取的任務,雖提取信息更完整,但由于處理要素過多、任務難度增加,導致現有研究挖掘得不夠充分.因此,本文旨在對E2E-ABSA任務進行全面的分析.

近年各期刊已經發布了很多總結ABSA任務的綜述類文章[6-9].其中Zhang等人[3]根據現有研究解決的問題對ABSA進行了全面介紹.Nazir等人[4]將ABSA分為3個階段,方面提取、方面情感分析和情感演變,對每個階段存在的問題和解決方案進行系統的研究.Liu等人[5]介紹了3種主流的方法:基于詞典的方法、基于機器學習的方法和基于深度學習的方法,并比較了它們的優劣.這些綜述較寬泛地概括了ABSA任務.而更具體地,Chebolu等人[6]討論了方面類別檢測(Aspect Category Detection,ACD)的方法和挑戰.Brau-wers等人[8]和Zhou等人[9]介紹了給定方面的情感分類(Asp-ect Sentiment Classification,ASC)方法.但這些研究未對E2E-ABSA進行歸納,缺少對新研究和代表性方法的總結.

針對這一現狀,本文就E2E-ABSA任務存在的問題及近5年的研究重點進行回顧.本文的其余部分組織如下:第1節對ABSA包含的各類建模方式進行介紹,針對各任務的特點介紹了代表性方法;為了對E2E-ABSA任務進行更詳細的介紹,本文在第2節中分析了相關數據集的特點及領域差異,這有助于接下來的研究針對存在的問題設計更合理的模型.并在第3節中從任務建模的角度將E2E-ABSA任務進行分類,討論了其關鍵問題和現有方法;為了綜合對比和分析現有方法的優劣,第4節總結了模型性能的評價指標及現有方法的性能,并提煉了目前研究的最優方案;第5節總結了監督方法、半監督方法和無監督方法的挑戰和未來研究方向;第6節總結了全文.

1 ABSA任務概述

為了對ABSA任務有一個全面的認識,本節首先介紹4類提取元素.其次,遵循Zhang等人[3]的分類方法,對單任務及包括多種元素的復合任務進行概括,并闡述了在統一框架下解決ABSA所有任務的整體方案.

1.1 提取元素

根據 Pontiki等人[10,11]的定義,ABSA任務共需提取4類元素:方面術語、方面類別、意見術語、情感極性.如圖2所示,方面術語意為可以表達情感的實體或實體屬性,例如,“place”、“food”、“waiter”等.方面類別是方面術語所屬的類別,其定義因數據集的來源而異.Restaurant14數據集[10]共定義了5個方面類別(如“FOOD”,“PRICE”).Restaurant15、Laptop15[11]和Restaurant16、Laptop16數據集[12]進一步定義了層次化方面類別,每個方面類別由:實體E和屬性A(如 “FOOD#QUALITY”,“RESTAURANT#PRICES”)構成.意見術語是方面術語的情感來源,與方面術成對出現.情感極性則是人們對方面所表達的情感傾向,一般有3種:積極的(“POS”)、消極的(“NEG”)、中性情緒(“NEU”).

圖2 ABSA提取例句Fig.2 ABSA extract example sentence

1.2 ABSA相關任務

1.2.1 單任務

為了提取1.1節介紹的4類元素形成了4類任務:方面術語提取(Aspect Term Extraction,ATE)、方面類別檢測(ACD)、意見術語提取(Opinion Term Extraction,OTE)、方面情感分類(ASC).

ATE通常建模為序列標記任務,研究多專注于學習Token的表示[13,14].如Xu等人[14]采用兩種類型的預訓練嵌入以豐富embedding的表示信息.為了利用句子的整體語義,Ma等人[15]將ATE形式化為Seq2Seq學習任務.但近年ATE任務的研究逐漸從有監督方法轉移到無監督領域自適應方法[16,17].ACD一般建模為多標簽分類任務.由于方面類別通常不顯式出現在評論句中,并且部分數據集預定義的類別較多(如Laptop15細分了23個實體和9個屬性標簽)[11],故具有一定挑戰性[18].為了解決標注數據不足問題,有團隊研究基于少量學習(Few-Shot Learning,FSL)的方面類別檢測[19,20].該任務的優點是能夠識別隱式方面類別,如“Go hungry and enjoy.”,句中沒有明確的方面,但可以通過學習語義表示得知它表達的是對餐廳整體(“Restaurant general”)的評價.OTE與方面術語提取類似,都是為了提取評論句中顯式提到的單詞,也一般作為序列標記任務處理[21].該任務需建立與方面術語的聯系,對學習語義、語法信息的要求更高[22].ASC是單任務中最復雜的任務,需要學習方面術語上下文的語義信息、提取其意見信息,并識別意見信息表達的情感傾向[23].故利用句法信息和單詞依賴關系連接語法相關的上下文是最近研究關注的方向[24].對于存在多方面且具有多種情緒的句子,確定不同方面的情感更具挑戰性.針對該問題,Niu等人[25]構建了異構圖,將方面詞和上下文詞視為不同類型的節點,同時建模方面間關系及方面-上下文關系.

1.2.2 復合任務

為了提供更詳細的信息,最近的許多研究提出聯合提取多個元素[26,29],統稱為復合任務.該類任務相比單任務的解決更有難度,需考慮抽取任務(ATE、OTE)或分類任務(ACD、ASC)的同時提取策略、以及子任務間的交互等各種問題.

雙元素提取包括:方面-意見對提取(Aspect-Opinion Pair Extraction,AOPE)、端到端方面級情感分析(E2E-ABSA)及方面類別情感分析(Aspect Category Sentiment Analysis,ACSA).APOE是為了提取方面術語和對應的意見術語.該任務通常將兩個子任務均建模為序列標記任務,以管道的方式分別處理[26],或者采用聯合提取策略[30,31].任務難點在于方面術語與意見術語的配對,句子中方面與意見的關系結構較復雜,存在一對多、多對一、甚至是嵌入式或重疊式的配對關系,這要求模型能夠靈活檢測配對[30].E2E-ABSA目的是提取方面術語并確定其情感極性.該任務能夠獲得ABSA中最重要的兩個元素,也是本文調查的重點.ACSA旨在聯合檢測句子中方面術語所屬的方面類別和情感極性.該任務有兩個關鍵挑戰:首先,任務涉及的子任務一般都歸類為多分類問題,需要考慮聯合任務的分類方法[3],如枚舉法[28]、分類再分類[27]、擴展標簽維度[32]、基于生成的方法[33];其次,方面類別通常不會出現在句子中,模型很難定位方面類別的確切位置,更無法識別其上下文,因此Zhu等人[34]學習方面術語與類別之間的關系,以此為媒介建立與上下文的關系.

三聯提取是為了同時提取ABSA中的3種元素[28,35,36]比其他方法提取信息更完整[37].該類別下共有兩種任務:方面情感三元組(Aspect Sentiment Triplet Extraction,ASTE)和方面類別情緒檢測(Aspect Category Sentiment Detection,ACSD).其中,ASTE是為了提取方面術語、意見術語和情感極性[35,36].這3種元素共同提取有兩個優勢:一方面,提取意見術語有助于更好地確定面向方面的情緒;另一方面,方面和意見之間的情感依賴可以彌合情感決策的差距,進一步提高模型的可解釋性[35].ACSD是為了提取方面術語、方面類別和情感極性[28],可以同時解決E2E-ABSA和ACSA存在的兩個問題,即隱式方面情緒檢測及細粒度方面提取.

四聯提取指方面情感四元組提取(Aspect Sentiment Quad Prediction,ASQP)[29],預測給定評論中所有的情感元素:方面術語、方面類別、意見術語和情感極性.由于提取元素的復雜性及資源緊張的數據集,該任務的研究還十分有限.

1.2.3 統一框架

盡管現有研究針對ABSA的不同問題提出了上述的各類任務,但由于這些任務具有一定相似性,一些研究致力于將所有任務在統一的框架內處理[38,41].而任務間的一些分歧(如不同任務的輸入輸出不一致,任務類型也存在差別)[39],導致很難在不改變模型結構的條件下解決這一問題.由于生成式模型在命名實體識別、文本分類等自然語言理解任務的成功,并且可以處理輸入輸出和任務類型方面的障礙,Yan等人[39]和Zhang等人[38]提出將其用于ABSA任務上.這一想法也在后續研究[40,41]中得以擴展.

2 數據集調查

本節總結了ABSA任務相關的數據集,并對E2E-ABSA任務使用的數據集從多個角度進行分析,根據數據集特點可以得知現有方法可能存在的問題及模型需要解決的問題.

2.1 常見數據集介紹

表1總結了ABSA任務常見數據集.其中SemEval-2014任務4[10],SemEval-2015任務12[11],SemEval-2016任務5[12]由國際語義評估研討會發布,是ABSA任務最常用的數據集.SemEval-2014提供了餐廳(Restaurant)和筆記本電腦(Laptop)兩個領域的數據集,目標是識別給定目標實體的方面及每個方面表達的情感.在2.1節中已經初步介紹了方面的含義,但不全面.根據SemEval-2014數據集的定義,一個方面包括:1)實體本身(如“restaurant”);2)實體的一個部分或組件(如“battery”,“design”);3)實體的屬性(如“price”,“feature”);4)實體組件的屬性(如“battery life”).情感極性除積極、消極、中性外,還定義了沖突,代表同時對一個方面術語表達積極和消極的情緒.SemEval-2015、2016數據集是SemEval-2014的延續,除Restaurant和Laptop外,還提供了用于跨域任務的Hotels測試集.與SemEval-2014采用截取的孤立句子不同,該數據集由完整的評論組成.方面術語在該數據集中的定義為目標實體,包括命名實體(如“Chow fun”)、常用名詞(如“food”)和多詞術語(如“wine list”),但不包括實體屬性.如“price”在SemEval-2014中會被提取,在SemEval-2015、2016中則不屬于方面術語的范疇.另外,SemEval-2015和SemEval-2016數據集只在Restaurant和Hotel領域中標記了方面術語.由于SemEval研討會2014~2016年發布的Restaurant數據集領域相同且數量較少,因此有部分研究將3年數據合并作為統一的數據集[42,45].但每年的數據之間有重復,方面術語的判定上也稍有不同,僅簡單地將其合并進行訓練能否體現模型的性能還有待商榷.

表1 ABSA數據集Table 1 ABSA datasets

Twitter數據集[46]也經常用于E2E-ABSA任務,數據來自Twitter網站的推文.與SemEval相反,該數據集不指定領域,包含了對名人、產品和公司的評論,查詢關鍵詞如(“bill gates”,“taylor swift”,“xbox”,“windows 7”,“google”).

Device[47]和Service[48]數據集被額外用于跨域E2E-ABSA任務.Device數據集包括5種電子產品的客戶評論:兩種數碼相機、一臺DVD播放器、一臺mp3播放器和一部手機.但該數據集只標記情感極性為正面或負面的數據.另外,方面術語及其極性的評定也存在有爭議的地方.例如,“the sound quality is very good” 中標記的方面術語為“sound quality”,情感極性為正向.而評論“bummer as it has great sound quality”則未標注方面術語和情感極性.Service數據集由消費者評論和意見組成,數據來自RateItAll和eOpinion網站,包括對PayPal、egroups、eTrade和eCircles的評價.數據集詳細標注了方面術語、意見信息、情感持有者、情感極性和強度.

MAMS[49]和SentiHood[50]也是方面級別的情感標注數據集,目前還未用于E2E-ABSA任務上.現有ABSA數據集的多數句子只包含一個方面或多個具有相同情感極性的方面,使方面級任務退化成句子級任務.為了解決這一限制,MAMS提出了餐廳領域的多方面多情感數據集.其中每個句子至少包含兩個方面,且具有不同的情感極性.這一特性有助于模型專注句子局部信息的提取及語義的理解.但該數據集每個句子只針對一個目標實體的不同方面.沒有描述多目標實體多方面的場景.因此,SentiHood數據集收集了討論多目標實體的文本,數據來自城市社區領域的問答平臺文本,包含不同城市的各個方面.如“The design of the space is good in Boqueria but the service is horrid,on the other hand,the staff in Gremio are very friendly and the food is always delicious.”,討論了餐廳“Boqueria”的方面“space”和“service”,以及餐廳“Gremio”的“food”.

2.2 數據集分析

表2對目前E2E-ABSA任務用到的所有數據集進行了對比.其中第4列“顯式方面”表示句中明確提到的方面,與其對應的是隱式方面,例如以代詞做主語(如,“It gets cold very quickly and its not that filling.”)或無主語句(如,“Go hungry and enjoy.”)等情況.經過匯總可以得到以下結論:

表2 E2E-ABSA數據集對比Table 2 E2E-ABSA dataset comparison

1)除Twitter數據集外,每個數據集都存在大量的隱式方面.其中,隱式方面指句子中沒有明確的方面術語.現有研究忽略隱式方面,僅利用顯式方面訓練及測試模型.這種方式有兩個缺點:一方面,去除隱式方面使可利用的數據變少,可能會導致訓練不充分;另一方面,含有隱式方面的句子也存在一定信息,完全丟棄這類信息會導致結果片面.與方面類別相結合可以有效解決該問題,而這類研究較少[28,29],期望未來有更多研究專注于此.

2)相比其他任務的數據集,ABSA任務的標注數據相對較少.由少量數據訓練的模型能否代表該模型在整個領域的性能是未知的問題.利用大量未標注的數據輔助E2E-ABSA任務也是可以考慮的方向.

3)表格的第5列和第6列顯示了存在多種方面或情緒的句子數量.總結可知,每個數據集都僅有不到1/3的句子存在多個方面術語,且每個句子不同方面術語表達的情緒大多是一致的.因此,盡管E2E-ABSA為方面級別的任務,但在情感的判別上卻傾向于提取句子整體的極性.

4)第7列代表數據的嚴重不均衡.大多數數據集中正向情感是最多的,Twitter數據集多為中性情感.數據的不均衡可能無法令模型全面地學習各類信息.

5)最后一列代表方面術語中多詞方面的占比.由此可知,完整提取方面術語并確保方面術語的情感一致性是E2E-ABSA任務需要解決的問題.

3 端到端方面級情感分析

前面小節介紹了ABSA包含的任務,其中,為了同時提取情感句中的方面術語并確定其情感極性,研究者們提出了E2E-ABSA任務.比單任務更為復雜,E2E-ABSA首先需分別解決其子任務ATE和ASC面臨的問題.對于ATE,通過在第2.2節中對數據集的分析可以得知有一定數量的樣本具有多詞方面,完整提取方面術語是必須要解決的問題;ASC需要判斷方面的情感極性,但方面的情感信息并非來源于方面術語本身,而一般來自意見術語或句子整體的語義.例如“Average to good food,but terrible delivery.”,情感信息來自意見術語“good”和“terrible”.“I’ve asked a cart attendant for a lotus leaf wrapped rice and she replied back rice and just walked away.”中不能明確哪些詞語是造成負面情緒的原因[51].為了在同一框架中聯合建模兩類任務,還需要設計合適的提取策略以最大化融合二者的信息.此外,由于兩個任務同時進行,這就面臨著方面術語的情感一致性問題,即方面術語中的每個單詞應該具有相同的情感極性.由此引出的另一問題是信息的傳遞,需要使方面術語獲得對應的情感信息,要求模型對文本語義和語法信息的理解更深入.通過以上討論,可以將E2E-ABSA任務存在的問題總結如下:

1)如何獲取方面術語的邊界信息[43,52,54].

2)如何使方面術語獲取對應的情感信息[55,58].

3)如何保持方面術語的情感一致性[42,43,57].

4)如何建模方面提取和情感分類之間的關系[58,59,60].

5)如何設計更合理的雙任務提取策略以更好地將二者融合在一個框架中.

如圖3所示,為了深入了解E2E-ABSA涉及到的各種方法,將其初步分為有監督、半監督和無監督方法.為了分析不同建模策略對任務的影響、該策略下需解決的問題及具體的模型設計,將有監督方法分為以下幾類:1)序列標記+分類的方法;2)基于序列標記的方法;3)基于跨度(Span-based)的方法;4)基于生成的方法.對于無監督方法,面臨的主要問題是不同領域知識的轉移,從這一角度將其分為:1)基于特征的方法;2)基于實例的方法;3)基于數據增強的方法.

圖3 E2E-ABSA分類Fig.3 E2E-ABSA classification

3.1 有監督方法

3.1.1 序列標記+分類的方法

方面術語提取一般建模為序列標記任務[61],方面情感分類則通過多分類方法進行處理[62].因此,傳統方法采用兩階段模型,其問題定義如下:

給定輸入序列X={x1,…,xn},n為序列的單詞數,第1階段得到方面序列標簽L={l1,…,ln},其中li∈方面的集合,如(B,I,O.分別表示方面詞的開始、內部和非方面詞),第二階段給定輸入序列X={x1,…,xn}及方面術語A={a1,…,am},m為方面術語長度,目標是得到一個句子中每個方面術語對應的情感極性{Positive,Neutral,Negative}[63].

傳統方法采用管道(Pipeline)的方式依次處理每個任務.如圖4(a)所示,首先通過一個模型學習目標實體的方面,再利用另一個模型預測已提取方面術語的情感.但該方法存在以下缺點:1)需分別訓練兩個模型,在應用中使用起來比較困難;2)方面提取子任務的錯誤預測會影響情感極性檢測任務的性能,產生目標極性不匹配的問題;3)模型無法利用兩個任務之間的關聯信息[55].

圖4 方法模型簡圖Fig.4 Method model schematic

3.1.2 基于序列標記的方法

1)基于管道(Pipeline)的方法

與3.1.1節的方法類似,該方法仍采用兩階段框架,但兩個任務采用相同的網絡架構[64,65].問題定義如下:

如表3第1行,給定輸入序列X={x1,…,xn},n為序列的單詞數,第1階段學習到標簽序列L={l1,…,ln},其中li∈方面的集合,如(B,I,O.分別表示方面的開始、內部和非方面).第2階段在第1階段的基礎上標注每個方面的情感,得到情感序列S={s1,…,sn},其中si∈情感值的集合,如(POS,NEG,NEU,O.分別表示正面情緒、負面情緒、中性情緒及無情緒).

表3 方法輸入輸出Table 3 Method input and output

除了3.1.1節提到的缺點以外,對于方面情感分類任務,序列標記方案還存在以下問題:1)在每個單詞上標注情感極性會忽略整個方面的語義;2)由于方面的預測極性可能不同,無法保證多詞方面的情感一致性[53].如表3中單詞“Thai”和“food”可能會由于Token級別的標記而被預測不同的極性.

2)基于聯合(Joint)的方法

為了解決管道法的錯誤傳播問題,一些研究提出了基于聯合的方法[42,59].具體過程表述如下:

如圖4(b)所示,給定輸入序列X={x1,…,xn},n為序列的單詞數,模型由一個共享嵌入層和兩個任務模塊及對應的解碼器組件組成,分別輸出方面標簽序列L={l1,…,ln},以及情感標簽序列S={s1,…,sn}.例如表3第1行,會為每個單詞標注其方面和情感極性標簽.

基于聯合的方法采用一個多任務模型,以并行的方式同時解決方面提取和情感分類任務.利用該方法解決E2E-ABSA任務有一些優點:1)子任務的解決沒有明顯的遞進關系,不會導致錯誤傳播問題;2)任務共享層可以學習到兩個子任務的關聯信息;3)多任務模型可以單獨解決每個子任務,不會使二者混淆[42].

由于聯合方法通過兩個分支分別解決方面提取和情感分類任務,并且二者的標簽有較強的相關性.因此,建立任務間的交互或信息傳遞是該方法面臨的首要問題.盡管任務共享層可以學習任務的關聯信息,但僅通過誤差反向傳播更新共享信息,可能導致任務交互不足.Luo等人[42]設計了一個交叉共享單元,通過信息交互加強方面術語的邊界信息,并在一定程度上建立方面與情感之間的聯系.相似地,Qi等人[56]和Chen等人[66]也設計了任務的傳遞,通過將方面提取任務Token的特征拼接到情感分類任務上以獲取方面術語的邊界信息.Luo等人[59]利用Transformer-Decoder結構,將方面提取任務的特征作為K和V,共享層輸出的特征作為Q,利用注意力機制生成新的方面情感表示.除了直接對兩個子任務的特征進行交互,設計消息傳遞機制也是解決該問題的一種有效方法.He等人[55]和Liang等人[57]將兩個任務學到的信息進行拼接,并將適當的信息傳遞到共享層中,以更直接的方式更新共享潛在向量.

方面情感分類任務存在兩個關鍵問題:1)是如何學習方面的情感信息;2)是如何將其傳遞到對應的方面術語上.為了識別情感信息,He等人[55]與Liang等人[57]擴展了方面提取任務,在提取方面術語的同時也提取了意見術語.具體來說,他們設計了新的序列標簽:Yae={BA,IA,IP,O}分別表示方面術語的開始、內部,意見術語的開始、內部和其他詞.Chen等人[66]將意見提取作為一個單獨的任務,將其與方面提取和方面情感分類共同在聯合模型中進行處理.為了將情感信息傳遞到對應的方面術語上,一些研究專注于語義和句法信息的學習[56,57,59,68].語義信息有助于理解方面所表達的情感信息,而句法結構讓句法相關的單詞直接建立聯系.Luo等人[59,68]考慮了BERT的不同層對句法和語義信息處理能力不同的特點,通過利用BERT不同層隱含的豐富信息,極大程度地提高兩個子任務的性能.Liang等人[57]設計了雙通道共享層,為了充分利用句法知識,設計了依賴關系嵌入的圖卷積網絡(GCN),建立節點之間的依賴關系并去除方向信息.Qi等人[56]對現有的GCN結構進行了改進,在通過句法依賴建立方面和情感詞聯系的同時,也避免了遠程詞帶來的噪聲.

聯合模型并行處理兩個任務,盡管任務間的交互可使任務學習對方的信息,但分別進行序列標注仍會導致情緒不一致.一種做法是通過約束強制統一方面的情感,統計一個方面屬于中每個極性類別的數量,并以數量最多的標簽或第一個標簽(如果每個極性類別的數量都相等)作為最終極性.例如,“POS NEG”的最終極性為“POS”,“POS POS”的最終極性也是“POS”,而“POS NEG NEG”的極性是“NEG”[42].Luo等人[59]設計了一種在同一方面項內的標記表示策略,可以最大化地讓生成的情感極性標簽保持一致.

當前的聯合方法大多以并行的方式訓練,順序的方式推理.在訓練過程中直接在真實的方面術語上預測情感極性,而在推理過程中,必須等方面提取任務完成后才能進行情緒預測.這會導致目標極性不匹配問題.因此,為了兩個子任務完全地并行,Luo等人[42,59]和Xiao等人[68]采用了在極性分類任務中判斷每個詞的情感極性的方法.

3)基于統一/折疊(Unified/Collapsed)的方法

不同于基于聯合的方法并行處理子任務的方式,統一方法聚焦于如何對多任務設計一個統一的框架:

如表3序列標記法的“統一法”行,基于統一的方法定義了一種折疊標簽Y={B-POS,I-POS,B-NEU,I-NEU,B-NEG,I-NEG,O},除了“O”以外的每個標記都包含方面及其情感的信息,例如“B-POS”代表方面詞的開始,具有積極的情感極性.如圖4(c),通過折疊標簽將兩個子任務合并為一個任務,用一個統一的模型解決.對于一個給定的序列X={x1,…,xn},最終目標是預測一個標記序列Yu={y1,…,yn},其中Yu∈Y.

統一方法通過一個框架同時解決兩個任務,既避免了管道模型導致的錯誤傳播,也解決了多任務模型解碼結果不匹配問題[44].早期的方法更關注上下文信息的建模,通過不同的編碼層豐富上下文表示.Wang等人[60]分別通過CNN和LSTM生成兩種類型的句子表示.考慮到方面術語可能是單詞序列,因此通過CNN生成基于局部片段的表示,利用LSTM生單詞表示,并設計交互注意模塊學習表示之間的交互信息.Chen等人[44]提出了方向圖卷積網絡,認為其有助于文本表示學習.根據單詞的位置關系對上下文信息進行有區別的建模,期望加入輸入部分的方向信息來增強傳統的GCN.Bie等人[69]提出了融合句法結構信息和詞匯語義信息的雙通道模型.以往GCN進行信息聚合時只考慮節點之間是否存在連接,忽略了依賴關系類型,作者將節點的依賴關系運用到GCN中,更充分地提取句法結構信息.

但由于組合標簽的設計,以上方法沒有解決學習到的表示混淆問題.為了正確地識別方面術語,模型應該加強方面邊界的學習.為了獲得相應的情感,需要檢測意見術語.為了將其分配給正確的方面術語,還需要建立方面和情感之間的關系.Wang等人[60]利用自注意力機制使模型關注方面和情感之間的關系.Li等人[43]提出了雙層LSTM框架,引入了額外的LSTM網絡用于目標邊界預測,設計了輔助邊界預測的組件.這些方法設計不同的組件或增加特定的模塊,期望增強方面邊界的信息并學習方面和情感之間的關系.但這些信息隱含或部分隱含在中間層中,由于中間層的表示是不可解釋的,故很難保證一個模型具有需要的所有關鍵屬性.針對這個問題,有研究通過設置輔助任務,顯式學習需要的信息[58,45].Wang等人[58]設計3個輔助任務,明確利用E2E-ABSA的所需關鍵屬性來改進中間層的特征表示.另外還提出了方面先驗嵌入方法和情感連接策略,分別用于改進方面詞提取和建立方面詞和情感詞的連接.Kumar等人[45]同樣添加兩個輔助任務用于提取方面和意見詞,并通過交互學習模塊來理解輔助任務之間的相互關系,為了增強模型的泛化能力和魯棒性,提出了一種基于BERT的集成對抗訓練模型.使用特定領域的數據集對BERT進行后訓練,訓練結束后應用白盒對抗訓練,通過在嵌入空間中應用擾動來最大化對抗損失.使用黑盒技術生成對抗樣本,代替原本句子的方面和意見術語,進一步增強模型的魯棒性和可靠性.

為了解決情感不一致的問題,Wang等人[60]和Bie等人[69]使用了CRF解碼器,其被證明是解決序列依賴問題的有效方法.Li等人[43]設計了門控機制,在當前特征的預測中考慮了之前的特征,間接的Bi-gram依賴有助于降低同一目標內單詞包含不同情感的概率.但該問題在統一法下并沒有作為重點解決.可能的原因是統一法通過一個框架提取方面并確定情感,更容易讓模型學習到方面信息.

3.1.3 基于跨度(Span-based)的方法

基于序列標記的方法目的是為每個Token預測一個標簽,無法利用多詞方面的全局信息,也無法保證其情感一致性,并且效率較低.具體來說,無法利用全局信息可能會導致方面術語提取有誤,進而導致錯誤的情感極性判斷.如,方面術語“hard drive”意為“硬盤”.如果模型分別預測這兩個單詞,可能會將“hard”的含義視為“艱難的”,將“drive”視為動詞“駕駛”,導致無法識別該目標且會認為其有負面含義.而將這兩個單詞視為一個整體,可以提供“hard drive”的整體語義[52].其次,由于同一方面術語預測的情感極性可能不同,無法保證多詞方面的情感一致性.最后,使用序列標記法進行提取性問答任務時,由于標簽的組合性(所有句子單詞的冪集),模型必須考慮巨大的搜索空間,效率較低[53].

為了解決以上問題,Zhou等人[52]和Hu等人[53]提出基于跨度的方法:首先定義一組情感標簽S={POS,NEG,NEU,O},表示一個跨度是一個具有積極、消極或中性情緒的方面術語.標簽“O”表示一個span不是方面術語.給定一個由n個單詞組成的序列X={x1,…,xn},目的是預測一組跨度標記Y={(i,j,l)|1≤j≤n;1≤j≤n;l∈S},其中i和j是句子中方面術語的開始索引和結束索引,l表示方面的情緒極性.

基于跨度的方法通過提取方面邊界將方面術語作為一個整體,并預測整個方面術語的情感極性,利用了方面的全局信息,同時也能保持方面的情感一致性.為了提高方面提取的準確性,如何設置跨度提取方法是現有研究考慮的問題.表4總結了所有的跨度提取方法.Zhou等人[52]提取所有可能的跨度,并根據跨度的損失預測正確的跨度.具體來說,首先枚舉句子中一定長度內所有可能的跨度作為方面候選詞,并判斷每個跨度的情感極性,根據最終的損失預測正確的跨度及其情感極性.但該方法面臨著搜索空間和目標長度之間的權衡問題.當最大長度較小時,可能會錯過較長的方面短語.相反則會帶來巨大的搜索空間和許多負面候選.另外,方面候選詞數量會隨著句子長度增加而增加,這會導致更大的提取難度.Hu等人[53]提出了一種啟發式多跨度譯碼算法,首先分別預測句子中每個單詞作為方面的開始位置和結束位置的歸一化分數,從兩個預測分數中選擇Top-M個Token.然后設置一些約束條件:如結束位置不小于開始位置、兩個分數相加超過閾值、考慮方面長度的影響(通常方面術語較短)等,在此基礎上得到最終的方面跨度.然而長度約束會導致模型忽略多詞方面.Lin等人[54]提出了從粗到細的提取算法.通過匹配預測的開始/結束邊界來獲得目標短語的近似區間,應用擴展策略代替懲罰因子來正確提取目標短語.

表4 跨度提取策略Table 4 Span extraction strategy

方面提取和情感分類任務之間存在共享信息和私有信息.一方面,語義和語法信息對二者來說是必不可少的.另一方面,名詞和代詞的信息只對方面提取任務有幫助,可能會對情感分類任務產生負面影響,而情感信息只對情感分類任務有幫助.基于此,Lin等人[54]設計了共享-私有模型,其中包含一個基于BERT的共享編碼層以及基于LSTM的兩個私有編碼層.兩個私有網絡可以提供特定任務的特征并提高建模兩個子任務的能力.Chen等人[71]根據相同的思想,使用兩個GRU網絡作為特定于任務的模型.在此基礎上進一步研究了兩個子任務之間的相關性,提出了一種層次交互網絡,設計淺層和深層交互聯合學習方面提取和情感分類任務.

3.1.4 基于生成的方法

生成式預訓練語言模型(如GPT,BART,T5)的發布引起了最近研究利用生成式預訓練模型解決ABSA任務的興趣.該方法將ABSA任務表述為文本生成問題:

給定輸入序列X={x1,…,xn},n為序列的單詞數,首先設計一個目標序列Y={y1,…,ym},其中包括任務所需的標簽信息,通過生成模型直接生成Y,再從目標序列中解碼期望的方面術語及情感極性.為了訓練模型,需要按照設計的格式將原始數據轉換成(x,y),預訓練語言模型通常使用標準最大似然損失對其進行微調.

任務所需的標簽來自目標序列Y,這要求重新設計模型的輸入輸出格式以生成有效的目標序列,從而能夠準確地重現期望的類標簽.這種方式有一些優點:1)在目標序列中直接生成標簽可以讓模型利用標簽語義提高性能.例如理解“delicious”是描述食物的形容詞,如“pizza”,能夠更好地引導方面意見對(“pizza”,“delicious”)的預測[38];2)設計合適的目標序列,能夠通過一個生成式框架解決不同的任務,最近很多研究都專注于在統一的框架內建模所有ABSA任務[38,40].因此本節的其余部分討論了針對ABSA任務的輸出序列策略,并以E2E-ABSA任務為例給出了生成模型具體的解決方式.表3展示了3種生成方法.

1)生成標簽增強文本:給定一個輸入文本,通過標記方面術語及其標簽來形成輸出序列.對于E2E-ABSA任務,在方括號內標記方面術語,相應的極性標簽跟隨其后,二者用分隔符“|”隔開,如“[Salads | positive]”.Zhang等人[38]通過這種標注方式在一個生成模型中處理各種ABSA任務,包括E2E-ABSA、方面意見對提取、方面情緒三元組和目標方面情緒檢測等.

2)生成單詞索引:除了生成標簽增強文本的方法,另一種方式是為輸入序列建立位置索引,目標序列為標簽的索引,輸出的索引分別表示方面術語的開始、結束及情感極性.Yan等人[39]使用BART模型編碼每個Token,對于第t個Token,將編碼器的輸出向量以及t之前的解碼輸出結果作為輸入,再利用解碼器得到t的概率分布,以生成有關ABSA任務的索引跨度,在一個生成框架內解決方面術語提取、意見術語提取、基于方面的情感分類等7個基礎任務.Li等人[73]以相同的思想,利用BERT作為編碼器,GRU作為解碼器生成索引序列.單詞索引生成方案的優點是可以明確地生成方面術語,解決生成的標簽可能不會出現在句子中的問題.

3)生成單詞元素:在文本后添加其標簽作為目標序列,直接生成任務所需的標簽本身.相比于將輸出作為一個完整的文本或提取標簽索引,生成標簽本身能夠讓模型理解要提取的每個元素的含義.Gao等人[40]使用T5作為骨干模型,為每個提取的元素設計了元素提示符,如“aspect:”.通過這種設計,一種提示和輸出文本的組合可以看作一種基本的組件,可以通過組裝轉移到復雜的任務中.該形式有兩個優點,一方面,提示符定義格式與T5模型預訓練mask的格式相同,可以更好地利用預訓練中學習到的信息.另一方面,通過為每個元素定義提示符,輸出是不同元素的組合,可以為在一個模型中解決幾種任務提供便利.Hosseini等人[41]引入了標識符來分割文本和標簽.例如引入<[review]>和<[term]>來區分輸入文本和方面術語,引入<[endofreview]>和<[endofterm]>作為結束標識符.標識符的設計有助于模型理解輸入序列中的不同片段,從而更準確地推斷情感極性.

盡管以上3種方法都有不錯的表現,但對于多元素提取任務,直接輸出任務需要的所有元素可能會導致語義學習混淆.例如E2E-ABSA任務,僅利用一種輸入輸出方式同時提取方面和情感極性,模型需要同時學習方面信息和情感信息.

3.2 半監督及無監督方法

目前該任務的大部分工作采用了監督方法,但對于每個新的領域,通常只有較少的數據資源.由于E2E-ABSA需要對方面術語及其情感極性進行細粒度注釋,因此新領域資源的開發十分耗時且昂貴.為了緩解數據不足問題,研究人員探索了半監督和無監督方法.

3.2.1 半監督方法

對于E2E-ABSA任務,主流的幾種數據集的樣本數量較少,僅使用監督方法不足以訓練出泛化性好的模型.因此,有研究關注了半監督方法.其問題定義如下:

半監督方法利用同一領域內少量的標注樣本和大量的無標簽樣本同時訓練模型,可以更好地利用資源并提高模型性能.該任務下半監督的工作較少,通常采用自訓練算法或其變體.該算法基本流程為:1)首先使用標記數據訓練一個監督模型;2)利用該模型預測未標記數據的類別;3)選擇滿足預定義標準的結,并將偽標簽與標記數據結合起來;4)使用擴充的數據重新訓練模型,然后再次進行預測,多次迭代這些步驟直到收斂.

Li等人[75]基于交叉視圖訓練(Cross-View Training,CVT)[76],在同一領域的小批量標記數據和未標記數據上交替學習一個模型,以實現半監督學習.CVT的核心思想是使模型在輸入相同數據的不同視角時,能產生相同的預測結果.CVT在模型中添加了幾個輔助預測模塊,每個預測模塊的輸入都是原樣本的某個受限視角,模型通過不同視角的學習以提升文本的表示能力.作者使用3個堆疊的雙向循環層學習文本表示.Chen等人[77]采用了一種基于半監督學習的無監督數據增強技術.在無監督數據增強模塊中,未標記數據以成對的形式傳遞給模型,其中一個流為原始未修改的輸入示例.另一個流為通過數據增強技術轉換的增強示例.此方法最早來自Xie等人[78],為了適應序列級標記任務,該模型的數據增強使用掩碼語言模型,隨機對Token進行掩碼并替換.Yang等人[79]同樣采用自訓練方法,為了充分利用無標注句子,使用掩碼語言模型生成了偽方面詞和偽情感極性,并將標注句和偽標注句聯合訓練.

3.2.2 無監督方法

目前半監督方法探索的是在同一領域下大量的無標簽數據的利用,而在跨領域設置中探索E2E-ABSA任務也同樣具有吸引力,很多研究探索了該任務下的無監督領域自適應方法:

該方法在給定一些未標記的目標域數據的情況下,將公共知識從標記的源數據轉移到未標記的目標域數據上,以幫助無標注信息的目標域學習.領域自適應的關鍵挑戰是源域的數據分布通常與目標領域的數據分布不同,由于E2E-ABSA是具有詞級注釋的細粒度任務,因此有必要進行詞級域適應.

E2E-ABSA任務下的領域自適應方法主要包括基于特征的方法、基于實例的方法和基于數據增強的方法.基于特征的方法是將源域樣本和目標域樣本用一個映射調整到同一特征空間,使不同領域樣本在此特征空間內對齊.而基于實例的方法是考慮到源域中的一些樣本與目標域樣本相似,因此將相似的樣本乘以一個較大的權重,以此來縮小源域和目標域之間的距離.基于數據增強的方法利用源域樣本生成與其具有相似語法的帶標簽的目標域樣本,將其作為目標域訓練集訓練目標域分類器,將跨域任務轉換為特定于領域的任務.

在基于特征的方法中,Li等人[80]、Zhou等人[81]采用了對抗學習方法[82].其基本思想是從源域和目標域中提取特征,使判別器無法區分提取的特征是來自源域還是目標域,從而將源域和目標域數據投影到同一特征空間.Li等人[80]考慮到盡管來自不同領域的方面術語表現不同,但方面和意見詞之間的一些關聯模式在不同領域是相似的,故引入一種多跳雙記憶交互(multi-hop Dual Memory Interaction,DMI)以自動學習方面術語和意見術語的關系,并提出了一種局部語義對齊方法.為了進一步利用目標域數據的方面和意見信息,Zhou等人[81]提出了一個自適應混合框架,將基于偽標簽的半監督學習和對抗訓練集成在一個統一的網絡中.利用在目標數據上訓練的偽標簽來訓練任務分類器,并通過對抗訓練來對齊特征分布.為了進一步增強特定領域詞的轉移,Chen和Qian[80]提出了一種新的檢索編輯域適應方法.檢索源域和目標域中具有相似語法和語義信息角色的目標詞,并將其作為原型來指導領域適應.

除了基于特征的領域自適應方法外,基于實例的方法也被證明在NLP任務中的重要性[84].Gong等人[85]將基于特征的自適應和基于實例的自適應集成在一個統一的框架中.為了減少特征差異,引入基于領域共享知識的輔助任務,將領域共享的詞性信息和依賴關系作為監督信號,增強模型學習跨領域知識的不變表示.為了減少實例差異,利用領域分類器動態地學習每個單詞的重要性,執行單詞級實例加權.

盡管現有研究可以通過學習域不變的特征表示和重新加權實例來減少域差異,但主要任務的監督信號僅來自標記的源域,因此基于數據增強的自適應也被考慮用于該任務.Yu等人[86]提出了跨域文本生成方法,給定一個有標簽的源域文本,目的是生成帶有細粒度標簽的目標域句子.該方法將特定于領域的屬性轉換為目標域的對應屬性,生成句子的標簽與源域文本保持一致,其中特定于領域的屬性為方面術語和意見術語,這是由于E2E-ABSA的目標是提取方面并確定情感,方面術語和意見術語比其他屬性能發揮更重要的作用.在獲得生成的目標域句子后,將其作為訓練集獨立地訓練模型,或將其與源域數據集合并作為訓練集,聯合訓練模型,以此實現源域和目標域的對齊.

4 評價指標與模型性能對比

4.1 評價指標

作為聯合任務,E2E-ABSA需在方面術語提取和方面情感檢測都正確的情況下才視為預測正確.一般用于評估模型的指標有準確率(Accuracy),精確度(Precision),召回率(Recall)和F1-Score.但精確度、召回率及F1-Score針對的是二分類問題或局部意義的類,因此,對于多分類問題,需要計算每個類別的精確度和召回率,并通過不同的計算方式作為最終結果.目前用于該任務的評估標準主要為:1)宏觀平均(Macro-Average);2)微觀平均(Micro-Average).

4.1.1 宏觀平均

宏觀平均考慮了每個類別的結果,但對于分布不均衡的數據集,值會受到稀有類別的影響.宏觀精確度和召回率為:

(1)

(2)

其中,|C|代表類別總數,結合表5,TPi代表第i個類別中預測標簽等于真實標簽的個數,FPi代表預測標簽為i,真實標簽不為i的個數,FNi代表真實標簽為i但預測標簽不為i的個數,FPi代表其余標簽個數.該方法先計算每個類別的精確度和回召率,再計算所有類別的平均值.其宏觀平均F1為:

表5 標簽對應簡稱Table 5 Label corresponding abbreviation

(3)

4.1.2 微觀平均

微觀平均側重于數據集的每個樣本,更關注整體性能,減弱類別的影響.其精確度和召回率為:

(4)

(5)

該方法先計算所有類別的TP,FN,FP,再用二分類的方法計算精確度和召回率.對應的微觀平均F1(Micro-F1)為:

(6)

4.2 模型性能對比

為了進一步對比分析E2E-ABSA方法的性能,本節歸納了相關工作的實驗結果.表6、表7分別報告了第4節討論的有監督方法中E2E-ABSA和ATE任務的性能.其中,表6展示了有監督模型的所有方法中模型對應的嵌入層信息、模型結構,以及作者在Laptop14,Restaurant14、15和Restaurant _total數據集上報告的性能.表8、表9介紹了無監督方法在E2E-ABSA和ATE任務的性能,評估指標是上一節介紹的Micro-F1分數.另外,對各方法的代表模型進行結果復現,復現結果用下劃線表示,不同方法的SOTA模型加粗顯示.

表6 有監督方法E2E-ABSA模型性能對比Table 6 Supervised method E2E-ABSA model performance comparison

表7 有監督方法ATE模型性能對比Table 7 Supervised method ATE model performance comparison

表8 無監督方法E2E-ABSA方法性能對比Table 8 Unsupervised method E2E-ABSA model performance comparison

表9 無監督ATE方法性能對比Table 9 Unsupervised method ATE model performance comparison

通過表6可觀察到,基于序列標記的方法與基于跨度的方法之間性能沒有明顯優劣.而基于生成的方法在解決多種任務的同時,在部分模型中結果可觀[40,41].不同的嵌入層對模型結果也有影響,由 He等人[55]、Wang等人[58]、Chen等人[66]、Bie等人[69]的研究可知,在同一模型結構下,Bert預訓練語言模型作為嵌入層比其他方式更有優勢.因此,近年Bert模型逐漸代替其他模型,成為解決自然語言處理任務的主流模型.另一個發現是,將Bert作為嵌入層,再接入GRU結構是很多研究選擇的方法.Jozefowicz等人[87]認為,除語言建模外,GRU[88]在所有任務上都優于LSTM[89],且更簡單.但模型結構并非決定性能的唯一方式,如Lv等人[70]、Chen等人[71]、Li等人[72]的研究均采用Bert+GRU作為主干模型,但結果差距明顯,這是因為Li等人[72]的研究未做任務之間的交互,Lv等人[70]僅做了簡單的信息交互,而Chen等人[71]提出了層次交互網絡,分別學習語法、語義、詞性等淺層交互信息及方面邊界和具體情感的深層交互.由此可知,從任務的特點及存在的問題入手,對解決E2E-ABSA任務來說更有價值.最后,結合表7和表2,根據不同數據集的結果,Rest-aurant15的F1分數最低,其次是Laptop14.可能的原因是Restaurant15的數據較少,模型無法得到有效的訓練.Lap-top14中具有較大的多詞方面比例,不容易正確提取方面,而從ATE和E2E-ABSA任務結果的差距來看,Laptop有更大的比例(20個百分點左右)在成功提取方面術語的條件下無法正確分類情感.而Restaurant14中具有顯式方面的句子總數最多,多詞方面比例最低,相比其他數據集,方面提取任務結果最好.

根據表8可知,嵌入層對模型的影響同樣適用于無監督方法[80].其次,無論哪個領域的知識遷移到Restaurant領域,結果都優于其他領域知識的轉移.但Restaurant領域與其他領域沒有較多重復的方面詞,可能的原因是Restaurant領域有更簡單的語法和更容易辨別的語義角色.證明這一點的是Zhou等人[81],Chen和Qian[80]的研究,后者更關注具有相同語義和語法角色的單詞,因此在3~5列的表現更好.

根據監督、無監督方法的ATE和E2E-ABSA任務性能對比可知,盡管ATE任務的性能決定E2E-ABSA任務的上限,但任務之間性能的差距過大.尤其對有監督任務來說,這種差距更加明顯.如果基于序列標記的方法的部分原因是多詞方面的情感不一致,但基于跨度的方法仍有這種差距,原因大約有兩個:1)方面與情感的聯系不夠緊密,情感無法分配到對應的方面術語上;2)無法檢測出方面術語的情感.

5 挑戰與未來方向

本節將介紹E2E-ABSA任務下有監督、半監督及無監督方法的一些挑戰.未來工作可通過以下方面來改進方法.

5.1 監督方法

5.1.1 聯合建模方面術語、意見術語和情感極性

方面術語的情感極性來自意見術語,顯式建模意見信息有助于提取情感信息并將其分配給對應的方面.如“Moules were excellent,lobster ravioli was very salty!”,意見“excellent”和“salty”在句子中提及,分別修飾“Moules”和“lobster ravioli”.若能明確提取意見術語,模型會對“excellent”和“salty”分配更多權重,強調其攜帶的情感信息.另外,明確情感來源也有助于方面術語學習對應的情感,二者交互可以更精準地分配情感信息,以防“lobster ravioli”學習到“excellent”的信息,混淆方面術語的情感.當前有研究關注方面-意見-情感三元組的提取[35,36],但仍需進一步的工作學習三者之間的關系.

5.1.2 聯合建模方面術語、方面類別和情感極性

第2節中提到E2E-ABSA任務只能提取顯式方面.對于生活中大量存在的隱式方面,無法利用也無法分析.聯合建模方面術語、方面類別和情感極性可以較好地解決這一問題.而目前這類任務的研究并不多[28],期待未來有更好的方法.

5.1.3 句法信息在GCN的應用

與句子級別的任務不同,E2E-ABSA更關注句子結構.了解單詞的詞性利于提取方面和意見,如方面術語多為名詞,而情感表達通常為動詞或形容詞.引入句法信息有助于建立方面和情感間的關系,常見方法是將句法依存樹轉換為鄰接矩陣,通過GCN解決[56].但句法依存樹一般通過現有工具產生,不完全適用于ABSA涉及的領域,任務無意義的節點連接會對信息提取產生負面影響.句法結構在GCN上的應用在該任務中也并不廣泛,當前研究更關注Transformer、LSTM結構.而GCN在Token級別的任務中表現更加靈活.在ABSA的其他任務上,如ASC,句法信息在GCN上的應用已有成熟的進展[24,66,73,82],但在E2E-ABSA任務中,GCN的應用十分有限,還有待進一步探索.

5.1.4 統一多任務模型

基于方面的情感分析下存在眾多子任務,子任務之間的關系通常是密切相關的,一個子任務的架構很容易轉移到另一個問題上.為每個子任務都設計特定于任務的模型,不僅會造成模型的重復,也難以運用于實踐.因此在一個統一的模型下聯合解決ABSA的多個子任務是一個有前途的研究方向.現有研究利用自然語言生成的方法,運用GPT、BART等大規模生成模型,并設計適應任務的輸入輸出,致力于統一建模所有ABSA任務.盡管目前研究已在這一方向上進行了初步嘗試,但在輸入輸出形式的設計上略有欠缺.

5.2 半監督及無監督方法

5.2.1 利用未標注數據

E2E-ABSA任務中,絕大多數研究都利用監督學習方法.但相比文檔或句子,Token級別的標注需要更多的成本及時間.由于ABSA任務標記數據的稀疏性,很難通過少量的標注數據訓練一個囊括特定領域涉及的所有句法、語法、詞匯的模型.因此,利用大量的未標注數據是擴展當前訓練數據集的另一種選擇.目前研究一般采用自訓練方法,為未標注數據添加偽標簽[75,77,79].或采用數據增強,對訓練數據執行語義約束的修改,以增加所提供的信息量[77].但這些方法尚未得到深入探討,值得未來更多的關注.

5.2.2 跨領域轉移學習

缺乏標記數據的另一種解決方案是使用跨領域模型.具有廣泛可用資源的領域知識轉移到其他領域的模型中,以彌補新領域標注數據的不足.ABSA任務所涉及的領域之間數據差異較大,不僅方面術語的重復性低,相同的意見術語在不同領域中也可能表達相反的含義.如Laptop領域中的句子“The computer is too large to move”和Device領域“the screen is large and bright and has all the info I need where I need it.”,情感詞“large”在第一句話中對“computer”表達了負面的評價,而在第2句話中則代表積極.盡管現有研究運用了基于特征、基于實例、基于數據增強的方法減弱不同領域的差距,但相比監督方法,無監督方法的模型性能還有很大的提升空間.

6 結束語

本文從ABSA任務入手并對E2E-ABSA任務進行了全面的綜述.首先對現有研究分類與總結,提煉了任務存在的關鍵問題,針對問題闡述了解決方法.為了對比方法,在第5節中列出了所有模型的性能,分析了方法的有效性與不足.例如嵌入層的影響和信息交互的作用.此外,通過分析E2E-ABSA數據集特點及任務本身存在的問題,發現盡管在E2E-ABSA上已存在很多研究,但仍面臨信息交互不足等挑戰.

猜你喜歡
極性術語標簽
跟蹤導練(四)
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
標簽化傷害了誰
表用無極性RS485應用技術探討
一種新型的雙極性脈沖電流源
基于多進制查詢樹的多標簽識別方法
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發展趨勢
鍵的極性與分子極性判斷的探究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合