?

ChatGPT可否充當情感專家?——調查其在情感與隱喻分析的潛力

2024-01-30 03:03張亞洲王夢遙戎璐俞洋趙東明秦璟
關鍵詞:隱喻人類文本

張亞洲 王夢遙 戎璐 俞洋 趙東明 秦璟

北京大學學報(自然科學版) 第60卷 第1期 2024年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)

10.13209/j.0479-8023.2023.075

國家自然科學基金青年基金(62006212)、中國博士后科學基金(2023M733907)、信息物理社會可信服務計算教育部重點實驗室開放基金(CPSDSC202103)和Project of Strategic Importance Grant of the Hong Kong Polytechnic University (1-ZE2Q)資助

2023–05–17;

2023–07–31

ChatGPT可否充當情感專家?——調查其在情感與隱喻分析的潛力

張亞洲1,2王夢遙1戎璐3俞洋1趙東明4秦璟2,?

1.鄭州輕工業大學軟件學院, 鄭州 450002; 2.香港理工大學護理學院, 香港 999077; 3.鄭州輕工業大學人事處, 鄭州 450002; 4.中國移動通信集團天津有限公司人工智能實驗室, 天津 3000201; ?通信作者, E-mail: harry.qin@polyu.edu.hk

為了探索 ChatGPT 情感分析能力以及對主觀性和隱喻性理解的潛力, 將 ChatGPT 在 5 個情感、幽默與隱喻基準數據集上展開評估, 通過與領域內最前沿的模型對比, 討論其在不同任務上的優勢與局限。此外, 還通過對比 ChatGPT 與人類在情感分析中的性能差別, 發現 ChatGPT 在情感、幽默與隱喻任務上與人類結果分別相差 9.52%, 16.64%和 6.69%。實驗結果表明, 盡管 ChatGPT 在對話生成方面獲得最佳表現, 但是其在情感理解方面仍具有改進的潛力。最后, 通過改善提示模板, 調查 ChatGPT 在情感理解場景下對提示模板的敏感性。

ChatGPT; 情感分析; 幽默檢測; 隱喻識別

情感是人類生命體驗的載體, 用于感知、辨析與理解人類潛在意圖, 驅動人類的決策與行為。情感理解能力是人與機器的主要區別之一。鑒于人類語言的主觀性, 人們可以通過語言表達各種情感狀態, 如喜悅、憤怒和幽默等, 也可以通過語言感知他人的情感狀態[1]。情感分析旨在利用語言規則、語料庫和自然語言處理技術等, 幫助機器自動識別和分析人類的情感狀態, 并準確地做出回應。目前主流的范式是借助 Transformer 預訓練語言模型(pre- trained language models, PLMs)優良的上下文特征提取能力, 通過微調或提示捕捉情感線索, 快速完成情感預測[2]。

隨著預訓練語言模型日趨龐大, 參數量激增, 語言模型在下游任務中的性能顯著提升, 自然語言處理領域開始邁入大語言模型時代。例如 GPT-3[3]以及 InstructGPT[4]等大型語言模型(large language models, LLMs)在語言生成、語言理解、文本分類以及語言翻譯等任務中取得顯著的進步。2022 年11 月, 由 OpenAI 公司發行的代表性大語言模型ChatGPT 引起學術界與工業界的關注。ChatGPT 基于 GPT-3.5 大型語言模型, 通過對齊人類的真實意圖, 即采用基于人類反饋的強化學習(reinforcement learning from human feedback, RLHF), 在大規模無標注語料庫上完成訓練。與傳統的強化學習相比, RLHF 利用人類提供的反饋[5]來指導模型進行學習(人類通過指導模型的行為來提供即時反饋, 模型可以在學習過程中利用這些反饋來調整自己的行為)。這種方法使得模型學習過程更加高效, 同時也提高了學習質量。ChatGPT 在諸多下游任務中展露最前沿的能力, 包括對人工輸入的復雜問題提供高質量的答案, 編寫代碼[6], 識別人類情感, 在面臨敏感話題(例如暴力和政治敏感等)時, 拒絕不恰當請求, 甚至可以根據后續對話自我糾正先前的錯誤, 等等。因此, 與傳統的語言模型相比, ChatGPT擁有顯著的人類語言理解優勢, 是實現通用人工智能的主要途徑之一, 已經作為智能助手廣泛應用于各個行業。

ChatGPT 在取得巨大成功的同時, 亦引發研究者更多的思考與疑問。鑒于人類語言固有的主觀性與隱喻性, 對 ChatGPT 情感理解能力的定量分析卻鮮有涉及。首先, 情感表達與理解是一項非常抽象與主觀的任務, 涉及個體差異(同一個情感表達被不同個體解讀為不同情感)、情感多樣性(悲傷夾雜著憤怒)、上下文性(同樣的表達在不同語境下傳達不同的情感)等多種因素, ChatGPT 的情感理解能力因而需要嚴謹的評估。面對更加高級的情感語言表達方式(例如幽默和隱喻等), 人類經常通過隱含映射和雙關語等間接地表達情感, 那么 ChatGPT 如何處理語言的多義性、映射和隱含信息, 是否有潛力作為情感專家也亟需業界的正確評估。最后, 鑒于 ChatGPT 是根據人類設計的提示語生成答案, 調查ChatGPT 在情感理解場景下對提示模板的敏感性顯得尤為必要。

本文主要關注 3 個問題: 1) ChatGPT 是否能夠準確地理解人類情感?與人類判斷情感的差距有多大?2) ChatGPT 是否能夠準確地理解高級情感表達方式?3)不同的提示策略是否對 ChatGPT 的判定結果產生影響?

本文在 5 個情感、幽默與隱喻基準數據集上, 對 ChatGPT(2023 年 3 月 23 版)展開評估, 通過與領域內 20 個最前沿模型的對比, 討論其在不同任務中的優勢與局限, 對比 ChatGPT 與人類在情感、幽默和隱喻分析方面的性能。此外, 還通過系統性地改變提示策略, 進一步分析提示策略對 ChatGPT 理解人類情感能力的影響。

1 相關研究

從谷歌的 T5 到 OpenAI GPT 系列, 大語言模型不斷涌現, 例如, GPT-3, PALM[7], Galactica[8]和LLaMA[9]。這些 LLM 以包含千億參數的模型架構為基底, 并在大量數據集上進行訓練。這種縮放訓練策略提高了語言模型對自然語言的理解和生成能力, 即便不更新其參數, 也在很多自然語言處理任務中帶來顯著的提升。例如, 在問答任務中, 這些LLM 通過理解問題和文本語境, 給出更加自然、流暢、準確的回答[10](如 ChatGPT 模型); 在文本分類任務中, 通過對 LLM 進行微調, 可以獲得比傳統方法更好的準確率和泛化能力[11](如 BERT 模型); 在機器翻譯任務中, LLM 可用于語言表示和對齊, 幫助提高翻譯的質量和效率(如 Transformer 模型)。

作為基于 GPT-3.5 的對話生成模型, ChatGPT在情感分析任務中得到廣泛應用。例如, 在對話系統中, ChatGPT 可以生成更加自然的情感豐富的回復, 并且可以在情感分析任務中識別用戶的情感表達。越來越多的研究人員根據各種基準進行評估, 探索 ChatGPT 的能力邊界。Zhuo 等[12]對 ChatGPT的可靠性和穩定性進行定量分析, Jiao 等[13]對其多語言翻譯能力做了初步探究, Bang 等[14]從多任務、多語言和多模態方面評估 ChatGPT 的生成能力。與已有研究不同, 本文的重心是調查 ChatGPT 在主觀性任務中的表現, 特別是對幽默和隱喻等復雜情感語言的理解能力。通過一個全面的評估, 判定ChatGPT 是否有潛力作為一個情感專家或助手, 從而促進情感智能方向的研究。

2 評估方法

自然語言處理領域一直在追求更加智能化的算法模型, 用來模擬人類對語言的處理方式。本文圍繞測試任務、實驗數據、對比模型、評價標準和實驗結果等, 對 ChatGPT 在情感分析領域的性能展開全面評估, 探索其在情感分析領域的應用潛力。

2.1 測試任務

本文將開展以下 4 項代表性情感分析任務。

1)主觀性情感分析: 從主觀性文本中自動識別和提取文本表達的情感狀態, 分為積極、消極和中性 3 種。

2)方面級情感分析: 從文本中提取特定方面(如商品價格、服務質量和用餐環境等)的情感極性, 分為正面、負面和中性 3 種。

3)幽默檢測: 判斷文本中是否包含幽默元素, 將文本分為幽默和非幽默兩類。

4)隱喻識別: 對文本中的隱喻進行識別和解釋, 并判斷句子表達的是褒義還是貶義情感。

2.2 實驗數據

本研究選取 5 個廣泛評測的中文情感數據集: SMP2020 微博情感分類數據集(Usual 和 Virus)、SMP2020 文本幽默檢測數據集(Humor)、ASAP 中文評論分析數據集和隱喻式數據集(Metaphor)。Usual 和 Virus 數據集分別包含 6 類情緒, 將愉悅情緒(happy)歸類為積極樣本, 悲傷(sad)和憤怒(angry)情緒合并為消極樣本, 無情緒(neutral)定義為中性樣本。作為文本幽默數據集, Humor 包含幽默和非幽默標簽, 用于幽默識別任務中。ASAP 是一個大型的中餐館評論數據集, 用于方面類別的情感分析(aspect based sentiment analysis, ABSA)。Metaphor是一個中文隱喻數據集, 包含褒義和貶義標簽, 用于隱喻識別任務。實驗樣本分布如表 1 所示。

本實驗將以上 5 個數據集分別用于對比評估ChatGPT 和其他 SOTA 模型。本文調用 ChatGPTAPI進行評測。同時, 本文挑選一系列最前沿的情感分析模型用于情感、幽默和隱喻任務評測。它們分別是 CMCNN[15], Bi-LSTM+Attention[16], CapsNet-BERT[17], DMM-CNN[18], CBMA[19], ACSA-gene-ration[20], AC-MIMLLN[21], QA-BERT[22], SGCN[23], DSPN[24], XLNet[25], GCN-BERT[26], DeepMet-S[27], MGF[28], BGCN[29], KEG[30], SaGE[31], BSI[32], Transformer[33]和 IASPS[34]。其中, Bi-LSTM+ Attention, CMCNN, CapsNet-BERT, GCN-BERT, DSPN, XLNet 和 DeepMet-S 模型使用 Github 開源代碼實現, DMM-CNN, ACSA-generation, CBMA, AC-MIMLLN, BSI 和 Transformer 根據相關文獻模型和參數復現; MGF, BGCN, QA-BERT, IASPS, KEG, SaGE 和 BSI模型直接采用文獻結果。

2.3 評估標準

本文采用精確率(precision,)、召回率(recall,)、微觀 F1 值(Micro-F1)和準確率(accuracy, Acc)作為模型的性能評估指標。選擇微觀 F1 指標的原因是它在計算中考慮了每個類別的數量。評估指標的計算公式如下:

表1 數據集統計

其中, TP 代表真陽性, FP 代表假陽性, TN 代表真陰性, FN 代表假陰性。

3 實驗結果

3.1 情感分析的實驗結果

情感分析任務的分析結果如表 2 所示??梢园l現, 在測試集上, ChatGPT 在情感分析任務中的表現可以媲美甚至超越其他模型。在 Usual 和 Virus數據集上, 主觀性情感分析的 Macro-F1 分別為82.16%和 80.20%, 比一些傳統的算法(如 Bi-LSTM +Attenion 以及 DMM-CNN 等)表現更好, 與使用BERT 模型提供詞向量的 CMCNN 語言模型相比, ChatGPT 的 Macro-F1 在 Usual 和 Virus 數據集上分別提升 1.37%和 2.16%。但是與 LLM 相比, Chat-GPT 的優勢并不明顯, 相較于 MGF 模型, Macro-F1在 Usual 和 Virus 數據集上分別落后 1.70%和0.17%。從實驗結果來看, ChatGPT 在不同數據集的情感分析任務中表現穩定。因此, ChatGPT 值得在實際應用中進一步探索。

作為更細粒度的情感分析任務, 在進行方面類別情感分析時, 模型需要同時注意文本中的內容特征、詞性特征和位置特征, 并同時充分學習內容詞、方面詞和情感詞之間的聯系。從表 2 中 ASAP實驗結果看, ChatGPT 比其他模型(如 QA-BERT 和CapsNet-BERT 等)表現良好, 比端到端方式的遠監督金字塔網絡 DSPN 提升 3.57%, 但相比語言模型ACSA-generation 降低了 0.71%, 相比語言模型 AC-MIMLLN 降低 0.44%, 表明 ChatGPT 雖然能夠從長文本中準確識別方面詞, 有效地捕捉文本中的上下文信息和情感表達, 但不能作為方面情感分析的最優模型。

3.2 隱喻和幽默任務的實驗結果

從文本的語言表達層面來說, 人類情感可劃分為顯式情感和隱式情感, 隱式情感包含隱喻型和反諷型。目前, 隱喻沒有被廣泛承認的正式定義, 本文將隱式情感理解為: 在字面意義之外的、不包含明顯的情感詞, 但通過隱晦、間接的語言片段表達出主觀情感。例如, “她的樣貌也就只能做個備胎”, 雖然句中并未出現情感詞匯, 但“備胎”卻被隱喻為“替補選項”, 表達說話者的負面情感。在實際情況中, 語言模型對隱喻情感的分析可能更加復雜, 這是因為隱喻的含義通常依賴語境和個人經驗, 存在不同的解釋。因此, 對隱喻句子的情感分析需要考慮上下文、文化背景和作者意圖等因素, 是一項更具挑戰性的任務。本文采用的隱喻式數據集 Meta-phor 的情感示例如表 3 所示。

表2 情感分析任務實驗結果(%)

ChatGPT 在隱喻情感分析任務和幽默任務中的實驗結果如表 4 所示??梢园l現, 在更加復雜的隱喻情感分析任務中, 與幾個基線模型相比, ChatGPT表現出色, 以 85.71%的 Macro-F1 超越 CCL 中文隱喻情感識別任務第一名約 1.01%, 比基于 RoBERTa的閱讀理解(reading comprehension)式隱喻識別模型DeepMet-S 提升 1.94%。這是由于 ChatGPT 在大規模語料集的訓練下, 從大量數據中學習到隱喻的模式和特征。

表3 隱喻式樣本

從表 4 可以看出, ChatGPT 在幽默任務中的表現相對落后于其他模型, 與基于 BERT 的強化語境與語義信息的幽默識別模型 BSI 相比, ChatGPT 的Macro-F1 落后 7.34%, 與基于不一致、模糊、句法特性的幽默識別模型 IASPS 相比, Macro-F1 落后7.04%。幽默識別任務涉及對語言上下文和語義的深入理解, 而 ChatGPT 對這些因素的理解不一定是最優的。例如, 一些幽默句子中包含的網絡用語“YYDS”和“No 作 No Die”, ChatGPT 不能識別它們的真正含義。此外, BSI 等語言模型更專注于特定類型的情感分析任務, 并且使用更好的架構和技術, 因此在幽默識別任務中表現更好。ChatGPT 還有很大的發展空間, 未來可以進一步優化模型, 以便適應更復雜的自然語言處理任務。

通過實驗還發現, 在不改變問題線程的情況下, 隨著測試樣例的增加, ChatGPT 的性能也會相對提高(圖 1)??梢钥闯? 準確率和 Macro-F1 隨測試樣例數同步增長, 表明ChatGPT 在不改變線程的情況下可以有效地學習到測試樣例中的有效信息, 通過數據的反饋, 不斷改進自身的情感分析能力, 從而不斷優化自身模型。

表4 隱喻分析的實驗結果(%)

圖1 ChatGPT性能指標隨測試樣例增加的變化

4 ChatGPT 與人類判斷情感的差距

我們使用 SMP2020 微博情緒分類技術測評公開的兩個數據集 Usual 和 Humor 以及 CCL2018 隱喻數據集 Metaphor 進行測試, 同時招募 5 名 18~35 歲不同社會身份(包括學生、工人、職員和商人等)志愿者, 經過語言理解測試后, 對這 3 個數據集進行情感、幽默和隱喻標注, 經過最大投票后獲得最終標注結果。為了調查 ChatGPT 與人類情感標注的時間效率, 統計兩者的分類用時(均為 5 次結果的平均值)。

如表 5 所示, ChatGPT 與人類評價在情感、幽默和隱喻數據集上均取得良好的分類結果(F1 值均超過 70%)。人類評價結果的準確率與 Macro-F1 均超過 90%, 與 ChatGPT 相比, 人類情感專家在Usual, Virus 和 Metaphor 數據集上的 F1 值分別提升9.52%, 16.64%和 6.69%。這一結果表明: 1)情感、幽默與隱喻分析是挑戰性任務; 2)盡管 ChatGPT 在文本生成和代碼生成等任務中取得令人矚目的進步, 但其情感理解能力與人類仍然存在較大的差距。

表 6 給出幾個 ChatGPT 識別錯誤的案例。識別錯誤的原因包括以下幾個方面。

1)上下文理解能力。ChatGPT 雖然擁有強大的自然語言處理能力, 但它的上下文理解能力比不上人類。情感分析任務需要結合上下文來理解句子或文本的情感含義, 人類可以通過背景知識、語境和生活經驗, 更好地理解和識別情感, 而 ChatGPT 需要依賴已有的語料庫和模型訓練數據。

表5 ChatGPT和人類在情感分析任務上的實驗結果

表6 錯誤舉例

2)主觀性識別。情感分析是一項主觀性較強的任務, 人類在情感表達和理解方面具有很強的主觀能力。然而, 對 ChatGPT 來說, 情感分析任務往往需要基于規則和標注的方法進行分類, 這種方法很難完全覆蓋所有情感表達的多樣性和主觀性。

3)跨文化和跨語言差異。情感分析還面臨跨文化和跨語言差異的問題。情感的表達和理解因不同文化和語言環境而異, 因此需要對不同的文化和語言進行針對性的處理和訓練。在處理跨文化和跨語言情感時, ChatGPT 可能存在一定的困難。

4)數據不平衡和偏差。情感分析任務需要大量的標注數據來訓練模型, 但是標注數據的質量和平衡性對模型的性能和準確度具有決定性的影響。如果數據集中的情感類別存在偏差或不平衡, 將導致模型對某些情感的分類能力不足, 從而影響整體性能。

綜上所述, 情感分析任務具有很強的主觀性和復雜性, ChatGPT 作為一種自然語言處理技術, 還需要進一步的改進和優化, 才能更好地處理這種任務。

此外, 本研究從大眾點評商家用戶評價中隨機選取 800 條評論, 均分為互不重疊的兩組(A 和 B)。將 A 組輸入 ChatGPT 模型中, 輸出預測情感結果, 然后讓 3 位志愿者參考此結果進行最終標注, 判斷該用戶對商品的情感極性。3 位志愿者能夠在 0.3小時完成 A 組 400 條評論的情感標注, 其中 6 條評論的情感標注錯誤, 準確率達到 98.50%。B 組不采用任何人工智能輔助工具, 由 3 位志愿者直接標注, 經過 1.6 小時才完成標注, 其中 11 條評論的情感標注錯誤, 準確率為 97.25%。上述結果表明 ChatGPT已經可以直接輔助商家判斷用戶對商品的評價, 幫助商家更好地改進商品質量。如果將其應用到大規??蛻魸M意度調研中, ChatGPT 的時效性優勢與分析準確率將會更加凸顯, 可以推動客戶滿意度調研的智能化建設。

5 提示策略調查

ChatGPT 是一個基于“無監督學習”的大語言模型, 對于自然語言處理任務, 特定的任務提示會觸發 ChatGPT 對文本的不同理解力。受文獻[35–36]啟示, 本文試圖通過 ChatGPT 來生成對情感分析任務的 3 個提示(圖 2)。實驗中發現, 不同的提示模板在任務中的表現存在差異, 因此需找出一種提示策略(本文只針對問答類提示和填空類提示), 使得ChatGPT 的判定結果較優。

問答類或填空類提示策略的選擇都有可能對情感分析任務的判定結果產生影響。如表 7 所示, 我們設計兩個提示策略, 對于問答類提示, 本文給出精確的情感極性; 對于填空類提示, 則讓 ChatGPT填上它認為的情感, 通過對比 ChatGPT 在兩種提示下情感分析任務的性能指標, 判定哪種提示策略對ChatGPT 實現情感分析任務更友好。

從表 7 可以看出, 問答類提示策略可以更清楚地填補問題的答案(例如情感分析中的積極、消極和中性), 只要提供足夠的上下文信息, ChatGPT 就可能做出更準確的回答。問答類提示策略通常需要ChatGPT 對問題進行理解, 然后提取相關信息, 因此 ChatGPT 只需要從問題中獲取足夠的信息, 便可在回答問題時提供最相關的情感分析結果, 這種提示方式會使 ChatGPT 更注重文本中的關鍵信息。對于填空類提示策略, 則要求 ChatGPT 根據給定的文本和填空部分進行分析, 這種提示方式使 ChatGPT更注重上下文的理解以及對文本的整體情感的分析。在一些情況下, 填空類提示策略可能帶來更加準確的情感分析結果, 因為在填空類提示策略下, ChatGPT 會更加關注文本的整體情感和上下文語境, 而不僅僅是某個特定的單詞或短語。

圖2 ChatGPT生成情感分析提示

表7 提示模板

圖 3 的實驗結果表明, ChatGPT 使用填空類提示的性能指標均優于問答類提示??梢钥闯? 填空類提示的 F1 分值比問答類提示提高 5.41%, 表明填空類提示能提高 ChatGPT 對文本的理解力, 而不僅僅是分析文本中某個帶有情感極性的詞語, 更適合將 ChatGPT 用于情感分析任務中。

6 結語

本文在 5 個情感、幽默與隱喻基準數據集上, 對 ChatGPT 的情感理解能力展開評估, 通過與領域內最前沿模型對比, 驗證 ChatGPT 的優勢與局限性。實驗結果表明, ChatGPT 能夠取得良好的情感識別結果, 獲得 86.07%的情感識別準確率。此外, 本文也對比 ChatGPT 與人類在情感分析中的性能, 在情感、幽默和隱喻任務中的準確率比人類結果低 9.52%, 16.64%和 6.69%。因此, 盡管 ChatGPT 在對話生成方面獲得最佳表現, 但是其在情感理解方面仍具有改進的潛力。最后, 本文嘗試通過改善提示模板, 表明 ChatGPT 在情感理解場景下對填空提示策略的適應性更好??偠灾? 與情感分析模型和人類情感相比, ChatGPT 在性能上尚需要進一步改善, 但是在 80.61%的案例中獲得可接受的結果, 時間效率明顯提升, 在實時性情感分析場景下, 可以作為情感分析助手, 輔助人類展開情感判斷。

圖3 提示策略的實驗結果

本文結果表明, ChatGPT 在理解語言方面表現出色, 但它僅能理解人類語言的表層含義, 對語言背后的深層含義和真正意圖的理解能力仍然有限。因此, ChatGPT 在處理復雜的語言任務(例如推理和隱喻理解等)時, 表現不如人類。此外, Chat-GPT 在訓練時僅通過海量的文本數據來學習語言規律和模式, 而缺乏外部知識和常識的補充。因此, 當需要進行跨領域或跨知識庫的任務時, ChatGPT可能缺乏相關領域的專業知識和常識, 導致模型輸出的錯誤或不準確。

由于算力與成本限制, 本文僅針對大語言模型中最具代表性的 ChatGPT 展開調查, 忽略了其他已提出的大語言模型, 如 GPT-4, LLaMA 和 BLOOM等。此外, 本文提出 4 種情感測試場景, 忽略了其他類型的情感分析任務(如諷刺識別和欲望檢測等)。對其他大語言模型展開全面的對比與評估, 對實現通用情感智能尤為必要, 也將是我們未來的研究方向。

[1] Payal M. Unexpected surprise: emotion analysis and aspect based sentiment analysis (ABSA) of user ge-nerated comments to study behavioral intentions of tourists. Tourism Management Perspectives, 2023, 45: 101063

[2] Wang T, Roberts A, Hesslow D, et al. What language model architecture and pretraining objective works best for zero-shot generalization? // International Conference on Machine Learning. Baltimore, 2022: 22964–22984

[3] Tom B, Benjamin M, Nick R, et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, 33: 1877–1901

[4] Long Ouyang, Jeff W, Xu Jiang, et al. Training lan-guage models to follow instructions with human feed-back. Advances in Neural Information Processing Systems, 2022, 35: 27730–27744

[5] Cao Z, Wong K C, Lin C T. Weak human preference supervision for deep reinforcement learning. IEEE Transactions on Neural Networks and Learning Sys-tems, 2021, 32(12): 5369–5378

[6] Xu F F, Alon U, Neubig G, et al. A systematic eva-luation of large language models of code // Pro-ceedings of the 6th ACM SIGPLAN International Symposium on Machine Programming. New York, 2022: 1–10

[7] Chen T, Allauzen C, Huang Y, et al. Large-scale language model rescoring on long-form data // 2023 IEEE International Conference on Acoustics. Rhodes Island, 2023: 1–5

[8] Taylor R, Kardas M, Cucurull G, et al. Galactica: a large language model for science [EB/OL]. (2022–11–16)[2023–05–30]. https://doi.org/10.48550/arXiv.2211. 09085

[9] Touvron H, Lavril T, Izacard G, et al. LLaMA: open and efficient foundation language models [EB/OL]. (2023–02–27) [2023–05–30]. https://doi.org/10.48550 /arXiv.2302.13971

[10] Wang Zengzhi, Xie Qiming, Ding Zixiang, et al. Is ChatGPT a good sentiment analyzer? A preliminary study [EB/OL]. (2023–04–10) [2023–05–30]. https:// doi.org/10.48550/arXiv.2304.04339

[11] Li Wenchang, Chen Yixing, John P L. Stars are all you need: a distantly supervised pyramid network for document-level end-to-end sentiment analysis [EB/ OL]. (2023–05–02)[2023–05–30]. https://doi.org/10.4 8550/arXiv.2305.01710

[12] Zhuo T Y, Huang Yuyin, Chen Chunyang, et al. Exp-loring AI ethics of ChatGPT: a diagnostic analysis [EB/OL]. (2023–05–29) [2023–05–30]. https://doi.org/ 10.48550/arXiv.2301.12867

[13] Jiao Wenxiang, Wang Wenxuan, Huang J, et al. Is ChatGPT a good translator? A preliminary study [EB/OL]. (2023–03–19) [2023–05–30]. https://doi.org/ 10.48550/arXiv.2301.08745

[14] Bang Yejin, Cahyawijaya S, Lee N, et al. A multitask, multilingual, multimodal evaluation of ChatGPT on reasoning, hallucination, and interactivity [EB/OL]. (2023–02–28)[2023–05–30]. https://doi.org/10.48550/ arXiv.2302.04023

[15] Liu Chang, Wang Jie, Liu Xuemeng, et al. Deep CM-CNN for spectrum sensing in cognitive radio. IEEE Journal on Selected Areas in Communications, 2019, 37(10): 2306–2321

[16] 李衛疆, 漆芳. 基于多通道雙向長短期記憶網絡的情感分析. 中文信息學報, 2019, 33(12): 119–128

[17] Jiang Q, Chen L, Xu R, et al. A challenge dataset and effective models for aspect-based sentiment analysis // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, 2019: 6280–6285

[18] Mao Longbiao, Yan Yan, Xue Jinghao, et al. Deep multi-task multi-label CNN for effective facial attri-bute classification. IEEE Transactions on Affective Computing, 2020, 13(2): 818–828

[19] Wang Bingkun, Shan Donghong, Fan Aiwan, et al. A sentiment classification method of web social media based on multidimensional and multilevel modeling. IEEE Transactions on Industrial Informatics, 2022, 18(2): 1240–1249

[20] Liu Jian, Teng Zhiyang, Cui Leyang, et al. Solving aspect category sentiment analysis as a text generation task // Proceedings of the 2021 Conference on Empi-rical Methods in Natural Language Processing. Punta Cana, 2021: 4406–4416

[21] Li Yuncong, Yang Zhe, Yin Cunxiang, et al. A joint model for aspect-category sentiment analysis with shared sentiment prediction layer // China National Conference on Chinese Computational Linguistics. Hainan, 2020: 388–400

[22] Jia S, Cao J. The method for plausibility evaluation of knowledge triple based on QA // China Conference on Knowledge Graph and Semantic Computing. Singa-pore, 2022: 228–235

[23] 方澄, 李貝, 韓萍, 等. 基于語法依存圖的中文微博細粒度情感分類. 計算機應用, 2023, 43(4): 1056–1061

[24] Amoroso F. Adaptive A/D converter to suppress CW interference in DSPN spread-spectrum communica-tions. IEEE Transactions on communications, 1983, 31(10): 1117–1123

[25] Yang Z, Dai Z, Yang Y, et al. XLNet: generalized autoregressive pretraining for language understanding. Advances in Neural Information Processing Systems, 2019, 32: 5754–5764

[26] Liu B. GCN-BERT and memory network based multi-label classification for event text of the Chinese government hotline. IEEE Access, 2022, 10: 109267–109276

[27] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521: 436–444

[28] 楊春霞, 姚思誠, 宋金劍. 一種融合字詞信息的中文情感分析模型. 計算機工程與科學, 45(3): 512–519

[29] 方澄, 李貝, 韓萍. 基于全局特征圖的半監督微博文本情感分類. 信號處理, 2021, 37(6): 1066–1074

[30] Khan S, Naseer M, Hayat M, et al. Transformers in vision: a survey. ACM Computing Surveys (CSUR), 2022, 54(10): 1–41

[31] 張聲龍, 劉穎, 馬艷軍. SaGE: 基于句法感知圖 卷積神經網絡和ELECTRA的中文隱喻識別模型// 第二十屆中國計算語言學大會. 呼和浩特, 2021: 667–677

[32] Deepa M D. Bidirectional encoder representations from transformers (BERT) language model for senti-ment analysis task. Turkish Journal of Computer and Mathematics Education, 2021, 12(7): 1708–1721

[33] Cao H, Wang Y, Chen J, et al. Swin-Unet: Unet-like pure transformer for medical image segmentation // European conference on computer vision. Cham, 2022: 205–218

[34] 趙一鳴, 潘沛, 毛進. 基于任務知識融合與文本數據增強的醫學信息查詢意圖強度識別研究. 數據分析與知識發現, 2023, 7(2): 38–47

[35] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, 33: 1877–1901

[36] Wei J, Wang Xuezhi, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 2022, 35: 24824–24837

Can ChatGPT Be Served as the Sentiment Expert? An Evaluation of ChatGPT on Sentiment and Metaphor Analysis

ZHANG Yazhou1,2, WANG Mengyao1, RONG Lu3, YU Yang1, ZHAO Dongming4, QIN Jing2,?

1. School of Software Engineering, Zhengzhou University of Light Industry, Zhengzhou 450002; 2. School of Nursing, The Hong Kong Polytechnic University, Hong Kong 999077; 3. Human Resources Office, Zhengzhou University of Light Industry, Zhengzhou 450002; 4. Artificial Intelligence Laboratory, China Mobile Communication Group Tianjin Co, Tianjin 300020; ? Corresponding author, E-mail: harry.qin@polyu.edu.hk

To explore the potential for subjective understanding, the subjectivity and metaphorical nature of ChatGPT, this paper evaluates ChatGPT on five sentiment, humor, and metaphor benchmark datasets and discusses its strengths and limitations on different tasks by comparing it with the most cutting-edge models in the field. In addition, this paper also compares the performance of ChatGPT and humans in sentiment analysis, with gaps of 9.52%, 16.64% and 6.69% in human results on sentiment, humor and metaphor tasks. The results suggest that although ChatGPT achieves the best performance in dialogue generation, it still has potential for improvement in sentiment understanding. Finally, this paper investigates ChatGPT’s sensitivity to cueing templates in an emotion understanding scenario by improving the cueing templates.

ChatGPT; sentiment analysis; humor detection; metaphor recognition

猜你喜歡
隱喻人類文本
人類能否一覺到未來?
人類第一殺手
成長是主動選擇并負責:《擺渡人》中的隱喻給我們的啟示
《活的隱喻》
在808DA上文本顯示的改善
1100億個人類的清明
基于doc2vec和TF-IDF的相似文本識別
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
人類正在消滅自然
對《象的失蹤》中隱喻的解讀
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合