基于混合編碼的社交媒體英語文本情緒檢測

2022-05-08 03:01黎家寧

科技創新與應用 2022年12期

黎家寧

（大連民族大學外國語學院，遼寧大連 116600）

世界各地的人們都在大量使用Twitter和Facebook等社交媒體平臺來表達自己的觀點。這些平臺的廣泛應用使得文本數據豐富，為自然語言處理領域的研究提出了各種挑戰。在這些挑戰中，檢測文本中傳達的情感在各個領域都具有重要意義。分析社交媒體文本內容中表達的情感，對于評估人們在產品評價、電影評價、對新出臺政府政策的接受等應用中的理解力非常有用，這就增加了檢測它的必要性。在社交媒體中，人們傾向于使用不遵循標準句法結構的非正式表達方式，使分類成為一項具有挑戰性的任務。

首先，理解文本中表達的核心觀點僅限于情感分析[1]，其中基于句子中極性矛盾的分類，即是否表達任何積極、消極或中性的行為，也可以稱為觀點挖掘。在后期階段，它已經進化到識別更精細的情緒水平。這種情緒檢測和分類的目的是識別精煉的情緒，如快樂、悲傷、憤怒。由于大量的單語語料庫的可用性，大多數有關情感檢測的研究分析都是在單語數據上進行的。然而，公眾屬于多語言領域，當他們涉足社交媒體時，通常使用代碼混合語言[2]。碼混疊識別是將一種語言的形態成分嵌入另語言話語中的語義表達現象。這種用法在多語言社會中非常常見，人們在使用社交媒體平臺時，將一種語言的單詞翻譯成另一種語言，而不遵循任何標準的語義結構。

印度是一個多元化的國家，在文化、語言和時尚方面，異質性在全國普遍存在。13億人在印度使用大約1 600種語言。受至少2種語言的影響，印度公民往往在社交媒體上經常使用混合語言。印地語是這個國家使用最多的語言。超過45%的人口以印地語為母語，這使得印度英語（印地語+英語）混合的社交媒體文本內容過多。下面是一些直接從社交媒體上根據一些流行事件提取的印度-英語代碼混合文本樣本及其翻譯。

文本1：Aaj ye government ek shaandar decision le liya Article 370 koscarp karke.

翻譯：今天，本屆政府做出了一個偉大的決定，廢除了第三百七十條。

文本2：Indian team ke liye bura lag raha hai，they should have won.

翻譯：真為印度隊難過，他們本該贏的。

文本3：Pulwama attack ki news dekh kar bahut gussa aa gaya.Hamare armed forces jaroor retaliate karna hein.

翻譯：當我看到普瓦馬襲擊的新聞時，我非常生氣。本文的武裝部隊一定要報復。

正如給的例子所描述的，在代碼混合文本中，印地語單詞被音譯成羅馬文字，并與英語單詞一起書寫。在文本1中，快樂的情緒是通過贊揚政府作為shandara決定所采取的步驟來表達的；在文本2中，短語bura lag raha haisigne表達的悲傷的情緒；在文本3中bahut gussa aa gayain表達憤怒情緒。這類句子的語義復雜性和句法結構的異常變化使得在代碼混合的文本數據中進行情感檢測非常困難。由于數據的缺乏，該情感檢測任務在印地語-英語代碼-混合語言領域的研究程度較低。

本文的目標是檢測和分類這些代碼，混合文本表達的情感。為了解決這一問題，將Vijay等[3]人的印地語-英語代碼混合文本情緒檢測任務作為工作的基線。作為初步的努力，本文主要集中在數據的收集。因此，在他們提供的數據集的基礎上，還從各個平臺上抓取了codemixed social media內容，共收集了12 000條文本。工作考慮的情緒類別是快樂、悲傷和憤怒，每個文本都手工注釋與之相關的情緒。

1 數據收集及描述

Vijay等[3]人完成了印地語-英語代碼混合數據中情感檢測的基本工作。他們提供的數據集是這項工作的基礎數據，基于此，開始了語料庫的創建，收集更多的代碼混合文本的數據，意圖更好地統計意義的分類。Twitter API用于提取代碼混合的tweet。本文使用了一個python庫tweepy，并在程序生成文本數據。除了Twitter API外，Facebook和Instagram的評論也被匯集在一起以獲取所需的數據。內容提取使用了很多關鍵詞，一些熱門的是三重塔拉克，巴拉克襲擊，CWC2019，Chandrayaan2，Election2019，克什米爾問題，外科手術式打擊，莫迪，Jio Fiber，PV Sindhu。由于這些活動吸引了如此多的公眾關注，可以很容易地獲得多種情感內容。通過對Vijay等人數據集的收集和分析，共收集了12 000個印地語-英語代碼混合文本。數據類和每個數據類中出現句子數量的詳細描述見表1。每堂課的課文數量保持統一，避免班級失衡問題。每一篇文章都有相應的情感注解。實驗中考慮的情感類有快樂、悲傷和憤怒。注釋是由2個擁有2種語言知識的人通過指定的指令手工完成的。

表1 數據集的詳細描述

2 研究方法

在這一節中，將詳細描述適用于實驗的方法。方法的流程如圖1所示。預處理：從社交媒體平臺提取的數據中包含了大量不需要的信息，如url、用戶名、標簽、表情符號和其他特殊字符。為了刪除它們并使文本干凈，可以采用以下步驟：

圖1 方法流程圖

（1）從文本中刪除url。

（2）從文本中刪除所有用戶名和特殊字符。

（3）從整個文本中刪除所有額外的空格。

（4）將每個文本轉換為小寫。

這些步驟以Jose等[4]人的工作為基礎，在使用深度神經網絡進行分類時，預處理技術的作用提供了明確的支持。

重新訓練模型和特征提?。涸谔卣魈崛」ぷ髦?，使用預先訓練的領域特定的詞嵌入模型[5]。使用這個預訓練模型的原因是，它是由250K碼混合推文構建而成的，這樣大的語料庫生成的訓練模型可以提供更好的特征向量。本文用Word2Vec重新訓練了這個模型。Word2Vec的核心思想是通過分析所有被標記的詞，了解它們之間的語義關系，根據詞的相似度來實現向量相似度。

在Word2Vec中，有2種方法生成單詞向量。這2種方法分別是連續詞袋法和跳躍圖法。CBOW在工作中的作用是用本文清理的數據對模型進行再培訓。CBOW的主要功能是借助鄰接詞預測一個詞的前景，即根據上下文預測單個詞。Word2Vec是一個淺層神經網絡，其中存在2組權值。當周圍的單詞作為輸入時，它預測單個單詞，如果在預測中有錯誤，它將通過反向傳播進行修正，以調整權重。在更好的預測之后，CBOW給出隱藏層和輸出層之間的權值作為單詞的數值向量。綜上所述，特征提取過程如下：

（1）對預處理獲得的已清洗文本進行標記。

（2）使用標記化的單詞對模型進行再訓練。

（3）從重新訓練的模型中為每個單詞生成數值向量，從而獲得每個句子的特征向量。

將從模型接收到的特征向量提供給各種深度學習算法進行文本分類。

單詞向量一旦生成，所有的單詞向量都被堆疊到一個嵌入矩陣中，并使用各自的行數作為索引。將令牌化句子中的每個詞替換為詞索引，并將其作為模型的輸入，傳遞給嵌入層。由于每個句子的長度都是唯一的，所以使用零填充使它們的長度統一。在嵌入層中，每個輸入整數作為索引訪問包含所有可能特征向量的嵌入矩陣。在獲取每個句子的特征向量后，將其傳遞給深度神經網絡模型。從相關工作中可以明顯看出，CNN和CNN為首的序列模型，如LSTM、BiLSTM已經證明在許多文本分類任務中提供了更好的結果。CNN層捕獲的必要特征對于LSTM進行序列預測非常有用。它減少了LSTM上的負載，使計算速度更快。LSTM對順序數據的處理效果非常好，因為它們可以選擇性地記住所需的模式，這在分類任務中起著至關重要的作用。雙向LSTM層也被使用，因為它們可以在2個LSTM上訓練，而不是第1個LSTM對輸入序列進行訓練，第2個LSTM對其反向拷貝進行訓練。簡而言之即提出再訓練一個雙語預訓練模型來生成單詞嵌入特征向量和CNN頭神經網絡模型用于印式英語碼混合文本分類。

3 實驗和結果

收集的12 000條代碼混合的社交媒體文本被考慮用于實驗。每一個清理的文本被標記，并給予再訓練的模型，以生成單詞向量。語料庫中的每個詞都有索引并從嵌入層訪問其各自的向量。調查結果表明，一維CNN在NLP分類任務中取得了一些顯著的結果，因為詞語的鄰近性可能并不總是一個良好的指示可訓練模式的指標。因此第1個實驗是用1D-CNN做的。當僅使用CNN時，從模型中去掉LSTM層。LSTM和BiLSTM可以記憶在分析文本時具有重要意義的順序模式，因此也通過省略CNN層來利用它們。最后，采用CNN-LSTM和CNNBiLSTM模型，因為CNN具有提取特征的能力，降低了LSTM或BiLSTM訓練的復雜性。對CNN、LSTM、BiLSTM、CNN-LSTM、CNN-BiLSTM這5個模型進行分類實驗。對每個模型進行了15代的訓練，并利用10倍交叉驗證進行模型評價。各分類模型的性能指標見表2。

表2 分類模型的性能指標

CNN-BiLSTM的分類準確率達到了83.21%，從所得結果可以看出，與其他模型相比，CNN-BiLSTM的分類性能更好，CNN-BiLSTM模型列于表3，以直觀地展示其性能。從所提供的統計數據可以理解，CNN-BiLSTM在每一個類的分類中都有顯著的表現，總體上的準確性都是最優的。

表3 CNN-BiLSTM分類性能

4 結論

社交媒體平臺的普及為每個人通過文字或圖片來表達自己對各種話題的情感鋪平了道路。在印度，人們混合使用英語和當地語言（代碼混合語言）來表達他們的情感。自動識別那些通過代碼混合語言表達的情緒是一項乏味的任務，因為它包含2種（或更多）完全不同的語言的特征。本文提出了一種深度學習方法，用于識別各種社交媒體平臺（如Twitter和Facebook）中通過印地語-英語代碼混合語言表達的情緒。為了實現檢測模型，本文從不同的來源收集并清理了12 000條包含快樂、悲傷、憤怒等情緒的印地語-英語代碼混合句子。為了將句子轉換成向量，使用了雙語預訓練模型，該模型再使用為該任務收集的語料庫進行再訓練。在檢測情感的各種深度學習模型中，CNN-BiLSTM模型的檢測準確率較高，達到83.21%。該模型在分類智能檢測方面也有良好的性能。由于典型的單語預訓練模型不包含其他語言的詞匯，為了從代碼混合數據中檢測情感或其他信息，需要雙語預訓練模型。此外，應用CNN層可以從單詞嵌入中生成更有意義的信息，這些信息可以作為輸入傳遞給BiLSTM，BiLSTM捕獲句子的語義。未來，通過在印度語言代碼混合文本領域創建大型語料庫，這項任務可以擴展到更精細的情感水平。