?

基于字向量的短文本情感分類研究*

2023-12-28 02:51賈鈺峰章蓬偉邵小青
微處理機 2023年6期
關鍵詞:短文向量分類

賈鈺峰,李 容,章蓬偉,邵小青

(1.新疆科技學院信息科學與工程學院,庫爾勒 841300;2.新疆科技學院馬克思主義學院,庫爾勒 841300)

1 引 言

文本分類是自然語言處理領域最廣泛應用的技術,包括事件抽取、意圖識別、問答任務、情感分析等。其中情感評論分析是一個重要分支和研究方向,它研究的是如何在海量的繁雜信息中快速且準確地獲取用戶對事物的情感好惡,從而更加高效地分析數據。隨著移動互聯網技術的蓬勃發展,以即時消息、文章標題、手機短消息、微博交互、商品評論、視頻彈幕等為代表的短文本信息增長非常迅速,數據規模已然非常龐大。這些評論文本整體較短,長度較隨意,更接近口語化,往往包含著個人情緒狀態和觀點態度。對這些評論性的短文本的研究顯然具有很大的應用價值。由于中文文字內涵的豐富,這些短文本信息是由各類不同的網絡用語、多譯詞性、特殊符號等組成,導致短文本整體具有稀疏性和上下文缺失等特性,對其進行有效地分類和分析具有必要性和挑戰性。本研究選用經典的文本分類模型,包括TextCNN[1]、TextRNN[2]、FastText[3]、TextRC NN[4]、DPCNN[5]、Transformer[6]和BiLSTM_Attention[7],全面比較了基于字向量作為輸入的各模型在短文本(甚至是超短文本)中的情感分類情況。研究主要考查短文本在相同數據集、相同預處理和超參數配置的情況下,各模型之間的效率和質量。

2 研究背景

情感分析的核心是分類,目前文本分類的主流是傳統機器學習方法和深度學習方法[8]?;趥鹘y的機器學習方法主要依靠特征提取和分類模型的組合。在構建特征的過程中,往往需要人工干預完成,否則很難習得文本的特征??衫孟嗨普Z料對文本信息進行擴展,進而得到特征向量;用信息增益的計算方式來選擇特征,提高分類準確率。也可對詞向量進行加權處理,區分不同字詞的重要程度,提高分類文本的準確率和效率。由于不同任務對文本特征要求不一,所以方式的選擇還要視具體問題情況而定。文本分類屬于有監督學習中的分類問題,傳統機器學習分類器有SVM、決策樹、邏輯回歸、集成學習等。

深度學習改變了傳統的特征工程方法,在文本分類中通過端到端的訓練,可以自動地從原始文本數據中學習到有價值的特征。這種方法的優點在于可以處理高維數據,同時無需人工進行繁瑣的特征選擇和提取。此外,深度學習模型具有強大的非線性分類能力,可以處理復雜的文本分類任務。然而,深度學習模型對數據質量和數量有較高的要求,模型的訓練也需要大量的計算資源和時間,對于計算能力有限的系統來說有一定的制約。隨著計算機性能的不斷提升,以及設計出了更多、更高效的深度學習模型,對自然語言處理的理解和操作能力有極大的提高。盡管存在一些挑戰和限制,但隨著技術的不斷進步深度學習在文本分類領域將帶來更多的價值。

本研究的整體研究流程如圖1 所示。其主要目標為分析短文本在各經典模型之間的運行情況,根據運行結果指標指導今后在其它短文本領域的泛化性和遷移性,為新領域短文本匹配模型提供有價值的信息。

圖1 研究流程圖

為了更好達到此目標,需要滿足以下要求:其一,盡量用簡約和不需要重新構造的方式構建特征,盡量用少的流程或者直接實現端到端的分類方式。其二,能夠處理海量數據和特有領域數據,能夠隨著數據的發展不斷迭代更新。其三,能夠對文本的稀疏性和上下文信息的缺失有很好的泛化性,以符合短文本的特點[9]。通過查閱資料和分析[10-11],發現深度學習滿足對短文本的情感分類需求,它也是當前文本分類的主流。目前深度學習模型的分類表現往往優于傳統的機器學習模型。為了簡化,不對傳統機器學習模型進行比較。目前經典的深度學習文本分類模型有TextCNN、TextRNN、FastText、TextRCNN、BiLSTM_Attention、DPCNN 及Transformer,在基于字向量的基礎上,運用上述模型對短文本(不超過200個字)進行情感分類。

3 相關模型

3.1 TextCNN 模型

TextCNN 模型應用最為廣泛,尤其在工業領域有相當成熟的應用,已經取得較為優異的輸出效果。其網絡結構較為簡單,模型數據流動描述如表1。

表1 TextCNN 模型數據描述

TextCNN 在文本分類中的模型結構簡單,對文本淺層特征抽取能力強,因此在處理短文本時,表現較好。采用多個卷積,有利于提取多種特征;最大池化將提取到最重要的信息加以保留。該模型也具有較少的參數數目和較快的計算速度。

然而TextCNN 也存在著缺點,包括模型可解釋性不強,在調優模型時很難根據訓練的結果去針對性地調整具體的特征。

3.2 TextRNN 模型

TextRNN 模型是一種基于循環神經網絡(RNN)的文本分類模型,具有良好的性能。該模型避免了CNN 算法中不能延展序列長度的缺陷,能夠更好地捕捉上下文信息,有利于捕獲文本語義;可以靈活地采用多種結構,比如在雙向RNN 的基礎上再疊加一個單向的RNN,或者把雙向RNN 在每一個時間步長上的兩個隱藏狀態進行拼接,作為上層單向RNN 每一個時間步長上的一個輸入。

TextRNN 模型也存在一些缺點,例如在處理較長文本時,后一個時刻的輸出會依賴前一個時刻的輸出,因此無法并行處理,需要按順序處理文本,導致其訓練速度較慢。同時,RNN 在處理序列信息時,有時會偏向最后輸入的信息,這就可能導致早期信息丟失的情況發生。

3.3 FastText 模型

FastText 除了可以進行文本分類,還可用于詞向量學習、序列標注任務等。該模型在多種文本分類任務中表現出色,如情感分析、垃圾郵件過濾等,其分類準確率與傳統的文本分類算法相當或更優;對于較長的文本和噪聲文本具有較好的魯棒性;支持多種語言,并能夠處理不同長度的文本。只需要提供文本數據和標簽,就可以進行訓練和分類,而無需對文本進行過多的預處理。

FastText 模型的缺點包括對于超出單詞級別的信息建模能力相對較弱,以及較長文本訓練過程中的復雜度增加。

3.4 TextRCNN 模型

TextRCNN 模型的目的是解決RNN 在處理長文本時存在的偏置問題,以及CNN 在確定文本中具有最大池化層的識別性短語時可能存在的局限性。該模型結合了RNN 和CNN 的優點,它能夠通過雙向循環和最大池化層減少噪聲,更準確地捕捉文本的語義,并保留更大范圍的詞序信息;結合RNN 和CNN 的優點,既可以捕獲詞序信息,也可以減少參數空間;能夠處理任意長度的序列,而不需要對輸入進行預處理或縮短序列長度。

總之,TextRCNN 模型在文本分類任務中具有捕捉上下文信息、處理任意長度序列、端到端訓練和可解釋性等優點。

3.5 BiLSTM+Attention 模型

BiLSTM+Attention 模型結合了BiLSTM(雙向長短期記憶網絡)和注意力機制,通常用于自然語言處理(NLP)任務,如文本分類、序列標注等。該模型的網絡結構如圖2 所示。

圖2 BiLSTM+Attention 模型網絡結構圖

此模型在文本分類中的優點包括:BiLSTM 模型可以同時考慮過去和未來的信息,更全面地捕捉序列數據中的特征信息;Attention 機制能夠更好地處理序列數據之間的關系,為BiLSTM 網絡提高預測準確率;BiLSTM+Attention 的可解釋性較強,可以更好地理解文本分類的決策過程。

該模型的缺點則包括:可能受到過長文本或復雜句式的困擾,導致訓練速度和分類效率下降。

3.6 DPCNN 模型

DPCNN 模型是一種深度卷積神經網絡,在文本分類中的優點包括:采用層級特征提取方式,能夠適應不同長度的文本輸入,從字、詞、n-gram 等多個層次提取文本特征,具有較強的特征表達能力;采用了高效的訓練方法,如層級權重初始化、多尺度卷積和池化等,能夠快速收斂并獲得較好的效果。

DPCNN 模型在文本分類和相關任務中表現出色,尤其適用于長文本的分類任務。但其計算復雜度和參數數量限制了其在實際應用中的推廣。

3.7 Transformer 模型

Transformer 模型在文本分類任務中具有高效性,其使用自注意力機制來實現對輸入序列的編碼和表示學習,相比于傳統的遞歸神經網絡(RNN)或卷積神經網絡(CNN)等,獲得了更高的并行性和計算效率。因此,模型在處理長序列和大規模數據時具有明顯的優勢。

該模型還具有上下文感知能力,使用自注意力機制來實現對輸入序列的編碼和表示學習,可以捕捉序列中不同位置之間的依賴關系,實現上下文感知,提高模型的準確性和魯棒性。

模型的通用性也較高,可以應用于多種自然語言處理任務,不需要為每個任務單獨設計模型結構。然而Transformer 模型需要大量的訓練數據和計算資源,對于小規?;蛱囟I域的任務可能無法取得理想的效果。

4 研究分析

4.1 評論文本的特點

研究選取某外賣平臺評論信息作為短文本的情感分析語料。評論信息在短文本中極具代表性和豐富性,具有真實場景化的鮮明特點。評論文本比較跳躍,表達口語化,往往不遵守語法規則,語言比較新穎,內容稀疏,上下文信息缺乏。有時還會包含拼寫錯誤、網絡流行用語以及特殊表情、符號等。

評論文本的字符跨度大。評論最短一般由一個字、詞甚至一個標點符號或者幾個詞或幾個短語組成來表明自己的態度。短小評論占全部評論中的大多數。最長的評論可達上千字,但長文本極少出現。評論的文本長度與數量之間呈現出冪律關系。

評論文本具有多種意義。短文本增長非常迅速,數據規模龐大,存在一詞多義和一義多詞的特點,造成了語義難以明辨,理解偏差無法消解。內容中往往包含評論人的喜怒哀樂。

4.2 文本預處理

文本預處理主要針對一些無實際意義的詞進行識別和剔除,例如大量的停用詞或噪聲等,從而能夠降低其對預處理的影響程度。中文語義較復雜,具有更高的信息量,相比類似英文的拼寫文字,很難進行精確的分詞,模型評估效果也會低于英文模型。

文本分類的預處理包括:分詞、降噪、剔除停用詞等。中文的分詞會造成更多的低頻詞出現,對于短文本是無法很好的學習到詞語意義的。分詞提高了出現的頻率,比字有著更廣泛的包含性,所以可以學到更多的詞性。中文評論的降噪對長文本具有很好的凸顯特征的作用,但是對于短文本,只要語料夠多,分出的字完全可以涵蓋所有的文字和表達方式。對于短文本評論中的符號、表情或者一個字的評論其實也是帶有評論者想表述的意思。所以為了增加未來對于各領域不同評論的魯棒性,提高泛化適應能力,沒有對文本做任何的額外處理。僅僅只做一個分詞處理,并使用現成的預訓練字向量作為模型的輸入值。

4.3 字向量的優越性

文本對其分詞天然含有詞語間語義的信息,對于長文本可以增加信息量。但是對于評論性的短文本,反而分字的優越性更大,所以使用了搜狗公布的預訓練字向量[12],后續所有模型均是根據預訓練字向量提取出文本對應的字向量作為模型的輸入。字向量示例如表2 所示。

表2 字向量示例

通過分析認為分字具有如下的優越性:

對于不同的短文本數據集的任意模型來說,分字會減少低頻字的出現,可以弱化評論的跳躍性。只要使用充足的訓練集,分字所分割出的文字完全可以囊括日常評論所需的所有文字和符號。

分字分割出的文字通常出現在多種不同的語境中,這樣,模型訓練出的文字語義就是這些文字在多種語境中的綜合,具有廣泛的適用性。

機器學習提高文本分類效果主要體現在數據集和模型兩個方面。僅僅使用字向量可以降低語料的數量,提高出現的頻率,從而提高泛化性能。

5 實驗及結果分析

在實驗中,使用了雙核Intel?CoreTMi7-7500U CPU@2.70 GHz 和16G RAM 的電腦,運行系統為Windows2010, 編程語言為Python3, 深度學習庫為PyTorch,參考中文文本分類源碼[13]。

5.1 數據集

實驗使用的數據集是Github 官網上開源的某外賣平臺中文情感分析語料共11987 條(其中5 個字以內超短文本數1892 條)[14],數據集整體符合評價指標。測試集、訓練集和驗證集中沒有相互重復和交叉數據,它們按照60%:20%:20%的比例進行隨機抽取。最終得到訓練集7192 條,測試集2397 條,驗證集2398 條。其中,正向評論文本數7987 條,負向評論文本數3999 條。

5.2 實驗評估

由于模型較多,僅將FastTest 模型每隔32 次迭代計算得到的測試集和訓練集的準確率記錄下來,并繪制在折線圖中,得到如圖3 所示的結果圖。隨著迭代次數的提高,迭代準確率越來越準確并有逐步趨于穩定的趨勢。為了避免過擬合,在迭代第1344次時終止了迭代。

圖3 FastTest 模型訓練過程中準確率變化圖

為得到更好的評價模型,選擇的模型評估指標有:準確率(Accuracy, A)、召回率(Recall, R)、F1 分數(F1Score, F1)。通過實驗得到各模型對比指標,結果如表3。

表3 各模型評估指標對比

從表中可以看出,本文引用的模型在各個指標上的結果都較好(準確率最低為85.11%),同時模型間指標的差異也較?。ǜ釉?%以內),這表明針對短文本進行字向量的輸入是可行的,也說明模型具有很強的擬合能力和泛化能力。其中,TextCNN 和FastTest 在短文本數據的分類處理上比其他模型稍微優秀一些。有此表現可能是由于TextCNN 和Fast Test 在處理短文本時具有更好的特征提取能力。至此,可以得出結論,在短文本情感分析方面,以字切分具有很好的表現,對于評論性的短文本,不做任何處理,僅僅用字向量作為特征直接輸入,利用神經網絡端到端的特性,即可達到較好的分類效果。

6 結束語

針對評論性短文本的特征,分析了字向量的優勢,同時對各模型在外賣數據集的正負情感分類進行驗證,檢驗了模型在短文本方面的效果,均能較良好地完成了識別任務。研究為未來利用遷移學習的方式在其它短文本評論領域進行分類提供了有價值的參考。不過對于短文本自身的定義和建構同樣需要進一步完善,其內涵也有待進一步挖掘。對于短文本自身的定義和建構,后續研究工作還應包括:利用模型預測出文本的情感正負傾向后,更進一步研究正負情感的程度,以及正負文本觀點的主題內容;在長文本方面的表現還需進一步探索;在情感分析也應考慮到情感的程度或者中性觀點的存在。

猜你喜歡
短文向量分類
向量的分解
分類算一算
聚焦“向量與三角”創新題
分類討論求坐標
KEYS
數據分析中的分類討論
Keys
教你一招:數的分類
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合