基于Renyi熵的文本情感分析

2024-01-12 05:38張冠東姜榮

微型電腦應用 2023年12期

張冠東, 姜榮

(上海第二工業大學, 數理與統計學院, 上海 201209)

0 引言

在人工智能不斷發展的今天,人們不僅可以通過各種社交媒體記錄日常生活的感想,發表對時事新聞的觀點,還能通過閱讀別人發表的言論獲取許多額外的信息。然而,發布的信息對整個社會的輿論導向有著重要的影響,有的信息會帶來正能量,有的信息會有負面的煽動效應。因此,在海量文本數據下,為了有效地捕捉文本所包含的褒貶情感色彩,從而鼓勵推廣正能量信息的傳播,同時也能提供有效的措施預防負面信息對社會帶來的影響,學者們提出了許多研究方法。他們一般是利用關鍵詞頻率、預先設定的情感規則,或者利用已有的情感詞典對文本進行分析,進而為文本貼上褒貶的標簽[1],也有不少的方法采用機器學習、深度學習的理論構建分類器來分析文本的褒貶。但這些方式一般都以文本詞性的單一性為基礎,缺乏對文本詞匯多樣性的思考。

目前,在文本分類方面已經存在不少的研究并取得了一定的進展。在長文本研究領域:林呈宇等[2]對弱監督文本中的噪聲進行了研究,通過增強標簽語義提高了文本分類的精度;尹雪婷等[3]針對詞頻在文本分類中低準確率的問題,通過引入加權因子并結合上下文信息,提出了一種基于任務優化文本表示學習的文本分類算法,為文本分類提供了新的思路;李建平等[4]利用改進的長短時記憶網絡更好地發現了特征詞的前后關聯關系,從而找到極其重要的潛在語義因素,提高了分類的準確率。在短文本研究領域:田小瑜等[5]利用標簽到文本本身的映射過濾文本中的無效信息來生成文本信息標簽,提出了一種深度模塊化標簽注意網絡用于文本分類;李博涵等[6]重點研究了短文本的分類,將知識感知與雙重注意力機制相結合,提出了一種新的文本分類機制,提高了模型對短文本中有效信息提取的效率。在情感分析領域:陳紅陽等[7]將多因素融合在一起,構建了一種豐富語義與情感信息的文本特征向量進行文本分類;楊京虎等[8]對長文本的情感加以分析,其提出的模型可以通過滑動窗口抽取子事件的方法分析識別情感主體;趙宏等[9]將句法結構、上下文內容和語義特征等相融合,提出了一種特征融合的文本情感分析方法,提高了文本的分類精度。

以上研究的關注點在于文本文字方面的特征,且大部分研究內容更關注于文本的內容,缺少對詞的多屬性含義所含有的情感色彩研究。針對以上問題,本文主要針對英文文本中詞匯的多屬性特點進行褒貶傾向的分析,通過構建關鍵詞句概括文本的內容,并給出褒貶評分來判斷文本的情感色彩。

1 模型設計

1.1 理論分析

本文主要基于熵的理論基礎。熵泛指度量某些系統或物質的一些狀態,也可以理解為測量某些狀態可能出現的程度。熵的理論已經被廣泛地應用于熱力學、物理學與信息論的研究。香農(Shannon)將熵引入了信息論,在目前的很多研究中,其可以描述為給定的概率分布(p1,p2,p3,…,pn},給出的公式為

(1)

Renyi熵[11]已經被應用于文本的關鍵詞提取研究,且能揭示模型中混合隨機變量的統計特性[10]。因此,在研究如何對文本的褒貶進行分類的問題中,本文也引入Renyi熵,其公式為

(2)

由于本文是基于文本語句的關鍵詞進行褒貶分析的,且詞匯并不是只有褒義或貶義的含義,因此提出一種新的改進型Renyi熵。由于貶義詞包含的信息比褒義詞多[12],因此將貶義詞得分與褒義詞得分的比值作為熵對數中的部分,設q=2,該改進型Renyi熵公式如下:

(3)

1.2 模型構建與實現

英文單詞并不能簡單地歸結為褒義或貶義,在具體的語言環境中,不同的讀者對詞匯的理解可能會有不同的褒義或貶義的傾向。因此,在計算關鍵詞句的褒義分值和貶義分值后,再對這些分值進行匯總得到語句的總的褒貶分。在提取關鍵詞方面,由于BERT技術常用于關鍵詞的提取[13-14],因此本文采用基于BERT的KeyBERT方法來提取關鍵詞,該方法通過BERT嵌入,創建出與文本意思相似的關鍵詞或短語。對關鍵詞的多詞性褒貶分值進行打分,采用SentiWordNet對單詞的情感色彩進行打分,因為該英文電子詞典能基于情感詞進行極性標注并計算詞極性的強度[15],從而對詞的褒貶賦予有效的分值。本文方法的實現流程如圖1所示。

圖1 計算流程圖

由于有的文本數據只包含符號或異常字符,這些文本語句將會被認定為異常文本而被過濾。對于正常文本,先對文本進行清洗,去除標點符號和異常字符,再將獲得語句的關鍵詞組成關鍵詞句進行褒貶分值計算。

2 檢驗標準

對于文本的褒貶分類,通常采用準確率和精確率作為檢驗標準來判別模型的優劣。準確率(Accuracy)是指全部正確分類的對象數占總的研究對象數的比例,其計算方法為

(4)

其中,TP為正確的正例數,TN為正確的負例數,NAll為總的對象數。本文利用模型分類結果中正確的褒義分類數和正確的編譯分類數之和與總的文本對象數的比值來計算準確率,因此TP可被認為是分類正確的褒義語句,TN可被認為是分類正確的貶義語句。精確率(Precision)是指模型各分類中所得的正確分類數占該類正確分類和錯誤分類之和的比例,其公式如下:

(5)

其中,Tc為正確的分類數,Fc為錯誤的分類數。本文對褒義和貶義分類均可計算精確度,公式為

(6)

(7)

其中,FP為錯誤的正例數,FN為錯誤的負例數。本文將FP認為是分類錯誤的褒義語句,FN認為是分類錯誤的貶義語句。

3 實例分析

對于英文的文本實例,所選用的數據集為被標簽的IMDB和Yelp數據。將改進型Renyi熵、Renyi熵和香農熵分別應用于給定的公共數據集,得到的結果如表1、表2所示。

表1 IMDB數據集

表2 Yelp數據集

由表1、表2可知,在準確率、褒義精確度和貶義精確度方面,絕大部分改進型Renyi熵的指標比Renyi熵和香農熵都有所提升。其中,精度比較結果如表3、表4所示。

表3 IMDB數據集指標比較

表4 Yelp數據集指標比較

由表3、表4可知,在Yelp數據集中,改進型Renyi熵的褒貶分類性能均比Renyi熵和香農熵優越。在IMDB數據集中,雖然在褒義精確度方面,改進型Renyi熵比香農熵有所下降,但是其降幅僅為0.3%,其他的性能指標均顯示出改進型Renyi熵比另2個模型優越。

4 總結

文本分析是人工智能時代重要研究內容之一,而文本褒貶分類則是文本分析領域的一個重要研究點。本文提出一種改進型Renyi熵模型對文本的褒貶進行分類,通過計算關鍵詞多詞性的情感傾向值分別得到詞語的正面、負面情感傾向值,從而計算出該文本的褒貶傾向并加以分類。實驗表明,該方法的分類性能較好,為文本分類提供了一種有效的思路。在未來的研究中,可以通過上下文的語境對關鍵詞進行進一步的篩選,以提高文本分析的性能。