?

機器學習與交叉表分析在新冠肺炎新聞情緒分析中的應用

2021-06-11 11:27胡貴芝閆現磊
計算機時代 2021年5期
關鍵詞:新冠肺炎機器學習微信平臺

胡貴芝 閆現磊

摘? 要: 為有效支持主流媒體利用情緒資源治理輿情,提出一種基于機器學習與交叉表分析的新聞情緒分析方法。先用Python爬蟲技術從微信平臺采集新聞數據;再采用多種文本分類方法的對比研究構建最優情緒分類器,實現新聞情緒類型的快速劃分;然后用交叉表分析方法評估新聞文本與新聞評論情緒之間的相關性,幫助主流媒體考察輿情治理的效果。以主流媒體在微信平臺發布的“新冠肺炎”相關新聞為例,對該方法的可行性和有效性進行了驗證。

關鍵詞: 情緒分析; 機器學習; 輿情治理; 微信平臺; 新冠肺炎

中圖分類號:G202? ? ? ? ? 文獻標識碼:A? ? ? ?文章編號:1006-8228(2021)05-33-04

Application of machine learning and cross tabulation in news

sentiment analysis of COVID-19

Hu Guizhi, Yan Xianlei

(Institute of Media Convergence, Sichuan Vocational College of Cultural Industries, Chengdu, Sichuan 610213, China)

Abstract: To effectively support mainstream media to use emotional resources to manage public opinion, a sentiment analysis method based on machine learning and cross tabulation is proposed. The raw data is collected from the WeChat platform by using the Python crawler technology, and a comparative study of multiple text classification methods is carried out to construct an optimal sentiment classifier to achieve rapid classification of news sentiment types, then the cross tabulation method is used to evaluate the sentiment correlations between news text and its comment, thereby helping mainstream media to investigate the effect of public opinion governance. Taking the news of COVID-19 published by mainstream media on the WeChat platform as an example, the effectiveness and feasibility of the method are verified.

Key words: sentiment analysis; machine learning; public opinion governance; WeChat platform; COVID-19

0 引言

情緒是社會病灶的顯現,情緒分析具有呈現公眾心理活動、誘導公眾行為、預警公眾狀態的作用[1]。移動媒體去中心化、圈層化、碎片化的傳播特性,促使情緒在現代輿論生態中被彰顯[2]。輿情監管部門不僅需要提供準確、清晰的事實信息,更需重視公眾對信息的情緒感知,把情緒作為現代輿情治理的新著力點[3]。網絡傳播情緒與受眾情緒之間存在微觀意義上的對應性,有學者提出“情緒設置”理論[4],通過對信息載體的情緒設置牽制受眾以何種情緒去思考與表達,從而進行情緒引導。2019年12月,“新冠肺炎”爆發,主流媒體把控著信息發布的主導權,肩負輿情引導的職責[5]。通過分析主流媒體關于“新冠肺炎”的新聞文本與評論情緒,探究主流媒體“情緒設置”的效果對于網絡輿情治理具有重要意義。

目前,已有學者開展文本情緒分析的研究。早期的文本情緒識別主要依賴于人工方式,即召集人員閱讀文本然后手工判斷文本的情緒類型。顯然,該方式費時費力且難以適用于大樣本數據。隨著計算機技術的發展,機器學習方法被應用于文本情緒識別中以提高情緒識別的效率[6]。例如,朱曉光[7]采用前饋神經網絡與支持向量機作為監督學習模型進行中文微博的情感分類;赫苗苗[8]基于樸素貝葉斯、支持向量機、決策樹等算法的對比研究構建最優的情緒分類器,以實現微博情感的高效分類。

然而,雖然目前已有學者將機器學習應用于文本情緒分類,但是依然缺乏分析新聞文本與新聞評論二者情緒之間的對應性,進而難以評估新聞輿情治理的效果,不利于網絡輿情環境的健康穩定發展。因此,有必要在識別新聞文本與評論的情緒類型后,進一步分析二者情緒之間的相關性。針對上述問題,本文提出一種基于機器學習與交叉表分析的新聞情緒分析方法,一方面結合多種機器學習分類方法的對比研究保證新聞情緒的識別效率,另一方面通過交叉表分析方法探究新聞文本與新聞評論情緒之間的相關性以有效考察輿情治理的效果。

1 研究方法

1.1 方法流程

本文的研究方法流程如圖1所示。研究步驟包括:首先,基于微信平臺,抓取主流媒體以“新冠肺炎”為主題的新聞文本數據與相應的評論數據。其次,針對新聞文本數據,提出“新冠肺炎”情緒分類體系,并以此為基礎通過人工方式識別新聞文本情緒;而針對新聞評論數據,則采用機器學習算法構建最優的情緒分類器,以此實現新聞評論情緒的快速識別。最后,基于SPSS工具開展新聞文本與新聞評論的情緒交叉性分析,以此考察情緒設置的效果。

1.2 數據采集

數據采集是文本情緒分析的首要步驟,本文基于Scrapy框架,采用Python對微信平臺的文章進行采集。主要用到的技術有:利用Filder抓包工具對公眾號文章的請求參數進行分析,得到固定參數和變動參數;采取Requests工具對文章的鏈接發起請求并獲得反饋數據;通過Beautifulsoup工具對獲取的參數和數據進行解析以判斷該文章是否符合要求;使用Mongodb數據庫將爬取過程中符合要求的文章進行存儲,并轉化為Excel格式。

1.3 情緒識別

鑒于新聞文本的數據量一般較小,本研究將采用人工方式識別新聞文本的情緒,而由于新聞評論的數據量較大,故采用機器學習方式識別新聞評論的情緒。

1.3.1 新聞文本情緒識別

在識別新聞文本的情緒之前,需要構建情緒分類體系,從而支持“新冠肺炎”新聞文本的情緒類型標注。艾克曼曾提出包括六種核心情緒的經典情緒分類體系[9],即快樂、悲傷、憤怒、恐懼、厭惡和驚訝。本研究針對“新冠肺炎”新聞包含疫情實況通報性信息,因此增加了“無情緒”這一分類指標。在艾克曼情緒分類基礎上,本研究提出由三種情感效價、十七種情緒類型構成的“新冠肺炎”情緒分類體系,見表1。

基于“新冠肺炎”情緒分類體系,采取分組交互式驗證的方法標記新聞文本的情緒類型,從而確保人工劃分方式的準確性。鑒于“新冠肺炎”情緒分類體系中情感效價與情緒類型具有映射關系,可基于情緒類型識別結果構建產生式規則實現新聞情感效價的自動識別,如“IF{某新聞情緒類型=贊美},Then{該新聞情感效價=正向}”。

1.3.2 新聞評論情緒識別

采用機器學習方式識別新聞評論情緒,包括數據預處理、情緒分類器構建及其應用三大步驟。

⑴ 數據預處理

數據預處理是對粗采數據進行數據標注與特征提取,從而支持情緒分類器的構建與應用,具體過程如下。①數據標注。首先,從所有新聞評論文本中隨機挑選約10%至20%的數據作為樣本數據;然后,基于“新冠肺炎”情緒分類體系,采取分組交互式驗證的方法標記新聞評論樣本數據的情緒類型(與新聞文本的情緒標注過程相似)。②特征提取。首先,采用成熟的中文分詞工具Jieba對樣本與非樣本數據進行文本分詞,得到每條樣本的文本分詞列表;然后,基于哈工大停用詞庫去掉“的”、“地”、“得”等停用詞,并且去掉單字與重復詞;最后,采用卡方統計方法計算每個分詞代表每個情感類的信息量,經過特征降維以后選取前N個信息量最高的詞作為該條新聞評論的關鍵特征。

⑵ 情緒分類器構建

在完成數據預處理以后,便可將樣本數據中每條評論的關鍵特征與情緒類型作為數據輸入,采取機器學習方法構建情緒分類器?;赑ython中Scikit-learn提供的4種典型分類算法,即LinearSVC(線性支持向量機)、MultinomialNB(樸素貝葉斯)、BernoulliNB(伯努利貝葉斯)、以及LogisticRegression(邏輯回歸),通過對比研究將準確率最高的分類器作為最終的情緒分類器。

⑶ 情緒分類器應用

在完成情緒分類器構建以后,便可將“特征提取”處理后的非樣本數據導入情緒分類器,從而實現新聞評論情緒類型的快速劃分。然后,與新聞文本情感效價識別方法類似,基于新聞評論的情緒類型識別結果,通過產生式規則實現新聞評論情感效價的自動識別。

1.4 情緒相關性分析

在完成新聞文本與新聞評論的情緒識別后,便可借助SPSS工具開展交叉表分析,從而挖掘新聞文本情緒與新聞評論情緒之間的影響關系。交叉表分析是指同時將兩個或兩個以上有一定聯系的變量及其變量值按照一定的順序交叉排列在一張統計表內,使各變量值成為不同變量的結點,從中分析變量之間的相關關系[10]。

SPSS工具提供了交叉表分析功能,通過[Analyze→Descriptive→Crosstabs],并且選擇Phi and Cramer's V可以評估交互分析中兩個變量的關系強度。本研究將從粗粒度(情感效價)與細粒度(情緒類型)兩方面,基于SPPS工具的交叉表分析功能開展新聞文本與新聞評論的情緒對應度分析,以深入挖掘二者之間的影響關系。

2 實例分析

以2019年12月爆發的“新冠肺炎”為研究對象,采集主流媒體在微信平臺發布的相關報道進行新聞情緒分析以考察情緒設置的效果。

2.1 數據采集

本文選擇主流媒體微信公眾號:人民日報、新華社、央視新聞、中國新聞周刊,在2019年12月8日(首例發病日)至2020年3月19日(疫情拐點)發布的與“新冠肺炎”相關的新聞文本與對應新聞評論作為數據基礎,以新冠肺炎、抗疫、疫情等為關鍵詞,基于Scrapy框架,采用Python對相關微信公眾號的文章進行采集,共計有效新聞文本2511條、47668條評論,結果見表2。

2.2 情緒識別

2.2.1 新聞文本情緒識別

針對2511條新聞文本,8位標注員采用人工標注方式獲得新聞文本的情緒類型,結果如圖2所示。

2.2.2 新聞評論情緒識別

針對47668條采集的新聞評論,首先隨機挑選6000條新聞評論作為樣本數據;然后采用4種機器學習算法(LinearSVC、MultinomialNB、BernoulliNB、LogisticRegression)構建情緒分類器,其準確率依次為76.9%、66.6%、60.8%、71.3%。因此,本研究最終基于LinearSVC算法構建情緒分類器實現新聞評論情緒的識別,結果如圖3所示。

2.3 情緒相關性分析

2.3.1 粗粒度分析

基于新聞文本與新聞評論的情感效價識別結果,通過SPSS的Crosstabs開展粗粒度情緒相關性分析,以挖掘新聞文本情感效價與新聞評論情感效價之間的關系。新聞文本情感效價與新聞評論情感效價的交叉表分析結果見表3。

研究發現如下:新聞文本情感效價為正向時,所引發的新聞評論的情感效價以正向為主;新聞文本情感效價為負向或中性時,所引發的新聞評論的情感效價以正向為主。

2.3.2 細粒度分析

為進一步分析新聞文本與新聞評論的情緒類型是否具有相同或同質性關系,開展細粒度情緒相關性分析?;赟PSS的交叉表分析,將每種新聞文本情緒及其誘發占比最高的評論情緒進行總結,得到結果見表4。

由表4可知,正向情感效價的新聞文本情緒,會誘發相同或同質的正向評論情緒,且排行較高的是鼓舞。中性情感效價的新聞文本情緒,主要誘發正向評論情緒,且排行前高的是鼓舞。負向情感效價的新聞文本情緒主要誘發正向評論情緒,且排行較高的是信任。

3 研究結論與分析

根據新聞文本與新聞評論的情緒識別結果以及兩者的相關性分析結果可得出如下結論。

⑴ 主流媒體在“新冠疫情”新聞報道中以正向情緒報道為主,并且誘發公眾評論以相同或同質的正向情緒為主,兩者存在顯著的對應性。

究其原因如下:主流媒體作為“新冠疫情”中信息發布主體,肩負疫情實況通報、穩定輿論等傳播職責,因此新聞文本正性情緒占比較高,具有現實合理性。此外,徐翔教授認為網絡傳播情緒與受眾情緒之間存在對應性[4],通過對新聞文本“情緒設置”,正向報道將會引導公眾以正性情緒進行思考與表達。

⑵ 當新聞文本為中性或負性情緒時,所誘發的新聞評論情緒以正向情緒為主,二者不存在明顯對應性。

基于“情緒設置”理論,中性或負性情緒新聞文本將會引發中性或負性的公眾情緒,然而研究結果卻并不如此,究其原因,其一,主流媒體存在“降噪機制”。 雖然客觀中立作為新聞專業的核心價值,但是主流媒體承擔發布權威信息、引導社會輿論的功能,設立合理的情緒“降噪機制”,能夠促進新聞報道在重大突發性事件中發揮積極作用。其二,危機事件中,受眾存在情緒認知偏差。時勘教授發現重大突發性災難事件中人們存在“臺風眼效應”[11],即受眾對疫情發展與防控方面的信息把控較好時,伴隨疫情逐漸被控制,人們心中產生樂觀情緒。換言之,當國家采取有效方式應對危機事件,受眾會將新聞報道中攜帶的負向或中性情緒轉化為正向樂觀情緒。

4 結束語

本文提出了一種基于機器學習與交叉表分析的新聞情緒分析方法。采用機器學習分類方法實現了新聞情緒類型的快速劃分,有利于網絡監管機構高效監督新聞傳播者與接受者的情緒變化;基于SPSS的交叉表分析方法評估了新聞文本與新聞評論情緒之間的相關性,可以有效幫助主流媒體考察輿情治理的效果。

在未來的工作中,一方面可以進一步對算法進行改進,以提高情緒分類器的準確率;另一方面將相關算法集成到一個應用軟件中,以提高方法的實用性。

參考文獻(References):

[1] Mart I E. Sentiment analysis in Twitter[J]. InternationalJournal of Computer Science Issues,2018.9(4):372-378

[2] 隋巖,李燕.論群體傳播時代個人情緒的社會化傳播[J].現代傳播(中國傳媒大學學報),2012.34(12):10-15

[3] 喻國明.網絡輿情治理要素設計與操作關鍵[J].新聞與寫作,2017.1:10-13

[4] 徐翔,陽恬.網絡傳播中“情緒設置”的同質效應與傳導研究[J].中國新聞傳播研究,2018.1:144-155

[5] 張婕,劉召霞,劉贏憶,陳向一.新型冠狀病毒肺炎疫情下民眾信息獲取狀況與情緒影響[J].暨南大學學報(自然科學與醫學版),2020.41(6):527-533

[6] 殷昊.面向微博文本的情緒識別和分類方法研究[D].蘇州大學,2018.

[7] 朱曉光,聶培堯,林培光.基于監督學習的微博情感分類方法[J].計算機應用與軟件,2015.8:238-242

[8] 郝苗苗,徐秀娟,于紅等.基于中文微博的情緒分類與預測算法[J].計算機應用,2018.38(2):89-96

[9] Ekman P, Friesen W V. Constants across Cultures in the?Face and Emotion[J]. Journal of Personality and Social Psychology,1971.2:124-129

[10] Wagner, A, Kamakura, et al. Statistical Data Fusion forCross-Tabulation[J].Journal of Marketing Research,1997.34(4):485-498

[11] 時勘,范紅霞,賈建民等.我國民眾對SARS信息的風險認知及心理行為[J].心理學報,2003.35(4):546-554

猜你喜歡
新冠肺炎機器學習微信平臺
政府要做好公共價值的創造者和守護者
新冠肺炎疫情前期應急防控的“五情”大數據分析
科學與價值:新冠肺炎疫情背景下的風險決策機制及其優化
臺陸委會正式改稱“新冠肺炎”
基于網絡搜索數據的平遙旅游客流量預測分析
新媒體時代微信輿情的監控策略研究
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
基于微信平臺的高中物理“翻轉課堂”教學初探
科技期刊全媒體出版實施方案探析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合