?

基于時間編碼LSTM的高校輿情熱點趨勢預測研究

2022-09-18 03:56易杰曹騰飛黃明峰黃肖翰張子震
大數據 2022年5期
關鍵詞:輿情編碼預測

易杰,曹騰飛,黃明峰,黃肖翰,張子震

1. 青海大學計算機技術與應用系,青海 西寧 810016;

2. 云上貴州大數據產業發展有限公司,貴州 貴陽 550081

0 引言

隨著互聯網通信技術的快速發展,多樣的新媒體平臺(如微博、抖音、貼吧等平臺)將信息及時推送給用戶,使得社會發生的實時新聞能迅速傳播。據中國互聯網絡信息中心發布的第47次《中國互聯網絡發展狀況統計報告》統計,截至2020年12月,我國網民規模達9.89億,其中學生占比最高[1],達到21%。新時代下高校學生作為互聯網用戶的主要群體,在網絡上的參與度以及活躍度比較高。當高校突發一些熱點事件時,由于高校學生思想活躍并且樂于表達自我看法,實時熱點問題會引發激烈的討論[2]。若輿情信息的價值取向是負面的,則極易帶偏高校學生的思想觀念,從而引發一系列高校輿情管理問題,高校輿情管理的重要性不言而喻[3]。

近些年,高校輿情事件頻頻發生,其中輿情信息的主題主要圍繞社會時事、校園安全、師風師德、學術造假等方面,例如研究生校內身亡、高校實驗室爆炸、學生違紀違法等事件。在事情的真相還未正式公布時,網絡上各種評論的助推極易導致錯誤的輿情發展方向,引發一系列高校以及社會輿情管理問題[4]。高校輿情發展一般是階段性的,初期由個別大學生在網絡上發布自己對某個問題的想法,而后隨著時間的推移,逐漸引起大范圍的關注,引發更多的討論。一般情況下,網絡輿情的發展趨勢遵循新聞傳播學中的“沉默螺旋效應”,大多數人支持的意見會因為更多的人贊同而越來越流行;而少數人支持的觀點會逐漸減少直至最后消失[5]?;诖嗽?,若輿情的發展趨勢能比較及時、準確地被預測,高校有關部門就能在短時間采取相應的應對措施,合理地解決問題,以達到對輿情發展進行管控的目的。因此,對高校輿情的發展趨勢進行預測,有助于新媒體時代下的大學校園完善管理體系,及時預測輿情發展趨勢并加以正確的引導[6],能極大地提升高校對突發輿情事件的處置水平[7-8]。

基于上述分析,對輿情熱度的預測分析顯得尤為重要,不僅關乎高校學生的思想健康發展,而且關乎整個社會的價值觀取向和穩定性。由于輿情信息的發展一般會隨著時間變化,當獲取到輿情的時序數據后,需要對數據進行分析處理,找到數據的變化和發展趨勢,對未來輿情事態的發展做出預測,以便及時管控。隨著互聯網技術的發展,在大數據和人工智能等技術的推動下,時序數據處理的有效性逐漸提高。因此,本文利用長短期記憶網絡(long short-term memory,LSTM)對時序數據處理的有效性,研究基于時間編碼的LSTM模型。LSTM對時序數據的處理具有極大的優勢,但是其只考慮了數據相對的先后順序,不包含絕對的時間意義,如LSTM在自然語言處理任務上的應用[9]。對輸入數據加入時間編碼,即在使用LSTM處理數據時,同時考慮熱點話題發生的具體時間,以實現對高校輿情熱點的精準預測。與支持向量機(support vector machine,SVM)和循環神經網絡(recurrent neural network,RNN)兩種模型的預測結果進行對比發現,基于時間編碼的LSTM在熱度預測準確率上具有明顯優勢。

1 相關工作

1.1 輿情分析和預測

高校輿情經常引發全社會的廣泛關注,而輿情的正確引導對于高校管理以及社會的穩定發展有著十分重要的意義。參考文獻[10]針對高校在輿情管理和引導工作中遇到的挑戰與問題,構建以“大數據”為支撐、新媒體為載體、機制創新為保障的“三位一體”的輿情管理和引導的工作模式,營造了良好的校園輿論生態環境。該參考文獻考慮了高校輿情對學生意識形態管理的意義,并提出引導輿情向正確方向發展的策略,然而其在輿情發展趨勢預測方面的考慮不足,導致難以有效地引導輿情的發展[11-13]。在網絡輿情預測的研究方面,參考文獻[14]針對區間猶豫模糊集在描述決策信息時會導致決策信息重要性程度降低這一問題,構建了一種基于概率區間猶豫模糊幾何算子的多屬性群決策模型,且通過網絡輿情預測系統的選擇實例驗證了所提決策模型是可行和有效的。秦濤等人[15]提出一種基于排序學習的輿情事件演化趨勢重要性評估算法。在模型訓練過程中,充分利用標注數據中的專家知識以及有標簽數據和無標簽數據的關聯關系,篩選出重要輿情事件并進行管控,提升了資源的利用效能。參考文獻[16]以網絡流文本為對象,通過分析網絡話題內容焦點的遷移特性,提出了網絡話題內容焦點的識別方法。上述方法由于模型訓練未考慮輿情事件的動態變化性,預測準確率不高,還需要進一步增強模型的適應性。

1.2 輿情時序數據處理

由于輿情熱度數據按照時間序列變化,劉定一等人[17]針對單一模型預測精度不高和社交媒體對輿情走勢影響較大的問題,提出了融合微博熱點分析和LSTM的輿情預測方法。然而特征集的數量較少,網絡輿情謠言識別的準確率還有待提高。笱程成等人[18]利用深度循環神經網絡對社交消息的傳播過程進行建模,提出了SMOP模型。該模型由于優化目標單一,未考慮通過聯合建模優化來進一步提升預測準確率。彭丹蕾等人[19]針對如何高效挖掘處理大量評論數據并進行情感分析的問題,采用SVM和LSTM分別對從京東網站爬取的商品評論進行建模。由于情感分析涉及的學科跨度比較大,并且采集的數據集比較單一,該模型適應性不強。為了有效監控和管理新型冠狀病毒肺炎疫情引起的網絡輿情,景楠等人[20]基于差分自回歸移動平均(autoregressive integrated moving average,ARIMA)模型以及LSTM預測和分析輿情數據,對輿情模型進行參數估計、模型診斷和模型評價。由于未考慮各地區疫情發展的影響因素不同,該模型適應性不足。張陶等人[21]針對無屬性社交網絡的節點分類問題,提出了一種基于圖嵌入與SVM的社交節點分類方法。由于采用靜態的社交網絡數據集進行模擬,該方法對動態社交網絡的適應性不足,應用范圍受到限制。針對方面情感,宋婷等人[22]提出基于方面情感分析的深度分層注意力網絡模型,利用改進的LSTM獲取句子內部和句子間的情感特征。由于未包含跨領域的詞匯和網絡用語句子的方面情感分析,該模型的情感分類效果有待進一步提高。

根據以上分析,現有的時序數據處理模型存在算法預測精確度不夠高、特征集和數據集比較單一的問題,并且很少結合輿情數據動態更新預測值。本文在對高校輿情數據進行處理時,利用關鍵詞匹配全面考慮高校的相關信息,目的在于提高對高校輿情信息預測的準確率。結合時間編碼方法,對輿情熱度數據的絕對時間因素進行分析,可以解決L S T M處理時序數據時僅考慮數據先后關系的問題。同時利用實時輿情數據動態更新預測值,使得預測精確率進一步提升。本文提出基于時間編碼L STM的高校輿情熱點趨勢預測研究方法,動態調整評估參數。本文研究主要包括以下5個方面:一是獲取微博熱搜數據集合;二是通過降維、篩選、升維3種方法對數據集進行處理;三是將熱點話題的時間編碼加入數據集并進行歸一化處理;四是生成訓練集和測試集,利用訓練集訓練模型并生成預測模型,再利用測試集進行模型預測;五是對比分析預測值與真實值,最后評估各個模型的性能,驗證了基于時間編碼的L S T M在輿情熱點時序數據處理方面的優越性。

2 模型介紹

2.1 LSTM模型

RNN在時序數據處理過程中會保留之前所有輸入數據信息。一方面,隨著后序數據的輸入,先前的輸入對模型隱含層的影響會越來越小,即長距離的依賴問題;另一方面,一些不重要的信息將被RNN保留。為了克服上述困難,LSTM被提出,該模型具有保持長期記憶性的特點,在時序數據處理方面具有良好的性能,LSTM結構如圖1所示。LSTM模型的構建如下。

圖1 LSTM結構

首先,對輸入數據xi-1和隱含狀態hi-1進行運算,得到LSTM的遺忘門,如式(1)所示:

在式(1)中,對輸入數據xi-1、隱含狀態hi-1與遺忘門的權重W1進行線性運算,b1表示引入的偏置項,再經過sigmoid激活函數引入非線性元素,此時C?(0,)1。C越大,記憶的部分越大。將C與當前的長期記憶狀態ci-1相乘并輸出,即遺忘門的輸出表示對長期記憶狀態的記憶程度,如式(2)所示:

接下來計算LSTM的輸入門部分,圖1中si表示輸入門的sigmoid神經網絡層,符號×表示點乘運算操作,激活函數tanh將輸入的新信息歸一化到(-1,1),通過點乘運算對信息進行縮放,決定保留哪些新信息,如式(3)、式(4)所示:

通過上述過程,LSTM模型可以完成對已有長期記憶元素的更新,如式(6)所示:

其中,ci將被用于下一層LSTM的計算。與RNN相比,LSTM在輸出時也進行了一定的改進。LSTM在輸出時綜合考慮了當前長期記憶和當前輸入數據的影響,如式(7)所示:

使用tanh函數激活當前長期記憶結果的值,得到LSTM的實際輸出,yi-1表示當前時刻的話題熱度。

2.2 損失函數與優化

在訓練模型時,需要將損失函數的值降至較低水平,以提高模型性能。損失函數是衡量神經網絡性能的重要參考指標,通常損失函數在測試集上的結果越小,模型的性能越好。常用的損失函數有適用于回歸問題的均方誤差(mean square error,MSE)損失函數和適用于分類問題的交叉熵(cross entropy)損失函數等。對高校熱點輿情話題的預測屬于回歸問題,因此將MSE作為損失函數,如式(9)所示:

時序數據通常具有隱含關系。通過神經網絡的訓練,挖掘數據的潛在特征,從而實現對數據的預測,即神經網絡目標是一個回歸任務。因此選擇MSE對損失函數進行優化,提升模型性能。

2.3 評價指標

除了M S E,還可將平均絕對誤差(mean absolute error,MAE)和平均絕對百分比誤差(mean absolute percentage error,MAPE)作為模型的評價指標。

MAE表示預測值與真實值之間的誤差平均絕對值,如式(10)所示:

MAE能更好地反映預測值誤差的實際情況(已經經過歸一化)。模型測試數據的MAE越大,預測誤差越大。MAPE表示預測值與真實值的平均差距百分比,如式(11)所示:

值得注意的是,一個較好的評估模型的MAPE值應該為0,其表示預測值與真實值之間沒有差別。

3 實驗與分析

3.1 數據集的獲取

本研究使用的數據集來自新浪微博熱搜榜,由于微博是一個實時信息交流分享平臺,一旦輿情信息出現,將在短時間內迅速傳播,因此分析微博熱搜數據的熱度變化趨勢具有重要的研究意義。

具體的熱度數據采集過程如下,首先通過Python框架對頁面內容進行解析,并定義需爬取的字段,接著從某個時刻開始,每間隔15 min對熱搜榜數據進行一次爬取,例如從0:00起,采集0:00、0:15、0:30等時間點的數據。如果熱點話題仍在熱搜榜上,就繼續采集并添加熱度值;否則,將新上榜的熱搜數據添加至表中,最后保存所收集的數據,用于后續實驗分析。熱搜榜每次顯示50個熱點話題,按照其搜索熱度進行排名。

由于研究對象是包含時間序列關系的話題名和熱度值,因此將收集到的數據按照時間變化存儲,對于某時刻不在熱搜榜的話題,其在該時刻的熱度為空。最終用于實驗仿真的數據包含排名、關鍵詞、熱度、熱度標識、時間5個維度,共15 000余條數據。整理收集到的數據,部分熱搜數據示例見表1。

表1 新浪微博部分熱搜數據示例

3.2 數據集的處理

3.2.1 降維

本文針對話題熱度值進行預測,在獲得原始數據集后,首先對數據集進行降維處理,刪減與本文研究內容無關的維度,去掉冗余變量,這有助于提高算法的準確率。一方面,微博熱搜榜的“爆”“沸”“熱”等熱度標識來源于實時熱度值高低,熱度標識與熱度值意義重復,關系冗余,因此將數據集的熱度標識維度刪除。另一方面,微博話題熱度序號只顯示熱度排名前50的話題,而熱搜榜在實時變化,某一時刻的熱度排名只與該時刻的話題熱度有關,在對熱度進行預測時,該時刻的相對排名對于研究意義不大,因此將熱度排名維度刪除。通過對數據集的降維處理,可以節約高校輿情熱點趨勢預測方法的訓練時間。降維后的熱搜數據示例見表2。

表2 降維后的熱搜數據示例

3.2.2 升維

在收集輿情數據時,按照15 min的間隔進行收集。熱點話題在熱搜榜不斷地出現或消失,在存儲某一時刻的熱搜榜數據時,下一時刻該話題的熱度數據可能消失,新的話題可能出現,因此在數據的整合和存儲方面,需要考慮熱搜話題變化帶來的數據維度不一致問題。

針對上述問題,對原數據集進行升維操作,在原始數據基礎上增加時間序列維度,按時間順序記錄每一數據爬取時刻的熱度值。若話題熱度不夠高,未進入熱搜榜或熱度已經下降并離開熱搜榜,則該時刻的熱度值為空。升維后的熱搜數據示例見表3。

表3 升維后的熱搜數據示例

3.2.3 篩選

微博熱搜榜的話題包含娛樂、體育、民生、時政等多個話題類型,本文針對高校輿情類話題進行研究,因此需要對熱搜話題進行篩選。針對與高校輿情相關的話題,通過關鍵詞方式進行篩選。在獲得的數據集中,將“高?!薄按髮W”“學院”等與高校相關的話題關鍵詞表示為集合K={k1,k2,k3,…},若話題與集合無交集,則為無關話題,對無關的話題進行忽略處理。對輿情話題進行分詞處理,分詞前后的話題見表4。

表4 分詞前后的話題

接著將分詞后的輿情話題與高校關鍵詞集合K進行匹配與篩選,保留與高校輿情相關的熱點話題以及熱度值變化情況,去除與高校輿情無關的數據信息,篩選后的高校熱點數據見表5。

表5 篩選后的高校熱點數據

3.3 時間編碼與歸一化

在對數據進行歸一化處理之前,首先加入時間編碼,具體過程是對收集數據的每個時刻進行編碼,例如從0:00開始收集數據,0:15的時間編碼參數是0.25,0:30的時間編碼參數是0.5,0:45的時間編碼參數為0.75……具體的時間編碼參數設置過程是將每小時分為4個部分,每部分占比為25%,若當前時刻為H時M分,編碼參數設置為。對高校輿情數據進行時間編碼的優勢是,若熱度持續時間大于或等于24 h,此時時間編碼大于或等于24,規定從0進行編碼。在時間編碼后,輿情數據之間的前后關系由于含有絕對時間的編碼參數,輿情熱度會隨著時間發生變化,因此進一步結合不同時間段的輿情數據進行分析,可以提高輿情熱度預測的準確率。接著對數據進行歸一化操作,對以十萬甚至百萬為單位的熱度數據進行歸一化處理,能加速模型收斂,提高模型精度。熱度數據歸一化可以對每個熱點話題的時間變化序列數據進行歸一化,也可以針對所有熱度值進行歸一化??紤]到每個話題的熱度變化范圍不同,某些話題的峰值熱度可能仍低于其他話題的中等熱度,導致歸一化后的相對熱度表示誤差較大,因此采用整體歸一化的思路進行處理。數據歸一化表示為:

在式(12)中,x表示某一時刻的熱度值,xmin表示該話題的最小熱度值,xmax表示該話題的最大熱度值。通過熱度值的歸一化,有效地減小了熱度值范圍跨度。在后續神經網絡訓練及預測時,數據不會因為微小擾動而產生巨大誤差,因此數據擬合與損失函數的收斂速度將進一步提高。

3.4 RNN、SVM、LSTM和基于時間編碼的LSTM的輿情熱度預測

首先將數據集分為訓練集和測試集兩類,將數據集的70%作為訓練集,30%作為測試集。訓練時設置學習批次大小為128,使用隨機梯度下降法對模型進行優化,學習率設置為0.01,損失函數使用MSE。為了進一步對比驗證時間編碼的優勢,與不含時間編碼的LSTM進行對比。

實驗一共進行100輪訓練,使用梯度下降法反向傳播誤差,更新隱含層權重

經過100輪訓練,損失函數已經趨于零,說明模型性能基本達到最優。RNN、SVM、LSTM和基于時間編碼的LSTM在訓練集上的預測效果分別如圖2、圖3、圖4、圖5所示。其中,SVM使用高斯核函數,該核函數的參數gamma設置為0.1。

圖2 RNN訓練集預測效果

圖3 SVM訓練集預測效果

圖4 LSTM訓練集預測效果

圖5 基于時間編碼的LSTM訓練集預測效果

從圖2~圖5可以看出,基于時間編碼的LSTM的預測性能略優于普通的LSTM,同時預測結果也比SVM、RNN更加準確,原因在于基于時間編碼的LSTM不僅對時間序列數據保持長期的記憶性,而且具有更新數據信息的能力。同時,加入時間編碼后,LSTM在輿情熱度值與絕對時間之間建立了相應的聯系,因此其在輿情趨勢預測方面具有較好的性能。

接著使用100輪訓練后LSTM、RNN、SVM和基于時間編碼的LSTM模型,在測試集上進行預測,依次對每個話題的數據集進行測試,預測數據與真實數據的誤差在較低水平。RNN、SVM、LSTM和基于時間編碼的LSTM在測試集上的預測效果分別如圖6、圖7、圖8、圖9所示。

圖6 RNN測試集預測效果

圖7 SVM測試集預測效果

圖8 LSTM測試集預測效果

圖9 基于時間編碼的LSTM測試集預測效果

對比4種模型在測試集上的預測效果,基于時間編碼的L STM性能最優。SVM在熱度較低時的預測結果偏高,在熱度值最高點的預測結果偏低。由于熱度變化是有規律的,可以根據前序數據得到后序數據,而SVM沒有考慮前序數據的變化特征,導致其回歸精度不夠高。出現高校輿情后,通過基于時間編碼的LSTM對輿情熱度趨勢進行預測,及時引導輿論發展的方向,將有利于高校對學生思想健康的管理,提升高校處理輿情事件的水平。

4 模型評估

4.1 基于時間編碼的LSTM模型真實集評估

以某真實事件為例,對新浪微博中該事件的真實熱度數據每間隔15 min采集一次,并對收集到的數據進行整理保存。首先,對上述數據進行預處理歸一化,并加入時間編碼參數,將前45 min的數據作為神經網絡的輸入,預測得到下一時刻的輸出。由于輿情數據受多種因素的影響,單獨使用模型進行預測的效果不理想,故需要結合輿情實時的動態變化性對評估參數進行調整。在預測下一時刻的熱度值時,可以根據輿情變化做出相應的處理,在獲得真實數據后,結合真實熱度數據進行預測,即進行動態的校正與下一步預測,動態調整過程如圖10所示。

圖10 動態調整評估參數

結合動態調整策略,對真實事件持續處于熱搜榜的18.5 h(即74個時刻)進行預測,分別使用SVM、RNN、LSTM以及基于時間編碼的LSTM進行預測,結果分別如圖11、圖12、圖13、圖14所示。分析實驗結果可知,基于時間編碼的LSTM模型能得到事件在具體時刻的熱度,結合動態調整策略,其適應性得到提高。與其他3種算法相比,基于時間編碼的LSTM的預測準確率是最高的。當高校輿情熱點趨勢即將進入爆發期時,相關部門及時響應或調整策略,對輿情熱點發展趨勢進行管控,有助于高校完善輿情管理體系。

圖11 SVM真實集預測效果

圖12 RNN真實集預測效果

圖13 LSTM 真實集預測效果

圖14 基于時間編碼的LSTM真實集預測效果

隨著時間推進,相關部門可根據預測結果,提前為輿情的發展做出判斷和回應。然而,神經網絡不能自動判斷預測停止時間。通過實驗和數據分析可以得出,當熱度數據預測值低于最低話題熱度值時,可認為話題熱度低于熱搜榜上榜要求,停止預測。

4.2 誤差評估分析

對基于時間編碼的LSTM、LSTM、RNN和SVM 4種模型在不同數據集上的MAPE和MAE進行對比,結果如圖15所示。從圖15可知,MAPE和MAE的數值越小,預測值與真實值的誤差越小,即預測結果越接近真實值。在4個模型中,基于時間編碼的LSTM的預測效果是比較準確的。從MAPE對比實驗結果分析:基于時間編碼的LSTM在訓練集和測試集上的預測效果明顯優于其他3種模型。從MAE對比實驗結果分析,基于時間編碼的LSTM模型預測效果在訓練集、測試集和真實集上明顯優于RNN和SVM。但受到真實事件的動態變化性以及不確定因素的影響,基于時間編碼的LSTM模型在部分預測集上的效果略差,后續研究需進一步提升模型的穩定性。綜合比較,基于時間編碼的LSTM還是具有明顯優勢的,在測試集上的預測效果優于其他模型。因此,使用基于時間編碼的LSTM對高校輿情熱點趨勢進行預測具有較高的準確率,可以降低輿情帶來的不利影響。

圖15 模型預測效果

5 總結與展望

本文通過爬取新浪微博中高校的輿情熱點數據,使用基于時間編碼的LSTM學習輿情數據熱度的時序變化情況,并對時序數據進行建模。將經過多輪訓練和參數調優的基于時間編碼LSTM的高校輿情熱點趨勢預測模型與RNN、SVM和LSTM 3種模型的預測結果進行對比分析,實驗結果表明,基于時間編碼的LSTM在訓練集、測試集、真實集上的預測結果誤差較小,具有良好的實時預測效果。本文可為相關部門預測熱點事件的輿情趨勢變化提供一定的參考,從而及時做出相應的決策。未來研究將從熱點問題的內容與評論入手,進一步研究基于時間編碼的LSTM模型的穩定性,建立更完善的輿情預測模型,挖掘更深層次的輿情趨勢的發展規律。

猜你喜歡
輿情編碼預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
選修2—2期中考試預測卷(A卷)
生活中的編碼
《全元詩》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應用
Genome and healthcare
數字輿情
數字輿情
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合